ปัญญาประดิษฐ์การเรียนรู้เชิงลึกการสำรวจระยะไกลภาพถ่ายดาวเทียมวิศวกรรมคุณสมบัติการเรียนรู้ของเครื่องการสังเกตการณ์โลกวิชั่นคอมพิวเตอร์

การเรียนรู้การแสดงผลสำหรับข้อมูลดาวเทียมเทียบกับการสร้างคุณลักษณะด้วยมือ

การเรียนรู้การแสดงผลสำหรับข้อมูลดาวเทียมใช้โครงข่ายประสาทเทียมเพื่อค้นหารูปแบบที่มีประโยชน์จากภาพดิบโดยอัตโนมัติ ในขณะที่การสร้างคุณลักษณะด้วยมืออาศัยตัวบ่งชี้ที่มนุษย์ออกแบบ เช่น ดัชนีสเปกตรัมและการวัดพื้นผิว ทั้งสองแนวทางนี้ใช้แก้ปัญหาการสังเกตการณ์โลก แต่มีความแตกต่างกันอย่างมากในด้านความสามารถในการปรับขนาด ความสามารถในการปรับตัว และความเชี่ยวชาญที่จำเป็นในการใช้งานอย่างมีประสิทธิภาพ

ไฮไลต์

การเรียนรู้การแสดงผลจะขยายตัวตามปริมาณข้อมูล ในขณะที่คุณลักษณะที่สร้างขึ้นด้วยมือจะถึงจุดอิ่มตัวเมื่อได้ดัชนีที่มีข้อมูลมากที่สุดแล้ว
คุณลักษณะที่สร้างขึ้นด้วยมือยังคงสามารถตีความได้และมีความเชื่อมโยงทางกายภาพ ในขณะที่การแสดงผลที่เรียนรู้มามักต้องการเครื่องมืออธิบายภายหลัง
โมเดลพื้นฐานอย่าง Prithvi และ SatMAE ในปัจจุบันนำเสนอโมเดลที่ผ่านการฝึกฝนล่วงหน้าแล้ว ซึ่งสามารถถ่ายโอนข้อมูลได้ระหว่างเซ็นเซอร์และภูมิประเทศต่างๆ
ไปป์ไลน์ที่สร้างขึ้นด้วยมือสามารถฝึกฝนได้ในเวลาเพียงไม่กี่วินาทีบนฮาร์ดแวร์ระดับปานกลาง ในขณะที่โมเดลเชิงลึกอาจต้องใช้เวลาประมวลผลด้วย GPU เป็นเวลาหลายสัปดาห์

การเรียนรู้การแสดงผลสำหรับข้อมูลดาวเทียม คืออะไร

วิธีการเรียนรู้เชิงลึกที่ใช้โครงข่ายประสาทเทียมในการเรียนรู้คุณลักษณะที่มีความหมายโดยอัตโนมัติจากภาพถ่ายดาวเทียมดิบหรือที่ผ่านการประมวลผลน้อยที่สุด

เครือข่ายประสาทเทียมแบบคอนโวลูชันเชิงลึกถูกนำมาใช้ครั้งแรกในการจำแนกประเภทการใช้ที่ดินจากข้อมูลการสำรวจระยะไกลราวปี 2012 และมีรายงานความก้าวหน้าครั้งสำคัญภายในปี 2014
เรียนรู้คุณลักษณะเชิงลำดับชั้นจากแถบสเปกตรัม รูปแบบเชิงพื้นที่ และลำดับเวลาโดยไม่ต้องระบุด้วยตนเอง
วิธีการเรียนรู้แบบกำกับตนเอง เช่น การเรียนรู้แบบเปรียบเทียบ ในปัจจุบันใช้ประโยชน์จากภาพถ่ายดาวเทียมที่ไม่มีป้ายกำกับหลายล้านภาพจากภารกิจต่างๆ เช่น Sentinel-2 และ Landsat
โมเดลพื้นฐาน เช่น Prithvi, SatMAE และ SatVision ได้รับการฝึกฝนล่วงหน้าบนคลังข้อมูลการสังเกตการณ์โลกขนาดเพตาไบต์
ให้ความแม่นยำระดับแนวหน้าบนชุดข้อมูลมาตรฐาน เช่น EuroSAT, BigEarthNet และชุดข้อมูลหลายเซ็นเซอร์ SEN12MS

วิศวกรรมคุณสมบัติที่ประดิษฐ์ขึ้นด้วยมือ คืออะไร

วิธีการแบบดั้งเดิมที่ผู้เชี่ยวชาญเฉพาะด้านออกแบบตัวบ่งชี้ทางคณิตศาสตร์ด้วยตนเองเพื่อดึงข้อมูลที่มีความหมายจากภาพถ่ายดาวเทียม

อาศัยดัชนีสเปกตรัม เช่น NDVI, NDWI และ EVI ซึ่งถูกนำมาใช้ในการสำรวจระยะไกลตั้งแต่ทศวรรษ 1970
การวัดพื้นผิว เช่น GLCM (Gray-Level Co-occurrence Matrix) และตัวกรอง Gabor จะวัดปริมาณโครงสร้างเชิงพื้นที่ในพิกเซล
มักใช้ร่วมกับตัวจำแนกประเภทการเรียนรู้ของเครื่องแบบคลาสสิก เช่น Random Forests และ Support Vector Machines
ยังคงมีการใช้งานอย่างแพร่หลายในระบบปฏิบัติการของหน่วยงานต่างๆ เช่น NASA, ESA และ USGS เนื่องจากสามารถตีความได้ง่าย
ต้องอาศัยความเชี่ยวชาญเฉพาะด้านอย่างมาก แต่ผลลัพธ์ที่ได้นั้นเป็นประโยชน์ที่นักวิทยาศาสตร์สามารถเข้าใจและตรวจสอบได้โดยตรง

ตารางเปรียบเทียบ

ฟีเจอร์	การเรียนรู้การแสดงผลสำหรับข้อมูลดาวเทียม	วิศวกรรมคุณสมบัติที่ประดิษฐ์ขึ้นด้วยมือ
การออกแบบคุณสมบัติ	อัตโนมัติผ่านการฝึกเครือข่ายประสาทเทียม	คู่มือโดยผู้เชี่ยวชาญเฉพาะด้าน
ข้อกำหนดด้านข้อมูล	ชุดข้อมูลขนาดใหญ่ที่มีป้ายกำกับหรือไม่มีป้ายกำกับ	ชุดข้อมูลขนาดเล็กที่คัดสรรมาอย่างพิถีพิถัน
ความสามารถในการตีความ	มักไม่ชัดเจน ต้องใช้เครื่องมือช่วยอธิบาย	โปร่งใสและมีความหมายในเชิงกายภาพ
ต้นทุนการคำนวณ	มีค่าสูงในช่วงฝึกฝน และมีค่าต่ำในช่วงการอนุมาน	โดยรวมแล้วสเปคต่ำ ทำงานได้บนฮาร์ดแวร์ระดับกลาง
ความสามารถในการปรับตัว	สามารถใช้งานได้กับเซ็นเซอร์และภูมิประเทศหลากหลายประเภท	จำเป็นต้องออกแบบใหม่เพื่อรองรับงานหรือภูมิภาคใหม่
จำเป็นต้องมีผู้เชี่ยวชาญ	การเรียนรู้ของเครื่องจักรและการเขียนโปรแกรม	วิทยาศาสตร์การสำรวจระยะไกลและการประมวลผลสัญญาณ
ประสิทธิภาพบนข้อมูลขนาดใหญ่	ปรับขนาดตามขนาดของชุดข้อมูล	ที่ราบสูงหรือพื้นที่เสื่อมโทรมที่มีลักษณะมากเกินไป
ความพร้อมในการปรับใช้	เจริญเติบโตอย่างรวดเร็ว ใช้ในการวิจัยและโครงการนำร่อง	ใช้งานจริงทั่วโลกมานานหลายทศวรรษ

การเปรียบเทียบโดยละเอียด

วิธีการสร้างฟีเจอร์ต่างๆ

การเรียนรู้แบบตัวแทน (Representation learning) สร้างคุณลักษณะผ่านการปรับให้เหมาะสม เครือข่ายประสาทเทียมปรับน้ำหนักภายในนับล้านขณะประมวลผลภาพ ค่อยๆ เข้ารหัสขอบ พื้นผิว รูปร่าง และในที่สุดก็แนวคิดระดับฉาก การสร้างคุณลักษณะด้วยมือ (Handcrafted feature engineering) ทำงานในทางตรงกันข้าม นักวิทยาศาสตร์ตัดสินใจล่วงหน้าว่าอะไรสำคัญ จากนั้นจึงเขียนสูตร NDVI แสดงถึงสุขภาพของพืชเนื่องจากคลอโรฟิลล์สะท้อนแสงอินฟราเรดใกล้ได้ดี และความเข้าใจเชิงฟิสิกส์นั้นถูกฝังอยู่ในดัชนีก่อนที่จะมีการแสดงข้อมูลใดๆ

ความต้องการด้านข้อมูลและการประมวลผล

โมเดลเชิงลึกทำงานได้ดีกับข้อมูลปริมาณมาก ดาวเทียม Sentinel-2 เพียงอย่างเดียวสร้างภาพประมาณ 1.6 TB ต่อวัน และการเรียนรู้การแสดงผลสามารถรองรับข้อมูลจำนวนมหาศาลนี้เพื่อปรับปรุงความแม่นยำ ในทางตรงกันข้าม กระบวนการสร้างข้อมูลด้วยมือมักทำงานได้ดีกับตัวอย่างที่มีการติดป้ายกำกับเพียงไม่กี่พันตัวอย่าง เนื่องจากคุณลักษณะเหล่านั้นมีความหมายทางกายภาพอยู่แล้ว ข้อแลกเปลี่ยนคือฮาร์ดแวร์ การฝึกโมเดลพื้นฐานจากดาวเทียมสมัยใหม่ต้องใช้ GPU หลายสิบตัวเป็นเวลาหลายสัปดาห์ ในขณะที่ Random Forest บนดัชนีที่สร้างด้วยมือสามารถฝึกฝนได้ในเวลาเพียงไม่กี่วินาทีบนแล็ปท็อป

ความสามารถในการตีความและความน่าเชื่อถือ

เมื่อคุณลักษณะที่สร้างขึ้นด้วยมือทำงาน นักวิทยาศาสตร์มักจะรู้สาเหตุที่แท้จริง การลดลงของค่า NDVI บ่งชี้ถึงความเครียดของพืช และความเชื่อมโยงนี้กับคุณสมบัติของใบไม้ได้รับการบันทึกไว้อย่างดีแล้ว อย่างไรก็ตาม การตีความการแสดงผลทางประสาทนั้นยากกว่า แม้ว่าเครื่องมือต่างๆ เช่น Grad-CAM, attention rollout และการแสดงภาพคุณลักษณะ จะช่วยให้เห็นภาพบางส่วนของสิ่งที่แบบจำลองมองเห็นได้ก็ตาม ในด้านที่มีการควบคุม เช่น การรับมือกับภัยพิบัติหรือการรายงานสภาพภูมิอากาศ ช่องว่างในการตีความนี้ยังคงมีความสำคัญและทำให้วิธีการที่สร้างขึ้นด้วยมือยังคงถูกนำมาใช้อย่างต่อเนื่อง

การสรุปผลทั่วไปข้ามเซ็นเซอร์และงานต่างๆ

โมเดลที่ฝึกฝนล่วงหน้าบนดาวเทียม Sentinel-2 มักจะสามารถปรับแต่งเพิ่มเติมสำหรับดาวเทียม Landsat-8 หรือ PlanetScope ได้โดยใช้ข้อมูลใหม่เพียงเล็กน้อย เนื่องจากเครือข่ายได้เรียนรู้ข้อมูลพื้นฐานด้านภาพทั่วไปแล้ว คุณลักษณะที่สร้างขึ้นด้วยมือบางครั้งอาจถ่ายโอนได้ไม่ดีนัก: ดัชนีที่ปรับแต่งสำหรับโครงสร้างแถบคลื่นของเซ็นเซอร์หนึ่งอาจทำงานแตกต่างกันในอีกเซ็นเซอร์หนึ่ง ในทางกลับกัน คุณลักษณะที่สร้างขึ้นด้วยมือสามารถปรับตัวได้อย่างรวดเร็วกับงานเฉพาะทาง เช่น การทำแผนที่แร่ธาตุ ซึ่งอัตราส่วนสเปกตรัมตามหลักฟิสิกส์มีประสิทธิภาพเหนือกว่าการฝังข้อมูลทั่วไปที่เรียนรู้จากภาพธรรมชาติ

ความเป็นจริงในการปฏิบัติงาน

ระบบการผลิตจำนวนมากยังคงผสมผสานทั้งสองโลกเข้าด้วยกัน แอปพลิเคชัน Sentinel ของ ESA, Cropland Data Layer ของ USDA และการสำรวจป่าไม้ระดับชาติหลายแห่งใช้ดัชนีที่สร้างขึ้นด้วยมือเป็นข้อมูลป้อนเข้าสำหรับตัวจำแนกแบบดั้งเดิม เนื่องจากกระบวนการทำงานตรวจสอบได้และบำรุงรักษาง่าย ในขณะเดียวกัน สตาร์ทอัพและกลุ่มวิจัยต่าง ๆ ก็ใช้การแสดงผลแบบเรียนรู้มากขึ้นเรื่อย ๆ สำหรับงานที่ความแม่นยำที่เพิ่มขึ้นนั้นคุ้มค่ากับความซับซ้อน เช่น การประเมินความเสียหายของอาคารหลังแผ่นดินไหว หรือการทำแผนที่ประเภทพืชผลอย่างละเอียด

ข้อดีและข้อเสีย

การเรียนรู้การแสดงผลสำหรับข้อมูลดาวเทียม

ข้อดี

+ ปรับขนาดตามขนาดของข้อมูล
+ ความแม่นยำล้ำสมัย
+ การถ่ายโอนข้ามเซ็นเซอร์
+ ท่อส่งข้อมูลแบบครบวงจร

ยืนยัน

− ต้นทุนการประมวลผลสูง
− จำเป็นต้องใช้ชุดข้อมูลขนาดใหญ่
− ตีความได้ยากขึ้น
− การติดตั้งที่ซับซ้อน

วิศวกรรมคุณสมบัติที่ประดิษฐ์ขึ้นด้วยมือ

ข้อดี

+ สามารถตีความทางกายภาพได้
+ ความต้องการการประมวลผลต่ำ
+ ใช้งานได้กับข้อมูลขนาดเล็ก
+ ผ่านการพิสูจน์แล้วมานานหลายทศวรรษ

ยืนยัน

− ความพยายามในการออกแบบด้วยตนเอง
− จำกัดด้วยความรู้ของผู้เชี่ยวชาญ
− ไม่ค่อยเก่งในฉากที่ซับซ้อน
− ยากต่อการปรับสเกล

ความเข้าใจผิดทั่วไป

ตำนาน

การเรียนรู้โดยใช้การแสดงผลแทนข้อมูลนั้นมีประสิทธิภาพเหนือกว่าการสร้างฟีเจอร์ด้วยมือในงานที่เกี่ยวข้องกับดาวเทียมเสมอ

ความเป็นจริง

ไม่เสมอไป ในชุดข้อมูลขนาดเล็กหรืองานที่มีพื้นฐานทางกายภาพที่แข็งแกร่ง ดัชนีที่สร้างขึ้นด้วยมือซึ่งป้อนข้อมูลให้กับ Random Forest อาจเทียบเท่าหรือเหนือกว่าโมเดลเชิงลึกได้ การเรียนรู้การแสดงผลจะแสดงประสิทธิภาพได้ดีที่สุดเมื่อมีข้อมูลฝึกฝนจำนวนมากและงานนั้นเกี่ยวข้องกับรูปแบบที่ละเอียดอ่อนและมีมิติสูง

ตำนาน

คุณสมบัติที่ทำด้วยมือล้าสมัยไปแล้วในเทคโนโลยีการสำรวจระยะไกลสมัยใหม่

ความเป็นจริง

ไม่เลย ระบบการทำงานในหน่วยงานต่างๆ เช่น NASA Harvest, ESA World Cover และ USDA ยังคงพึ่งพาค่าดัชนีสเปกตรัมและการวัดพื้นผิวเป็นอย่างมาก เนื่องจากสามารถตรวจสอบได้ มีความเสถียร และตรวจสอบความถูกต้องกับข้อมูลจริงได้ง่าย

ตำนาน

แบบจำลองการเรียนรู้เชิงลึกสำหรับข้อมูลดาวเทียมเข้าใจความหมายเชิงกายภาพ

ความเป็นจริง

พวกมันเรียนรู้รูปแบบทางสถิติ ไม่ใช่หลักฟิสิกส์ เครือข่ายอาจเชื่อมโยงลักษณะสเปกตรัมบางอย่างกับน้ำ แต่ไม่รู้ว่าทำไมน้ำจึงดูดซับแสงอินฟราเรดใกล้ ดัชนีที่สร้างขึ้นด้วยมือจะเข้ารหัสความรู้ทางฟิสิกส์นั้นโดยตรง

ตำนาน

การเพิ่มฟีเจอร์ต่างๆ จะช่วยเพิ่มความแม่นยำในการจำแนกประเภทเสมอ

ความเป็นจริง

เมื่อถึงจุดหนึ่ง การเพิ่มคุณลักษณะที่ซ้ำซ้อนหรือก่อกวนจะส่งผลเสียต่อประสิทธิภาพ ซึ่งเป็นปรากฏการณ์ที่เรียกว่า คำสาปแห่งมิติ กระบวนการประมวลผลที่สร้างขึ้นด้วยมือต้องเลือกคุณลักษณะอย่างระมัดระวัง ในขณะที่การเรียนรู้การแสดงผลจะหลีกเลี่ยงปัญหานี้โดยการเรียนรู้เฉพาะสิ่งที่เป็นประโยชน์เท่านั้น

ตำนาน

โมเดลพื้นฐานดาวเทียมที่ผ่านการฝึกฝนล่วงหน้าสามารถใช้งานได้ทันทีสำหรับทุกงาน

ความเป็นจริง

พวกเขายังคงต้องการการปรับแต่งเพิ่มเติมโดยใช้ข้อมูลที่มีการติดป้ายกำกับเฉพาะงาน เพื่อให้ได้ประสิทธิภาพสูงสุด ผลลัพธ์จากการทดสอบแบบ Zero-shot ดีขึ้น แต่โดยทั่วไปแล้วจะยังล้าหลังผลลัพธ์พื้นฐานที่ปรับแต่งแล้วอยู่หลายจุดความแม่นยำ

คำถามที่พบบ่อย

การเรียนรู้การแสดงผลในภาพถ่ายดาวเทียมคืออะไร?

การเรียนรู้แบบแทนข้อมูล (Representation learning) เป็นสาขาหนึ่งของการเรียนรู้เชิงลึก (Deep learning) ที่โครงข่ายประสาทเทียมเรียนรู้ที่จะเข้ารหัสภาพถ่ายดาวเทียมให้เป็นเวกเตอร์ที่มีขนาดกะทัดรัดและให้ข้อมูลโดยไม่ต้องอาศัยคุณลักษณะที่ออกแบบด้วยมือ โมเดลต่างๆ เช่น โครงข่ายประสาทแบบคอนโวลูชัน (Convolutional networks), วิชั่นทรานส์ฟอร์เมอร์ (Vision transformers) และเฟรมเวิร์กแบบกำกับตนเอง (Self-supervised frameworks) เช่น SimCLR หรือ MAE ค้นพบรูปแบบโดยตรงจากพิกเซล โดยมักใช้คลังข้อมูลขนาดใหญ่จาก Sentinel-2, Landsat หรือกลุ่มดาวเทียมเชิงพาณิชย์

ลักษณะงานฝีมือทั่วไปที่ใช้ในการสำรวจระยะไกลมีอะไรบ้าง?

ตัวชี้วัดที่ใช้กันทั่วไป ได้แก่ ดัชนีสเปกตรัม เช่น NDVI สำหรับพืชพรรณ NDWI สำหรับแหล่งน้ำ และ NDBI สำหรับพื้นที่สิ่งปลูกสร้าง การวัดพื้นผิว เช่น ความคมชัดของ GLCM และการตอบสนองของตัวกรองกาบอร์ จะจับโครงสร้างเชิงพื้นที่ ในขณะที่คุณลักษณะทางสัณฐานวิทยาจะอธิบายรูปร่างของวัตถุ โดยทั่วไปแล้ว ข้อมูลเหล่านี้จะถูกป้อนเข้าสู่ตัวจำแนกประเภท เช่น Random Forests, Support Vector Machines หรือ gradient-boosted trees

วิธีการใดเหมาะสมกว่าสำหรับชุดข้อมูลดาวเทียมขนาดเล็ก?

การสร้างคุณลักษณะด้วยมือมักได้ผลดีกว่าเมื่อข้อมูลที่มีป้ายกำกับมีน้อย เพราะคุณลักษณะเหล่านั้นได้เข้ารหัสความหมายทางกายภาพไว้แล้ว และลดความจำเป็นในการใช้ชุดข้อมูลฝึกฝนขนาดใหญ่ การเรียนรู้การแสดงผลยังคงช่วยได้ผ่านการเรียนรู้แบบถ่ายโอน โดยที่แบบจำลองที่ได้รับการฝึกฝนล่วงหน้าบนคลังข้อมูลขนาดใหญ่จะถูกปรับแต่งเพิ่มเติมบนชุดข้อมูลเป้าหมายขนาดเล็ก

การเรียนรู้การแสดงผลและคุณลักษณะที่สร้างขึ้นด้วยมือสามารถผสานรวมกันได้หรือไม่?

ใช่แล้ว และวิธีการแบบผสมผสานนี้กำลังได้รับความนิยมมากขึ้นเรื่อยๆ นักวิจัยมักจะนำข้อมูลฝังตัวที่เรียนรู้มาเชื่อมต่อกับดัชนีแบบดั้งเดิม เช่น NDVI หรือตัวบ่งชี้พื้นผิว ก่อนที่จะป้อนเข้าสู่ตัวจำแนกประเภท ซึ่งเป็นการผสมผสานพลังการค้นหารูปแบบของเครือข่ายประสาทเทียมเชิงลึกเข้ากับพื้นฐานทางกายภาพของคุณลักษณะที่ออกแบบโดยผู้เชี่ยวชาญ

โมเดลการเรียนรู้เชิงลึกของดาวเทียมต้องการข้อมูลมากแค่ไหน?

ขึ้นอยู่กับงาน แต่โดยทั่วไปแล้วโมเดลแบบมีผู้กำกับดูแล (supervised models) จำเป็นต้องใช้ภาพที่มีป้ายกำกับหลายพันถึงหลายล้านภาพเพื่อให้ได้ประสิทธิภาพที่ดี ส่วนวิธีการแบบมีผู้กำกับดูแลด้วยตนเอง (self-supervised methods) จะลดความต้องการนี้ลงอย่างมากโดยการฝึกฝนล่วงหน้าด้วยภาพที่ไม่มีป้ายกำกับ ซึ่งบางครั้งอาจใช้ภาพย่อยหลายร้อยล้านภาพจากภารกิจต่างๆ เช่น Sentinel-2

มีแบบจำลองฐานรากดาวเทียมที่เปิดเผยต่อสาธารณะหรือไม่?

มีหลายโมเดลที่เปิดให้ใช้งานแล้ว เช่น โมเดล Prithvi ของ NASA, SatMAE ของ IBM และ NASA รวมถึงตระกูล SatVision จากกลุ่มวิจัยต่างๆ Hugging Face รวบรวมโมเดลเหล่านี้ไว้มากมาย พร้อมด้วยโค้ดสำหรับการฝึกฝนเบื้องต้นและตัวอย่างการปรับแต่งสำหรับงานต่างๆ เช่น การทำแผนที่น้ำท่วมและการจำแนกประเภทพืชผล

ทำไมนักวิทยาศาสตร์ยังคงใช้ NDVI ในเมื่อมีเทคโนโลยีการเรียนรู้เชิงลึกอยู่แล้ว?

ดัชนี NDVI นั้นเรียบง่าย รวดเร็ว มีความหมายเชิงกายภาพ และสามารถเปรียบเทียบได้จากข้อมูลในอดีตหลายทศวรรษ สำหรับการติดตามแนวโน้มของพืชพรรณ การประเมินภัยแล้ง หรือการรายงานทางการเกษตร ดัชนีที่ตีความได้มักจะดีกว่าแบบจำลองแบบกล่องดำ การเรียนรู้เชิงลึกช่วยเสริมมากกว่าที่จะมาแทนที่ดัชนีเหล่านี้ในขั้นตอนการทำงานหลายอย่าง

ต้องใช้ฮาร์ดแวร์อะไรบ้างในการฝึกฝนโมเดลการเรียนรู้การแสดงภาพดาวเทียม?

การฝึกฝนโมเดลพื้นฐานของดาวเทียมสมัยใหม่ตั้งแต่เริ่มต้นโดยทั่วไปแล้วต้องใช้ GPU ระดับสูงหลายตัว เช่น NVIDIA A100 หรือ H100 ซึ่งมักใช้เวลาหลายวันหรือหลายสัปดาห์ การปรับแต่งโมเดลที่ได้รับการฝึกฝนมาก่อนแล้วนั้นมีราคาถูกกว่ามาก และบางครั้งสามารถทำได้บน GPU สำหรับผู้บริโภคเพียงตัวเดียว หรือแม้แต่โน้ตบุ๊กสำหรับระบบคลาวด์

คุณประเมินอย่างไรว่าวิธีการใดได้ผลดีกว่ากัน?

มาตรฐานการวัดผลอย่าง EuroSAT, BigEarthNet, SEN12MS และ IEEE Data Fusion Contest ให้ชุดข้อมูลที่มีป้ายกำกับและตัวชี้วัดที่สม่ำเสมอ เช่น ความแม่นยำโดยรวม คะแนน F1 และค่าเฉลี่ย Intersection over Union นอกจากนี้ยังมีการใช้การตรวจสอบแบบไขว้ การศึกษาการตัดทอน และการเปรียบเทียบกับฐานข้อมูลที่ใช้งานอยู่ เช่น Copernicus Global Land Service เป็นเรื่องปกติเช่นกัน

งานฝีมือแบบดั้งเดิมจะหายไปในทศวรรษหน้าหรือไม่?

ไม่น่าเป็นไปได้ ในขณะที่การเรียนรู้การแสดงผลจะได้รับความนิยมมากขึ้นเรื่อยๆ แต่คุณลักษณะที่สร้างขึ้นด้วยมือจะให้ความสามารถในการตีความและรากฐานทางกายภาพที่แบบจำลองเชิงลึกทำได้ยาก คาดว่าไปป์ไลน์แบบไฮบริด ซึ่งการแสดงผลที่เรียนรู้และดัชนีที่ออกแบบโดยผู้เชี่ยวชาญทำงานร่วมกัน จะครองตลาดการสำรวจระยะไกลในระดับการผลิตไปอีกหลายปีข้างหน้า

คำตัดสิน

เลือกการเรียนรู้การแสดงผลเมื่อคุณมีข้อมูลจำนวนมาก ทรัพยากร GPU และงานที่ความแม่นยำทุกเปอร์เซ็นต์มีความสำคัญ เช่น การทำแผนที่การปกคลุมของพื้นที่ขนาดใหญ่หรือแผนที่ภัยพิบัติ เลือกการสร้างคุณลักษณะด้วยมือเมื่อความสามารถในการตีความ ข้อมูลการฝึกอบรมที่จำกัด หรือความเรียบง่ายในการคำนวณเป็นสิ่งสำคัญ หรือเมื่อต้องรักษาความหมายทางกายภาพไว้สำหรับการรายงานทางวิทยาศาสตร์

การเปรียบเทียบที่เกี่ยวข้อง

AI ที่ทำงานแบบไม่เป็นระบบ เทียบกับ AI ที่ควบคุมโดยมนุษย์

AI slop หมายถึงเนื้อหา AI ที่ผลิตออกมาจำนวนมากโดยใช้ความพยายามน้อยและขาดการกำกับดูแล ในขณะที่งาน AI ที่มีมนุษย์ควบคุมนั้นเป็นการผสมผสานปัญญาประดิษฐ์เข้ากับการตัดต่อ การกำกับ และการตัดสินใจเชิงสร้างสรรค์อย่างรอบคอบ ความแตกต่างมักอยู่ที่คุณภาพ ความคิดริเริ่ม ประโยชน์ใช้สอย และว่ามีบุคคลจริงเข้ามามีส่วนร่วมในการกำหนดผลลัพธ์สุดท้ายหรือไม่

AI ที่มีมนุษย์เข้ามาเกี่ยวข้อง กับ AI ที่ทำงานอัตโนมัติอย่างสมบูรณ์

AI ที่มีมนุษย์เข้ามาเกี่ยวข้อง (Human-in-the-Loop AI) ผสานประสิทธิภาพของเครื่องจักรเข้ากับการตัดสินใจของมนุษย์ในจุดสำคัญ ในขณะที่ระบบ AI อัตโนมัติเต็มรูปแบบ (Fully Automated AI Systems) ทำงานอย่างอิสระตั้งแต่ต้นจนจบ แต่ละแนวทางมีข้อดีข้อเสียที่แตกต่างกันในด้านความแม่นยำ ความสามารถในการขยายขนาด ต้นทุน และความรับผิดชอบ ซึ่งเป็นตัวกำหนดว่าแนวทางใดเหมาะสมกับกรณีการใช้งานนั้นๆ

AI ที่รับรู้บริบท เทียบกับ AI ที่ไม่รับรู้บริบท

การเปรียบเทียบทางสถาปัตยกรรมนี้เน้นให้เห็นถึงความแตกต่างหลักระหว่างระบบ AI ที่รับรู้บริบท ซึ่งวิเคราะห์ข้อมูลสถานการณ์แบบไดนามิก เช่น ความตั้งใจของผู้ใช้ ประวัติ และสภาพแวดล้อม กับระบบที่ไม่รับรู้บริบท ซึ่งประมวลผลข้อมูลนำเข้าเป็นเหตุการณ์แยกต่างหากโดยอาศัยกฎที่กำหนดไว้ล่วงหน้าเท่านั้น

AI ที่เสริมด้วยการค้นหาเทียบกับการฝึกฝนโดยใช้ชุดข้อมูลเพียงอย่างเดียว

AI ที่เสริมด้วยการค้นหาจะดึงข้อมูลแบบเรียลไทม์จากแหล่งข้อมูลภายนอกในขณะที่ทำการค้นหา ในขณะที่การฝึกฝนโดยใช้ชุดข้อมูลเพียงอย่างเดียวจะอาศัยความรู้ที่ฝังอยู่ในน้ำหนักของโมเดลระหว่างการฝึกฝนเท่านั้น แต่ละแนวทางมีข้อดีข้อเสียที่แตกต่างกันในด้านความแม่นยำ ต้นทุน ความทันสมัย และความสามารถในการจัดการกับคำถามที่อยู่นอกขอบเขตการฝึกฝนดั้งเดิม

AI แบบกระจายศูนย์ เทียบกับ ระบบ AI ขององค์กร

ระบบ AI แบบกระจายศูนย์จะกระจายสติปัญญา ข้อมูล และการคำนวณไปยังโหนดอิสระต่างๆ โดยมักให้ความสำคัญกับความเปิดกว้างและการควบคุมของผู้ใช้ ในขณะที่ระบบ AI ขององค์กรนั้นได้รับการจัดการจากส่วนกลางโดยบริษัทต่างๆ โดยมุ่งเน้นที่ประสิทธิภาพ ผลกำไร และการบูรณาการผลิตภัณฑ์ ทั้งสองแนวทางนี้มีส่วนกำหนดวิธีการสร้าง การกำกับดูแล และการเข้าถึง AI แต่มีความแตกต่างกันอย่างมากในด้านความโปร่งใส การเป็นเจ้าของ และการควบคุม