การโจมตีแบบมุ่งเป้าในด้านคอมพิวเตอร์วิชั่นคืออะไร และเหตุใดจึงหลอก AI ได้แต่หลอกมนุษย์ไม่ได้?
การโจมตีแบบมุ่งร้ายเกี่ยวข้องกับการปรับเปลี่ยนพิกเซลของภาพในระดับจุลภาค ซึ่งมองไม่เห็นด้วยตาเปล่า แต่กลับส่งผลเสียอย่างร้ายแรงต่อการคำนวณทางคณิตศาสตร์ของแบบจำลอง AI การโจมตีเหล่านี้ใช้ประโยชน์จากข้อเท็จจริงที่ว่าโครงข่ายประสาทเทียมมองที่รูปแบบพิกเซลดิบๆ แทนที่จะทำความเข้าใจว่าวัตถุนั้นคืออะไรจริงๆ มนุษย์ไม่ได้รับผลกระทบเพราะการมองเห็นของเราอาศัยรูปร่างโดยรวม บริบทเชิงตรรกะ และความหมายเชิงโครงสร้าง มากกว่าอาร์เรย์พิกเซลทางสถิติที่เปราะบาง
การเรียนรู้แบบครั้งเดียว (single-shot learning) ทำงานอย่างไรในมนุษย์ เมื่อเทียบกับแบบจำลองปัญญาประดิษฐ์ (AI)?
มนุษย์ใช้การเรียนรู้แบบครั้งเดียว (single-shot learning) โดยเชื่อมโยงประสบการณ์การมองเห็นใหม่เพียงครั้งเดียวเข้ากับคลังความรู้ภายในที่มีอยู่แล้วมากมาย ซึ่งประกอบด้วยความรู้เกี่ยวกับโลก กฎทางฟิสิกส์ และแนวคิดทางภาษา เมื่อแบบจำลองปัญญาประดิษฐ์ (AI) พบกับวัตถุใหม่ มันมักจะขาดโครงสร้างพื้นฐานนี้ หมายความว่ามันต้องปรับพารามิเตอร์ทางคณิตศาสตร์ที่ว่างเปล่าหลายล้านตัวตั้งแต่เริ่มต้น จุดเริ่มต้นที่ว่างเปล่านี้ต้องการข้อมูลซ้ำๆ จำนวนมหาศาลเพื่อค้นหารูปแบบที่เสถียร
การเคลื่อนไหวของดวงตาแบบฉับพลัน (saccades) มีบทบาทอย่างไรในการที่มนุษย์รับรู้ภาพทิวทัศน์ธรรมชาติ?
การเคลื่อนไหวของดวงตาแบบซัคเคด (Saccades) เป็นการเคลื่อนไหวอย่างรวดเร็วและไม่เป็นไปตามความตั้งใจ ซึ่งดวงตาของเราทำหลายครั้งต่อวินาทีเพื่อหันจุดรับภาพความละเอียดสูง (fovea) ไปยังส่วนต่างๆ ของภาพ แทนที่จะประมวลผลสภาพแวดล้อมทั้งหมดอย่างสม่ำเสมอเหมือนกล้องคอมพิวเตอร์ สมองจะใช้การเหลือบมองอย่างรวดเร็วเหล่านี้เพื่อสุ่มตัวอย่างบริเวณที่สำคัญ เช่น ใบหน้าหรือวัตถุที่เคลื่อนไหว จากนั้นจึงใช้แบบจำลองโลกภายในของตนเองเพื่อเชื่อมต่อชิ้นส่วนเหล่านี้เข้าด้วยกันเป็นภาพทางจิตที่ราบรื่นและสมบูรณ์
เหตุใดระบบประมวลผลภาพด้วยคอมพิวเตอร์จึงประสบปัญหาอย่างมากเมื่อเผชิญกับสภาพแสงที่เปลี่ยนแปลง?
เมื่อแสงที่ส่องไปยังวัตถุเปลี่ยนไป ค่าตัวเลขสัมบูรณ์ของพิกเซลภายในภาพดิจิทัลจะเปลี่ยนแปลงอย่างมาก เนื่องจากแบบจำลองการมองเห็นด้วยคอมพิวเตอร์แบบดั้งเดิมมองที่ตัวเลขเหล่านี้โดยตรง จึงอาจมีปัญหาในการแยกแยะว่านั่นคือวัตถุเดียวกันภายใต้แสงที่แตกต่างกัน มนุษย์มีคุณสมบัติทางปัญญาที่เรียกว่า ความคงที่ของสีและความสว่าง ซึ่งจะกรองการเปลี่ยนแปลงของแสงโดยอัตโนมัติเพื่อรักษาสมบัติของวัตถุให้คงที่
การแบ่งส่วนความหมายใน AI กับการจัดระเบียบภาพพื้นหลังและภาพหลักในมนุษย์แตกต่างกันอย่างไร?
การแบ่งส่วนภาพตามความหมาย (Semantic segmentation) เป็นกระบวนการทางคอมพิวเตอร์ที่ใช้อัลกอริทึมในการกำหนดป้ายกำกับให้กับพิกเซลทุกพิกเซลในภาพว่าเป็นของกลุ่มใดกลุ่มหนึ่ง เช่น รถยนต์ ถนน หรือท้องฟ้า โดยอาศัยขอบเขตทางสถิติ ส่วนการแยกวัตถุออกจากพื้นหลัง (Figure-ground organization) เป็นกระบวนการทางชีววิทยาที่สมองแยกวัตถุที่อยู่ด้านหน้าออกจากพื้นหลังโดยสัญชาตญาณ กลไกนี้ขับเคลื่อนด้วยลักษณะการอยู่รอดตามวิวัฒนาการ เบาะแสเชิงลึก และตรรกะการเป็นเจ้าของขอบภาพ
การฝึกอบรมแบบหลายรูปแบบจะช่วยให้ระบบคอมพิวเตอร์วิชั่นมีความทนทานใกล้เคียงกับสายตาของมนุษย์ได้หรือไม่?
ใช่แล้ว การจับคู่ข้อมูลภาพกับข้อความ เสียง หรือข้อมูลความลึกเชิงพื้นที่ ช่วยลดช่องว่างได้อย่างมาก โดยการเรียนรู้ที่จะเชื่อมโยงภาพของวัตถุกับคำอธิบายที่เป็นลายลักษณ์อักษร คุณสมบัติทางกายภาพ หรือเสียง ปัญญาประดิษฐ์จะสร้างภาพแทนที่สมบูรณ์และเป็นนามธรรมมากขึ้น โครงสร้างหลายชั้นนี้ทำให้โมเดลพึ่งพาการรวมพิกเซลแบบผิวเผินน้อยลง และมีความยืดหยุ่นต่อสัญญาณรบกวนในโลกแห่งความเป็นจริงมากขึ้น
ความอ่อนไหวต่อภาพลวงตาแตกต่างกันอย่างไรระหว่างแบบจำลองคอมพิวเตอร์และมนุษย์?
ภาพลวงตาที่มนุษย์มองเห็นเกิดขึ้นเพราะสมองของเราใช้กฎลัดที่ซับซ้อนเกี่ยวกับความลึก เงา และการเคลื่อนไหว ซึ่งบางครั้งอาจถูกรบกวนโดยรูปแบบเฉพาะบางอย่าง โมเดลการมองเห็นของคอมพิวเตอร์ไม่ตกหลุมพรางของมนุษย์เหล่านี้ แต่พวกมันกลับประสบกับภาพลวงตาทางคณิตศาสตร์ที่ไม่เหมือนใคร ตัวอย่างเช่น AI อาจเห็นพื้นผิวแปลกๆ บนผนังและยืนยันอย่างมั่นใจว่าเป็นสัตว์มีชีวิต เพราะความถี่ของพิกเซลตรงกันอย่างสมบูรณ์แบบ
การรวมกายภาพเข้ากับธรรมชาติคืออะไร และเหตุใดจึงถือว่ามีความสำคัญอย่างยิ่งต่ออนาคตของคอมพิวเตอร์วิชั่นเชิงธรรมชาติ?
แนวคิดเรื่อง Embodiment คือการนำปัญญาประดิษฐ์ไปไว้ภายในร่างกายทางกายภาพ เช่น หุ่นยนต์ เพื่อให้สามารถโต้ตอบกับสภาพแวดล้อมได้โดยตรง การมีอยู่จริงทางกายภาพนี้มีความสำคัญอย่างยิ่ง เพราะช่วยให้ AI เรียนรู้ผ่านการกระทำ เช่น การเคลื่อนที่ไปรอบๆ วัตถุเพื่อดูจากหลายมุม หรือการหยิบขึ้นมาเพื่อทำความเข้าใจรูปทรง การสะท้อนกลับแบบโต้ตอบนี้สร้างความเข้าใจในพื้นที่ที่ลึกซึ้งและเหมือนมนุษย์มากกว่าการจ้องมองภาพนิ่งบนเว็บอย่างแน่นอน