ความแตกต่างหลักระหว่างกลไกการให้ความสนใจในด้านการมองเห็นและการประมวลผลภาษาธรรมชาติ (NLP) คืออะไร?
กลไกความสนใจด้านการมองเห็น (Vision attention) ทำงานบนโครงสร้างเชิงพื้นที่ 2 มิติ เช่น ส่วนย่อยของภาพ และมุ่งเน้นไปที่การระบุบริเวณที่สำคัญ ในขณะที่กลไกความสนใจด้านการประมวลผลภาษาธรรมชาติ (NLP attention) ทำงานบนลำดับโทเค็น 1 มิติ เพื่อจับความสัมพันธ์ระหว่างคำ ทั้งสองใช้สูตรทางคณิตศาสตร์ที่คล้ายกัน แต่แตกต่างกันในวิธีการเข้ารหัสข้อมูลตำแหน่งและวิธีการใช้การบดบัง (masking)
กลไกการให้ความสนใจมีต้นกำเนิดมาจากสาขาการประมวลผลภาษาธรรมชาติ (NLP) หรือสาขาวิทยาการคอมพิวเตอร์ (Computer Vision) กันแน่?
กลไกความสนใจสมัยใหม่มีต้นกำเนิดมาจากสาขาการประมวลผลภาษาธรรมชาติ (NLP) โดยบทความ Transformer โดย Vaswani และคณะในปี 2017 ถือเป็นจุดเปลี่ยนสำคัญ ต่อมาในปี 2020 ได้มีการพัฒนา Vision Transformers (ViT) ขึ้นมา โดยปรับใช้หลักการความสนใจตนเองแบบเดียวกันจากภาษามาใช้กับภาพ โดยการมองภาพเป็นลำดับของส่วนย่อยๆ
กลไกความสนใจสามารถจัดการกับลำดับภาพที่ยาวหรือภาพที่มีความละเอียดสูงได้หรือไม่?
กลไก self-attention มาตรฐานมีความซับซ้อนเชิงกำลังสอง ทำให้มีค่าใช้จ่ายสูงสำหรับอินพุตที่มีความยาวมาก นักวิจัยได้พัฒนากลไกที่มีประสิทธิภาพมากขึ้น เช่น Linformer, Performer และ Longformer สำหรับ NLP และ Swin Transformer หรือ MaxViT สำหรับการประมวลผลภาพ ซึ่งช่วยลดต้นทุนการคำนวณในขณะที่ยังคงรักษาประสิทธิภาพไว้ได้
เหตุใด Vision Transformers จึงต้องการข้อมูลการฝึกฝนจำนวนมาก?
ต่างจากโครงข่ายประสาทเทียมแบบ CNN ที่มีสมมติฐานเกี่ยวกับความสัมพันธ์เชิงพื้นที่และความไม่แปรผันตามการเลื่อนตำแหน่งอยู่แล้ว โครงข่ายประสาทเทียมแบบ ViT ต้องเรียนรู้ความสัมพันธ์เชิงพื้นที่เหล่านี้ตั้งแต่เริ่มต้นผ่านกลไกความสนใจ หากไม่มีข้อมูลเพียงพอ โครงข่ายเหล่านี้มักจะเกิดการโอเวอร์ฟิต ซึ่งเป็นเหตุผลว่าทำไมการฝึกฝนล่วงหน้าขนาดใหญ่บนชุดข้อมูลเช่น JFT-300M จึงมักมีความจำเป็น
กลไกการให้ความสนใจแบบไขว้เชื่อมโยงแบบจำลองการมองเห็นและแบบจำลองภาษาได้อย่างไร?
กลไก Cross-attention ช่วยให้โทเค็นของโมดาลิตี้หนึ่งสามารถให้ความสนใจกับโทเค็นของโมดาลิตี้อื่นได้ ทำให้โมเดลอย่าง CLIP สามารถจัดเรียงส่วนต่างๆ ของภาพให้ตรงกับคำอธิบายข้อความได้ กลไกนี้เป็นพื้นฐานสำคัญสำหรับระบบมัลติโมดาลที่ทำการสร้างคำบรรยายภาพ การตอบคำถามด้วยภาพ และการสร้างภาพจากข้อความ
ค่าน้ำหนักความสนใจมีประโยชน์ต่อการตีความแบบจำลองหรือไม่?
ค่าน้ำหนักความสนใจสามารถให้ข้อมูลเชิงลึกบางอย่างเกี่ยวกับอินพุตที่โมเดลให้ความสำคัญ แต่ไม่ควรนำมาใช้เป็นคำอธิบายที่แน่ชัด การศึกษาหลายชิ้นแสดงให้เห็นว่าความสนใจไม่ได้สัมพันธ์กับความสำคัญของคุณลักษณะเสมอไป และวิธีการตีความอื่นๆ อาจมีความน่าเชื่อถือมากกว่า
Multi-head attention คืออะไร และทำไมจึงมีความสำคัญ?
กลไกความสนใจแบบหลายหัว (Multi-head attention) ทำงานหลายอย่างพร้อมกัน โดยแต่ละหัวเรียนรู้ที่จะโฟกัสไปที่ความสัมพันธ์ประเภทต่างๆ ในด้านการประมวลผลภาษาธรรมชาติ (NLP) หัวหนึ่งอาจติดตามความสัมพันธ์เชิงไวยากรณ์ ในขณะที่อีกหัวหนึ่งจับความคล้ายคลึงเชิงความหมาย ในด้านการมองเห็น หัวต่างๆ สามารถให้ความสนใจกับรูปแบบเชิงพื้นที่หรือส่วนต่างๆ ของวัตถุได้พร้อมกัน
โมเดลการมองเห็นใช้การบดบังเชิงสาเหตุเหมือนกับตัวถอดรหัส NLP หรือไม่?
โมเดลการมองเห็นส่วนใหญ่ใช้กลไกความสนใจแบบสองทิศทางโดยไม่มีการปิดบังเชิงสาเหตุ เนื่องจากความเข้าใจภาพไม่จำเป็นต้องมีลำดับต่อเนื่อง อย่างไรก็ตาม โมเดลออโต้เอนโคเดอร์แบบปิดบังจะซ่อนส่วนต่างๆ แบบสุ่มระหว่างการฝึกฝนเพื่อกระตุ้นให้โมเดลเรียนรู้การแสดงผลที่แข็งแกร่ง ซึ่งคล้ายกันในแง่ของหลักการแต่แตกต่างกันในวัตถุประสงค์
การฝังข้อมูลเชิงตำแหน่งแตกต่างกันอย่างไรระหว่างการประมวลผลภาพและการประมวลผลภาษาธรรมชาติ?
NLP ใช้การฝังตำแหน่งแบบ 1 มิติเพื่อเข้ารหัสลำดับของโทเค็นในลำดับภาพ ในขณะที่โมเดลการมองเห็นต้องการการฝังตำแหน่งแบบ 2 มิติเพื่อรักษาความสัมพันธ์เชิงพื้นที่ในความสูงและความกว้างของภาพ โมเดลการมองเห็นขั้นสูงบางรุ่นยังใช้การเข้ารหัสตำแหน่งสัมพัทธ์เพื่อจัดการกับความละเอียดของภาพที่แตกต่างกันได้ดียิ่งขึ้น
กลไกการให้ความสนใจจะยังคงมีบทบาทสำคัญในปัญญาประดิษฐ์ต่อไปหรือไม่?
ปัจจุบันสถาปัตยกรรมที่ใช้กลไกความสนใจ (attention-based architectures) เป็นผู้นำในเกณฑ์มาตรฐาน AI ส่วนใหญ่ แต่การวิจัยยังคงดำเนินต่อไปเพื่อค้นหาทางเลือกอื่น ๆ เช่น โมเดลพื้นที่สถานะ (Mamba) การผสมผสานของผู้เชี่ยวชาญ และสถาปัตยกรรมใหม่ ๆ สาขานี้พัฒนาไปอย่างรวดเร็ว และแนวทางแบบผสมผสานที่รวมกลไกความสนใจเข้ากับกลไกอื่น ๆ อาจเป็นตัวกำหนดรูปแบบของโมเดลรุ่นต่อไป