วิชั่นคอมพิวเตอร์การตรวจจับวัตถุการจำแนกภาพการเรียนรู้เชิงลึกปัญญาประดิษฐ์การเรียนรู้ของเครื่อง

งานตรวจจับวัตถุด้วยคอมพิวเตอร์วิชั่น เทียบกับ งานจำแนกประเภทภาพ

การตรวจจับวัตถุและการจำแนกภาพเป็นงานหลักของคอมพิวเตอร์วิชั่น แต่มีจุดประสงค์ที่แตกต่างกันโดยพื้นฐาน การจำแนกภาพจะติดป้ายกำกับภาพทั้งหมดด้วยหมวดหมู่เดียว ในขณะที่การตรวจจับวัตถุจะค้นหาและระบุวัตถุหลายชิ้นในภาพ การเลือกใช้ขึ้นอยู่กับว่าคุณต้องการทราบว่ามีอะไรอยู่ในภาพ หรือต้องการทราบว่าสิ่งของเฉพาะเจาะจงนั้นอยู่ที่ใด

ไฮไลต์

การตรวจจับวัตถุให้ข้อมูลตำแหน่งเชิงพื้นที่ผ่านกรอบสี่เหลี่ยม ในขณะที่การจำแนกประเภทจะให้ผลลัพธ์เป็นป้ายกำกับเพียงป้ายเดียวต่อภาพ
โมเดลการจำแนกประเภททำงานได้เร็วกว่าและใช้พลังการประมวลผลน้อยกว่าโมเดลการตรวจจับอย่างมาก
การตรวจจับต้องใช้การระบุขอบเขตที่ชัดเจนซึ่งมีค่าใช้จ่ายสูง ในขณะที่การจำแนกประเภทต้องการเพียงแค่ป้ายกำกับระดับภาพเท่านั้น
ทั้งสองงานใช้โครงสร้างพื้นฐานร่วมกัน เช่น โครงสร้างพื้นฐาน ResNet แต่การตรวจจับจะเพิ่มส่วนหัวการทำนายพื้นที่เพื่อระบุตำแหน่ง

การตรวจจับวัตถุด้วยคอมพิวเตอร์วิชั่น คืออะไร

ระบุและกำหนดตำแหน่งของวัตถุหลายชิ้นภายในภาพโดยใช้กรอบสี่เหลี่ยมและป้ายกำกับประเภท

การตรวจจับวัตถุเป็นการผสานการจำแนกประเภทเข้ากับการระบุตำแหน่ง โดยคาดการณ์ทั้งว่ามีวัตถุอะไรอยู่บ้างและปรากฏอยู่ที่ใดในพิกเซล
สถาปัตยกรรมที่เป็นที่นิยม ได้แก่ YOLO, Faster R-CNN, SSD และ DETR ซึ่งแต่ละแบบจะเน้นความสมดุลระหว่างความเร็วและความแม่นยำแตกต่างกันไป
ชุดข้อมูล Pascal VOC และ COCO เป็นเกณฑ์มาตรฐานพื้นฐาน โดย COCO ประกอบด้วยภาพมากกว่า 330,000 ภาพ และข้อมูลที่มีการติดป้ายกำกับกว่า 2.5 ล้านรายการ
เครื่องตรวจจับรุ่นใหม่สามารถประมวลผลวิดีโอแบบเรียลไทม์ได้ โดย YOLOv8 และ YOLOv9 สามารถทำความเร็วในการประมวลผลได้เกิน 100 เฟรมต่อวินาที บนฮาร์ดแวร์ที่เหมาะสม
การประยุกต์ใช้งานครอบคลุมหลากหลายด้าน ได้แก่ ยานยนต์ไร้คนขับ ระบบเฝ้าระวัง การถ่ายภาพทางการแพทย์ การวิเคราะห์ข้อมูลค้าปลีก และการตรวจสอบทางการเกษตร

งานจำแนกประเภทภาพ คืออะไร

กำหนดป้ายกำกับหรือหมวดหมู่เดียวให้กับภาพทั้งหมด โดยพิจารณาจากเนื้อหาภาพที่โดดเด่นที่สุด

การจำแนกภาพจะให้ผลลัพธ์เป็นป้ายกำกับหนึ่งหรือมากกว่าหนึ่งป้ายสำหรับภาพทั้งหมด โดยไม่ระบุตำแหน่งที่ตั้งของวัตถุในเชิงพื้นที่
ชุดข้อมูล ImageNet ซึ่งประกอบด้วยภาพที่ติดป้ายกำกับกว่า 14 ล้านภาพ ครอบคลุม 20,000 หมวดหมู่ ได้จุดประกายการปฏิวัติการเรียนรู้เชิงลึกในปี 2012 เมื่อ AlexNet ชนะการแข่งขัน ILSVRC
สถาปัตยกรรมพื้นฐาน ได้แก่ ResNet, VGG, Inception, EfficientNet และ Vision Transformers (ViT)
โดยทั่วไปแล้ว โมเดลการจำแนกประเภทจะทำงานได้เร็วกว่าโมเดลการตรวจจับ เนื่องจากต้องการเพียงการประมวลผลไปข้างหน้าเพียงครั้งเดียวต่อภาพ โดยไม่ต้องมีการเสนอขอบเขตพื้นที่
ตัวอย่างการใช้งานทั่วไป ได้แก่ การตรวจสอบเนื้อหา การวินิจฉัยโรคจากภาพเอ็กซ์เรย์ การควบคุมคุณภาพในกระบวนการผลิต และการระบุชนิดของสิ่งมีชีวิตในทางนิเวศวิทยา

ตารางเปรียบเทียบ

ฟีเจอร์	การตรวจจับวัตถุด้วยคอมพิวเตอร์วิชั่น	งานจำแนกประเภทภาพ
ผลผลิตหลัก	กรอบสี่เหลี่ยมที่มีป้ายกำกับคลาสและคะแนนความเชื่อมั่น	กำหนดป้ายกำกับคลาสเดียวให้กับรูปภาพทั้งหมด
ข้อมูลเชิงพื้นที่	ระบุตำแหน่งของวัตถุได้อย่างแม่นยำโดยใช้พิกัด	ไม่มีข้อมูลเชิงพื้นที่หรือตำแหน่งที่ตั้งให้ไว้
จำนวนวัตถุ	สามารถตรวจจับวัตถุหลายชิ้นพร้อมกันได้	ระบุเฉพาะประธานที่เด่นเท่านั้น
ต้นทุนการคำนวณ	สูงขึ้นเนื่องจากข้อเสนอระดับภูมิภาคและการคาดการณ์หลายประการ	ลดขนาดลงด้วยการส่งผ่านไปข้างหน้าเพียงครั้งเดียวต่อภาพ
ความซับซ้อนของแบบจำลอง	มีความซับซ้อนมากขึ้น โดยมีส่วนประกอบของกระดูกสันหลัง คอ และศีรษะ	สถาปัตยกรรมที่เรียบง่ายกว่า เน้นการสกัดคุณลักษณะ
ช่วงความแม่นยำโดยทั่วไป	mAP 40-65 บนเกณฑ์มาตรฐาน COCO สำหรับโมเดลที่ทันสมัยที่สุด	ความแม่นยำอันดับ 1 อยู่ที่ 85-91% บน ImageNet สำหรับโมเดลชั้นนำ
ข้อกำหนดข้อมูลการฝึกอบรม	จำเป็นต้องมีคำอธิบายประกอบกรอบขอบเขต ซึ่งทำให้การติดป้ายกำกับมีค่าใช้จ่ายสูงขึ้น	ต้องการเพียงป้ายกำกับระดับภาพเท่านั้น ต้นทุนในการติดป้ายกำกับจึงถูกกว่า
ความเร็วในการอนุมาน	แสดงผลแบบเรียลไทม์ได้ (30-100+ เฟรมต่อวินาที) ด้วยโมเดลที่ปรับแต่งแล้ว	เร็วมาก มักจะได้เฟรมเรต 100+ FPS แม้แต่บนฮาร์ดแวร์ระดับกลางๆ
กรณีการใช้งานที่ดีที่สุด	ฉากที่มีวัตถุหลายชิ้นที่ต้องการการระบุตำแหน่ง	ภาพถ่ายบุคคลเดี่ยวที่ต้องการการระบุหมวดหมู่

การเปรียบเทียบโดยละเอียด

วัตถุประสงค์หลักและผลลัพธ์

ความแตกต่างพื้นฐานอยู่ที่เป้าหมายของแต่ละงาน การจำแนกภาพตอบคำถามว่า "มีอะไรอยู่ในภาพนี้บ้าง?" โดยการกำหนดป้ายกำกับอย่างน้อยหนึ่งป้ายให้กับภาพทั้งหมด ในขณะที่การตรวจจับวัตถุจะก้าวไปอีกขั้นโดยตอบคำถามว่า "มีอะไรอยู่ในภาพนี้บ้าง และอยู่ที่ไหนกันแน่?" โดยใช้กรอบสี่เหลี่ยมล้อมรอบวัตถุแต่ละชิ้นที่ตรวจพบ หากคุณอัปโหลดภาพถ่ายถนน ตัวจำแนกอาจติดป้ายกำกับว่า "ฉากในเมือง" ในขณะที่ตัวตรวจจับจะวาดกรอบสี่เหลี่ยมรอบรถยนต์ คนเดินเท้า สัญญาณไฟจราจร และป้ายต่างๆ ทีละชิ้น

สถาปัตยกรรมและการออกแบบโมเดล

โดยทั่วไปแล้ว โมเดลการจำแนกประเภทมักทำงานตามขั้นตอนที่ตรงไปตรงมา คือ เครือข่ายหลักจะดึงคุณลักษณะออกมา และส่วนหัวของการจำแนกประเภทจะส่งค่าความน่าจะเป็นออกมา ส่วนโมเดลการตรวจจับวัตถุนั้นมีความซับซ้อนกว่ามาก โดยปกติจะประกอบด้วยเครือข่ายหลักสำหรับการดึงคุณลักษณะ ส่วนเชื่อมต่อสำหรับการรวมคุณลักษณะ และส่วนหัวที่ทำนายทั้งคลาสและพิกัดของกรอบล้อมรอบ ความซับซ้อนที่เพิ่มขึ้นนี้เป็นเหตุผลว่าทำไมโมเดลการตรวจจับจึงต้องการพารามิเตอร์และทรัพยากรการคำนวณมากขึ้นเพื่อให้ได้ความแม่นยำที่เทียบเท่ากันในเกณฑ์มาตรฐานต่างๆ

ข้อมูลการฝึกอบรมและคำอธิบายประกอบ

ชุดข้อมูลการจำแนกภาพต้องการเพียงป้ายกำกับระดับภาพเท่านั้น ซึ่งทำให้การผลิตในปริมาณมากมีต้นทุนต่ำกว่าและเร็วกว่า การตรวจจับวัตถุต้องใช้คำอธิบายประกอบกรอบสี่เหลี่ยมสำหรับวัตถุแต่ละชิ้น ซึ่งกระบวนการนี้อาจใช้เวลานานกว่า 10 ถึง 100 เท่าต่อภาพ ขึ้นอยู่กับความซับซ้อนของฉาก ชุดข้อมูลอย่าง COCO ใช้เวลาในการติดป้ายกำกับหลายพันชั่วโมง ในขณะที่ป้ายกำกับการจำแนกภาพของ ImageNet ได้รับการระดมความคิดจากผู้คนจำนวนมากอย่างรวดเร็วผ่านบริการต่างๆ เช่น Amazon Mechanical Turk

การแลกเปลี่ยนระหว่างประสิทธิภาพและความเร็ว

โดยทั่วไปแล้ว โมเดลการจำแนกประเภทจะทำงานได้เร็วขึ้นและมีความแม่นยำสูงกว่าในชุดข้อมูลมาตรฐาน เนื่องจากงานนั้นง่ายกว่า โมเดลการจำแนกประเภทที่ทันสมัยที่สุดมีความแม่นยำสูงสุด 91% บน ImageNet ในขณะที่โมเดลตรวจจับวัตถุที่ดีที่สุดมีค่า mAP ประมาณ 63-65 บน COCO อย่างไรก็ตาม โมเดลการตรวจจับได้พัฒนาไปอย่างมากในด้านความเร็ว โดยโมเดลตรวจจับแบบขั้นตอนเดียวอย่าง YOLO ช่วยลดช่องว่างและทำให้สามารถใช้งานแบบเรียลไทม์ได้ การเลือกมักขึ้นอยู่กับว่าคุณต้องการความแม่นยำเชิงพื้นที่หรือปริมาณงานสูงสุด

การประยุกต์ใช้ในโลกแห่งความเป็นจริง

การจำแนกประเภทมีประสิทธิภาพในสถานการณ์ที่ตำแหน่งไม่สำคัญ เช่น การกรองเนื้อหาที่ไม่เหมาะสม การวินิจฉัยโรคจากภาพสแกนทางการแพทย์ หรือการจัดเรียงสินค้าตามหมวดหมู่ ส่วนการตรวจจับวัตถุมีความสำคัญเมื่อตำแหน่งมีความสำคัญ เช่น การขับขี่อัตโนมัติ (การระบุคนเดินเท้าและยานพาหนะอื่นๆ) การจัดการสินค้าคงคลังในร้านค้าปลีก การตรวจสอบสัตว์ป่า และการควบคุมหุ่นยนต์ ระบบการผลิตหลายระบบได้รวมทั้งสองอย่างเข้าด้วยกัน โดยใช้การจำแนกประเภทเพื่อกรองภาพอย่างรวดเร็วก่อนที่จะทำการตรวจจับในภาพที่เกี่ยวข้อง

ข้อดีและข้อเสีย

การตรวจจับวัตถุด้วยคอมพิวเตอร์วิชั่น

ข้อดี

+ ระบุตำแหน่งของวัตถุ
+ จัดการวัตถุหลายชิ้น
+ ผลลัพธ์เชิงพื้นที่ที่หลากหลาย
+ ช่วยให้สามารถใช้งานแบบเรียลไทม์ได้
+ การใช้งานที่หลากหลาย

ยืนยัน

− ต้นทุนการคำนวณที่สูงขึ้น
− จำเป็นต้องมีคำอธิบายประกอบที่มีราคาแพง
− การฝึกฝนมีความซับซ้อนมากขึ้น
− ความแม่นยำมาตรฐานที่ต่ำกว่า

งานจำแนกประเภทภาพ

ข้อดี

+ ความเร็วในการประมวลผลที่รวดเร็ว
+ สถาปัตยกรรมที่เรียบง่ายกว่า
+ การใส่คำอธิบายประกอบมีราคาถูกลง
+ ความแม่นยำมาตรฐานสูง
+ ติดตั้งง่าย

ยืนยัน

− ไม่มีข้อมูลเชิงพื้นที่
− ข้อจำกัดของฉลากเดียว
− พลาดเป้าหมายหลายรายการ
− ความเข้าใจในฉากมีจำกัด

ความเข้าใจผิดทั่วไป

ตำนาน

การตรวจจับวัตถุก็คือการจำแนกประเภทที่มีขั้นตอนเพิ่มเติมเท่านั้นเอง

ความเป็นจริง

แม้ว่าการจำแนกประเภทจะเป็นส่วนประกอบหนึ่งของการตรวจจับ แต่การตรวจจับวัตถุจะเพิ่มส่วนของการระบุตำแหน่งที่ทำนายพิกัด ทำให้เป็นงานที่แตกต่างกันโดยพื้นฐาน สถาปัตยกรรม ฟังก์ชันความสูญเสีย และตัวชี้วัดการประเมินแตกต่างกันอย่างมาก โมเดลการตรวจจับต้องจัดการกับจำนวนวัตถุที่แปรผันได้ในแต่ละภาพ ซึ่งการจำแนกประเภทไม่เคยพบเจอ

ตำนาน

ความแม่นยำในการจำแนกที่สูงขึ้น หมายถึงประสิทธิภาพการตรวจจับที่ดีขึ้น

ความเป็นจริง

โมเดลที่เก่งในการจำแนกภาพจาก ImageNet ไม่ได้หมายความว่าจะทำได้ดีในการตรวจจับวัตถุเสมอไป การตรวจจับวัตถุจำเป็นต้องมีโครงสร้างหลักที่รักษาข้อมูลเชิงพื้นที่ไว้ แทนที่จะยุบรวมให้เหลือเพียงเวกเตอร์เดียว ซึ่งเป็นเหตุผลว่าทำไมจึงมีสถาปัตยกรรมและกลยุทธ์การฝึกอบรมเฉพาะสำหรับการตรวจจับวัตถุ

ตำนาน

คุณสามารถแปลงตัวจำแนกให้เป็นตัวตรวจจับได้อย่างง่ายดาย

ความเป็นจริง

แม้ว่าเทคนิคอย่าง Grad-CAM จะช่วยเน้นบริเวณที่ตัวจำแนกให้ความสนใจได้ แต่แผนที่ความร้อนเหล่านี้ไม่ใช่กรอบสี่เหลี่ยมที่ระบุขอบเขตได้อย่างแม่นยำ การสร้างตัวตรวจจับที่แท้จริงต้องอาศัยการฝึกฝนใหม่โดยใช้คำอธิบายประกอบกรอบสี่เหลี่ยมและสถาปัตยกรรมเฉพาะสำหรับการตรวจจับนั้นๆ งานทั้งสองอย่างนี้ไม่สามารถทำแทนกันได้

ตำนาน

การตรวจจับวัตถุมีประสิทธิภาพเหนือกว่าการจำแนกประเภทในงานจริงเสมอ

ความเป็นจริง

การตรวจจับนั้นเกินความจำเป็นสำหรับแอปพลิเคชันหลายอย่าง หากคุณต้องการทราบเพียงว่าภาพนั้นมีแมวอยู่หรือไม่ การใช้โมเดลตรวจจับแบบเต็มรูปแบบจะสิ้นเปลืองทรัพยากร การจำแนกประเภทจึงยังคงเป็นทางเลือกที่ดีกว่าเมื่อตำแหน่งไม่สำคัญ และการใช้การตรวจจับโดยไม่จำเป็นจะเพิ่มความหน่วงและต้นทุนโครงสร้างพื้นฐาน

ตำนาน

เครื่องตรวจจับวัตถุสมัยใหม่ทำงานได้อย่างสมบูรณ์แบบในทุกสภาพแวดล้อม

ความเป็นจริง

โมเดลการตรวจจับมีปัญหาในการจัดการกับสิ่งกีดขวาง วัตถุขนาดเล็ก มุมที่ผิดปกติ และการเปลี่ยนแปลงการกระจายตัว แม้แต่โมเดลที่ทันสมัยที่สุดก็ยังล้มเหลวในกรณีพิเศษที่มนุษย์สามารถจัดการได้อย่างง่ายดาย ซึ่งเป็นเหตุผลว่าทำไมแอปพลิเคชันที่สำคัญต่อความปลอดภัย เช่น การขับขี่อัตโนมัติ จึงต้องการการตรวจสอบและการสำรองข้อมูลอย่างครอบคลุม

คำถามที่พบบ่อย

ความแตกต่างหลักระหว่างการตรวจจับวัตถุและการจำแนกภาพคืออะไร?

การจำแนกภาพจะกำหนดป้ายกำกับเดียวให้กับภาพทั้งหมด โดยตอบคำถามว่า "นี่คืออะไร?" ในขณะที่การตรวจจับวัตถุจะทำได้มากกว่านั้น โดยจะระบุตำแหน่งของวัตถุด้วยกรอบสี่เหลี่ยม และตอบคำถามว่า "นี่คืออะไรและอยู่ที่ไหน?" ความแตกต่างที่สำคัญคือข้อมูลเชิงพื้นที่: การจำแนกภาพจะไม่สนใจว่าวัตถุอยู่ที่ไหน ในขณะที่การตรวจจับจะให้พิกัดที่แม่นยำสำหรับแต่ละรายการที่ระบุได้

งานใดที่ยากกว่าสำหรับ AI ในการทำ?

โดยทั่วไปแล้ว การตรวจจับวัตถุถือว่ายากกว่า เพราะต้องแก้ปัญหาทั้งการจำแนกประเภทและการระบุตำแหน่งไปพร้อมกัน โมเดลต้องทำนายจำนวนวัตถุที่เปลี่ยนแปลงได้ จัดการกับกรอบที่ทับซ้อนกัน และรักษาความแม่นยำเชิงพื้นที่ ในขณะที่การจำแนกประเภทนั้นต้องการเพียงแค่ระบุเนื้อหาหลัก ทำให้เป็นปัญหาการเรียนรู้ที่ง่ายกว่าและมีความแม่นยำสูงกว่าในเกณฑ์มาตรฐาน

คุณสามารถใช้การตรวจจับวัตถุเพื่อจำแนกภาพได้หรือไม่?

ใช่ แต่ว่ามันไม่มีประสิทธิภาพ คุณสามารถใช้ตัวตรวจจับวัตถุและใช้คลาสที่ตรวจพบเป็นป้ายกำกับการจำแนกประเภทได้ แต่แบบนั้นจะสิ้นเปลืองการคำนวณเพราะการตรวจจับมีค่าใช้จ่ายสูงกว่า ตัวจำแนกประเภทโดยเฉพาะจะเร็วกว่าและแม่นยำกว่าสำหรับงานจำแนกประเภทโดยเฉพาะ การตรวจจับจะคุ้มค่ากับค่าใช้จ่ายก็ต่อเมื่อคุณต้องการตำแหน่งของกรอบล้อมรอบวัตถุจริงๆ เท่านั้น

ชุดข้อมูลใดเหมาะสมที่สุดสำหรับการฝึกฝนแต่ละงาน?

สำหรับการจำแนกประเภท ImageNet ยังคงเป็นมาตรฐานทองคำ โดยมีภาพกว่า 14 ล้านภาพ ครอบคลุมหลายพันหมวดหมู่ CIFAR-10 และ CIFAR-100 เป็นที่นิยมสำหรับการทดลองขนาดเล็ก สำหรับการตรวจจับวัตถุ COCO (Common Objects in Context) เป็นเกณฑ์มาตรฐานที่ใช้กันอย่างแพร่หลายที่สุด โดยมีภาพ 330,000 ภาพ และ 80 หมวดหมู่ของวัตถุ Pascal VOC เป็นอีกหนึ่งชุดข้อมูลคลาสสิกที่มักใช้สำหรับการเรียนรู้และการสร้างต้นแบบ

ผู้เริ่มต้นควรเริ่มจากรุ่นไหนดี?

สำหรับการจำแนกประเภท ให้เริ่มต้นด้วย ResNet-50 หรือ EfficientNet-B0 ซึ่งให้ความแม่นยำต่อความซับซ้อนที่ดีและมีเอกสารประกอบที่ครอบคลุม สำหรับการตรวจจับวัตถุ YOLOv5 หรือ YOLOv8 เป็นมิตรกับผู้เริ่มต้นเนื่องจากมี API ที่ใช้งานง่าย ชุมชนที่ใช้งานอยู่ และน้ำหนักที่ฝึกฝนไว้ล่วงหน้า Faster R-CNN มีความแม่นยำมากกว่า แต่ตั้งค่าได้ยากกว่าสำหรับผู้เริ่มต้น

คุณต้องการข้อมูลฝึกฝนมากแค่ไหนสำหรับแต่ละภารกิจ?

การจำแนกประเภทสามารถทำงานได้กับภาพหลายร้อยถึงหลายพันภาพต่อคลาส โดยใช้การเรียนรู้แบบถ่ายโอนจากโมเดลที่ฝึกฝนไว้ล่วงหน้า การตรวจจับวัตถุโดยทั่วไปต้องการข้อมูลมากกว่า โดยมักต้องใช้ภาพที่มีการระบุรายละเอียดอย่างน้อยหลายพันภาพ เนื่องจากโมเดลต้องเรียนรู้ทั้งการจดจำวัตถุและการทำนายกรอบขอบเขตที่แม่นยำ การตรวจจับแบบใช้ข้อมูลน้อยยังคงเป็นหัวข้อวิจัยที่กำลังได้รับความสนใจอยู่

YOLO เป็นโมเดลการจำแนกประเภทหรือการตรวจจับกันแน่?

YOLO (You Only Look Once) เป็นโมเดลตรวจจับวัตถุ ไม่ใช่ตัวจำแนกประเภท มันทำนายกรอบล้อมรอบและโอกาสความน่าจะเป็นของแต่ละคลาสไปพร้อมกันในการประมวลผลเพียงครั้งเดียว ทำให้เป็นหนึ่งในตัวตรวจจับแบบเรียลไทม์ที่เร็วที่สุดที่มีอยู่ มีสถาปัตยกรรม YOLO เวอร์ชันสำหรับการจำแนกประเภท แต่เวอร์ชันดั้งเดิมและได้รับความนิยมมากที่สุดนั้นออกแบบมาเพื่อการตรวจจับ

คุณต้องใช้ฮาร์ดแวร์อะไรบ้างในการใช้งานโมเดลเหล่านี้?

โมเดลการจำแนกประเภทสามารถทำงานได้อย่างสะดวกสบายบน CPU สำหรับการประมวลผล และแม้แต่บนอุปกรณ์พกพาก็สามารถทำงานได้อย่างมีประสิทธิภาพ การตรวจจับวัตถุต้องการทรัพยากรมากกว่า โดยเฉพาะอย่างยิ่งสำหรับแอปพลิเคชันแบบเรียลไทม์ แนะนำให้ใช้ GPU รุ่นใหม่สำหรับการฝึกฝนทั้งสองงาน แต่การประมวลผลสำหรับตัวตรวจจับที่ได้รับการปรับแต่งแล้ว เช่น YOLOv8-nano สามารถทำงานบนอุปกรณ์ Edge ได้ รวมถึง Raspberry Pi และโทรศัพท์มือถือ

คุณประเมินประสิทธิภาพของโมเดลสำหรับแต่ละงานอย่างไร?

การจำแนกประเภทใช้ตัวชี้วัดต่างๆ เช่น ความแม่นยำอันดับ 1, ความแม่นยำอันดับ 5, ความแม่นยำเชิงเที่ยงตรง, การเรียกคืน และคะแนน F1 การตรวจจับวัตถุใช้ค่าเฉลี่ยความแม่นยำ (mAP) ที่คำนวณจากเกณฑ์ IoU ต่างๆ เช่น mAP@0.5 หรือ mAP@0.5:0.95 (ตัวชี้วัด COCO) การประเมินการตรวจจับมีความซับซ้อนกว่า เนื่องจากต้องคำนึงถึงทั้งความถูกต้องของการจำแนกประเภทและความแม่นยำในการระบุตำแหน่ง

หม้อแปลงไฟฟ้าสามารถใช้งานได้ทั้งสองอย่างหรือไม่?

ใช่แล้ว Vision Transformers (ViT) และโมเดลที่พัฒนาต่อยอดจาก ViT นั้นใช้งานได้ดีทั้งในการจำแนกประเภทและการตรวจจับวัตถุ DETR (Detection Transformer) เป็นโมเดลบุกเบิกที่นำ Transformer มาใช้ในการตรวจจับวัตถุแบบครบวงจร โมเดลอย่าง Swin Transformer ทำหน้าที่เป็นแกนหลักสำหรับทั้งสองงานนี้ และมักให้ผลลัพธ์ที่ดีที่สุดเมื่อมีข้อมูลฝึกฝนเพียงพอ

คำตัดสิน

เลือกใช้การจำแนกภาพเมื่อคุณต้องการจัดหมวดหมู่ภาพอย่างรวดเร็วตามเนื้อหาโดยรวมและไม่ต้องการข้อมูลเชิงพื้นที่ โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมที่มีทรัพยากรจำกัด เลือกใช้การตรวจจับวัตถุเมื่อแอปพลิเคชันของคุณต้องการทราบทั้งว่ามีวัตถุอะไรอยู่และปรากฏอยู่ที่ใด โดยยอมรับต้นทุนการคำนวณที่สูงขึ้นเป็นข้อแลกเปลี่ยนที่จำเป็นสำหรับผลลัพธ์ที่สมบูรณ์ยิ่งขึ้น

การเปรียบเทียบที่เกี่ยวข้อง

AI ที่ทำงานแบบไม่เป็นระบบ เทียบกับ AI ที่ควบคุมโดยมนุษย์

AI slop หมายถึงเนื้อหา AI ที่ผลิตออกมาจำนวนมากโดยใช้ความพยายามน้อยและขาดการกำกับดูแล ในขณะที่งาน AI ที่มีมนุษย์ควบคุมนั้นเป็นการผสมผสานปัญญาประดิษฐ์เข้ากับการตัดต่อ การกำกับ และการตัดสินใจเชิงสร้างสรรค์อย่างรอบคอบ ความแตกต่างมักอยู่ที่คุณภาพ ความคิดริเริ่ม ประโยชน์ใช้สอย และว่ามีบุคคลจริงเข้ามามีส่วนร่วมในการกำหนดผลลัพธ์สุดท้ายหรือไม่

AI ที่มีมนุษย์เข้ามาเกี่ยวข้อง กับ AI ที่ทำงานอัตโนมัติอย่างสมบูรณ์

AI ที่มีมนุษย์เข้ามาเกี่ยวข้อง (Human-in-the-Loop AI) ผสานประสิทธิภาพของเครื่องจักรเข้ากับการตัดสินใจของมนุษย์ในจุดสำคัญ ในขณะที่ระบบ AI อัตโนมัติเต็มรูปแบบ (Fully Automated AI Systems) ทำงานอย่างอิสระตั้งแต่ต้นจนจบ แต่ละแนวทางมีข้อดีข้อเสียที่แตกต่างกันในด้านความแม่นยำ ความสามารถในการขยายขนาด ต้นทุน และความรับผิดชอบ ซึ่งเป็นตัวกำหนดว่าแนวทางใดเหมาะสมกับกรณีการใช้งานนั้นๆ

AI ที่รับรู้บริบท เทียบกับ AI ที่ไม่รับรู้บริบท

การเปรียบเทียบทางสถาปัตยกรรมนี้เน้นให้เห็นถึงความแตกต่างหลักระหว่างระบบ AI ที่รับรู้บริบท ซึ่งวิเคราะห์ข้อมูลสถานการณ์แบบไดนามิก เช่น ความตั้งใจของผู้ใช้ ประวัติ และสภาพแวดล้อม กับระบบที่ไม่รับรู้บริบท ซึ่งประมวลผลข้อมูลนำเข้าเป็นเหตุการณ์แยกต่างหากโดยอาศัยกฎที่กำหนดไว้ล่วงหน้าเท่านั้น

AI ที่เสริมด้วยการค้นหาเทียบกับการฝึกฝนโดยใช้ชุดข้อมูลเพียงอย่างเดียว

AI ที่เสริมด้วยการค้นหาจะดึงข้อมูลแบบเรียลไทม์จากแหล่งข้อมูลภายนอกในขณะที่ทำการค้นหา ในขณะที่การฝึกฝนโดยใช้ชุดข้อมูลเพียงอย่างเดียวจะอาศัยความรู้ที่ฝังอยู่ในน้ำหนักของโมเดลระหว่างการฝึกฝนเท่านั้น แต่ละแนวทางมีข้อดีข้อเสียที่แตกต่างกันในด้านความแม่นยำ ต้นทุน ความทันสมัย และความสามารถในการจัดการกับคำถามที่อยู่นอกขอบเขตการฝึกฝนดั้งเดิม

AI แบบกระจายศูนย์ เทียบกับ ระบบ AI ขององค์กร

ระบบ AI แบบกระจายศูนย์จะกระจายสติปัญญา ข้อมูล และการคำนวณไปยังโหนดอิสระต่างๆ โดยมักให้ความสำคัญกับความเปิดกว้างและการควบคุมของผู้ใช้ ในขณะที่ระบบ AI ขององค์กรนั้นได้รับการจัดการจากส่วนกลางโดยบริษัทต่างๆ โดยมุ่งเน้นที่ประสิทธิภาพ ผลกำไร และการบูรณาการผลิตภัณฑ์ ทั้งสองแนวทางนี้มีส่วนกำหนดวิธีการสร้าง การกำกับดูแล และการเข้าถึง AI แต่มีความแตกต่างกันอย่างมากในด้านความโปร่งใส การเป็นเจ้าของ และการควบคุม