ตัวอย่างในโลกแห่งความเป็นจริงที่การปรับเปลี่ยนโดเมนเป็นสิ่งจำเป็นมีอะไรบ้าง?
ตัวอย่างที่โดดเด่นคือการพัฒนาระบบขับขี่อัตโนมัติ ซึ่งระบบความปลอดภัยได้รับการฝึกฝนอย่างเข้มข้นภายในโปรแกรมจำลองทางฟิสิกส์ที่สมจริงมาก เนื่องจาก1การชนรถจริงเพื่อเก็บข้อมูลนั้นอันตรายและมีค่าใช้จ่ายสูง นักพัฒนาใช้การปรับตัวให้เข้ากับโดเมน (domain adaptation) เพื่อให้คุณลักษณะภาพที่จำลองขึ้นสอดคล้องกับภาพจากกล้องในโลกแห่งความเป็นจริง อีกกรณีการใช้งานคลาสสิกคือการวิเคราะห์ความรู้สึก ซึ่งแบบจำลองที่ฝึกฝนจากบทวิจารณ์หนังสือจะต้องได้รับการปรับให้เข้าใจบทวิจารณ์สินค้าอิเล็กทรอนิกส์สำหรับผู้บริโภคโดยไม่ต้องเปลี่ยนป้ายกำกับข้อความ
เหตุใดแบบจำลองภายในโดเมนจึงทำงานได้ไม่ดีเมื่อเกิดการเปลี่ยนแปลงการกระจายตัวเพียงเล็กน้อย?
โมเดลที่พัฒนาขึ้นภายในโดเมนนั้นมีประสิทธิภาพสูงในการใช้ประโยชน์จากความสัมพันธ์ทางสถิติที่แม่นยำซึ่งมีอยู่ในชุดข้อมูลฝึกฝน หากสภาพแวดล้อมในการใช้งานเปลี่ยนแปลงไป เช่น โรงงานเปลี่ยนไฟส่องสว่างพื้นจากหลอดไส้สีเหลืองเป็นหลอด LED สีขาวสว่าง การกระจายพิกเซลพื้นฐานก็จะเปลี่ยนไป เนื่องจากโมเดลไม่เคยถูกบังคับให้แยกเรขาคณิตของวัตถุหลักออกจากสภาพแสง จึงตีความความแปรผันทางภาพใหม่เหล่านี้ผิดพลาดว่าเป็นคลาสใหม่ทั้งหมด
เครือข่ายเชิงรุกช่วยในการปรับโดเมนต้นทางให้สอดคล้องกับโดเมนเป้าหมายได้อย่างไร?
การปรับตัวของโดเมนแบบต่อต้าน (Adversarial domain adaptation) นำเสนอเครือข่ายย่อยที่เรียกว่าตัวแยกแยะโดเมน (domain discriminator) ซึ่งมีหน้าที่เพียงอย่างเดียวคือการเดาว่าแผนที่ฟีเจอร์นั้นมาจากข้อมูลต้นทางหรือข้อมูลเป้าหมาย ตัวสกัดฟีเจอร์หลักได้รับการฝึกฝนให้ทำงานหลักของตนไปพร้อม ๆ กับพยายามหลอกตัวแยกแยะนี้ วงจรการแข่งขันนี้บังคับให้เครือข่ายละทิ้งลักษณะเฉพาะของโดเมน เหลือไว้เพียงการแสดงผลที่สะอาดและไม่เปลี่ยนแปลงซึ่งใช้งานได้ในทั้งสองสภาพแวดล้อม
วิธีการปรับใช้โดเมนจะใช้ได้ผลหรือไม่ ถ้าฉันไม่มีป้ายกำกับสำหรับโดเมนเป้าหมายใหม่เลย?
ใช่แล้ว นี่เป็นสาขาที่มีการศึกษาอย่างกว้างขวางที่เรียกว่า การปรับตัวของโดเมนแบบไม่ใช้การกำกับดูแล (Unsupervised Domain Adaptation หรือ UDA) วิธีการนี้อาศัยข้อมูลต้นทางที่มีการติดป้ายกำกับอย่างสมบูรณ์ควบคู่กับข้อมูลเป้าหมายที่ไม่มีการติดป้ายกำกับเลย อัลกอริทึมจะใช้เทคนิคทางคณิตศาสตร์ เช่น ความคลาดเคลื่อนเฉลี่ยสูงสุด (Maximum Mean Discrepancy) หรือการฝึกแบบต่อต้าน (adversarial training) เพื่อจับคู่การกระจายทางสถิติของข้อมูลทั้งสองชุด ทำให้ป้ายกำกับจากข้อมูลต้นทางสามารถชี้นำการทำนายในข้อมูลเป้าหมายได้
การปรับแต่งโมเดลที่ผ่านการฝึกฝนล่วงหน้าแล้ว ถือเป็นการปรับให้เข้ากับโดเมนเฉพาะ หรือเป็นการฝึกฝนในโดเมนเฉพาะกันแน่?
การปรับแต่งอย่างละเอียด (Fine-tuning) เป็นกลยุทธ์แบบผสมผสานที่ได้รับความนิยมและตรงไปตรงมา ซึ่งมักถูกจัดอยู่ในหมวดหมู่ของการเรียนรู้แบบถ่ายโอน (Transfer Learning) หากคุณใช้โมเดลพื้นฐานขนาดใหญ่ที่มีคุณลักษณะทั่วไป และปรับปรุงน้ำหนักของโมเดลโดยใช้ชุดข้อมูลขนาดเล็กที่มีป้ายกำกับ ซึ่งได้มาจากสภาพแวดล้อมเป้าหมายสุดท้ายของคุณ คุณกำลังทำการฝึกอบรมในโดเมน (In-domain training) บนพื้นฐานของคุณลักษณะที่ถ่ายโอนมา การปรับตัวเข้ากับโดเมนอย่างแท้จริง (True domain adaptation) มักจะผสานกระบวนการจัดเรียงเข้ากับกลไกการสูญเสีย (loss mechanism) ของสถาปัตยกรรมโดยตรง
'การถ่ายทอดเชิงลบ' คืออะไร และมันทำลายความพยายามในการปรับตัวได้อย่างไร?
การถ่ายโอนเชิงลบเกิดขึ้นเมื่อโดเมนต้นทางและโดเมนเป้าหมายมีความสัมพันธ์ที่ขัดแย้งกัน ทำให้กระบวนการปรับตัวส่งผลให้ประสิทธิภาพโดยรวมของแบบจำลองลดลงเมื่อเทียบกับการฝึกฝนตั้งแต่เริ่มต้น ตัวอย่างเช่น หากอัลกอริทึมพยายามจำลองพฤติกรรมการขับขี่จากประเทศที่ขับรถทางด้านซ้ายไปยังประเทศที่ขับรถทางด้านขวา การบังคับให้คุณลักษณะต่างๆ จัดเรียงกันจะทำให้ตรรกะเชิงพื้นที่ของระบบสับสน
เป็นไปได้หรือไม่ที่จะผสมผสานทั้งสองกลยุทธ์เข้าด้วยกันเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด?
แน่นอน วิธีการนี้มักถูกเรียกว่า การปรับตัวของโดเมนแบบกึ่งกำกับดูแล (Semi-Supervised Domain Adaptation) ในกระบวนการทำงานนี้ วิศวกรจะใช้ประโยชน์จากข้อมูลต้นทางที่มีการติดป้ายกำกับจำนวนมหาศาล ควบคู่ไปกับข้อมูลเป้าหมายที่มีการติดป้ายกำกับจำนวนน้อย และข้อมูลเป้าหมายจำนวนมากที่ไม่มีการติดป้ายกำกับ การตั้งค่าแบบผสมผสานนี้ช่วยให้แบบจำลองสามารถกำหนดขอบเขตการตัดสินใจให้สอดคล้องกับความเป็นจริงในท้องถิ่นได้อย่างแม่นยำ ในขณะที่ใช้การกระจายข้อมูลต้นทางที่กว้างขึ้นเพื่อเติมเต็มช่องว่างที่ขาดหายไปและเสริมสร้างความสามารถในการสรุปผลทั่วไป
คุณจะวัดระยะห่างทางสถิติระหว่างข้อมูลสองชุดได้อย่างแม่นยำได้อย่างไร?
นักวิทยาศาสตร์ข้อมูลใช้สูตรทางคณิตศาสตร์หลายสูตรเพื่อวัดระยะห่างระหว่างการกระจายตัวสองแบบในพื้นที่คุณลักษณะมิติสูง หนึ่งในตัวชี้วัดที่ใช้กันทั่วไปคือ ค่าความคลาดเคลื่อนเฉลี่ยสูงสุด (Maximum Mean Discrepancy หรือ MMD) ซึ่งวัดระยะห่างระหว่างการฝังตัวของโดเมนที่แมปไปยังปริภูมิฮิลเบิร์ตเคอร์เนลแบบสร้างซ้ำได้ กรอบการทำงานยอดนิยมอื่นๆ ได้แก่ ระยะทางวาสเซอร์สไตน์จากทฤษฎีการขนส่งที่เหมาะสมที่สุด และโปรไฟล์ความแตกต่าง KL แบบง่ายๆ