ความแตกต่างระหว่างการอนุมานและการฝึกฝนใน AI คืออะไร?
การฝึกฝนคือกระบวนการสอนโมเดลโดยการปรับน้ำหนักของโมเดลโดยใช้ชุดข้อมูลขนาดใหญ่ ซึ่งโดยทั่วไปแล้วต้องใช้ GPU หลายพันตัวทำงานเป็นเวลาหลายสัปดาห์ ส่วนการอนุมานคือสิ่งที่เกิดขึ้นหลังจากใช้งานโมเดลแล้ว โดยโมเดลที่ได้รับการฝึกฝนแล้วจะประมวลผลข้อมูลป้อนเข้าใหม่เพื่อสร้างการคาดการณ์หรือข้อความ การฝึกฝนเกิดขึ้นเพียงครั้งเดียว (หรือเป็นครั้งคราวสำหรับการปรับแต่งเพิ่มเติม) ในขณะที่การอนุมานเกิดขึ้นทุกครั้งที่มีคนใช้โมเดล
การฝึกฝนโมเดลภาษาขนาดใหญ่มีค่าใช้จ่ายเท่าไหร่?
ค่าใช้จ่ายในการฝึกฝนโมเดลล้ำสมัยมีตั้งแต่ประมาณ 1 ล้านดอลลาร์สำหรับโมเดลแบบเปิดขนาดเล็ก ไปจนถึงกว่า 100 ล้านดอลลาร์สำหรับระบบอย่าง GPT-4 หรือ Gemini Ultra ตัวเลขเหล่านี้รวมเฉพาะค่าใช้จ่ายในการประมวลผลเท่านั้น ไม่รวมค่าใช้จ่ายในการเก็บรวบรวมข้อมูลหรือเงินเดือนของนักวิจัย แนวโน้มคือค่าใช้จ่ายเพิ่มขึ้นประมาณ 10 เท่าทุกๆ 1-2 ปี เมื่อขนาดของโมเดลใหญ่ขึ้น
เหตุใดการอนุมานจึงมักมีค่าใช้จ่ายสูงกว่าการฝึกฝน?
เนื่องจากการประมวลผลเกิดขึ้นอย่างต่อเนื่องในคำขอหลายพันล้านรายการ การประมวลผลสะสมจึงเพิ่มขึ้นอย่างรวดเร็ว โมเดลที่ให้บริการผู้ใช้ 100 ล้านคน โดยแต่ละผู้ใช้ส่งคำขอ 10 ครั้งต่อวัน จะใช้เวลาการประมวลผล GPU มากกว่าเวลาที่ใช้ในการฝึกอบรมครั้งแรกเสียอีก นี่คือเหตุผลที่บริษัทอย่าง OpenAI ใช้จ่ายงบประมาณด้านการประมวลผลส่วนใหญ่ไปกับการให้บริการโมเดลที่มีอยู่แล้ว มากกว่าการฝึกอบรมโมเดลใหม่
วิธีที่ดีที่สุดในการลดต้นทุนการอนุมานมีอะไรบ้าง?
เทคนิคที่มีผลกระทบมากที่สุด ได้แก่ การลดความแม่นยำเชิงตัวเลข (จาก FP16 เป็น INT8 หรือ INT4), การเพิ่มประสิทธิภาพแคช KV, การจัดกลุ่มคำขอ, การถอดรหัสแบบคาดการณ์ และการกลั่นโมเดล การใช้ฮาร์ดแวร์ที่ปรับให้เหมาะสมสำหรับการอนุมาน เช่น GPU รุ่น L40S หรือ TPU ยังช่วยลดต้นทุนได้ 2-5 เท่า เมื่อเทียบกับชิปที่ปรับให้เหมาะสมสำหรับการฝึกอบรม เช่น H100 สำหรับงานประมวลผล
คุณสามารถฝึกฝนโมเดลได้อย่างมีประสิทธิภาพด้วยงบประมาณที่จำกัดได้หรือไม่?
ใช่ โดยเฉพาะอย่างยิ่งสำหรับโมเดลเฉพาะด้านหรือโมเดลขนาดเล็ก เทคนิคต่างๆ เช่น การปรับแต่ง LoRA, การฝึกฝนที่มีประสิทธิภาพด้านพารามิเตอร์ และการใช้โมเดลพื้นฐานที่ผ่านการฝึกฝนมาก่อน สามารถลดต้นทุนการฝึกฝนได้ถึง 100 เท่าหรือมากกว่านั้น โมเดลอย่าง Llama 3 8B และ Mistral 7B ได้รับการฝึกฝนด้วยงบประมาณต่ำกว่า 5 ล้านดอลลาร์ ในขณะที่ให้ประสิทธิภาพที่แข่งขันได้ในหลายๆ งาน
คุณวัดประสิทธิภาพการอนุมานอย่างไร?
ตัวชี้วัดทั่วไป ได้แก่ จำนวนโทเค็นต่อวินาทีต่อ GPU, เวลาในการประมวลผลโทเค็นแรก (TTFT), ความหน่วงระหว่างโทเค็น, ต้นทุนต่อโทเค็นล้านรายการ และปริมาณงานภายใต้ภาระงานพร้อมกัน เฟรมเวิร์กอย่าง vLLM และ TensorRT-LLM จะรายงานตัวชี้วัดเหล่านี้ และเกณฑ์มาตรฐานอย่าง MLPerf Inference จะให้การเปรียบเทียบที่เป็นมาตรฐานระหว่างฮาร์ดแวร์ต่างๆ
ค่าใช้จ่ายในการประมวลผลสำหรับการฝึกอบรมรวมถึงการทดลองที่ล้มเหลวด้วยหรือไม่?
ในทางปฏิบัติแล้ว ใช่เลย การฝึกฝนโมเดลอย่างจริงจังส่วนใหญ่มักมีการทดลองที่ล้มเหลวหลายสิบครั้งเนื่องจากบั๊ก ปัญหาพารามิเตอร์ หรือปัญหาเรื่องขนาด จากการประมาณการของอุตสาหกรรมพบว่า 30-50% ของการประมวลผลทั้งหมดในการฝึกฝนโมเดลนั้นสูญเปล่าไปกับการทดลองที่ไม่ได้สร้างโมเดลสุดท้าย นี่คือเหตุผลว่าทำไมการติดตามการทดลองอย่างระมัดระวังและการทดลองตรวจสอบความถูกต้องในขนาดเล็กจึงมีความสำคัญมาก
ฮาร์ดแวร์แบบไหนเหมาะสมที่สุดสำหรับการประมวลผลแบบอนุมาน (inference) และแบบใดเหมาะสมที่สุดสำหรับการประมวลผลแบบฝึกฝน (training)?
การฝึกอบรมจะได้รับประโยชน์จาก GPU ที่มีหน่วยความจำ HBM ขนาดใหญ่และการเชื่อมต่อที่รวดเร็ว เช่น NVIDIA H100 หรือ B200 ซึ่งช่วยให้ตัวเร่งความเร็วหลายพันตัวทำงานประสานกันได้ ส่วนการประมวลผลแบบอนุมานสามารถใช้ชิปที่ราคาถูกกว่าและมีประสิทธิภาพมากกว่า เช่น L40S, TPU v5e หรือตัวเร่งความเร็วเฉพาะทางจาก Groq และ Cerebras ที่ให้ความสำคัญกับความหน่วงต่อคำขอและประสิทธิภาพการใช้พลังงานมากกว่าปริมาณงานดิบ
ขนาดของโมเดลส่งผลต่อต้นทุนทั้งสองอย่างไร?
โมเดลขนาดใหญ่มีค่าใช้จ่ายในการฝึกฝนสูงกว่า เนื่องจากต้องการ FLOPs และหน่วยความจำมากกว่า และมีค่าใช้จ่ายในการให้บริการสูงกว่า เพราะแต่ละคำขอต้องการการคำนวณและแบนด์วิดท์หน่วยความจำมากกว่า อย่างไรก็ตาม โมเดลขนาดใหญ่มักจะให้คุณภาพที่ดีกว่าในเวลาแฝงที่ต่ำกว่า (ใช้โทเค็นน้อยลง) ดังนั้นความสัมพันธ์จึงไม่เป็นเส้นตรงเสมอไป ขนาดโมเดลที่เหมาะสมที่สุดขึ้นอยู่กับกรณีการใช้งานเฉพาะและรูปแบบการรับส่งข้อมูลเป็นอย่างมาก
ต้นทุนการอนุมานจะลดลงต่อไปหรือไม่?
ใช่แล้ว ต้นทุนการประมวลผลแบบอนุมานลดลงประมาณ 10 เท่าทุกๆ 1-2 ปี เนื่องจากการพัฒนาฮาร์ดแวร์ การปรับปรุงซอฟต์แวร์ และการปรับปรุงอัลกอริทึม ต้นทุนในการให้บริการคุณภาพระดับ GPT-3.5 ลดลงกว่า 90% ตั้งแต่ปี 2023 และคาดว่าแนวโน้มนี้จะยังคงดำเนินต่อไป เนื่องจากเทคนิคต่างๆ เช่น การกลั่น การหาปริมาณ และชิปประมวลผลแบบอนุมานเฉพาะทางกำลังพัฒนาไปในทิศทางที่ดีขึ้น