| แนวคิดหลัก |
แบ่งลำดับการทำงานระหว่างอุปกรณ์ต่างๆ |
ปรับปรุงการดำเนินการทีละขั้นตอนให้เหมาะสมที่สุด |
| เป้าหมายหลัก |
ปรับขนาดให้เหมาะสมกับลำดับยาวๆ |
ลดเวลาแฝงและภาระการประมวลผล |
| ขอบเขตการคำนวณ |
กระจายไปยังอุปกรณ์หลายชนิด |
อุปกรณ์เดี่ยวหรือท่อส่งเดี่ยว |
| กลยุทธ์หน่วยความจำ |
หน่วยความจำแบบกระจายบน GPU |
นำสถานะกลางที่แคชไว้กลับมาใช้ใหม่ |
| ค่าใช้จ่ายด้านการสื่อสาร |
สูงเนื่องจากการซิงโครไนซ์ |
ขนาดเล็ก ส่วนใหญ่เป็นการดำเนินงานในท้องถิ่น |
| ความซับซ้อนในการนำไปใช้ |
ระดับสูง ต้องใช้การออกแบบระบบแบบกระจาย |
ปานกลาง ขึ้นอยู่กับสถาปัตยกรรมของโมเดล |
| กรณีการใช้งานที่ดีที่สุด |
การฝึกอบรมโมเดลขนาดใหญ่ที่มีบริบทระยะยาว |
การอนุมานอย่างรวดเร็วและการเพิ่มประสิทธิภาพการใช้งาน |
| ความสามารถในการปรับขนาด |
ปรับขนาดได้ทั่วทั้งคลัสเตอร์ฮาร์ดแวร์ |
ปรับขนาดได้ภายในขีดจำกัดของฮาร์ดแวร์เดียว |
| ผลกระทบจากความล่าช้า |
อาจทำให้เกิดความล่าช้ามากขึ้นเนื่องจากการสื่อสาร |
ช่วยลดเวลาแฝงได้อย่างมาก |