RAG (Retrieval-Augmented Generation) คืออะไร?
RAG (Resource-Assisted Aggregation) เป็นเทคนิคที่แบบจำลอง AI ดึงเอกสารที่เกี่ยวข้องจากแหล่งภายนอก เช่น ฐานข้อมูลเวกเตอร์หรือเว็บ ก่อนที่จะสร้างคำตอบ ข้อความที่ดึงมาได้จะถูกป้อนเข้าไปในบริบทของแบบจำลอง ทำให้คำตอบนั้นอิงอยู่กับข้อมูลจริง แนวทางนี้ได้รับการกำหนดอย่างเป็นทางการในบทความปี 2020 โดย Facebook AI Research และตั้งแต่นั้นมาก็กลายเป็นรากฐานสำคัญของแอปพลิเคชัน AI สมัยใหม่
เหตุใดโมเดล AI จึงเกิดภาพหลอน?
ภาพหลอนเกิดขึ้นเมื่อแบบจำลองสร้างข้อมูลที่ฟังดูสมเหตุสมผลแต่ไม่ถูกต้องตามข้อเท็จจริง แบบจำลองภาษาได้รับการฝึกฝนให้ทำนายโทเค็นถัดไป ไม่ใช่เพื่อตรวจสอบความจริง ดังนั้นบางครั้งจึงเติมช่องว่างด้วยการคาดเดาที่ฟังดูมั่นใจ การอ้างอิงคำตอบจากแหล่งข้อมูลที่ดึงมาได้ เช่นเดียวกับที่ RAG ทำ ช่วยลดปัญหานี้ได้อย่างมากโดยการให้หลักฐานจริงแก่แบบจำลองเพื่อใช้ในการทำงาน
AI ที่เสริมการค้นหาสามารถทำงานแบบออฟไลน์ได้หรือไม่?
ไม่ใช่ในความหมายดั้งเดิม ระบบเพิ่มประสิทธิภาพการค้นหาจำเป็นต้องเข้าถึงดัชนีการเรียกค้น ซึ่งโดยปกติหมายถึงฐานข้อมูล ที่เก็บข้อมูลเวกเตอร์ หรือการเชื่อมต่อเว็บ อย่างไรก็ตาม คุณสามารถใช้งานระบบ RAG แบบออฟไลน์ได้อย่างสมบูรณ์โดยใช้ฐานข้อมูลเวกเตอร์ในเครื่อง เช่น FAISS หรือ Chroma ที่มีเอกสารจัดเก็บไว้ในเครื่องของคุณเอง ตัวโมเดลเองไม่จำเป็นต้องเชื่อมต่ออินเทอร์เน็ต แต่ส่วนประกอบการเรียกค้นจำเป็นต้องมีแหล่งข้อมูลที่เข้าถึงได้
การฝึกฝนโมเดลภาษาขนาดใหญ่มีค่าใช้จ่ายเท่าไหร่?
การฝึกฝนโมเดลล้ำสมัยอย่าง GPT-4 หรือ Gemini อาจมีค่าใช้จ่ายตั้งแต่หลายสิบล้านไปจนถึงมากกว่าหนึ่งร้อยล้านดอลลาร์ ขึ้นอยู่กับขนาดและระยะเวลาการฝึกฝน ในขณะที่โมเดลโอเพนซอร์สขนาดเล็กที่มีพารามิเตอร์อยู่ในช่วง 7 พันล้านถึง 70 พันล้านตัว สามารถฝึกฝนได้ในราคาหลักหมื่นถึงไม่กี่ล้านดอลลาร์ วิธีการที่เพิ่มประสิทธิภาพการค้นหามักจะหลีกเลี่ยงค่าใช้จ่ายนี้ได้อย่างสิ้นเชิงโดยการใช้โมเดลขนาดเล็กควบคู่กับการค้นหาข้อมูล
อะไรดีกว่ากันสำหรับแชทบอทฝ่ายบริการลูกค้า?
โดยทั่วไปแล้ว AI ที่เสริมด้วยการค้นหาเป็นตัวเลือกที่ดีกว่าสำหรับการสนับสนุนลูกค้า เพราะสามารถดึงคำตอบได้โดยตรงจากฐานความรู้ เอกสารผลิตภัณฑ์ หรือบทความในศูนย์ช่วยเหลือ ซึ่งหมายความว่าคำตอบจะทันสมัยอยู่เสมอแม้ว่าผลิตภัณฑ์และนโยบายของคุณจะมีการเปลี่ยนแปลง และบอทสามารถอ้างอิงบทความที่ลูกค้าควรอ่านได้อย่างถูกต้อง ในขณะที่โมเดลที่ใช้เฉพาะชุดข้อมูลจะต้องได้รับการฝึกฝนใหม่ตลอดเวลาเพื่อให้ทันกับการเปลี่ยนแปลง
ระบบ AI สมัยใหม่ทั้งหมดใช้ RAG หรือไม่?
ไม่ใช่ทั้งหมด แต่จำนวนที่เพิ่มขึ้นเรื่อยๆ ทำเช่นนั้น ผลิตภัณฑ์อย่าง Perplexity, Bing Chat และ Notion AI พึ่งพาการดึงข้อมูลเป็นอย่างมาก ในขณะที่ผลิตภัณฑ์อื่นๆ เช่น GPT-4 หรือ Claude เวอร์ชันพื้นฐาน ทำงานโดยไม่ต้องดึงข้อมูลเป็นค่าเริ่มต้น แต่สามารถจับคู่กับเครื่องมือดึงข้อมูลผ่าน API และเฟรมเวิร์กต่างๆ เช่น LangChain หรือ LlamaIndex ได้ ปัจจุบันการใช้งานในองค์กรหลายแห่งผสมผสานทั้งสองแนวทางเข้าด้วยกัน
จุดตัดความรู้คืออะไร?
จุดตัดความรู้คือวันที่หลังจากนั้นแบบจำลองจะไม่มีข้อมูลจากชุดข้อมูลฝึกฝนอีกต่อไป ตัวอย่างเช่น ชุดข้อมูลฝึกฝนของ GPT-4 ครอบคลุมถึงวันที่กำหนด และข้อมูลใดๆ ที่เผยแพร่หลังจากนั้นจะไม่ปรากฏในหน่วยความจำพารามิเตอร์ ระบบที่เสริมด้วยการค้นหาจะหลีกเลี่ยงข้อจำกัดนี้โดยการดึงข้อมูลใหม่ในขณะที่ทำการค้นหา ซึ่งทำให้ระบบเหล่านั้นไม่มีจุดตัดความรู้เลย
ฉันสามารถเพิ่ม RAG ลงในโมเดลที่มีอยู่แล้วได้หรือไม่?
ใช่ และที่จริงแล้วมันค่อนข้างเป็นเรื่องปกติ คุณสามารถสร้างเลเยอร์การดึงข้อมูลขึ้นมาครอบโมเดลภาษาเกือบทุกแบบได้โดยใช้เฟรมเวิร์กอย่าง LangChain, LlamaIndex หรือ Haystack ตัวโมเดลเองไม่จำเป็นต้องได้รับการฝึกฝนใหม่ คุณเพียงแค่ต้องการฐานข้อมูลเวกเตอร์ของเอกสารของคุณและตัวดึงข้อมูลที่ค้นหาข้อความที่เกี่ยวข้องเพื่อแทรกเข้าไปในคำถาม นี่เป็นหนึ่งในวิธีที่เร็วที่สุดในการให้โมเดลแบบคงที่เข้าถึงข้อมูลที่เป็นกรรมสิทธิ์หรือข้อมูลที่ทันสมัย
AI ที่เสริมด้วยการค้นหาปลอดภัยกว่าหรือไม่?
ขึ้นอยู่กับการตั้งค่า RAG อาจมีความปลอดภัยมากกว่าในบางแง่ เพราะข้อมูลสำคัญจะอยู่ในฐานข้อมูลที่คุณควบคุมได้ แทนที่จะถูกฝังอยู่ในน้ำหนักของโมเดล อย่างไรก็ตาม มันก็สร้างช่องโหว่ด้านความปลอดภัยใหม่ๆ เช่น การแทรกข้อความแจ้งเตือนผ่านเอกสารที่ดึงมา โมเดลแบบใช้เฉพาะชุดข้อมูลจะเก็บทุกอย่างไว้ในที่เดียว แต่ก็อาจทำให้ข้อมูลการฝึกฝนรั่วไหลได้ผ่านการจดจำ ทั้งสองแนวทางนี้จำเป็นต้องมีการออกแบบด้านความปลอดภัยอย่างรอบคอบ
RAG จะเข้ามาแทนที่รูปแบบการฝึกอบรมแบบดั้งเดิมหรือไม่?
ไม่น่าเป็นไปได้ อย่างน้อยก็ไม่ทั้งหมด RAG เป็นส่วนเสริมของการฝึกฝนมากกว่าที่จะมาแทนที่ การฝึกฝนโมเดลที่ดีนั้นยังคงต้องการความสามารถในการใช้เหตุผล ความเข้าใจภาษา และการปฏิบัติตามคำสั่ง ซึ่งการดึงข้อมูลไม่สามารถให้ได้ ระบบที่มีประสิทธิภาพมากที่สุดจะใช้โมเดลพื้นฐานที่มีความสามารถซึ่งได้รับการเสริมด้วยการดึงข้อมูล ทำให้ได้รับพลังแห่งการใช้เหตุผลจากการฝึกฝนและความสดใหม่จากการค้นหา