trí tuệ nhân tạogiẻ ráchđa phương thức-aillmảo giácthế hệ tăng cường truy xuất
Việc sử dụng hình ảnh làm nền trong RAG so với việc tạo văn bản không có nền tảng.
Việc dựa trên hình ảnh trong RAG giúp AI phản hồi dựa trên bằng chứng trực quan được trích xuất từ tài liệu, giảm thiểu ảo giác và cải thiện độ chính xác thực tế. Việc tạo văn bản không dựa trên hình ảnh chỉ dựa vào kiến thức tham số từ dữ liệu huấn luyện, tạo ra các kết quả trôi chảy nhưng có khả năng bịa đặt nếu không có nguồn xác minh được.
Điểm nổi bật
Việc sử dụng hình ảnh làm cơ sở liên kết mọi tuyên bố với một nguồn hình ảnh có thể truy xuất được, giúp cho các kết quả đầu ra có thể được kiểm chứng theo những cách mà việc tạo ra nội dung không dựa trên hình ảnh không thể sánh được.
Các mô hình không dựa trên cơ sở dữ liệu được tạo ra nhanh hơn và rẻ hơn vì chúng bỏ qua hoàn toàn các bước truy xuất và mã hóa hình ảnh.
Các hệ thống dựa trên thực tế giúp giảm đáng kể ảo giác nhưng đôi khi vẫn đọc sai biểu đồ hoặc sơ đồ khi quá trình truy xuất trả về hình ảnh không rõ ràng.
Việc tạo ra nội dung không dựa trên cơ sở thực tế vẫn là lựa chọn tốt hơn cho việc viết sáng tạo, nơi mà việc bám víu vào thông tin thực tế có thể hạn chế sản lượng hữu ích.
Định vị hình ảnh trong RAG là gì?
Một phương pháp được tăng cường bằng cách truy xuất thông tin, liên kết văn bản được tạo ra với các hình ảnh hoặc vùng trực quan cụ thể từ tài liệu nguồn để tạo ra kết quả có thể kiểm chứng.
Kết hợp khả năng tạo nội dung được tăng cường bằng truy xuất với việc định vị đa phương thức bằng cách lấy các hình ảnh hoặc trang tài liệu có liên quan cùng với các đoạn văn bản.
Giảm ảo giác bằng cách buộc mô hình phải tham chiếu các bằng chứng hình ảnh đã được truy xuất thay vì dựa vào các mẫu đã ghi nhớ.
Thường sử dụng các mô hình ngôn ngữ-hình ảnh như CLIP, BLIP-2 hoặc GPT-4V để đối chiếu các câu trả lời bằng văn bản với các vùng hình ảnh.
Công nghệ này hỗ trợ các ứng dụng như trả lời câu hỏi trực quan, hiểu văn bản và hệ thống suy luận dựa trên biểu đồ.
Cần có cơ sở dữ liệu vector đa phương thức hoặc kho lưu trữ tài liệu có khả năng lập chỉ mục cả văn bản và hình ảnh nhúng.
Tạo văn bản không có căn cứ là gì?
Một phương pháp mô hình hóa ngôn ngữ truyền thống, trong đó đầu ra hoàn toàn đến từ các tham số đã học của mô hình mà không cần truy xuất bên ngoài hoặc bằng chứng trực quan.
Tạo văn bản chỉ sử dụng các trọng số đã học được trong quá trình huấn luyện trước, mà không cần truy cập vào các tài liệu bên ngoài trong quá trình suy luận.
Được tiên phong bởi các mô hình dựa trên transformer như GPT-3, LLaMA và các biến thể tạo sinh BERT ban đầu.
Dễ bị ảo giác vì mô hình này có thể tự tin đưa ra những phát ngôn nghe có vẻ hợp lý nhưng lại không chính xác về mặt thực tế.
Đây là nền tảng của hầu hết các hệ thống trí tuệ nhân tạo đàm thoại trước khi các kỹ thuật hỗ trợ truy xuất trở nên phổ biến.
Hoạt động nhanh hơn các hệ thống nối đất vì nó bỏ qua hoàn toàn bước thu hồi trong quá trình tạo phản hồi.
Bảng So Sánh
Tính năng
Định vị hình ảnh trong RAG
Tạo văn bản không có căn cứ
Nguồn kiến thức
Hình ảnh và văn bản được lấy từ các tài liệu bên ngoài.
Kiến thức tham số được lưu trữ trong trọng số mô hình
Nguy cơ ảo giác
Mức độ thấp đến trung bình, bị hạn chế bởi bằng chứng thu thập được.
Cao, đặc biệt đối với các chủ đề chuyên biệt hoặc mới.
Độ trễ
Chi phí cao hơn do các bước truy xuất và xử lý hình ảnh.
Thấp hơn vì quá trình tạo ra năng lượng diễn ra chỉ trong một lần truyền bóng về phía trước.
Chi phí tính toán
Yêu cầu cơ sở dữ liệu vector, bộ mã hóa hình ảnh và LLM.
Chỉ yêu cầu suy luận mô hình ngôn ngữ.
Khả năng kiểm chứng
Câu trả lời có thể được truy tìm dựa trên những hình ảnh hoặc trang cụ thể.
Không thể truy xuất nguồn gốc của các kết quả đầu ra.
Các trường hợp sử dụng tốt nhất
Kiểm tra chất lượng tài liệu, lập luận trực quan, diễn giải biểu đồ
Viết sáng tạo, động não, trò chuyện thông thường
Khả năng đa phương thức
Hỗ trợ gốc cho hình ảnh, biểu đồ và sơ đồ.
Chỉ hiển thị văn bản trừ khi được ghép nối với các mô-đun thị giác riêng biệt.
Tần suất cập nhật
Kiến thức được cập nhật bằng cách cập nhật chỉ mục tài liệu.
Kiến thức chỉ được cập nhật thông qua việc đào tạo lại hoặc tinh chỉnh.
So sánh chi tiết
Cách mỗi phương pháp tạo ra câu trả lời
Trong RAG, cơ chế tạo văn bản dựa trên hình ảnh hoạt động bằng cách đầu tiên chuyển đổi truy vấn của người dùng thành một embedding, truy xuất các hình ảnh hoặc trang tài liệu liên quan nhất từ kho lưu trữ vector, sau đó đưa cả truy vấn và bằng chứng hình ảnh đã truy xuất vào mô hình ngôn ngữ thị giác. Mô hình được hướng dẫn rõ ràng để dựa vào những gì nó thấy trong nội dung đã truy xuất để đưa ra câu trả lời. Việc tạo văn bản không dựa trên hình ảnh bỏ qua hoàn toàn bước truy xuất này. Mô hình chỉ đơn giản nhận yêu cầu và tạo ra phản hồi dựa trên các mẫu mà nó đã học được trong quá trình huấn luyện, điều này giúp nó nhanh hơn nhưng lại không có cách nào để trích dẫn hoặc xác minh các tuyên bố của nó.
Độ chính xác và hành vi ảo giác
Các hệ thống dựa trên bằng chứng thực tế giúp giảm đáng kể hiện tượng ảo giác vì mô hình có bằng chứng trực quan cụ thể để làm cơ sở cho lập luận của nó. Nếu hình ảnh được truy xuất hiển thị một biểu đồ cụ thể, câu trả lời phải phản ánh chính xác những gì biểu đồ đó mô tả. Ngược lại, các mô hình không dựa trên bằng chứng thực tế có thể bịa đặt số liệu thống kê, tạo ra các trích dẫn hoặc mô tả nội dung trực quan chưa từng tồn tại. Nghiên cứu từ các tổ chức như Google DeepMind và Meta đã nhiều lần chứng minh rằng các hệ thống được tăng cường bằng truy xuất vượt trội hơn các hệ thống chỉ dựa trên tham số về các tiêu chuẩn thực tế, mặc dù đôi khi chúng vẫn hiểu sai hình ảnh được truy xuất.
Các yếu tố về cơ sở hạ tầng và chi phí
Việc chạy RAG dựa trên hình ảnh đòi hỏi nhiều thành phần hơn: một mô hình nhúng đa phương thức, một cơ sở dữ liệu vector như Milvus hoặc Weaviate được cấu hình để lưu trữ hình ảnh, một mô hình ngôn ngữ-hình ảnh cho quá trình tạo ra sản phẩm cuối cùng, và các quy trình để tiền xử lý tài liệu. Quá trình tạo không dựa trên hình ảnh chỉ cần một điểm cuối mô hình ngôn ngữ duy nhất, điều này làm cho nó rẻ hơn và đơn giản hơn để triển khai. Đối với các công ty khởi nghiệp hoặc các dự án cá nhân, sự đơn giản của việc tạo không dựa trên hình ảnh rất hấp dẫn, nhưng các doanh nghiệp xử lý nội dung được quy định thường chấp nhận chi phí bổ sung để có được khả năng xác minh mà việc dựa trên hình ảnh mang lại.
Tính linh hoạt và khả năng sáng tạo
Mô hình tạo văn bản không dựa trên bằng chứng thực tế phát huy hiệu quả tối đa khi tính sáng tạo quan trọng hơn độ chính xác về mặt thực tế. Viết thơ, lên ý tưởng tên sản phẩm hoặc tạo ra đoạn hội thoại hư cấu đều được hưởng lợi từ khả năng ứng biến của mô hình mà không bị ràng buộc bởi bằng chứng đã được truy xuất. Mô hình RAG dựa trên hình ảnh ít phù hợp hơn cho những nhiệm vụ này vì bước truy xuất kéo theo nội dung thực tế có thể hạn chế sự tự do sáng tạo. Một số hệ thống lai cố gắng cân bằng cả hai bằng cách dựa trên các tuyên bố thực tế trong khi vẫn giữ nguyên các yếu tố phong cách.
Ví dụ triển khai thực tế
Các công ty như Notion, Hebbia và Glean sử dụng RAG dựa trên hình ảnh để giúp người dùng truy vấn các tệp PDF, bản trình chiếu và bảng tính bằng ngôn ngữ tự nhiên. Hệ thống của họ sẽ truy xuất trang hoặc biểu đồ liên quan và tạo ra các câu trả lời tham chiếu trực tiếp đến nội dung hình ảnh. Việc tạo câu trả lời không dựa trên hình ảnh vẫn chiếm ưu thế trong các chatbot như các phiên bản đầu tiên của Character.ai hoặc trong các tính năng tự động hoàn thành, nơi tốc độ quan trọng hơn trích dẫn. Xu hướng trong năm 2024 và 2025 đã chuyển rõ ràng sang các hệ thống dựa trên hình ảnh cho bất kỳ ứng dụng nào mà độ tin cậy và độ chính xác là không thể thiếu.
Ưu & Nhược điểm
Định vị hình ảnh trong RAG
Ưu điểm
+Kết quả có thể kiểm chứng
+Tỷ lệ ảo giác thấp hơn
+Đa phương thức theo thiết kế
+Kiến thức mới từ mục lục
Đã lưu
−Độ trễ cao hơn
−Cơ sở hạ tầng phức tạp
−Chất lượng truy xuất phụ thuộc
−Chi phí tính toán cao hơn
Tạo văn bản không có căn cứ
Ưu điểm
+Suy luận nhanh
+Triển khai đơn giản
+Tính linh hoạt sáng tạo
+Chi phí cơ sở hạ tầng thấp hơn
Đã lưu
−Ảo giác thường xuyên
−Không có trích dẫn nguồn.
−Kiến thức lỗi thời
−Hỗ trợ đa phương thức hạn chế
Những hiểu lầm phổ biến
Huyền thoại
Việc tiếp đất giúp loại bỏ hoàn toàn ảo giác trong các sản phẩm trí tuệ nhân tạo.
Thực tế
Việc tiếp đất giúp giảm đáng kể ảo giác nhưng không loại bỏ hoàn toàn chúng. Các mô hình vẫn có thể hiểu sai hình ảnh được truy xuất, đưa ra kết luận không chính xác từ biểu đồ hoặc kết hợp bằng chứng theo những cách gây hiểu nhầm. Việc xem xét của con người vẫn rất quan trọng đối với các ứng dụng có tính rủi ro cao.
Huyền thoại
Các mô hình không nối đất luôn kém chính xác hơn các mô hình nối đất.
Thực tế
Đối với các câu hỏi kiến thức tổng quát được thể hiện nhiều trong dữ liệu huấn luyện, một mô hình lớn không dựa trên dữ liệu thực tế có thể đạt được hoặc thậm chí vượt trội hơn một hệ thống nhỏ hơn dựa trên dữ liệu thực tế. Khoảng cách về độ chính xác chỉ trở nên rõ ràng đối với các chủ đề chuyên biệt, mới hoặc đặc thù, nơi dữ liệu huấn luyện khan hiếm.
Huyền thoại
Việc dựa trên hình ảnh có nghĩa là mô hình thực sự đọc các điểm ảnh giống như con người.
Thực tế
Các mô hình ngôn ngữ thị giác xử lý hình ảnh thông qua các nhúng được học thay vì hiểu biết thị giác thực sự. Chúng có thể bỏ sót các chi tiết tinh tế, nhầm lẫn các đối tượng trông tương tự nhau hoặc hoạt động kém hiệu quả trên hình ảnh có độ phân giải thấp, đó là lý do tại sao chất lượng định vị phụ thuộc rất nhiều vào bộ mã hóa thị giác được sử dụng.
Huyền thoại
Hệ thống RAG không cần mô hình ngôn ngữ lớn để hoạt động tốt.
Thực tế
Bước truy xuất xử lý việc tra cứu kiến thức, nhưng mô hình ngôn ngữ vẫn cần đủ khả năng để suy luận dựa trên bằng chứng đã truy xuất và tạo ra các câu trả lời mạch lạc. Các mô hình ngôn ngữ nhỏ hoặc yếu thường cho kết quả kém ngay cả khi truy xuất hoàn hảo.
Huyền thoại
Việc tạo văn bản không dựa trên cơ sở dữ liệu đã lỗi thời trong thời đại của RAG.
Thực tế
Việc tạo câu trả lời không dựa trên cơ sở dữ liệu vẫn là nền tảng của hầu hết các hệ thống AI và thường được sử dụng bên trong chính các quy trình RAG cho bước tạo câu trả lời cuối cùng. Hai cách tiếp cận này bổ sung cho nhau chứ không loại trừ lẫn nhau.
Các câu hỏi thường gặp
Trong RAG, việc tạo nền cho hình ảnh là gì?
Trong RAG, việc sử dụng hình ảnh làm bằng chứng trực quan là một kỹ thuật mà hệ thống tạo ngôn ngữ được hỗ trợ bởi việc truy xuất (REG) sẽ lấy các hình ảnh, biểu đồ hoặc trang tài liệu có liên quan từ cơ sở tri thức và sử dụng chúng làm bằng chứng trực quan cho câu trả lời của mô hình ngôn ngữ. Thay vì dựa vào dữ liệu huấn luyện đã được ghi nhớ, mô hình sẽ dựa vào những gì nó thực sự thấy trong nội dung được truy xuất để đưa ra câu trả lời, điều này giúp cho kết quả đầu ra chính xác và có thể kiểm chứng hơn.
Việc tạo văn bản không dựa trên ngữ cảnh khác với việc tạo văn bản dựa trên ngữ cảnh như thế nào?
Việc tạo văn bản không dựa trên kiến thức nền tảng chỉ sử dụng những kiến thức được lưu trữ trong các tham số của mô hình từ quá trình huấn luyện. Việc tạo văn bản dựa trên kiến thức nền tảng bổ sung thêm kiến thức đó bằng thông tin bên ngoài được thu thập trong quá trình suy luận. Sự khác biệt chính là các hệ thống dựa trên kiến thức nền tảng có thể trích dẫn nguồn và xử lý thông tin gần đây, trong khi các hệ thống không dựa trên kiến thức nền tảng thì không thể.
Phương pháp nào gây ra ít ảo giác hơn?
Các hệ thống RAG dựa trên hình ảnh tạo ra ít ảo giác hơn vì mô hình bị ràng buộc bởi bằng chứng hình ảnh được truy xuất. Các nghiên cứu từ Google, Microsoft và các phòng thí nghiệm học thuật liên tục cho thấy rằng việc dựa trên hình ảnh làm giảm lỗi thực tế từ 40 đến 70% so với việc tạo ra hình ảnh không dựa trên hình ảnh, mặc dù cả hai phương pháp đều không hoàn toàn không gây ảo giác.
Liệu có thể kết hợp cả hai phương pháp này trong cùng một hệ thống không?
Đúng vậy, các hệ thống lai ngày càng phổ biến. Một thiết lập điển hình sử dụng phương pháp tạo văn bản không dựa trên ngữ cảnh để tạo sự trôi chảy trong hội thoại và các yếu tố phong cách, sau đó kết hợp thêm phương pháp truy xuất và xác thực ngữ cảnh cho các tuyên bố thực tế. Một số quy trình cũng sử dụng các mô hình không dựa trên ngữ cảnh để viết lại hoặc tóm tắt các đầu ra dựa trên ngữ cảnh nhằm cải thiện khả năng đọc hiểu.
Những mô hình nào hỗ trợ việc xác định vị trí hình ảnh trong RAG?
Các tùy chọn phổ biến bao gồm GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro và các mô hình mã nguồn mở như LLaVA, Qwen-VL và InternVL. Về phía truy xuất, CLIP, SigLIP và BLIP-2 thường được sử dụng để nhúng hình ảnh vào cùng không gian vector với các truy vấn văn bản.
Liệu việc tạo văn bản không dựa trên ngữ cảnh có nhanh hơn việc tạo văn bản dựa trên ngữ cảnh không?
Đúng vậy, việc tạo ảnh không dựa trên dữ liệu thực thường nhanh hơn vì nó bỏ qua bước truy xuất và xử lý hình ảnh. Một hệ thống dựa trên dữ liệu thực có thể làm tăng độ trễ từ 200 đến 800 mili giây tùy thuộc vào cơ sở dữ liệu vector và bộ mã hóa hình ảnh được sử dụng, điều này rất quan trọng đối với các ứng dụng thời gian thực như chatbot.
Tôi cần cơ sở hạ tầng gì cho RAG dựa trên hình ảnh?
Bạn cần một cơ sở dữ liệu vector hỗ trợ nhúng đa phương thức (như Milvus, Weaviate hoặc Qdrant), một mô hình ngôn ngữ thị giác cho bước tạo cuối cùng, một mô hình nhúng để lập chỉ mục hình ảnh và một quy trình xử lý tài liệu để trích xuất và phân đoạn nội dung hình ảnh từ các tệp PDF hoặc slide.
Tại sao những người mẫu không có cơ sở thực tế lại thường xuyên bị ảo giác?
Các mô hình thiếu cơ sở thường đưa ra những kết quả không chính xác vì chúng tạo ra văn bản dựa trên các mẫu thống kê chứ không phải dựa trên các sự kiện đã được xác minh. Khi được hỏi về điều gì đó mà chúng có dữ liệu huấn luyện hạn chế, chúng sẽ lấp đầy những khoảng trống bằng thông tin nghe có vẻ hợp lý nhưng không chính xác. Điều này đôi khi được gọi là xu hướng "bịa đặt" thay vì thừa nhận sự không chắc chắn của mô hình.
Liệu việc tiếp đất hình ảnh có thể xử lý được biểu đồ và bảng biểu không?
Các hệ thống RAG dựa trên hình ảnh hiện đại xử lý biểu đồ và bảng khá tốt, đặc biệt khi bộ mã hóa hình ảnh đã được huấn luyện trên hình ảnh tài liệu. Các mô hình như GPT-4V và Gemini có thể trích xuất dữ liệu từ biểu đồ cột, đọc bảng trong ảnh chụp màn hình và thậm chí diễn giải các ghi chú viết tay, mặc dù độ chính xác thay đổi tùy thuộc vào chất lượng hình ảnh.
Liệu việc xác định vị trí hình ảnh có giống với trí tuệ nhân tạo đa phương thức không?
Chúng có sự chồng chéo nhưng không hoàn toàn giống nhau. Trí tuệ nhân tạo đa phương thức (Multimodal AI) đề cập đến bất kỳ hệ thống nào xử lý nhiều loại đầu vào như văn bản, hình ảnh và âm thanh. Cụ thể, việc liên kết hình ảnh (Image grounding) có nghĩa là neo văn bản được tạo ra vào bằng chứng hình ảnh đã được truy xuất, đây là một ứng dụng của trí tuệ nhân tạo đa phương thức nhưng không phải là ứng dụng duy nhất.
Phán quyết
Hãy chọn phương pháp tạo ảnh dựa trên dữ liệu thực tế trong RAG khi độ chính xác, khả năng kiểm chứng và hiểu biết đa phương thức là rất quan trọng, chẳng hạn như trong tìm kiếm doanh nghiệp, phân tích tài liệu y tế hoặc bất kỳ ứng dụng nào mà ảo giác có thể dẫn đến hậu quả thực tế. Hãy sử dụng phương pháp tạo văn bản không dựa trên dữ liệu thực tế cho các tác vụ sáng tạo, tạo mẫu nhanh hoặc các trường hợp mà sự đơn giản trong triển khai và độ trễ thấp quan trọng hơn nhu cầu về câu trả lời có nguồn gốc.