RAG עם הקשר חזותי מעשיר מודלים של שפה על ידי אחזור תמונות, תרשימים ודיאגרמות לצד טקסט, בעוד ש-RAG טקסטואלי בלבד מסתמך אך ורק על קטעים כתובים. RAG חזותי מצטיין במשימות רב-מודאליות כמו הבנת מסמכים ומענה חזותי לשאלות, בעוד ש-RAG טקסטואלי בלבד נותר פשוט, מהיר וזול יותר לפריסה.
הדגשים
RAG חזותי מבטל שגיאות OCR על ידי אחזור עמודים כתמונות ישירות.
RAG טקסטואלי בלבד נותר מהיר וזול יותר עבור מאגרי ידע כתובים לחלוטין.
מדדים רב-מודאליים מעדיפים באופן עקבי אחזור חזותי עבור משימות תרשימים ומסמכים.
צינורות היברידיים צצים כדרך הביניים המעשית למערכות ייצור.
מה זה RAG עם הקשר חזותי?
גישת יצירה מורחבת באמצעות אחזור (recribing-augmented generation) שמושכת תמונות, איורים ונתונים חזותיים לתגובות מודל שפה בסיסיות.
מערכות RAG חזותיות מאחזרות תוכן טקסטואלי וויזואלי ממאגרי ידע כדי לתמוך בחשיבה רב-מודאלית.
מודלים כמו GPT-4V, Gemini ו-LLaVA יכולים לעבד תמונות שאוחזרו ישירות בתוך חלונות ההקשר שלהן.
ColPali ו-ColQwen הציגו שיטות לאחזור מסמכים המתייחסות לדפים כתמונות, ועוקפות את צינורות ה-OCR המסורתיים.
RAG חזותי יעיל במיוחד להבנת תרשימים, אינפוגרפיקות, נתונים מדעיים ומסמכים סרוקים.
מדדי ביצועים כמו MMMU ו-DocVQA מראים רווחים מדידים כאשר מוסיפים אחזור חזותי לצינורות טקסטואליים בלבד.
מה זה RAG עם הקשר טקסטואלי בלבד?
מערך מסורתי של יצירה מורחבת של אחזור נתונים, המבסס מודלי שפה באמצעות קטעים כתובים ממסמכים בלבד.
שיטת RAG טקסטואלית בלבד הפכה לפופולרית בזכות המאמר המקורי של לואיס ועמיתיו משנת 2020 שהציג את יצירת השפה המוגברת באמצעות אחזור.
בדרך כלל הוא משתמש במודלים של הטמעה כמו OpenAI text-embedding-3 או BGE כדי להמיר chunks לייצוגים וקטוריים.
אחזור מתבצע בדרך כלל באמצעות חיפוש וקטורי צפוף, BM25, או שיטות היברידיות על פני קורפוסים טקסטואליים.
RAG טקסטואלי בלבד מפעיל כיום את רוב הצ'אטבוטים לתעשייה, כלי חיפוש ארגוניים ועוזרי תמיכת לקוחות.
מסגרות עבודה כמו LangChain, LlamaIndex ו-Haystack נבנו במקור סביב צינורות אחזור טקסט בלבד.
טבלת השוואה
תכונה
RAG עם הקשר חזותי
RAG עם הקשר טקסטואלי בלבד
אופן הקלט
טקסט + תמונות + נתונים חזותיים
טקסט בלבד
שיטת אחזור
הטמעות רב-מודאליות (למשל, ColPali, CLIP)
הטמעות טקסט (למשל, BGE, OpenAI ada)
הטוב ביותר עבור
תרשימים, דיאגרמות, מסמכים סרוקים, אבטחת איכות חזותית
מאמרים, שאלות נפוצות, קוד, טקסט מובנה
מוּרכָּבוּת
גבוה יותר - דורש מקודדי ראייה ויותר אחסון
נמוך יותר - צינורות ואינדוקס פשוטים יותר
עֲלוּת
גבוה יותר עקב עיבוד תמונה ושימוש באסימונים
נמוך יותר, במיוחד עם קטעי טקסט קטנים
חֶבִיוֹן
מעט גבוה יותר מקידוד תמונה
בדרך כלל מהיר יותר
תלות ב-OCR
לעיתים קרובות מוסר על ידי אחזור תמונה ישיר
נדרש עבור קבצי PDF סרוקים או מבוססי תמונה
מודלים לדוגמה
GPT-4V, Gemini 1.5, LLaVA, Qwen-VL
GPT-4, קלוד, מיסטרל, לאמה 3
השוואה מפורטת
הבדלים בצינור אחזור
RAG טקסטואלי בלבד עובר דרך ידועה: מסמכים מחולקים לחתיכות, מוטמעים לווקטורים ומאוחסנים במסד נתונים לחיפוש דמיון. RAG חזותי נוקט בגישה שונה באופן מהותי על ידי קידוד עמודים או תמונות שלמים כהטמעות חזותיות, המאפשרות למערכת לאחזר על סמך פריסה, תרשימים ואיורים במקום רק מילים. שינוי זה אומר ש-RAG חזותי יכול למצוא מידע שנמצא בתוך גרפים, טבלאות או הערות בכתב יד ש-OCR עלול לקלקל.
דיוק במסמכים רב-מודאליים
כאשר מסמכים מכילים פריטים ויזואליים עשירים כמו גרפים פיננסיים, דיאגרמות הנדסיות או הדמיה רפואית, RAG חזותי נוטה לעלות על גישות טקסט בלבד. מחקרים על מדדי DocVQA ו-ChartQA מראים שמודלים המקבלים תמונות שאוחזרו לצד טקסט עונים על שאלות בצורה נכונה יותר מאלה המסתמכים על טקסט שחולץ בלבד. עם זאת, עבור מקורות טקסטואליים גרידא כמו פוסטים בבלוג או מאגרי קוד, RAG טקסט בלבד מתפקד באותה מידה ללא התקורה הנוספת.
עלות ותשתיות
RAG חזותי דורש יותר מהתשתית שלך. אחסון הטמעות תמונות דורש יותר מקום בדיסק, מקודדי ראייה כמו ColPali דורשים מעבדים גרפיים (GPUs) כדי לפעול ביעילות, והזנת תמונות למודלי שפה צורכת הרבה יותר טוקנים מאשר טקסט רגיל. RAG טקסטואלי בלבד נותר הבחירה החסכונית עבור רוב הצוותים, במיוחד כאשר עובדים עם מאמרים או תיעוד גדולים שאינם זקוקים לפרשנות חזותית.
התאמת מקרה שימוש
בחרו ב-RAG חזותי כאשר מאגר הידע שלכם כולל קבצי PDF סרוקים, מצגות, קטלוגי מוצרים עם תמונות או כל תוכן שבו לפריסה החזותית יש משמעות. RAG טקסטואלי בלבד זורח עבור ויקי של תמיכת לקוחות, חוזים משפטיים בטקסט רגיל, תיעוד קוד וסוכני שיחה שבהם מהירות ועלות חשובות יותר מנאמנות חזותית. מערכות ייצור רבות משלבות כיום את שניהם, ומאפשרות לאחזר טקסט עבור שאילתות מסוימות ותמונות עבור אחרות.
תאימות מודלים
RAG חזותי דורש מודל רב-מודאלי המסוגל לעבד תמונות, כגון GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro, או חלופות בקוד פתוח כמו LLaVA ו-Qwen-VL. RAG טקסט-בלבד עובד כמעט עם כל מודל שפה, כולל מודלים קטנים יותר במשקל פתוח כמו Llama 3 8B או Mistral 7B, מה שהופך אותו לנגיש אפילו בחומרה צנועה. פער תאימות זה מצטמצם ככל שיותר מודלים צוברים יכולות ראייה, אך הגדרות טקסט-בלבד עדיין מציעות אפשרויות פריסה רחבות יותר כיום.
יתרונות וחסרונות
RAG עם הקשר חזותי
יתרונות
+מטפל בתרשימים ודיאגרמות
+עוקף מגבלות OCR
+הבנת מסמכים טובה יותר
+לוכד מידע על הפריסה
המשך
−עלויות תשתית גבוהות יותר
−השהיית אחזור איטית יותר
−זקוק למודלים רב-מודאליים
−טביעת רגל אחסון גדולה יותר
RAG עם הקשר טקסטואלי בלבד
יתרונות
+פשוט לפריסה
+עלות תפעול נמוכה יותר
+עובד עם כל תואר שני במשפטים
+מערכת אקולוגית של כלים בוגרת
המשך
−מאבקים עם ויזואליה
−תלוי באיכות ה-OCR
−מפספס רמזים לפריסה
−חלש יותר במסמכים עתירי תמונות
תפיסות מוטעות נפוצות
מיתוס
RAG חזותי מחליף לחלוטין את RAG הטקסטואלי בלבד.
מציאות
אחזור טקסטואלי חזותי משלים ולא מחליף גישות טקסטואליות. עבור קורפוסים טקסטואליים גרידא כמו מאמרים או קוד, אחזור טקסטואלי עדיין מהיר ומדויק באותה מידה. רוב מערכות הייצור נהנות ממערכת היברידית המנתבת שאילתות למאחזר המתאים.
מיתוס
RAG טקסטואלי בלבד אינו יכול להתמודד עם מסמכים עם תמונות כלל.
מציאות
RAG טקסט-בלבד עדיין יכול לעבד מסמכים המכילים תמונות על ידי הפעלת OCR תחילה ואינדוקס של הטקסט שחולץ. האיכות תלויה במידה רבה בצינור ה-OCR, ופריסות מורכבות לעתים קרובות מאבדות משמעות, אך זוהי גישה מעשית עבור מקרי שימוש רבים.
מיתוס
RAG חזותי תמיד נותן תשובות טובות יותר מאשר RAG טקסטואלי בלבד.
מציאות
RAG חזותי עולה בביצועיו על RAG טקסטואלי בלבד רק כאשר המידע החזותי שאוחזר רלוונטי בפועל לשאילתה. עבור שאלות על פרוזה, קוד או טקסט מובנה, הוספת תמונות יכולה להכניס רעש ולהגדיל את העלויות מבלי לשפר את הדיוק.
מיתוס
אתה צריך GPT-4V או Gemini כדי לעשות RAG ויזואלי.
מציאות
מודלים בקוד פתוח כמו LLaVA, Qwen-VL, InternVL ו-MiniCPM-V יכולים להתמודד עם משימות RAG חזותיות ביעילות. מקודדי ראייה קטנים יותר בשילוב עם מעבדים כמו ColPali פועלים על גבי מעבדים גרפיים (GPUs) צרכניים, מה שהופך את RAG חזותיות לנגיש ללא ממשקי API קנייניים.
מיתוס
RAG חזותי יקר מדי לשימוש בייצור.
מציאות
בעוד ש-RAG חזותי עולה יותר מטקסט בלבד, טכניקות כמו דחיסת תמונה, הטמעת מטמון ואחזור סלקטיבי שומרות על עלויות ניהוליות. עבור תעשיות כבדות מסמכים כמו משפט, בריאות ופיננסים, יתרונות הדיוק מצדיקים לעתים קרובות את ההוצאה.
שאלות נפוצות
מה ההבדל העיקרי בין RAG חזותי ל-RAG טקסטואלי בלבד?
RAG חזותי מאחזר תמונות, דפי מסמכים ותוכן חזותי כדי לבנות תגובות מודל שפה, בעוד ש-RAG טקסטואלי בלבד מאחזר רק קטעים כתובים. RAG חזותי משתמש בהטמעות רב-מודאליות כדי להבין פריסה, תרשימים ואיורים, בעוד ש-RAG טקסטואלי בלבד מסתמך על הטמעות טקסט ולעתים קרובות דורש OCR עבור מסמכים סרוקים.
האם RAG חזותי מדויק יותר מ-RAG טקסטואלי בלבד?
RAG חזותי נוטה להיות מדויק יותר במשימות הכוללות תרשימים, דיאגרמות, מסמכים סרוקים ומענה חזותי לשאלות. מדדי ביצועים כמו DocVQA ו-ChartQA מראים שיפורים משמעותיים כאשר מוסיפים אחזור חזותי. עם זאת, עבור שאילתות טקסטואליות גרידא, שתי הגישות מתפקדות באופן דומה.
האם ניתן להשתמש ב-RAG חזותי עם מודלים בקוד פתוח?
כן, מודלים בקוד פתוח כמו LLaVA, Qwen-VL, InternVL ו-MiniCPM-V תומכים בזרימות עבודה חזותיות של RAG. בשילוב עם מעבדים כמו ColPali או ColQwen, ניתן לבנות צינורות RAG חזותיים בקוד פתוח לחלוטין הפועלים על מעבדים גרפיים מקומיים מבלי להיות תלויים בממשקי API קנייניים.
האם RAG ויזואלי מבטל את הצורך ב-OCR?
RAG חזותי מבטל לעיתים קרובות את פעולת ה-OCR על ידי אחזור עמודי מסמכים כתמונות ישירות ומתן אפשרות למודל שפת הראייה לפרש אותם. זה מונע שגיאות OCR בפריסות מורכבות, כתב יד או סריקות באיכות נמוכה. חלק מהמערכות ההיברידיות עדיין משתמשות ב-OCR לאינדוקס מטא-נתונים תוך הסתמכות על אחזור חזותי עבור התוכן בפועל.
כמה עולה RAG ויזואלי בהשוואה ל-RAG טקסטואלי בלבד?
RAG חזותי עולה בדרך כלל פי 3 עד 10 יותר מ-RAG טקסטואלי בלבד עקב אחסון תמונות, חישוב מקודד חזותיים ושימוש גבוה יותר באסימונים בעת הזנת תמונות למודלי שפה. העלויות משתנות בהתאם לגודל המסמך, תדירות האחזור והאם אתם משתמשים בממשקי API מתארחים או במודלים המתארחים באופן עצמאי.
מה זה ColPali וכיצד זה קשור ל-RAG חזותי?
ColPali הוא מודל אחזור מסמכים שהוצג בשנת 2024, המתייחס לדפי מסמכים כתמונות ומשתמש במקודדים חזותיים כמו PaliGemma כדי ליצור הטמעות. הוא היה חלוץ בגישת אחזור המסמכים החזותית המניעה מערכות RAG חזותיות מודרניות רבות, במיוחד עבור מאגרי ידע עתירי PDF.
מתי כדאי לי לבחור ב-RAG טקסטואלי בלבד על פני RAG ויזואלי?
בחרו ב-RAG טקסטואלי בלבד כאשר בסיס הידע שלכם מורכב מטקסט נקי כמו מאמרים, קוד, שאלות נפוצות או יומני צ'אט. זוהי גם בחירה טובה יותר כאשר התקציב מוגבל, זמן ההשהיה חשוב, או שאתם פורסים את המערכת במודלים קטנים יותר ללא יכולות ראייה. RAG טקסטואלי בלבד הוא ברירת המחדל הבטוחה יותר עבור רוב יישומי הצ'אטבוט והחיפוש המסורתיים.
האם ניתן לשלב RAG חזותי ו-RAG טקסטואלי בלבד?
כן, מערכות RAG היברידיות משלבות את שתי הגישות על ידי הפעלת מערכות אחזור מקבילות ומיזוג תוצאות, או על ידי ניתוב שאילתות למערכת האחזור המתאימה בהתבסס על סוג השאלה. זה נותן לך את יתרונות העלות של אחזור טקסט בלבד עבור שאילתות פשוטות ואת יתרונות הדיוק של אחזור חזותי עבור שאלות עתירות מסמכים.
מהם אמות המידה הטובות ביותר להערכת RAG חזותי?
מדדים נפוצים כוללים את DocVQA להבנת מסמכים, ChartQA לשאלות מבוססות תרשימים, MMMU לחשיבה רב-מודאלית ו-InfoVQA להבנת אינפוגרפיקה. עבור RAG טקסטואלי בלבד, מדדים פופולריים כוללים את Natural Questions, TriviaQA ו-HotpotQA.
האם אני צריך תואר שני במשפטים רב-מודאלי כדי להשתמש ב-RAG חזותי?
כן, RAG חזותי דורש מודל שפה שיכול לעבד תמונות, כגון GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro, או חלופות בקוד פתוח כמו LLaVA ו-Qwen-VL. מודלים טקסטואליים טהורים כמו בסיס GPT-4 או Llama 3 אינם יכולים לפרש תמונות שאוחזרו, ולכן הם עובדים רק עם RAG טקסטואלי בלבד.
פסק הדין
בחרו בגישה ויזואלית של RAG כאשר הנתונים שלכם עשירים בתמונות או כאשר פריסה, תרשימים ודיאגרמות נושאים משמעות קריטית - זהו המנצח הברור עבור בינה מלאכותית של מסמכים ומענה ויזואלי לשאלות. הישארו עם RAG טקסטואלי בלבד עבור מאגרי ידע מסורתיים, פריסה מהירה יותר ועלויות נמוכות יותר, במיוחד כאשר התוכן שלכם כבר בצורת טקסט נקי. צוותים רבים מגלים שגישה היברידית עובדת בצורה הטובה ביותר, ומאפשרת לסוג השאילתה להחליט באיזה נתיב אחזור לבחור.