인공지능조각멀티모달 AI검색 증강 생성일름컴퓨터 비전

시각적 컨텍스트를 사용한 RAG와 텍스트 전용 컨텍스트를 사용한 RAG 비교

시각적 컨텍스트를 활용하는 RAG는 텍스트와 함께 이미지, 차트, 다이어그램을 검색하여 언어 모델을 풍부하게 하는 반면, 텍스트 전용 RAG는 오로지 텍스트에만 의존합니다. 시각적 RAG는 문서 이해 및 시각적 질의응답과 같은 멀티모달 작업에 탁월한 반면, 텍스트 전용 RAG는 배포가 더 간단하고 빠르며 비용도 저렴합니다.

주요 내용

Visual RAG는 페이지를 이미지로 직접 검색하여 OCR 오류를 제거합니다.
텍스트 기반 지식 베이스의 경우, 텍스트 전용 RAG가 여전히 더 빠르고 저렴합니다.
멀티모달 벤치마크 결과는 차트 및 문서 작업에서 시각적 검색을 일관되게 선호합니다.
하이브리드 파이프라인은 생산 시스템을 위한 실용적인 중간 단계로 부상하고 있습니다.

시각적 맥락을 포함한 RAG이(가) 무엇인가요?

이미지, 도표 및 시각적 데이터를 활용하여 언어 모델 응답을 구체화하는 검색 증강 생성 접근 방식.

Visual RAG 시스템은 멀티모달 추론을 지원하기 위해 지식 기반에서 텍스트 및 시각적 콘텐츠를 모두 검색합니다.
GPT-4V, Gemini, LLaVA와 같은 모델은 컨텍스트 창 내에서 검색된 이미지를 직접 처리할 수 있습니다.
ColPali와 ColQwen은 페이지를 이미지로 처리하여 기존 OCR 파이프라인을 우회하는 문서 검색 방식을 도입했습니다.
Visual RAG는 차트, 인포그래픽, 과학 도표 및 스캔한 문서를 이해하는 데 특히 효과적입니다.
MMMU 및 DocVQA와 같은 벤치마크는 텍스트 전용 파이프라인에 시각적 검색을 추가했을 때 측정 가능한 성능 향상이 나타남을 보여줍니다.

텍스트 전용 컨텍스트를 사용하는 RAG이(가) 무엇인가요?

문서에서 발췌한 텍스트 구절만을 사용하여 언어 모델을 구축하는 전통적인 검색 증강 생성 방식입니다.

텍스트 전용 RAG는 2020년 Lewis 등이 발표한 검색 증강 생성(retrieval-augmented generation) 논문을 통해 널리 알려지게 되었습니다.
일반적으로 OpenAI text-embedding-3 또는 BGE와 같은 임베딩 모델을 사용하여 텍스트 덩어리를 벡터 표현으로 변환합니다.
검색은 일반적으로 텍스트 코퍼스를 대상으로 밀집 벡터 검색, BM25 또는 하이브리드 방법을 통해 수행됩니다.
텍스트 전용 RAG는 오늘날 대부분의 상용 챗봇, 기업 검색 도구 및 고객 지원 도우미에 사용됩니다.
LangChain, LlamaIndex, Haystack과 같은 프레임워크는 원래 텍스트 기반 검색 파이프라인을 중심으로 구축되었습니다.

비교 표

기능	시각적 맥락을 포함한 RAG	텍스트 전용 컨텍스트를 사용하는 RAG
입력 방식	텍스트 + 이미지 + 시각적 데이터	텍스트 전용
검색 방법	멀티모달 임베딩(예: ColPali, CLIP)	텍스트 임베딩(예: BGE, OpenAI ada)
가장 적합한 대상	차트, 다이어그램, 스캔 문서, 시각적 QA	기사, FAQ, 코드, 구조화된 텍스트
복잡성	더 높은 등급 - 비전 인코더와 더 많은 저장 공간이 필요합니다.	더 낮은 수준 — 더 간단한 파이프라인 및 인덱싱
비용	이미지 처리 및 토큰 사용으로 인해 비용이 더 높습니다.	더 낮음, 특히 텍스트 덩어리가 작을수록
숨어 있음	이미지 인코딩으로 인해 약간 더 높아집니다.	일반적으로 더 빠릅니다
OCR 의존성	직접 이미지 검색으로 인해 제거되는 경우가 많습니다.	스캔 또는 이미지 기반 PDF에 필요합니다.
예시 모델	GPT-4V, 제미니 1.5, LLaVA, Qwen-VL	GPT-4, 클로드, 미스트랄, 라마 3

상세 비교

검색 파이프라인 차이점

텍스트 기반 RAG는 기존 방식대로 문서를 여러 부분으로 나누어 벡터로 인코딩한 후 데이터베이스에 저장하여 유사성을 검색합니다. 반면 비주얼 RAG는 전체 페이지나 이미지를 시각적 임베딩으로 인코딩하는 근본적으로 다른 접근 방식을 취합니다. 이를 통해 시스템은 단어뿐 아니라 레이아웃, 도표, 그림 등을 기반으로 정보를 검색할 수 있습니다. 따라서 비주얼 RAG는 OCR로는 제대로 인식하지 못할 수 있는 그래프, 표, 손글씨 메모 속 정보까지 찾아낼 수 있습니다.

멀티모달 문서의 정확도

재무 차트, 엔지니어링 다이어그램, 의료 영상과 같은 풍부한 시각 자료가 포함된 문서의 경우, 시각적 RAG는 텍스트만 사용하는 방식보다 우수한 성능을 보이는 경향이 있습니다. DocVQA 및 ChartQA 벤치마크 연구 결과에 따르면, 추출된 텍스트와 함께 이미지를 제공받는 모델이 텍스트만 사용하는 모델보다 질문에 더 정확하게 답변하는 것으로 나타났습니다. 하지만 블로그 게시물이나 코드 저장소와 같이 순수 텍스트로만 구성된 자료의 경우, 텍스트만 사용하는 RAG도 추가적인 오버헤드 없이 동일한 성능을 보입니다.

비용 및 인프라

시각적 RAG는 인프라에 더 많은 부담을 줍니다. 이미지 임베딩을 저장하려면 더 많은 디스크 공간이 필요하고, ColPali와 같은 비전 인코더는 효율적으로 실행하기 위해 GPU가 필요하며, 언어 모델에 이미지를 입력하는 데는 일반 텍스트보다 훨씬 더 많은 토큰이 사용됩니다. 텍스트 전용 RAG는 특히 시각적 해석이 필요하지 않은 대규모 문서나 기사 모음을 다룰 때 대부분의 팀에게 여전히 비용 효율적인 선택입니다.

사용 사례 적합성

스캔한 PDF 파일, 슬라이드 자료, 사진이 포함된 제품 카탈로그 등 시각적 레이아웃이 중요한 콘텐츠를 지식 기반으로 활용할 때는 시각적 RAG를 선택하세요. 텍스트 전용 RAG는 고객 지원 위키, 일반 텍스트로 작성된 법률 계약서, 코드 문서, 속도와 비용이 시각적 완성도보다 중요한 대화형 에이전트에 적합합니다. 현재는 많은 운영 시스템에서 텍스트와 이미지를 모두 활용하여 일부 쿼리에는 텍스트를, 다른 쿼리에는 이미지를 제공하는 방식을 채택하고 있습니다.

모델 호환성

시각적 RAG는 GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro와 같은 이미지 처리가 가능한 멀티모달 모델이나 LLaVA, Qwen-VL 같은 오픈소스 대안을 필요로 합니다. 텍스트 전용 RAG는 Llama 3 8B나 Mistral 7B와 같은 소형 오픈웨이트 모델을 포함하여 사실상 모든 언어 모델과 호환되므로 사양이 낮은 하드웨어에서도 사용 가능합니다. 더 많은 모델이 비전 기능을 갖추게 되면서 이러한 호환성 격차는 줄어들고 있지만, 현재로서는 텍스트 전용 구성이 더 폭넓은 배포 옵션을 제공합니다.

장단점

시각적 맥락을 포함한 RAG

장점

+ 차트와 다이어그램을 다룹니다.
+ OCR 제한을 우회합니다
+ 문서 이해도 향상
+ 레이아웃 정보를 캡처합니다.

− 더 높은 인프라 비용
− 검색 지연 시간이 더 길어짐
− 다중 모달 모델이 필요합니다
− 더 넓은 저장 공간

텍스트 전용 컨텍스트를 사용하는 RAG

장점

+ 배포가 간편합니다
+ 운영 비용 절감
+ 모든 LLM 과정과 호환됩니다.
+ 성숙한 툴링 생태계

− 시각적인 어려움
− OCR 품질에 따라 다릅니다
− 레이아웃 단서를 놓칩니다
− 이미지가 많은 문서에서는 성능이 떨어짐

흔한 오해

신화

Visual RAG는 텍스트 전용 RAG를 완전히 대체합니다.

현실

Visual RAG는 텍스트 기반 검색 방식을 대체하는 것이 아니라 보완하는 역할을 합니다. 기사나 코드와 같은 순수 텍스트 코퍼스의 경우, 텍스트 기반 검색이 여전히 더 빠르고 정확도도 동일합니다. 대부분의 실제 운영 시스템은 적절한 검색 알고리즘으로 쿼리를 전달하는 하이브리드 설정을 통해 성능을 향상시킵니다.

신화

텍스트 전용 RAG는 이미지가 포함된 문서를 전혀 처리할 수 없습니다.

현실

텍스트 전용 RAG는 먼저 OCR을 실행하고 추출된 텍스트를 인덱싱하여 이미지가 포함된 문서를 처리할 수 있습니다. 처리 품질은 OCR 파이프라인에 크게 좌우되며, 복잡한 레이아웃의 경우 의미가 손실될 수 있지만, 많은 사용 사례에서 활용 가능한 접근 방식입니다.

신화

시각적 RAG는 텍스트만 사용하는 RAG보다 항상 더 나은 결과를 제공합니다.

현실

시각적 RAG는 검색된 시각적 정보가 실제로 쿼리와 관련이 있을 때만 텍스트 전용 RAG보다 우수한 성능을 보입니다. 산문, 코드 또는 구조화된 텍스트에 대한 질문의 경우 이미지를 추가하면 정확도 향상 없이 노이즈가 발생하고 비용이 증가할 수 있습니다.

신화

시각적 RAG를 수행하려면 GPT-4V 또는 Gemini가 필요합니다.

현실

LLaVA, Qwen-VL, InternVL, MiniCPM-V와 같은 오픈 소스 모델은 시각적 RAG 작업을 효과적으로 처리할 수 있습니다. 소형 비전 인코더와 ColPali와 같은 리트리버를 결합하면 일반 소비자용 GPU에서 실행되므로 독점 API 없이도 시각적 RAG를 사용할 수 있습니다.

신화

Visual RAG는 상용 제품으로 사용하기에는 너무 비쌉니다.

현실

시각적 RAG는 텍스트 전용 RAG보다 비용이 더 많이 들지만, 이미지 압축, 임베딩 캐싱, 선택적 검색과 같은 기술을 통해 비용을 관리 가능한 수준으로 유지할 수 있습니다. 법률, 의료, 금융과 같이 문서 사용량이 많은 산업에서는 정확도 향상이 이러한 비용을 충분히 상쇄하는 경우가 많습니다.

자주 묻는 질문

시각적 RAG와 텍스트 전용 RAG의 주요 차이점은 무엇인가요?

Visual RAG는 이미지, 문서 페이지 및 시각적 콘텐츠를 검색하여 언어 모델 응답의 기초를 마련하는 반면, text-only RAG는 텍스트로 작성된 구절만 검색합니다. Visual RAG는 레이아웃, 차트 및 그림을 이해하기 위해 멀티모달 임베딩을 사용하는 반면, text-only RAG는 텍스트 임베딩에 의존하며 스캔한 문서의 경우 OCR이 필요한 경우가 많습니다.

시각적 RAG가 텍스트 전용 RAG보다 더 정확한가요?

Visual RAG는 차트, 다이어그램, 스캔한 문서 및 시각적 질의응답과 관련된 작업에서 더 높은 정확도를 보이는 경향이 있습니다. DocVQA 및 ChartQA와 같은 벤치마크는 시각적 검색을 추가했을 때 의미 있는 성능 향상을 보여줍니다. 그러나 순수 텍스트 쿼리의 경우 두 접근 방식 모두 유사한 성능을 보입니다.

오픈소스 모델에서 Visual RAG를 사용할 수 있나요?

네, LLaVA, Qwen-VL, InternVL, MiniCPM-V와 같은 오픈 소스 모델은 시각적 RAG 워크플로우를 지원합니다. ColPali 또는 ColQwen과 같은 리트리버와 함께 사용하면 독점 API에 의존하지 않고 로컬 GPU에서 실행되는 완전한 오픈 소스 시각적 RAG 파이프라인을 구축할 수 있습니다.

시각적 RAG는 OCR의 필요성을 없애는가?

Visual RAG는 문서 페이지를 이미지로 직접 가져와 시각-언어 모델이 이를 해석하도록 함으로써 OCR을 사용하지 않는 경우가 많습니다. 이를 통해 복잡한 레이아웃, 필기체 또는 저품질 스캔에서 발생하는 OCR 오류를 방지할 수 있습니다. 일부 하이브리드 시스템은 메타데이터 색인에는 여전히 OCR을 사용하지만 실제 콘텐츠 검색에는 시각적 방식을 활용합니다.

시각적 RAG는 텍스트 전용 RAG에 비해 비용이 얼마나 더 많이 드나요?

이미지 기반 RAG는 이미지 저장, 비전 인코더 연산, 그리고 언어 모델에 이미지를 입력할 때 더 많은 토큰 사용량으로 인해 일반적으로 텍스트 기반 RAG보다 3~10배 더 비쌉니다. 비용은 문서 크기, 검색 빈도, 그리고 호스팅 API 사용 여부 또는 자체 호스팅 모델 사용 여부에 따라 달라집니다.

ColPali는 무엇이며 시각적 RAG와 어떤 관련이 있습니까?

ColPali는 2024년에 도입된 문서 검색 모델로, 문서 페이지를 이미지로 처리하고 PaliGemma와 같은 비전 인코더를 사용하여 임베딩을 생성합니다. 이 모델은 특히 PDF 중심의 지식 기반에서 많은 최신 시각적 RAG 시스템의 기반이 되는 시각적 문서 검색 방식을 개척했습니다.

텍스트 전용 RAG와 시각적 RAG 중 어떤 것을 선택해야 할까요?

문서, 코드, FAQ 또는 채팅 기록과 같이 깔끔한 텍스트로 구성된 지식 기반을 사용하는 경우 텍스트 전용 RAG를 선택하세요. 예산이 부족하거나, 지연 시간이 중요하거나, 비전 기능이 없는 소규모 모델에 배포하는 경우에도 더 나은 선택입니다. 텍스트 전용 RAG는 대부분의 기존 챗봇 및 검색 애플리케이션에 더 안전한 기본 설정입니다.

시각적 RAG와 텍스트 전용 RAG를 함께 사용할 수 있습니까?

네, 하이브리드 RAG 시스템은 병렬 검색기를 실행하고 결과를 병합하거나 질문 유형에 따라 적절한 검색기로 쿼리를 라우팅하는 방식으로 두 가지 접근 방식을 결합합니다. 이를 통해 간단한 쿼리에는 텍스트 전용 검색의 비용 효율성을, 문서 중심 질문에는 시각적 검색의 정확도 이점을 누릴 수 있습니다.

시각적 RAG를 평가하는 데 가장 적합한 기준은 무엇일까요?

일반적인 벤치마크로는 문서 이해도를 평가하는 DocVQA, 차트 기반 질문을 평가하는 ChartQA, 다중 모달 추론을 평가하는 MMMU, 인포그래픽 이해도를 평가하는 InfoVQA 등이 있습니다. 텍스트 기반 추론 문제의 경우, Natural Questions, TriviaQA, HotpotQA 등이 널리 사용되는 벤치마크입니다.

시각적 RAG를 사용하려면 멀티모달 LLM이 필요한가요?

네, 시각적 RAG를 사용하려면 GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro 또는 LLaVA, Qwen-VL과 같은 오픈 소스 대안처럼 이미지를 처리할 수 있는 언어 모델이 필요합니다. 기본 GPT-4나 Llama 3과 같은 순수 텍스트 모델은 검색된 이미지를 해석할 수 없으므로 텍스트 전용 RAG에서만 작동합니다.

평결

데이터에 이미지가 많거나 레이아웃, 차트, 다이어그램이 중요한 의미를 담고 있을 때는 시각적 RAG를 선택하세요. 문서 AI 및 시각적 질의응답에 가장 적합한 방식입니다. 기존 지식 기반, 빠른 배포, 낮은 비용, 특히 콘텐츠가 이미 깔끔한 텍스트 형태로 되어 있는 경우에는 텍스트 전용 RAG를 사용하는 것이 좋습니다. 많은 팀에서 쿼리 유형에 따라 검색 경로를 결정하는 하이브리드 방식을 선호합니다.