هوش مصنوعیراگکارشناسی ارشد حقوقبازیابی-تولید افزودهپردازش زبان طبیعی

خطوط لوله Self-RAG در مقابل خطوط لوله استاندارد RAG

Q: تفاوت اصلی بین Self-RAG و RAG استاندارد چیست؟

بزرگترین تفاوت، کنترل تطبیقی است. Self-RAG به مدل اجازه میدهد تا تصمیم بگیرد چه زمانی بازیابی کند و خروجیهای خود را با استفاده از توکنهای بازتاب ارزیابی میکند، در حالی که RAG استاندارد همیشه اسناد را قبل از تولید پاسخ بازیابی میکند. این امر Self-RAG را انعطافپذیرتر میکند، اما پیادهسازی آن را نیز پیچیدهتر میکند.

Q: آیا میتوانم از Self-RAG با مدلهای متنباز استفاده کنم؟

کاملاً. مقاله اصلی Self-RAG این رویکرد را با استفاده از مدلهای Llama 2 7B و 13B نشان داده است. شما میتوانید هر LLM متنباز را با دادههای توکن بازتاب تنظیم دقیق کنید تا به رفتار خودبازتابی مشابه دست یابید.

Q: توکنهای بازتاب در Self-RAG چه هستند؟

توکنهای بازتاب، توکنهای ویژهای هستند که مدل برای تصمیمگیری در طول تولید منتشر میکند. چهار نوع اصلی عبارتند از Retrieve (آیا باید بازیابی کنم؟)، IsRel (آیا متن مرتبط است؟)، IsSup (آیا متن از پاسخ پشتیبانی میکند؟) و IsUse (آیا پاسخ در کل مفید است؟).

Q: آیا هزینه راهاندازی Self-RAG بیشتر از RAG استاندارد است؟

بستگی به حجم کار دارد. Self-RAG میتواند زمانی که بسیاری از پرسوجوها نیازی به بازیابی ندارند، ارزانتر باشد، زیرا مرحله بازیابی را به طور کامل حذف میکند. برای پرسوجوهایی که نیاز به بازیابی دارند، هزینهها قابل مقایسه با RAG استاندارد به علاوه سربار کمی برای پردازش توکن بازتاب است.

Q: کدام رویکرد برای چتباتهای سازمانی بهتر است؟

برای اکثر چتباتهای سازمانی امروزی، RAG استاندارد به دلیل بلوغ و نگهداری سادهتر، انتخاب امنتری است. Self-RAG زمانی جذاب میشود که میزان توهم یک نگرانی اساسی باشد و تیم ظرفیت مهندسی لازم برای مدیریت پیچیدگیهای اضافی را داشته باشد.

خود-RAG یک لایه بازیابی خودبازتابنده را معرفی می‌کند که به مدل‌های زبانی اجازه می‌دهد خروجی‌های خود را نقد و تطبیق دهند، در حالی که خطوط لوله استاندارد RAG به یک گردش کار ثابت بازیابی-سپس-خواندن متکی هستند. تفاوت کلیدی در کنترل تطبیقی در مقابل اجرای خطی و قابل پیش‌بینی نهفته است.

برجسته‌ها

Self-RAG از توکن‌های بازتاب برای تصمیم‌گیری در مورد زمان واقعی نیاز به بازیابی استفاده می‌کند.
RAG استاندارد همیشه بازیابی می‌کند، و زمینه‌ای سازگار اما گاهی غیرضروری اضافه می‌کند.
Self-RAG می‌تواند از بازیابی پرس‌وجوهایی که از قبل می‌داند صرف‌نظر کند و هزینه‌های محاسباتی را کاهش دهد.
امروزه استقرار RAG استاندارد در محیط‌های تولیدی بسیار آسان‌تر است.

خود-RAG چیست؟

یک چارچوب بازیابی-افزوده که در آن مدل، اطلاعات را ارزیابی کرده و تصمیم می‌گیرد چه زمانی آنها را بازیابی کند.

توسط محققان دانشگاه واشنگتن و موسسه هوش مصنوعی آلن در مقاله‌ای در سال ۲۰۲۳ معرفی شد.
از توکن‌های بازتاب ویژه مانند Retrieve، IsRel، IsSup و IsUse برای هدایت رفتار استفاده می‌کند.
این مدل می‌تواند وقتی از قبل جواب را می‌داند، بازیابی را به طور کامل نادیده بگیرد و در محاسبات صرفه‌جویی کند.
در وظایف دانش‌محور مانند معیارهای PopQA و PubHealth به عملکرد قوی دست می‌یابد.
روی مجموعه داده‌هایی حاوی مثال‌های خوداندیشی تولید شده توسط GPT-4 آموزش داده شده است.

خطوط لوله استاندارد RAG چیست؟

یک رویکرد سنتی بازیابی-تولید افزوده که ابتدا اسناد را بازیابی می‌کند، سپس آنها را به یک مدل زبانی می‌دهد.

برگرفته از مقاله‌ای در سال ۲۰۲۰ توسط پاتریک لوئیس و همکارانش در بخش تحقیقات هوش مصنوعی فیسبوک.
از یک توالی خطی بازیابی-سپس-خواندن بدون خودارزیابی داخلی پیروی می‌کند.
معمولاً از جاسازی‌های متراکم از مدل‌هایی مانند DPR یا BGE برای بازیابی سند استفاده می‌کند.
ستون فقرات اکثر چت‌بات‌های تولیدی و ابزارهای جستجوی سازمانی امروزی را تشکیل می‌دهد.
اغلب برای جستجوی سریع شباهت با پایگاه‌های داده برداری مانند FAISS، Pinecone یا Weaviate جفت می‌شود.

جدول مقایسه

ویژگی	خود-RAG	خطوط لوله استاندارد RAG
استراتژی بازیابی	تطبیقی، مدل تصمیم می‌گیرد چه زمانی بازیابی کند	همیشه قبل از پاسخ دادن، بازیابی می‌کند
خودارزیابی	توکن‌های انعکاس داخلی برای کنترل کیفیت	نبود سازوکار نقد داخلی
هزینه محاسباتی	وقتی بازیابی انجام نمی‌شود، پایین‌تر می‌آید	هزینه ثابت برای هر پرس و جو
دقت پاسخ	در کارهای استدلالی پیچیده عملکرد بهتری دارد	قوی اما می‌تواند شامل زمینه‌های نامربوط باشد
پیچیدگی پیاده‌سازی	آموزش‌های پیچیده‌تر	استقرار و نگهداری ساده‌تر
انعطاف‌پذیری	به صورت پویا برای هر پرس و جو تنظیم می‌شود	گردش کار ثابت صرف نظر از نوع پرس و جو
الزامات آموزشی	به داده‌های برچسب‌گذاری‌شده با بازتاب نیاز دارد	تنظیم دقیق استاندارد کافی است
تأخیر	بسته به تصمیمات بازیابی متغیر است	تأخیر دو مرحله‌ای قابل پیش‌بینی

مقایسه دقیق

معماری هسته

RAG استاندارد بر روی یک خط لوله دو مرحله‌ای سرراست عمل می‌کند که در آن یک بازیابی‌کننده اسناد مربوطه را دریافت می‌کند و یک مولد، پاسخی را که مشروط به آن زمینه است، تولید می‌کند. Self-RAG یک فرآیند تصمیم‌گیری را در بالا لایه‌بندی می‌کند و به مدل اجازه می‌دهد توکن‌های بازتابی را منتشر کند که تعیین می‌کند آیا بازیابی مورد نیاز است و آیا خروجی مبتنی بر پایه است یا خیر. این امر باعث می‌شود Self-RAG از نظر فکری ماژولارتر باشد، در حالی که RAG استاندارد ساده‌تر و استدلال در مورد آن آسان‌تر باقی می‌ماند.

رفتار بازیابی

در RAG استاندارد، هر پرس‌وجو صرف نظر از اینکه مدل از قبل دانش لازم را دارد یا خیر، یک مرحله بازیابی را آغاز می‌کند. Self-RAG با آموزش مدل برای تشخیص اینکه چه زمانی اطلاعات خارجی واقعاً ضروری هستند، این روند را برعکس می‌کند. برای سوالات واقعی که مدل می‌تواند با وزن‌های خود به آنها پاسخ دهد، Self-RAG به طور کامل از بازیابی صرف نظر می‌کند، که این امر باعث کاهش نویز و افزایش سرعت پاسخ‌ها می‌شود.

کنترل کیفیت

خود-RAG چهار نشانه بازتاب را معرفی می‌کند که به عنوان نقاط بازرسی در طول فرآیند تولید عمل می‌کنند. این نشانه‌ها به مدل اجازه می‌دهند ادعاهای بدون پشتوانه را علامت‌گذاری کند و در صورت ضعیف بودن شواهد، دوباره تلاش کند. RAG استاندارد چنین حلقه بازخورد داخلی ندارد، بنابراین توهمات یا پاسخ‌های خارج از موضوع می‌توانند از بین بروند، مگر اینکه محافظ‌های خارجی اضافه شوند.

عملکرد در بنچمارک‌ها

در معیارهایی مانند PopQA، ARC-Challenge و PubHealth، Self-RAG پیشرفت‌های قابل اندازه‌گیری نسبت به خطوط پایه استاندارد RAG نشان داده است، به خصوص برای سوالاتی که نیاز به استدلال چندگامی دارند. RAG استاندارد هنوز هم در جستجوی حقایق سرراست که در آن بازیابی به طور قابل اعتمادی متن درست را نشان می‌دهد، عملکرد خوبی دارد. با افزایش پیچیدگی سوال، شکاف عملکرد بیشتر می‌شود.

استقرار عملی

RAG استاندارد همچنان انتخاب پیش‌فرض برای اکثر سیستم‌های تولیدی است زیرا به طور تمیز با پایگاه‌های داده برداری موجود ادغام می‌شود و نیازی به داده‌های آموزشی تخصصی ندارد. Self-RAG به تلاش مهندسی بیشتری نیاز دارد، از جمله تولید مجموعه داده‌های دارای برچسب بازتاب و تنظیم دقیق مدل برای انتشار توکن‌های مناسب. برای تیم‌هایی با منابع محدود یادگیری ماشین، RAG استاندارد گزینه عملی است.

مزایا و معایب

خود-RAG

مزایا

+ بازیابی تطبیقی
+ بررسی‌های کیفیت داخلی
+ دقت بالاتر
+ توهم را کاهش می‌دهد

مصرف شده

− آموزش پیچیده
− داده‌های تخصصی مورد نیاز
− استقرار دشوارتر
− تأخیر متغیر

خطوط لوله استاندارد RAG

مزایا

+ معماری ساده
+ ادغام آسان
+ هزینه قابل پیش‌بینی
+ پشتیبانی گسترده از ابزارآلات

مصرف شده

− همیشه بازیابی می‌کند
− بدون انتقاد از خود
− می‌تواند شامل نویز باشد
− خطر توهم بالاتر

تصورات نادرست رایج

افسانه

Self-RAG کاملاً جایگزین قطعه بازیابی کننده می‌شود.

واقعیت

Self-RAG هنوز از یک بازیابی‌کننده استفاده می‌کند، اما یک لایه تصمیم‌گیری به آن اضافه می‌کند. این مدل به جای حذف کامل بازیابی از خط لوله، انتخاب می‌کند که چه زمانی بازیابی را فراخوانی کند.

افسانه

RAG استاندارد قدیمی شده و دیگر مفید نیست.

واقعیت

RAG استاندارد همچنان پایه و اساس اکثر سیستم‌های هوش مصنوعی تولیدی است. Self-RAG به جای جایگزینی آن، بر اساس آن ساخته می‌شود و بسیاری از تیم‌ها هنوز با رویکرد کلاسیک نتایج عالی می‌گیرند.

افسانه

Self-RAG همیشه اسناد بیشتری نسبت به RAG استاندارد بازیابی می‌کند.

واقعیت

Self-RAG اغلب اسناد کمتری را بازیابی می‌کند زیرا می‌تواند در صورت لزوم از بازیابی صرف نظر کند. ماهیت تطبیقی به این معنی است که فقط زمانی که مدل آن را مفید تشخیص دهد، متن را استخراج می‌کند.

افسانه

برای اجرای Self-RAG به GPT-4 نیاز دارید.

واقعیت

Self-RAG را می‌توان با مدل‌های متن‌باز مختلفی پیاده‌سازی کرد. در مقاله اصلی از Llama 2 که با توکن‌های بازتاب تنظیم شده بود، استفاده شد و ثابت شد که این رویکرد فراتر از سیستم‌های اختصاصی نیز کار می‌کند.

افسانه

RAG استاندارد نمی‌تواند استدلال پیچیده را مدیریت کند.

واقعیت

RAG استاندارد وقتی با مولدهای قوی و استراتژی‌های قطعه‌بندی خوب جفت شود، استدلال پیچیده را به خوبی مدیریت می‌کند. Self-RAG موارد مرزی را بهبود می‌بخشد، اما RAG استاندارد ذاتاً محدود به پرس‌وجوهای ساده نیست.

سوالات متداول

تفاوت اصلی بین Self-RAG و RAG استاندارد چیست؟

بزرگترین تفاوت، کنترل تطبیقی است. Self-RAG به مدل اجازه می‌دهد تا تصمیم بگیرد چه زمانی بازیابی کند و خروجی‌های خود را با استفاده از توکن‌های بازتاب ارزیابی می‌کند، در حالی که RAG استاندارد همیشه اسناد را قبل از تولید پاسخ بازیابی می‌کند. این امر Self-RAG را انعطاف‌پذیرتر می‌کند، اما پیاده‌سازی آن را نیز پیچیده‌تر می‌کند.

آیا Self-RAG توهمات را کاهش می‌دهد؟

بله، Self-RAG به طور خاص برای کاهش توهمات طراحی شده است. توکن‌های بازتاب IsSup و IsUse آن به مدل اجازه می‌دهند پاسخ‌هایی را که توسط شواهد بازیابی شده پشتیبانی نمی‌شوند، علامت‌گذاری کند، که به شناسایی ادعاهای بدون پشتوانه قبل از رسیدن به کاربر کمک می‌کند.

آیا می‌توانم از Self-RAG با مدل‌های متن‌باز استفاده کنم؟

کاملاً. مقاله اصلی Self-RAG این رویکرد را با استفاده از مدل‌های Llama 2 7B و 13B نشان داده است. شما می‌توانید هر LLM متن‌باز را با داده‌های توکن بازتاب تنظیم دقیق کنید تا به رفتار خودبازتابی مشابه دست یابید.

آیا RAG استاندارد هنوز هم ارزش یادگیری در سال 2026 را دارد؟

RAG استاندارد کاملاً ارزش یادگیری دارد. این الگو، پایه مفهومی همه سیستم‌های بازیابی-افزوده، از جمله Self-RAG، را تشکیل می‌دهد. اکثر استقرارهای سازمانی هنوز از الگوهای استاندارد RAG استفاده می‌کنند و درک آنها قبل از حرکت به سمت انواع پیشرفته‌تر ضروری است.

سلف-RAG چقدر نسبت به RAG استاندارد بهبود یافته است؟

مقاله اصلی، بهبود چند درصدی را در معیارهایی مانند PopQA و PubHealth گزارش کرده است. این بهبودها بسته به وظیفه متفاوت است و بیشترین بهبود در سوالات استدلال چندگامی و تأیید واقعیت ظاهر می‌شود.

توکن‌های بازتاب در Self-RAG چه هستند؟

توکن‌های بازتاب، توکن‌های ویژه‌ای هستند که مدل برای تصمیم‌گیری در طول تولید منتشر می‌کند. چهار نوع اصلی عبارتند از Retrieve (آیا باید بازیابی کنم؟)، IsRel (آیا متن مرتبط است؟)، IsSup (آیا متن از پاسخ پشتیبانی می‌کند؟) و IsUse (آیا پاسخ در کل مفید است؟).

آیا هزینه راه‌اندازی Self-RAG بیشتر از RAG استاندارد است؟

بستگی به حجم کار دارد. Self-RAG می‌تواند زمانی که بسیاری از پرس‌وجوها نیازی به بازیابی ندارند، ارزان‌تر باشد، زیرا مرحله بازیابی را به طور کامل حذف می‌کند. برای پرس‌وجوهایی که نیاز به بازیابی دارند، هزینه‌ها قابل مقایسه با RAG استاندارد به علاوه سربار کمی برای پردازش توکن بازتاب است.

چه پایگاه‌های داده برداری با هر دو رویکرد کار می‌کنند؟

هر دو روش Self-RAG و RAG استاندارد با هر پایگاه داده برداری از جمله FAISS، Pinecone، Weaviate، Chroma و Milvus کار می‌کنند. مؤلفه بازیابی تا حد زیادی یکسان است؛ تفاوت در نحوه تصمیم‌گیری مدل برای استفاده از نتایج بازیابی شده است.

آیا Self-RAG می‌تواند بدون دسترسی به اینترنت کار کند؟

بله، Self-RAG تا زمانی که یک فروشگاه بردار محلی و یک مدل تنظیم‌شده دقیق داشته باشید، کاملاً آفلاین کار می‌کند. مکانیسم بازتاب کاملاً درون خروجی‌های خود مدل عمل می‌کند، بنابراین در طول استنتاج نیازی به فراخوانی API خارجی نیست.

کدام رویکرد برای چت‌بات‌های سازمانی بهتر است؟

برای اکثر چت‌بات‌های سازمانی امروزی، RAG استاندارد به دلیل بلوغ و نگهداری ساده‌تر، انتخاب امن‌تری است. Self-RAG زمانی جذاب می‌شود که میزان توهم یک نگرانی اساسی باشد و تیم ظرفیت مهندسی لازم برای مدیریت پیچیدگی‌های اضافی را داشته باشد.

حکم

زمانی که کیفیت پاسخ، کاهش توهم و کارایی تطبیقی بیش از سادگی پیاده‌سازی اهمیت دارد، به خصوص برای وظایف استدلال پیچیده، Self-RAG را انتخاب کنید. خطوط لوله استاندارد RAG همچنان برای استقرارهای ساده که در آن‌ها تأخیر قابل پیش‌بینی و ادغام آسان با زیرساخت‌های موجود از اولویت‌های اصلی هستند، مناسب‌تر هستند.

مقایسه‌های مرتبط

LLM های مبتنی بر ابزار در مقابل LLM های مستقل

LLM های مبتنی بر ابزار، مدل‌های زبانی مستقل را با اتصال آنها به APIهای خارجی، ماشین‌حساب‌ها و پایگاه‌های داده گسترش می‌دهند و بازیابی اطلاعات و اجرای وظایف را در زمان واقعی امکان‌پذیر می‌سازند. LLM های مستقل صرفاً به پارامترهای آموزش‌دیده خود متکی هستند و آنها را مستقل اما محدود به دانش حاصل از داده‌های آموزشی می‌کنند.

LLM های متن باز در مقابل API های اختصاصی LLM

LLM های متن باز، مدل‌های هوش مصنوعی قابل تنظیم و خود-میزبان با دسترسی کامل به کد ارائه می‌دهند، در حالی که API های اختصاصی LLM، خدمات مدیریت شده و بهبود یافته را از طریق نقاط پایانی مبتنی بر ابر با قیمت گذاری مبتنی بر میزان استفاده ارائه می‌دهند.

RAG (تولید افزوده بازیابی) در مقابل LLM های تنظیم دقیق

RAG و LLM های تنظیم‌شده دقیق، هر دو کیفیت خروجی هوش مصنوعی را بهبود می‌بخشند، اما به روش‌های اساساً متفاوتی عمل می‌کنند. RAG اطلاعات خارجی را در زمان پرس‌وجو دریافت می‌کند، در حالی که تنظیم دقیق، دانش جدید را مستقیماً در وزن‌های مدل قرار می‌دهد. انتخاب بین آنها بستگی به این دارد که داده‌های شما چند وقت یکبار تغییر می‌کنند و به چه نوع دقتی نیاز دارید.

RAG با متن بصری در مقابل RAG با متن فقط متنی

RAG با زمینه بصری، مدل‌های زبانی را با بازیابی تصاویر، نمودارها و دیاگرام‌ها در کنار متن غنی می‌کند، در حالی که RAG فقط متنی صرفاً به متون نوشتاری متکی است. RAG بصری در وظایف چندوجهی مانند درک اسناد و پاسخ به سؤالات بصری برتری دارد، در حالی که RAG فقط متنی ساده‌تر، سریع‌تر و ارزان‌تر برای استقرار باقی می‌ماند.

RAG چندوجهی در مقابل RAG فقط متنی

RAG چندوجهی متن، تصاویر، صدا و ویدیو را برای بازیابی غنی‌تر با هم پردازش می‌کند، در حالی که RAG فقط متنی منحصراً بر محتوای نوشتاری تمرکز دارد. انتخاب بستگی به این دارد که آیا داده‌ها و موارد استفاده شما فراتر از اسناد متنی ساده است یا خیر.