هوش مصنوعیبازیابی-نسل افزودهپارچهسیستمهای جستجوان ال پی
بازیابی آگاه از متن در مقابل بازیابی کور از متن
بازیابی آگاه از متن از اطلاعات پیرامونی مانند تاریخچه جستجو، قصد کاربر و روابط اسناد برای ارائه نتایج مرتبطتر استفاده میکند، در حالی که بازیابی کور از متن با هر جستجو به صورت جداگانه برخورد میکند. مورد اول، هوش مصنوعی مکالمهای مدرن و جستجوی شخصیسازیشده را تقویت میکند، در حالی که مورد دوم برای جستجوهای ساده و یکباره مفید است.
برجستهها
بازیابی آگاه از متن، با به خاطر سپردن جستجوهای قبلی و سیگنالهای کاربر، انسجام مکالمه را حفظ میکند.
بازیابی بدون توجه به زمینه، برای جستجوهای واقعیِ یکباره، سریعتر، ارزانتر و سادهتر است.
اکثر دستیاران هوش مصنوعی تولید اکنون برای رسیدگی دقیق به سوالات بعدی، به بازیابی مبتنی بر متن متکی هستند.
معیارهای دانشگاهی نشان میدهند که روشهای آگاه از زمینه، در وظایف چند نوبتی، 10 تا 20 درصد بهتر از روشهای بدون توجه به زمینه عمل میکنند.
بازیابی آگاه از متن چیست؟
یک رویکرد بازیابی که تاریخچه جستجو، رفتار کاربر و زمینه سند را برای بازگرداندن نتایج مرتبطتر در نظر میگیرد.
این ابزار سیگنالهایی مانند نوبتهای قبلی مکالمه، تنظیمات برگزیده کاربر و فرادادههای سطح جلسه را برای اصلاح نتایج جستجو در نظر میگیرد.
سیستمهای RAG مدرن برای حفظ انسجام مکالمات چند نوبتی با مدلهای زبانی بزرگ، به بازیابی آگاه از متن متکی هستند.
تکنیکهایی مانند بازنویسی پرسوجو، HyDE و جاسازیهای متنی در این دسته قرار میگیرند.
پایگاههای داده برداری مانند Pinecone، Weaviate و Chroma از بازیابی آگاه از متن از طریق فیلتر کردن ابرداده و جستجوی ترکیبی پشتیبانی میکنند.
به طور کلی در مقایسه با روشهای کورکورانه، دقت بالاتری در معیارهای مکالمهای و شخصیسازیشده به دست میآورد.
بازیابی بدون توجه به زمینه چیست؟
یک رویکرد بازیابی که هر پرسوجو را بهطور مستقل و بدون در نظر گرفتن تعاملات قبلی یا سیگنالهای خاص کاربر پردازش میکند.
این روش با هر عبارت جستجو به عنوان یک درخواست مستقل رفتار میکند و سابقه مکالمه یا زمینه جلسه را نادیده میگیرد.
موتورهای جستجوی کلمات کلیدی کلاسیک مانند پیادهسازیهای اولیه Lucene و BM25 به این روش عمل میکنند.
از نظر محاسباتی ارزانتر و سریعتر است زیرا نیازی به پردازش یا ذخیره هیچ زمینه اضافی ندارد.
این روش برای جستجوهای مبتنی بر واقعیت که در آنها خودِ عبارت جستجو حاوی اطلاعات کافی برای یافتن پاسخ است، به خوبی عمل میکند.
این به عنوان مبنایی عمل میکند که روشهای آگاه از زمینه معمولاً در معیارهای دانشگاهی با آن سنجیده میشوند.
جدول مقایسه
ویژگی
بازیابی آگاه از متن
بازیابی بدون توجه به زمینه
مدیریت پرس و جو
از تاریخچه جلسات و سیگنالهای کاربر استفاده میکند
با هر پرسوجو به طور مستقل رفتار میکند
ارتباط در مکالمات
بالا - انسجام گفتگو را حفظ میکند
کم - با پیگیریها مشکل دارد
هزینه محاسباتی
به دلیل پردازش زمینه، بالاتر است
پایینتر و سریعتر در هر پرسوجو
شخصی سازی
پشتیبانی از سفارشیسازی در سطح کاربر
عدم شخصیسازی پیشفرض
پیچیدگی پیادهسازی
نیاز به حافظه، بازنویسی و فراداده دارد
جستجوی ساده با اندیس معکوس یا بردار
بهترین موارد استفاده
چتباتها، دستیارها، جستجوی شخصیسازیشده
پرسوجوهای موردی، جستجوی اسناد
تکنیکهای مثال
HyDE، بازنویسی پرسوجو، جاسازیهای متنی
BM25، بازیابی فشرده اولیه، جستجوی کلیدواژهای
الزامات ذخیرهسازی
به ذخیرهسازی جلسه و فراداده نیاز دارد
مینیمال — فقط اندیس
مقایسه دقیق
چگونه هر رویکرد، پرسوجوها را درک میکند
بازیابی آگاه از متن، یک پرسوجو را به عنوان بخشی از یک تعامل مداوم تفسیر میکند و با استفاده از نوبتهای قبلی، پروفایلهای کاربر و حتی فرادادههای اطراف سند، منظور واقعی فرد را تشخیص میدهد. در مقابل، بازیابی کور از متن، پرسوجو را به صورت جداگانه بررسی میکند - کلماتی که تایپ میکنید تنها سیگنالی هستند که استفاده میکند. این امر سیستمهای کور از متن را قابل پیشبینی و اشکالزدایی آسان میکند، اما اغلب وقتی یک سوال به آنچه قبل از آن آمده است بستگی دارد، هدف را از دست میدهند.
عملکرد در محیطهای محاورهای
وقتی افراد با یک دستیار هوش مصنوعی چت میکنند، سوالات تکمیلی به ندرت به تنهایی مطرح میشوند. عباراتی مانند «دومی چطور؟» یا «این در مقایسه با آن چطور است؟» فقط با توجه به زمینه قبلی معنی پیدا میکنند. بازیابی آگاه از متن، این موارد را به طور طبیعی با بازنویسی سوالات مبهم به سوالات مستقل قبل از جستجو، مدیریت میکند. بازیابی کور از متن در چنین مواردی تمایل به بازگرداندن نتایج نامربوط دارد، به همین دلیل است که اکثر چتباتهای تولیدی اکنون از نوعی خط لوله آگاه از متن استفاده میکنند.
سرعت، هزینه و زیرساخت
از آنجا که بازیابی کور از متن، کار اضافی نگهداری حافظه و بازنویسی کوئریها را حذف میکند، سریعتر اجرا میشود و هزینه کمتری برای اجرا در مقیاس بزرگ دارد. بازیابی آگاه از متن، سربار اضافه میکند - شما باید حالت جلسه را ذخیره کنید، مدلهای بازنویسی کوئری را اجرا کنید و اغلب نتایج برداری را بر اساس فراداده فیلتر کنید. برای حجم کاری بالا و پیچیدگی کم مانند فهرستبندی میلیونها سند ایستا، روشهای کور از متن همچنان جایگاه خود را حفظ میکنند.
دقت و نتایج معیار
تحقیقات در مورد بازیابی متراکم مکالمه، از جمله کار Meta AI و مایکروسافت روی مجموعه دادههایی مانند QReCC و TopiOCQA، به طور مداوم نشان میدهد که روشهای آگاه از متن، در نمرات MRR و nDCG، 10 تا 20 درصد بهتر از روشهای بدون متن عمل میکنند. این شکاف در پرسوجوهای چند نوبتی که ضمایر و ارجاعات غالب هستند، بیشتر میشود. با این حال، برای سوالات واقعی تک نوبتی، این تفاوت به طور قابل توجهی کاهش مییابد.
وقتی سادگی پیروز میشود
هر کاربردی به آگاهی از زمینه نیاز ندارد. پایگاههای دانش داخلی، جستجوی اسناد حقوقی و جستجوی محصولات تجارت الکترونیک اغلب با بازیابی بدون زمینه به خوبی کار میکنند، زیرا پرسوجوها معمولاً خاص و مستقل هستند. در این سناریوها، سادگی، سرعت و هزینه زیرساخت پایینتر بازیابی بدون زمینه، آن را به گزینهای کاربردیتر تبدیل میکند.
مزایا و معایب
بازیابی آگاه از متن
مزایا
+مکالمات چند نوبتی را مدیریت میکند
+پشتیبانی از شخصیسازی
+امتیازهای مرتبط بالاتر
+برای پرسوجوهای مبهم بهتر است
مصرف شده
−هزینه محاسباتی بالاتر
−پیادهسازی پیچیدهتر
−نیاز به ذخیرهسازی جلسه
−اشکالزدایی دشوارتر
بازیابی بدون توجه به زمینه
مزایا
+سریع و سبک
+ساده برای پیاده سازی
+هزینه زیرساخت پایینتر
+رفتار قابل پیشبینی
مصرف شده
−در پیگیری درخواستها ضعیف عمل میکند
−بدون شخصیسازی
−دقت کمتر در چت
−نشانههای مکالمه را از دست میدهد
تصورات نادرست رایج
افسانه
بازیابی آگاه از متن همیشه از بازیابی کور از متن بهتر عمل میکند.
واقعیت
نه لزوماً. برای پرسوجوهای تکنوبتی و بهخوبی مشخصشده، روشهای کور از متن میتوانند با روشهای آگاه از متن مطابقت داشته باشند یا حتی از آنها پیشی بگیرند، زیرا از نویزی که متن اضافی گاهی اوقات ایجاد میکند، اجتناب میکنند. مزیت بازیابی آگاه از متن، در سناریوهای چندنوبتی یا شخصیسازیشده، بهوضوح بیشتر خود را نشان میدهد.
افسانه
بازیابی کورکورانهی زمینه منسوخ شده و دیگر مورد استفاده قرار نمیگیرد.
واقعیت
اصلاً اینطور نیست. BM25 و بازیابی متراکم پایه، همچنان ستون فقرات بسیاری از سیستمهای جستجوی تولیدی، از جمله جستجوی اسناد سازمانی و پلتفرمهای تجارت الکترونیک هستند. آنها به عنوان پایههای قوی عمل میکنند و اغلب در معماریهای ترکیبی با لایههای آگاه از متن ترکیب میشوند.
افسانه
بازیابی آگاه از متن به این معنی است که مدل همه چیز را «به خاطر» میآورد.
واقعیت
در عمل، این سیستمها از یک پنجره محدود از مکالمات اخیر، ابردادههای خلاصهشده یا پرسوجوهای بازنویسیشده استفاده میکنند. حافظه بلندمدت واقعی هنوز یک مسئله تحقیقاتی باز است و اکثر سیستمها پس از خروج از پنجره زمینه، نوبتهای قدیمیتر را فراموش میکنند.
افسانه
جستجوی برداری همیشه از متن آگاه است.
واقعیت
بازیابی بردار متراکم میتواند هر دو باشد. یک جستجوی بردار ساده بدون فیلتر کردن ابرداده یا بازنویسی پرسوجو اساساً بدون توجه به متن است. افزودن تاریخچه جلسه، فیلترها یا بسط پرسوجو چیزی است که آن را آگاه از متن میکند.
افسانه
بازیابی آگاه از متن، توهمات را در سیستمهای RAG از بین میبرد.
واقعیت
این کار آنها را کاهش میدهد اما آنها را از بین نمیبرد. حتی با بازیابی خوب، مدلهای زبانی هنوز هم میتوانند عبارات را اشتباه تفسیر کنند یا اطلاعات را به طور نادرست ترکیب کنند. کیفیت بازیابی یکی از قطعات پازل است - رفتار تولید نیز به همان اندازه اهمیت دارد.
سوالات متداول
بازیابی آگاه از متن در RAG چیست؟
بازیابی آگاه از متن در RAG به واکشی اسناد با در نظر گرفتن تاریخچه مکالمه، قصد کاربر و فرادادهها به جای صرفاً پرسوجوی خام اشاره دارد. این امر معمولاً شامل بازنویسی پرسوجو، جاسازیهای متنی یا فیلترینگ مبتنی بر جلسه است تا اطمینان حاصل شود که متون بازیابی شده واقعاً به آنچه کاربر در متن منظور داشته است، پاسخ میدهند.
بازیابی کور از متن چگونه کار میکند؟
بازیابی کورکورانهی زمینه با تطبیق پرسوجوی کاربر با یک فهرست بدون هیچ گونه ارجاعی به تعاملات قبلی عمل میکند. جستجوی کلمات کلیدی کلاسیک BM25 و جستجوهای بردار متراکم اولیه در این دسته قرار میگیرند. هر پرسوجو به عنوان یک درخواست جدید و مستقل در نظر گرفته میشود که سیستم را سریع و قابل پیشبینی نگه میدارد.
کدام برای چتباتها بهتر است، بازیابی آگاه از متن یا کور از متن؟
بازیابی مبتنی بر زمینه تقریباً همیشه برای چتباتها بهتر است، زیرا کاربران مرتباً سوالات تکمیلی میپرسند که به نوبتهای قبلی بستگی دارد. بدون زمینه، سیستم نمیتواند ضمایر یا ارجاعاتی مانند «آن یکی» یا «گزینه قبلی» را تشخیص دهد و منجر به پاسخهای نامربوط میشود.
آیا میتوانید هر دو رویکرد بازیابی را با هم ترکیب کنید؟
بله، سیستمهای بازیابی ترکیبی، جستجوی کلمات کلیدی (کور از متن) و جستجوی معنایی (اغلب آگاه از متن) را برای ایجاد تعادل بین سرعت و ارتباط ترکیب میکنند. بسیاری از سیستمهای تولید از BM25 در کنار جاسازیهای متراکم استفاده میکنند، سپس قبل از اعمال فیلترهای متنی، نتایج را با ترکیب رتبه متقابل ادغام میکنند.
آیا بازیابی متن-آگاه هزینه بیشتری برای اجرا دارد؟
معمولاً این کار را میکند، زیرا شما نیاز به ذخیره وضعیت جلسه، اجرای مدلهای بازنویسی پرسوجو و اعمال فیلترهای ابرداده دارید. سربار متفاوت است، اما بسته به میزان پیچیدگی مدیریت زمینه، انتظار میرود تقریباً 20 تا 50 درصد تأخیر و محاسبه بیشتری در مقایسه با یک جستجوی برداری ساده داشته باشید.
بازنویسی پرسوجو در بازیابی آگاه از متن چیست؟
بازنویسی پرسوجو فرآیندی است که طی آن یک سوال مبهم و وابسته به متن، قبل از جستجو به یک پرسوجوی مستقل و جامع تبدیل میشود. برای مثال، «قیمتش چطوره؟» ممکن است بر اساس تاریخچه مکالمه به «قیمت آیفون ۱۵ چقدر است؟» بازنویسی شود. این یکی از رایجترین تکنیکهای مورد استفاده در سیستمهای آگاه از متن است.
آیا BM25 نسبت به متن بیتفاوت است؟
بله، BM25 سنتی کور از متن است. این ابزار صرفاً بر اساس فراوانی عبارت و فراوانی معکوس سند نسبت به پرسوجوی فعلی، اسناد را امتیازدهی میکند. با این حال، میتوانید BM25 را با بازنویسی پرسوجو در ابتدا یا فیلتر کردن نتایج بر اساس فرادادههای جلسه، در یک خط لوله آگاه از متن قرار دهید.
چه معیارهایی بازیابی متن-آگاه را اندازهگیری میکنند؟
معیارهای رایج شامل QReCC (بازنویسی سوال در متن محاورهای)، TopiOCQA (تضمین کیفیت مکالمهای موضوعمحور) و CAST (مسیر کمک مکالمهای) است. این مجموعه دادهها ارزیابی میکنند که سیستمها چقدر خوب میتوانند پرسشهای چند نوبتی را که در آنها زمینه برای یافتن پاسخ صحیح ضروری است، مدیریت کنند.
آیا همه پایگاههای داده برداری از بازیابی آگاه از متن پشتیبانی میکنند؟
اکثر پایگاههای داده برداری مدرن مانند Pinecone، Weaviate، Chroma و Qdrant از فیلتر کردن ابرداده و جستجوی ترکیبی پشتیبانی میکنند که بلوکهای سازنده بازیابی آگاه از متن هستند. با این حال، مدیریت متن واقعی - بازنویسی پرس و جو، حافظه جلسه - معمولاً در لایه برنامه در بالای پایگاه داده پیادهسازی میشود.
چه زمانی باید به جای آن از بازیابی کور-زمینه استفاده کنم؟
بازیابی بدون توجه به زمینه زمانی مناسب است که پرسوجوها مستقل باشند، شخصیسازی لازم نباشد و تأخیر یا هزینه در اولویت باشد. نمونههایی از آن شامل جستجوی اسناد داخلی، جستجوی قانونی، جستجوی محصول در سایتهای تجارت الکترونیک و هر سناریویی است که در آن کاربران معمولاً سوالات کامل و مشخصی را تایپ میکنند.
حکم
وقتی برنامه شما شامل مکالمات چند نوبتی، شخصیسازی یا پرسوجوهای پیگیری مبهم است، بازیابی آگاه از متن را انتخاب کنید - این استاندارد برای دستیاران مدرن RAG و هوش مصنوعی است. برای جستجوهای ساده و تک نوبتی که سرعت و هزینه کم بیش از عمق مکالمه اهمیت دارد، به بازیابی کور از متن پایبند باشید.