Self-RAG повністю замінює компонент ретривера.
Self-RAG все ще використовує метод пошуку, але додає поверх нього рівень прийняття рішень. Модель вибирає, коли викликати пошук, а не повністю видаляє його з конвеєра.
Self-RAG впроваджує саморефлексивний рівень пошуку, який дозволяє мовним моделям аналізувати та адаптувати власні виходи, тоді як стандартні конвеєри RAG покладаються на фіксований робочий процес «отримання-потім читання». Ключова відмінність полягає в адаптивному управлінні проти передбачуваного, лінійного виконання.
Структура з доповненим пошуком, де модель самостійно оцінює та вирішує, коли отримувати інформацію.
Традиційний підхід до генерації з доповненим пошуком, який спочатку витягує документи, а потім передає їх до мовної моделі.
| Функція | Self-RAG | Стандартні трубопроводи RAG |
|---|---|---|
| Стратегія пошуку | Адаптивна, модель вирішує, коли отримувати дані | Завжди переглядає перед відповіддю |
| Самооцінка | Вбудовані маркери відображення для контролю якості | Відсутній внутрішній механізм критики |
| Обчислювальні витрати | Зниження, коли пошук пропущено | Стабільна вартість за запит |
| Точність відповіді | Вищий рівень у завданнях на складне мислення | Сильний, але може містити недоречний контекст |
| Складність впровадження | Більш складний навчальний конвеєр | Простіше розгортати та обслуговувати |
| Гнучкість | Динамічно налаштовується для кожного запиту | Фіксований робочий процес незалежно від типу запиту |
| Вимоги до навчання | Потрібні дані з мітками відображення | Достатньо стандартного точного налаштування |
| Затримка | Змінна залежно від рішень щодо пошуку | Передбачувана двоетапна затримка |
Стандартний RAG працює за принципом простого двоетапного конвеєра, де засіб пошуку отримує відповідні документи, а генератор видає відповідь, обумовлену цим контекстом. Self-RAG розміщує поверх процесу прийняття рішень, дозволяючи моделі генерувати токени відображення, які визначають, чи потрібен пошук і чи є результат обґрунтованим. Це робить Self-RAG більш модульним за своєю суттю, тоді як стандартний RAG залишається простішим і легшим для обмірковування.
У стандартному RAG кожен запит запускає крок пошуку незалежно від того, чи має модель вже ці знання. Self-RAG змінює це, навчаючи модель визначати, коли зовнішня інформація дійсно необхідна. Для фактичних питань, на які модель може відповісти, використовуючи власні вагові коефіцієнти, Self-RAG повністю пропускає пошук, що зменшує шум і пришвидшує відповіді.
Self-RAG вводить чотири токени рефлексії, які діють як контрольні точки протягом усього процесу генерації. Ці токени дозволяють моделі позначати непідтверджені твердження та повторювати спробу, коли докази слабкі. Стандартний RAG не має такого внутрішнього циклу зворотного зв'язку, тому галюцинації або відповіді не за темою можуть прослизнути, якщо не додано зовнішні захисні бар'єри.
У таких тестах, як PopQA, ARC-Challenge та PubHealth, Self-RAG продемонстрував помітні переваги порівняно зі стандартними базовими рівнями RAG, особливо для питань, що вимагають багатоетапного мислення. Стандартний RAG все ще добре працює при простому пошуку фактів, де пошук надійно знаходить потрібний уривок. Розрив у продуктивності збільшується зі збільшенням складності питання.
Стандартний RAG залишається вибором за замовчуванням для більшості виробничих систем, оскільки він чітко інтегрується з існуючими векторними базами даних і не потребує спеціалізованих навчальних даних. Self-RAG вимагає більше інженерних зусиль, включаючи генерацію наборів даних з мітками відображення та точне налаштування моделі для генерації правильних токенів. Для команд з обмеженими ресурсами машинного навчання стандартний RAG є прагматичним варіантом.
Self-RAG повністю замінює компонент ретривера.
Self-RAG все ще використовує метод пошуку, але додає поверх нього рівень прийняття рішень. Модель вибирає, коли викликати пошук, а не повністю видаляє його з конвеєра.
Стандартний RAG застарів і більше не корисний.
Стандартний RAG залишається основою більшості виробничих систем штучного інтелекту. Self-RAG базується на ньому, а не замінює його, і багато команд досі отримують чудові результати з класичним підходом.
Self-RAG завжди отримує більше документів, ніж стандартний RAG.
Self-RAG часто отримує менше документів, оскільки може пропустити пошук, коли він непотрібний. Адаптивний характер означає, що він витягує контекст лише тоді, коли модель вважає його корисним.
Для запуску Self-RAG вам потрібен GPT-4.
Self-RAG можна реалізувати за допомогою різних моделей з відкритим кодом. В оригінальній статті використовувалася Llama 2, налаштована за допомогою токенів відображення, що доводить, що підхід працює не лише в рамках пропрієтарних систем.
Стандартний RAG не може обробляти складні міркування.
Стандартний RAG добре справляється зі складними міркуваннями в поєднанні з потужними генераторами та хорошими стратегіями фрагментації. Self-RAG покращує граничні випадки, але стандартний RAG не обмежується лише простими запитами.
Оберіть Self-RAG, коли якість відповіді, зменшення галюцинацій та адаптивна ефективність важливіші за простоту впровадження, особливо для складних завдань міркування. Стандартні RAG-конвеєри залишаються кращими для простих розгортань, де передбачувана затримка та проста інтеграція з існуючою інфраструктурою є головними пріоритетами.
A/B-тестування в моделюванні спрямовує трафік між конкуруючими версіями моделей для вимірювання реальної продуктивності, тоді як розгортання однієї моделі надає одну модель усім користувачам. Команди обирають між ними на основі толерантності до ризику, обсягу трафіку та необхідності статистичної перевірки перед повним розгортанням.
A/B-тестування в релізах контенту передбачає розгортання варіацій для різних сегментів аудиторії та вимірювання ефективності, тоді як одноразові релізи контенту пропонують одну версію всім одночасно. Кожен підхід відповідає різним цілям, причому A/B-тестування надає перевагу оптимізації на основі даних, а одноразові релізи надають пріоритет швидкості та простоті.
DeepSeek V4 — це нова модель великої мови програмування відкритої ваги від китайської лабораторії штучного інтелекту, тоді як моделі класу GPT-4 відносяться до флагманських систем із закритим кодом OpenAI. Це порівняння досліджує їхні архітектури, можливості, ціни, доступність та реальну продуктивність, щоб допомогти розробникам та компаніям робити правильний вибір.
LLM, що використовують інструменти, розширюють автономні мовні моделі, підключаючи їх до зовнішніх API, калькуляторів та баз даних, що дозволяє отримувати інформацію та виконувати завдання в режимі реального часу. Автономні LLM покладаються виключно на навчені параметри, що робить їх самостійними, але обмеженими знаннями з навчальних даних.
LLM з відкритим кодом пропонують налаштовувані, самостійно розміщені моделі штучного інтелекту з повним доступом до коду, тоді як власні API LLM надають керовані, відшліфовані послуги через хмарні кінцеві точки з ціноутворенням на основі використання.