dirbtinis intelektasdidelių kalbų modeliaipaieškos-papildytos-generacijosmašininis mokymasisLLM-architektūra

Konteksto paieška ir parametrinė atmintis LLMs

Konteksto paieška ištraukia išorinę informaciją pagal poreikį, o parametrinė atmintis saugo žinias, įtrauktas į modelio svorius mokymo metu. Abu šie metodai formuoja tai, kaip dideli kalbos modeliai atsako į klausimus, tačiau jie labai skiriasi lankstumu, tikslumu ir atnaujinamumu. Jų kompromisų supratimas padeda paaiškinti, kodėl šiuolaikinės dirbtinio intelekto sistemos dažnai derina abu metodus.

Akcentai

Žinių paieška atnaujina per kelias minutes; parametrinės atminties atnaujinimai užtrunka savaites mokymo
Parametrinė atmintis leidžia pasiekti žinias be vėlavimo; paieška prideda 50–200 ms kiekvienai užklausai
Paieška leidžia cituoti šaltinius; parametrinė atmintis negali atsekti atsakymų į mokymo duomenis
Parametrinė atmintis keičiasi pagal parametrus; paieškos keičiasi pagal duomenų bazės dydį

Kas yra Konteksto paieška?

Metodas, kai teisės magistro (LLM) specialistai išvados darymo metu gauna atitinkamą išorinę informaciją, kad pagrįstų savo atsakymus naujausiomis arba specializuotomis žiniomis.

Labiausiai paplitęs diegimas yra paieškos papildyta generacija (RAG), kurią 2020 m. pristatė „Facebook AI Research“.
Jis remiasi vektorinėmis duomenų bazėmis, tokiomis kaip FAISS, Pinecone arba Weaviate, kad saugotų dokumentų įterpimus panašumų paieškai.
Į užklausą įterpiamas gautas kontekstas, leidžiantis modeliui cituoti šaltinius ir sumažinti haliucinacijas.
Žinių atnaujinimas galimas tiesiog pridedant naujus dokumentus, nereikalaujant iš naujo mokyti pagrindinio modelio.
Jis veikia su fiksuotais modeliais, todėl yra ekonomiškai efektyvus diegiant įmones su patentuotais duomenimis.

Kas yra Parametrinė atmintis LLMs?

Žinios, tiesiogiai užkoduotos milijarduose kalbos modelio parametrų per išankstinį mokymą ir tikslinimą.

Pranešama, kad GPT-4 turi daugiau nei trilijoną parametrų, kurių kiekviename saugomi išmoktų žinių fragmentai.
Parametrinė atmintis įgyjama savarankiškai prižiūrint mokymuisi dideliuose teksto korpusuose, tokiuose kaip „Common Crawl“.
Tai leidžia greitai daryti išvadas, nes bendrųjų žinių užklausoms nereikia išorinės paieškos.
Šios atminties atnaujinimas reikalauja brangaus perkvalifikavimo arba tikslinimo, dažnai kainuojančio milijonus dolerių.
Jam sunku su labai neseniai įvykusiais įvykiais, nes mokymo duomenys turi fiksuotą ribą.

Palyginimo lentelė

Funkcija	Konteksto paieška	Parametrinė atmintis LLMs
Žinių saugojimo vieta	Išorinė vektorinė duomenų bazė arba dokumentų saugykla	Užkoduota modelio svoriuose (parametruose)
Atnaujinimo metodas	Pridėti arba modifikuoti dokumentus indekse	Permokyti arba tiksliai suderinti modelį
Vėlavimo poveikis	Prideda paieškos sąnaudas (paprastai 50–200 ms)	Jokių papildomų delsos laiko apribojimų, viršijančių modelio išvadas
Haliucinacijų rizika	Mažesnis, kai paieška tiksli	Didesnis, jei faktai nėra aiškūs arba nauji
Žinių mastelio keitimas	Skaičiuojamas pagal duomenų bazės dydį, beveik neribotą	Apribota parametrų skaičiumi ir mokymo duomenimis
Atnaujinimo kaina	Mažos (tik saugojimo ir indeksavimo išlaidos)	Labai daug (grafikos procesoriaus valandos, duomenų paruošimas)
Šaltinio priskyrimas	Gali cituoti tikslias ištraukas ir dokumentus	Negalima nurodyti konkrečių mokymo šaltinių
Geriausias naudojimo atvejis	Konkrečiai sričiai būdingi, dažnai kintantys duomenys	Bendras mąstymas, kalbos sklandumas, bendros žinios

Išsamus palyginimas

Kaip įgyjamos žinios

Konteksto paieška dinamiškai kaupia žinias indeksuodama dokumentus ir ieškodama juose užklausos metu. Pats modelis išlieka nepakitęs, tačiau jo efektyvios žinios auga kaskart, kai plečiate dokumentų kolekciją. Parametrinė atmintis veikia priešingai: mokymo metu žinios suspaudžiamos į svorio atnaujinimus, todėl modelis viską neša viduje. Šis esminis skirtumas lemia viską – nuo kainos iki tikslumo.

Tikslumas ir haliucinacijos

Paieškos sistemos linkusios mažiau haliucinuoti ties faktiniais klausimais, nes modelis gali remtis tikruoju šaltinio tekstu, o ne spėlioti pagal šablonus. Tačiau jei paieškos sistema ištraukia nesusijusius dokumentus, modelis vis tiek gali pateikti užtikrintai neteisingus atsakymus. Parametrinė atmintis yra labiau linkusi į klastojimą, ypač nišinių temų ar neseniai įvykusių įvykių atveju, nes modelis turi atkurti faktus iš suspaustų reprezentacijų.

Šviežumas ir priežiūra

Parametrinės atminties atnaujinimas yra sudėtingas. Naujos informacijos pridėjimas paprastai reiškia modelio tikslinimą, kuriam reikia kruopščiai atrinktų duomenų rinkinių, skaičiavimo laiko ir kruopštaus vertinimo. Konteksto paieška visiškai apeina šį procesą, leisdama keisti dokumentus į indeksą ir iš jo. Pavyzdžiui, naujienų organizacija gali pateikti savo pokalbių robotui šiandienos antraštes paieškos būdu, nekeisdama modelio svorių.

Kaina ir infrastruktūra

Parametrinė atmintis reikalauja didelių išankstinių investicijų į mokymo infrastruktūrą, tačiau atsiperka pigiomis išvadomis dideliu mastu. Duomenų paieška perkelia išlaidas vektorinės duomenų bazės priežiūrai ir šiek tiek didesnio delsos laiko apdorojimui kiekvienai užklausai. Pradedantiesiems verslams duomenų paieška dažnai yra pragmatiškas pasirinkimas, nes taip išvengiama daugelio milijonų dolerių vertės mokymo procesų, kuriuos dengia pagrindinių modelių teikėjai.

Lankstumas ir specializacija

Vienas bazinis modelis gali aptarnauti labai skirtingas sritis paieškos metu, nes tereikia sukeisti dokumentų indeksą. Norite teisininko padėjėjo šiandien, o medicininio – rytoj? Pakeiskite paieškos korpusą. Parametrinė atmintis į patį modelį įdeda specializaciją, todėl egzistuoja konkrečioms sritims skirti modeliai, tokie kaip „BloombergGPT“, tačiau norint juos pritaikyti naujoms sritims, reikia permokyti.

Hibridiniai metodai

Dauguma šiuolaikinių gamybinių sistemų derina abu šiuos metodus. Paieška tvarko faktinius pagrindus ir nuosavybės teise saugomus duomenis, o parametrinė atmintis suteikia kalbos sklandumą, mąstymo gebėjimus ir bendras pasaulio žinias, kurios padeda atsakymus padaryti nuoseklius. Tokios sistemos kaip „LangChain“ ir „LlamaIndex“ leidžia lengvai sluoksniuoti paieškų sluoksnį ant bet kokio pagrindinio modelio, parametrines žinias laikant baze, o paieškų – patobulinimu.

Privalumai ir trūkumai

Konteksto paieška

Privalumai

+ Lengva atnaujinti
+ Cituoja šaltinius
+ Sumažina haliucinacijas
+ Ekonomiškai efektyvus mastelio keitimas

Pasirinkta

− Pridėta delsa
− Retriverio klaidos
− Infrastruktūros pridėtinės išlaidos
− Ribota dėl indekso kokybės

Parametrinė atmintis

Privalumai

+ Greitas išvadas
+ Nėra išorinės priklausomybės
+ Stiprus samprotavimas
+ Apibendrina plačiai

Pasirinkta

− Brangu atnaujinti
− Žinių ribos
− Haliucinacijų faktai
− Neskaidrų žinių šaltinį

Dažni klaidingi įsitikinimai

Mitas

RAG visiškai pašalina haliucinacijas LLMs.

Realybė

Išgavimo metodas sumažina haliucinacijas, susijusias su faktiniais klausimais, bet jų nepašalina. Jei paieškos sistema atranda nesusijusius dokumentus arba modelis ignoruoja kontekstą, haliucinacijos vis tiek pasitaiko. RAG perkelia problemą nuo žinių spragų prie paieškos kokybės.

Mitas

Didesni modeliai tiksliau prisimena daugiau faktų.

Realybė

Didesni modeliai tam tikra prasme saugo daugiau žinių, bet jie taip pat haliucinacijas labiau. Tyrimai rodo, kad net GPT-4 fabrikuoja citatas ir išgalvoja statistiką, ypač tomis temomis, kurios yra nepakankamai atstovaujamos mokymo duomenyse.

Mitas

Parametrinė atmintis ir paieška yra konkuruojantys metodai.

Realybė

Jie vienas kitą papildo. Šiuolaikinės dirbtinio intelekto sistemos beveik visada derina abu, naudodamos parametrines žinias samprotavimui ir kalbos sklandumui, o faktiniam pagrindimui ir nuosavybės teise saugomiems duomenims – paiešką.

Mitas

Tikslus derinimas patikimai moko modelį naujų faktų.

Realybė

Tikslus mokymas geriau derinamas su stiliumi ir formatu nei įterpiamos naujos žinios. Modeliai dažnai nesugeba nuosekliai prisiminti faktų, išmoktų tikslinant duomenis – šį reiškinį tyrėjai vadina „naujumo prakeiksmu“ arba katastrofišku užmiršimu.

Mitas

Vektorinės duomenų bazės supranta teksto reikšmę.

Realybė

Vektorių duomenų bazėse saugomi skaitmeniniai įterpimai ir atliekama panašumų paieška. Jos nesupranta semantikos; jos tiesiog randa matematiškai artimus vektorius. Reikšmė kyla iš įterpimo modelio, kuris sukūrė tuos vektorius.

Dažnai užduodami klausimai

Kuo skiriasi konteksto paieška ir parametrinė atmintis?

Konteksto paieška nuskaito informaciją iš išorinių šaltinių užklausos metu, o parametrinė atmintis saugo žinias modelio svoriuose, gautuose iš mokymo. Ieškoma dinamiškai ir atnaujinama; parametrinė atmintis yra statinė ir įdiegiama mokymo metu.

Kodėl LLM haliucinuoja, jei jie turi parametrinę atmintį?

Parametrinė atmintis suspaudžia žinias į milijardų parametrų modelius, todėl modelis rekonstruoja atsakymus, o ne juos primena pažodžiui. Šis rekonstravimo procesas gali pateikti tikėtinai skambančius, bet neteisingus teiginius, ypač neaiškių faktų ar temų, kurioms trūksta mokymo duomenų, atveju.

Ar galite kartu naudoti ir paieškos, ir parametrinę atmintį?

Be abejo. Daugumoje gamybinių LLM programų naudojamas hibridinis metodas, kai modelio parametrinės žinios tvarko samprotavimus ir kalbą, o paieška pateikia konkrečius faktus, naujausią informaciją arba nuosavybės teise saugomus duomenis. Tokios sistemos kaip „LangChain“ leidžia lengvai įdiegti šį derinį.

Kiek kainuoja atnaujinti parametrinę atmintį, palyginti su jos paieška?

Atnaujinant paieškos duomenis gali tekti mokėti kelis dolerius saugyklos ir indeksavimo skaičiavimo išlaidų. Parametrinės atminties atnaujinimas atliekant pakartotinį mokymą gali kainuoti nuo tūkstančių iki milijonų dolerių, priklausomai nuo modelio dydžio, plius savaitės inžinerijos laiko. Dėl šio kainų skirtumo paieškos duomenys tapo tokie populiarūs.

Ar RAG veikia su bet kuria LLM?

Taip, paieškos papildytas generavimas veikia praktiškai su bet kokiu kalbos modeliu, įskaitant atvirojo kodo, pvz., „Llama“ ir „Mistral“, taip pat su patentuotomis API, pvz., „GPT-4“ ir „Claude“. Modelis tiesiog turi vykdyti instrukcijas ir naudoti gautą kontekstą savo raginime.

Kas yra vektorinė duomenų bazė ir kodėl jos reikia paieškai?

Vektorinė duomenų bazė saugo tekstą kaip skaitinius įterpimus, kurie užfiksuoja semantinę reikšmę. Kai pateikiate užklausą, ji randa dokumentus, kurių įterpimai yra matematiškai panašūs į jūsų klausimą. Tai leidžia ieškoti atitikmenų pagal reikšmę, o ne tiksliai atitinkančius raktinius žodžius, o tai labai svarbu atliekant natūralios kalbos užklausas.

Kokio dydžio gali būti modelio parametrinė atmintis?

Teoriškai neribojama, bet praktiškai ribojama mokymo skaičiavimo ir duomenų. Apskaičiuota, kad GPT-4 turi daugiau nei trilijoną parametrų, o atvirojo kodo modeliai, tokie kaip „Llama 3“, siekia 405 milijardus. Kiekvienas parametras saugo labai mažus žinių fragmentus, tačiau bendra talpa yra milžiniška.

Ar paieška yra lėtesnė nei naudojant vien parametrinę atmintį?

Taip, paieška padidina delsą, paprastai nuo 50 iki 200 milisekundžių, priklausomai nuo duomenų bazės dydžio ir įterpimo modelio. Daugeliui programų tai yra nereikšminga, tačiau realaus laiko sistemos, tokios kaip balso asistentai, kartais renkasi grynai parametrinius metodus, kad sumažintų atsako delsą.

Ar tikslus derinimas gali pakeisti nuosavybės teise saugomų žinių paiešką?

Nepatikima. Tikslus derinimas dažnai nesugeba nuosekliai mokyti konkrečių faktų, o modeliai linkę pamiršti arba sumaišyti detales. Išgavimas yra daug patikimesnis patentuotų žinių atveju, nes jis išryškina tikslius dokumentus, o ne pasikliauja modeliu, kad prisimintų išmoktą informaciją.

Kas nutinka, kai paieškos sistemoje nerandama jokių susijusių dokumentų?

Modelis grįžta prie savo parametrinės atminties, o tai reiškia, kad gali haliucinuoti, jei klausimas yra už jo mokymo duomenų ribų. Geros RAG sistemos su tuo susidoroja grakščiai, pripažindamos neapibrėžtumą arba atsisakydamos atsakyti, kai paieškos patikimumas yra mažas.

Ar naujesniems LLM vis dar reikia ieškoti?

Taip, net ir pažangiausiems modeliams naudinga gauti duomenis iš paieškos, nes jų mokymo duomenys turi ribinę datą ir jie neturi prieigos prie privačios ar nuosavybės teise saugomos informacijos. Gaunama informacija praplečia jų efektyvias žinias nereikalaujant pakartotinio mokymo, todėl ji vertinga nepriklausomai nuo to, kiek pajėgus yra bazinis modelis.

Nuosprendis

Rinkitės konteksto paiešką, kai jūsų duomenys dažnai keičiasi, kai jums reikia šaltinių nuorodų arba kai dirbate su patentuotomis ar specializuotomis žiniomis, kurių nebuvo modelio mokymo rinkinyje. Pasikliaukite parametrine atmintimi bendram samprotavimui, pokalbių sklandumui ir scenarijams, kai mažas delsos laikas yra svarbesnis už tobulą faktinį tikslumą. Praktiškai stipriausios sistemos sujungia abu, naudodamos paiešką faktams pagrįsti ir parametrines žinias viskam kitam tvarkyti.

Susiję palyginimai

„DeepSeek V4“ ir „GPT-4“ klasės modeliai

„DeepSeek V4“ yra kylantis atvirojo svorio didelių kalbų modelis, sukurtas Kinijos dirbtinio intelekto laboratorijoje, o GPT-4 klasės modeliai nurodo „OpenAI“ flagmanines uždarojo kodo sistemas. Šiame palyginime nagrinėjama jų architektūra, galimybės, kainos, prieinamumas ir našumas realiame pasaulyje, siekiant padėti kūrėjams ir įmonėms išmintingai pasirinkti.

„Google“ paieška ir žinių grafiko paieška

„Google“ paieška yra plataus masto žiniatinklio indeksavimo variklis, kurį dauguma žmonių naudoja kasdien, o „Knowledge Graph Search“ yra „Google“ struktūrizuotų objektų duomenų bazė, kurioje pateikiami tiesioginiai atsakymai ir informacijos skydeliai. Supratimas, kuo jie skiriasi, padeda paaiškinti, kodėl kai kurios užklausos pateikia išsamius faktus, o kitos – tradicines mėlynas nuorodas.

„Google“ paieškos algoritmas ir supaprastinti klasės modeliai

„Google“ paieškos algoritmas reitinguoja milijardus tinklalapių, naudodamas mašininį mokymąsi ir šimtus signalų, o supaprastinti klasių modeliai perteikia dirbtinio intelekto koncepcijas į lengvai mokomas, prieinamas sistemas. Viena sistema veikia planetos mastu gamyboje; kita tarnauja kaip pedagoginis tiltas mokiniams, mokantis, kaip iš tikrųjų veikia dirbtinis intelektas.

„Vienas su vienu“ atitikimas aptikimo ir daugelio su vienu atitikimo metodų srityse

„Vienas su vienu“ atitikimo metodas kiekvienam pagrindiniam objektui priskiria vieną numatomą langelį, o „daugelis su vienu“ atitikimo metodas leidžia kelias prognozes suderinti su vienu taikiniu. Abi strategijos formuoja tai, kaip šiuolaikiniai detektoriai, tokie kaip DETR ir „Faster R-CNN“, mokosi lokalizuoti objektus, kiekvienas iš jų turi skirtingus kompromisus tikslumo, mokymo stabilumo ir pasikartojančių aptikimų tvarkymo srityse.

A/B testavimas modelių aptarnavime ir vieno modelio diegime

A/B testavimas modeliuose nukreipia srautą tarp konkuruojančių modelio versijų, kad būtų galima įvertinti realų našumą, o diegiant vieną modelį visiems vartotojams pateikiamas vienas modelis. Komandos renkasi iš jų pagal rizikos toleranciją, srauto kiekį ir statistinio patvirtinimo poreikį prieš visišką diegimą.