dirbtinis intelektasdidelių kalbų modeliaipaieškos-papildytos-generacijosmašininis mokymasisLLM-architektūra
Konteksto paieška ir parametrinė atmintis LLMs
Konteksto paieška ištraukia išorinę informaciją pagal poreikį, o parametrinė atmintis saugo žinias, įtrauktas į modelio svorius mokymo metu. Abu šie metodai formuoja tai, kaip dideli kalbos modeliai atsako į klausimus, tačiau jie labai skiriasi lankstumu, tikslumu ir atnaujinamumu. Jų kompromisų supratimas padeda paaiškinti, kodėl šiuolaikinės dirbtinio intelekto sistemos dažnai derina abu metodus.
Akcentai
Žinių paieška atnaujina per kelias minutes; parametrinės atminties atnaujinimai užtrunka savaites mokymo
Parametrinė atmintis leidžia pasiekti žinias be vėlavimo; paieška prideda 50–200 ms kiekvienai užklausai
Paieška leidžia cituoti šaltinius; parametrinė atmintis negali atsekti atsakymų į mokymo duomenis
Parametrinė atmintis keičiasi pagal parametrus; paieškos keičiasi pagal duomenų bazės dydį
Kas yra Konteksto paieška?
Metodas, kai teisės magistro (LLM) specialistai išvados darymo metu gauna atitinkamą išorinę informaciją, kad pagrįstų savo atsakymus naujausiomis arba specializuotomis žiniomis.
Labiausiai paplitęs diegimas yra paieškos papildyta generacija (RAG), kurią 2020 m. pristatė „Facebook AI Research“.
Jis remiasi vektorinėmis duomenų bazėmis, tokiomis kaip FAISS, Pinecone arba Weaviate, kad saugotų dokumentų įterpimus panašumų paieškai.
Į užklausą įterpiamas gautas kontekstas, leidžiantis modeliui cituoti šaltinius ir sumažinti haliucinacijas.
Žinių atnaujinimas galimas tiesiog pridedant naujus dokumentus, nereikalaujant iš naujo mokyti pagrindinio modelio.
Jis veikia su fiksuotais modeliais, todėl yra ekonomiškai efektyvus diegiant įmones su patentuotais duomenimis.
Kas yra Parametrinė atmintis LLMs?
Žinios, tiesiogiai užkoduotos milijarduose kalbos modelio parametrų per išankstinį mokymą ir tikslinimą.
Pranešama, kad GPT-4 turi daugiau nei trilijoną parametrų, kurių kiekviename saugomi išmoktų žinių fragmentai.
Tai leidžia greitai daryti išvadas, nes bendrųjų žinių užklausoms nereikia išorinės paieškos.
Šios atminties atnaujinimas reikalauja brangaus perkvalifikavimo arba tikslinimo, dažnai kainuojančio milijonus dolerių.
Jam sunku su labai neseniai įvykusiais įvykiais, nes mokymo duomenys turi fiksuotą ribą.
Palyginimo lentelė
Funkcija
Konteksto paieška
Parametrinė atmintis LLMs
Žinių saugojimo vieta
Išorinė vektorinė duomenų bazė arba dokumentų saugykla
Užkoduota modelio svoriuose (parametruose)
Atnaujinimo metodas
Pridėti arba modifikuoti dokumentus indekse
Permokyti arba tiksliai suderinti modelį
Vėlavimo poveikis
Prideda paieškos sąnaudas (paprastai 50–200 ms)
Jokių papildomų delsos laiko apribojimų, viršijančių modelio išvadas
Haliucinacijų rizika
Mažesnis, kai paieška tiksli
Didesnis, jei faktai nėra aiškūs arba nauji
Žinių mastelio keitimas
Skaičiuojamas pagal duomenų bazės dydį, beveik neribotą
Apribota parametrų skaičiumi ir mokymo duomenimis
Atnaujinimo kaina
Mažos (tik saugojimo ir indeksavimo išlaidos)
Labai daug (grafikos procesoriaus valandos, duomenų paruošimas)
Šaltinio priskyrimas
Gali cituoti tikslias ištraukas ir dokumentus
Negalima nurodyti konkrečių mokymo šaltinių
Geriausias naudojimo atvejis
Konkrečiai sričiai būdingi, dažnai kintantys duomenys
Bendras mąstymas, kalbos sklandumas, bendros žinios
Išsamus palyginimas
Kaip įgyjamos žinios
Konteksto paieška dinamiškai kaupia žinias indeksuodama dokumentus ir ieškodama juose užklausos metu. Pats modelis išlieka nepakitęs, tačiau jo efektyvios žinios auga kaskart, kai plečiate dokumentų kolekciją. Parametrinė atmintis veikia priešingai: mokymo metu žinios suspaudžiamos į svorio atnaujinimus, todėl modelis viską neša viduje. Šis esminis skirtumas lemia viską – nuo kainos iki tikslumo.
Tikslumas ir haliucinacijos
Paieškos sistemos linkusios mažiau haliucinuoti ties faktiniais klausimais, nes modelis gali remtis tikruoju šaltinio tekstu, o ne spėlioti pagal šablonus. Tačiau jei paieškos sistema ištraukia nesusijusius dokumentus, modelis vis tiek gali pateikti užtikrintai neteisingus atsakymus. Parametrinė atmintis yra labiau linkusi į klastojimą, ypač nišinių temų ar neseniai įvykusių įvykių atveju, nes modelis turi atkurti faktus iš suspaustų reprezentacijų.
Šviežumas ir priežiūra
Parametrinės atminties atnaujinimas yra sudėtingas. Naujos informacijos pridėjimas paprastai reiškia modelio tikslinimą, kuriam reikia kruopščiai atrinktų duomenų rinkinių, skaičiavimo laiko ir kruopštaus vertinimo. Konteksto paieška visiškai apeina šį procesą, leisdama keisti dokumentus į indeksą ir iš jo. Pavyzdžiui, naujienų organizacija gali pateikti savo pokalbių robotui šiandienos antraštes paieškos būdu, nekeisdama modelio svorių.
Kaina ir infrastruktūra
Parametrinė atmintis reikalauja didelių išankstinių investicijų į mokymo infrastruktūrą, tačiau atsiperka pigiomis išvadomis dideliu mastu. Duomenų paieška perkelia išlaidas vektorinės duomenų bazės priežiūrai ir šiek tiek didesnio delsos laiko apdorojimui kiekvienai užklausai. Pradedantiesiems verslams duomenų paieška dažnai yra pragmatiškas pasirinkimas, nes taip išvengiama daugelio milijonų dolerių vertės mokymo procesų, kuriuos dengia pagrindinių modelių teikėjai.
Lankstumas ir specializacija
Vienas bazinis modelis gali aptarnauti labai skirtingas sritis paieškos metu, nes tereikia sukeisti dokumentų indeksą. Norite teisininko padėjėjo šiandien, o medicininio – rytoj? Pakeiskite paieškos korpusą. Parametrinė atmintis į patį modelį įdeda specializaciją, todėl egzistuoja konkrečioms sritims skirti modeliai, tokie kaip „BloombergGPT“, tačiau norint juos pritaikyti naujoms sritims, reikia permokyti.
Hibridiniai metodai
Dauguma šiuolaikinių gamybinių sistemų derina abu šiuos metodus. Paieška tvarko faktinius pagrindus ir nuosavybės teise saugomus duomenis, o parametrinė atmintis suteikia kalbos sklandumą, mąstymo gebėjimus ir bendras pasaulio žinias, kurios padeda atsakymus padaryti nuoseklius. Tokios sistemos kaip „LangChain“ ir „LlamaIndex“ leidžia lengvai sluoksniuoti paieškų sluoksnį ant bet kokio pagrindinio modelio, parametrines žinias laikant baze, o paieškų – patobulinimu.
Privalumai ir trūkumai
Konteksto paieška
Privalumai
+Lengva atnaujinti
+Cituoja šaltinius
+Sumažina haliucinacijas
+Ekonomiškai efektyvus mastelio keitimas
Pasirinkta
−Pridėta delsa
−Retriverio klaidos
−Infrastruktūros pridėtinės išlaidos
−Ribota dėl indekso kokybės
Parametrinė atmintis
Privalumai
+Greitas išvadas
+Nėra išorinės priklausomybės
+Stiprus samprotavimas
+Apibendrina plačiai
Pasirinkta
−Brangu atnaujinti
−Žinių ribos
−Haliucinacijų faktai
−Neskaidrų žinių šaltinį
Dažni klaidingi įsitikinimai
Mitas
RAG visiškai pašalina haliucinacijas LLMs.
Realybė
Išgavimo metodas sumažina haliucinacijas, susijusias su faktiniais klausimais, bet jų nepašalina. Jei paieškos sistema atranda nesusijusius dokumentus arba modelis ignoruoja kontekstą, haliucinacijos vis tiek pasitaiko. RAG perkelia problemą nuo žinių spragų prie paieškos kokybės.
Mitas
Didesni modeliai tiksliau prisimena daugiau faktų.
Realybė
Didesni modeliai tam tikra prasme saugo daugiau žinių, bet jie taip pat haliucinacijas labiau. Tyrimai rodo, kad net GPT-4 fabrikuoja citatas ir išgalvoja statistiką, ypač tomis temomis, kurios yra nepakankamai atstovaujamos mokymo duomenyse.
Mitas
Parametrinė atmintis ir paieška yra konkuruojantys metodai.
Realybė
Jie vienas kitą papildo. Šiuolaikinės dirbtinio intelekto sistemos beveik visada derina abu, naudodamos parametrines žinias samprotavimui ir kalbos sklandumui, o faktiniam pagrindimui ir nuosavybės teise saugomiems duomenims – paiešką.
Mitas
Tikslus derinimas patikimai moko modelį naujų faktų.
Realybė
Tikslus mokymas geriau derinamas su stiliumi ir formatu nei įterpiamos naujos žinios. Modeliai dažnai nesugeba nuosekliai prisiminti faktų, išmoktų tikslinant duomenis – šį reiškinį tyrėjai vadina „naujumo prakeiksmu“ arba katastrofišku užmiršimu.
Mitas
Vektorinės duomenų bazės supranta teksto reikšmę.
Realybė
Vektorių duomenų bazėse saugomi skaitmeniniai įterpimai ir atliekama panašumų paieška. Jos nesupranta semantikos; jos tiesiog randa matematiškai artimus vektorius. Reikšmė kyla iš įterpimo modelio, kuris sukūrė tuos vektorius.
Dažnai užduodami klausimai
Kuo skiriasi konteksto paieška ir parametrinė atmintis?
Konteksto paieška nuskaito informaciją iš išorinių šaltinių užklausos metu, o parametrinė atmintis saugo žinias modelio svoriuose, gautuose iš mokymo. Ieškoma dinamiškai ir atnaujinama; parametrinė atmintis yra statinė ir įdiegiama mokymo metu.
Kodėl LLM haliucinuoja, jei jie turi parametrinę atmintį?
Parametrinė atmintis suspaudžia žinias į milijardų parametrų modelius, todėl modelis rekonstruoja atsakymus, o ne juos primena pažodžiui. Šis rekonstravimo procesas gali pateikti tikėtinai skambančius, bet neteisingus teiginius, ypač neaiškių faktų ar temų, kurioms trūksta mokymo duomenų, atveju.
Ar galite kartu naudoti ir paieškos, ir parametrinę atmintį?
Be abejo. Daugumoje gamybinių LLM programų naudojamas hibridinis metodas, kai modelio parametrinės žinios tvarko samprotavimus ir kalbą, o paieška pateikia konkrečius faktus, naujausią informaciją arba nuosavybės teise saugomus duomenis. Tokios sistemos kaip „LangChain“ leidžia lengvai įdiegti šį derinį.
Kiek kainuoja atnaujinti parametrinę atmintį, palyginti su jos paieška?
Atnaujinant paieškos duomenis gali tekti mokėti kelis dolerius saugyklos ir indeksavimo skaičiavimo išlaidų. Parametrinės atminties atnaujinimas atliekant pakartotinį mokymą gali kainuoti nuo tūkstančių iki milijonų dolerių, priklausomai nuo modelio dydžio, plius savaitės inžinerijos laiko. Dėl šio kainų skirtumo paieškos duomenys tapo tokie populiarūs.
Ar RAG veikia su bet kuria LLM?
Taip, paieškos papildytas generavimas veikia praktiškai su bet kokiu kalbos modeliu, įskaitant atvirojo kodo, pvz., „Llama“ ir „Mistral“, taip pat su patentuotomis API, pvz., „GPT-4“ ir „Claude“. Modelis tiesiog turi vykdyti instrukcijas ir naudoti gautą kontekstą savo raginime.
Kas yra vektorinė duomenų bazė ir kodėl jos reikia paieškai?
Vektorinė duomenų bazė saugo tekstą kaip skaitinius įterpimus, kurie užfiksuoja semantinę reikšmę. Kai pateikiate užklausą, ji randa dokumentus, kurių įterpimai yra matematiškai panašūs į jūsų klausimą. Tai leidžia ieškoti atitikmenų pagal reikšmę, o ne tiksliai atitinkančius raktinius žodžius, o tai labai svarbu atliekant natūralios kalbos užklausas.
Kokio dydžio gali būti modelio parametrinė atmintis?
Teoriškai neribojama, bet praktiškai ribojama mokymo skaičiavimo ir duomenų. Apskaičiuota, kad GPT-4 turi daugiau nei trilijoną parametrų, o atvirojo kodo modeliai, tokie kaip „Llama 3“, siekia 405 milijardus. Kiekvienas parametras saugo labai mažus žinių fragmentus, tačiau bendra talpa yra milžiniška.
Ar paieška yra lėtesnė nei naudojant vien parametrinę atmintį?
Taip, paieška padidina delsą, paprastai nuo 50 iki 200 milisekundžių, priklausomai nuo duomenų bazės dydžio ir įterpimo modelio. Daugeliui programų tai yra nereikšminga, tačiau realaus laiko sistemos, tokios kaip balso asistentai, kartais renkasi grynai parametrinius metodus, kad sumažintų atsako delsą.
Ar tikslus derinimas gali pakeisti nuosavybės teise saugomų žinių paiešką?
Nepatikima. Tikslus derinimas dažnai nesugeba nuosekliai mokyti konkrečių faktų, o modeliai linkę pamiršti arba sumaišyti detales. Išgavimas yra daug patikimesnis patentuotų žinių atveju, nes jis išryškina tikslius dokumentus, o ne pasikliauja modeliu, kad prisimintų išmoktą informaciją.
Kas nutinka, kai paieškos sistemoje nerandama jokių susijusių dokumentų?
Modelis grįžta prie savo parametrinės atminties, o tai reiškia, kad gali haliucinuoti, jei klausimas yra už jo mokymo duomenų ribų. Geros RAG sistemos su tuo susidoroja grakščiai, pripažindamos neapibrėžtumą arba atsisakydamos atsakyti, kai paieškos patikimumas yra mažas.
Ar naujesniems LLM vis dar reikia ieškoti?
Taip, net ir pažangiausiems modeliams naudinga gauti duomenis iš paieškos, nes jų mokymo duomenys turi ribinę datą ir jie neturi prieigos prie privačios ar nuosavybės teise saugomos informacijos. Gaunama informacija praplečia jų efektyvias žinias nereikalaujant pakartotinio mokymo, todėl ji vertinga nepriklausomai nuo to, kiek pajėgus yra bazinis modelis.
Nuosprendis
Rinkitės konteksto paiešką, kai jūsų duomenys dažnai keičiasi, kai jums reikia šaltinių nuorodų arba kai dirbate su patentuotomis ar specializuotomis žiniomis, kurių nebuvo modelio mokymo rinkinyje. Pasikliaukite parametrine atmintimi bendram samprotavimui, pokalbių sklandumui ir scenarijams, kai mažas delsos laikas yra svarbesnis už tobulą faktinį tikslumą. Praktiškai stipriausios sistemos sujungia abu, naudodamos paiešką faktams pagrįsti ir parametrines žinias viskam kitam tvarkyti.