Sarunu aģenti koncentrējas uz dabisku dialogu un uz tekstu balstītu mijiedarbību, savukārt rīkus izmantojošie aģenti paplašina mākslīgā intelekta iespējas, izsaucot ārējās funkcijas un API. Abi pārstāv atšķirīgas pieejas autonomām mākslīgā intelekta sistēmām, kur sarunu modeļi izceļas komunikācijā, bet rīkus izmantojošie aģenti specializējas reālu uzdevumu izpildē.
Iezīmes
Sarunu aģenti prioritāri piešķir dialoga kvalitātei, savukārt rīkus izmantojošie aģenti prioritāri piešķir uzdevumu izpildei reālajā pasaulē.
Rīkus izmantojošie aģenti seko plānošanas-rīkošanās-novērošanas ciklam, kas atbildes pamato ārējos datos, nevis tikai modeļa atmiņā.
Sarunu dalībnieki var brīvi halucinēt; rīkus izmantojošie aģenti var pārbaudīt un pašlabot, izmantojot rīku atgriezenisko saiti.
Mūsdienu ražošanas sistēmas arvien vairāk apvieno abas pieejas, izmantojot sarunu kā priekšējo daļu un rīkus kā aizmugurējo daļu.
Kas ir Sarunu aģenti?
Mākslīgā intelekta sistēmas, kas galvenokārt paredzētas dabiskas valodas dialogam, jautājumu atbildēšanai un sakarīgu sarunu uzturēšanai ar lietotājiem.
Sarunu aģenti tiek veidoti, izmantojot lielus valodu modeļus, kas apmācīti masīvos teksta korpusos, lai ģenerētu cilvēkam līdzīgas atbildes.
Tie paļaujas uz transformatoru arhitektūrām, to pašu tehnoloģiju, kas ir tādu modeļu kā GPT-4, Claude un Llama pamatā.
Lielākā daļa sarunu aģentu darbojas viena pagrieziena vai īsa vairāku pagriezienu konteksta loga ietvaros bez pastāvīgas atmiņas.
Tie parasti nesadarbojas ar ārējām sistēmām, ja vien tie nav skaidri papildināti ar izguves vai rīku funkcijām.
Populāri piemēri ir ChatGPT, Google Gemini tērzēšanas režīms un Anthropic Claude standarta sarunu konfigurācijā.
Kas ir Rīkus izmantojoši aģenti?
Mākslīgā intelekta sistēmas, kas paplašina valodu modeļu iespējas, izsaucot ārējās funkcijas, API, datubāzes un programmatūras rīkus, lai veiktu reālās pasaules uzdevumus.
Rīkus izmantojošie aģenti seko spriešanas ciklam, kurā viņi plāno, izvēlas rīku, to izpilda un novēro rezultātu, pirms turpina.
Tādi ietvari kā LangChain, AutoGPT un ReAct popularizēja modeli, kas LLMs nodrošina strukturētu piekļuvi ārējām utilītprogrammām.
Tie var veikt tādas darbības kā meklēšana tīmeklī, koda palaišana, vaicājumu veikšana datubāzēs, e-pasta sūtīšana un pārlūkprogrammu pārvaldība.
2022. gada ReAct rakstā tika ieviesta spriešanas un rīcības sinerģija, kas ir mūsdienu rīkus izmantojošu aģentu pamatkoncepcija.
OpenAI funkciju izsaukšanas API, kas tika izlaista 2023. gadā, kļuva par standarta mehānismu valodu modeļu savienošanai ar ārējiem rīkiem.
Salīdzinājuma tabula
Funkcija
Sarunu aģenti
Rīkus izmantojoši aģenti
Primārā funkcija
Dabiskās valodas dialogs un informācijas sniegšana
Uzdevumu izpilde, izmantojot ārējos rīkus un API
Ārējā mijiedarbība
Ierobežota vai nekāda bez pastiprinājuma
Dzimtā spēja izsaukt funkcijas un pakalpojumus
Arhitektūra
Uz transformatoriem balstīts valodas modelis
Valodas modelis plus rīku orķestrācijas slānis
Argumentācijas pieeja
Vienas piegājiena vai vairāku pagriezienu teksta ģenerēšana
Plānošanas-rīkošanās-novērošanas cikls ar iteratīvu spriešanu
Tipiski lietošanas gadījumi
Klientu atbalsts, apmācība, prāta vētra, jautājumu un atbilžu sesija
Darbplūsmas automatizācija, datu izguve, koda izpilde, izpēte
Atmiņa un konteksts
Sarunu vēsture sesijas laikā
Pastāvīga atmiņa un rīka stāvoklis dažādos uzdevumos
Kļūdu apstrāde
Ģenerē visprecīzāko minējumu teksta atbildi
Var atkārtoti izmēģināt rīkus, validēt rezultātus un veikt pašlabošanu
Piemēri
ČatsGPT, Klods, Dvīņu tērzēšana
AutoGPT, LangChain aģenti, OpenAI funkciju izsaukšana
Detalizēts salīdzinājums
Galvenais mērķis un dizaina filozofija
Sarunu aģenti galvenokārt ir paredzēti saziņai. To arhitektūra koncentrējas uz saskaņota, kontekstuāli atbilstoša teksta ģenerēšanu, reaģējot uz lietotāja uzvednēm. Turpretī rīkus izmantojošie aģenti ir veidoti, lai rīkotos. Tie uztver valodu kā plānošanas līdzekli, nevis gala rezultātu, izmantojot to, lai izlemtu, kurus ārējos resursus pieaicināt un kā interpretēt rezultātus.
Mijiedarbība ar ārpasauli
Standarta sarunu aģents darbojas savā valodas modelī. Bez papildu atbalsta tas nevar pārbaudīt tiešraides laikapstākļus, izgūt datus no klientu attiecību pārvaldības sistēmas (CRM) vai veikt aprēķinus. Aģenti, kas izmanto rīkus, bloķē šo plaisu, ietverot modeli orķestrācijas slānī, kas atklāj funkcijas, API un pakalpojumus. Modelis izlemj, kad un kā tos izsaukt, pārvēršot aģentu no pasīva atbildētāja par aktīvu dalībnieku digitālajās darbplūsmās.
Argumentācija un lēmumu pieņemšana
Sarunu aģenti netieši spriež, izmantojot savas nākamā marķiera prognozes, kas labi darbojas valodas uzdevumos, bet ierobežo viņu spēju pārbaudīt faktus vai veikt vairāku soļu darbības. Rīkus izmantojošie aģenti ievēro skaidrus spriešanas modeļus, piemēram, ReAct vai domu ķēdes plānošanu, kur katrs solis ir balstīts vai nu uz iekšējo spriešanu, vai ārēju novērojumu. Tas padara viņu lēmumu pieņemšanu pārredzamāku un auditējamāku.
Uzticamība un kļūdu atkopšana
Ja sarunu aģents nav pārliecināts, tas parasti šaubās vai halucinē, jo tam nav iespējas pārbaudīt savus apgalvojumus. Aģenti, kas izmanto rīkus, var atgūties no kļūdām, atkārtoti vaicājot rīku, validējot izvades datus pret shēmām vai izmēģinot alternatīvas pieejas. Šī atgriezeniskā saite ievērojami samazina halucinācijas uzdevumiem, kuriem nepieciešama faktu precizitāte, piemēram, klientu ierakstu izgūšanai vai finanšu aprēķinu veikšanai.
Praktiski pielietojumi
Sarunu aģenti izceļas scenārijos, kuros mērķis ir izpratne, skaidrojums vai radoša ģenerēšana, piemēram, apmācība, e-pasta ziņojumu sagatavošana vai klientu atbalsta sniegšana. Rīkus izmantojoši aģenti izceļas, ja uzdevums ir jādara, nevis jāsaka, piemēram, rezervējot tikšanās, veicot SQL vaicājumus vai automatizējot daudzpakāpju biznesa procesus. Daudzas ražošanas sistēmas tagad apvieno abus, izmantojot sarunu saskarnes, lai apkopotu nolūku, un rīku izpildi, lai to izpildītu.
Priekšrocības un trūkumi
Sarunu aģenti
Iepriekšējumi
+Dabiska dialoga plūsma
+Viegli izvietot
+Plašs valodu pārklājums
+Zemas integrācijas izmaksas
Ievietots
−Ierobežota reālās pasaules darbība
−Nosliece uz halucinācijām
−Nav ārējas verifikācijas
−Vāja daudzpakāpju uzdevumos
Rīkus izmantojoši aģenti
Iepriekšējumi
+Veic reālas darbības
+Samazina halucinācijas
+Integrējas ar API
+Apstrādā sarežģītas darbplūsmas
Ievietots
−Augstāka iestatīšanas sarežģītība
−Instrumentu bojājumu riski
−Latentums no API izsaukumiem
−Nepieciešama rūpīga orķestrēšana
Biežas maldības
Mīts
Sarunu aģenti un rīkus izmantojošie aģenti ir pilnīgi atsevišķas tehnoloģijas.
Realitāte
Lielākā daļa rīkus izmantojošo aģentu ir veidoti, balstoties uz sarunvalodas valodu modeļiem. Šī atšķirība ir drīzāk arhitektoniska, nevis fundamentāla, jo viens un tas pats pamatā esošais LLM var darboties abos režīmos atkarībā no tā, kā tas tiek ietīts un parādīts uzvednes signāls.
Mīts
Instrumentus lietojoši aģenti nekad nehalucinē, jo viņi izmanto ārējus instrumentus.
Realitāte
Aģenti, kas izmanto rīkus, joprojām var halucinēt, izvēloties nepareizu rīku, nepareizi interpretējot rīku rezultātus vai safabricējot parametrus. Rīki samazina, bet neizslēdz halucinācijas, īpaši, ja pats spriešanas slānis nav uzticams.
Mīts
Sarunu aģenti nevar piekļūt informācijai reāllaikā.
Realitāte
Daudzi mūsdienu sarunu aģenti ietver izguves paplašinātas ģenerēšanas vai pārlūkošanas rīkus, kas ļauj tiem izgūt tiešraides datus. Pamatarhitektūra var būt sarunu arhitektūra, taču ražošanas izvietojumos bieži tiek pievienotas rīku iespējas fonā.
Mīts
Aģenti, kas izmanto rīkus, vienmēr ir precīzāki nekā sarunu aģenti.
Realitāte
Precizitāte ir atkarīga no uzdevuma. Atvērta tipa radošajā rakstīšanā vai subjektīvos padomos sarunvalodas aģenti bieži vien pārspēj rīkus izmantojošas sistēmas. Rīki palīdz ar faktuāliem un procedurāliem uzdevumiem, bet nepievieno nekādu vērtību, ja atbilde ir tīri lingvistiska.
Mīts
Lai izveidotu rīkus izmantojošu aģentu, ir nepieciešams apmācīt jaunu modeli no nulles.
Realitāte
Lielākā daļa rīkus izmantojošo aģentu tiek konstruēti, ierosinot vai precizējot esošos valodas modeļus ar funkciju izsaukšanas shēmām. Nav nepieciešams jauns bāzes modelis, tāpēc šī pieeja ir tik ātri izplatījusies visā nozarē.
Bieži uzdotie jautājumi
Kāda ir galvenā atšķirība starp sarunu aģentu un rīkus izmantojošu aģentu?
Sarunu aģents koncentrējas uz dabiskas valodas atbilžu ģenerēšanu, savukārt rīkus izmantojošs aģents paplašina šīs iespējas, izsaucot ārējās funkcijas, API un pakalpojumus, lai veiktu reālās pasaules uzdevumus. Sarunu aģents runā; rīkus izmantojošais aģents rīkojas.
Vai sarunu aģents var izmantot rīkus?
Jā. Mūsdienu sarunu aģentus, piemēram, ChatGPT un Claude, var konfigurēt ar pārlūkošanas, koda izpildes un funkciju izsaukšanas funkcijām. Šajās konfigurācijās tie darbojas kā hibrīdas sistēmas, kas apvieno dialogu ar rīku izpildi.
Kādi ietvari tiek izmantoti, lai veidotu rīkus izmantojošus aģentus?
Populāri ietvari ietver LangChain, LlamaIndex, AutoGPT, CrewAI un Microsoft AutoGen. Tie nodrošina abstrakcijas rīku definēšanai, aģentu ciklu pārvaldībai un vairāku aģentu darbplūsmu organizēšanai, izmantojot pamata modeļus.
Vai instrumentu lietošanas līdzekļi mazina halucinācijas?
Tie to var, īpaši faktu vaicājumu gadījumā, jo aģents var pārbaudīt apgalvojumus, izmantojot ārējos avotus. Tomēr rīka izvēles vai izvades interpretācijas laikā joprojām var rasties halucinācijas, tāpēc rīka izmantošana pati par sevi nav pilnīgs risinājums.
Kura veida aģents ir labāks klientu atbalstam?
Hibrīdsistēmas parasti darbojas vislabāk. Sarunu slānis apstrādā dabisko dialogu un toni, savukārt rīku slānis ievāc konta datus, apstrādā atmaksas vai eskalē pieprasījumus. Tīri sarunvalodas aģentiem ir grūtības ar darbībām, un tīri rīku aģenti bieži vien šķiet robotiski.
Kas ir ReAct ietvars?
ReAct, ko 2022. gada rakstā ieviesa Jao un viņa kolēģi, apvieno spriešanu un rīcību vienā ciklā. Aģents pārdomā, kas jādara, veic darbību, izmantojot rīku, novēro rezultātu un atkārto. Tas kļuva par pamatmodeli mūsdienu rīkus izmantojošiem aģentiem.
Vai aģentu, kas izmanto instrumentus, darbība ir dārgāka?
Parasti jā, jo katrs rīka izsaukums palielina latentumu un var radīt API izmaksas no trešo pušu pakalpojumiem. Daudzpakāpju aģentu cikli var arī patērēt vairāk žetonu. Šis kompromiss parasti ir tā vērts uzdevumiem, kuriem nepieciešama precizitāte vai reālās pasaules darbība.
Vai rīkus izmantojoši aģenti var darboties bez interneta?
Jā, ja rīki ir lokāli. Aģenti var izsaukt ierīcē esošos kalkulatorus, lokālās datubāzes, failu sistēmas vai uzņēmuma iekšējās API bez piekļuves internetam. Arhitektūra ir vienāda neatkarīgi no rīku atrašanās vietas.
Kādas prasmes ir nepieciešamas, lai izveidotu rīkus izmantojošu aģentu?
Parasti ir nepieciešamas ātras inženiertehniskās prasmes, LLM API pārzināšana, pamata programmēšanas prasmes (parasti Python vai TypeScript) un izpratne par rīku shēmu definēšanu. Lielākajai daļai lietojumprogrammu līmeņa aģentu versiju nav nepieciešamas mašīnmācīšanās zināšanas.
Vai sarunu aģenti galu galā aizstās rīkus izmantojošus aģentus?
Maz ticams. Abas pieejas kalpo dažādiem mērķiem un arvien vairāk tiek apvienotas. Nākotnes sistēmas, visticamāk, uztvers sarunu kā saskarni un rīku lietošanu kā izpildes slāni, atšķirību vairāk norādot uz arhitektūru, nevis konkurenci.
Spriedums
Izvēlieties sarunu aģentu, ja jūsu galvenā vajadzība ir augstas kvalitātes dialogs, satura ģenerēšana vai jautājumu atbildēšana no zināšanu bāzes. Izvēlieties rīkus izmantojošu aģentu, ja jums ir nepieciešams, lai mākslīgais intelekts veiktu reālas darbības, integrētos ar ārējām sistēmām vai automatizētu daudzpakāpju darbplūsmas. Praksē visspēcīgākās mūsdienu sistēmas apvieno abus, izmantojot sarunu kā saskarni un rīkus kā dzinēju.