žetonų išdavimasNLPnatūralios kalbos apdorojimasmašininis mokymasisdirbtinis intelektas

Duomenimis pagrįstas tokenizavimas ir taisyklėmis pagrįstas tokenizavimas

Duomenimis pagrįstas tokenizavimas išmoksta skaidymo taisykles iš didelių teksto korpusų naudodamas statistinius arba neuroninius metodus, o taisyklėmis pagrįstas tokenizavimas remiasi rankomis sukurtais lingvistiniais modeliais ir žodynais. Abu metodai skaido tekstą į prasmingus vienetus, tačiau jie labai skiriasi lankstumu, tikslumu ir skaičiavimo reikalavimais.

Akcentai

Duomenimis pagrįsti tokenizeriai mokosi iš teksto, o taisyklėmis pagrįsti tokenizeriai vadovaujasi rankomis sukurtais šablonais.
Tokie žodžių paieškos metodai kaip BPE ir WordPiece apdoroja nežinomus žodžius daug sklandžiau nei žodynų paieškos.
Taisyklėmis pagrįstos sistemos siūlo visišką interpretuojamumą ir nulines mokymo išlaidas, idealiai tinka nuspėjamoms sritims.
Šiuolaikiniai dideli kalbų modeliai beveik išimtinai naudoja duomenimis pagrįstą tokenizaciją savo įvesties kanalams.

Kas yra Duomenimis pagrįstas žetonų generavimas?

Mašininio mokymosi metodas, kuris automatiškai atranda žetonų ribas analizuodamas didelių teksto duomenų rinkinių modelius.

Algoritmai segmentavimo taisykles mokosi iš mokymo korpusų, o ne pasikliauja rankiniu būdu parašytais šablonais.
Į šią kategoriją patenka tokie požodžių metodai kaip baitų porų kodavimas (BPE), „WordPiece“ ir „Unigram Language Model“.
Šiuolaikiniai dideli kalbų modeliai, įskaitant GPT ir BERT, naudoja duomenimis pagrįstus tokenizerius, apmokytus šimtams gigabaitų teksto.
Šie tokenizeriai grakščiai tvarko iš žodyno iškritusius žodžius, suskaidydami retus terminus į pažįstamus šalutinius žodžius.
Našumas gerėja didėjant mokymo duomenų dydžiui ir įvairovei.

Kas yra Taisyklėmis pagrįstas žetonų kūrimas?

Tradicinis metodas, kai tekstas skaidomas naudojant iš anksto nustatytas kalbines taisykles, reguliariąsias išraiškas ir kuruojamus žodžių sąrašus.

Žetonų ribos nustatomos pagal rankinius šablonus, tokius kaip tarpai, skyryba ir morfologinės taisyklės.
Tokios bibliotekos kaip NLTK „word_tokenize“ ir „spaCy“ taisyklėmis pagrįsti vamzdynai yra plačiai naudojami pavyzdžiai.
Šios sistemos dažnai naudoja žodynus ir afiksų sąrašus, kad apdorotų žodžių formas konkrečiomis kalbomis.
Elgesys yra visiškai nuspėjamas ir lengvai patikrinamas, nes kiekviena taisyklė yra aiškiai parašyta.
Jiems nereikia jokių mokymo duomenų ir juos galima diegti iš karto, kai tik apibrėžiamos taisyklės.

Palyginimo lentelė

Funkcija	Duomenimis pagrįstas žetonų generavimas	Taisyklėmis pagrįstas žetonų kūrimas
požiūris	Mokosi iš didelių tekstinių korpusų, naudodamas statistinius arba neuroninius metodus	Naudoja rankomis sukurtas taisykles, reguliariųjų išraiškų šablonus ir žodynus
Reikalingas mokymas	Taip, reikia daug anotuotų arba neapdorotų tekstinių duomenų	Ne, taisykles kūrėjai rašo rankiniu būdu
Nežinomų žodžių tvarkymas	Suskaido retus žodžius į žinomus šalutinius žodžių vienetus	Dažnai nepavyksta arba reikia rankiniu būdu atnaujinti žodyną
Aiškinamasis aspektas	Mažesnis, nes išmokti modeliai yra įterpti į modelio svorius	Aukšta, kiekvieną taisyklę galima perskaityti ir patikrinti
Prisitaikymas prie naujų kalbų	Lengvai perkvalifikuojamas naudojant naujus korpusus	Reikia kurti naujus taisyklių rinkinius nuo nulio
Skaičiavimo kaina	Didesnis treniruočių metu, greitas išvados darymo metu	Žemas bendras vaizdas, veikia su minimaliu aparatinės įrangos poreikiu
Įprasti algoritmai	BPE, „WordPiece“, „Unigram LM“, „SentencePiece“	Reguliariųjų išraiškų skaidymas, afiksų pašalinimas, žodyno paieška
Naudotas iki	GPT, BERT, RoBERTa, T5 ir dauguma šiuolaikinių LLM	NLTK, „spaCy“ taisyklių srautai, senosios NLP sistemos

Išsamus palyginimas

Kaip jie skaido tekstą

Duomenimis pagrįsti žetonų generatoriai analizuoja dažnių modelius milijonuose sakinių, kad nuspręstų, kur baigiasi vienas žetonas, o prasideda kitas. Pavyzdžiui, BPE pradeda nuo atskirų simbolių ir pakartotinai sujungia dažniausias gretimas poras, kol pasiekiamas tikslinis žodyno dydis. Tuo tarpu taisyklėmis pagrįsti žetonų generatoriai taiko fiksuotą operacijų seką, pvz., skaidymą pagal tarpus, skyrybos ženklų šalinimą arba priesagų, tokių kaip „-ing“ ir „-ed“, pašalinimą, remiantis iš anksto nustatytomis morfologinėmis lentelėmis.

Darbas su retais ir nežinomais žodžiais

Vienas didžiausių duomenimis pagrįstų metodų privalumų yra grakštus žodžių, kurių modelis niekada nematė, tvarkymas. Retas medicininis terminas, pvz., „pneumonoultramikroskopinė silikovulkanokoniozė“, yra suskaidomas į pažįstamus potekstės fragmentus, kuriuos modelis jau supranta. Taisyklėmis pagrįstos sistemos paprastai aptinka tokius žodžius, palikdamos juos kaip vieną per didelį raktą arba visiškai išmesdamos, nebent kas nors rankiniu būdu juos įtraukia į žodyną.

Skaidrumas ir derinimas

Taisyklėmis pagrįsti tokenizeriai laimi dėl skaidrumo. Kūrėjas gali atidaryti taisyklių failą, tiksliai perskaityti, kaip tekstas yra skaidomas, ir atsekti bet kokią netikėtą išvestį iki konkretaus šablono. Duomenimis pagrįsti tokenizeriai elgiasi labiau kaip juodosios dėžės, kur ta pati įvestis visada sukuria tą pačią išvestį, tačiau norint paaiškinti, kodėl buvo pasirinktas konkretus skaidymas, reikia patikrinti mokymo statistiką arba modelio vidines funkcijas.

Išteklių reikalavimai

Duomenimis pagrįsto tokenizerio mokymui reikia daug skaičiavimo ir saugyklos išteklių, dažnai apdorojant dešimtis gigabaitų teksto, kad būtų sukurtas kokybiškas žodynas. Apmokytas, išvados daromos greitai, o tokenizerio failas yra mažas. Taisyklėmis pagrįstiems tokenizeriams sukurti ar paleisti beveik nereikia išteklių, todėl jie patrauklūs mažo delsos sistemoms, įterptiesiems įrenginiams arba projektams, kuriuose nėra mokymo infrastruktūros.

Kalbų aprėptis

Duomenimis pagrįsti metodai natūraliai pritaikomi naujoms kalboms, tiesiog perkvalifikuojant juos naujame korpuse, todėl daugiakalbiai modeliai, tokie kaip XLM-Roberta, gali aprėpti dešimtis kalbų vienu tokenizeriu. Taisyklėmis pagrįstos sistemos reikalauja lingvistinės patirties kiekvienai naujai kalbai, nes afiksų taisykles, simbolių klases ir žodžių sąrašus turi kurti žmogus, gerai išmanantis morfologiją.

Tikslumas praktikoje

Šiuolaikinėse NLP užduotyse duomenimis pagrįsti tokenizeriai nuolat pranoksta taisyklėmis pagrįstus lyginamuosius testus, kuriuose dalyvauja triukšmingas tekstas, socialinė žiniasklaida ar kodas. Taisyklėmis pagrįsti tokenizeriai vis dar laikosi gerai struktūrizuotose srityse, tokiose kaip teisiniai dokumentai ar formalus rašymas, kur nuspėjamas skaidymas ir žmonėms skaitomos taisyklės yra svarbesnės nei kraštutinių atvejų tvarkymas.

Privalumai ir trūkumai

Duomenimis pagrįstas žetonų generavimas

Privalumai

+ Apdoroja nežinomus žodžius
+ Pritaikoma naujoms kalboms
+ Didelis tikslumas
+ Mokosi iš duomenų

Pasirinkta

− Reikia mokymo duomenų
− Mažiau interpretuojama
− Didesnė įrengimo kaina
− Sudėtinga derinti

Taisyklėmis pagrįstas žetonų kūrimas

Privalumai

+ Visiškai skaidrus
+ Mokymų nereikia
+ Mažos skaičiavimo išlaidos
+ Lengva pritaikyti

Pasirinkta

− Kovoja su retais žodžiais
− Rankinio kalbos darbas
− Ribotas prisitaikymas
− Sunku pritaikyti mastelį

Dažni klaidingi įsitikinimai

Mitas

Taisyklėmis pagrįstas tokenizavimas yra pasenęs ir nebenaudojamas šiuolaikiniame dirbtiniame intelekte.

Realybė

Taisyklėmis pagrįsti tokenizeriai išlieka įprasti gamybiniuose NLP srautuose, ypač atliekant išankstinio apdorojimo veiksmus, tokius kaip sakinių skaidymas, normalizavimas ir kalbos aptikimas. Daugelyje šiuolaikinių sistemų derinami taisyklėmis pagrįsti ir duomenimis pagrįsti metodai, o ne keičiami vienas kitu.

Mitas

Duomenimis pagrįstas tokenizavimas visada duoda geresnių rezultatų nei taisyklėmis pagrįsti metodai.

Realybė

Kokybė labai priklauso nuo mokymo korpuso ir užduoties. Prastai apmokytas duomenimis pagrįstas tokenizeris gali veikti blogiau nei gerai suderintas taisyklėmis pagrįstas, ypač dirbant su konkrečiai sričiai skirtu tekstu, kai mokymo duomenys neatitinka tikslinio skirstinio.

Mitas

Tokenizavimas yra tiesiog teksto padalijimas tarpais.

Realybė

Realaus pasaulio tokenizeriai tvarko skyrybos ženklus, trumpinius, daugiažodžius posakius, jaustukus ir subžodžių vienetus. Paprastas tarpų padalijimas praleidžia didžiąją dalį sudėtingumo, kurį tokenizeriai yra skirti išspręsti.

Mitas

Kartą apmokyto duomenimis pagrįsto tokenizerio niekada nereikia atnaujinti.

Realybė

Žodynas kinta kalbai vystantis, atsirandant naujam slengui ir konkrečioms sritims būdingiems terminams. Daugelis komandų periodiškai perkvalifikuoja arba plečia savo tokenizerius, kad neatsiliktų nuo kintančio teksto pasiskirstymo.

Mitas

Visi šiuolaikiniai LLM naudoja tą patį tokenizerį.

Realybė

Skirtingos modelių šeimos naudoja skirtingas žetonų išrašymo schemas. GPT modeliai naudoja BPE, BERT – WordPiece, o T5 – SentencePiece. Šie pasirinkimai išmatuojamais būdais turi įtakos žodyno dydžiui, žetonų skaičiui ir tolesniam našumui.

Dažnai užduodami klausimai

Kuo pagrindinis skirtumas tarp duomenimis pagrįsto ir taisyklėmis pagrįsto tokenizavimo?

Duomenimis pagrįstas tokenizavimas automatiškai išmoksta skaidymo taisykles iš didelių teksto korpusų, naudodamas tokius algoritmus kaip BPE ar WordPiece. Taisyklėmis pagrįstas tokenizavimas taiko kūrėjų sukurtus šablonus, reguliariąsias išraiškas ir žodynus. Pirmasis prisitaiko per mokymą, o antrasis remiasi aiškiomis lingvistinėmis žiniomis.

Kokį tokenizavimo metodą naudoja dideli kalbos modeliai?

Dauguma didelių kalbų modelių, įskaitant GPT, BERT, RoBERTa ir T5, naudoja duomenimis pagrįstą požodžių tokenizavimą. GPT modeliai remiasi baitų porų kodavimu, BERT naudoja „WordPiece“, o T5 – „SentencePiece“. Šie metodai leidžia modeliams efektyviai apdoroti retus žodžius ir kelias kalbas.

Ar taisyklėmis pagrįstas tokenizavimas yra greitesnis nei duomenimis pagrįstas tokenizavimas?

Išvados darymo metu abu yra greiti, tačiau taisyklėmis pagrįsti tokenizeriai paprastai naudoja mažiau atminties ir nereikalauja modelio įkėlimo. Didesnis greičio skirtumas pastebimas diegimo metu, nes taisyklėmis pagrįstos sistemos visiškai praleidžia mokymo etapą ir gali būti diegiamos nedelsiant.

Ar duomenimis pagrįstas tokenizavimas gali apdoroti kalbas, kuriomis jis nebuvo apmokytas?

Ne gerai, nebent tokenizeris buvo apmokytas dirbti su daugiakalbiais duomenimis. Tik anglų kalba apmokytas tokenizeris sunkiai susidoros su kinų, arabų ar korėjiečių rašmenimis. Daugiakalbiai tokenizeriai, tokie kaip tie, kurie naudojami XLM-Roberta, yra specialiai apmokyti dirbti su dešimtimis kalbų, kad tai atliktų.

Kas yra baitų porų kodavimas (BPE)?

BPE yra duomenimis pagrįstas subžodžių tokenizavimo algoritmas, kuris pradeda nuo atskirų simbolių ir pakartotinai sujungia dažniausiai pasitaikančias gretimas poras mokymo korpuse. Po tūkstančių sujungimų jis sukuria įprastų subžodžių vienetų žodyną, kuris subalansuoja žodyno dydį su retų žodžių aprėptimi.

Ar taisyklėmis pagrįsti tokenizeriai vis dar veikia šiuolaikinėms NLP užduotims?

Taip, ypač atliekant išankstinio apdorojimo veiksmus, tokius kaip sakinių segmentavimas, skyrybos normalizavimas ir kalbos atpažinimas. Tačiau pagrindiniam modelio įvedimui dauguma šiuolaikinių NLP sistemų renkasi duomenimis pagrįstus tokenizerius, nes jie geriau apibendrina nepažįstamą žodyną.

Kiek mokymo duomenų reikia duomenimis pagrįstam tokenizeriui?

Tai priklauso nuo tikslinio žodyno dydžio ir kalbos aprėpties, tačiau tipiški LLM tokenizeriai yra apmokyti dirbti su bet kokiu teksto dydžiu – nuo kelių gigabaitų iki kelių šimtų gigabaitų. Didesni ir įvairesni korpusai paprastai sukuria tokenizerius, kurie sklandžiau apdoroja retus žodžius ir kraštutinius atvejus.

Ar galiu derinti taisyklėmis pagrįstą ir duomenimis pagrįstą tokenizavimą?

Žinoma, taip ir daro daugelis gamybinių sistemų. Įprastas modelis yra pirmiausia pritaikyti taisyklėmis pagrįstą normalizavimą (mažosios raidės, specialiųjų simbolių pašalinimas, sutrumpinimo išplėtimas), o tada išvalytą tekstą tiekti į duomenimis pagrįstą požodžių žetonų generatorių galutiniam skaidymui.

Kodėl tokenizavimas yra svarbus modelio našumui?

Tokenizavimas lemia, kaip tekstas vaizduojamas skaitmeniniu būdu, o tai tiesiogiai veikia tai, kaip gerai modelis gali išmokti šablonus. Tokenizatorius, kuris sukuria per daug mažų fragmentų, eikvoja konteksto ilgį, o tas, kuris retus žodžius laiko pavieniais žetonais, gali neleisti modeliui apibendrinti. Geras tokenizavimas užtikrina pusiausvyrą tarp žodyno dydžio ir aprėpties.

Kokios yra dažniausios taisyklėmis pagrįstų tokenizerių problemos?

Jie dažnai nesugeba apdoroti tokių trumpinių kaip „nedaryti“, netinkamai apdoroja žodžius su brūkšneliais, sunkiai tvarkosi su jaustukais ir URL adresais, be to, juos reikia nuolat atnaujinti, kai kalbai pridedama naujo žodyno. Jie taip pat linkę duoti nenuoseklius rezultatus skirtingose kalbose, nebent kiekviena turi savo kruopščiai prižiūrimą taisyklių rinkinį.

Nuosprendis

Kurdami modernias NLP arba LLM sistemas, kurios turi apdoroti įvairų žodyną, kelias kalbas arba triukšmingą realaus pasaulio tekstą, rinkitės duomenimis pagrįstą tokenizaciją. Rinkitės taisyklėmis pagrįstą tokenizaciją, kai jums reikia visiško skaidrumo, minimalių skaičiavimo išteklių arba dirbate siauroje srityje, kur rankomis sukurtos taisyklės jau gerai apima kalbą.

Susiję palyginimai

„DeepSeek V4“ ir „GPT-4“ klasės modeliai

„DeepSeek V4“ yra kylantis atvirojo svorio didelių kalbų modelis, sukurtas Kinijos dirbtinio intelekto laboratorijoje, o GPT-4 klasės modeliai nurodo „OpenAI“ flagmanines uždarojo kodo sistemas. Šiame palyginime nagrinėjama jų architektūra, galimybės, kainos, prieinamumas ir našumas realiame pasaulyje, siekiant padėti kūrėjams ir įmonėms išmintingai pasirinkti.

„Google“ paieška ir žinių grafiko paieška

„Google“ paieška yra plataus masto žiniatinklio indeksavimo variklis, kurį dauguma žmonių naudoja kasdien, o „Knowledge Graph Search“ yra „Google“ struktūrizuotų objektų duomenų bazė, kurioje pateikiami tiesioginiai atsakymai ir informacijos skydeliai. Supratimas, kuo jie skiriasi, padeda paaiškinti, kodėl kai kurios užklausos pateikia išsamius faktus, o kitos – tradicines mėlynas nuorodas.

„Google“ paieškos algoritmas ir supaprastinti klasės modeliai

„Google“ paieškos algoritmas reitinguoja milijardus tinklalapių, naudodamas mašininį mokymąsi ir šimtus signalų, o supaprastinti klasių modeliai perteikia dirbtinio intelekto koncepcijas į lengvai mokomas, prieinamas sistemas. Viena sistema veikia planetos mastu gamyboje; kita tarnauja kaip pedagoginis tiltas mokiniams, mokantis, kaip iš tikrųjų veikia dirbtinis intelektas.

„Vienas su vienu“ atitikimas aptikimo ir daugelio su vienu atitikimo metodų srityse

„Vienas su vienu“ atitikimo metodas kiekvienam pagrindiniam objektui priskiria vieną numatomą langelį, o „daugelis su vienu“ atitikimo metodas leidžia kelias prognozes suderinti su vienu taikiniu. Abi strategijos formuoja tai, kaip šiuolaikiniai detektoriai, tokie kaip DETR ir „Faster R-CNN“, mokosi lokalizuoti objektus, kiekvienas iš jų turi skirtingus kompromisus tikslumo, mokymo stabilumo ir pasikartojančių aptikimų tvarkymo srityse.

A/B testavimas modelių aptarnavime ir vieno modelio diegime

A/B testavimas modeliuose nukreipia srautą tarp konkuruojančių modelio versijų, kad būtų galima įvertinti realų našumą, o diegiant vieną modelį visiems vartotojams pateikiamas vienas modelis. Komandos renkasi iš jų pagal rizikos toleranciją, srauto kiekį ir statistinio patvirtinimo poreikį prieš visišką diegimą.