žetonų išdavimasNLPnatūralios kalbos apdorojimasmašininis mokymasisdirbtinis intelektas
Duomenimis pagrįstas tokenizavimas ir taisyklėmis pagrįstas tokenizavimas
Duomenimis pagrįstas tokenizavimas išmoksta skaidymo taisykles iš didelių teksto korpusų naudodamas statistinius arba neuroninius metodus, o taisyklėmis pagrįstas tokenizavimas remiasi rankomis sukurtais lingvistiniais modeliais ir žodynais. Abu metodai skaido tekstą į prasmingus vienetus, tačiau jie labai skiriasi lankstumu, tikslumu ir skaičiavimo reikalavimais.
Akcentai
Duomenimis pagrįsti tokenizeriai mokosi iš teksto, o taisyklėmis pagrįsti tokenizeriai vadovaujasi rankomis sukurtais šablonais.
Tokie žodžių paieškos metodai kaip BPE ir WordPiece apdoroja nežinomus žodžius daug sklandžiau nei žodynų paieškos.
Taisyklėmis pagrįstos sistemos siūlo visišką interpretuojamumą ir nulines mokymo išlaidas, idealiai tinka nuspėjamoms sritims.
Šiuolaikiniai dideli kalbų modeliai beveik išimtinai naudoja duomenimis pagrįstą tokenizaciją savo įvesties kanalams.
Kas yra Duomenimis pagrįstas žetonų generavimas?
Mašininio mokymosi metodas, kuris automatiškai atranda žetonų ribas analizuodamas didelių teksto duomenų rinkinių modelius.
Algoritmai segmentavimo taisykles mokosi iš mokymo korpusų, o ne pasikliauja rankiniu būdu parašytais šablonais.
Į šią kategoriją patenka tokie požodžių metodai kaip baitų porų kodavimas (BPE), „WordPiece“ ir „Unigram Language Model“.
Šiuolaikiniai dideli kalbų modeliai, įskaitant GPT ir BERT, naudoja duomenimis pagrįstus tokenizerius, apmokytus šimtams gigabaitų teksto.
Šie tokenizeriai grakščiai tvarko iš žodyno iškritusius žodžius, suskaidydami retus terminus į pažįstamus šalutinius žodžius.
Našumas gerėja didėjant mokymo duomenų dydžiui ir įvairovei.
Kas yra Taisyklėmis pagrįstas žetonų kūrimas?
Tradicinis metodas, kai tekstas skaidomas naudojant iš anksto nustatytas kalbines taisykles, reguliariąsias išraiškas ir kuruojamus žodžių sąrašus.
Žetonų ribos nustatomos pagal rankinius šablonus, tokius kaip tarpai, skyryba ir morfologinės taisyklės.
Tokios bibliotekos kaip NLTK „word_tokenize“ ir „spaCy“ taisyklėmis pagrįsti vamzdynai yra plačiai naudojami pavyzdžiai.
Šios sistemos dažnai naudoja žodynus ir afiksų sąrašus, kad apdorotų žodžių formas konkrečiomis kalbomis.
Elgesys yra visiškai nuspėjamas ir lengvai patikrinamas, nes kiekviena taisyklė yra aiškiai parašyta.
Jiems nereikia jokių mokymo duomenų ir juos galima diegti iš karto, kai tik apibrėžiamos taisyklės.
Palyginimo lentelė
Funkcija
Duomenimis pagrįstas žetonų generavimas
Taisyklėmis pagrįstas žetonų kūrimas
požiūris
Mokosi iš didelių tekstinių korpusų, naudodamas statistinius arba neuroninius metodus
Naudoja rankomis sukurtas taisykles, reguliariųjų išraiškų šablonus ir žodynus
Reikalingas mokymas
Taip, reikia daug anotuotų arba neapdorotų tekstinių duomenų
Ne, taisykles kūrėjai rašo rankiniu būdu
Nežinomų žodžių tvarkymas
Suskaido retus žodžius į žinomus šalutinius žodžių vienetus
Dažnai nepavyksta arba reikia rankiniu būdu atnaujinti žodyną
Aiškinamasis aspektas
Mažesnis, nes išmokti modeliai yra įterpti į modelio svorius
Aukšta, kiekvieną taisyklę galima perskaityti ir patikrinti
Prisitaikymas prie naujų kalbų
Lengvai perkvalifikuojamas naudojant naujus korpusus
Reikia kurti naujus taisyklių rinkinius nuo nulio
Skaičiavimo kaina
Didesnis treniruočių metu, greitas išvados darymo metu
Žemas bendras vaizdas, veikia su minimaliu aparatinės įrangos poreikiu
GPT, BERT, RoBERTa, T5 ir dauguma šiuolaikinių LLM
NLTK, „spaCy“ taisyklių srautai, senosios NLP sistemos
Išsamus palyginimas
Kaip jie skaido tekstą
Duomenimis pagrįsti žetonų generatoriai analizuoja dažnių modelius milijonuose sakinių, kad nuspręstų, kur baigiasi vienas žetonas, o prasideda kitas. Pavyzdžiui, BPE pradeda nuo atskirų simbolių ir pakartotinai sujungia dažniausias gretimas poras, kol pasiekiamas tikslinis žodyno dydis. Tuo tarpu taisyklėmis pagrįsti žetonų generatoriai taiko fiksuotą operacijų seką, pvz., skaidymą pagal tarpus, skyrybos ženklų šalinimą arba priesagų, tokių kaip „-ing“ ir „-ed“, pašalinimą, remiantis iš anksto nustatytomis morfologinėmis lentelėmis.
Darbas su retais ir nežinomais žodžiais
Vienas didžiausių duomenimis pagrįstų metodų privalumų yra grakštus žodžių, kurių modelis niekada nematė, tvarkymas. Retas medicininis terminas, pvz., „pneumonoultramikroskopinė silikovulkanokoniozė“, yra suskaidomas į pažįstamus potekstės fragmentus, kuriuos modelis jau supranta. Taisyklėmis pagrįstos sistemos paprastai aptinka tokius žodžius, palikdamos juos kaip vieną per didelį raktą arba visiškai išmesdamos, nebent kas nors rankiniu būdu juos įtraukia į žodyną.
Skaidrumas ir derinimas
Taisyklėmis pagrįsti tokenizeriai laimi dėl skaidrumo. Kūrėjas gali atidaryti taisyklių failą, tiksliai perskaityti, kaip tekstas yra skaidomas, ir atsekti bet kokią netikėtą išvestį iki konkretaus šablono. Duomenimis pagrįsti tokenizeriai elgiasi labiau kaip juodosios dėžės, kur ta pati įvestis visada sukuria tą pačią išvestį, tačiau norint paaiškinti, kodėl buvo pasirinktas konkretus skaidymas, reikia patikrinti mokymo statistiką arba modelio vidines funkcijas.
Išteklių reikalavimai
Duomenimis pagrįsto tokenizerio mokymui reikia daug skaičiavimo ir saugyklos išteklių, dažnai apdorojant dešimtis gigabaitų teksto, kad būtų sukurtas kokybiškas žodynas. Apmokytas, išvados daromos greitai, o tokenizerio failas yra mažas. Taisyklėmis pagrįstiems tokenizeriams sukurti ar paleisti beveik nereikia išteklių, todėl jie patrauklūs mažo delsos sistemoms, įterptiesiems įrenginiams arba projektams, kuriuose nėra mokymo infrastruktūros.
Kalbų aprėptis
Duomenimis pagrįsti metodai natūraliai pritaikomi naujoms kalboms, tiesiog perkvalifikuojant juos naujame korpuse, todėl daugiakalbiai modeliai, tokie kaip XLM-Roberta, gali aprėpti dešimtis kalbų vienu tokenizeriu. Taisyklėmis pagrįstos sistemos reikalauja lingvistinės patirties kiekvienai naujai kalbai, nes afiksų taisykles, simbolių klases ir žodžių sąrašus turi kurti žmogus, gerai išmanantis morfologiją.
Tikslumas praktikoje
Šiuolaikinėse NLP užduotyse duomenimis pagrįsti tokenizeriai nuolat pranoksta taisyklėmis pagrįstus lyginamuosius testus, kuriuose dalyvauja triukšmingas tekstas, socialinė žiniasklaida ar kodas. Taisyklėmis pagrįsti tokenizeriai vis dar laikosi gerai struktūrizuotose srityse, tokiose kaip teisiniai dokumentai ar formalus rašymas, kur nuspėjamas skaidymas ir žmonėms skaitomos taisyklės yra svarbesnės nei kraštutinių atvejų tvarkymas.
Privalumai ir trūkumai
Duomenimis pagrįstas žetonų generavimas
Privalumai
+Apdoroja nežinomus žodžius
+Pritaikoma naujoms kalboms
+Didelis tikslumas
+Mokosi iš duomenų
Pasirinkta
−Reikia mokymo duomenų
−Mažiau interpretuojama
−Didesnė įrengimo kaina
−Sudėtinga derinti
Taisyklėmis pagrįstas žetonų kūrimas
Privalumai
+Visiškai skaidrus
+Mokymų nereikia
+Mažos skaičiavimo išlaidos
+Lengva pritaikyti
Pasirinkta
−Kovoja su retais žodžiais
−Rankinio kalbos darbas
−Ribotas prisitaikymas
−Sunku pritaikyti mastelį
Dažni klaidingi įsitikinimai
Mitas
Taisyklėmis pagrįstas tokenizavimas yra pasenęs ir nebenaudojamas šiuolaikiniame dirbtiniame intelekte.
Realybė
Taisyklėmis pagrįsti tokenizeriai išlieka įprasti gamybiniuose NLP srautuose, ypač atliekant išankstinio apdorojimo veiksmus, tokius kaip sakinių skaidymas, normalizavimas ir kalbos aptikimas. Daugelyje šiuolaikinių sistemų derinami taisyklėmis pagrįsti ir duomenimis pagrįsti metodai, o ne keičiami vienas kitu.
Mitas
Duomenimis pagrįstas tokenizavimas visada duoda geresnių rezultatų nei taisyklėmis pagrįsti metodai.
Realybė
Kokybė labai priklauso nuo mokymo korpuso ir užduoties. Prastai apmokytas duomenimis pagrįstas tokenizeris gali veikti blogiau nei gerai suderintas taisyklėmis pagrįstas, ypač dirbant su konkrečiai sričiai skirtu tekstu, kai mokymo duomenys neatitinka tikslinio skirstinio.
Mitas
Tokenizavimas yra tiesiog teksto padalijimas tarpais.
Realybė
Realaus pasaulio tokenizeriai tvarko skyrybos ženklus, trumpinius, daugiažodžius posakius, jaustukus ir subžodžių vienetus. Paprastas tarpų padalijimas praleidžia didžiąją dalį sudėtingumo, kurį tokenizeriai yra skirti išspręsti.
Mitas
Kartą apmokyto duomenimis pagrįsto tokenizerio niekada nereikia atnaujinti.
Realybė
Žodynas kinta kalbai vystantis, atsirandant naujam slengui ir konkrečioms sritims būdingiems terminams. Daugelis komandų periodiškai perkvalifikuoja arba plečia savo tokenizerius, kad neatsiliktų nuo kintančio teksto pasiskirstymo.
Mitas
Visi šiuolaikiniai LLM naudoja tą patį tokenizerį.
Realybė
Skirtingos modelių šeimos naudoja skirtingas žetonų išrašymo schemas. GPT modeliai naudoja BPE, BERT – WordPiece, o T5 – SentencePiece. Šie pasirinkimai išmatuojamais būdais turi įtakos žodyno dydžiui, žetonų skaičiui ir tolesniam našumui.
Dažnai užduodami klausimai
Kuo pagrindinis skirtumas tarp duomenimis pagrįsto ir taisyklėmis pagrįsto tokenizavimo?
Duomenimis pagrįstas tokenizavimas automatiškai išmoksta skaidymo taisykles iš didelių teksto korpusų, naudodamas tokius algoritmus kaip BPE ar WordPiece. Taisyklėmis pagrįstas tokenizavimas taiko kūrėjų sukurtus šablonus, reguliariąsias išraiškas ir žodynus. Pirmasis prisitaiko per mokymą, o antrasis remiasi aiškiomis lingvistinėmis žiniomis.
Kokį tokenizavimo metodą naudoja dideli kalbos modeliai?
Dauguma didelių kalbų modelių, įskaitant GPT, BERT, RoBERTa ir T5, naudoja duomenimis pagrįstą požodžių tokenizavimą. GPT modeliai remiasi baitų porų kodavimu, BERT naudoja „WordPiece“, o T5 – „SentencePiece“. Šie metodai leidžia modeliams efektyviai apdoroti retus žodžius ir kelias kalbas.
Ar taisyklėmis pagrįstas tokenizavimas yra greitesnis nei duomenimis pagrįstas tokenizavimas?
Išvados darymo metu abu yra greiti, tačiau taisyklėmis pagrįsti tokenizeriai paprastai naudoja mažiau atminties ir nereikalauja modelio įkėlimo. Didesnis greičio skirtumas pastebimas diegimo metu, nes taisyklėmis pagrįstos sistemos visiškai praleidžia mokymo etapą ir gali būti diegiamos nedelsiant.
Ar duomenimis pagrįstas tokenizavimas gali apdoroti kalbas, kuriomis jis nebuvo apmokytas?
Ne gerai, nebent tokenizeris buvo apmokytas dirbti su daugiakalbiais duomenimis. Tik anglų kalba apmokytas tokenizeris sunkiai susidoros su kinų, arabų ar korėjiečių rašmenimis. Daugiakalbiai tokenizeriai, tokie kaip tie, kurie naudojami XLM-Roberta, yra specialiai apmokyti dirbti su dešimtimis kalbų, kad tai atliktų.
Kas yra baitų porų kodavimas (BPE)?
BPE yra duomenimis pagrįstas subžodžių tokenizavimo algoritmas, kuris pradeda nuo atskirų simbolių ir pakartotinai sujungia dažniausiai pasitaikančias gretimas poras mokymo korpuse. Po tūkstančių sujungimų jis sukuria įprastų subžodžių vienetų žodyną, kuris subalansuoja žodyno dydį su retų žodžių aprėptimi.
Ar taisyklėmis pagrįsti tokenizeriai vis dar veikia šiuolaikinėms NLP užduotims?
Taip, ypač atliekant išankstinio apdorojimo veiksmus, tokius kaip sakinių segmentavimas, skyrybos normalizavimas ir kalbos atpažinimas. Tačiau pagrindiniam modelio įvedimui dauguma šiuolaikinių NLP sistemų renkasi duomenimis pagrįstus tokenizerius, nes jie geriau apibendrina nepažįstamą žodyną.
Kiek mokymo duomenų reikia duomenimis pagrįstam tokenizeriui?
Tai priklauso nuo tikslinio žodyno dydžio ir kalbos aprėpties, tačiau tipiški LLM tokenizeriai yra apmokyti dirbti su bet kokiu teksto dydžiu – nuo kelių gigabaitų iki kelių šimtų gigabaitų. Didesni ir įvairesni korpusai paprastai sukuria tokenizerius, kurie sklandžiau apdoroja retus žodžius ir kraštutinius atvejus.
Ar galiu derinti taisyklėmis pagrįstą ir duomenimis pagrįstą tokenizavimą?
Žinoma, taip ir daro daugelis gamybinių sistemų. Įprastas modelis yra pirmiausia pritaikyti taisyklėmis pagrįstą normalizavimą (mažosios raidės, specialiųjų simbolių pašalinimas, sutrumpinimo išplėtimas), o tada išvalytą tekstą tiekti į duomenimis pagrįstą požodžių žetonų generatorių galutiniam skaidymui.
Kodėl tokenizavimas yra svarbus modelio našumui?
Tokenizavimas lemia, kaip tekstas vaizduojamas skaitmeniniu būdu, o tai tiesiogiai veikia tai, kaip gerai modelis gali išmokti šablonus. Tokenizatorius, kuris sukuria per daug mažų fragmentų, eikvoja konteksto ilgį, o tas, kuris retus žodžius laiko pavieniais žetonais, gali neleisti modeliui apibendrinti. Geras tokenizavimas užtikrina pusiausvyrą tarp žodyno dydžio ir aprėpties.
Kokios yra dažniausios taisyklėmis pagrįstų tokenizerių problemos?
Jie dažnai nesugeba apdoroti tokių trumpinių kaip „nedaryti“, netinkamai apdoroja žodžius su brūkšneliais, sunkiai tvarkosi su jaustukais ir URL adresais, be to, juos reikia nuolat atnaujinti, kai kalbai pridedama naujo žodyno. Jie taip pat linkę duoti nenuoseklius rezultatus skirtingose kalbose, nebent kiekviena turi savo kruopščiai prižiūrimą taisyklių rinkinį.
Nuosprendis
Kurdami modernias NLP arba LLM sistemas, kurios turi apdoroti įvairų žodyną, kelias kalbas arba triukšmingą realaus pasaulio tekstą, rinkitės duomenimis pagrįstą tokenizaciją. Rinkitės taisyklėmis pagrįstą tokenizaciją, kai jums reikia visiško skaidrumo, minimalių skaičiavimo išteklių arba dirbate siauroje srityje, kur rankomis sukurtos taisyklės jau gerai apima kalbą.