comharthaíochtpróiseáil teanga nádúrthaclaochladáinhalgartaim fho-fhocailintleacht shaorga
Ionchódú Péire Beart vs. Comharthaíocht WordPiece
Is dhá algartam comharthaíochta fo-fhocal a úsáidtear go forleathan iad Byte Pair Encoding agus WordPiece a chumhachtaíonn samhlacha NLP nua-aimseartha, agus difríochtaí iontu go príomha sa chaoi a gcuireann siad comharthaí le chéile le linn oiliúna agus a méadrachtaí scórála.
Suntasanna
Cumascann BPE bunaithe go hiomlán ar chomhaireamh minicíochta agus déanann WordPiece optamú le haghaidh dóchúlacht sonraí oiliúna.
Úsáideann samhlacha GPT BPE ach braitheann BERT agus a chuid malairtí ar chomharthaíocht WordPiece
De ghnáth, bíonn teorainneacha comharthaí níos glaine ó thaobh na teangeolaíochta de ag WordPiece ná BPE atá á thiomáint ag minicíocht.
Réitíonn an dá mhodh an fhadhb lasmuigh den stór focal ach trí chuspóirí optamaithe atá go bunúsach difriúil
Cad é Ionchódú Péire Beart?
Algartam comharthaíochta fo-fhocal a chumasc na péirí carachtar cóngaracha is minice go hathchleachtach i gcomharthaí nua.
Forbraíodh BPE ar dtús i 1994 mar algartam comhbhrú sonraí sular oiriúnaigh Sennrich et al. é do NLP i 2016.
Tosaíonn an algartam le stór focal de charachtair aonair agus cuireann sé an péire comharthaí cóngaracha is minice le chéile arís agus arís eile.
Úsáideann GPT-2, GPT-3, agus RoBERTa comharthaíocht BPE mar chuid dá bpíblínte réamhphróiseála.
Úsáideann BPE comhaireamh minicíochta chun a chinneadh cé na péirí comharthaí atá le cumasc, rud a fhágann go bhfuil sé bunaithe ar shonraí amháin gan samhail teanga.
Is féidir leis an algartam focail lasmuigh den stór focal a tháirgeadh trí iad a dhíchumadh ina n-aonaid fho-fhocal aitheanta, rud a fheabhsaíonn láimhseáil téarmaí neamhchoitianta.
Cad é Comharthaíocht WordPiece?
Modh comharthaíochta fo-fhocal a chumasc comharthaí bunaithe ar uasmhéadú dóchúlachta seachas minicíocht amh.
Forbraíodh WordPiece ar dtús ag Google do chórais chuardaigh gutha Seapánacha agus Cóiréacha sular glacadh leis le haghaidh téacs.
Roghnaíonn an algartam cumaisc a uasmhéadaíonn dóchúlacht na sonraí oiliúna seachas minicíochtaí a chomhaireamh go simplí.
Úsáideann BERT, DistilBERT, agus ALBERT comharthaíocht WordPiece, agus is gnách go mbíonn 30,522 chomhartha i méid stór focal.
Is minic a thosaíonn WordPiece a stór focal chun gach carachtar aonair a áireamh sula dtosaíonn sé ar an bpróiseas cumasc.
Is gnách go dtáirgeann an modh níos lú comharthaí ar leibhéal carachtar do fhocail choitianta i gcomparáid le BPE, rud a fheabhsaíonn éifeachtúlacht.
Tábléad Comparáide
Gné
Ionchódú Péire Beart
Comharthaíocht WordPiece
Critéar Cumaisc
Minicíocht na mbeirteanna cóngaracha
Dóchúlacht sonraí oiliúna
Cásanna Úsáide Príomhúla
Sraith GPT, RoBERTa, CLIP
BERT, Driogaireacht BERT, ALBERT
Túsú Foclóra
Carachtair aonair nó beartáin
Carachtair aonair
Láimhseáil Focal Neamhchoitianta
Roinntear ina aonaid fho-fhocal go minic
Scoilteanna bunaithe ar dheighilt bunaithe ar dóchúlacht
Luas Oiliúna
Go ginearálta níos tapúla mar gheall ar chomhaireamh simplí
Beagán níos moille mar gheall ar ríomh dóchúlachta
Stíl Aschuir Chomhartha
Is minic a bhíonn sé níos gráinní
Is minic a bhíonn sé níos comhdhlúite le haghaidh focail choitianta
Forbairt Bhunaidh
1994 mar chomhbhrú; 2016 le haghaidh NLP
Foireann Aitheantas Urlabhra Google
Comparáid Mhionsonraithe
Fealsúnacht Lárnach Algartam
Tugann BPE faoi chomharthaíocht mar fhadhb chomhbhrúite, ag cumasc go fonnmhar cibé péirí is minice a fheictear sa chorpas oiliúna. Fágann an cur chuige simplí seo atá bunaithe ar mhinicíocht go bhfuil sé iomasach agus réasúnta tapa le ríomh. Glacann WordPiece uillinn níos dóchúla, ag fiafraí cén cumasc a dhéanfadh na sonraí oiliúna is dóichí faoi thoimhde samhail teanga unigram. Mar thoradh ar an aistriú caolchúiseach seo i bhfrámaíocht, bíonn teorainneacha comharthaí éagsúla ann, go háirithe i gcás teangacha atá saibhir ó thaobh moirfeolaíochta de.
Teorainneacha Comharthaí agus Airíonna Teangeolaíocha
Ós rud é go ndéanann BPE minicíocht amháin a shaothrú, uaireanta roinneann sé focail ag pointí atá mínádúrtha ó thaobh na teangeolaíochta de má tharlaíonn gur patrúin choitianta iad sin sna sonraí. Is gnách go mbíonn meas níos fearr ag cur chuige WordPiece atá bunaithe ar dhóchúlacht ar theorainneacha moirféime, rud a chruthaíonn comharthaí a ailíníonn níos dlúithe le haonaid bhríocha. I gcás an Bhéarla, feidhmíonn an dá mhodh ar bhealach cosúil, ach bíonn an difríocht níos suntasaí i dteangacha a bhfuil moirfeolaíocht níos saibhre acu cosúil leis an nGearmáinis nó leis an Tuircis.
Cur i bhFeidhm agus Glasáil Éiceachórais
Is minic a bhíonn an rogha idir na comharthaí seo bunaithe ar an ailtireacht mhúnla atá in úsáid agat seachas rogha dhomhain don algartam féin. Tá teaghlach GPT OpenAI caighdeánaithe ar BPE, mar sin faigheann aon duine a dhéanann na samhlacha seo a choigeartú nó a imscaradh an scéim comharthaíochta sin mar oidhreacht. Dhaingnigh éiceachóras BERT Google WordPiece mar an rogha de facto do mhúnlaí claochladáin ionchódóra amháin. Ciallaíonn an daingniú éiceachórais seo nach mbíonn cleachtóirí ag athrú comharthaí go neamhspleách ar ailtireachtaí mhúnla go minic.
Láimhseáil Cásanna Speisialta
Bíonn deacrachtaí ag an dá algartam le cásanna imeallacha áirithe, ach ar bhealaí difriúla. Is féidir le BPE a bheith leochaileach le spás bán agus poncaíocht, agus uaireanta bíonn comharthaí gan choinne á dtáirgeadh nuair a athraíonn an fhormáidiú. De ghnáth, cuireann WordPiece siombail réimír speisialta (cosúil le ## i BERT) leis chun fofhocail leanúnacha a léiriú, rud a fhágann go bhfuil an téacs bunaidh athchruthaithe níos soiléire ach a thugann isteach freisin déantáin chomharthaíochta a gcaithfidh samhlacha iartheachtacha foghlaim conas a láimhseáil.
Malartacha Nua-Aimseartha agus Éabhlóid
Le blianta beaga anuas, tá forbairt shuntasach feicthe thar an dá algartam. Cuireann SentencePiece creat aontaithe ar fáil ar féidir leis comharthaíocht mhúnla teanga BPE, WordPiece, nó unigram a chur i bhfeidhm le leabharlann aonair. Oibríonn BPE ar leibhéal na ngiotán (a úsáidtear i GPT-2) ar ghiotáin amha seachas ar charachtair Unicode, rud a chuireann deireadh le saincheisteanna comharthaí anaithnide go hiomlán. Idir an dá linn, tugann cur chuige níos nuaí cosúil le titim amach BPE stocastacht isteach le linn oiliúna chun feabhas a chur ar dhianacht. Léiríonn na forbairtí seo, cé go bhfuil BPE agus WordPiece fós bunúsach, go leanann an réimse ag dul chun cinn.
Buntáistí & Mí-bhuntáistí
Ionchódú Péire Beart
Buntáistí
+Simplí agus iomasach le tuiscint
+Oiliúint thapa le ríomhaireacht íosta
+Oibríonn sé go maith le hionchuir ar leibhéal na mbait
+Tacaítear go forleathan i leabharlanna nua-aimseartha
+Láimhseálann sé aon téacs Unicode
Taispeáin
−Is féidir scoilteadh ag teorainneacha aisteacha ó thaobh na teanga de
−Íogair do chlaonadh minicíochta corpus oiliúna
−Gan aon mhúnla teanga follasach le linn na hoiliúna
−D’fhéadfadh sé go ndéanfaí ró-roinnt ar théarmaí teicniúla neamhchoitianta
−Is féidir go mbeidh láimhseáil spás bán neamhréireach
Comharthaíocht WordPiece
Buntáistí
+Ailíniú níos fearr le teorainneacha moirféime
+Uasmhéadú follasach bunaithe ar dhóchúlacht
+Glan marcóirí leanúnachais leis an réimír ##
+Uirlisí aibí i TensorFlow agus Hugging Face
+Éifeachtach le haghaidh focail choitianta i sonraí oiliúna
Taispeáin
−Ceanglaithe go dlúth le héiceachóras BERT
−Ríomhaireacht oiliúna beagán níos moille
−Cuireann siombailí réimír castacht chomharthaíochta leis
−Níos lú solúbthachta le haghaidh sonraí neamhthéacsacha cosúil le cód
−Is féidir leis an stór focal a bheith ró-ard le réimíreanna neamhchoitianta
Coitianta Míthuiscintí
Miotas
Bíonn comharthaíochtaí difriúla ag BPE agus WordPiece i gcónaí don téacs céanna.
Réaltacht
I gcás go leor focal coitianta Béarla, tagann an dá algartam le chéile i ndáiríre ar dheighiltí comhionanna nó beagnach comhionanna. Bíonn na difríochtaí níos soiléire le focail neamhchoitianta, téarmaí atá casta ó thaobh moirfeolaíochta de, agus i dteangacha a bhfuil patrúin infhillte níos saibhre acu ná an Béarla.
Miotas
Úsáideann WordPiece líonra néarach le linn comharthaíochta.
Réaltacht
In ainneoin a úsáide i samhlacha néaracha, níl WordPiece féin bunaithe ar chor ar bith ar néaróg. Tá an ríomh dóchúlachta bunaithe ar staitisticí minicíochta unigram simplí, ní ar aon léiriú néarach foghlamtha. Níl sa 'mhúnla teanga' i WordPiece ach tábla minicíochta, ní claochladán ná líonra athfhillteach.
Miotas
Ní féidir le BPE déileáil le teangacha a bhfuil tacair mhóra carachtar acu cosúil leis an tSínis.
Réaltacht
Tugann BPE ar leibhéal na mbeart aghaidh go sonrach ar seo trí oibriú ar bhearta UTF-8 amha seachas ar charachtair. Ciallaíonn sé seo gur féidir leis aon téacs Unicode a léiriú gan teacht ar charachtar anaithnid riamh, cé go mb’fhéidir go mbeadh níos mó comharthaí ag teastáil chun é sin a dhéanamh i gcás scripteanna ina bhfuil na mílte carachtar.
Miotas
Bíonn tionchar suntasach ag an rogha comharthaí ar fheidhmíocht an mhúnla ar thascanna iartheachtacha.
Réaltacht
Cé go bhfuil tábhacht le comharthaíocht, is gnách go mbíonn tábhacht níos lú ag baint le hailtireacht an mhúnla agus le scála sonraí oiliúna ná le rogha an chomharthaí. Léirigh staidéir go bhfeidhmíonn BPE agus WordPiece go comparáideach nuair a bhíonn na fachtóirí eile go léir cothrom, agus is gnách go mbíonn na difríochtaí beag agus ag brath ar an tasc.
Miotas
Cruthaíodh WordPiece go sonrach do BERT.
Réaltacht
Tá WordPiece roinnt blianta níos sine ná BERT. D'fhorbair Google é ar dtús le haghaidh cuardaigh gutha Seapáinise agus Cóiré go luath sna 2010idí, agus ina dhiaidh sin rinne sé oiriúnú air le haghaidh aistriúcháin meaisín néarach sular tháinig sé chun solais i BERT riamh. Tá an bhaint le BERT láidir toisc gur chuir BERT clú agus cáil air i measc phobal taighde NLP.
Miotas
Ní bhíonn tábhacht le méid stór focal BPE chomh fada agus atá sé mór go leor.
Réaltacht
Bíonn tionchar suntasach ag méid an fhoclóra ar fheidhmíocht an mhúnla agus ar éifeachtúlacht ríomhaireachtúil araon. Má bhíonn sé róbheag, cuireann an tsamhail amú acmhainn ar sheichimh fhada comharthaí. Má bhíonn sé rómhór, bíonn maitrísí leabaithe neamhláimhsithe agus bíonn droch-ionadaíochtaí ag comharthaí neamhchoitianta. Déanann formhór na gcleachtóirí an hipearpharaiméadar seo a choigeartú go cúramach, ag socrú idir 30,000 agus 50,000 comhartha de ghnáth.
Frequently Asked Questions
Cad é an príomhdhifríocht idir BPE agus WordPiece?
Tá an difríocht bhunúsach sa chaoi a gcinneann siad cé na péirí comharthaí atá le cumasc le linn na hoiliúna. Ní dhéanann BPE ach comhaireamh a dhéanamh ar cé chomh minic a thagann péirí le chéile agus cumasc an péire is minice. Ina áit sin, ríomhann WordPiece cé acu cumasc a uasmhéadódh dóchúlacht na sonraí oiliúna faoi mhúnla unigram. Ciallaíonn sé seo go bhfuil BPE tiomáinte ag minicíocht amháin agus go n-ionchorpraíonn WordPiece critéar dóchúlachta a bhíonn i gceist le teorainneacha níos bríúla ó thaobh na teangeolaíochta de.
Cén fáth a n-úsáideann GPT BPE agus a n-úsáideann BERT WordPiece?
Léiríonn na roghanna seo na grúpaí taighde éagsúla agus a gcomhthéacsanna stairiúla seachas riachtanas teicniúil domhain. Fuair líneáil GPT OpenAI BPE mar oidhreacht ó obair níos luaithe ar chomhbhrú ar leibhéal na mbeart agus fuarthas amach go raibh sé éifeachtach dá gcur chuige samhaltú teanga giniúnach. Bhí WordPiece forbartha ag foireann BERT Google cheana féin dá gcórais urlabhra agus aistriúcháin, mar sin chuir siad a n-uirlisí reatha i bhfeidhm go nádúrtha. Oibríonn an dá cheann go maith go leor nár mhothaigh ceachtar grúpa go raibh orthu athrú.
An féidir le BPE agus WordPiece teangacha nach n-úsáideann spásanna idir focail a láimhseáil?
Sea, oibríonn an dá algartam go breá gan spás bán, cé go bhféadfadh siad deighiltí nach bhfuil chomh hintuigthe a tháirgeadh. Ós rud é go n-oibríonn an dá cheann ar sheichimh carachtar nó beart, ní bhriseann easpa spásanna iad. Mar sin féin, is minic a bhaineann teangacha cosúil leis an Téalainnis, an tSínis, nó an tSeapáinis leas as réamh-dheighilt nó réamhphróiseáil speisialaithe toisc nach bhféadfadh cumasc staitistiúil amháin a bheith ag teacht le hintuigthe cainteoirí dúchais faoi theorainneacha focal.
Conas a roghnaím idir BPE agus WordPiece le haghaidh tionscadail nua?
Go praiticiúil, is annamh a roghnaíonn tú go neamhspleách ar ailtireacht do mhúnla. Má tá tú ag mínchoigeartú GPT-2, GPT-3, nó RoBERTa, ní mór duit a gcomharthaí BPE a úsáid chun comhoiriúnacht a choinneáil. I gcás samhlacha bunaithe ar BERT, tá WordPiece ag teastáil. Má tá tú ag tógáil ón tús, smaoinigh go bhfuil BPE beagán níos simplí le cur i bhfeidhm agus le dífhabhtú, agus go bhféadfadh WordPiece scoilteanna teangeolaíocha beagán níos glaine a thabhairt. Ligeann leabharlanna nua-aimseartha cosúil le SentencePiece duit triail a bhaint as an dá cheann go héasca.
Cén méid stór focal ba chóir dom a úsáid le BPE nó WordPiece?
Úsáideann formhór na samhlacha NLP nua-aimseartha idir 30,000 agus 50,000 comhartha, agus 32,000 agus 50,000 mar réamhshocruithe coitianta go háirithe. Éilíonn stór focal níos lú níos mó scoilteadh fofhocal, rud a mhéadaíonn fad an tseicheamh ach a thugann láimhseáil níos fearr ar théarmaí neamhchoitianta. Laghdaíonn stór focal níos mó fad an tseicheamh ach teastaíonn maitrísí leabaithe níos mó uathu agus d’fhéadfadh deacrachtaí a bheith acu le comharthaí an-neamhchoitianta. Braitheann an pointe milis ar do theanga, ar mhéid an chorpais, agus ar bhuiséad ríomhaireachtúil.
An féidir leis na comharthaí seo emojis, cód, nó téacs neamhchaighdeánach eile a láimhseáil?
Déileálann BPE ar leibhéal na mbeart leis seo go láidir toisc go n-oibríonn sé ar bhearta amha seachas ar shraitheanna carachtar réamhshainithe. D’fhéadfadh BPE caighdeánach agus WordPiece teip ar charachtair Unicode neamhchoitianta mura n-áirítear iad go sainráite ina stór focal tosaigh. Úsáideann formhór na gcur i bhfeidhm táirgeachta clúdach ar leibhéal na mbeart nó clúdach Unicode leathnaithe anois chun fadhbanna comharthaí anaithnide a sheachaint le téacs meán sóisialta, cód foinse agus ábhar ilteangach.
Cad is SentencePiece ann agus cén bhaint atá aige le BPE agus WordPiece?
Is leabharlann comharthaíochta foinse oscailte ó Google í SentencePiece a sholáthraíonn cur i bhfeidhm aontaithe d'algartaim éagsúla fo-fhocal, lena n-áirítear comharthaíocht samhail teanga BPE, WordPiece, agus unigram. Láimhseálann sé réamh-chomharthaíocht, normalú, agus oiliúint stór focal in aon uirlis amháin. Seachas a bheith ina algartam ar leith, smaoinigh air mar chreat solúbtha a ligeann duit do straitéis comharthaíochta is fearr leat a roghnú agus a chumrú le comhéadain chomhsheasmhacha.
An bhfuil tábhacht fós ag baint le BPE agus WordPiece le samhlacha teanga móra nua-aimseartha?
Go hiomlán. In ainneoin scála ollmhór samhlacha cosúil le GPT-4, Claude, agus Gemini, braitheann siad go léir ar chomharthaíocht fo-fhocal mar bhunús leo. Féadfaidh an algartam sonrach a bheith éagsúil, agus déanann roinnt samhlacha nua turgnamh le cineálacha malartacha cur chuige, ach is é an dúshlán lárnach maidir le téacs de fhaid athraitheach a léiriú i spásanna stór focal de mhéid sheasta fós uilíoch. Soláthraíonn tuiscint ar BPE agus WordPiece tuiscint riachtanach ar an gcaoi a bpróiseálann na samhlacha seo teanga.
Cén fáth a mbíonn earráidí comharthaíochta ina gcúis le hiompar chomh mearbhall sin i samhlacha teanga?
Tarlaíonn comharthaíocht sula bhfeiceann an líonra néarónach an téacs riamh, mar sin bíonn aon aisteachas i gcaoi a roinntear teaghráin bácáilte isteach in ionadaíocht ionchuir an mhúnla. Is féidir leas a bhaint as samhlacha freisin trí airteagail chomharthaíochta, áit a seachnaíonn teaghráin atá déanta go speisialta scagairí sábháilteachta trína gcomharthaíocht ar bhealaí gan choinne. Fágann sé seo go bhfuil dearadh comharthaíochta láidir thar a bheith tábhachtach d’iontaofacht agus do shlándáil an mhúnla.
An bhfuil bealach ann chun a shamhlú conas a dhéanann BPE nó WordPiece téacs ar leith a chomharthaíocht?
Sea, cuireann formhór na leabharlanna NLP nua-aimseartha uirlisí ar fáil chuige seo. Cuimsíonn leabharlann Hugging Face Transformers na modhanna tokenizer.decode agus tokenizer.convert_ids_to_tokens a thaispeánann go díreach conas a roinntear téacs. Tá uirlisí léirshamhlaithe gréasánbhunaithe ann freisin inar féidir leat téacs a ionchur agus teorainneacha na gcomharthaí a fheiceáil aibhsithe. Tá siad seo thar a bheith luachmhar chun iompar samhail gan choinne a dhífhabhtú agus chun tuiscint a fháil ar an gcúis a gcuireann ionchuir áirithe mearbhall ar do chóras.
Cén difríocht atá idir titim amach BPE agus BPE caighdeánach?
Tugadh isteach BPE-dropout in 2020, agus seachnaítear roinnt oibríochtaí cumaisc go randamach le linn oiliúna le dóchúlacht áirithe. Cruthaíonn sé seo il-chomharthaí bailí don fhocal céanna, rud a fheidhmíonn mar chineál méadaithe sonraí. Éiríonn an tsamhail mar thoradh air sin níos láidre i leith athruithe ar chomharthaí agus feidhmíonn sé níos fearr i gcoitinne ar thascanna iartheachtacha, go háirithe le sonraí oiliúna teoranta. Is feabhsú simplí ach éifeachtach é ar an algartam clasaiceach BPE.
An féidir liom comharthaí BPE agus WordPiece a mheascadh sa phíblíne chéanna?
Go teicniúil indéanta ach go praiticiúil neamh-inmholta. Táirgeann comharthaí éagsúla aitheantóirí comharthaí agus mapálacha stór focal neamh-chomhoiriúnacha, mar sin bheadh sraitheanna ailínithe cúramach nó céimeanna ath-thocánaithe ag teastáil chun iad a mheascadh a laghdaíonn feidhmíocht de ghnáth. Más gá duit samhlacha a chomhcheangal ag baint úsáide as comharthaí éagsúla, is é an cur chuige caighdeánach ná ceann amháin a athoiliúint nó a oiriúnú chun meaitseáil leis an gceann eile, nó comharthaíoir aontaithe cosúil le SentencePiece a úsáid do na comhpháirteanna go léir ón tús.
Breithiúnas
Roghnaigh BPE agus tú ag obair le samhlacha stíl GPT nó nuair is gá duit comharthaíocht shimplí, thapa a láimhseálann téacs éagsúil lena n-áirítear cód agus sonraí ilteangacha. Roghnaigh WordPiece agus tú ag tógáil ar ailtireachtaí bunaithe ar BERT nó nuair is mian leat teorainneacha comharthaí atá níos ailínithe le moirféimí teangeolaíocha. I gcás fhormhór na gcleachtóirí, is é an tsamhail réamh-oiliúna a roghnaíonn tú a dhéanann an cinneadh go héifeachtach.