Is iad meicníochtaí airde a chumhachtaíonn AI nua-aimseartha i bhfís ríomhaireachta agus i bpróiseáil teanga nádúrtha araon, ach freastalaíonn siad ar chuspóirí difriúla agus d'fhorbair siad ar chosáin éagsúla. Cuidíonn aird radhairc le samhlacha díriú ar réigiúin íomhá ábhartha, agus cumasaíonn aird NLP tuiscint ar chaidrimh focal i seichimh téacs.
Suntasanna
Díríonn aird radhairc ar réigiúin spásúla agus gabhann aird NLP caidrimh chomharthacha trasna seichimh.
Tháinig aird ar NLP roimh aird ar fhís, agus spreag ailtireacht Transformer Vision Transformers blianta ina dhiaidh sin.
Úsáideann samhlacha fís leabaithe suímh 2T ach braitheann samhlacha NLP ar fhaisnéis suímh 1T.
Déanann aird tras-cheangail an dá réimse a nascadh anois, rud a chuireann ar chumas córais chumhachtacha ilmhódacha AI cosúil le CLIP agus GPT-4V.
Cad é Meicníochtaí Aird sa Radharc?
Teicnící a ligeann do mhúnlaí radhairc díriú go roghnach ar réigiúin nó gnéithe spásúla tábhachtacha laistigh d’íomhánna agus de fhíseáin.
Roinneann Claochladáin Fís (ViT) íomhánna ina bpaistí agus cuireann siad féinaird i bhfeidhm, ag baint amach torthaí den scoth ar ImageNet.
Cuidíonn aird spásúil le samhlacha a aithint cé na codanna d'íomhá is tábhachtaí i gcás tascanna cosúil le braiteadh agus deighilt réad.
Athchalabraíonn aird chainéil, a rinneadh coitianta de bharr líonraí Squeeze-and-Excitation, freagairtí gné ar fud chainéil scagaire.
Is minic a sháraíonn samhlacha radhairc atá bunaithe ar aird CNNanna nuair a bhíonn dóthain sonraí oiliúna ar fáil, de ghnáth na milliúin íomhánna.
Déanann tras-aird i samhlacha teanga radhairc cosúil le CLIP paistí íomhá a ailíniú le comharthaí téacs chun tuiscint ilmhódach a fháil.
Cad é Aird i NLP?
Modhanna a chuireann ar chumas samhlacha teanga tábhacht focal agus comharthaí éagsúla a mheá agus sonraí téacs seicheamhacha á bpróiseáil.
Braitheann ailtireacht an Transformer, a tugadh isteach in 2017, go hiomlán ar fhéin-aird agus rinne sí réabhlóidiú ar NLP.
Ligeann féin-aird do gach comhartha i seicheamh aire a thabhairt do gach comhartha eile, ag gabháil spleáchais fhadtéarmacha.
Ritheann aird ilchinn roinnt oibríochtaí airde go comhthreomhar, rud a ligeann do mhúnlaí díriú ar chineálacha éagsúla caidrimh ag an am céanna.
Cinntíonn masc cúiseach i samhlacha díchódóra cosúil le GPT nach bhfreastalaíonn gach comhartha ach ar chomharthaí roimhe seo le linn giniúint téacs.
Tháinig meicníochtaí airde in ionad RNNanna agus LSTManna mar an cur chuige ceannasach le haghaidh aistriúcháin, achoimrithe agus samhaltú teanga.
Tábléad Comparáide
Gné
Meicníochtaí Aird sa Radharc
Aird i NLP
Cineál Ionchuir Príomhúil
Íomhánna, frámaí físe, nó paistí amhairc
Comharthaí téacs, focail, nó aonaid fho-fhocal
Gráinneacht Aird
Réigiúin spásúla, paistí, nó bealaí gné
Caidrimh chomhartha go comhartha trasna seichimh
Ailtireacht Bhunaidh
Trasfhoirmeoir Fís (ViT), DETR, SE-Net
Ionchódóir-díchódóir Bunaidh Claochladáin (Vaswani et al., 2017)
Castacht Ríomhaireachtúil
Cearnógach le réiteach íomhá; laghdaíonn modhanna bunaithe ar phaistí costas
Cearnógach le fad seicheamh; tá athróga airde gann ann
De ghnáth ní bhíonn aon chumhdach cúiseach ann; is gnách go mbíonn aird déthreoch ann
Masc cúiseach le haghaidh díchódóirí; déthreoch le haghaidh ionchódóirí
Faisnéis Suímh
Leabaithe suímh 2T le haghaidh struchtúr spásúil
Leabaithe suímh 1T le haghaidh ord comharthaí
Riachtanais Sonraí
Tacair sonraí íomhá ar scála mór cosúil le ImageNet nó JFT-300M
Corpais téacs móra cosúil le Common Crawl nó Vicipéid
Comparáid Mhionsonraithe
Príomhchuspóir agus Feidhm
Cuidíonn aird radhairc le samhlacha cinneadh a dhéanamh cá háit le breathnú in íomhá, ag béimniú na réigiún spásúla a bhfuil an fhaisnéis is ábhartha iontu do thasc ar leith. Ar an láimh eile, cinneann aird NLP an gaol atá idir focail laistigh d'abairt nó trasna doiciméid, ag gabháil spleáchais sheimeantacha beag beann ar an achar. Tá an bunphrionsabal céanna maidir le tábhacht ualaithe ag an dá cheann, ach tá difríocht shuntasach idir na struchtúir a n-oibríonn siad orthu.
Éabhlóid Ailtireachta
Tháinig aird ar NLP ar dtús ina fhoirm nua-aimseartha, agus páipéar Transformer 2017 ag bunú féin-aird mar dhroim na tuisceana teanga. Bhain aird radhairc go mór le haird radhairc ó na dul chun cinn NLP seo, agus Vision Transformers ag léiriú in 2020 gur féidir le hailtireachtaí íon-bhunaithe líonraí comhshuiteacha a mheaitseáil nó a shárú. Ó shin i leith, tá an dá réimse ag leanúint ar aghaidh ag tras-phailniú, agus teicnící cosúil le tras-aird anois ag nascadh fís agus teanga i samhlacha ilmhódacha.
Breithnithe Ríomhaireachtúla
Tá dúshláin chastachta cearnacha roimh an dá cheann, ach tá an scála difriúil. Pléann samhlacha NLP le seichimh idir na céadta agus na céadta mílte comharthaí, agus ní mór do shamhlacha fís íomhánna a láimhseáil ar féidir leo na mílte paiste a bheith iontu ag ardtaifeach. D'fhorbair taighdeoirí fís malairtí éifeachtacha cosúil le haird fhuinneogach Swin Transformer, agus tá modhanna airde tanaí agus líneacha táirgthe ag NLP chun comhthéacsanna níos faide a láimhseáil.
Mascaíocht agus Treoshuíomh
Tá difríocht thábhachtach sa chaoi a sreabhann aird. Úsáideann samhlacha díchódóra NLP masc cúiseach ionas nach bhfeiceann gach comhartha ach comharthaí roimhe seo, rud atá riachtanach chun téacs uath-athchéimneach a ghiniúint. De ghnáth úsáideann samhlacha fís aird déthreoch ós rud é nach bhfuil ord clé go deas ag teastáil chun íomhá a thuiscint. Úsáideann roinnt tascanna fís aird masctha, go háirithe in uath-chódóirí masctha ina bhfuil codanna den ionchur i bhfolach le linn oiliúna.
Ionchódú Suíomhúil
Ós rud é go bhfuil ord seicheamhach nádúrtha ag téacs, úsáideann NLP leabaithe suímh 1T chun a insint don mhúnla cá bhfuil gach comhartha sa seicheamh. Éilíonn fís leabaithe suímh 2T chun caidrimh spásúla idir paistí a chaomhnú, ós rud é go bhfuil toisí airde agus leithead ag íomhánna. Bíonn tionchar ag an difríocht seo ar an gcaoi a ndearann gach fearann a scéimeanna leabaithe agus ar an gcaoi a nginearálann samhlacha chuig méideanna ionchuir éagsúla.
Feidhmchláir Tras-Fhearainn
Tá an teorainn idir fís agus aird NLP doiléir go mór. Úsáideann samhlacha cosúil le CLIP, DALL-E, agus Flamingo aird trasna chun ionadaíochtaí amhairc agus téacsúla a nascadh, rud a chuireann ar chumas tascanna cosúil le fotheidil íomhá, freagairt ceisteanna amhairc, agus giniúint téacs-go-híomhá. Léiríonn na córais ilmhódacha seo go bhfuil meicníochtaí airde thar a bheith solúbtha agus gur féidir leo cineálacha sonraí éagsúla a aontú laistigh d'ailtireacht aonair.
Buntáistí & Mí-bhuntáistí
Meicníochtaí Aird sa Radharc
Buntáistí
+Gabhann comhthéacs domhanda
+Láidir ar shraitheanna sonraí móra
+Léarscáileanna airde inléite
+Ailtireacht sholúbtha
Taispeáin
−Costas ríomhaireachta ard
−Teastaíonn go leor sonraí
−Castacht bunaithe ar phaistí
−Claonadh ionduchtach níos lú
Aird i NLP
Buntáistí
+Láimhseálann sé spleáchais fhada
+Oiliúint chomhthreomhar
+Cumhachtaíonn LLManna nua-aimseartha
+Foghlaim aistrithe shaibhir
Taispeáin
−Castacht chearnógach
−Teorainneacha fad comhthéacs
−Rioscaí siabhránachta
−Dian ar acmhainní
Coitianta Míthuiscintí
Miotas
Is teicneolaíochtaí go hiomlán difriúla iad meicníochtaí airde sa fhís agus NLP.
Réaltacht
Tá an bunús matamaiticiúil céanna acu maidir le suimeanna ualaithe a ríomh bunaithe ar idirghníomhaíochtaí fiosrúcháin-eochair-luachanna. Is iad na difríochtaí is mó atá i struchtúr na n-ionchur agus cén fhaisnéis shuíomhúil a chuirtear leis, ní sa mheicníocht bhunúsach féin.
Miotas
Oibríonn Claochladáin Fís go maith fiú le tacair sonraí beaga.
Réaltacht
Murab ionann agus CNNanna a bhfuil claontacht ionduchtach ionsuite acu, is gnách go mbíonn tacair sonraí ollmhóra (na céadta milliún íomhánna go minic) ag teastáil ó ViTanna chun cur chuige comhshuiteach a shárú. Ar thacair sonraí níos lú, is minic a bhíonn CNNanna fós rathúil mura gcuirtear rialáil láidir nó réamhoiliúint i bhfeidhm.
Miotas
Ciallaíonn aird in NLP go dtuigeann an tsamhail teanga i ndáiríre.
Réaltacht
Is meicníocht ríomhaireachtúil í an aird chun ionchuir a mheá, ní ráthaíocht tuisceana í. Is féidir le samhlacha teanga móra téacs líofa a tháirgeadh agus fós earráidí réasúnaíochta, fíricí a shamhlú, nó mainneachtain i dtascanna loighciúla simplí a dhéanamh.
Miotas
Tá aird ag cur líonraí comhshuiteacha agus athfhillteacha in ionad a chéile go hiomlán.
Réaltacht
Tá ailtireachtaí hibrideacha fós coitianta agus is minic a fheidhmíonn siad níos fearr ná samhlacha airde íon. Tá sraitheanna comhshuiteacha fós le feiceáil i go leor córas fís den scoth, agus baineann roinnt samhlacha NLP leas as aird a mheascadh le cineálacha eile cur chuige.
Miotas
Léiríonn léarscáileanna airde go díreach cad atá á smaoineamh ag an tsamhail.
Réaltacht
Ní bhíonn meáchain airde iontaofa i gcónaí mar mhínithe ar iompar samhail. Léirigh taighde nach mbíonn baint ag dáiltí airde le tábhacht gnéithe, agus ní mór a bheith cúramach agus iad á léirmhíniú.
Frequently Asked Questions
Cad é an príomhdhifríocht idir aird sa radharc agus NLP?
Oibríonn aird radhairc ar struchtúir spásúla 2T cosúil le paistí íomhá agus díríonn sé ar réigiúin thábhachtacha a aithint, agus oibríonn aird NLP ar sheichimh chomharthaí 1T chun caidrimh idir focail a ghabháil. Úsáideann an dá cheann foirmlithe matamaiticiúla comhchosúla ach tá difríocht eatarthu maidir le conas a ionchódaítear faisnéis shuíomhach agus conas a chuirtear masc i bhfeidhm.
An as NLP nó fís ríomhaireachta a tháinig meicníochtaí airde chun cinn?
Tháinig meicníochtaí airde nua-aimseartha chun cinn i NLP, agus ba mhór an cloch mhíle é páipéar Transformer le Vaswani et al. in 2017. Tháinig Vision Transformers (ViT) chun cinn níos déanaí in 2020, ag oiriúnú na bprionsabal céanna féinaird ó theanga go híomhánna trí iad a chóireáil mar sheichimh paistí.
An féidir le meicníochtaí airde seichimh fhada nó íomhánna ardtaifigh a láimhseáil?
Tá castacht chearnach ag baint le féin-aird chaighdeánach, rud a fhágann go bhfuil sé costasach le haghaidh ionchuir fhada. D'fhorbair taighdeoirí malairtí éifeachtacha cosúil le Linformer, Performer, agus Longformer le haghaidh NLP, agus Swin Transformer nó MaxViT le haghaidh fís, rud a laghdaíonn costais ríomhaireachtúla agus a chaomhnú feidhmíochta ag an am céanna.
Cén fáth a bhfuil an oiread sin sonraí oiliúna ag teastáil ó Vision Transformers?
Murab ionann agus CNNanna, a bhfuil toimhdí ionsuite acu faoi shuímheacht agus neamhathraitheacht aistriúcháin, ní mór do ViTanna na caidrimh spásúla seo a fhoghlaim ón tús trí aird. Gan dóthain sonraí, is gnách go mbíonn siad ró-oiriúnach, agus is é sin an fáth go mbíonn réamhoiliúint mhórscála ar shraitheanna sonraí cosúil le JFT-300M riachtanach go minic.
Cén chaoi a nascann aird trasach samhlacha radhairc agus teanga?
Ligeann tras-aird do chomharthaí modúlachta amháin aird a thabhairt ar chomharthaí modúlachta eile, rud a chuireann ar chumas samhlacha cosúil le CLIP paistí íomhá a ailíniú le tuairiscí téacs. Tá an mheicníocht seo bunúsach do chórais ilmhódacha a dhéanann fotheidealú íomhá, freagairt ceisteanna amhairc, agus giniúint téacs-go-híomhá.
An bhfuil meáchain airde úsáideach le haghaidh inléirmhínitheacht samhail?
Is féidir le meáchain airde léargas a thabhairt ar na hionchuir a dhíríonn an tsamhail orthu, ach níor cheart iad a mheas mar mhínithe cinntitheacha. Léirigh staidéir nach mbíonn baint ag aird i gcónaí le tábhacht gnéithe, agus d’fhéadfadh modhanna eile inléirmhínithe a bheith níos iontaofa.
Cad is aird ilchinn ann agus cén fáth go bhfuil sé tábhachtach?
Ritheann aird ilchinn roinnt oibríochtaí airde ag an am céanna, agus gach ceann acu ag foghlaim díriú ar chineálacha éagsúla caidrimh. I NLP, d'fhéadfadh ceann amháin spleáchais chomhréire a rianú agus ceann eile cosúlachtaí séimeantacha a ghabháil. I bhfís, is féidir le cinn éagsúla aird a thabhairt ar phatrúin spásúla nó codanna réada éagsúla ag an am céanna.
An úsáideann samhlacha fís masc cúiseach cosúil le díchódóirí NLP?
Úsáideann formhór na samhlacha radhairc aird dhéthreoch gan masc cúiseach toisc nach bhfuil ord seicheamhach ag teastáil chun íomhá a thuiscint. Mar sin féin, cuireann uathchódaitheoirí masctha paistí randamacha i bhfolach le linn oiliúna chun an tsamhail a spreagadh chun ionadaíochtaí láidre a fhoghlaim, atá cosúil ó thaobh spiorad de ach difriúil ó thaobh cuspóir de.
Cén difríocht atá idir leabaithe suímh idir fís agus NLP?
Úsáideann NLP leabaithe suímh 1T chun ord comharthaí a ionchódú i seicheamh, ach teastaíonn leabaithe suímh 2T ó mhúnlaí fís chun caidrimh spásúla a chaomhnú trasna airde agus leithead íomhá. Úsáideann roinnt samhlacha fís ardleibhéil ionchódú suímh choibhneasta freisin chun déileáil níos fearr le réitigh íomhá éagsúla.
An bhfanfaidh meicníochtaí airde ceannasach in AI?
Is iad ailtireachtaí bunaithe ar aird is mó atá i gceannas ar an gcuid is mó de na tagarmharcanna AI faoi láthair, ach leanann taighde ar aghaidh i roghanna malartacha cosúil le samhlacha spáis stáit (Mamba), meascán saineolaithe, agus ailtireachtaí nua. Tá an réimse ag forbairt go tapa, agus d’fhéadfadh cur chuige hibrideacha a chomhcheanglaíonn aird le meicníochtaí eile an chéad ghlúin eile de shamhlacha a mhúnlú.
Breithiúnas
Roghnaigh aird radhairc nuair a bhaineann do thasc le tuiscint a fháil ar chaidrimh spásúla in íomhánna nó i bhfíseáin, go háirithe nuair a bhíonn tacair sonraí móra agat agus go bhfuil gá le logánú mínmhionsonraithe. Roghnaigh aird NLP nuair a bhíonn tú ag obair le sonraí téacs seicheamhacha a éilíonn tuiscint ar chomhthéacs, giniúint nó aistriúchán. I gcás tionscadal ilmhódacha, is minic a thugann an dá rud a chomhcheangal trí aird trasna na dtorthaí is fearr.