Comparthing Logo
foghlaim athneartaithefoghlaim meaisínintleacht shaorgauasmhéadú beartaishalgartaim rl

Foghlaim Ar Bheartas i gcoinne Foghlaim Lasmuigh den Bheartas

Is dhá chur chuige bhunúsacha iad foghlaim ar bheartas agus foghlaim lasmuigh de bheartas i bhfoghlaim athneartaithe a bhfuil difríocht eatarthu maidir leis an gcaoi a mbailíonn agus a úsáideann gníomhairí taithí. Foghlaimíonn modhanna ar bheartas ó na gníomhartha a dhéanann an gníomhaire i ndáiríre, agus is féidir le modhanna lasmuigh de bheartas foghlaim ó shonraí a bhailítear le beartais eile nó ó iompar san am atá thart.

Suntasanna

  • Ní fhoghlaimíonn modhanna atá bunaithe ar bheartas ach ó ghníomhartha an bheartais reatha, ach is féidir le modhanna lasmuigh den bheartas leas a bhaint as aon fhoinse sonraí.
  • Cuireann foghlaim lasmuigh de bheartas éifeachtúlacht samplach níos fearr ar fáil trí athsheinm taithí, rud a fhágann go bhfuil sé oiriúnach do róbataic sa saol fíor.
  • Soláthraíonn halgartaim ar bheartas cosúil le PPO oiliúint níos cobhsaí ar chostas sonraí úra a bheith ag teastáil le gach athrá.
  • Le cur chuige lasmuigh den bheartas, is féidir foghlaim ó thaispeántais dhaonna agus ó logaí stairiúla nach féidir le modhanna atá bunaithe ar bheartas a úsáid.

Cad é Foghlaim ar Bheartas?

Cur chuige foghlama athneartaithe ina bhfoghlaimíonn an gníomhaire ó ghníomhartha a dhéanann sé faoi láthair faoin mbeartas céanna atá á fheabhsú.

  • Déanann modhanna ar bheartas an beartas céanna a úsáidtear chun cinntí a dhéanamh le linn oiliúna a mheas agus a fheabhsú.
  • Is algartam clasaiceach ar bheartas é SARSA (State-Gníomh-Luach Saothair-State-Gníomh) a dhéantar a nuashonrú bunaithe ar an gcéad ghníomh eile a dhéantar i ndáiríre.
  • Is halgartaim ar bheartas a úsáidtear go forleathan iad PPO (Proximal Policy Optimization) agus A2C (Advantage Actor-Critic) i RL domhain nua-aimseartha.
  • De ghnáth, bíonn sonraí úra ón mbeartas reatha ag teastáil le haghaidh foghlama ar bheartas, rud a fhágann go bhfuil sé níos lú éifeachtaí ó thaobh samplála de ná roghanna malartacha lasmuigh den bheartas.
  • Is gnách go mbíonn na modhanna seo níos cobhsaí le linn na hoiliúna toisc go ndéanann siad an polasaí atá á imscaradh a bharrfheabhsú go díreach.

Cad é Foghlaim Lasmuigh den Pholasaí?

Cur chuige foghlama athneartaithe ina bhfoghlaimíonn an gníomhaire ó thaithí a ghintear le polasaí difriúil ón gceann atá á optamú.

  • Is féidir le modhanna lasmuigh den bheartas foghlaim ó shonraí a bhailítear le haon bheartas, lena n-áirítear sonraí stairiúla nó taispeántais dhaonna.
  • Is é Q-learning an algartam bunúsach lasmuigh den bheartas, ag foghlaim luach na ngníomhartha is fearr beag beann ar an ngníomh a dhéantar.
  • Leathnaigh Deep Q-Líneáin (DQN) foghlaim Q chun déileáil le spásanna stáit ardtoiseacha ag baint úsáide as líonraí néaracha.
  • Tá halgartaim lasmuigh den bheartas ar nós DDPG, TD3, agus SAC ina gcaighdeán anois do thascanna rialaithe leanúnacha sa róbataic.
  • A bhuí le maoláin athsheinm taithí, is féidir le modhanna lasmuigh den bheartas aistrithe san am atá thart a athúsáid, rud a fheabhsaíonn éifeachtúlacht na samplaí go mór.

Tábléad Comparáide

Gné Foghlaim ar Bheartas Foghlaim Lasmuigh den Pholasaí
Foinse Sonraí Ón mbeartas reatha amháin Aon pholasaí nó sonraí stairiúla
Éifeachtúlacht Samplach Níos ísle, sonraí úra ag teastáil Níos airde, athúsáideann sé taithí san am atá thart
Cobhsaíocht Oiliúna Níos cobhsaí i gcoitinne Is féidir leis a bheith níos lú cobhsaí mar gheall ar aistriú dáilte
Taiscéalaíocht Ceangailte leis an mbeartas reatha Dícheangailte ón mbeartas iompair
Samplaí d'Algartaim SARSA, PPO, A2C, ATHNEISTIÚ Q-Foghlaim, DQN, DDPG, SAC, TD3
Riachtanais Chuimhne Níos ísle, níl aon mhaolán athsheinm ag teastáil Níos airde, teastaíonn maoláin athsheinm mhóra
Cásanna Úsáide Coitianta Intleacht Shaorga Cluiche, insamhalta róbataic, samhlacha teanga Róbataic, córais mholta, tiomáint uathrialach
Malairt Claontachta-Athraitheachta Athraitheas níos ísle, roinnt claontachta Claonadh níos ísle, athraitheas níos airde

Comparáid Mhionsonraithe

Sásra Foghlama Lárnach

Is é an bun-idirdhealú ná cén polasaí a ghineann na sonraí oiliúna. Déanann foghlaim ar pholasaí measúnú agus feabhsú ar an bpolasaí cruinn atá á leanúint le linn taiscéalaíochta, rud a chiallaíonn go léiríonn gach nuashonrú gníomhartha a dhéanfadh an gníomhaire i ndáiríre. Scarann foghlaim lasmuigh den pholasaí na hábhair imní seo go hiomlán, rud a ligeann don ghníomhaire iompar is fearr a fhoghlaim ó shonraí a d'fhéadfadh a bheith bailithe ag leagan níos sine de féin, polasaí randamach, nó fiú taispeántóir daonna.

Éifeachtúlacht Samplach agus Athúsáid Sonraí

Bíonn modhanna lasmuigh den bheartas i bhfeidhm nuair a bhíonn sonraí costasach nó gann. Trí aistrithe a stóráil i maolán athsheinm agus sampláil uaidh arís agus arís eile, is féidir le halgartaim cosúil le DQN agus SAC an luach foghlama uasta a bhaint as gach idirghníomhaíocht leis an timpeallacht. De ghnáth, caitheann modhanna ar bheartas sonraí i leataobh tar éis úsáide aonair, rud a oibríonn go maith i dtimpeallachtaí insamhalta saora ach a éiríonn neamhphraiticiúil nuair a chosnaíonn gach idirghníomhaíocht fíor-ama nó airgead, amhail i róbataic fhisiciúil.

Cobhsaíocht agus Cóineasú

De ghnáth, cuireann cur chuige bunaithe ar bheartas cóineasú níos intuartha ar fáil toisc gurb é an beartas atá á optamú an ceann a ghineann sonraí i gcónaí, rud a chuireann deireadh le neamhréireanna dáilte. Bíonn dúshlán an aistrithe dáilte roimh mhodhanna lasmuigh den bheartas, áit a n-imíonn an dáileadh sonraí ón méid a tháirgfeadh an beartas reatha, rud a chruthaíonn éagobhsaíocht nó éagsúlacht uaireanta. Cuidíonn teicnící cosúil le líonraí sprice, sampláil tábhachta, agus srianta beartais leis na saincheisteanna seo a mhaolú ach cuireann siad castacht leis.

Straitéisí Taiscéalaíochta

Le foghlaim bunaithe ar bheartas, bíonn taiscéalaíocht ceangailte go bunúsach leis an mbeartas reatha, rud a bhaintear amach go minic trí roghnú gnímh stocastach nó bónais eintrópachta. Déanann foghlaim lasmuigh den bheartas taiscéalaíocht a dhícheangal ón bhfoghlaim, rud a cheadaíonn beartais iompraíochta ar leithligh ar féidir leo iniúchadh leathan a dhéanamh agus an beartas sprice ag foghlaim conas leas a bhaint as. Cuireann an deighilt seo ar chumas straitéisí taiscéalaíochta sofaisticiúla amhail eipsealón-santach le sceidil atá ag meath nó beartais iompraíochta atá á dtiomáint ag fiosracht.

Feidhmeanna Praiticiúla

Is iad modhanna bunaithe ar bheartas is mó a bhíonn i réim i réimsí ina bhfuil insamhalta saor agus ina bhfuil cobhsaíocht tábhachtach, amhail gníomhairí cluichíochta a oiliúint agus samhlacha móra teanga a choigeartú le RLHF. Is fearr modhanna lasmuigh den bheartas sa róbataic, áit a bhfuil bailiú sonraí fíorshaoil costasach, agus i gcórais mholtaí, áit a soláthraíonn logaí ollmhóra d’idirghníomhaíochtaí úsáideoirí sonraí oiliúna saibhre. Braitheann an rogha go minic ar cibé an bhfuil insamhalta flúirseach nó sonraí fíorshaoil luachmhara agat.

Buntáistí & Mí-bhuntáistí

Foghlaim ar Bheartas

Buntáistí

  • + Oiliúint níos cobhsaí
  • + Cur i bhfeidhm níos simplí
  • + Níl aon mhaolán athsheinm ag teastáil
  • + Uasmhéadú beartais dhírigh

Taispeáin

  • Éifeachtúlacht samplach níos ísle
  • Teastaíonn sonraí úra
  • Oiliúint níos moille ar an gclog balla
  • Athúsáid sonraí teoranta

Foghlaim Lasmuigh den Pholasaí

Buntáistí

  • + Éifeachtúlacht ard samplach
  • + Athúsáideann sonraí san am atá thart
  • + Foghlaimíonn ó léirsithe
  • + Taiscéalaíocht dhícheangailte

Taispeáin

  • Riosca éagobhsaíochta oiliúna
  • Lorg cuimhne níos mó
  • Fadhbanna aistrithe dáilte
  • Algartaim níos casta

Coitianta Míthuiscintí

Miotas

Is fearr i gcónaí foghlaim lasmuigh de bheartas mar go n-athúsáideann sé sonraí.

Réaltacht

Cé go bhfuil modhanna lasmuigh den bheartas níos éifeachtaí ó thaobh samplaí de, is minic a bhíonn éagobhsaíocht oiliúna ag baint leo agus bíonn gá le teicnící cosúil le líonraí sprice agus sampláil tábhachta a choigeartú go cúramach. Is féidir le modhanna ar bheartas feidhmiú níos fearr ná modhanna lasmuigh den bheartas i dtimpeallachtaí ina bhfuil insamhalta saor agus ina bhfuil cobhsaíocht ríthábhachtach.

Miotas

Ní féidir le foghlaim ar bhonn beartais aon sonraí san am atá thart a úsáid.

Réaltacht

Is féidir le modhanna bunaithe ar bheartas sonraí san am atá thart a úsáid go teicniúil, ach éilíonn sé sin ceartúcháin samplála tábhachtacha a thugann isteach athraitheas ard. Go praiticiúil, oibríonn siad is fearr le sonraí úra ón mbeartas reatha, agus is é sin an fáth a mbailíonn halgartaim cosúil le PPO rolladh amach, a dhéanann siad oiliúint orthu, agus a chaitheann siad uathu.

Miotas

Tá foghlaim-Q lasmuigh den pholasaí mar go bhfoghlaimíonn sí an luach gníomhaíochta is fearr.

Réaltacht

Aicmítear foghlaim Q mar rud lasmuigh den pholasaí toisc go bhfoghlaimíonn sé faoin bpolasaí is fearr agus go bhféadfadh sé polasaí iompraíochta difriúil a leanúint le linn taiscéalaíochta. Glacann an sprioc a thosaíonn sé uaidh leis go roghnaítear gníomh santach, a d'fhéadfadh a bheith difriúil ó na gníomhartha a dhéantar i ndáiríre chun sonraí a ghiniúint.

Miotas

Tá gach algartam foghlama athneartaithe domhain lasmuigh den pholasaí.

Réaltacht

Tá go leor halgartaim RL domhain coitianta de réir an bheartais, lena n-áirítear PPO, A2C, agus TRPO. Tá an t-idirdhealú idir de réir an bheartais agus lasmuigh den bheartas ann beag beann ar cibé an n-úsáidtear líonraí néaracha, agus tá cur i bhfeidhm foghlama domhain rathúil ag an dá chatagóir.

Miotas

Tagann foghlaim lasmuigh de bheartas le chéile níos tapúla i gcónaí ná foghlaim ar bheartas.

Réaltacht

Braitheann luas an chomhtháthaithe ar an timpeallacht agus ar an gcur i bhfeidhm. D’fhéadfadh sé go mbeadh níos lú idirghníomhaíochtaí timpeallachta ag teastáil ó mhodhanna lasmuigh den bheartas ach is minic a bhíonn níos mó nuashonruithe grádáin agus tiúnadh cúramach hipearparaiméadair ag teastáil uathu. I roinnt tascanna, sroicheann modhanna ar bheartas beartais mhaithe níos tapúla in am clog balla in ainneoin níos mó samplaí a úsáid.

Frequently Asked Questions

Cad é an príomhdhifríocht idir foghlaim ar bheartas agus foghlaim lasmuigh de bheartas?
Is é an príomhdhifríocht an gaol idir na sonraí a ghineann an polasaí agus an polasaí atá á fhoghlaim. Feabhsaíonn modhanna ar an bpolasaí an polasaí céanna a bhailíonn taithí, ach foghlaimíonn modhanna lasmuigh den pholasaí ó shonraí a ghintear le polasaí difriúil. Bíonn tionchar aige seo ar éifeachtúlacht, ar chobhsaíocht agus ar na cineálacha sonraí is féidir le gach cur chuige a úsáid.
Cé acu is éifeachtaí ó thaobh samplaí de, de réir an bheartais nó lasmuigh den bheartas?
Is gnách go mbíonn modhanna lasmuigh den bheartas níos éifeachtaí ó thaobh samplaí de mar is féidir leo eispéiris san am atá thart a athúsáid trí mhaoláin athsheinm. Is féidir le halgartaim cosúil le SAC agus DQN foghlaim ó aistriú aonair arís agus arís eile, ach is gnách nach n-úsáideann modhanna ar bheartas cosúil le PPO gach aistriú ach uair amháin sula gcailltear é.
An bhfuil PPO de réir an bheartais nó lasmuigh den bheartas?
Is algartam ar bheartas é PPO (Uasmhéadú Beartais Phríomhaí). Bailíonn sé rolladh amach ag baint úsáide as an mbeartas reatha, déanann sé traenáil ar na sonraí sin ar feadh cúpla tréimhse, ansin caitheann sé na sonraí i leataobh agus bailíonn sé samplaí úra. In ainneoin na neamhéifeachtúlachta seo, tá PPO fós coitianta mar gheall ar a chobhsaíocht agus a fheidhmíocht iontaofa ar fud tascanna éagsúla.
An féidir le foghlaim lasmuigh de bheartas sonraí ó thaispeántais dhaonna a úsáid?
Sea, seo ceann de na príomhbhuntáistí a bhaineann le foghlaim lasmuigh de bheartas. Is féidir halgartaim a thosú nó a réamh-oiliúint trí shonraí taispeána ó dhaoine a úsáid, agus ansin leanúint ar aghaidh ag foghlaim trí fhéin-iniúchadh. Úsáidtear an cur chuige seo, ar a dtugtar foghlaim ó thaispeántas nó túsú foghlama bréige go minic, go forleathan sa róbataic áit a luasghéaraíonn samplaí saineolaithe an fhoghlaim.
Cén fáth a mbíonn fadhbanna cobhsaíochta ag baint le foghlaim lasmuigh de bheartas?
Bíonn fadhbanna marfacha triad ag baint le modhanna lasmuigh den bheartas: is féidir le comhcheangal sonraí lasmuigh den bheartas, comhfhogasú feidhme, agus sonraí lasmuigh den bheartas éagsúlacht a bheith mar thoradh air. Nuair a dhéantar comhfhogasú ar an bhfeidhm luacha le líonraí néaracha agus nuair a dhéantar í a nuashonrú ag baint úsáide as spriocanna ó dháileadh difriúil, is féidir earráidí a dhéanamh níos measa. Cuidíonn teicnící cosúil le líonraí sprice, foghlaim Q dhúbailte, agus nuashonruithe coimeádacha leis seo a réiteach.
Cad is sampláil thábhachtachta ann i bhfoghlaim lasmuigh de bheartas?
Is teicníc staitistiúil í sampláil tábhachta a cheartaíonn an neamhréir dáilte idir an polasaí iompair agus an polasaí sprice. Déanann sí athmheáchan ar nuashonruithe de réir chóimheas na dóchúlachtaí faoi gach polasaí, rud a cheadaíonn ceartúcháin lasmuigh den pholasaí i modhanna grádáin pholasaí. Mar sin féin, is féidir go mbeadh athraitheas ard ag an gcóimheas seo, rud a chuireann srian ar infheidhmeacht phraiticiúil.
Cén cur chuige is fearr le haghaidh feidhmchlár róbataic?
Is fearr modhanna lasmuigh den bheartas i gcás róbataic de ghnáth toisc go mbíonn idirghníomhaíochtaí sa saol réadúil costasach agus am-íditheach. Is féidir le halgartaim cosúil le SAC agus TD3 tascanna casta ionramhála a fhoghlaim ó shonraí teoranta trí thaithí a athúsáid. Mar sin féin, úsáidtear modhanna ar bheartas uaireanta in insamhalta róbat sula n-aistrítear beartais foghlamtha chuig crua-earraí.
An bhfuil Q-learning de réir beartas nó lasmuigh de?
Is rud lasmuigh den pholasaí é foghlaim Q. Foghlaimíonn sé luach an ghnímh is fearr is féidir a dhéanamh i ngach stát, beag beann ar an ngníomh a rinne an gníomhaire i ndáiríre le linn taiscéalaíochta. Ligeann sé seo dó iompar is fearr a fhoghlaim fiú agus polasaí randamach nó taiscéalaíoch á leanúint, agus is é sin an fáth go n-oibríonn sé go maith le hathsheinm taithí i DQN.
Cén gaol atá idir athsheinm taithí agus beartas de réir beartas agus beartas lasmuigh de?
Is é an phríomhghné den fhoghlaim lasmuigh den bheartas ná go stórálann agus go n-athúsáideann sé aistrithe san am atá thart a d'fhéadfadh a bheith ginte ag beartais níos sine. De ghnáth, seachnaíonn modhanna ar bheartas maoláin athsheinm ós rud é go sáraíonn athúsáid sonraí sean an toimhde ar bheartas, cé go bhfuil roinnt cur chuige hibrideacha ann.
An féidir leat modhanna atá bunaithe ar bheartas agus modhanna nach bhfuil bunaithe ar bheartas a chomhcheangal?
Sea, tá cineálacha cur chuige hibrideacha ann. Úsáideann roinnt halgartaim sonraí lasmuigh den bheartas le haghaidh réamh-oiliúna nó mar chuspóirí cúnta agus iad den chuid is mó de réir na beartas. Is minic a chuireann modhanna aisteora-criticeoir an dá rud le chéile, áit a bhféadfadh an criticeoir foghlaim lasmuigh den bheartas agus an t-aisteoir ag tabhairt nuashonruithe ar an mbeartas. Leanann taighde ar aghaidh ar mhodhanna a bhaineann an leas is fearr as an dá shaol.

Breithiúnas

Roghnaigh foghlaim bunaithe ar bheartas nuair is gá cobhsaíocht oiliúna duit agus nuair a bhíonn rochtain agat ar thimpeallachtaí insamhalta saora, go háirithe le haghaidh tascanna cosúil le hintleacht shaorga cluichí nó modhanna grádáin beartais i samhlacha teanga. Roghnaigh foghlaim lasmuigh den bheartas nuair is ríthábhachtach éifeachtúlacht samplach, nuair is costasach bailiú sonraí, nó nuair is gá duit foghlaim ó shraitheanna sonraí atá ann cheana féin cosúil le taispeántais nó idirghníomhaíochtaí logáilte.

Comparáidí Gaolmhara

AI ar an ngléas vs AI sa Scamall

Déantar comparáid anseo idir AI ar an ngléas agus AI sa scamall, agus béim á cur ar an gcaoi a ndéanann siad próiseáil ar shonraí, a dtionchar ar phríobháideachas, ar fheidhmíocht, ar inrochtaineacht, agus ar chásanna úsáide tipiciúla do idirghníomhaíochtaí i ndáiríre, do mhúnlaí móra-scála, agus do riachtanais ceangalacha i bhfeidhmchláir nua-aoiseacha.

AI atá feasach ar chomhthéacs vs. córais atá dall ar chomhthéacs

Leagann an comparáid ailtireachta seo béim ar na príomhdhifríochtaí idir córais AI atá feasach ar chomhthéacs, a dhéanann anailís dhinimiciúil ar shonraí comhthéacsúla amhail intinn an úsáideora, stair agus timpeallacht, agus córais atá dall ar chomhthéacs, a phróiseálann ionchuir mar imeachtaí scoite bunaithe go hiomlán ar rialacha seasta, réamhshainithe.

AI atá Tiomáinte ag Spriocdhírithe vs Córais AI atá Tiomáinte ag Ionchur

Déanann an miondealú ailtireachta seo anailís ar na paraidímí ar leith de chórais intleachta saorga atá dírithe ar spriocanna agus atá dírithe ar ionchur. Cé go mbíonn ailtireachtaí atá dírithe ar ionchur thar barr i bpróiseáil imoibríoch agus in aithint patrún meandarach, bíonn na creatlacha cognaíocha chun cinn atá riachtanach le haghaidh réasúnaíocht ilchéime, pleanáil oiriúnaitheach, agus réiteach fadhbanna uathrialach ag córais atá dírithe ar spriocanna.

AI Athmhachnamhach vs. AI Díospóireachta

Sa mhiondealú mionsonraithe seo, déantar iniúchadh ar na difríochtaí bunúsacha idir Intleacht Shaorga Mhachnamhach agus Intleacht Shaorga Dhea-bhreithnithe, ag mapáil a n-ailtireacht le próiseáil chognaíoch Chóras 1 agus Chóras 2 an duine. Clúdaítear an chaoi a gcuireann na córais seo i bhfeidhm ar réiteach fadhbanna, ar inoiriúnaitheacht fíor-ama, agus ar éifeachtúlacht ríomhaireachtúil chun todhchaí na hintleachta saorga ilchisealaithe a shainiú.

AI Díláraithe vs Córais AI Corparáideacha

Déanann córais dhíláraithe AI faisnéis, sonraí agus ríomhaireacht a dháileadh ar fud nóid neamhspleácha, agus is minic a thugann siad tús áite do oscailteacht agus do rialú úsáideoirí, agus déanann cuideachtaí córais chorparáideacha AI a bhainistiú go lárnach agus iad ag optamú feidhmíochta, brabúis agus comhtháthú táirgí. Múnlaíonn an dá chur chuige an chaoi a dtógtar, a rialaítear agus a rochtaintear AI, ach tá difríocht mhór eatarthu ó thaobh trédhearcachta, úinéireachta agus rialaithe de.