Foghlaim Ar Bheartas i gcoinne Foghlaim Lasmuigh den Bheartas
Is dhá chur chuige bhunúsacha iad foghlaim ar bheartas agus foghlaim lasmuigh de bheartas i bhfoghlaim athneartaithe a bhfuil difríocht eatarthu maidir leis an gcaoi a mbailíonn agus a úsáideann gníomhairí taithí. Foghlaimíonn modhanna ar bheartas ó na gníomhartha a dhéanann an gníomhaire i ndáiríre, agus is féidir le modhanna lasmuigh de bheartas foghlaim ó shonraí a bhailítear le beartais eile nó ó iompar san am atá thart.
Suntasanna
Ní fhoghlaimíonn modhanna atá bunaithe ar bheartas ach ó ghníomhartha an bheartais reatha, ach is féidir le modhanna lasmuigh den bheartas leas a bhaint as aon fhoinse sonraí.
Cuireann foghlaim lasmuigh de bheartas éifeachtúlacht samplach níos fearr ar fáil trí athsheinm taithí, rud a fhágann go bhfuil sé oiriúnach do róbataic sa saol fíor.
Soláthraíonn halgartaim ar bheartas cosúil le PPO oiliúint níos cobhsaí ar chostas sonraí úra a bheith ag teastáil le gach athrá.
Le cur chuige lasmuigh den bheartas, is féidir foghlaim ó thaispeántais dhaonna agus ó logaí stairiúla nach féidir le modhanna atá bunaithe ar bheartas a úsáid.
Cad é Foghlaim ar Bheartas?
Cur chuige foghlama athneartaithe ina bhfoghlaimíonn an gníomhaire ó ghníomhartha a dhéanann sé faoi láthair faoin mbeartas céanna atá á fheabhsú.
Déanann modhanna ar bheartas an beartas céanna a úsáidtear chun cinntí a dhéanamh le linn oiliúna a mheas agus a fheabhsú.
Is algartam clasaiceach ar bheartas é SARSA (State-Gníomh-Luach Saothair-State-Gníomh) a dhéantar a nuashonrú bunaithe ar an gcéad ghníomh eile a dhéantar i ndáiríre.
Is halgartaim ar bheartas a úsáidtear go forleathan iad PPO (Proximal Policy Optimization) agus A2C (Advantage Actor-Critic) i RL domhain nua-aimseartha.
De ghnáth, bíonn sonraí úra ón mbeartas reatha ag teastáil le haghaidh foghlama ar bheartas, rud a fhágann go bhfuil sé níos lú éifeachtaí ó thaobh samplála de ná roghanna malartacha lasmuigh den bheartas.
Is gnách go mbíonn na modhanna seo níos cobhsaí le linn na hoiliúna toisc go ndéanann siad an polasaí atá á imscaradh a bharrfheabhsú go díreach.
Cad é Foghlaim Lasmuigh den Pholasaí?
Cur chuige foghlama athneartaithe ina bhfoghlaimíonn an gníomhaire ó thaithí a ghintear le polasaí difriúil ón gceann atá á optamú.
Is féidir le modhanna lasmuigh den bheartas foghlaim ó shonraí a bhailítear le haon bheartas, lena n-áirítear sonraí stairiúla nó taispeántais dhaonna.
Is é Q-learning an algartam bunúsach lasmuigh den bheartas, ag foghlaim luach na ngníomhartha is fearr beag beann ar an ngníomh a dhéantar.
Leathnaigh Deep Q-Líneáin (DQN) foghlaim Q chun déileáil le spásanna stáit ardtoiseacha ag baint úsáide as líonraí néaracha.
Tá halgartaim lasmuigh den bheartas ar nós DDPG, TD3, agus SAC ina gcaighdeán anois do thascanna rialaithe leanúnacha sa róbataic.
A bhuí le maoláin athsheinm taithí, is féidir le modhanna lasmuigh den bheartas aistrithe san am atá thart a athúsáid, rud a fheabhsaíonn éifeachtúlacht na samplaí go mór.
Tábléad Comparáide
Gné
Foghlaim ar Bheartas
Foghlaim Lasmuigh den Pholasaí
Foinse Sonraí
Ón mbeartas reatha amháin
Aon pholasaí nó sonraí stairiúla
Éifeachtúlacht Samplach
Níos ísle, sonraí úra ag teastáil
Níos airde, athúsáideann sé taithí san am atá thart
Cobhsaíocht Oiliúna
Níos cobhsaí i gcoitinne
Is féidir leis a bheith níos lú cobhsaí mar gheall ar aistriú dáilte
Taiscéalaíocht
Ceangailte leis an mbeartas reatha
Dícheangailte ón mbeartas iompair
Samplaí d'Algartaim
SARSA, PPO, A2C, ATHNEISTIÚ
Q-Foghlaim, DQN, DDPG, SAC, TD3
Riachtanais Chuimhne
Níos ísle, níl aon mhaolán athsheinm ag teastáil
Níos airde, teastaíonn maoláin athsheinm mhóra
Cásanna Úsáide Coitianta
Intleacht Shaorga Cluiche, insamhalta róbataic, samhlacha teanga
Róbataic, córais mholta, tiomáint uathrialach
Malairt Claontachta-Athraitheachta
Athraitheas níos ísle, roinnt claontachta
Claonadh níos ísle, athraitheas níos airde
Comparáid Mhionsonraithe
Sásra Foghlama Lárnach
Is é an bun-idirdhealú ná cén polasaí a ghineann na sonraí oiliúna. Déanann foghlaim ar pholasaí measúnú agus feabhsú ar an bpolasaí cruinn atá á leanúint le linn taiscéalaíochta, rud a chiallaíonn go léiríonn gach nuashonrú gníomhartha a dhéanfadh an gníomhaire i ndáiríre. Scarann foghlaim lasmuigh den pholasaí na hábhair imní seo go hiomlán, rud a ligeann don ghníomhaire iompar is fearr a fhoghlaim ó shonraí a d'fhéadfadh a bheith bailithe ag leagan níos sine de féin, polasaí randamach, nó fiú taispeántóir daonna.
Éifeachtúlacht Samplach agus Athúsáid Sonraí
Bíonn modhanna lasmuigh den bheartas i bhfeidhm nuair a bhíonn sonraí costasach nó gann. Trí aistrithe a stóráil i maolán athsheinm agus sampláil uaidh arís agus arís eile, is féidir le halgartaim cosúil le DQN agus SAC an luach foghlama uasta a bhaint as gach idirghníomhaíocht leis an timpeallacht. De ghnáth, caitheann modhanna ar bheartas sonraí i leataobh tar éis úsáide aonair, rud a oibríonn go maith i dtimpeallachtaí insamhalta saora ach a éiríonn neamhphraiticiúil nuair a chosnaíonn gach idirghníomhaíocht fíor-ama nó airgead, amhail i róbataic fhisiciúil.
Cobhsaíocht agus Cóineasú
De ghnáth, cuireann cur chuige bunaithe ar bheartas cóineasú níos intuartha ar fáil toisc gurb é an beartas atá á optamú an ceann a ghineann sonraí i gcónaí, rud a chuireann deireadh le neamhréireanna dáilte. Bíonn dúshlán an aistrithe dáilte roimh mhodhanna lasmuigh den bheartas, áit a n-imíonn an dáileadh sonraí ón méid a tháirgfeadh an beartas reatha, rud a chruthaíonn éagobhsaíocht nó éagsúlacht uaireanta. Cuidíonn teicnící cosúil le líonraí sprice, sampláil tábhachta, agus srianta beartais leis na saincheisteanna seo a mhaolú ach cuireann siad castacht leis.
Straitéisí Taiscéalaíochta
Le foghlaim bunaithe ar bheartas, bíonn taiscéalaíocht ceangailte go bunúsach leis an mbeartas reatha, rud a bhaintear amach go minic trí roghnú gnímh stocastach nó bónais eintrópachta. Déanann foghlaim lasmuigh den bheartas taiscéalaíocht a dhícheangal ón bhfoghlaim, rud a cheadaíonn beartais iompraíochta ar leithligh ar féidir leo iniúchadh leathan a dhéanamh agus an beartas sprice ag foghlaim conas leas a bhaint as. Cuireann an deighilt seo ar chumas straitéisí taiscéalaíochta sofaisticiúla amhail eipsealón-santach le sceidil atá ag meath nó beartais iompraíochta atá á dtiomáint ag fiosracht.
Feidhmeanna Praiticiúla
Is iad modhanna bunaithe ar bheartas is mó a bhíonn i réim i réimsí ina bhfuil insamhalta saor agus ina bhfuil cobhsaíocht tábhachtach, amhail gníomhairí cluichíochta a oiliúint agus samhlacha móra teanga a choigeartú le RLHF. Is fearr modhanna lasmuigh den bheartas sa róbataic, áit a bhfuil bailiú sonraí fíorshaoil costasach, agus i gcórais mholtaí, áit a soláthraíonn logaí ollmhóra d’idirghníomhaíochtaí úsáideoirí sonraí oiliúna saibhre. Braitheann an rogha go minic ar cibé an bhfuil insamhalta flúirseach nó sonraí fíorshaoil luachmhara agat.
Buntáistí & Mí-bhuntáistí
Foghlaim ar Bheartas
Buntáistí
+Oiliúint níos cobhsaí
+Cur i bhfeidhm níos simplí
+Níl aon mhaolán athsheinm ag teastáil
+Uasmhéadú beartais dhírigh
Taispeáin
−Éifeachtúlacht samplach níos ísle
−Teastaíonn sonraí úra
−Oiliúint níos moille ar an gclog balla
−Athúsáid sonraí teoranta
Foghlaim Lasmuigh den Pholasaí
Buntáistí
+Éifeachtúlacht ard samplach
+Athúsáideann sonraí san am atá thart
+Foghlaimíonn ó léirsithe
+Taiscéalaíocht dhícheangailte
Taispeáin
−Riosca éagobhsaíochta oiliúna
−Lorg cuimhne níos mó
−Fadhbanna aistrithe dáilte
−Algartaim níos casta
Coitianta Míthuiscintí
Miotas
Is fearr i gcónaí foghlaim lasmuigh de bheartas mar go n-athúsáideann sé sonraí.
Réaltacht
Cé go bhfuil modhanna lasmuigh den bheartas níos éifeachtaí ó thaobh samplaí de, is minic a bhíonn éagobhsaíocht oiliúna ag baint leo agus bíonn gá le teicnící cosúil le líonraí sprice agus sampláil tábhachta a choigeartú go cúramach. Is féidir le modhanna ar bheartas feidhmiú níos fearr ná modhanna lasmuigh den bheartas i dtimpeallachtaí ina bhfuil insamhalta saor agus ina bhfuil cobhsaíocht ríthábhachtach.
Miotas
Ní féidir le foghlaim ar bhonn beartais aon sonraí san am atá thart a úsáid.
Réaltacht
Is féidir le modhanna bunaithe ar bheartas sonraí san am atá thart a úsáid go teicniúil, ach éilíonn sé sin ceartúcháin samplála tábhachtacha a thugann isteach athraitheas ard. Go praiticiúil, oibríonn siad is fearr le sonraí úra ón mbeartas reatha, agus is é sin an fáth a mbailíonn halgartaim cosúil le PPO rolladh amach, a dhéanann siad oiliúint orthu, agus a chaitheann siad uathu.
Miotas
Tá foghlaim-Q lasmuigh den pholasaí mar go bhfoghlaimíonn sí an luach gníomhaíochta is fearr.
Réaltacht
Aicmítear foghlaim Q mar rud lasmuigh den pholasaí toisc go bhfoghlaimíonn sé faoin bpolasaí is fearr agus go bhféadfadh sé polasaí iompraíochta difriúil a leanúint le linn taiscéalaíochta. Glacann an sprioc a thosaíonn sé uaidh leis go roghnaítear gníomh santach, a d'fhéadfadh a bheith difriúil ó na gníomhartha a dhéantar i ndáiríre chun sonraí a ghiniúint.
Miotas
Tá gach algartam foghlama athneartaithe domhain lasmuigh den pholasaí.
Réaltacht
Tá go leor halgartaim RL domhain coitianta de réir an bheartais, lena n-áirítear PPO, A2C, agus TRPO. Tá an t-idirdhealú idir de réir an bheartais agus lasmuigh den bheartas ann beag beann ar cibé an n-úsáidtear líonraí néaracha, agus tá cur i bhfeidhm foghlama domhain rathúil ag an dá chatagóir.
Miotas
Tagann foghlaim lasmuigh de bheartas le chéile níos tapúla i gcónaí ná foghlaim ar bheartas.
Réaltacht
Braitheann luas an chomhtháthaithe ar an timpeallacht agus ar an gcur i bhfeidhm. D’fhéadfadh sé go mbeadh níos lú idirghníomhaíochtaí timpeallachta ag teastáil ó mhodhanna lasmuigh den bheartas ach is minic a bhíonn níos mó nuashonruithe grádáin agus tiúnadh cúramach hipearparaiméadair ag teastáil uathu. I roinnt tascanna, sroicheann modhanna ar bheartas beartais mhaithe níos tapúla in am clog balla in ainneoin níos mó samplaí a úsáid.
Frequently Asked Questions
Cad é an príomhdhifríocht idir foghlaim ar bheartas agus foghlaim lasmuigh de bheartas?
Is é an príomhdhifríocht an gaol idir na sonraí a ghineann an polasaí agus an polasaí atá á fhoghlaim. Feabhsaíonn modhanna ar an bpolasaí an polasaí céanna a bhailíonn taithí, ach foghlaimíonn modhanna lasmuigh den pholasaí ó shonraí a ghintear le polasaí difriúil. Bíonn tionchar aige seo ar éifeachtúlacht, ar chobhsaíocht agus ar na cineálacha sonraí is féidir le gach cur chuige a úsáid.
Cé acu is éifeachtaí ó thaobh samplaí de, de réir an bheartais nó lasmuigh den bheartas?
Is gnách go mbíonn modhanna lasmuigh den bheartas níos éifeachtaí ó thaobh samplaí de mar is féidir leo eispéiris san am atá thart a athúsáid trí mhaoláin athsheinm. Is féidir le halgartaim cosúil le SAC agus DQN foghlaim ó aistriú aonair arís agus arís eile, ach is gnách nach n-úsáideann modhanna ar bheartas cosúil le PPO gach aistriú ach uair amháin sula gcailltear é.
An bhfuil PPO de réir an bheartais nó lasmuigh den bheartas?
Is algartam ar bheartas é PPO (Uasmhéadú Beartais Phríomhaí). Bailíonn sé rolladh amach ag baint úsáide as an mbeartas reatha, déanann sé traenáil ar na sonraí sin ar feadh cúpla tréimhse, ansin caitheann sé na sonraí i leataobh agus bailíonn sé samplaí úra. In ainneoin na neamhéifeachtúlachta seo, tá PPO fós coitianta mar gheall ar a chobhsaíocht agus a fheidhmíocht iontaofa ar fud tascanna éagsúla.
An féidir le foghlaim lasmuigh de bheartas sonraí ó thaispeántais dhaonna a úsáid?
Sea, seo ceann de na príomhbhuntáistí a bhaineann le foghlaim lasmuigh de bheartas. Is féidir halgartaim a thosú nó a réamh-oiliúint trí shonraí taispeána ó dhaoine a úsáid, agus ansin leanúint ar aghaidh ag foghlaim trí fhéin-iniúchadh. Úsáidtear an cur chuige seo, ar a dtugtar foghlaim ó thaispeántas nó túsú foghlama bréige go minic, go forleathan sa róbataic áit a luasghéaraíonn samplaí saineolaithe an fhoghlaim.
Cén fáth a mbíonn fadhbanna cobhsaíochta ag baint le foghlaim lasmuigh de bheartas?
Bíonn fadhbanna marfacha triad ag baint le modhanna lasmuigh den bheartas: is féidir le comhcheangal sonraí lasmuigh den bheartas, comhfhogasú feidhme, agus sonraí lasmuigh den bheartas éagsúlacht a bheith mar thoradh air. Nuair a dhéantar comhfhogasú ar an bhfeidhm luacha le líonraí néaracha agus nuair a dhéantar í a nuashonrú ag baint úsáide as spriocanna ó dháileadh difriúil, is féidir earráidí a dhéanamh níos measa. Cuidíonn teicnící cosúil le líonraí sprice, foghlaim Q dhúbailte, agus nuashonruithe coimeádacha leis seo a réiteach.
Cad is sampláil thábhachtachta ann i bhfoghlaim lasmuigh de bheartas?
Is teicníc staitistiúil í sampláil tábhachta a cheartaíonn an neamhréir dáilte idir an polasaí iompair agus an polasaí sprice. Déanann sí athmheáchan ar nuashonruithe de réir chóimheas na dóchúlachtaí faoi gach polasaí, rud a cheadaíonn ceartúcháin lasmuigh den pholasaí i modhanna grádáin pholasaí. Mar sin féin, is féidir go mbeadh athraitheas ard ag an gcóimheas seo, rud a chuireann srian ar infheidhmeacht phraiticiúil.
Cén cur chuige is fearr le haghaidh feidhmchlár róbataic?
Is fearr modhanna lasmuigh den bheartas i gcás róbataic de ghnáth toisc go mbíonn idirghníomhaíochtaí sa saol réadúil costasach agus am-íditheach. Is féidir le halgartaim cosúil le SAC agus TD3 tascanna casta ionramhála a fhoghlaim ó shonraí teoranta trí thaithí a athúsáid. Mar sin féin, úsáidtear modhanna ar bheartas uaireanta in insamhalta róbat sula n-aistrítear beartais foghlamtha chuig crua-earraí.
An bhfuil Q-learning de réir beartas nó lasmuigh de?
Is rud lasmuigh den pholasaí é foghlaim Q. Foghlaimíonn sé luach an ghnímh is fearr is féidir a dhéanamh i ngach stát, beag beann ar an ngníomh a rinne an gníomhaire i ndáiríre le linn taiscéalaíochta. Ligeann sé seo dó iompar is fearr a fhoghlaim fiú agus polasaí randamach nó taiscéalaíoch á leanúint, agus is é sin an fáth go n-oibríonn sé go maith le hathsheinm taithí i DQN.
Cén gaol atá idir athsheinm taithí agus beartas de réir beartas agus beartas lasmuigh de?
Is é an phríomhghné den fhoghlaim lasmuigh den bheartas ná go stórálann agus go n-athúsáideann sé aistrithe san am atá thart a d'fhéadfadh a bheith ginte ag beartais níos sine. De ghnáth, seachnaíonn modhanna ar bheartas maoláin athsheinm ós rud é go sáraíonn athúsáid sonraí sean an toimhde ar bheartas, cé go bhfuil roinnt cur chuige hibrideacha ann.
An féidir leat modhanna atá bunaithe ar bheartas agus modhanna nach bhfuil bunaithe ar bheartas a chomhcheangal?
Sea, tá cineálacha cur chuige hibrideacha ann. Úsáideann roinnt halgartaim sonraí lasmuigh den bheartas le haghaidh réamh-oiliúna nó mar chuspóirí cúnta agus iad den chuid is mó de réir na beartas. Is minic a chuireann modhanna aisteora-criticeoir an dá rud le chéile, áit a bhféadfadh an criticeoir foghlaim lasmuigh den bheartas agus an t-aisteoir ag tabhairt nuashonruithe ar an mbeartas. Leanann taighde ar aghaidh ar mhodhanna a bhaineann an leas is fearr as an dá shaol.
Breithiúnas
Roghnaigh foghlaim bunaithe ar bheartas nuair is gá cobhsaíocht oiliúna duit agus nuair a bhíonn rochtain agat ar thimpeallachtaí insamhalta saora, go háirithe le haghaidh tascanna cosúil le hintleacht shaorga cluichí nó modhanna grádáin beartais i samhlacha teanga. Roghnaigh foghlaim lasmuigh den bheartas nuair is ríthábhachtach éifeachtúlacht samplach, nuair is costasach bailiú sonraí, nó nuair is gá duit foghlaim ó shraitheanna sonraí atá ann cheana féin cosúil le taispeántais nó idirghníomhaíochtaí logáilte.