Siyasət daxilində və siyasətdən kənar öyrənmə, agentlərin təcrübəni necə topladığı və istifadə etdiyinə görə fərqlənən gücləndirmə öyrənməsində iki əsas yanaşmadır. Siyasət daxilində metodlar agentin faktiki olaraq gördüyü hərəkətlərdən öyrənir, siyasətdən kənar metodlar isə digər siyasətlər tərəfindən toplanan məlumatlardan və ya keçmiş davranışlardan öyrənə bilər.
Seçilmişlər
Siyasət daxilindəki metodlar yalnız mövcud siyasətin hərəkətlərindən öyrənir, siyasətdənkənar metodlar isə istənilən məlumat mənbəyindən istifadə edə bilər.
Siyasətdən kənar öyrənmə təcrübənin təkrarlanması yolu ilə üstün nümunə səmərəliliyi təklif edir və bu da onu real robototexnika üçün ideal edir.
PPO kimi siyasət üzrə alqoritmlər hər iterasiyada təzə məlumatlara ehtiyac duymaq bahasına daha sabit təlim təmin edir.
Siyasətdən kənar yanaşmalar, siyasət metodlarının istifadə edə bilmədiyi insan nümayişlərindən və tarixi qeydlərdən öyrənməyə imkan verir.
Siyasət üzrə öyrənmə nədir?
Agentin hazırda təkmilləşdirilən eyni siyasət çərçivəsində yerinə yetirdiyi hərəkətlərdən öyrəndiyi gücləndirmə öyrənmə yanaşması.
Siyasət üzərində aparılan metodlar təlim zamanı qərar qəbul etmək üçün istifadə edilən eyni siyasəti qiymətləndirir və təkmilləşdirir.
SARSA (Dövlət-Tədbir-Mükafat-Dövlət-Tədbir), əslində görülən növbəti hərəkətə əsasən yenilənən klassik siyasət alqoritmidir.
PPO (Proximal Policy Optimallaşdırması) və A2C (Advantage Actor-Critic) müasir dərin RL-də geniş istifadə olunan siyasət alqoritmləridir.
Siyasət daxilində öyrənmə adətən mövcud siyasətdən təzə məlumatlar tələb edir ki, bu da onu siyasətdən kənar alternativlərə nisbətən daha az nümunəvi edir.
Bu metodlar təlim zamanı daha sabit olmağa meyllidirlər, çünki onlar tətbiq olunan siyasəti birbaşa optimallaşdırırlar.
Siyasətdənkənar Təlim nədir?
Agentin optimallaşdırılan siyasətdən fərqli bir siyasət tərəfindən yaradılan təcrübələrdən öyrəndiyi gücləndirmə öyrənmə yanaşması.
Siyasətdən kənar metodlar tarixi məlumatlar və ya insan nümayişləri daxil olmaqla, istənilən siyasət tərəfindən toplanan məlumatlardan öyrənə bilər.
Q-öyrənmə, görülən hərəkətdən asılı olmayaraq optimal hərəkətlərin dəyərini öyrənən əsas siyasətdən kənar alqoritmdir.
Dərin Q-Şəbəkələri (DQN) neyron şəbəkələrindən istifadə edərək yüksək ölçülü vəziyyət fəzalarını idarə etmək üçün Q-öyrənməsini genişləndirdi.
DDPG, TD3 və SAC kimi siyasətdən kənar alqoritmlər robototexnikada davamlı idarəetmə tapşırıqları üçün standart hala gəlmişdir.
Təcrübənin təkrarlanması buferləri, siyasətdən kənar metodlara keçmiş keçidləri təkrar istifadə etməyə imkan verir və nümunənin səmərəliliyini əhəmiyyətli dərəcədə artırır.
Müqayisə Cədvəli
Xüsusiyyət
Siyasət üzrə öyrənmə
Siyasətdənkənar Təlim
Məlumat mənbəyi
Yalnız mövcud siyasətdən
İstənilən siyasət və ya tarixi məlumat
Nümunə Səmərəliliyi
Aşağı, təzə məlumatlara ehtiyac var
Daha yüksək, keçmiş təcrübədən təkrar istifadə edir
Təlim Sabitliyi
Ümumiyyətlə daha sabitdir
Paylanma dəyişikliyinə görə daha az sabit ola bilər
Kəşfiyyat
Mövcud siyasətlə əlaqəli
Davranış siyasətindən ayrılıb
Nümunə Alqoritmlər
SARSAA, PPO, A2C, MÖHKƏMƏ
Q-Öyrənmə, DQN, DDPG, SAC, TD3
Yaddaş Tələbləri
Aşağı, təkrar oxutma buferinə ehtiyac yoxdur
Daha yüksək, böyük təkrarlama buferləri tələb edir
Ümumi İstifadə Halları
Oyun süni intellekt, robototexnika simulyasiyası, dil modelləri
Robototexnika, tövsiyə sistemləri, muxtar sürücülük
Qərəz-Dəyişiklik Müqaviləsi
Daha aşağı variasiya, bəzi qərəzlər
Aşağı qərəz, daha yüksək variasiya
Ətraflı Müqayisə
Əsas Öyrənmə Mexanizmi
Əsas fərq, təlim məlumatlarını hansı siyasətin yaratdığındadır. Siyasət daxilində öyrənmə, araşdırma zamanı izlənilən dəqiq siyasəti qiymətləndirir və təkmilləşdirir, yəni hər yeniləmə agentin əslində görəcəyi tədbirləri əks etdirir. Siyasətdən kənar öyrənmə bu narahatlıqları tamamilə ayırır və agentə özünün köhnə versiyası, təsadüfi siyasət və ya hətta insan nümayişçisi tərəfindən toplana bilən məlumatlardan optimal davranışı öyrənməyə imkan verir.
Nümunə Səmərəliliyi və Məlumatların Təkrar İstifadəsi
Siyasətdənkənar metodlar məlumatlar bahalı və ya qıt olduqda daha təsirli olur. Keçidləri təkrar buferində saxlamaq və ondan dəfələrlə nümunə götürməklə DQN və SAC kimi alqoritmlər ətraf mühitlə hər qarşılıqlı təsirdən maksimum öyrənmə dəyəri əldə edə bilər. Siyasətdənkənar metodlar adətən məlumatları birdəfəlik istifadədən sonra atır ki, bu da ucuz simulyasiya mühitlərində yaxşı işləyir, lakin hər bir qarşılıqlı təsir real vaxta və ya pula başa gəldikdə, məsələn, fiziki robototexnikada praktik olaraq mümkün deyil.
Sabitlik və Konvergensiya
Siyasət daxilində yanaşmalar ümumiyyətlə daha proqnozlaşdırıla bilən konvergensiya təklif edir, çünki optimallaşdırılan siyasət həmişə məlumat yaradandır və paylanma uyğunsuzluğunu aradan qaldırır. Siyasətdən kənar metodlar paylanma dəyişikliyi problemi ilə üzləşir, burada məlumatların paylanması mövcud siyasətin yaratdığından kənara çıxır və bəzən qeyri-sabitliyə və ya fikir ayrılığına səbəb olur. Hədəf şəbəkələri, əhəmiyyət nümunələri və siyasət məhdudiyyətləri kimi üsullar bu problemləri azaltmağa kömək edir, lakin mürəkkəblik artırır.
Kəşfiyyat Strategiyaları
Siyasət daxilində öyrənmə ilə bağlı araşdırma, mahiyyət etibarilə mövcud siyasətlə bağlıdır və çox vaxt stoxastik hərəkət seçimi və ya entropiya bonusları vasitəsilə əldə edilir. Siyasətdən kənar öyrənmə, tədqiqatı öyrənmədən ayırır və hədəf siyasəti istismar etməyi öyrənərkən geniş şəkildə araşdırıla bilən ayrı davranış siyasətlərinə imkan verir. Bu ayrılıq, epsilon-acgözlük kimi mürəkkəb tədqiqat strategiyalarına, məsələn, azalan cədvəllərə və ya maraq əsaslı davranış siyasətlərinə imkan verir.
Praktik Tətbiqlər
Siyasətdənkənar metodlar simulyasiyanın ucuz və sabitliyin vacib olduğu sahələrdə, məsələn, oyun agentlərinin təlimi və RLHF ilə böyük dil modellərinin təkmilləşdirilməsi kimi sahələrdə üstünlük təşkil edir. Siyasətdənkənar metodlar real dünya məlumatlarının toplanmasının baha başa gəldiyi robototexnikada və istifadəçi qarşılıqlı əlaqələrinin kütləvi qeydlərinin zəngin təlim məlumatları təmin etdiyi tövsiyə sistemlərində üstündür. Seçim çox vaxt bol simulyasiyaya və ya dəyərli real dünya məlumatlarına sahib olub-olmamanızdan asılıdır.
Üstünlüklər və Eksikliklər
Siyasət üzrə öyrənmə
Üstünlüklər
+Daha sabit məşq
+Daha sadə tətbiq
+Təkrar oxutma buferinə ehtiyac yoxdur
+Birbaşa siyasət optimallaşdırması
Saxlayıcı
−Aşağı nümunə səmərəliliyi
−Təzə məlumatlar tələb edir
−Yavaş divar saatı təlimi
−Məhdud məlumatların təkrar istifadəsi
Siyasətdənkənar Təlim
Üstünlüklər
+Yüksək nümunə səmərəliliyi
+Keçmiş məlumatları təkrar istifadə edir
+Nümayişlərdən öyrənir
+Ayrılmış kəşfiyyat
Saxlayıcı
−Təlim qeyri-sabitliyi riski
−Daha böyük yaddaş izi
−Dağıtım dəyişikliyi problemləri
−Daha mürəkkəb alqoritmlər
Yaygın yanlış anlaşılmalar
Əfsanə
Siyasətdən kənar öyrənmə həmişə daha yaxşıdır, çünki məlumatları təkrar istifadə edir.
Həqiqət
Siyasətdənkənar metodlar daha çox nümunə səmərəli olsa da, onlar tez-tez təlim qeyri-sabitliyindən əziyyət çəkir və hədəf şəbəkələri və vacib nümunə götürmə kimi texnikaların diqqətlə tənzimlənməsini tələb edir. Siyasətdənkənar metodlar simulyasiyanın ucuz və sabitliyin vacib olduğu mühitlərdə siyasətdənkənar yanaşmalardan daha yaxşı nəticə göstərə bilər.
Əfsanə
Siyasət üzrə öyrənmə keçmiş məlumatlardan istifadə edə bilməz.
Həqiqət
Siyasət üzrə metodlar texniki olaraq keçmiş məlumatlardan istifadə edə bilər, lakin bunu etmək yüksək variasiya yaradan nümunə götürmə düzəlişlərinə əhəmiyyət tələb edir. Praktikada, onlar mövcud siyasətdən təzə məlumatlarla ən yaxşı şəkildə işləyir, buna görə də PPO kimi alqoritmlər tətbiqləri toplayır, onlar üzərində təlim keçir və onları atır.
Əfsanə
Q-öyrənmə siyasətdən kənardır, çünki optimal fəaliyyət dəyərini öyrənir.
Həqiqət
Q-öyrənmə, araşdırma zamanı potensial olaraq fərqli bir davranış siyasətinə əməl edərkən optimal siyasət haqqında məlumat əldə etdiyinə görə siyasətdən kənar kimi təsnif edilir. Başlatdığı hədəf, məlumatların yaradılması üçün əslində görülən hərəkətlərdən fərqli ola biləcək acgöz hərəkət seçimini fərz edir.
Əfsanə
Bütün dərin möhkəmləndirmə öyrənmə alqoritmləri siyasətdən kənardır.
Həqiqət
PPO, A2C və TRPO da daxil olmaqla bir çox məşhur dərin RL alqoritmləri siyasətdədir. Siyasətdə olan və siyasətdən kənar olanlar arasındakı fərq neyron şəbəkələrinin istifadə olunub-olunmamasından asılı olmayaraq mövcuddur və hər iki kateqoriyanın uğurlu dərin öyrənmə tətbiqləri mövcuddur.
Əfsanə
Siyasətdən kənar öyrənmə həmişə siyasət daxilində öyrənmədən daha sürətli birləşir.
Həqiqət
Konvergensiya sürəti mühitdən və tətbiqdən asılıdır. Siyasətdən kənar metodlar daha az mühit qarşılıqlı əlaqəsinə ehtiyac duya bilər, lakin tez-tez daha çox qradiyent yeniləmələri və diqqətli hiperparametr tənzimləməsi tələb edir. Bəzi tapşırıqlarda, daha çox nümunə istifadə etməsinə baxmayaraq, siyasətdə olan metodlar divar saatı vaxtında yaxşı siyasətlərə daha tez çatır.
Tez-tez verilən suallar
Siyasət daxilində və siyasətdən kənar öyrənmə arasındakı əsas fərq nədir?
Əsas fərq siyasət yaradan məlumatlarla öyrənilən siyasət arasındakı əlaqədir. Siyasət daxilində metodlar təcrübə toplayan eyni siyasəti təkmilləşdirir, siyasətdən kənar metodlar isə fərqli bir siyasət tərəfindən yaradılan məlumatlardan öyrənir. Bu, nümunə səmərəliliyinə, sabitliyə və hər bir yanaşmanın istifadə edə biləcəyi məlumat növlərinə təsir göstərir.
Hansı daha səmərəli nümunədir, siyasət daxilində və ya siyasətdən kənar?
Siyasətdənkənar metodlar ümumiyyətlə daha nümunəvi olur, çünki onlar keçmiş təcrübələri təkrar buferlər vasitəsilə təkrar istifadə edə bilirlər. SAC və DQN kimi alqoritmlər tək bir keçiddən dəfələrlə öyrənə bilər, PPO kimi siyasət üzərində metodlar isə adətən hər keçidi atmazdan əvvəl yalnız bir dəfə istifadə edir.
PPO siyasətdədir, yoxsa siyasətdən kənar?
PPO (Proximal Policy Optimallaşdırması) siyasət üzərində işləyən bir alqoritmdir. O, mövcud siyasətdən istifadə edərək tətbiqləri toplayır, bir neçə dövr ərzində həmin məlumatlar üzərində təlim keçir, sonra məlumatları atır və yeni nümunələr toplayır. Bu səmərəsizliyə baxmayaraq, PPO sabitliyi və müxtəlif tapşırıqlar üzrə etibarlı performansı sayəsində populyar olaraq qalır.
Siyasətdən kənar təlim insan nümayişlərindən əldə edilən məlumatlardan istifadə edə bilərmi?
Bəli, bu, siyasətdən kənar öyrənmənin əsas üstünlüklərindən biridir. Alqoritmlər insanlardan əldə edilən nümayiş məlumatlarından istifadə edərək başlanğıclaşdırıla və ya əvvəlcədən öyrədilə bilər, sonra isə özünütədqiqat yolu ilə öyrənməyə davam edilə bilər. Tez-tez nümayişdən öyrənmə və ya təqlid öyrənmə başlanğıclaşdırması adlanan bu yanaşma, ekspert nümunələrinin öyrənməni sürətləndirdiyi robototexnikada geniş istifadə olunur.
Niyə siyasətdən kənar təlimdə sabitlik problemləri var?
Siyasətdənkənar metodlar ölümcül üçlük problemi ilə üzləşir: funksiya yaxınlaşması, yükləmə və siyasətdənkənar məlumatların birləşdirilməsi fikir ayrılığına səbəb ola bilər. Dəyər funksiyası neyron şəbəkələri ilə yaxınlaşdırıldıqda və fərqli bir paylanmadan olan hədəflərdən istifadə edərək yeniləndikdə, səhvlər daha da arta bilər. Hədəf şəbəkələri, ikiqat Q-öyrənmə və mühafizəkar yeniləmələr kimi üsullar bu problemi həll etməyə kömək edir.
Siyasətdən kənar öyrənmədə vacib nümunə götürmə nədir?
Əhəmiyyət nümunəsi davranış siyasəti ilə hədəf siyasəti arasındakı paylanma uyğunsuzluğunu düzəldən statistik bir texnikadır. Hər bir siyasət altında ehtimal nisbəti ilə yeniləmələri yenidən ölçür və siyasət qradiyent metodlarında siyasətdən kənar düzəlişlərə imkan verir. Lakin bu nisbət yüksək variasiyaya malik ola bilər və bu da praktik tətbiqi məhdudlaşdırır.
Robototexnika tətbiqləri üçün hansı yanaşma daha yaxşıdır?
Robototexnika üçün siyasətdənkənar metodlara adətən üstünlük verilir, çünki real dünya qarşılıqlı əlaqələri bahalı və vaxt aparır. SAC və TD3 kimi alqoritmlər təcrübələrdən təkrar istifadə etməklə məhdud məlumatlardan mürəkkəb manipulyasiya tapşırıqlarını öyrənə bilər. Bununla belə, öyrənilən siyasətləri aparata ötürməzdən əvvəl robot simulyasiyasında siyasətdənkənar metodlar bəzən istifadə olunur.
Q-öyrənmə siyasət daxilindədir, yoxsa siyasətdən kənar?
Q-öyrənmə siyasətdən kənardır. Agentin kəşfiyyat zamanı hansı hərəkəti etməsindən asılı olmayaraq, hər bir ştatda mümkün olan ən yaxşı hərəkəti etməyin dəyərini öyrənir. Bu, təsadüfi və ya kəşfiyyat siyasətinə əməl edərkən belə optimal davranışı öyrənməyə imkan verir, buna görə də DQN-də təcrübənin təkrarlanması ilə yaxşı işləyir.
Təcrübənin təkrarlanması siyasətdə olan və siyasətdən kənar olanlarla necə əlaqəlidir?
Təcrübənin təkrarlanması əsasən siyasətdən kənar öyrənmə ilə əlaqələndirilir, çünki o, köhnə siyasətlər tərəfindən yaradıla bilən keçmiş keçidləri saxlayır və yenidən istifadə edir. Bəzi hibrid yanaşmalar mövcud olsa da, köhnə məlumatların təkrar istifadəsi siyasət fərziyyəsini pozduğu üçün siyasətdə metodlar ümumiyyətlə təkrarlama buferlərindən qaçınır.
Siyasət daxilində və siyasətdən kənar metodları birləşdirə bilərsinizmi?
Bəli, hibrid yanaşmalar mövcuddur. Bəzi alqoritmlər əsasən siyasətdə olmaqla yanaşı, siyasətdən kənar məlumatlardan əvvəlcədən təlim və ya köməkçi məqsədlər üçün istifadə edir. Aktyor-tənqidçi metodları çox vaxt hər ikisini birləşdirir, burada tənqidçi siyasətdən kənar məlumatları öyrənə bilər, aktyor isə siyasətdə yeniliklər edir. Hər iki dünyanın ən yaxşısını əldə edən metodlar üzərində tədqiqatlar davam edir.
Hökm
Təlim sabitliyinə ehtiyac duyduğunuz və ucuz simulyasiya mühitlərinə, xüsusən də oyun süni intellektinə və ya dil modellərində siyasət qradiyent metodlarına çıxışınız olduqda siyasətdən kənar öyrənməni seçin. Nümunə səmərəliliyi vacib olduqda, məlumatların toplanması baha olduqda və ya nümayişlər və ya qeyd olunmuş qarşılıqlı təsirlər kimi mövcud məlumat dəstlərindən öyrənməli olduğunuz zaman siyasətdən kənar öyrənməni seçin.