PPO və Unlimited Siyasət Yeniləmələrində Siyasət Kəsmə
PPO-da siyasət kəsilməsi, hər yeniləmə zamanı yeni siyasətin köhnəsindən nə qədər uzaqlaşa biləcəyini məhdudlaşdırır və təlimi sabit saxlayır. Sərhədsiz siyasət yeniləmələri yeni siyasətin sərbəst şəkildə dəyişməsinə imkan verir ki, bu da öyrənməni sürətləndirə bilər, lakin çox vaxt mürəkkəb mühitlərdə qeyri-sabitliyə və ya çökməyə səbəb olur.
Seçilmişlər
PPO kəsmə ehtimal nisbətini 0,8–1,2 səviyyəsində məhdudlaşdırır və dağıdıcı yeniləmələrin qarşısını alır.
Limitsiz yeniləmələr siyasəti tək bir addımda ixtiyari olaraq çox uzağa apara bilər.
Kəsmə eyni məlumat dəsti üzərində birdən çox təlim dövrünü təmin edir və səmərəliliyi artırır.
Sərhədsiz metodlar çökmənin qarşısını almaq üçün diqqətli öyrənmə sürətinin tənzimlənməsini tələb edir.
PPO-da Siyasət Kəsmə nədir?
Proksimal Siyasət Optimallaşdırmasında siyasətin hər yeniləmə addımında nə qədər dəyişə biləcəyini məhdudlaşdıran bir texnika.
Con Şulman və OpenAI-dəki həmkarları tərəfindən 2017-ci ildə dərc olunmuş PPO sənədində təqdim edilmişdir.
Yeni və köhnə siyasətlər arasındakı ehtimal nisbətini məhdudlaşdırmaq üçün adətən 0,1 ilə 0,2 arasında təyin edilən kəsmə nisbətindən istifadə edir.
TRPO-da istifadə edilən KL divergensiya cəzasını daha sadə kəsilmiş surroqat məqsədi ilə əvəz edir.
Təlimi poza biləcək dağıdıcı dərəcədə böyük siyasət yeniləmələrinin qarşısını almağa kömək edir.
Həm tədqiqatda, həm də sənayedə ən çox istifadə edilən möhkəmləndirmə öyrənmə alqoritmlərindən birinə çevrilmişdir.
Limitsiz Siyasət Yeniləmələri nədir?
Siyasət parametrlərinin tək bir təlim iterasiyası zamanı açıq məhdudiyyətlər olmadan istənilən miqdarda dəyişə biləcəyi bir yanaşma.
Vanilla REINFORCE və əsas aktyor-tənqidçi alqoritmləri kimi erkən siyasət qradiyent metodlarında istifadə olunur.
Parametr dəyişikliklərinin miqyasını məhdudlaşdırmaq üçün heç bir kəsmə və ya KL məhdudiyyəti tətbiq edilmir.
Qradiyent istiqaməti düzgün olduqda, sürətli ilkin öyrənmə təmin edə bilər.
Stoxastik və ya yüksək ölçülü mühitlərdə tez-tez yüksək variasiyaya və siyasətin çökməsinə səbəb olur.
Bəzən qeyri-sabitliyi qismən azaltmaq üçün etibar bölgəsi evristikası və ya öyrənmə sürətinin azalması ilə birləşdirilir.
Müqayisə Cədvəli
Xüsusiyyət
PPO-da Siyasət Kəsmə
Limitsiz Siyasət Yeniləmələri
Yeniləmə Məhdudiyyəti
0.1–0.2 nisbətində kəsilmişdir
Açıq məhdudiyyət yoxdur
Təlim Sabitliyi
Ümumiyyətlə, təkrarlamalar boyunca sabitdir
Salınımlara və çökməyə meyllidir
Nümunə Səmərəliliyi
Yüksək, toplanmış trayektoriyaları təkrar istifadə edir
Dəyişkən, tez-tez təzə məlumatlar tələb edir
Tətbiq Mürəkkəbliyi
Orta, tək kəsikli obyektiv
Sadə, standart qradiyent qalxışı
Hiperparametr Həssaslığı
Aşağı, kəsmə diapazonu bağışlayıcıdır
Daha yüksək, öyrənmə sürəti vacibdir
Siyasətin Çökməsi Riski
Yaxınlıq məhdudiyyətinə görə aşağı
Xarici təhlükəsizlik tədbirləri olmadan yüksək
Ümumi İstifadə Halları
Robototexnika, oyun süni intellekt, RLHF, davamlı idarəetmə
Sadə oyuncaq məsələləri, nəzəri təhlil
Mənşəyi
OpenAI, 2017 PPO sənədi
Erkən siyasət qradiyent ədəbiyyatı, 1990-2000-ci illər
Ətraflı Müqayisə
Əsas Mexanizm
PPO-da siyasət kəsimi yeni və köhnə hərəkət ehtimalları arasındakı nisbəti hesablamaqla, sonra dar bir diapazonda qalmaq üçün bu nisbəti kəsməklə işləyir (adətən 0,8-dən 1,2-yə qədər). Nisbət bu diapazondan kənara çıxmağa çalışdıqda, qradiyent siqnalı sıfırlanır və bu da optimallaşdırıcıya "bu istiqamətdə daha da irəliləmə" deyir. Sərhədsiz yeniləmələr bu qorunmanı tamamilə atlayır və optimallaşdırıcıya siyasət parametrlərini qradiyentin göstərdiyi hər yerə, nə qədər dramatik dəyişiklik olursa olsun, hərəkət etdirməyə imkan verir.
Sabitlik və Etibarlılıq
Qısaldılmış yanaşma etibarlılıq şöhrətini qazanır, çünki məhdudiyyətsiz metodları bəlaya salan fəlakətli unutmanın qarşısını alır. Yaxşı bir siyasət tapıldıqda, qırılma onun həddindən artıq özünəinamlı bir yeniləmə tərəfindən məhv edilməsinin qarşısını alır. Məhdudiyyətsiz yeniləmələr bəzən irəliləyişləri daha tez tapa bilər, lakin eyni zamanda həftələrlə davam edən irəliləyişi bir pis addımda itirmək vərdişinə malikdirlər, buna görə də əksər istehsal sistemləri onlardan qaçır.
Nümunə Səmərəliliyi
PPO-nun kəsilməsi, toplanmış təcrübənin eyni dəsti üzərində birdən çox dövr optimallaşdırmasına imkan verir və nümunə səmərəliliyini əhəmiyyətli dərəcədə artırır. Siyasət çox uzağa gedə bilmədiyi üçün məlumatlar bir neçə qradiyent addımında aktuallığını qoruyur. Sərhədsiz yeniləmələr adətən hər iterasiyada təzə nümunələr tələb edir, çünki siyasət o qədər dəyişmiş ola bilər ki, köhnə trayektoriyalar artıq mövcud davranışı əks etdirmir və hesablama və ətraf mühit resurslarını israf edir.
Hiperparametr Davranışı
Kəsmə PPO-nu hiperparametrlərlə olduqca bağışlayıcı edir. 0.2 klip diapazonu çox tənzimləmə olmadan çoxlu sayda tapşırıq üzərində yaxşı işləyir. Məhdudiyyətsiz yeniləmələr öyrənmə sürəti ilə yaşayır və ölür: çox kiçik və öyrənmə sürünür, çox böyük və siyasət fərqlidir. Bu həssaslıq, geniş təhlillər üçün vaxtı olmayan praktiklər üçün məhdudiyyətsiz metodları məyus edir.
Praktik Övladlığa Qəbul
İstənilən müasir RL kod bazasına nəzər yetirsəniz, OpenAI-nin öz işlərindən tutmuş robototexnika laboratoriyalarına və RLHF kimi dil modellərinin təkmilləşdirilməsinə qədər PPO-nun bütün sahələrdə dominant mövqe tutduğunu görəcəksiniz. Sərhədsiz siyasət yeniləmələri əsasən dərsliklərdə və nəzəri müzakirələrdə qalır, bəzən müqayisə üçün bazaya ehtiyacı olan tədqiqat sənədlərində də üzə çıxır. Tətbiqdəki boşluq, hansı yanaşmanın praktikada həqiqətən işlədiyinə dair onilliklər ərzində toplanmış dəlilləri əks etdirir.
Üstünlüklər və Eksikliklər
PPO-da Siyasət Kəsmə
Üstünlüklər
+Yüksək sabit təlim
+Nümunə səmərəlidir
+Bağışlayan hiperparametrlər
+Geniş sənaye qəbulu
Saxlayıcı
−Addım başına daha yavaş irəliləyiş
−Klip diapazonu hələ də tənzimlənməyə ehtiyac duyur
−Həddindən artıq mühafizəkar ola bilər
−Bir az daha mürəkkəb kod
Limitsiz Siyasət Yeniləmələri
Üstünlüklər
+Tətbiq etmək asandır
+Sürətli ilkin öyrənmə
+Süni məhdudiyyətlər yoxdur
+Nəzəri iş üçün faydalıdır
Saxlayıcı
−Siyasətin çökməsinə meylli
−Yüksək variasiyalı yeniləmələr
−Nümunənin təkrar istifadəsinin zəif olması
−Öyrənmə sürətinə həssasdır
Yaygın yanlış anlaşılmalar
Əfsanə
Kəsmə siyasətin əhəmiyyətli dərəcədə dəyişməsinin qarşısını tamamilə alır.
Həqiqət
Qırış yalnız siyasətin tək bir yeniləmə addımında nə qədər dəyişə biləcəyini məhdudlaşdırır. Bir çox təkrarlama zamanı, hər bir fərdi addım qırış diapazonunda qaldığı müddətcə siyasət yenə də əhəmiyyətli dərəcədə dəyişə bilər. Məhdudiyyət daimi deyil, hər addım üçündür.
Əfsanə
Sərhədsiz yeniləmələr həmişə kəsilmiş metodlardan daha sürətli birləşir.
Həqiqət
Sərhədsiz yeniləmələr əvvəlcə daha sürətli görünə bilər, lakin onlar tez-tez ayrılır və ya çökür, bu da erkən qazancları silən yenidən başlatmalara səbəb olur. Praktikada, PPO kimi kəsilmiş metodlar tez-tez daha az vaxtda daha yaxşı yekun performansa çatır, çünki pis yeniləmələrdən sonra bərpa olunmaq üçün səy sərf etmirlər.
Əfsanə
PPO-nun kəsilməsi onu TRPO-ya bərabər edir.
Həqiqət
Hər iki metod siyasət yeniləmələrini məhdudlaşdırır, lakin TRPO xətt axtarışı ilə sərt KL divergensiya məhdudiyyətindən istifadə edir, PPO isə ehtimal nisbətində yumşaq bir klip istifadə edir. PPO daha sadədir, hər dəstədə birdən çox dövrü dəstəkləyir və böyük modellərə daha yaxşı miqyaslanır, buna görə də praktikada əsasən TRPO-nu əvəz etmişdir.
Əfsanə
Daha böyük bir klip diapazonu həmişə daha aqressiv öyrənmə deməkdir.
Həqiqət
Klip diapazonunun artırılması daha böyük yeniləmələrə imkan verir, eyni zamanda kəsmənin qoruyucu təsirini azaldır. Müəyyən bir nöqtədən sonra alqoritm daha çox məhdudiyyətsiz bir yeniləmə kimi davranır və sabitlik üstünlüklərini itirir. Standart 0.2 diapazonu yuxarıya doğru tənzimləmə üçün başlanğıc nöqtəsi deyil, ən uyğun nöqtədir.
Əfsanə
Məhdudiyyətsiz siyasət yeniləmələri köhnəlmiş və faydasızdır.
Həqiqət
Sərhədsiz yeniləmələr tədqiqatlarda əsas göstəricilər kimi dəyərli olaraq qalır və kiçik şəbəkə dünyaları və ya aşağı ölçülü nəzarət tapşırıqları kimi sadə mühitlərdə kifayət qədər yaxşı işləyir. Onlar həmçinin etibar bölgəsi metodlarının ilk növbədə niyə hazırlandığını anlamaq üçün pedaqoji vasitələr kimi xidmət edir.
Tez-tez verilən suallar
PPO-da klip nisbəti əslində nə edir?
Klip nisbəti yeni və köhnə siyasətlər arasındakı ehtimal nisbətini 0,2 kimi bir dəyərdə məhdudlaşdırır, yəni yeni siyasət köhnə siyasətlə müqayisədə heç bir hərəkətə 20%-dən çox yüksək və ya aşağı ehtimal təyin edə bilməz. Nisbət bu diapazonu aşmağa çalışdıqda, qradiyent sıfırlanır və bu da həmin addım üçün həmin istiqamətdə daha çox hərəkətin qarşısını alır.
Niyə məhdudiyyətsiz siyasət yeniləmələri təlimlərin uğursuzluğuna səbəb olur?
Məhdudiyyətlər olmadan, tək bir böyük qradiyent addımı siyasəti dəhşətli dərəcədə işlədiyi bir bölgəyə çevirə bilər və nəticədə yaranan pis trayektoriyalar gələcək qradiyent qiymətləndirmələrini zəhərləyir. Bu geribildirim döngəsi tez-tez siyasətin çökməsinə gətirib çıxarır ki, burada agentin performansı dönməz şəkildə aşağı düşür və əl ilə sıfırlama olmadan heç vaxt bərpa olunmur.
PPO həmişə vanil siyasət gradient metodlarından daha yaxşıdırmı?
Əksər praktiki şəraitdə bəli. PPO-nun kəsilməsi, xüsusən də davamlı idarəetmə və yüksək ölçülü müşahidə fəzalarında vanil metodlarında olmayan sabitliyi təmin edir. Vanil siyasət qradiyentləri, qradiyent siqnalının təmiz olduğu və çökmə riskinin aşağı olduğu çox sadə diskret mühitlərdə hələ də qalib gələ bilər.
KL cəzaları kimi digər üsullarla kəsməni birləşdirə bilərsinizmi?
Bəli, və bir çox tətbiqlər məhz bunu edir. Yeniləmələri daha da müntəzəmləşdirmək üçün kəsmə ilə yanaşı, adaptiv KL cəzaları da əlavə edilə bilər, baxmayaraq ki, orijinal PPO sənədində təkcə kəsmənin kifayət olduğu aşkar edilmişdir. Bəzi mütəxəssislər bildirirlər ki, hər ikisinin birləşdirilməsi xüsusilə çətin tapşırıqlarda cüzi irəliləyişlər verir.
PPO klip diapazonunu sıfıra təyin etsəniz nə baş verir?
Sıfırın kəsmə diapazonu siyasəti tamamilə donduracaq, çünki hər hansı bir dəyişiklik kəsiləcək və sıfır qradiyent yaradacaq. Praktikada, hər hansı bir öyrənməyə imkan vermək üçün kəsmə diapazonu müsbət olmalıdır, buna görə də 0.1 və ya 0.2 kimi dəyərlər sıfıra yaxınlaşmaq əvəzinə standartdır.
Limitsiz yeniləmələr heç vaxt PPO-ları etalonlarda üstələyə bilərmi?
Nadir hallarda olur, amma bu, optimal siyasətin asanlıqla əldə edildiyi və qradiyentin yaxşı idarə olunduğu sadə tapşırıqlarda baş verə bilər. MuJoCo və ya Atari kimi standartlaşdırılmış etalonlarda PPO daim məhdudiyyətsiz baza xətləri ilə uyğunlaşır və ya onları üstələyir, buna görə də yeni layihələr üçün standart seçim halına gəlmişdir.
PPO, fasiləsiz fəaliyyət fəzalarını məhdudiyyətsiz metodlardan necə fərqli şəkildə idarə edir?
Hər iki yanaşma Qaus siyasətləri vasitəsilə davamlı hərəkətlərlə işləyir, lakin PPO-nun kəsilməsi orta və variasiya parametrlərinin yeniləmələr arasında kəskin şəkildə sıçramasının qarşısını alır. Davamlı fəzalarda məhdudiyyətsiz metodlar xüsusilə qeyri-sabitliyə meyllidir, çünki kiçik parametr dəyişiklikləri hərəkət paylanmalarında böyük dəyişikliklər yarada bilər.
Qradiyent kəsmə ilə kəsmə eynidirmi?
Xeyr, bunlar fərqli mexanizmlərdir. Qradiyent kəsimi parametrləri yeniləməzdən əvvəl qradiyentlərin böyüklüyünü məhdudlaşdırır, PPO-nun kəsimi isə yeniləmə hesablandıqdan sonra ehtimal nisbətini məhdudlaşdırır. Hər ikisi birlikdə istifadə edilə bilər və təlim qeyri-sabitliyinin əlaqəli, lakin fərqli mənbələrini həll edir.
Niyə OpenAI TRPO-nu təkmilləşdirmək əvəzinə PPO hazırladı?
TRPO yaxşı işlədi, lakin ikinci dərəcəli optimallaşdırma və xətt axtarış prosedurlarına görə hesablama baxımından baha başa gəldi. PPO, tətbiqi daha asan, böyük şəbəkələrə daha yaxşı miqyaslanan və müasir aparatlarda daha sürətli işləyən birinci dərəcəli metodlarla oxşar sabitlik zəmanətlərinə nail olmaq üçün hazırlanmışdır.
Kiçik bir öyrənmə sürəti ilə məhdudiyyətsiz yeniləmələri sabitləşdirmək mümkündürmü?
Kiçik bir öyrənmə sürəti hər yeniləmənin miqyasını azaldır ki, bu da kəsmənin bəzi üstünlüklərini təqlid edir, lakin PPO-nu möhkəm edən yaxınlıq məhdudiyyətini tətbiq etmir. Bu şəkildə sabitliyi təxmini olaraq təxmin edə bilərsiniz, lakin adətən PPO-nun etibarlılığına uyğunlaşmaq üçün daha çox nümunəyə və diqqətli tənzimləməyə ehtiyacınız olacaq.
Hökm
Xüsusilə sabitliyin xam sürətdən daha çox əhəmiyyət kəsb etdiyi istehsal və ya tədqiqat mühitlərində müxtəlif mühitlərdə etibarlı, təkrarlana bilən təlimə ehtiyac duyduğunuz zaman PPO-da siyasət kəsimini seçin. Məhdudiyyətsiz siyasət yeniləmələri yalnız sadə, aşağı ölçülü problemlər və ya kəsimləmənin qarşısını almaq üçün nəzərdə tutulmuş uğursuzluq rejimlərini xüsusi olaraq müşahidə etmək istədiyiniz nəzəri tədqiqatlar üçün məna kəsb edir.