möhkəmləndirmə öyrənməsimaşın öyrənməsisüni intellektPPOQ-Öyrənmədərin öyrənmə

Proksimal Siyasət Optimallaşdırması (PPO) və Q-Öyrənmə Alqoritmləri

PPO, sabitlik və miqyaslanma qabiliyyətinə görə qiymətləndirilən siyasət qradiyenti gücləndirmə öyrənmə metodudur, Q-Learning isə fəaliyyət-dəyər funksiyalarını öyrənən dəyər əsaslı bir yanaşmadır. Hər ikisi agentləri sınaq və səhv yolu ilə öyrədir, lakin onlar biliyi necə təmsil etdikləri və davranışı yeniləmələri baxımından əsaslı şəkildə fərqlənirlər.

Seçilmişlər

PPO siyasətə və siyasət qradiyentinə əsaslanır, Q-Learning isə siyasətdən kənar və dəyərə əsaslanır.
PPO-nun qısaldılmış məqsədi standart Q-Öyrənmə yanaşmalarından daha sabit təlim təmin edir.
Q-Learning, təkrar buferləri vasitəsilə keçmiş təcrübələrdən yenidən istifadə edir və bu da ona daha yaxşı nümunə səmərəliliyi verir.
PPO davamlı fəaliyyət sahələrini yerli olaraq idarə edir, Q-Learning isə əvvəlcə diskret hərəkətlər üçün yaradılmışdır.

Proksimal Siyasət Optimallaşdırması (PPO) nədir?

Sabit təlim üçün kəsilmiş obyektiv funksiyalar vasitəsilə siyasətləri yeniləyən siyasət qradiyenti gücləndirmə öyrənmə alqoritmi.

PPO, 2017-ci ildə OpenAI-dakı John Schulman və həmkarları tərəfindən təqdim edilmişdir.
Dağıdıcı dərəcədə böyük siyasət yeniləmələrinin qarşısını alan kəsilmiş surroqat məqsədindən istifadə edir.
PPO siyasət optimallaşdırma metodları ailəsinə aiddir, yəni vəziyyətlərdən hərəkətlərə doğru xəritələşdirməni birbaşa öyrənir.
Alqoritm minimal memarlıq dəyişiklikləri ilə həm davamlı, həm də diskret fəaliyyət sahələrini dəstəkləyir.
PPO, robototexnikadan tutmuş böyük dil modellərinin incə tənzimlənməsinə qədər tətbiqləri gücləndirərək sənayedə ən çox istifadə edilən RL alqoritmlərindən birinə çevrildi.

Q-Öyrənmə Alqoritmləri nədir?

Müəyyən ştatlarda hərəkətlərin gözlənilən mükafatını qiymətləndirən dəyər əsaslı möhkəmləndirmə öyrənmə yanaşması.

Q-Learning, Kristofer Uotkins tərəfindən 1989-cu ildə doktorluq dissertasiyasında modelsiz möhkəmləndirmə öyrənmə metodu kimi təqdim edilmişdir.
O, vəziyyət-hərəkət cütlükləri üçün gələcək mükafatları proqnozlaşdıran, adətən Q-funksiyası adlanan bir hərəkət-dəyər funksiyasını öyrənir.
Dərin Q-Şəbəkələri (DQN) 2013-cü ildə neyron şəbəkələrindən istifadə edərək Q-Öyrənməsini yüksək ölçülü girişlərə qədər genişləndirdi.
Q-Öyrənmə əsasən siyasətdən kənardır, yəni fərqli davranış siyasətləri ilə toplanmış təcrübələrdən öyrənə bilər.
Alqoritm, Atari oyun agentləri də daxil olmaqla, bir çox müasir möhkəmləndirmə öyrənmə nailiyyətlərinin təməlini təşkil edir.

Müqayisə Cədvəli

Xüsusiyyət	Proksimal Siyasət Optimallaşdırması (PPO)	Q-Öyrənmə Alqoritmləri
Alqoritm Növü	Siyasət qradiyenti (siyasət üzrə)	Dəyər əsaslı (siyasətdən kənar)
Təqdim olunduğu il	2017 (Açıq Süni İntellekt)	1989 (Uotkins)
Əsas Öyrənmə Hədəfi	Siyasət funksiyası dövlətləri hərəkətlərə uyğunlaşdırır	Q-dəyər funksiyası hərəkət keyfiyyətini qiymətləndirir
Fəaliyyət Məkanı Dəstəyi	Davamlı və diskret	Əsasən diskret (davamlı üçün uzantılar mövcuddur)
Nümunə Səmərəliliyi	Orta (hər yeniləmə üçün təzə məlumatlar tələb olunur)	Daha yüksək (təcrübə təkrarlama buferini təkrar istifadə edir)
Təlim Sabitliyi	Yüksək (qırılan obyektiv çökmənin qarşısını alır)	Aşağı (həddindən artıq qiymətləndirmə qərəzliliyinə meylli)
Kəşfiyyat Strategiyası	Entropiya bonusları ilə stoxastik siyasət	Epsilon acgözlüyü və ya Boltzman kəşfiyyatı
Ümumi İstifadə Halları	Robototexnika, LLM uyğunlaşdırması, davamlı idarəetmə	Oyun oynamaq, diskret qərar tapşırıqları, naviqasiya
Əsas Variantlar	Kəsmə ilə PPO, adaptiv KL cəzası ilə PPO	DQN, İkiqat DQN, Dueling DQN, Göy qurşağı

Ətraflı Müqayisə

Öyrənmə Fəlsəfəsi

PPO, verilən vəziyyətə əsasən hərəkət ehtimallarını çıxaran parametrləşdirilmiş bir siyasət öyrənərək birbaşa yanaşma tətbiq edir. Gözlənilən mükafatlar üzərində qradiyent yüksəlişindən istifadə edərək bu siyasəti optimallaşdırır. Q-Learning əvvəlcə hər bir hərəkətin hər bir vəziyyətdə nə qədər yaxşı olduğunu qiymətləndirərək, sonra isə bu qiymətləndirmələrdən davranış çıxararaq dolayı yol tutur. Bu fəlsəfi bölünmə, məlumat tələblərindən tutmuş son performansa qədər hər şeyi formalaşdırır.

Sabitlik və Etibarlılıq

PPO-nun ən böyük üstünlüklərindən biri, siyasətin tək bir yeniləmədə nə qədər dəyişə biləcəyini məhdudlaşdıran kəsilmiş məqsəd funksiyasıdır. Bu, hətta səs-küylü tapşırıqlarda belə təlimi olduqca sabit edir. Q-Learning, xüsusən də dərin variantlarında, həddindən artıq qiymətləndirmə qərəzi və hərəkət edən hədəf problemi səbəbindən qeyri-sabitlikdən əziyyət çəkə bilər. Hədəf şəbəkələri və ikiqat Q-Learning kimi üsullar kömək edir, lakin PPO ümumiyyətlə etibarlı şəkildə konvergent olmaq üçün daha az hiperparametr tənzimləməsi tələb edir.

Nümunə Səmərəliliyi

Q-Learning, təcrübələri təkrar buferində saxlaya və onlardan dəfələrlə öyrənə bildiyi üçün nümunə səmərəliliyində üstünlük qazanmağa meyllidir. PPO siyasətdədir, yəni adətən hər yeniləmə dövründən sonra məlumatları atır, bu da daha çox mühit qarşılıqlı əlaqəsinə ehtiyac olduğunu göstərir. Məlumatların yaradılmasının ucuz olduğu simulyasiya edilmiş mühitlərdə bu nadir hallarda əhəmiyyət kəsb edir. Lakin real robototexnika və ya bahalı simulyasiyalarda Q-Learning-in keçmiş məlumatlardan təkrar istifadəsi böyük üstünlük ola bilər.

Davamlı Hərəkətlərin İdarə Edilməsi

PPO, hərəkətlər üzərində ehtimal paylanmasını, çox vaxt Qauss olduğunu göstərdiyinə görə davamlı fəaliyyət fəzalarını təbii şəkildə idarə edir. Q-Öyrənmə əvvəlcə diskret hərəkətlər üçün nəzərdə tutulmuşdu, burada hər bir seçim üçün Q-dəyərinə baxa bilərsiniz. Normallaşdırılmış Üstünlük Funksiyası (NAF) və ya paylama Q-Öyrənməsi kimi genişləndirmələr mövcuddur, lakin PPO robot manipulyasiyası kimi davamlı idarəetmə problemləri üçün daha çox yayılmış seçim olaraq qalır.

Kəşfiyyat Mexanizmləri

PPO, deterministik davranışa vaxtından əvvəl yaxınlaşmanın qarşısını alan stoxastik siyasətlər və entropiya bonusları vasitəsilə araşdırmanı təşviq edir. Q-Learning, agentin müəyyən ehtimalla təsadüfi hərəkətləri seçdiyi epsilon-acgözlük kimi açıq araşdırma qaydalarına əsaslanır. PPO-nun yanaşması yüksək ölçülü fəaliyyət fəzalarına daha yaxşı miqyaslanmağa meyllidir, Q-Learning-in daha sadə araşdırması isə idarəolunan hərəkət sayıları olan diskret mühitlərdə yaxşı işləyir.

Sənayedə Tətbiq

PPO, böyük dil modellərini öyrətmək üçün istifadə edilən insan rəyindən gücləndirmə öyrənməsi (RLHF) da daxil olmaqla, bir çox istehsal sistemi üçün standart seçim halına gəlmişdir. Q-Learning və onun dərin variantları oyun oyunu etalonlarında və diskret qərar tapşırıqlarında dominant olaraq qalır. Hər iki alqoritm zəngin tətbiq ekosistemlərinə malikdir, PPO Stable Baselines3 və RLlib kimi kitabxanalarda, Q-Learning variantları isə demək olar ki, hər RL çərçivəsində mövcuddur.

Üstünlüklər və Eksikliklər

Proksimal Siyasət Optimallaşdırması (PPO)

Üstünlüklər

+ Yüksək sabit təlim
+ Davamlı hərəkətləri idarə edir
+ Tətbiq etmək asandır
+ Geniş şəkildə dəstəklənir
+ Böyük modellər üçün yaxşıdır

Saxlayıcı

− Aşağı nümunə səmərəliliyi
− Təzə məlumatlar tələb edir
− Orta divar saatı vaxtı
− Mühafizəkar ola bilər

Q-Öyrənmə Alqoritmləri

Üstünlüklər

+ Yüksək nümunə səmərəliliyi
+ Keçmiş təcrübələrdən təkrar istifadə edir
+ Güclü nəzəri təməl
+ Oyunlarda yaxşı işləyir
+ Siyasətdən kənar rahatlıq

Saxlayıcı

− Həddindən artıq qiymətləndirməyə meyllidir
− Dərin variantlarda qeyri-sabitdir
− Məhdud davamlı dəstək
− Diqqətli tənzimləmə tələb olunur

Yaygın yanlış anlaşılmalar

Əfsanə

PPO və Q-Learning eyni problemləri həll edən bir-birini əvəz edə bilən alqoritmlərdir.

Həqiqət

Onlar möhkəmləndirmə öyrənməsinə əsaslı şəkildə fərqli yanaşmaları təmsil edirlər. PPO birbaşa siyasəti optimallaşdırır, Q-Learning isə fəaliyyət dəyərlərini qiymətləndirir. Hər biri fərqli ssenarilərdə üstündür və onlar arasında seçim etmək fəaliyyət sahənizdən, məlumatların mövcudluğundan və sabitlik tələblərinizdən asılıdır.

Əfsanə

Q-Learning köhnəlib və yeni alqoritmlərlə əvəz olunub.

Həqiqət

Q-Learning, xüsusən də DQN və Rainbow kimi dərin öyrənmə genişləndirmələri sayəsində olduqca aktual olaraq qalır. Bu variantlar bir çox etalonlarda ən müasir nəticələr əldə etməyə və yeni metodlar üçün konseptual əsas təşkil etməyə davam edir.

Əfsanə

PPO həmişə Q-Learning-dən daha yaxşı nəticə göstərir, çünki o, daha yenidir.

Həqiqət

Daha yenisi universal olaraq daha yaxşı demək deyil. PPO davamlı nəzarət və genişmiqyaslı təlimdə üstündür, lakin Q-Learning məhdud məlumatlarla diskret mühitlərdə ondan daha yaxşı nəticə göstərə bilər. Performans, konkret problemdən və tətbiq detallarından çox asılıdır.

Əfsanə

Q-Öyrənmə davamlı fəaliyyət sahələri ilə işləyə bilməz.

Həqiqət

Standart Q-Öyrənmə diskret hərəkətlər üçün nəzərdə tutulsa da, NAF, paylayıcı Q-Öyrənmə və hərəkətə inteqrasiya yanaşmaları kimi bir neçə genişləndirmə davamlı nəzarətə imkan verir. Lakin bunlar davamlı tapşırıqlar üçün siyasət qradiyent metodlarından daha az yaygındır.

Əfsanə

PPO-nun yaxşı işləməsi üçün heç bir hiperparametr tənzimləməsinə ehtiyac yoxdur.

Həqiqət

PPO bir çox alqoritmdən daha bağışlayıcıdır, lakin yenə də kəsmə parametrinin, öyrənmə sürətinin və entropiya əmsalının diqqətlə tənzimlənməsini tələb edir. Zəif seçimlər yavaş konvergensiyaya və ya suboptimal siyasətlərə səbəb ola bilər.

Tez-tez verilən suallar

PPO və Q-Learning arasındakı əsas fərq nədir?

PPO, vəziyyətlərdən hərəkətlərə xəritələşdirməni birbaşa öyrənən və siyasəti qradiyent yüksəlişi vasitəsilə yeniləyən bir siyasət qradiyenti alqoritmidir. Q-Öyrənmə, hər bir vəziyyət-fəaliyyət cütü üçün gözlənilən mükafatı qiymətləndirən və bu qiymətləndirmələrdən davranışı əldə edən dəyər əsaslı bir alqoritmdir. Bu əsas fərq sabitliyə, nümunə səmərəliliyinə və hər birinin ən yaxşı həll etdiyi problemlərin növlərinə təsir göstərir.

Davamlı fəaliyyət sahələri üçün hansı alqoritm daha yaxşıdır?

PPO, ümumiyyətlə, davamlı fəaliyyət sahələri üçün daha yaxşı seçimdir, çünki təbii olaraq hərəkətlər üzərində ehtimal paylanmalarını çıxarır. Q-Learning əvvəlcə diskret hərəkətlər üçün nəzərdə tutulmuşdu, baxmayaraq ki, genişləndirmələr mövcuddur. Robot qol idarəetməsi və ya muxtar sürücülük kimi tapşırıqlar üçün PPO daha çox yayılmış və etibarlı seçimdir.

Niyə PPO Q-Learning-dən daha sabitdir?

PPO, siyasətin tək bir yeniləmədə nə qədər dəyişə biləcəyini məhdudlaşdıran və Q-Learning-i bürüyə biləcək fəlakətli siyasət çöküşünün qarşısını alan kəsilmiş məqsəd funksiyasından istifadə edir. Q-Learning, həddindən artıq qiymətləndirmə qərəzliliyindən və hədəf şəbəkələri və ikiqat öyrənmə kimi əlavə üsulları azaltmaq üçün hərəkət edən hədəf problemindən əziyyət çəkir.

PPO və Q-Learning birləşdirilə bilərmi?

Bəli, hibrid yanaşmalar mövcuddur. Yumşaq Aktyor-Tənqidçi (SAC) və İkiz Gecikmiş DDPG (TD3) kimi Aktyor-Tənqidçi metodları siyasət qradiyentlərini dəyər funksiyası öyrənməsi ilə birləşdirir. Bu alqoritmlər hər iki paradiqmanın güclü tərəflərini birləşdirərək siyasət yeniləmələrini istiqamətləndirmək üçün Q-dəyər qiymətləndirməsindən istifadə edir.

Böyük dil modelləri üçün RLHF-də hansı alqoritmdən istifadə olunur?

PPO, böyük dil modellərini dəqiq tənzimləmək üçün İnsan Əlaqəsindən Gücləndirmə Öyrənməsində (RLHF) istifadə edilən standart alqoritmdir. Onun sabitliyi və yüksək ölçülü fəaliyyət sahələrini idarə etmək qabiliyyəti, insan seçim siqnallarını daxil edərkən hər bir token üçün mətn tokeni yaratmaq üçün çox uyğundur.

Q-Learning hələ də müasir süni intellekt tədqiqatlarında istifadə olunurmu?

Əlbəttə. Q-Learning möhkəmləndirmə öyrənmə tədqiqatlarında əsas alqoritm olaraq qalır. DQN, Double DQN və Rainbow kimi dərin variantlar etalonlarda güclü nəticələr əldə etməyə davam edir və öyrənmə fəaliyyət dəyərlərinin konseptual çərçivəsi bir çox yeni alqoritmlərə təsir göstərir.

Hansı alqoritmin təlimi daha az məlumat tələb edir?

Q-Learning adətən daha az məlumat tələb edir, çünki təkrarlama buferində saxlanılan keçmiş təcrübələri yenidən istifadə edə bilir. PPO siyasətdədir və adətən hər yeniləmədən sonra məlumatları atır, yəni daha çox mühit qarşılıqlı əlaqəsinə ehtiyac duyur. Məlumat toplamasının baha başa gəldiyi real həyat tətbiqlərində Q-Learning-in nümunə səmərəliliyi əhəmiyyətli bir üstünlük ola bilər.

Q-Learning-in ümumi uzantıları hansılardır?

Populyar genişləndirmələrə yüksək ölçülü girişləri emal etmək üçün Deep Q-Networks (DQN), həddindən artıq qiymətləndirmə qərəzini azaltmaq üçün Double DQN, dəyər və üstünlük qiymətləndirməsini ayırmaq üçün Dueling DQN və bir neçə təkmilləşdirməni birləşdirən Rainbow daxildir. Hər biri orijinal alqoritmin spesifik zəif cəhətlərini aradan qaldırır.

PPO və Q-Learning arasında kəşfiyyat nə ilə fərqlənir?

PPO, öyrənmə prosesinin bir hissəsi olaraq təbii olaraq kəşfiyyatı təşviq etmək üçün entropiya bonusları ilə stoxastik siyasətlərdən istifadə edir. Q-Learning adətən agentin müəyyən ehtimalla təsadüfi hərəkətlər etdiyi epsilon-acgözlük kimi açıq tədqiqat strategiyalarına əsaslanır. PPO-nun yanaşması mürəkkəb fəaliyyət sahələrinə daha yaxşı miqyaslanmağa meyllidir.

Yeni başlayanlar üçün hansı alqoritmi tətbiq etmək daha asandır?

PPO-nun sadə kəsilmiş məqsədi və daha az hərəkətli hissəsi səbəbindən sıfırdan tətbiqi çox vaxt daha asan hesab olunur. Q-Learning-in dərin variantları təkrarlama buferlərinin, hədəf şəbəkələrinin və kəşfiyyat cədvəllərinin diqqətlə idarə olunmasını tələb edir ki, bu da yeni başlayanlar üçün mürəkkəblik yaradır.

Hökm

Davamlı idarəetmə, robototexnika və ya sabitliyin ən vacib olduğu genişmiqyaslı siyasət təlimi ilə işləyərkən PPO-nu seçin. Diskret fəaliyyət sahələri, nümunə ilə məhdud ssenarilər və ya təcrübənin təkrarından istifadə etmək lazım olduqda Q-Learning-i seçin. Hər ikisi əsas alqoritmlər olaraq qalır və onların kompromislərini anlamaq, konkret möhkəmləndirmə öyrənmə probleminiz üçün düzgün vasitəni seçməyə kömək edir.

Əlaqəli müqayisələr

Açar söz axtarış motorları vs Vektor oxşarlığı axtarışı

Açar söz axtarış motorları tərs indekslərdən istifadə edərək dəqiq terminləri uyğunlaşdırır, vektor oxşarlığı axtarışı isə yüksək ölçülü yerləşdirmələr vasitəsilə semantik cəhətdən əlaqəli məzmun tapır. Hər iki yanaşma müasir məlumat axtarışını gücləndirir, lakin istifadəçi niyyətini necə şərh etdikləri və nəticələri necə sıraladıqları baxımından əsaslı şəkildə fərqlənir.

Açıq Çəkili Modellər və Qapalı Mənbəli Modellər

Açıq çəkili modellər təlim keçmiş parametrlərini ictimaiyyətə açıq şəkildə yayımlayır və hər kəsin onları yükləməsinə, yoxlamasına və dəqiq tənzimləməsinə imkan verir. Qapalı mənbəli modellər çəkilərini gizli saxlayır və yalnız API və ya hostinq məhsulları vasitəsilə giriş təklif edir. Aralarındakı seçim, tərtibatçıların süni intellekt sistemlərini necə qurduğunu, yerləşdirdiyini və etibar etdiyini formalaşdırır.

Açıq mənbəli İİ və Məxsusi İİ

Bu müqayisə açıq mənbəli süni intellekt ilə xüsusi mülkiyyətli süni intellekt arasındakı əsas fərqləri araşdırır, əlçatanlıq, fərdiləşdirmə, xərclər, dəstək, təhlükəsizlik, performans və real dünyada tətbiq hallarını əhatə edir, təşkilatların və tərtibatçıların hansı yanaşmanın onların məqsədlərinə və texniki imkanlarına uyğun gəldiyini müəyyən etməsinə kömək edir.

Açıq Mənbəli LLM-lər və Xüsusi LLM API-ləri

Açıq mənbəli LLM-lər tam kod girişi ilə özelleştirilebilir, özünəməxsus süni intellekt modelləri təklif edir, mülkiyyətçi LLM API-ləri isə istifadəyə əsaslanan qiymətlərlə bulud əsaslı son nöqtələr vasitəsilə idarə olunan, cilalanmış xidmətlər təqdim edir.

Adaptiv Axtarış və Statik Axtarış Boru Kəmərləri

Adaptiv axtarış sistemin sorğuya əsasən hansı məlumatı və necə əldə etdiyini dinamik şəkildə tənzimləyir, statik axtarış boru kəmərləri isə kontekstdən asılı olmayaraq sabit qaydalara əməl edir. Hər ikisi müasir süni intellekt tətbiqlərini gücləndirir, lakin onlar elastiklik, qiymət və dəqiqlik baxımından kəskin şəkildə fərqlənir. Aralarında seçim iş yükünün mürəkkəbliyindən və büdcədən asılıdır.