Politika içi ve politika dışı öğrenme, ajanların deneyimi nasıl topladıkları ve kullandıkları konusunda farklılık gösteren, pekiştirmeli öğrenmede iki temel yaklaşımdır. Politika içi yöntemler, ajanın gerçekten gerçekleştirdiği eylemlerden öğrenirken, politika dışı yöntemler diğer politikalar veya geçmiş davranışlar tarafından toplanan verilerden öğrenebilir.
Öne Çıkanlar
Politikaya bağlı yöntemler yalnızca mevcut politikanın eylemlerinden öğrenirken, politika dışı yöntemler herhangi bir veri kaynağından yararlanabilir.
Politika dışı öğrenme, deneyim tekrarı yoluyla üstün örnek verimliliği sunarak gerçek dünya robotik uygulamaları için idealdir.
PPO gibi politika tabanlı algoritmalar, her yinelemede yeni verilere ihtiyaç duyma pahasına daha istikrarlı bir eğitim sağlar.
Politika dışı yaklaşımlar, politika içi yöntemlerin kullanamadığı insan gösterilerinden ve geçmiş kayıtlardan öğrenmeyi mümkün kılar.
Politika İçi Öğrenme nedir?
Ajanın, geliştirilmekte olan aynı politika altında halihazırda gerçekleştirdiği eylemlerden öğrendiği bir takviyeli öğrenme yaklaşımı.
Politika odaklı yöntemler, eğitim sırasında karar vermede kullanılan aynı politikayı değerlendirir ve geliştirir.
SARSA (Durum-Eylem-Ödül-Durum-Eylem), fiilen gerçekleştirilen bir sonraki eyleme göre güncellenen klasik bir politika tabanlı algoritmadır.
PPO (Proximal Policy Optimization) ve A2C (Advantage Actor-Critic), modern derin pekiştirmeli öğrenmede yaygın olarak kullanılan politika tabanlı algoritmalardır.
Politikaya bağlı öğrenme, genellikle mevcut politikadan elde edilen yeni verilere ihtiyaç duyar; bu da onu politika dışı alternatiflere göre örneklem verimliliği açısından daha düşük hale getirir.
Bu yöntemler, uygulanan politikayı doğrudan optimize ettikleri için eğitim sırasında daha istikrarlı olma eğilimindedir.
Politika Dışı Öğrenme nedir?
Ajanın, optimize edilmekte olan politikadan farklı bir politika tarafından üretilen deneyimlerden öğrendiği bir takviyeli öğrenme yaklaşımı.
Politika dışı yöntemler, geçmiş veriler veya insan gösterileri de dahil olmak üzere herhangi bir politika tarafından toplanan verilerden öğrenebilir.
Q-öğrenme, alınan eylemden bağımsız olarak en uygun eylemlerin değerini öğrenen, temel bir politika dışı algoritmadır.
Derin Q-Ağları (DQN), sinir ağlarını kullanarak yüksek boyutlu durum uzaylarını ele almak için Q-öğrenmeyi genişletti.
DDPG, TD3 ve SAC gibi politika dışı algoritmalar, robotikte sürekli kontrol görevleri için standart hale gelmiştir.
Deneyim tekrar arabellekleri, politika dışı yöntemlerin geçmiş geçişleri yeniden kullanmasına olanak tanıyarak örnek verimliliğini önemli ölçüde artırır.
Karşılaştırma Tablosu
Özellik
Politika İçi Öğrenme
Politika Dışı Öğrenme
Veri Kaynağı
Sadece mevcut politikadan
Herhangi bir politika veya geçmiş verisi
Örnek Verimliliği
Daha düşük, yeni verilere ihtiyaç var.
Daha yüksek, geçmiş deneyimleri yeniden kullanır.
Eğitim İstikrarı
Genellikle daha istikrarlı
Dağılım kayması nedeniyle daha az istikrarlı olabilir.
Keşif
Mevcut politikaya bağlı
Davranış politikasından bağımsız
Örnek Algoritmalar
SARSA, PPO, A2C, TAKVİYE
Q-Learning, DQN, DDPG, SAC, TD3
Bellek Gereksinimleri
Daha düşük, tekrar oynatma arabelleğine gerek yok.
Daha yüksek, büyük tekrar oynatma arabellekleri gerektirir.
Yaygın Kullanım Senaryoları
Oyun yapay zekası, robotik simülasyonu, dil modelleri
Robotik, öneri sistemleri, otonom sürüş
Sapma-Varyans Değişimi
Daha düşük varyans, bir miktar sapma
Daha düşük sapma, daha yüksek varyans
Ayrıntılı Karşılaştırma
Temel Öğrenme Mekanizması
Temel ayrım, eğitim verilerini hangi politikanın ürettiğinde yatmaktadır. Politika tabanlı öğrenme, keşif sırasında izlenen politikayı değerlendirir ve iyileştirir; yani her güncelleme, ajanın gerçekte yapacağı eylemleri yansıtır. Politika dışı öğrenme ise bu hususları tamamen birbirinden ayırır ve ajanın, kendisinin eski bir sürümünden, rastgele bir politikadan veya hatta bir insan göstericisinden toplanmış olabilecek verilerden en uygun davranışı öğrenmesine olanak tanır.
Örnek Verimliliği ve Veri Yeniden Kullanımı
Veri pahalı veya kıt olduğunda, politika dışı yöntemler öne çıkar. Geçişleri bir tekrar oynatma arabelleğinde depolayarak ve bundan tekrar tekrar örnekleme yaparak, DQN ve SAC gibi algoritmalar, ortamla her etkileşimden maksimum öğrenme değerini çıkarabilir. Politika içi yöntemler genellikle tek kullanımdan sonra verileri atar; bu, ucuz simülasyon ortamlarında iyi çalışır, ancak fiziksel robotik gibi her etkileşimin gerçek zaman veya para maliyeti olduğu durumlarda pratik olmaktan çıkar.
İstikrar ve Yakınsama
Politika tabanlı yaklaşımlar genellikle daha öngörülebilir yakınsama sunar çünkü optimize edilen politika her zaman veri üreten politikadır ve dağıtım uyumsuzluğunu ortadan kaldırır. Politika dışı yöntemler ise dağıtım kayması sorunuyla karşı karşıyadır; burada veri dağılımı mevcut politikanın üreteceğinden sapar ve bazen istikrarsızlığa veya sapmaya neden olur. Hedef ağlar, önem örneklemesi ve politika kısıtlamaları gibi teknikler bu sorunları hafifletmeye yardımcı olur ancak karmaşıklığı artırır.
Keşif Stratejileri
Politika içi öğrenmede, keşif doğal olarak mevcut politikaya bağlıdır ve genellikle rastgele eylem seçimi veya entropi bonusları yoluyla gerçekleştirilir. Politika dışı öğrenme, keşfi öğrenmeden ayırarak, hedef politika sömürmeyi öğrenirken geniş kapsamlı keşif yapabilen ayrı davranış politikalarına olanak tanır. Bu ayrım, azalan zaman çizelgelerine sahip epsilon-açgözlü veya merak odaklı davranış politikaları gibi gelişmiş keşif stratejilerini mümkün kılar.
Pratik Uygulamalar
Simülasyonun ucuz olduğu ve istikrarın önemli olduğu alanlarda, örneğin oyun oynayan ajanların eğitilmesi ve RLHF ile büyük dil modellerinin ince ayarlanması gibi, politika tabanlı yöntemler baskın konumdadır. Politika dışı yöntemler ise gerçek dünya verisi toplamanın maliyetli olduğu robotikte ve kullanıcı etkileşimlerinin büyük kayıtlarının zengin eğitim verisi sağladığı öneri sistemlerinde üstünlük sağlar. Seçim genellikle bol miktarda simülasyon verisine mi yoksa değerli gerçek dünya verilerine mi sahip olduğunuza bağlıdır.
Artılar ve Eksiler
Politika İçi Öğrenme
Artılar
+Daha istikrarlı eğitim
+Daha basit uygulama
+Tekrar oynatma arabelleğine gerek yok.
+Doğrudan politika optimizasyonu
Devam
−Daha düşük örnek verimliliği
−Yeni verilere ihtiyaç duyuyor.
−Daha yavaş gerçek zamanlı eğitim
−Sınırlı veri yeniden kullanımı
Politika Dışı Öğrenme
Artılar
+Yüksek numune verimliliği
+Geçmiş verileri yeniden kullanır.
+Gösterilerden öğrenir.
+Ayrıştırılmış keşif
Devam
−Eğitim istikrarsızlığı riski
−Daha büyük bellek kullanımı
−Dağıtım kayması sorunları
−Daha karmaşık algoritmalar
Yaygın Yanlış Anlamalar
Efsane
Politika dışı öğrenme her zaman daha iyidir çünkü verileri yeniden kullanır.
Gerçeklik
Politika dışı yöntemler örneklem açısından daha verimli olsa da, genellikle eğitim istikrarsızlığından muzdariptir ve hedef ağlar ve önem örneklemesi gibi tekniklerin dikkatli bir şekilde ayarlanmasını gerektirir. Politika içi yöntemler, simülasyonun ucuz olduğu ve istikrarın çok önemli olduğu ortamlarda politika dışı yaklaşımlardan daha iyi performans gösterebilir.
Efsane
Politika tabanlı öğrenme, geçmiş verilerden yararlanamaz.
Gerçeklik
Politika tabanlı yöntemler teknik olarak geçmiş verileri kullanabilir, ancak bunu yapmak yüksek varyans oluşturan önem örnekleme düzeltmeleri gerektirir. Pratikte, mevcut politikadan elde edilen yeni verilerle en iyi sonucu verirler; bu nedenle PPO gibi algoritmalar uygulama örneklerini toplar, bunlar üzerinde eğitim yapar ve daha sonra bunları atar.
Efsane
Q-öğrenme, en uygun eylem değerini öğrendiği için politika dışı bir algoritmadır.
Gerçeklik
Q-öğrenme, optimal politikayı öğrenirken keşif sırasında potansiyel olarak farklı bir davranış politikası izlediği için politika dışı bir algoritma olarak sınıflandırılır. Başlangıç noktası olarak kullandığı hedef, açgözlü eylem seçimini varsayar; bu da veri üretmek için gerçekte yapılan eylemlerden farklı olabilir.
Efsane
Tüm derin pekiştirmeli öğrenme algoritmaları, politika dışı (off-policy) algoritmalardır.
Gerçeklik
Birçok popüler derin pekiştirmeli öğrenme algoritması, PPO, A2C ve TRPO dahil olmak üzere, politika tabanlıdır. Politika tabanlı ve politika dışı arasındaki ayrım, sinir ağlarının kullanılıp kullanılmamasından bağımsızdır ve her iki kategori de başarılı derin öğrenme uygulamalarına sahiptir.
Efsane
Politika dışı öğrenme, politika içi öğrenmeye göre her zaman daha hızlı yakınsar.
Gerçeklik
Yakınsama hızı, ortama ve uygulamaya bağlıdır. Politika dışı yöntemler daha az ortam etkileşimi gerektirebilir, ancak genellikle daha fazla gradyan güncellemesi ve dikkatli hiperparametre ayarlaması gerektirir. Bazı görevlerde, politika içi yöntemler daha fazla örnek kullanılmasına rağmen, gerçek zaman diliminde daha hızlı bir şekilde iyi politikalara ulaşır.
Sıkça Sorulan Sorular
Politika odaklı öğrenme ile politika dışı öğrenme arasındaki temel fark nedir?
Temel fark, politika üreten veri ile öğrenilen politika arasındaki ilişkidir. Politika odaklı yöntemler, deneyim toplayan aynı politikayı geliştirirken, politika dışı yöntemler farklı bir politika tarafından üretilen verilerden öğrenir. Bu durum, örneklem verimliliğini, istikrarını ve her yaklaşımın kullanabileceği veri türlerini etkiler.
Politikaya uygun yöntem mi yoksa politika dışı yöntem mi daha verimli örneklem üretir?
Politika dışı yöntemler, tekrar oynatma tamponları aracılığıyla geçmiş deneyimleri yeniden kullanabildikleri için genellikle daha örneklem verimliliğine sahiptir. SAC ve DQN gibi algoritmalar tek bir geçişten birden fazla kez öğrenebilirken, PPO gibi politika içi yöntemler genellikle her geçişi yalnızca bir kez kullandıktan sonra atar.
PPO poliçe kapsamında mı yoksa poliçe dışı mı?
PPO (Proximal Policy Optimization), politika tabanlı bir algoritmadır. Mevcut politikayı kullanarak dağıtımları toplar, bu veriler üzerinde birkaç epoch boyunca eğitim yapar, ardından verileri atar ve yeni örnekler toplar. Bu verimsizliğine rağmen, PPO, çeşitli görevlerdeki istikrarlı ve güvenilir performansı nedeniyle popülerliğini korumaktadır.
Politika dışı öğrenme, insan gösterilerinden elde edilen verileri kullanabilir mi?
Evet, bu, politika dışı öğrenmenin en büyük avantajlarından biridir. Algoritmalar, insanlardan alınan gösterim verileri kullanılarak başlatılabilir veya önceden eğitilebilir, ardından kendi kendine keşif yoluyla öğrenmeye devam edebilir. Genellikle gösterimden öğrenme veya taklit öğrenme başlatma olarak adlandırılan bu yaklaşım, uzman örneklerinin öğrenmeyi hızlandırdığı robotikte yaygın olarak kullanılmaktadır.
Politika dışı öğrenmenin istikrar sorunları neden vardır?
Politika dışı yöntemler, ölümcül üçlü sorunla karşı karşıyadır: fonksiyon yaklaştırma, önyükleme ve politika dışı verilerin birleştirilmesi sapmaya yol açabilir. Değer fonksiyonu sinir ağlarıyla yaklaştırıldığında ve farklı bir dağılımdan gelen hedefler kullanılarak güncellendiğinde, hatalar birikebilir. Hedef ağlar, çift Q-öğrenme ve muhafazakar güncellemeler gibi teknikler bu sorunu çözmeye yardımcı olur.
Politika dışı öğrenmede önem örneklemesi nedir?
Önem örneklemesi, davranış politikası ile hedef politika arasındaki dağılım uyumsuzluğunu düzelten istatistiksel bir tekniktir. Her politika altındaki olasılık oranına göre güncellemeleri yeniden ağırlıklandırarak, politika gradyan yöntemlerinde politika dışı düzeltmelere olanak tanır. Bununla birlikte, bu oran yüksek varyansa sahip olabilir ve bu da pratik uygulanabilirliğini sınırlayabilir.
Robotik uygulamalar için hangi yaklaşım daha iyidir?
Robotikte gerçek dünya etkileşimleri maliyetli ve zaman alıcı olduğundan, genellikle politika dışı yöntemler tercih edilir. SAC ve TD3 gibi algoritmalar, deneyimleri yeniden kullanarak sınırlı verilerden karmaşık manipülasyon görevlerini öğrenebilir. Bununla birlikte, öğrenilen politikalar donanıma aktarılmadan önce robot simülasyonunda bazen politika içi yöntemler de kullanılır.
Q-öğrenme politika kapsamında mı yoksa politika dışı mı?
Q-öğrenme, politika dışı bir algoritmadır. Ajanın keşif sırasında hangi eylemi gerçekleştirdiğine bakılmaksızın, her durumda mümkün olan en iyi eylemi gerçekleştirmenin değerini öğrenir. Bu, rastgele veya keşifsel bir politikayı izlerken bile en uygun davranışı öğrenmesini sağlar; bu nedenle DQN'de deneyim tekrarı ile iyi çalışır.
Deneyim tekrarı, politika içi ve politika dışı uygulamalarla nasıl ilişkilidir?
Deneyim tekrarı, öncelikle politika dışı öğrenmeyle ilişkilidir çünkü eski politikalar tarafından oluşturulmuş olabilecek geçmiş geçişleri depolar ve yeniden kullanır. Politika içi yöntemler genellikle tekrar tamponlarından kaçınır çünkü eski verilerin yeniden kullanılması politika içi varsayımını ihlal eder, ancak bazı hibrit yaklaşımlar da mevcuttur.
Politikaya uygun ve politika dışı yöntemleri bir arada kullanabilir misiniz?
Evet, hibrit yaklaşımlar mevcuttur. Bazı algoritmalar, öncelikle politika tabanlı çalışırken, ön eğitim veya yardımcı amaçlar için politika dışı verileri kullanır. Aktör-eleştirmen yöntemleri genellikle ikisini birleştirir; burada eleştirmen politika dışı verileri öğrenirken aktör politika tabanlı verileri günceller. Her iki dünyanın da en iyisini bir araya getiren yöntemler üzerine araştırmalar devam etmektedir.
Karar
Eğitim istikrarına ihtiyaç duyduğunuzda ve özellikle oyun yapay zekası veya dil modellerindeki politika gradyan yöntemleri gibi görevler için ucuz simülasyon ortamlarına erişiminiz olduğunda, politika tabanlı öğrenmeyi tercih edin. Örneklem verimliliğinin kritik olduğu, veri toplamanın pahalı olduğu veya gösterimler veya kaydedilmiş etkileşimler gibi mevcut veri kümelerinden öğrenmeniz gerektiğinde, politika dışı öğrenmeyi tercih edin.