pekiştirme öğrenmesimakine öğrenimiyapay zekapolitika optimizasyonurl-algoritmaları

Politika İçi Öğrenme vs. Politika Dışı Öğrenme

Politika içi ve politika dışı öğrenme, ajanların deneyimi nasıl topladıkları ve kullandıkları konusunda farklılık gösteren, pekiştirmeli öğrenmede iki temel yaklaşımdır. Politika içi yöntemler, ajanın gerçekten gerçekleştirdiği eylemlerden öğrenirken, politika dışı yöntemler diğer politikalar veya geçmiş davranışlar tarafından toplanan verilerden öğrenebilir.

Öne Çıkanlar

Politikaya bağlı yöntemler yalnızca mevcut politikanın eylemlerinden öğrenirken, politika dışı yöntemler herhangi bir veri kaynağından yararlanabilir.
Politika dışı öğrenme, deneyim tekrarı yoluyla üstün örnek verimliliği sunarak gerçek dünya robotik uygulamaları için idealdir.
PPO gibi politika tabanlı algoritmalar, her yinelemede yeni verilere ihtiyaç duyma pahasına daha istikrarlı bir eğitim sağlar.
Politika dışı yaklaşımlar, politika içi yöntemlerin kullanamadığı insan gösterilerinden ve geçmiş kayıtlardan öğrenmeyi mümkün kılar.

Politika İçi Öğrenme nedir?

Ajanın, geliştirilmekte olan aynı politika altında halihazırda gerçekleştirdiği eylemlerden öğrendiği bir takviyeli öğrenme yaklaşımı.

Politika odaklı yöntemler, eğitim sırasında karar vermede kullanılan aynı politikayı değerlendirir ve geliştirir.
SARSA (Durum-Eylem-Ödül-Durum-Eylem), fiilen gerçekleştirilen bir sonraki eyleme göre güncellenen klasik bir politika tabanlı algoritmadır.
PPO (Proximal Policy Optimization) ve A2C (Advantage Actor-Critic), modern derin pekiştirmeli öğrenmede yaygın olarak kullanılan politika tabanlı algoritmalardır.
Politikaya bağlı öğrenme, genellikle mevcut politikadan elde edilen yeni verilere ihtiyaç duyar; bu da onu politika dışı alternatiflere göre örneklem verimliliği açısından daha düşük hale getirir.
Bu yöntemler, uygulanan politikayı doğrudan optimize ettikleri için eğitim sırasında daha istikrarlı olma eğilimindedir.

Politika Dışı Öğrenme nedir?

Ajanın, optimize edilmekte olan politikadan farklı bir politika tarafından üretilen deneyimlerden öğrendiği bir takviyeli öğrenme yaklaşımı.

Politika dışı yöntemler, geçmiş veriler veya insan gösterileri de dahil olmak üzere herhangi bir politika tarafından toplanan verilerden öğrenebilir.
Q-öğrenme, alınan eylemden bağımsız olarak en uygun eylemlerin değerini öğrenen, temel bir politika dışı algoritmadır.
Derin Q-Ağları (DQN), sinir ağlarını kullanarak yüksek boyutlu durum uzaylarını ele almak için Q-öğrenmeyi genişletti.
DDPG, TD3 ve SAC gibi politika dışı algoritmalar, robotikte sürekli kontrol görevleri için standart hale gelmiştir.
Deneyim tekrar arabellekleri, politika dışı yöntemlerin geçmiş geçişleri yeniden kullanmasına olanak tanıyarak örnek verimliliğini önemli ölçüde artırır.

Karşılaştırma Tablosu

Özellik	Politika İçi Öğrenme	Politika Dışı Öğrenme
Veri Kaynağı	Sadece mevcut politikadan	Herhangi bir politika veya geçmiş verisi
Örnek Verimliliği	Daha düşük, yeni verilere ihtiyaç var.	Daha yüksek, geçmiş deneyimleri yeniden kullanır.
Eğitim İstikrarı	Genellikle daha istikrarlı	Dağılım kayması nedeniyle daha az istikrarlı olabilir.
Keşif	Mevcut politikaya bağlı	Davranış politikasından bağımsız
Örnek Algoritmalar	SARSA, PPO, A2C, TAKVİYE	Q-Learning, DQN, DDPG, SAC, TD3
Bellek Gereksinimleri	Daha düşük, tekrar oynatma arabelleğine gerek yok.	Daha yüksek, büyük tekrar oynatma arabellekleri gerektirir.
Yaygın Kullanım Senaryoları	Oyun yapay zekası, robotik simülasyonu, dil modelleri	Robotik, öneri sistemleri, otonom sürüş
Sapma-Varyans Değişimi	Daha düşük varyans, bir miktar sapma	Daha düşük sapma, daha yüksek varyans

Ayrıntılı Karşılaştırma

Temel Öğrenme Mekanizması

Temel ayrım, eğitim verilerini hangi politikanın ürettiğinde yatmaktadır. Politika tabanlı öğrenme, keşif sırasında izlenen politikayı değerlendirir ve iyileştirir; yani her güncelleme, ajanın gerçekte yapacağı eylemleri yansıtır. Politika dışı öğrenme ise bu hususları tamamen birbirinden ayırır ve ajanın, kendisinin eski bir sürümünden, rastgele bir politikadan veya hatta bir insan göstericisinden toplanmış olabilecek verilerden en uygun davranışı öğrenmesine olanak tanır.

Örnek Verimliliği ve Veri Yeniden Kullanımı

Veri pahalı veya kıt olduğunda, politika dışı yöntemler öne çıkar. Geçişleri bir tekrar oynatma arabelleğinde depolayarak ve bundan tekrar tekrar örnekleme yaparak, DQN ve SAC gibi algoritmalar, ortamla her etkileşimden maksimum öğrenme değerini çıkarabilir. Politika içi yöntemler genellikle tek kullanımdan sonra verileri atar; bu, ucuz simülasyon ortamlarında iyi çalışır, ancak fiziksel robotik gibi her etkileşimin gerçek zaman veya para maliyeti olduğu durumlarda pratik olmaktan çıkar.

İstikrar ve Yakınsama

Politika tabanlı yaklaşımlar genellikle daha öngörülebilir yakınsama sunar çünkü optimize edilen politika her zaman veri üreten politikadır ve dağıtım uyumsuzluğunu ortadan kaldırır. Politika dışı yöntemler ise dağıtım kayması sorunuyla karşı karşıyadır; burada veri dağılımı mevcut politikanın üreteceğinden sapar ve bazen istikrarsızlığa veya sapmaya neden olur. Hedef ağlar, önem örneklemesi ve politika kısıtlamaları gibi teknikler bu sorunları hafifletmeye yardımcı olur ancak karmaşıklığı artırır.

Keşif Stratejileri

Politika içi öğrenmede, keşif doğal olarak mevcut politikaya bağlıdır ve genellikle rastgele eylem seçimi veya entropi bonusları yoluyla gerçekleştirilir. Politika dışı öğrenme, keşfi öğrenmeden ayırarak, hedef politika sömürmeyi öğrenirken geniş kapsamlı keşif yapabilen ayrı davranış politikalarına olanak tanır. Bu ayrım, azalan zaman çizelgelerine sahip epsilon-açgözlü veya merak odaklı davranış politikaları gibi gelişmiş keşif stratejilerini mümkün kılar.

Pratik Uygulamalar

Simülasyonun ucuz olduğu ve istikrarın önemli olduğu alanlarda, örneğin oyun oynayan ajanların eğitilmesi ve RLHF ile büyük dil modellerinin ince ayarlanması gibi, politika tabanlı yöntemler baskın konumdadır. Politika dışı yöntemler ise gerçek dünya verisi toplamanın maliyetli olduğu robotikte ve kullanıcı etkileşimlerinin büyük kayıtlarının zengin eğitim verisi sağladığı öneri sistemlerinde üstünlük sağlar. Seçim genellikle bol miktarda simülasyon verisine mi yoksa değerli gerçek dünya verilerine mi sahip olduğunuza bağlıdır.

Artılar ve Eksiler

Politika İçi Öğrenme

Artılar

+ Daha istikrarlı eğitim
+ Daha basit uygulama
+ Tekrar oynatma arabelleğine gerek yok.
+ Doğrudan politika optimizasyonu

Devam

− Daha düşük örnek verimliliği
− Yeni verilere ihtiyaç duyuyor.
− Daha yavaş gerçek zamanlı eğitim
− Sınırlı veri yeniden kullanımı

Politika Dışı Öğrenme

Artılar

+ Yüksek numune verimliliği
+ Geçmiş verileri yeniden kullanır.
+ Gösterilerden öğrenir.
+ Ayrıştırılmış keşif

Devam

− Eğitim istikrarsızlığı riski
− Daha büyük bellek kullanımı
− Dağıtım kayması sorunları
− Daha karmaşık algoritmalar

Yaygın Yanlış Anlamalar

Efsane

Politika dışı öğrenme her zaman daha iyidir çünkü verileri yeniden kullanır.

Gerçeklik

Politika dışı yöntemler örneklem açısından daha verimli olsa da, genellikle eğitim istikrarsızlığından muzdariptir ve hedef ağlar ve önem örneklemesi gibi tekniklerin dikkatli bir şekilde ayarlanmasını gerektirir. Politika içi yöntemler, simülasyonun ucuz olduğu ve istikrarın çok önemli olduğu ortamlarda politika dışı yaklaşımlardan daha iyi performans gösterebilir.

Efsane

Politika tabanlı öğrenme, geçmiş verilerden yararlanamaz.

Gerçeklik

Politika tabanlı yöntemler teknik olarak geçmiş verileri kullanabilir, ancak bunu yapmak yüksek varyans oluşturan önem örnekleme düzeltmeleri gerektirir. Pratikte, mevcut politikadan elde edilen yeni verilerle en iyi sonucu verirler; bu nedenle PPO gibi algoritmalar uygulama örneklerini toplar, bunlar üzerinde eğitim yapar ve daha sonra bunları atar.

Efsane

Q-öğrenme, en uygun eylem değerini öğrendiği için politika dışı bir algoritmadır.

Gerçeklik

Q-öğrenme, optimal politikayı öğrenirken keşif sırasında potansiyel olarak farklı bir davranış politikası izlediği için politika dışı bir algoritma olarak sınıflandırılır. Başlangıç noktası olarak kullandığı hedef, açgözlü eylem seçimini varsayar; bu da veri üretmek için gerçekte yapılan eylemlerden farklı olabilir.

Efsane

Tüm derin pekiştirmeli öğrenme algoritmaları, politika dışı (off-policy) algoritmalardır.

Gerçeklik

Birçok popüler derin pekiştirmeli öğrenme algoritması, PPO, A2C ve TRPO dahil olmak üzere, politika tabanlıdır. Politika tabanlı ve politika dışı arasındaki ayrım, sinir ağlarının kullanılıp kullanılmamasından bağımsızdır ve her iki kategori de başarılı derin öğrenme uygulamalarına sahiptir.

Efsane

Politika dışı öğrenme, politika içi öğrenmeye göre her zaman daha hızlı yakınsar.

Gerçeklik

Yakınsama hızı, ortama ve uygulamaya bağlıdır. Politika dışı yöntemler daha az ortam etkileşimi gerektirebilir, ancak genellikle daha fazla gradyan güncellemesi ve dikkatli hiperparametre ayarlaması gerektirir. Bazı görevlerde, politika içi yöntemler daha fazla örnek kullanılmasına rağmen, gerçek zaman diliminde daha hızlı bir şekilde iyi politikalara ulaşır.

Sıkça Sorulan Sorular

Politika odaklı öğrenme ile politika dışı öğrenme arasındaki temel fark nedir?

Temel fark, politika üreten veri ile öğrenilen politika arasındaki ilişkidir. Politika odaklı yöntemler, deneyim toplayan aynı politikayı geliştirirken, politika dışı yöntemler farklı bir politika tarafından üretilen verilerden öğrenir. Bu durum, örneklem verimliliğini, istikrarını ve her yaklaşımın kullanabileceği veri türlerini etkiler.

Politikaya uygun yöntem mi yoksa politika dışı yöntem mi daha verimli örneklem üretir?

Politika dışı yöntemler, tekrar oynatma tamponları aracılığıyla geçmiş deneyimleri yeniden kullanabildikleri için genellikle daha örneklem verimliliğine sahiptir. SAC ve DQN gibi algoritmalar tek bir geçişten birden fazla kez öğrenebilirken, PPO gibi politika içi yöntemler genellikle her geçişi yalnızca bir kez kullandıktan sonra atar.

PPO poliçe kapsamında mı yoksa poliçe dışı mı?

PPO (Proximal Policy Optimization), politika tabanlı bir algoritmadır. Mevcut politikayı kullanarak dağıtımları toplar, bu veriler üzerinde birkaç epoch boyunca eğitim yapar, ardından verileri atar ve yeni örnekler toplar. Bu verimsizliğine rağmen, PPO, çeşitli görevlerdeki istikrarlı ve güvenilir performansı nedeniyle popülerliğini korumaktadır.

Politika dışı öğrenme, insan gösterilerinden elde edilen verileri kullanabilir mi?

Evet, bu, politika dışı öğrenmenin en büyük avantajlarından biridir. Algoritmalar, insanlardan alınan gösterim verileri kullanılarak başlatılabilir veya önceden eğitilebilir, ardından kendi kendine keşif yoluyla öğrenmeye devam edebilir. Genellikle gösterimden öğrenme veya taklit öğrenme başlatma olarak adlandırılan bu yaklaşım, uzman örneklerinin öğrenmeyi hızlandırdığı robotikte yaygın olarak kullanılmaktadır.

Politika dışı öğrenmenin istikrar sorunları neden vardır?

Politika dışı yöntemler, ölümcül üçlü sorunla karşı karşıyadır: fonksiyon yaklaştırma, önyükleme ve politika dışı verilerin birleştirilmesi sapmaya yol açabilir. Değer fonksiyonu sinir ağlarıyla yaklaştırıldığında ve farklı bir dağılımdan gelen hedefler kullanılarak güncellendiğinde, hatalar birikebilir. Hedef ağlar, çift Q-öğrenme ve muhafazakar güncellemeler gibi teknikler bu sorunu çözmeye yardımcı olur.

Politika dışı öğrenmede önem örneklemesi nedir?

Önem örneklemesi, davranış politikası ile hedef politika arasındaki dağılım uyumsuzluğunu düzelten istatistiksel bir tekniktir. Her politika altındaki olasılık oranına göre güncellemeleri yeniden ağırlıklandırarak, politika gradyan yöntemlerinde politika dışı düzeltmelere olanak tanır. Bununla birlikte, bu oran yüksek varyansa sahip olabilir ve bu da pratik uygulanabilirliğini sınırlayabilir.

Robotik uygulamalar için hangi yaklaşım daha iyidir?

Robotikte gerçek dünya etkileşimleri maliyetli ve zaman alıcı olduğundan, genellikle politika dışı yöntemler tercih edilir. SAC ve TD3 gibi algoritmalar, deneyimleri yeniden kullanarak sınırlı verilerden karmaşık manipülasyon görevlerini öğrenebilir. Bununla birlikte, öğrenilen politikalar donanıma aktarılmadan önce robot simülasyonunda bazen politika içi yöntemler de kullanılır.

Q-öğrenme politika kapsamında mı yoksa politika dışı mı?

Q-öğrenme, politika dışı bir algoritmadır. Ajanın keşif sırasında hangi eylemi gerçekleştirdiğine bakılmaksızın, her durumda mümkün olan en iyi eylemi gerçekleştirmenin değerini öğrenir. Bu, rastgele veya keşifsel bir politikayı izlerken bile en uygun davranışı öğrenmesini sağlar; bu nedenle DQN'de deneyim tekrarı ile iyi çalışır.

Deneyim tekrarı, politika içi ve politika dışı uygulamalarla nasıl ilişkilidir?

Deneyim tekrarı, öncelikle politika dışı öğrenmeyle ilişkilidir çünkü eski politikalar tarafından oluşturulmuş olabilecek geçmiş geçişleri depolar ve yeniden kullanır. Politika içi yöntemler genellikle tekrar tamponlarından kaçınır çünkü eski verilerin yeniden kullanılması politika içi varsayımını ihlal eder, ancak bazı hibrit yaklaşımlar da mevcuttur.

Politikaya uygun ve politika dışı yöntemleri bir arada kullanabilir misiniz?

Evet, hibrit yaklaşımlar mevcuttur. Bazı algoritmalar, öncelikle politika tabanlı çalışırken, ön eğitim veya yardımcı amaçlar için politika dışı verileri kullanır. Aktör-eleştirmen yöntemleri genellikle ikisini birleştirir; burada eleştirmen politika dışı verileri öğrenirken aktör politika tabanlı verileri günceller. Her iki dünyanın da en iyisini bir araya getiren yöntemler üzerine araştırmalar devam etmektedir.

Karar

Eğitim istikrarına ihtiyaç duyduğunuzda ve özellikle oyun yapay zekası veya dil modellerindeki politika gradyan yöntemleri gibi görevler için ucuz simülasyon ortamlarına erişiminiz olduğunda, politika tabanlı öğrenmeyi tercih edin. Örneklem verimliliğinin kritik olduğu, veri toplamanın pahalı olduğu veya gösterimler veya kaydedilmiş etkileşimler gibi mevcut veri kümelerinden öğrenmeniz gerektiğinde, politika dışı öğrenmeyi tercih edin.

İlgili Karşılaştırmalar

Açık Kaynaklı LLM'ler ve Tescilli LLM API'leri

Açık kaynaklı LLM'ler, tam kod erişimiyle özelleştirilebilir, kendi kendine barındırılan yapay zeka modelleri sunarken, tescilli LLM API'leri ise bulut tabanlı uç noktalar aracılığıyla kullanım tabanlı fiyatlandırmayla yönetilen, geliştirilmiş hizmetler sağlar.

Açık Kaynaklı Modeller ve Kapalı Kaynaklı Modeller

Açık kaynaklı modeller, eğitilmiş parametrelerini herkese açık bir şekilde yayınlayarak herkesin bunları indirmesine, incelemesine ve ince ayar yapmasına olanak tanır. Kapalı kaynaklı modeller ise ağırlıklarını gizli tutarak yalnızca API'ler veya barındırılan ürünler aracılığıyla erişim sağlar. Bu iki model arasındaki seçim, geliştiricilerin yapay zeka sistemlerini nasıl oluşturduklarını, dağıttıklarını ve onlara nasıl güvendiklerini şekillendirir.

Açık Kaynaklı Yapay Zeka vs Özel Mülkiyetli Yapay Zeka

Bu karşılaştırma, açık kaynaklı yapay zeka ile tescilli yapay zeka arasındaki temel farkları ele alıyor; erişilebilirlik, özelleştirme, maliyet, destek, güvenlik, performans ve gerçek dünya kullanım senaryolarını kapsıyor. Bu sayede kuruluşlar ve geliştiriciler, hangi yaklaşımın hedeflerine ve teknik yetkinliklerine uygun olduğunu belirleyebilir.

Ağ Tabanlı Makine Öğrenimi ile Yalnızca Hesaplama Tabanlı Makine Öğrenimi Karşılaştırması

Ağ tabanlı makine öğrenimi, gecikme süresi, bant genişliği ve topoloji gibi ağ koşullarını doğrudan model tasarımına ve çıkarım kararlarına dahil ederken, yalnızca hesaplama odaklı makine öğrenimi, GPU gücü ve bellek gibi hesaplama kaynaklarına odaklanır. İlki dağıtılmış ortamlar için optimizasyon yaparken, ikincisi bol miktarda yerel hesaplama gücü olduğunu varsayar.

Ajan İşbirliği ve Merkezi Model Akıl Yürütme Karşılaştırması

Ajan işbirliği ve merkezi model akıl yürütme, karmaşık yapay zeka problemlerini çözmeye yönelik iki farklı yaklaşımı temsil eder. Çoklu ajan sistemleri bilişsel süreçleri uzmanlaşmış düğümler arasında dağıtırken, merkezi akıl yürütme karar verme sürecini tek bir güçlü model içinde yoğunlaştırır. Her paradigma, ölçeklenebilirlik, yorumlanabilirlik ve görev performansı açısından benzersiz avantajlar ve dezavantajlar sunar.