یادگیری تقویتییادگیری ماشینیهوش مصنوعیپی پی اوکیو-لرنینگیادگیری عمیق
بهینهسازی سیاست پروگزیمال (PPO) در مقابل الگوریتمهای یادگیری Q
PPO یک روش یادگیری تقویتی گرادیان سیاستی است که به دلیل پایداری و مقیاسپذیری ارزشمند است، در حالی که Q-Learning یک رویکرد مبتنی بر ارزش است که توابع عمل-مقدار را یاد میگیرد. هر دو عاملها را از طریق آزمون و خطا آموزش میدهند، اما اساساً در نحوه نمایش دانش و بهروزرسانی رفتار متفاوت هستند.
برجستهها
PPO مبتنی بر سیاست داخلی (on-policy) و گرادیان سیاست است، در حالی که Q-Learning خارج از سیاست و مبتنی بر ارزش است.
هدف کوتاهشدهی PPO، آموزش پایدارتری نسبت به رویکردهای استاندارد Q-Learning ارائه میدهد.
Q-Learning از طریق بافرهای بازپخش، تجربیات گذشته را دوباره استفاده میکند و به آن راندمان نمونه بهتری میدهد.
PPO فضاهای عمل پیوسته را به صورت بومی مدیریت میکند، در حالی که Q-Learning در ابتدا برای اعمال گسسته ساخته شده بود.
بهینهسازی سیاست پروگزیمال (PPO) چیست؟
یک الگوریتم یادگیری تقویتی گرادیان سیاست که سیاستها را از طریق توابع هدف برش داده شده برای آموزش پایدار بهروزرسانی میکند.
PPO توسط جان شولمن و همکارانش در OpenAI در سال ۲۰۱۷ معرفی شد.
از یک هدف جایگزین کوتاهشده استفاده میکند که از بهروزرسانیهای مخرب و بزرگ سیاست جلوگیری میکند.
PPO به خانواده روشهای بهینهسازی سیاست تعلق دارد، به این معنی که مستقیماً نگاشتی از حالتها به کنشها را یاد میگیرد.
این الگوریتم از هر دو فضای عمل پیوسته و گسسته با حداقل تغییرات معماری پشتیبانی میکند.
PPO به یکی از پرکاربردترین الگوریتمهای یادگیری تقویتی (RL) در صنعت تبدیل شد و کاربردهایی از رباتیک گرفته تا تنظیم دقیق مدلهای زبانی بزرگ را تقویت کرد.
الگوریتمهای یادگیری Q چیست؟
یک رویکرد یادگیری تقویتی مبتنی بر ارزش که پاداش مورد انتظار برای انجام اقدامات در حالتهای داده شده را تخمین میزند.
کیو-لرنینگ (Q-Learning) توسط کریستوفر واتکینز در پایاننامه دکترای او در سال ۱۹۸۹ به عنوان یک روش یادگیری تقویتی مستقل از مدل معرفی شد.
این الگوریتم یک تابع مقدار-عمل، که معمولاً تابع Q نامیده میشود، را یاد میگیرد که پاداشهای آینده را برای جفتهای حالت-عمل پیشبینی میکند.
شبکههای عمیق Q (DQN) در سال ۲۰۱۳ با استفاده از شبکههای عصبی، Q-Learning را به ورودیهای با ابعاد بالا گسترش دادند.
Q-Learning اساساً خارج از سیاست است، به این معنی که میتواند از تجربیات جمعآوریشده توسط سیاستهای رفتاری مختلف یاد بگیرد.
این الگوریتم، پایه و اساس بسیاری از پیشرفتهای مدرن در یادگیری تقویتی، از جمله عاملهای بازی آتاری، را تشکیل میدهد.
جدول مقایسه
ویژگی
بهینهسازی سیاست پروگزیمال (PPO)
الگوریتمهای یادگیری Q
نوع الگوریتم
گرادیان سیاست (روی سیاست)
مبتنی بر ارزش (خارج از سیاست)
سال معرفی
۲۰۱۷ (اوپنایآی)
۱۹۸۹ (واتکینز)
هدف اصلی یادگیری
نگاشت تابع سیاست به اقدامات
تابع Q-value که کیفیت عمل را تخمین میزند
پشتیبانی فضای اقدام
پیوسته و گسسته
عمدتاً گسسته (برای حالت پیوسته نیز بسطهایی وجود دارد)
کارایی نمونه
متوسط (نیاز به دادههای جدید در هر بهروزرسانی)
بالاتر (از بافر بازپخش تجربه دوباره استفاده میکند)
پایداری تمرین
بالا (شیشه عدسی برش خورده از ریزش جلوگیری میکند)
پایینتر (مستعد سوگیری بیشبرآورد)
استراتژی اکتشاف
سیاست تصادفی با پاداش آنتروپی
اکتشاف اپسیلون-حریصانه یا بولتزمن
موارد استفاده رایج
رباتیک، ترازبندی LLM، کنترل پیوسته
بازی کردن، وظایف تصمیمگیری گسسته، ناوبری
انواع کلیدی
PPO با برش، PPO با جریمه تطبیقی KL
DQN، DQN دوگانه، DQN دوئل، رنگین کمان
مقایسه دقیق
فلسفه یادگیری
PPO با یادگیری یک سیاست پارامتری که احتمالات عمل را با توجه به یک حالت خروجی میدهد، رویکرد مستقیمی را اتخاذ میکند. این رویکرد این سیاست را با استفاده از شیب صعودی روی پاداشهای مورد انتظار بهینه میکند. Q-Learning با تخمین میزان خوب بودن هر عمل در هر حالت، مسیری غیرمستقیم را در پیش میگیرد و سپس رفتار را از آن تخمینها استخراج میکند. این تقسیمبندی فلسفی همه چیز را از الزامات داده گرفته تا عملکرد نهایی شکل میدهد.
پایداری و قابلیت اطمینان
یکی از بزرگترین نقاط قوت PPO، تابع هدف برش خورده آن است که میزان تغییر سیاست را در یک بهروزرسانی واحد محدود میکند. این امر آموزش را حتی در وظایف پر سر و صدا به طور قابل توجهی پایدار میکند. Q-Learning، به ویژه در انواع عمیق آن، میتواند به دلیل سوگیری تخمین بیش از حد و مشکل هدف متحرک، از بیثباتی رنج ببرد. تکنیکهایی مانند شبکههای هدف و Q-Learning دوگانه کمک میکنند، اما PPO معمولاً برای همگرایی قابل اعتماد به تنظیم ابرپارامتر کمتری نیاز دارد.
کارایی نمونه
Q-Learning معمولاً در کارایی نمونه برنده میشود زیرا میتواند تجربیات را در یک بافر بازپخش ذخیره کند و چندین بار از آنها یاد بگیرد. PPO یک سیاست فعال است، به این معنی که معمولاً دادهها را پس از هر چرخه بهروزرسانی دور میریزد، به این معنی که تعاملات محیطی بیشتری مورد نیاز است. در محیطهای شبیهسازی شده که تولید داده ارزان است، این موضوع به ندرت اهمیت دارد. با این حال، در رباتیک دنیای واقعی یا شبیهسازیهای گرانقیمت، استفاده مجدد Q-Learning از دادههای گذشته میتواند یک مزیت عمده باشد.
مدیریت اقدامات مداوم
PPO به طور طبیعی فضاهای عمل پیوسته را مدیریت میکند زیرا یک توزیع احتمال روی اعمال، اغلب یک تابع گاوسی، تولید میکند. Q-Learning در ابتدا برای اعمال گسسته طراحی شده بود، که در آن میتوانید به سادگی مقدار Q را برای هر گزینه جستجو کنید. افزونههایی مانند تابع مزیت نرمالشده (NAF) یا Q-Learning توزیعی وجود دارند، اما PPO همچنان انتخاب رایجتری برای مسائل کنترل پیوسته مانند دستکاری رباتیک است.
مکانیسمهای اکتشاف
PPO از طریق سیاستهای تصادفی و پاداشهای آنتروپی که از همگرایی زودرس به رفتار قطعی جلوگیری میکنند، اکتشاف را تشویق میکند. Q-Learning به قوانین اکتشاف صریح مانند epsilon-greedy متکی است، که در آن عامل اقدامات تصادفی را با مقداری احتمال انتخاب میکند. رویکرد PPO تمایل دارد که در فضاهای عملی با ابعاد بالا بهتر مقیاسبندی شود، در حالی که کاوش سادهتر Q-Learning در محیطهای گسسته با تعداد اقدامات قابل مدیریت به خوبی کار میکند.
پذیرش صنعت
PPO به انتخاب پیشفرض بسیاری از سیستمهای تولیدی، از جمله یادگیری تقویتی از بازخورد انسانی (RLHF) که برای آموزش مدلهای زبانی بزرگ استفاده میشود، تبدیل شده است. Q-Learning و انواع عمیق آن همچنان در بنچمارکهای بازی و وظایف تصمیمگیری گسسته غالب هستند. هر دو الگوریتم دارای اکوسیستمهای غنی از پیادهسازی هستند، به طوری که PPO در کتابخانههایی مانند Stable Baselines3 و RLlib و انواع Q-Learning تقریباً در هر چارچوب RL موجود است.
مزایا و معایب
بهینهسازی سیاست پروگزیمال (PPO)
مزایا
+آموزش بسیار پایدار
+اقدامات مداوم را مدیریت میکند
+ساده برای پیاده سازی
+به طور گسترده پشتیبانی میشود
+مناسب برای مدلهای بزرگ
مصرف شده
−راندمان نمونه پایینتر
−نیاز به دادههای جدید
−زمان متوسط ساعت دیواری
−میتواند محافظهکار باشد
الگوریتمهای یادگیری Q
مزایا
+راندمان بالای نمونه
+از تجربیات گذشته دوباره استفاده میکند
+پایه نظری قوی
+در بازیها خوب عمل میکند
+انعطافپذیری خارج از سیاست
مصرف شده
−مستعد بیش برآوردی
−ناپایدار در انواع عمیق
−پشتیبانی مداوم محدود
−نیاز به تنظیم دقیق دارد
تصورات نادرست رایج
افسانه
PPO و Q-Learning الگوریتمهای قابل جایگزینی هستند که مسائل یکسانی را حل میکنند.
واقعیت
آنها رویکردهای اساساً متفاوتی را برای یادگیری تقویتی ارائه میدهند. PPO مستقیماً یک سیاست را بهینه میکند، در حالی که Q-Learning مقادیر عمل را تخمین میزند. هر کدام در سناریوهای مختلف برتری دارند و انتخاب بین آنها به فضای عمل، در دسترس بودن دادهها و الزامات پایداری شما بستگی دارد.
افسانه
Q-Learning منسوخ شده و الگوریتمهای جدیدتری جایگزین آن شدهاند.
واقعیت
Q-Learning همچنان بسیار مرتبط است، به خصوص از طریق افزونههای یادگیری عمیق خود مانند DQN و Rainbow. این گونهها همچنان به دستیابی به نتایج پیشرفته در بسیاری از معیارها ادامه میدهند و پایه مفهومی روشهای جدیدتر را تشکیل میدهند.
افسانه
PPO همیشه از Q-Learning بهتر عمل میکند، چون جدیدتر است.
واقعیت
جدیدتر بودن به معنای بهتر بودن مطلق نیست. PPO در کنترل مداوم و آموزش در مقیاس بزرگ برتری دارد، اما Q-Learning میتواند در محیطهای گسسته با دادههای محدود از آن پیشی بگیرد. عملکرد به شدت به مسئله خاص و جزئیات پیادهسازی بستگی دارد.
افسانه
Q-Learning نمیتواند با فضاهای عمل پیوسته کار کند.
واقعیت
در حالی که Q-Learning استاندارد برای اقدامات گسسته طراحی شده است، چندین افزونه مانند NAF، Q-Learning توزیعی و رویکردهای تعبیه عمل، کنترل مداوم را امکانپذیر میکنند. با این حال، این روشها نسبت به روشهای گرادیان سیاست برای وظایف مداوم کمتر رایج هستند.
افسانه
PPO برای عملکرد خوب نیازی به تنظیم هیچ ابرپارامتری ندارد.
واقعیت
PPO نسبت به بسیاری از الگوریتمها بخشندهتر است، اما همچنان نیاز به تنظیم دقیق پارامتر برش، نرخ یادگیری و ضریب آنتروپی دارد. انتخابهای ضعیف میتواند منجر به همگرایی کند یا سیاستهای غیربهینه شود.
سوالات متداول
تفاوت اصلی بین PPO و Q-Learning چیست؟
PPO یک الگوریتم گرادیان سیاست است که مستقیماً نگاشتی از حالتها به اعمال را یاد میگیرد و سیاست را از طریق صعود گرادیان بهروزرسانی میکند. Q-Learning یک الگوریتم مبتنی بر ارزش است که پاداش مورد انتظار برای هر جفت حالت-عمل را تخمین میزند و رفتار را از آن تخمینها استخراج میکند. این تفاوت اصلی بر پایداری، کارایی نمونه و انواع مسائلی که هر کدام به بهترین شکل مدیریت میکنند، تأثیر میگذارد.
کدام الگوریتم برای فضاهای عمل پیوسته بهتر است؟
PPO عموماً انتخاب بهتری برای فضاهای عمل پیوسته است زیرا به طور طبیعی توزیع احتمال را روی اعمال خروجی میدهد. Q-Learning در ابتدا برای اعمال گسسته طراحی شده بود، اگرچه افزونههایی برای آن وجود دارد. برای کارهایی مانند کنترل بازوی رباتیک یا رانندگی خودکار، PPO گزینه رایجتر و قابل اعتمادتری است.
چرا PPO از Q-Learning پایدارتر است؟
PPO از یک تابع هدف برشیافته استفاده میکند که میزان تغییر سیاست را در یک بهروزرسانی واحد محدود میکند و از فروپاشی فاجعهبار سیاست که میتواند Q-Learning را دچار مشکل کند، جلوگیری میکند. Q-Learning از سوگیری تخمین بیش از حد و مشکل هدف متحرک رنج میبرد که برای کاهش آن به تکنیکهای اضافی مانند شبکههای هدف و یادگیری مضاعف نیاز است.
آیا میتوان PPO و Q-Learning را با هم ترکیب کرد؟
بله، رویکردهای ترکیبی وجود دارند. روشهای بازیگر-منتقد مانند بازیگر-منتقد نرم (SAC) و DDPG با تأخیر دوقلو (TD3) گرادیانهای سیاست را با یادگیری تابع ارزش ترکیب میکنند. این الگوریتمها از تخمین مقدار Q برای هدایت بهروزرسانیهای سیاست استفاده میکنند و نقاط قوت هر دو الگو را با هم ترکیب میکنند.
کدام الگوریتم در RLHF برای مدلهای زبانی بزرگ استفاده میشود؟
PPO الگوریتم استانداردی است که در یادگیری تقویتی از بازخورد انسانی (RLHF) برای تنظیم دقیق مدلهای زبانی بزرگ استفاده میشود. پایداری و توانایی آن در مدیریت فضاهای عملی با ابعاد بالا، آن را برای تولید متن به صورت توکن به توکن و در عین حال گنجاندن سیگنالهای ترجیحی انسانی، بسیار مناسب میکند.
آیا Q-Learning هنوز در تحقیقات مدرن هوش مصنوعی استفاده میشود؟
کاملاً. Q-Learning همچنان یک الگوریتم بنیادی در تحقیقات یادگیری تقویتی است. انواع عمیق مانند DQN، Double DQN و Rainbow همچنان به نتایج قوی در معیارها دست مییابند و چارچوب مفهومی یادگیری عمل-ارزشها بر بسیاری از الگوریتمهای جدیدتر تأثیر میگذارد.
کدام الگوریتم برای آموزش به دادههای کمتری نیاز دارد؟
Q-Learning معمولاً به دادههای کمتری نیاز دارد زیرا میتواند از تجربیات گذشته ذخیره شده در یک بافر بازپخش استفاده مجدد کند. PPO سیاستگذاری شده است و معمولاً پس از هر بهروزرسانی دادهها را دور میریزد، به این معنی که به تعاملات محیطی بیشتری نیاز دارد. در برنامههای دنیای واقعی که جمعآوری دادهها گران است، کارایی نمونه Q-Learning میتواند یک مزیت قابل توجه باشد.
افزونههای رایج Q-Learning کدامند؟
افزونههای محبوب شامل Deep Q-Networks (DQN) برای مدیریت ورودیهای با ابعاد بالا، Double DQN برای کاهش بایاس تخمین بیش از حد، Dueling DQN برای جداسازی تخمین ارزش و مزیت، و Rainbow که چندین بهبود را با هم ترکیب میکند، میشوند. هر کدام نقاط ضعف خاصی از الگوریتم اصلی را برطرف میکنند.
تفاوت کاوش بین PPO و Q-Learning چیست؟
PPO از سیاستهای تصادفی با پاداشهای آنتروپی برای تشویق کاوش به طور طبیعی به عنوان بخشی از فرآیند یادگیری استفاده میکند. Q-Learning معمولاً به استراتژیهای کاوش صریح مانند epsilon-greedy متکی است، که در آن عامل اقدامات تصادفی را با مقداری احتمال انجام میدهد. رویکرد PPO تمایل دارد که در فضاهای عمل پیچیده بهتر مقیاسبندی شود.
کدام الگوریتم برای مبتدیان آسانتر است؟
پیادهسازی PPO از ابتدا اغلب آسانتر در نظر گرفته میشود، زیرا هدف آن سرراست و کوتاه است و قطعات متحرک کمتری دارد. انواع عمیق Q-Learning نیاز به مدیریت دقیق بافرهای بازپخش، شبکههای هدف و برنامههای اکتشاف دارند که این امر برای تازهکارها پیچیدگی ایجاد میکند.
حکم
هنگام کار با کنترل مداوم، رباتیک یا آموزش سیاست در مقیاس بزرگ که در آن ثبات بیشترین اهمیت را دارد، PPO را انتخاب کنید. برای فضاهای عمل گسسته، سناریوهای با نمونه محدود یا زمانی که نیاز به استفاده از بازپخش تجربه دارید، Q-Learning را انتخاب کنید. هر دو الگوریتمهای بنیادی باقی میمانند و درک بده بستانهای آنها به شما کمک میکند تا ابزار مناسب را برای چالش یادگیری تقویتی خاص خود انتخاب کنید.