روشهای بازیگر-منتقد در مقابل روشهای گرادیان سیاست خالص
روشهای بازیگر-منتقد، گرادیانهای سیاستی را با یک تابع ارزش آموختهشده ترکیب میکنند تا واریانس را کاهش داده و یادگیری را سرعت بخشند، در حالی که روشهای گرادیان سیاستی محض صرفاً بر بازده سیاستی و مونت کارلو متکی هستند. انتخاب بین آنها بستگی به این دارد که آیا به ثبات و کارایی نمونه نیاز دارید یا سادگی و تخمینهای بیطرفانه.
برجستهها
روشهای بازیگر-منتقد با استفاده از یک مبنای ارزش آموختهشده، واریانس گرادیان را کاهش میدهند، در حالی که گرادیانهای سیاستی خالص به بازدههای نویزی مونت کارلو متکی هستند.
روشهای گرادیان سیاستی محض، بیطرفانه اما نیازمند نمونه هستند، در حالی که روشهای بازیگر-منتقد، اندکی از سوگیری را با کارایی بسیار بهتر نمونه معاوضه میکنند.
الگوریتمهای بازیگر-منتقد مانند PPO و SAC، از آتاری گرفته تا RLHF برای مدلهای زبانی بزرگ، به اکثر موفقیتهای مدرن یادگیری تقویتی قدرت میبخشند.
روشهای گرادیان سیاست خالص برای تحقیقات و وظایف کنترلی ساده همچنان محبوب هستند، زیرا پیادهسازی و استدلال در مورد آنها آسانتر است.
روشهای بازیگر-منتقد چیست؟
الگوریتمهای یادگیری تقویتی ترکیبی که یک شبکه سیاست (عامل) را با یک شبکه تخمین ارزش (نقاد) برای آموزش پایدارتر جفت میکنند.
روشهای بازیگر-منتقد در اوایل دهه ۲۰۰۰ میلادی، بر اساس کارهای قبلی محققانی مانند ساتون و بارتو در مورد تکرار سیاست، رسمیت یافتند.
بازیگر، سیاست را با استفاده از جهت گرادیان پیشنهاد شده توسط منتقد بهروزرسانی میکند، در حالی که منتقد، تابع ارزش را برای ارزیابی اقدامات تخمین میزند.
انواع محبوب آن شامل A2C (بازیگر-منتقد مزیتی)، A3C (بازیگر-منتقد مزیتی ناهمزمان)، SAC (بازیگر-منتقد نرم) و PPO (بهینهسازی سیاست تقریبی) است.
با استفاده از یک مبنای آموختهشده، رویکردهای بازیگر-منتقد، واریانس تخمینهای گرادیان سیاست را در مقایسه با بازدههای مونت کارلو به طور چشمگیری کاهش میدهند.
این روشها از طریق RLHF به پیشرفتهایی در بازیهای رایانهای، رباتیک و تنظیم دقیق مدلهای زبانی بزرگ منجر شدهاند.
روشهای گرادیان سیاست خالص چیست؟
الگوریتمهای یادگیری تقویتی که مستقیماً یک سیاست پارامتری را با استفاده از صعود گرادیان روی بازده مورد انتظار، بدون یک مدل ارزش جداگانه، بهینه میکنند.
الگوریتم بنیادی REINFORCE توسط رونالد ویلیامز در سال ۱۹۹۲ معرفی شد و قضیه گرادیان سیاست را مطرح کرد.
روشهای گرادیان سیاست خالص، گرادیانها را با استفاده از پیادهسازیهای مونت کارلو یا بازدههای کل دوره به جای تخمینهای ارزش بوتاسترپ شده، تخمین میزنند.
آنها به طور طبیعی با سیاستهای تصادفی سازگار هستند و همین امر آنها را برای محیطهایی با فضاهای عملی پیوسته یا با ابعاد بالا مناسب میکند.
از آنجا که این روشها به مسیرهای نمونهبرداری شده متکی هستند، بدون تورش هستند اما معمولاً واریانس بالایی در تخمینهای گرادیان خود نشان میدهند.
پیادهسازیهای قابل توجه شامل REINFORCE اصلی، Vanilla Policy Gradient (VPG) و Trust Region Policy Optimization (TRPO) میشود.
جدول مقایسه
ویژگی
روشهای بازیگر-منتقد
روشهای گرادیان سیاست خالص
مکانیسم اصلی
یک شبکه سیاستگذاری (بازیگر) را با یک شبکه ارزش (منتقد) ترکیب میکند.
سیاست را مستقیماً با استفاده از بازدههای نمونهبرداری شده بهینه میکند
واریانس تخمینهای گرادیان
واریانس کمتر به دلیل پایه آموخته شده
واریانس بالاتر از بازدههای مونت کارلو
تعصب
جانبداری جزئی ناشی از تقریب منتقد
تخمینهای گرادیان بیاریب
کارایی نمونه
عموماً بالاتر، از طریق بوتاسترپ، دادهها را دوباره استفاده میکند
پایینتر، به قسمتهای کامل یا نمونههای زیادی نیاز دارد
پیچیدگی پیادهسازی
پیچیدهتر، نیاز به آموزش دو شبکه دارد
سادهتر، فقط یک شبکه برای مدیریت
پایداری آموزش
به لطف واریانس کمتر و مناطق قابل اعتماد، پایدارتر است
پایداری کمتری دارد، نسبت به نرخ یادگیری و مقیاس پاداش حساس است
مدیریت اکتشاف
میتواند شامل پاداشهای آنتروپی یا منتقدان تصادفی باشد
طبیعتاً تصادفی، آسان برای تشویق به اکتشاف
موارد استفاده معمول
یادگیری تقویتی در مقیاس بزرگ، رباتیک، RLHF برای مدلهای زبانی
وظایف کنترلی ساده، خطوط پایه تحقیق، مسائل اپیزودیک
مقایسه دقیق
تخمین گرادیان و واریانس
بزرگترین تفاوت عملی بین این دو خانواده به نحوه تخمین جهت بهبود برمیگردد. روشهای گرادیان سیاست خالص به بازدههای مونت کارلو جمعآوریشده از کل اپیزودها متکی هستند که سیگنالی بیطرفانه ارائه میدهند، اما سیگنالی که بسته به شانس هر اجرای واحد، به شدت نوسان میکند. روشهای بازیگر-منتقد، آن بازده نویزدار را با یک تابع ارزش آموختهشده جایگزین میکنند و به طور مؤثر یک خط پایه را که نتیجه مورد انتظار را در بر میگیرد، کم میکنند. نتیجه، گرادیان واریانس بسیار پایینتری است که به آموزش اجازه میدهد روانتر پیش برود، به خصوص در محیطهایی که پاداشها پراکنده یا با تأخیر هستند.
موازنهی بایاس-واریانس
جایگزینی واریانس با بایاس، مصالحه اصلی در طراحی بازیگر-منتقد است. خودِ منتقد یک تقریب است، بنابراین تخمینهای آن میتواند اشتباه باشد و این خطا در بهروزرسانی سیاست رخ میدهد. روشهای گرادیان سیاست خالص کاملاً از این امر اجتناب میکنند زیرا هرگز تابع ارزش را تقریب نمیزنند، اما هزینه آن خلوص را با بهروزرسانیهای پر سر و صداتر پرداخت میکنند. در عمل، الگوریتمهای بازیگر-منتقد مدرن مانند PPO و SAC این بدهبستان را چنان خوب مدیریت میکنند که بایاس کوچک به ندرت مشکلی ایجاد میکند، به همین دلیل است که آنها بر معیارها تسلط دارند.
کارایی نمونه و استفاده مجدد از دادهها
کارایی نمونه زمانی بسیار مهم است که تعامل با محیط پرهزینه باشد، مانند رباتیک یا سیستمهای گفتگوی دنیای واقعی. روشهای بازیگر-منتقد در اینجا میدرخشند زیرا منتقد از پیشبینیهای خود بوتاسترپ میکند و به الگوریتم اجازه میدهد تا از هر انتقال چندین بار یاد بگیرد. روشهای گرادیان سیاست خالص معمولاً برای هر بهروزرسانی به دادههای تازه در مورد سیاست نیاز دارند، که به معنای تعاملات بیشتر با محیط برای همان میزان بهبود سیاست است. این یکی از دلایلی است که الگوریتمهای سبک REINFORCE در محیطهای تحقیقاتی که شبیهسازی ارزان است، رایجتر هستند.
پیادهسازی و تنظیم
اگر میخواهید چیزی را به سرعت نمونهسازی کنید، روشهای گرادیان سیاست خالص جذاب هستند. شما فقط به یک شبکه سیاست، یک تابع زیان ساخته شده از احتمالات لگاریتمی وزندار شده بر اساس بازگشت، و راهی برای جمعآوری مسیرها نیاز دارید. روشهای بازیگر-منتقد، بار آموزش یک شبکه دوم، متعادل کردن نرخ یادگیری آن در برابر بازیگر، و اطمینان از اینکه منتقد به اندازه کافی سریع همگرا میشود تا مفید باشد را اضافه میکنند. این پیچیدگی اضافی در عملکرد نتیجه میدهد، اما استاندارد را برای تازه واردان بالا میبرد.
اکتشاف و سیاستهای تصادفی
هر دو رویکرد به طور طبیعی سیاستهای تصادفی را مدیریت میکنند، اما کاوش را به طور متفاوتی تشویق میکنند. روشهای گرادیان سیاست خالص، کاوش را به صورت رایگان از آنتروپی خود سیاست دریافت میکنند، که در مسائلی با توزیعهای عمل واضح به خوبی کار میکند. روشهای بازیگر-منتقد اغلب یک امتیاز آنتروپی صریح به هدف اضافه میکنند، همانطور که بازیگر-منتقد نرم معروف انجام میدهد، تا از فروپاشی زودهنگام سیاست جلوگیری کند. این امر باعث میشود انواع بازیگر-منتقد در وظایفی که در غیر این صورت عامل ممکن است در رفتارهای غیربهینه گیر کند، قویتر باشند.
مزایا و معایب
روشهای بازیگر-منتقد
مزایا
+بهروزرسانیهای واریانس کمتر
+راندمان نمونه بهتر
+آموزش پایدارتر
+مقیاسپذیری برای کارهای پیچیده
مصرف شده
−پیادهسازی پیچیدهتر
−تنظیم فوق پارامتر اضافی
−جانبداری جزئی از منتقد
−دو شبکه برای آموزش
روشهای گرادیان سیاست خالص
مزایا
+پیادهسازی ساده
+تخمینهای گرادیان بیاریب
+سیاستهای تصادفی طبیعی
+عالی برای تحقیق
مصرف شده
−بهروزرسانیهای با واریانس بالا
−راندمان پایین نمونه
−به قسمتهای کامل نیاز دارد
−حساس به نرخ یادگیری
تصورات نادرست رایج
افسانه
روشهای منتقد-بازیگر، خانواده الگوریتمی کاملاً متفاوتی از گرادیانهای سیاست هستند.
واقعیت
روشهای منتقد-بازیگر در واقع زیرمجموعهای از روشهای گرادیان سیاست هستند. آنها همان گرادیان سیاست را محاسبه میکنند، اما به جای تکیه بر بازده خام، از یک تابع ارزش آموختهشده برای کاهش واریانس استفاده میکنند.
بیطرفی به معنای همگرایی سریع نیست. واریانس بالای تخمینهای مونت کارلو اغلب آموزش را به طرز چشمگیری کند میکند، به خصوص در وظایف بلندمدت که در آنها پاداشها با تأخیر مواجه میشوند.
افسانه
روشهای بازیگر-منتقد نمیتوانند با فضاهای کنش پیوسته کار کنند.
واقعیت
بسیاری از الگوریتمهای بازیگر-منتقد، از جمله SAC و DDPG، به طور خاص برای کنترل پیوسته طراحی شدهاند و در رباتیک و شبیهسازی مبتنی بر فیزیک بسیار خوب عمل میکنند.
افسانه
برای انجام خوب یادگیری تقویتی، همیشه به یک منتقد نیاز دارید.
واقعیت
روشهای گرادیان سیاستی محض مانند REINFORCE و TRPO بسیاری از مشکلات را بدون وجود یک منتقد حل کردهاند. منتقد ابزاری برای کاهش واریانس است، نه یک الزام اکید.
افسانه
PPO یک روش گرادیان سیاستی خالص است.
واقعیت
PPO از نظر فنی یک الگوریتم بازیگر-منتقد است. این الگوریتم از یک هدف جایگزین کوتاهشده در سمت سیاست استفاده میکند، اما برای محاسبه مزایا و هدایت بهروزرسانیها به یک شبکه ارزش متکی است.
سوالات متداول
تفاوت اصلی بین روشهای بازیگر-منتقد و گرادیان سیاست چیست؟
تفاوت اصلی این است که آیا از یک تابع ارزش در طول آموزش استفاده میشود یا خیر. روشهای بازیگر-منتقد، یک شبکه منتقد جداگانه را برای تخمین مقادیر و کاهش واریانس آموزش میدهند، در حالی که روشهای گرادیان سیاست خالص، گرادیانها را مستقیماً از بازدههای نمونهبرداری شده و بدون یک مدل ارزش آموخته شده تخمین میزنند.
چرا روشهای بازیگر-منتقد واریانس کمتری دارند؟
آنها قبل از محاسبه گرادیان، یک مبنای یادگیری شده، معمولاً تابع ارزش، را از بازده کم میکنند. این مبنا نتیجه مورد انتظار را ثبت میکند، بنابراین سیگنال مزیت باقی مانده نویز تصادفی بسیار کمتری نسبت به بازدههای خام مونت کارلو دارد.
آیا PPO یک روش بازیگر-منتقد است یا روش گرادیان سیاست؟
PPO یک الگوریتم بازیگر-منتقد است. این الگوریتم از یک هدف برشیافته برای بهروزرسانی سیاست استفاده میکند، اما برای محاسبه مزایا به یک شبکه ارزش وابسته است که مشخصه خانواده بازیگر-منتقد است.
چه زمانی باید به جای روش بازیگر-منتقد، از روشهای گرادیان سیاست خالص استفاده کنم؟
روشهای گرادیان سیاست خالص برای کارهای کوتاهمدت، خطوط پایه تحقیقاتی یا موقعیتهایی که به یک الگوریتم ساده و بیطرفانه نیاز دارید، مناسب هستند. آنها همچنین زمانی که شبیهسازی محیط ارزان است و به حداکثر کارایی نمونه نیاز ندارید، به خوبی کار میکنند.
آیا روشهای بازیگر-منتقد برای فضاهای کنش پیوسته کار میکنند؟
بله، بسیاری این کار را میکنند. الگوریتمهایی مانند SAC، DDPG و TD3 روشهایی مبتنی بر عامل-منتقد هستند که بهطور خاص برای کنترل پیوسته طراحی شدهاند و بهطور گسترده در رباتیک و محیطهای فیزیک شبیهسازیشده استفاده میشوند.
آیا روشهای گرادیان سیاستی محض هنوز هم مورد استفاده قرار میگیرند؟
کاملاً. گرادیانهای REINFORCE و Vanilla Policy همچنان در تحقیقات و آموزش محبوب هستند و TRPO هنوز در کاربردهای حساس به ایمنی که محدودیت ناحیه اعتماد آن ارزشمند است، استفاده میشود.
قضیه گرادیان سیاست چیست؟
قضیه گرادیان سیاست، که توسط ساتون و همکارانش اثبات شده است، یک عبارت بسته برای گرادیان بازده مورد انتظار نسبت به پارامترهای سیاست ارائه میدهد. هر دو روش گرادیان سیاست خالص و روش بازیگر-منتقد بر اساس این قضیه ساخته شدهاند.
REINFORCE چه ارتباطی با روشهای بازیگر-منتقد دارد؟
REINFORCE الگوریتم گرادیان سیاست خالص متعارف است. روشهای بازیگر-منتقد را میتوان به عنوان تکامل REINFORCE در نظر گرفت که بازده مونت کارلو را با یک تخمین بوتاسترپ شده از یک منتقد باتجربه جایگزین میکند، که واریانس را به قیمت مقداری بایاس کاهش میدهد.
آیا میتوان از روشهای بازیگر-منتقد برای RLHF در مدلهای زبانی بزرگ استفاده کرد؟
بله، روشهای بازیگر-منتقد مانند PPO، نیروی محرکه خطوط لوله RLHF برای همترازی مدلهای زبانی بزرگ هستند. آنها افقهای بلندمدت و سیگنالهای پاداش پیچیدهای را که در آموزش مدلهای زبانی با بازخورد انسانی وجود دارد، مدیریت میکنند.
کدام روش برای محیطهای پاداش پراکنده بهتر است؟
روشهای بازیگر-منتقد عموماً در محیطهای پاداش اندک عملکرد بهتری دارند، زیرا منتقد میتواند اطلاعات ارزشی را در طول زمان به عقب منتشر کند و حتی زمانی که پاداشها نادر هستند، سیگنالهای یادگیری مفیدی به سیاست ارائه دهد.
حکم
وقتی به دنبال یک الگوریتم ساده و بیطرفانه برای مسائل کوتاهمدت یا به عنوان یک مبنای تحقیقاتی تمیز هستید، روشهای گرادیان سیاست خالص را انتخاب کنید. هر زمان که به کارایی نمونه، پایداری آموزش یا مقیاسپذیری در محیطهای پیچیده مانند رباتیک و تنظیم دقیق مدل زبانی بزرگ اهمیت میدهید، به سراغ روشهای بازیگر-منتقد بروید.