Comparthing Logo
یادگیری تقویتییادگیری ماشینیهوش مصنوعیپی پی اوکیو-لرنینگیادگیری عمیق

بهینه‌سازی سیاست پروگزیمال (PPO) در مقابل الگوریتم‌های یادگیری Q

PPO یک روش یادگیری تقویتی گرادیان سیاستی است که به دلیل پایداری و مقیاس‌پذیری ارزشمند است، در حالی که Q-Learning یک رویکرد مبتنی بر ارزش است که توابع عمل-مقدار را یاد می‌گیرد. هر دو عامل‌ها را از طریق آزمون و خطا آموزش می‌دهند، اما اساساً در نحوه نمایش دانش و به‌روزرسانی رفتار متفاوت هستند.

برجسته‌ها

  • PPO مبتنی بر سیاست داخلی (on-policy) و گرادیان سیاست است، در حالی که Q-Learning خارج از سیاست و مبتنی بر ارزش است.
  • هدف کوتاه‌شده‌ی PPO، آموزش پایدارتری نسبت به رویکردهای استاندارد Q-Learning ارائه می‌دهد.
  • Q-Learning از طریق بافرهای بازپخش، تجربیات گذشته را دوباره استفاده می‌کند و به آن راندمان نمونه بهتری می‌دهد.
  • PPO فضاهای عمل پیوسته را به صورت بومی مدیریت می‌کند، در حالی که Q-Learning در ابتدا برای اعمال گسسته ساخته شده بود.

بهینه‌سازی سیاست پروگزیمال (PPO) چیست؟

یک الگوریتم یادگیری تقویتی گرادیان سیاست که سیاست‌ها را از طریق توابع هدف برش داده شده برای آموزش پایدار به‌روزرسانی می‌کند.

  • PPO توسط جان شولمن و همکارانش در OpenAI در سال ۲۰۱۷ معرفی شد.
  • از یک هدف جایگزین کوتاه‌شده استفاده می‌کند که از به‌روزرسانی‌های مخرب و بزرگ سیاست جلوگیری می‌کند.
  • PPO به خانواده روش‌های بهینه‌سازی سیاست تعلق دارد، به این معنی که مستقیماً نگاشتی از حالت‌ها به کنش‌ها را یاد می‌گیرد.
  • این الگوریتم از هر دو فضای عمل پیوسته و گسسته با حداقل تغییرات معماری پشتیبانی می‌کند.
  • PPO به یکی از پرکاربردترین الگوریتم‌های یادگیری تقویتی (RL) در صنعت تبدیل شد و کاربردهایی از رباتیک گرفته تا تنظیم دقیق مدل‌های زبانی بزرگ را تقویت کرد.

الگوریتم‌های یادگیری Q چیست؟

یک رویکرد یادگیری تقویتی مبتنی بر ارزش که پاداش مورد انتظار برای انجام اقدامات در حالت‌های داده شده را تخمین می‌زند.

  • کیو-لرنینگ (Q-Learning) توسط کریستوفر واتکینز در پایان‌نامه دکترای او در سال ۱۹۸۹ به عنوان یک روش یادگیری تقویتی مستقل از مدل معرفی شد.
  • این الگوریتم یک تابع مقدار-عمل، که معمولاً تابع Q نامیده می‌شود، را یاد می‌گیرد که پاداش‌های آینده را برای جفت‌های حالت-عمل پیش‌بینی می‌کند.
  • شبکه‌های عمیق Q (DQN) در سال ۲۰۱۳ با استفاده از شبکه‌های عصبی، Q-Learning را به ورودی‌های با ابعاد بالا گسترش دادند.
  • Q-Learning اساساً خارج از سیاست است، به این معنی که می‌تواند از تجربیات جمع‌آوری‌شده توسط سیاست‌های رفتاری مختلف یاد بگیرد.
  • این الگوریتم، پایه و اساس بسیاری از پیشرفت‌های مدرن در یادگیری تقویتی، از جمله عامل‌های بازی آتاری، را تشکیل می‌دهد.

جدول مقایسه

ویژگی بهینه‌سازی سیاست پروگزیمال (PPO) الگوریتم‌های یادگیری Q
نوع الگوریتم گرادیان سیاست (روی سیاست) مبتنی بر ارزش (خارج از سیاست)
سال معرفی ۲۰۱۷ (اوپن‌ای‌آی) ۱۹۸۹ (واتکینز)
هدف اصلی یادگیری نگاشت تابع سیاست به اقدامات تابع Q-value که کیفیت عمل را تخمین می‌زند
پشتیبانی فضای اقدام پیوسته و گسسته عمدتاً گسسته (برای حالت پیوسته نیز بسط‌هایی وجود دارد)
کارایی نمونه متوسط (نیاز به داده‌های جدید در هر به‌روزرسانی) بالاتر (از بافر بازپخش تجربه دوباره استفاده می‌کند)
پایداری تمرین بالا (شیشه عدسی برش خورده از ریزش جلوگیری می‌کند) پایین‌تر (مستعد سوگیری بیش‌برآورد)
استراتژی اکتشاف سیاست تصادفی با پاداش آنتروپی اکتشاف اپسیلون-حریصانه یا بولتزمن
موارد استفاده رایج رباتیک، ترازبندی LLM، کنترل پیوسته بازی کردن، وظایف تصمیم‌گیری گسسته، ناوبری
انواع کلیدی PPO با برش، PPO با جریمه تطبیقی KL DQN، DQN دوگانه، DQN دوئل، رنگین کمان

مقایسه دقیق

فلسفه یادگیری

PPO با یادگیری یک سیاست پارامتری که احتمالات عمل را با توجه به یک حالت خروجی می‌دهد، رویکرد مستقیمی را اتخاذ می‌کند. این رویکرد این سیاست را با استفاده از شیب صعودی روی پاداش‌های مورد انتظار بهینه می‌کند. Q-Learning با تخمین میزان خوب بودن هر عمل در هر حالت، مسیری غیرمستقیم را در پیش می‌گیرد و سپس رفتار را از آن تخمین‌ها استخراج می‌کند. این تقسیم‌بندی فلسفی همه چیز را از الزامات داده گرفته تا عملکرد نهایی شکل می‌دهد.

پایداری و قابلیت اطمینان

یکی از بزرگترین نقاط قوت PPO، تابع هدف برش خورده آن است که میزان تغییر سیاست را در یک به‌روزرسانی واحد محدود می‌کند. این امر آموزش را حتی در وظایف پر سر و صدا به طور قابل توجهی پایدار می‌کند. Q-Learning، به ویژه در انواع عمیق آن، می‌تواند به دلیل سوگیری تخمین بیش از حد و مشکل هدف متحرک، از بی‌ثباتی رنج ببرد. تکنیک‌هایی مانند شبکه‌های هدف و Q-Learning دوگانه کمک می‌کنند، اما PPO معمولاً برای همگرایی قابل اعتماد به تنظیم ابرپارامتر کمتری نیاز دارد.

کارایی نمونه

Q-Learning معمولاً در کارایی نمونه برنده می‌شود زیرا می‌تواند تجربیات را در یک بافر بازپخش ذخیره کند و چندین بار از آنها یاد بگیرد. PPO یک سیاست فعال است، به این معنی که معمولاً داده‌ها را پس از هر چرخه به‌روزرسانی دور می‌ریزد، به این معنی که تعاملات محیطی بیشتری مورد نیاز است. در محیط‌های شبیه‌سازی شده که تولید داده ارزان است، این موضوع به ندرت اهمیت دارد. با این حال، در رباتیک دنیای واقعی یا شبیه‌سازی‌های گران‌قیمت، استفاده مجدد Q-Learning از داده‌های گذشته می‌تواند یک مزیت عمده باشد.

مدیریت اقدامات مداوم

PPO به طور طبیعی فضاهای عمل پیوسته را مدیریت می‌کند زیرا یک توزیع احتمال روی اعمال، اغلب یک تابع گاوسی، تولید می‌کند. Q-Learning در ابتدا برای اعمال گسسته طراحی شده بود، که در آن می‌توانید به سادگی مقدار Q را برای هر گزینه جستجو کنید. افزونه‌هایی مانند تابع مزیت نرمال‌شده (NAF) یا Q-Learning توزیعی وجود دارند، اما PPO همچنان انتخاب رایج‌تری برای مسائل کنترل پیوسته مانند دستکاری رباتیک است.

مکانیسم‌های اکتشاف

PPO از طریق سیاست‌های تصادفی و پاداش‌های آنتروپی که از همگرایی زودرس به رفتار قطعی جلوگیری می‌کنند، اکتشاف را تشویق می‌کند. Q-Learning به قوانین اکتشاف صریح مانند epsilon-greedy متکی است، که در آن عامل اقدامات تصادفی را با مقداری احتمال انتخاب می‌کند. رویکرد PPO تمایل دارد که در فضاهای عملی با ابعاد بالا بهتر مقیاس‌بندی شود، در حالی که کاوش ساده‌تر Q-Learning در محیط‌های گسسته با تعداد اقدامات قابل مدیریت به خوبی کار می‌کند.

پذیرش صنعت

PPO به انتخاب پیش‌فرض بسیاری از سیستم‌های تولیدی، از جمله یادگیری تقویتی از بازخورد انسانی (RLHF) که برای آموزش مدل‌های زبانی بزرگ استفاده می‌شود، تبدیل شده است. Q-Learning و انواع عمیق آن همچنان در بنچمارک‌های بازی و وظایف تصمیم‌گیری گسسته غالب هستند. هر دو الگوریتم دارای اکوسیستم‌های غنی از پیاده‌سازی هستند، به طوری که PPO در کتابخانه‌هایی مانند Stable Baselines3 و RLlib و انواع Q-Learning تقریباً در هر چارچوب RL موجود است.

مزایا و معایب

بهینه‌سازی سیاست پروگزیمال (PPO)

مزایا

  • + آموزش بسیار پایدار
  • + اقدامات مداوم را مدیریت می‌کند
  • + ساده برای پیاده سازی
  • + به طور گسترده پشتیبانی می‌شود
  • + مناسب برای مدل‌های بزرگ

مصرف شده

  • راندمان نمونه پایین‌تر
  • نیاز به داده‌های جدید
  • زمان متوسط ساعت دیواری
  • می‌تواند محافظه‌کار باشد

الگوریتم‌های یادگیری Q

مزایا

  • + راندمان بالای نمونه
  • + از تجربیات گذشته دوباره استفاده می‌کند
  • + پایه نظری قوی
  • + در بازی‌ها خوب عمل می‌کند
  • + انعطاف‌پذیری خارج از سیاست

مصرف شده

  • مستعد بیش برآوردی
  • ناپایدار در انواع عمیق
  • پشتیبانی مداوم محدود
  • نیاز به تنظیم دقیق دارد

تصورات نادرست رایج

افسانه

PPO و Q-Learning الگوریتم‌های قابل جایگزینی هستند که مسائل یکسانی را حل می‌کنند.

واقعیت

آنها رویکردهای اساساً متفاوتی را برای یادگیری تقویتی ارائه می‌دهند. PPO مستقیماً یک سیاست را بهینه می‌کند، در حالی که Q-Learning مقادیر عمل را تخمین می‌زند. هر کدام در سناریوهای مختلف برتری دارند و انتخاب بین آنها به فضای عمل، در دسترس بودن داده‌ها و الزامات پایداری شما بستگی دارد.

افسانه

Q-Learning منسوخ شده و الگوریتم‌های جدیدتری جایگزین آن شده‌اند.

واقعیت

Q-Learning همچنان بسیار مرتبط است، به خصوص از طریق افزونه‌های یادگیری عمیق خود مانند DQN و Rainbow. این گونه‌ها همچنان به دستیابی به نتایج پیشرفته در بسیاری از معیارها ادامه می‌دهند و پایه مفهومی روش‌های جدیدتر را تشکیل می‌دهند.

افسانه

PPO همیشه از Q-Learning بهتر عمل می‌کند، چون جدیدتر است.

واقعیت

جدیدتر بودن به معنای بهتر بودن مطلق نیست. PPO در کنترل مداوم و آموزش در مقیاس بزرگ برتری دارد، اما Q-Learning می‌تواند در محیط‌های گسسته با داده‌های محدود از آن پیشی بگیرد. عملکرد به شدت به مسئله خاص و جزئیات پیاده‌سازی بستگی دارد.

افسانه

Q-Learning نمی‌تواند با فضاهای عمل پیوسته کار کند.

واقعیت

در حالی که Q-Learning استاندارد برای اقدامات گسسته طراحی شده است، چندین افزونه مانند NAF، Q-Learning توزیعی و رویکردهای تعبیه عمل، کنترل مداوم را امکان‌پذیر می‌کنند. با این حال، این روش‌ها نسبت به روش‌های گرادیان سیاست برای وظایف مداوم کمتر رایج هستند.

افسانه

PPO برای عملکرد خوب نیازی به تنظیم هیچ ابرپارامتری ندارد.

واقعیت

PPO نسبت به بسیاری از الگوریتم‌ها بخشنده‌تر است، اما همچنان نیاز به تنظیم دقیق پارامتر برش، نرخ یادگیری و ضریب آنتروپی دارد. انتخاب‌های ضعیف می‌تواند منجر به همگرایی کند یا سیاست‌های غیربهینه شود.

سوالات متداول

تفاوت اصلی بین PPO و Q-Learning چیست؟
PPO یک الگوریتم گرادیان سیاست است که مستقیماً نگاشتی از حالت‌ها به اعمال را یاد می‌گیرد و سیاست را از طریق صعود گرادیان به‌روزرسانی می‌کند. Q-Learning یک الگوریتم مبتنی بر ارزش است که پاداش مورد انتظار برای هر جفت حالت-عمل را تخمین می‌زند و رفتار را از آن تخمین‌ها استخراج می‌کند. این تفاوت اصلی بر پایداری، کارایی نمونه و انواع مسائلی که هر کدام به بهترین شکل مدیریت می‌کنند، تأثیر می‌گذارد.
کدام الگوریتم برای فضاهای عمل پیوسته بهتر است؟
PPO عموماً انتخاب بهتری برای فضاهای عمل پیوسته است زیرا به طور طبیعی توزیع احتمال را روی اعمال خروجی می‌دهد. Q-Learning در ابتدا برای اعمال گسسته طراحی شده بود، اگرچه افزونه‌هایی برای آن وجود دارد. برای کارهایی مانند کنترل بازوی رباتیک یا رانندگی خودکار، PPO گزینه رایج‌تر و قابل اعتمادتری است.
چرا PPO از Q-Learning پایدارتر است؟
PPO از یک تابع هدف برش‌یافته استفاده می‌کند که میزان تغییر سیاست را در یک به‌روزرسانی واحد محدود می‌کند و از فروپاشی فاجعه‌بار سیاست که می‌تواند Q-Learning را دچار مشکل کند، جلوگیری می‌کند. Q-Learning از سوگیری تخمین بیش از حد و مشکل هدف متحرک رنج می‌برد که برای کاهش آن به تکنیک‌های اضافی مانند شبکه‌های هدف و یادگیری مضاعف نیاز است.
آیا می‌توان PPO و Q-Learning را با هم ترکیب کرد؟
بله، رویکردهای ترکیبی وجود دارند. روش‌های بازیگر-منتقد مانند بازیگر-منتقد نرم (SAC) و DDPG با تأخیر دوقلو (TD3) گرادیان‌های سیاست را با یادگیری تابع ارزش ترکیب می‌کنند. این الگوریتم‌ها از تخمین مقدار Q برای هدایت به‌روزرسانی‌های سیاست استفاده می‌کنند و نقاط قوت هر دو الگو را با هم ترکیب می‌کنند.
کدام الگوریتم در RLHF برای مدل‌های زبانی بزرگ استفاده می‌شود؟
PPO الگوریتم استانداردی است که در یادگیری تقویتی از بازخورد انسانی (RLHF) برای تنظیم دقیق مدل‌های زبانی بزرگ استفاده می‌شود. پایداری و توانایی آن در مدیریت فضاهای عملی با ابعاد بالا، آن را برای تولید متن به صورت توکن به توکن و در عین حال گنجاندن سیگنال‌های ترجیحی انسانی، بسیار مناسب می‌کند.
آیا Q-Learning هنوز در تحقیقات مدرن هوش مصنوعی استفاده می‌شود؟
کاملاً. Q-Learning همچنان یک الگوریتم بنیادی در تحقیقات یادگیری تقویتی است. انواع عمیق مانند DQN، Double DQN و Rainbow همچنان به نتایج قوی در معیارها دست می‌یابند و چارچوب مفهومی یادگیری عمل-ارزش‌ها بر بسیاری از الگوریتم‌های جدیدتر تأثیر می‌گذارد.
کدام الگوریتم برای آموزش به داده‌های کمتری نیاز دارد؟
Q-Learning معمولاً به داده‌های کمتری نیاز دارد زیرا می‌تواند از تجربیات گذشته ذخیره شده در یک بافر بازپخش استفاده مجدد کند. PPO سیاست‌گذاری شده است و معمولاً پس از هر به‌روزرسانی داده‌ها را دور می‌ریزد، به این معنی که به تعاملات محیطی بیشتری نیاز دارد. در برنامه‌های دنیای واقعی که جمع‌آوری داده‌ها گران است، کارایی نمونه Q-Learning می‌تواند یک مزیت قابل توجه باشد.
افزونه‌های رایج Q-Learning کدامند؟
افزونه‌های محبوب شامل Deep Q-Networks (DQN) برای مدیریت ورودی‌های با ابعاد بالا، Double DQN برای کاهش بایاس تخمین بیش از حد، Dueling DQN برای جداسازی تخمین ارزش و مزیت، و Rainbow که چندین بهبود را با هم ترکیب می‌کند، می‌شوند. هر کدام نقاط ضعف خاصی از الگوریتم اصلی را برطرف می‌کنند.
تفاوت کاوش بین PPO و Q-Learning چیست؟
PPO از سیاست‌های تصادفی با پاداش‌های آنتروپی برای تشویق کاوش به طور طبیعی به عنوان بخشی از فرآیند یادگیری استفاده می‌کند. Q-Learning معمولاً به استراتژی‌های کاوش صریح مانند epsilon-greedy متکی است، که در آن عامل اقدامات تصادفی را با مقداری احتمال انجام می‌دهد. رویکرد PPO تمایل دارد که در فضاهای عمل پیچیده بهتر مقیاس‌بندی شود.
کدام الگوریتم برای مبتدیان آسان‌تر است؟
پیاده‌سازی PPO از ابتدا اغلب آسان‌تر در نظر گرفته می‌شود، زیرا هدف آن سرراست و کوتاه است و قطعات متحرک کمتری دارد. انواع عمیق Q-Learning نیاز به مدیریت دقیق بافرهای بازپخش، شبکه‌های هدف و برنامه‌های اکتشاف دارند که این امر برای تازه‌کارها پیچیدگی ایجاد می‌کند.

حکم

هنگام کار با کنترل مداوم، رباتیک یا آموزش سیاست در مقیاس بزرگ که در آن ثبات بیشترین اهمیت را دارد، PPO را انتخاب کنید. برای فضاهای عمل گسسته، سناریوهای با نمونه محدود یا زمانی که نیاز به استفاده از بازپخش تجربه دارید، Q-Learning را انتخاب کنید. هر دو الگوریتم‌های بنیادی باقی می‌مانند و درک بده بستان‌های آنها به شما کمک می‌کند تا ابزار مناسب را برای چالش یادگیری تقویتی خاص خود انتخاب کنید.

مقایسه‌های مرتبط

LLM های مبتنی بر ابزار در مقابل LLM های مستقل

LLM های مبتنی بر ابزار، مدل‌های زبانی مستقل را با اتصال آنها به APIهای خارجی، ماشین‌حساب‌ها و پایگاه‌های داده گسترش می‌دهند و بازیابی اطلاعات و اجرای وظایف را در زمان واقعی امکان‌پذیر می‌سازند. LLM های مستقل صرفاً به پارامترهای آموزش‌دیده خود متکی هستند و آنها را مستقل اما محدود به دانش حاصل از داده‌های آموزشی می‌کنند.

LLM های متن باز در مقابل API های اختصاصی LLM

LLM های متن باز، مدل‌های هوش مصنوعی قابل تنظیم و خود-میزبان با دسترسی کامل به کد ارائه می‌دهند، در حالی که API های اختصاصی LLM، خدمات مدیریت شده و بهبود یافته را از طریق نقاط پایانی مبتنی بر ابر با قیمت گذاری مبتنی بر میزان استفاده ارائه می‌دهند.

RAG (تولید افزوده بازیابی) در مقابل LLM های تنظیم دقیق

RAG و LLM های تنظیم‌شده دقیق، هر دو کیفیت خروجی هوش مصنوعی را بهبود می‌بخشند، اما به روش‌های اساساً متفاوتی عمل می‌کنند. RAG اطلاعات خارجی را در زمان پرس‌وجو دریافت می‌کند، در حالی که تنظیم دقیق، دانش جدید را مستقیماً در وزن‌های مدل قرار می‌دهد. انتخاب بین آنها بستگی به این دارد که داده‌های شما چند وقت یکبار تغییر می‌کنند و به چه نوع دقتی نیاز دارید.

RAG با متن بصری در مقابل RAG با متن فقط متنی

RAG با زمینه بصری، مدل‌های زبانی را با بازیابی تصاویر، نمودارها و دیاگرام‌ها در کنار متن غنی می‌کند، در حالی که RAG فقط متنی صرفاً به متون نوشتاری متکی است. RAG بصری در وظایف چندوجهی مانند درک اسناد و پاسخ به سؤالات بصری برتری دارد، در حالی که RAG فقط متنی ساده‌تر، سریع‌تر و ارزان‌تر برای استقرار باقی می‌ماند.

RAG چندوجهی در مقابل RAG فقط متنی

RAG چندوجهی متن، تصاویر، صدا و ویدیو را برای بازیابی غنی‌تر با هم پردازش می‌کند، در حالی که RAG فقط متنی منحصراً بر محتوای نوشتاری تمرکز دارد. انتخاب بستگی به این دارد که آیا داده‌ها و موارد استفاده شما فراتر از اسناد متنی ساده است یا خیر.