مقارنة بين خوارزميات تحسين السياسة التقريبية (PPO) وخوارزميات التعلم المعزز Q
يُعدّ PPO أسلوبًا للتعلم المعزز يعتمد على تدرج السياسة، ويُعرف باستقراره وقابليته للتوسع، بينما يُعدّ Q-Learning منهجًا قائمًا على القيمة يتعلم دوال العلاقة بين الفعل والقيمة. يُدرّب كلا الأسلوبين الوكلاء من خلال التجربة والخطأ، لكنهما يختلفان اختلافًا جوهريًا في كيفية تمثيل المعرفة وتحديث السلوك.
المميزات البارزة
تعتمد خوارزمية PPO على السياسة وتدرج السياسة، بينما تعتمد خوارزمية Q-Learning على السياسة والقيمة.
يوفر الهدف المقطوع لخوارزمية PPO تدريبًا أكثر استقرارًا من أساليب التعلم Q القياسية.
يعيد التعلم Q استخدام التجارب السابقة من خلال مخازن إعادة التشغيل، مما يمنحه كفاءة أفضل في أخذ العينات.
يتعامل PPO مع مساحات العمل المستمرة بشكل أصلي، بينما تم تصميم Q-Learning في الأصل للعمليات المنفصلة.
ما هو تحسين السياسة التقريبية (PPO)؟
خوارزمية التعلم المعزز لتدرج السياسة التي تقوم بتحديث السياسات من خلال وظائف الهدف المقطوعة من أجل تدريب مستقر.
تم تقديم PPO بواسطة جون شولمان وزملائه في OpenAI في عام 2017.
يستخدم هدفًا بديلًا مقصوصًا يمنع تحديثات السياسة الكبيرة المدمرة.
ينتمي PPO إلى عائلة أساليب تحسين السياسات، مما يعني أنه يتعلم مباشرة عملية الربط بين الحالات والإجراءات.
تدعم الخوارزمية مساحات العمل المستمرة والمتقطعة مع الحد الأدنى من التغييرات المعمارية.
أصبحت خوارزمية PPO واحدة من أكثر خوارزميات التعلم المعزز انتشارًا في الصناعة، حيث تدعم تطبيقات تتراوح من الروبوتات إلى ضبط نماذج اللغة الكبيرة.
ما هو خوارزميات التعلم المعزز (Q-Learning)؟
نهج التعلم المعزز القائم على القيمة والذي يقدر المكافأة المتوقعة من اتخاذ الإجراءات في حالات معينة.
تم تقديم تقنية Q-Learning بواسطة كريستوفر واتكينز في أطروحته للدكتوراه عام 1989 كطريقة للتعلم المعزز بدون نموذج.
يتعلم دالة قيمة الفعل، والتي تسمى عادة دالة Q، والتي تتنبأ بالمكافآت المستقبلية لأزواج الحالة والفعل.
قامت شبكات Q العميقة (DQN) بتوسيع نطاق التعلم Q ليشمل المدخلات عالية الأبعاد باستخدام الشبكات العصبية في عام 2013.
تعتمد تقنية Q-Learning بشكل أساسي على سياسات السلوك المختلفة، مما يعني أنها تستطيع التعلم من التجارب التي تم جمعها من خلال سياسات سلوكية مختلفة.
تشكل الخوارزمية الأساس للعديد من الإنجازات الحديثة في مجال التعلم المعزز، بما في ذلك وكلاء لعب ألعاب أتاري.
جدول المقارنة
الميزة
تحسين السياسة التقريبية (PPO)
خوارزميات التعلم المعزز (Q-Learning)
نوع الخوارزمية
تدرج السياسة (على السياسة)
قائم على القيمة (خارج نطاق السياسة)
سنة الإصدار
2017 (OpenAI)
1989 (واتكينز)
هدف التعلم الأساسي
وظيفة السياسة التي تربط الحالات بالإجراءات
دالة قيمة Q لتقدير جودة الفعل
دعم مساحة العمل
مستمر ومنفصل
منفصلة في المقام الأول (توجد امتدادات للمتصلة)
كفاءة العينة
متوسط (يتطلب بيانات جديدة لكل تحديث)
أعلى (يعيد استخدام مخزن إعادة تشغيل التجربة)
استقرار التدريب
مرتفع (الهدف المقصوص يمنع الانهيار)
أقل (عرضة لتحيز المبالغة)
استراتيجية الاستكشاف
سياسة عشوائية مع مكافآت الإنتروبيا
استكشاف إبسيلون-جريد أو بولتزمان
حالات الاستخدام الشائعة
الروبوتات، محاذاة LLM، التحكم المستمر
اللعب، مهام اتخاذ القرارات المنفصلة، الملاحة
المتغيرات الرئيسية
PPO مع قص، PPO مع عقوبة KL التكيفية
DQN، Double DQN، Dueling DQN، Rainbow
مقارنة مفصلة
فلسفة التعلم
تعتمد خوارزمية PPO على نهج مباشر من خلال تعلم سياسة مُعَلمة تُخرج احتمالات الأفعال بناءً على حالة معينة. ثم تُحسِّن هذه السياسة باستخدام خوارزمية التدرج الصاعد على المكافآت المتوقعة. أما خوارزمية Q-Learning فتسلك مسارًا غير مباشر، حيث تُقَدِّر أولًا مدى جودة كل فعل في كل حالة، ثم تستنتج السلوك من تلك التقديرات. هذا التقسيم الفلسفي يُؤثر على كل شيء بدءًا من متطلبات البيانات وصولًا إلى الأداء النهائي.
الاستقرار والموثوقية
إحدى أهم مزايا خوارزمية PPO هي دالة الهدف المقيدة، التي تحد من مدى تغير السياسة في تحديث واحد. وهذا يجعل التدريب مستقرًا بشكل ملحوظ حتى في المهام التي تتسم بالتشويش. قد تعاني خوارزمية Q-Learning، وخاصة في إصداراتها العميقة، من عدم الاستقرار بسبب تحيز التقدير الزائد ومشكلة الهدف المتحرك. تساعد تقنيات مثل الشبكات المستهدفة وQ-Learning المزدوج في حل هذه المشكلة، ولكن خوارزمية PPO عمومًا تتطلب ضبطًا أقل للمعلمات الفائقة للتقارب بشكل موثوق.
كفاءة العينة
يتفوق التعلم المعزز (Q-Learning) عادةً من حيث كفاءة استخدام العينات، لقدرته على تخزين التجارب في مخزن مؤقت لإعادة التشغيل والتعلم منها عدة مرات. أما خوارزمية PPO فهي تعتمد على السياسة، ما يعني أنها تتخلص عادةً من البيانات بعد كل دورة تحديث، الأمر الذي يتطلب تفاعلات أكثر مع البيئة. في البيئات المحاكاة حيث يكون توليد البيانات غير مكلف، نادرًا ما يُشكل هذا الأمر مشكلة. لكن في مجال الروبوتات الواقعية أو عمليات المحاكاة المكلفة، يُمكن أن تُشكل إعادة استخدام التعلم المعزز للبيانات السابقة ميزةً كبيرة.
التعامل مع الإجراءات المستمرة
تتعامل خوارزمية PPO مع مساحات الإجراءات المستمرة بشكل طبيعي لأنها تُخرج توزيعًا احتماليًا للإجراءات، وغالبًا ما يكون توزيعًا غاوسيًا. صُممت خوارزمية Q-Learning في الأصل للإجراءات المنفصلة، حيث يمكنك ببساطة البحث عن قيمة Q لكل خيار. توجد امتدادات مثل دالة الميزة المعيارية (NAF) أو خوارزمية Q-Learning التوزيعية، لكن خوارزمية PPO لا تزال الخيار الأكثر شيوعًا لمشاكل التحكم المستمر مثل التلاعب الروبوتي.
آليات الاستكشاف
يشجع PPO الاستكشاف من خلال سياسات عشوائية ومكافآت إنتروبيا تمنع التقارب المبكر نحو السلوك الحتمي. يعتمد Q-Learning على قواعد استكشاف صريحة مثل epsilon-greedy، حيث يختار العامل إجراءات عشوائية باحتمالية معينة. يميل نهج PPO إلى التوسع بشكل أفضل في فضاءات الإجراءات عالية الأبعاد، بينما يعمل استكشاف Q-Learning الأبسط بشكل جيد في البيئات المنفصلة ذات عدد الإجراءات القابل للإدارة.
تبني الصناعة
أصبح PPO الخيار الافتراضي للعديد من أنظمة الإنتاج، بما في ذلك التعلم المعزز من خلال التغذية الراجعة البشرية (RLHF) المستخدم لتدريب نماذج لغوية ضخمة. ولا يزال Q-Learning ومتغيراته العميقة مهيمناً في معايير أداء الألعاب ومهام اتخاذ القرارات المنفصلة. يتمتع كلا الخوارزميتين بأنظمة بيئية غنية من التطبيقات، حيث يتوفر PPO في مكتبات مثل Stable Baselines3 وRLlib، بينما تتوفر متغيرات Q-Learning في جميع أطر التعلم المعزز تقريباً.
الإيجابيات والسلبيات
تحسين السياسة التقريبية (PPO)
المزايا
+تدريب مستقر للغاية
+يتعامل مع الإجراءات المستمرة
+سهل التنفيذ
+يحظى بدعم واسع
+مناسب للنماذج الكبيرة
تم
−انخفاض كفاءة العينة
−يتطلب بيانات جديدة
−وقت معتدل على الساعة الجدارية
−يمكن أن يكون متحفظًا
خوارزميات التعلم المعزز (Q-Learning)
المزايا
+كفاءة عالية في أخذ العينات
+يعيد استخدام التجارب السابقة
+أساس نظري متين
+يعمل بشكل جيد في الألعاب
+مرونة خارج نطاق السياسة
تم
−يميل إلى المبالغة في التقدير
−غير مستقر في المتغيرات العميقة
−دعم مستمر محدود
−يحتاج إلى ضبط دقيق
الأفكار الخاطئة الشائعة
أسطورة
PPO و Q-Learning هما خوارزميتان قابلتان للتبادل تحلان نفس المشاكل.
الواقع
يمثلان نهجين مختلفين جذريًا للتعلم المعزز. تعمل خوارزمية تحسين السياسات العامة (PPO) على تحسين السياسة مباشرةً، بينما تُقدّر خوارزمية التعلم المعزز (Q-Learning) قيم الإجراءات. يتفوق كل منهما في سيناريوهات مختلفة، ويعتمد الاختيار بينهما على نطاق الإجراءات المتاحة، وتوافر البيانات، ومتطلبات الاستقرار.
أسطورة
خوارزمية Q-Learning قديمة وتم استبدالها بخوارزميات أحدث.
الواقع
لا تزال تقنية التعلم المعزز (Q-Learning) ذات أهمية بالغة، لا سيما من خلال امتداداتها في مجال التعلم العميق مثل DQN وRainbow. وتواصل هذه التقنيات تحقيق نتائج متميزة في العديد من المعايير، وتشكل الأساس المفاهيمي لأساليب أحدث.
أسطورة
يتفوق PPO دائمًا على Q-Learning لأنه أحدث.
الواقع
لا يعني كون الشيء أحدث بالضرورة أنه أفضل. يتفوق PPO في التحكم المستمر والتدريب واسع النطاق، لكن Q-Learning قد يتفوق عليه في البيئات المنفصلة ذات البيانات المحدودة. يعتمد الأداء بشكل كبير على طبيعة المشكلة وتفاصيل التنفيذ.
أسطورة
لا يمكن لتقنية Q-Learning العمل مع مساحات العمل المستمرة.
الواقع
بينما صُممت خوارزمية Q-Learning القياسية للتعامل مع الإجراءات المنفصلة، فإن العديد من التوسعات مثل NAF و Q-Learning التوزيعي وأساليب تضمين الإجراءات تُمكّن من التحكم المستمر. ومع ذلك، فإن هذه الأساليب أقل شيوعًا من أساليب تدرج السياسة في المهام المستمرة.
أسطورة
لا يحتاج PPO إلى أي ضبط للمعلمات الفائقة ليعمل بشكل جيد.
الواقع
تُعتبر خوارزمية PPO أكثر تسامحًا من العديد من الخوارزميات الأخرى، ولكنها لا تزال تتطلب ضبطًا دقيقًا لمعاملات القطع ومعدل التعلم ومعامل الإنتروبيا. وقد تؤدي الخيارات غير المناسبة إلى بطء التقارب أو إلى سياسات دون المستوى الأمثل.
الأسئلة المتداولة
ما هو الفرق الرئيسي بين PPO و Q-Learning؟
خوارزمية PPO هي خوارزمية تدرج السياسة التي تتعلم مباشرةً العلاقة بين الحالات والإجراءات، وتُحدّث السياسة من خلال صعود التدرج. أما خوارزمية Q-Learning فهي خوارزمية قائمة على القيمة تُقدّر المكافأة المتوقعة لكل زوج من الحالة والإجراء، وتستخلص السلوك من هذه التقديرات. يؤثر هذا الاختلاف الجوهري على الاستقرار، وكفاءة أخذ العينات، وأنواع المشكلات التي تُعالجها كل خوارزمية على أفضل وجه.
أي خوارزمية أفضل لمساحات العمل المستمرة؟
يُعدّ PPO الخيار الأفضل عمومًا لمساحات الأفعال المتصلة لأنه يُخرج توزيعات احتمالية للأفعال بشكل طبيعي. صُممت خوارزمية Q-Learning في الأصل للأفعال المنفصلة، مع وجود بعض التوسعات. بالنسبة لمهام مثل التحكم في الذراع الروبوتية أو القيادة الذاتية، يُعدّ PPO الخيار الأكثر شيوعًا وموثوقية.
لماذا يُعدّ PPO أكثر استقرارًا من Q-Learning؟
تستخدم خوارزمية PPO دالة هدف مقيدة تحد من مقدار التغيير الذي يمكن أن تُحدثه السياسة في تحديث واحد، مما يمنع الانهيار الكارثي للسياسة الذي قد يُصيب خوارزمية Q-Learning. تعاني خوارزمية Q-Learning من تحيز التقدير الزائد ومشكلة الهدف المتحرك، مما يتطلب تقنيات إضافية مثل الشبكات المستهدفة والتعلم المزدوج للتخفيف من هذه المشاكل.
هل يمكن الجمع بين خوارزميتي PPO و Q-Learning؟
نعم، توجد مناهج هجينة. تجمع أساليب الممثل-الناقد، مثل أسلوب الممثل-الناقد المرن (SAC) وأسلوب DDPG المزدوج المؤجل (TD3)، بين تدرجات السياسة وتعلم دالة القيمة. تستخدم هذه الخوارزميات تقدير قيمة Q لتوجيه تحديثات السياسة، ما يمزج بين نقاط قوة كلا النموذجين.
ما هي الخوارزمية المستخدمة في RLHF لنماذج اللغة الكبيرة؟
تُعدّ خوارزمية PPO الخوارزمية القياسية المستخدمة في التعلم المعزز من خلال التغذية الراجعة البشرية (RLHF) لضبط نماذج اللغة الكبيرة بدقة. ويجعلها استقرارها وقدرتها على التعامل مع مساحات الأفعال عالية الأبعاد مناسبة تمامًا لتوليد النصوص كلمةً كلمةً مع دمج إشارات التفضيل البشري.
هل لا يزال التعلم المعزز (Q-Learning) مستخدمًا في أبحاث الذكاء الاصطناعي الحديثة؟
بالتأكيد. لا تزال خوارزمية Q-Learning خوارزمية أساسية في أبحاث التعلم المعزز. وتواصل المتغيرات العميقة مثل DQN وDouble DQN وRainbow تحقيق نتائج قوية في الاختبارات المعيارية، كما يؤثر الإطار المفاهيمي لتعلم قيم الأفعال على العديد من الخوارزميات الأحدث.
أي خوارزمية تتطلب بيانات أقل للتدريب؟
يتطلب التعلم المعزز (Q-Learning) عادةً بيانات أقل لأنه يستطيع إعادة استخدام التجارب السابقة المخزنة في مخزن مؤقت لإعادة التشغيل. أما التعلم المعزز بالسياسات (PPO) فهو يعتمد على السياسة ويتخلص عادةً من البيانات بعد كل تحديث، مما يعني أنه يحتاج إلى تفاعلات أكثر مع البيئة. في التطبيقات العملية حيث يكون جمع البيانات مكلفًا، يمكن أن تكون كفاءة أخذ العينات في التعلم المعزز (Q-Learning) ميزةً كبيرة.
ما هي الامتدادات الشائعة لتقنية التعلم المعزز (Q-Learning)؟
تشمل الإضافات الشائعة شبكات كيو العميقة (DQN) لمعالجة المدخلات عالية الأبعاد، وشبكة كيو العميقة المزدوجة (Double DQN) لتقليل التحيز الناتج عن المبالغة في التقدير، وشبكة كيو العميقة المزدوجة (Dueling DQN) لفصل تقدير القيمة وتقدير الميزة، وشبكة قوس قزح (Rainbow) التي تجمع بين عدة تحسينات. تعالج كل إضافة نقاط ضعف محددة في الخوارزمية الأصلية.
كيف يختلف الاستكشاف بين خوارزمية PPO وخوارزمية Q-Learning؟
تستخدم خوارزمية PPO سياسات عشوائية مع مكافآت إنتروبيا لتشجيع الاستكشاف بشكل طبيعي كجزء من عملية التعلم. بينما تعتمد خوارزمية Q-Learning عادةً على استراتيجيات استكشاف صريحة مثل خوارزمية إبسيلون-جريدي، حيث يتخذ العامل إجراءات عشوائية باحتمالية معينة. يتميز نهج PPO بقدرته على التوسع بشكل أفضل في مساحات الإجراءات المعقدة.
أي خوارزمية أسهل في التطبيق بالنسبة للمبتدئين؟
يُعتبر خوارزمية PPO أسهل في التنفيذ من الصفر نظرًا لبساطة هدفها المقتطع وقلة مكوناتها. أما المتغيرات العميقة لخوارزمية Q-Learning فتتطلب إدارة دقيقة لمخازن إعادة التشغيل، والشبكات المستهدفة، وجداول الاستكشاف، مما يزيد من تعقيدها بالنسبة للمبتدئين.
الحكم
اختر خوارزمية PPO عند العمل مع التحكم المستمر، أو الروبوتات، أو تدريب السياسات على نطاق واسع حيث يكون الاستقرار بالغ الأهمية. اختر خوارزمية Q-Learning لمساحات العمل المنفصلة، أو السيناريوهات ذات العينات المحدودة، أو عندما تحتاج إلى الاستفادة من إعادة تجربة التعلم. تبقى كلتا الخوارزميتين أساسيتين، وفهم مزايا وعيوب كل منهما يساعدك على اختيار الأداة المناسبة لتحدي التعلم المعزز الخاص بك.