पीपीओमधील पॉलिसी क्लिपिंग विरुद्ध अमर्याद पॉलिसी अपडेट्स
PPO मधील पॉलिसी क्लिपिंग प्रत्येक अपडेट दरम्यान नवीन पॉलिसी जुन्या पॉलिसीपासून किती दूर जाऊ शकते यावर मर्यादा घालते, ज्यामुळे ट्रेनिंग स्थिर राहते. अमर्याद पॉलिसी अपडेट्समुळे नवीन पॉलिसीला मुक्तपणे बदलण्याची मुभा मिळते, ज्यामुळे लर्निंगचा वेग वाढू शकतो, परंतु गुंतागुंतीच्या वातावरणात अनेकदा अस्थिरता किंवा कोसळण्याची समस्या निर्माण होते.
ठळक मुद्दे
PPO क्लिपिंग संभाव्यता गुणोत्तर ०.८–१.२ पर्यंत मर्यादित करते, ज्यामुळे विनाशकारी अद्यतने टाळली जातात.
अमर्याद अद्यतनांमुळे धोरण एकाच टप्प्यात अनियंत्रितपणे पुढे जाऊ शकते.
क्लिपिंगमुळे एकाच डेटा बॅचवर अनेक प्रशिक्षण टप्पे (इपॉक्स) शक्य होतात, ज्यामुळे कार्यक्षमता वाढते.
अमर्याद पद्धतींमध्ये कोलॅप्स टाळण्यासाठी लर्निंग रेटचे काळजीपूर्वक ट्यूनिंग करणे आवश्यक असते.
पीपीओ मध्ये पॉलिसी क्लिपिंग काय आहे?
प्रॉक्सिमल पॉलिसी ऑप्टिमायझेशनमधील एक तंत्र जे प्रत्येक अपडेट स्टेपमध्ये पॉलिसीमध्ये किती बदल होऊ शकतो यावर मर्यादा घालते.
ओपनएआय (OpenAI) येथील जॉन शुलमन आणि त्यांच्या सहकाऱ्यांनी त्यांच्या २०१७ च्या पीपीओ (PPO) शोधनिबंधात सादर केले.
नवीन आणि जुन्या पॉलिसींमधील संभाव्यता गुणोत्तर मर्यादित करण्यासाठी क्लिपिंग रेशो वापरला जातो, जो सामान्यतः 0.1 ते 0.2 दरम्यान सेट केलेला असतो.
TRPO मध्ये वापरल्या जाणाऱ्या KL डायव्हर्जन्स पेनल्टीच्या जागी एक सोपे क्लिप्ड सरोगेट ऑब्जेक्टिव्ह आणले आहे.
प्रशिक्षणात अडथळा आणू शकणारे विनाशकारी मोठे धोरणात्मक बदल टाळण्यास मदत करते.
संशोधन आणि उद्योग या दोन्ही क्षेत्रांमध्ये सर्वाधिक वापरल्या जाणाऱ्या रीइन्फोर्समेंट लर्निंग अल्गोरिदमपैकी एक बनला आहे.
अमर्याद धोरण अद्यतने काय आहे?
एक अशी पद्धत, जिथे एकाच प्रशिक्षण पुनरावृत्ती दरम्यान धोरण मापदंड कोणत्याही स्पष्ट बंधनांशिवाय कोणत्याही प्रमाणात बदलू शकतात.
व्हॅनिला REINFORCE आणि मूलभूत अॅक्टर-क्रिटिक अल्गोरिदम यांसारख्या सुरुवातीच्या पॉलिसी ग्रेडियंट पद्धतींमध्ये वापरले जाते.
पॅरामीटर बदलांच्या तीव्रतेवर मर्यादा घालण्यासाठी कोणतेही क्लिपिंग किंवा केएल बंधन लागू केलेले नाही.
जेव्हा ग्रेडियंटची दिशा योग्य असते, तेव्हा जलद प्रारंभिक शिक्षण घडून येऊ शकते.
यादृच्छिक किंवा उच्च-मितीय वातावरणात अनेकदा उच्च तफावत आणि धोरण कोसळण्यास कारणीभूत ठरते.
अस्थिरता अंशतः कमी करण्यासाठी कधीकधी ट्रस्ट रीजन ह्युरिस्टिक्स किंवा लर्निंग रेट डिके सोबत वापरले जाते.
तुलना सारणी
वैशिष्ट्ये
पीपीओ मध्ये पॉलिसी क्लिपिंग
अमर्याद धोरण अद्यतने
अपडेट मर्यादा
०.१–०.२ च्या गुणोत्तरापर्यंत मर्यादित केले
कोणतेही स्पष्ट बंधन नाही
प्रशिक्षण स्थिरता
पुनरावृत्तींमध्ये साधारणपणे स्थिर
दोलन आणि कोसळण्याची शक्यता
नमुना कार्यक्षमता
उच्च, संकलित मार्गांचा पुनर्वापर करते
परिवर्तनशील, अनेकदा नवीन डेटाची आवश्यकता असते
अंमलबजावणीची गुंतागुंत
मध्यम, एकल क्लिप्ड उद्दिष्ट
साधी, प्रमाणित प्रवणता
हायपरपॅरामीटर संवेदनशीलता
खालची क्लिपिंग रेंज क्षम्य आहे.
लर्निंग रेट जास्त असणे महत्त्वाचे आहे.
धोरण कोसळण्याचा धोका
सान्निध्य मर्यादेमुळे कमी
बाह्य सुरक्षा उपायांशिवाय उच्च
सामान्य वापराची प्रकरणे
रोबोटिक्स, गेम एआय, आरएलएचएफ, सतत नियंत्रण
सोप्या समस्या, सैद्धांतिक विश्लेषण
मूळ
ओपनएआय, २०१७ पीपीओ पेपर
सुरुवातीचे धोरणात्मक श्रेणीचे साहित्य, १९९०-२००० चे दशक
तपशीलवार तुलना
मुख्य यंत्रणा
PPO मधील पॉलिसी क्लिपिंग नवीन आणि जुन्या कृती संभाव्यतांचे गुणोत्तर काढून, नंतर ते गुणोत्तर एका अरुंद पट्टीत (सहसा ०.८ ते १.२) ठेवण्यासाठी मर्यादित करून कार्य करते. जेव्हा हे गुणोत्तर या पट्टीच्या बाहेर जाण्याचा प्रयत्न करते, तेव्हा ग्रेडियंट सिग्नल शून्य केला जातो, ज्यामुळे ऑप्टिमायझरला प्रभावीपणे 'या दिशेने पुढे जाऊ नका' असा संदेश मिळतो. अमर्याद अपडेट्स ही सुरक्षा पूर्णपणे वगळतात, ज्यामुळे ऑप्टिमायझरला पॉलिसी पॅरामीटर्स ग्रेडियंटच्या दिशेने हलवण्याची मुभा मिळते, बदल कितीही मोठा असला तरीही.
स्थिरता आणि विश्वसनीयता
क्लिप्ड पद्धत तिच्या विश्वासार्हतेसाठी ओळखली जाते, कारण ती अनबाउंडेड मेथड्सना त्रास देणारे विनाशकारी विस्मरण टाळते. जेव्हा एखादे चांगले धोरण सापडते, तेव्हा क्लिपिंगमुळे ते अतिआत्मविश्वासाने केलेल्या अपडेटमुळे नष्ट होण्यापासून वाचते. अनबाउंडेड अपडेट्स कधीकधी अधिक वेगाने महत्त्वपूर्ण शोध लावू शकतात, परंतु एकाच चुकीच्या पावलामुळे अनेक आठवड्यांची प्रगती वाया घालवण्याची त्यांची सवय असते, म्हणूनच बहुतेक प्रोडक्शन सिस्टीम्स त्यांचा वापर टाळतात.
नमुना कार्यक्षमता
PPO चे क्लिपिंग संकलित अनुभवाच्या एकाच बॅचवर ऑप्टिमायझेशनचे अनेक टप्पे शक्य करते, ज्यामुळे सॅम्पलची कार्यक्षमता लक्षणीयरीत्या सुधारते. पॉलिसी फार दूरपर्यंत भरकटू शकत नसल्यामुळे, डेटा अनेक ग्रेडियंट टप्प्यांवर सुसंगत राहतो. अमर्याद अपडेट्ससाठी सामान्यतः प्रत्येक इटरेशनमध्ये नवीन सॅम्पल्सची आवश्यकता असते, कारण पॉलिसी इतकी बदललेली असू शकते की जुने ट्रॅजेक्टरीज सध्याच्या वर्तनाचे प्रतिबिंब दर्शवत नाहीत, ज्यामुळे संगणकीय आणि पर्यावरणीय संसाधनांचा अपव्यय होतो.
हायपरपॅरामीटर वर्तन
क्लिपिंगमुळे PPO हायपरपॅरामीटर्सच्या बाबतीत आश्चर्यकारकपणे लवचिक बनते. ०.२ ची क्लिप रेंज जास्त ट्यूनिंगशिवाय विविध प्रकारच्या कार्यांमध्ये उत्तम काम करते. अनबाउंडेड अपडेट्सचे यश-अपयश हे लर्निंग रेटवर अवलंबून असते: तो खूप कमी असल्यास लर्निंगची गती मंदावते, आणि खूप जास्त असल्यास पॉलिसी विचलित होते. या संवेदनशीलतेमुळे, ज्या व्यावसायिकांकडे विस्तृत तपासणीसाठी वेळ नसतो, त्यांच्यासाठी अनबाउंडेड मेथड्स निराशाजनक ठरतात.
व्यावहारिक अवलंबन
कोणत्याही आधुनिक RL कोडबेसचा आढावा घेतल्यास, OpenAI च्या स्वतःच्या कामापासून ते रोबोटिक्स लॅब्स आणि RLHF सारख्या लँग्वेज मॉडेल फाइन-ट्यूनिंग पाइपलाइन्सपर्यंत, सर्वत्र PPO चेच वर्चस्व असल्याचे दिसून येते. अनबाउंडेड पॉलिसी अपडेट्स अजूनही मुख्यतः पाठ्यपुस्तके आणि सैद्धांतिक चर्चांपुरतेच मर्यादित आहेत, आणि तुलना करण्यासाठी आधारभूत माहितीची गरज असलेल्या शोधनिबंधांमध्ये ते अधूनमधून समोर येतात. या अवलंबनातील तफावत, व्यवहारात कोणता दृष्टिकोन प्रत्यक्षात प्रभावी ठरतो याबद्दल अनेक दशकांपासून जमा झालेल्या पुराव्यांना प्रतिबिंबित करते.
गुण आणि दोष
पीपीओ मध्ये पॉलिसी क्लिपिंग
गुणदोष
+अत्यंत स्थिर प्रशिक्षण
+नमुना कार्यक्षम
+क्षमाशील हायपरपॅरामीटर्स
+उद्योगक्षेत्रात व्यापक अवलंब
संरक्षित केले
−प्रत्येक पावलाची मंद प्रगती
−क्लिप रेंजमध्ये अजूनही सुधारणा करण्याची गरज आहे.
−अति पुराणमतवादी असू शकते
−किंचित अधिक गुंतागुंतीचा कोड
अमर्याद धोरण अद्यतने
गुणदोष
+अंमलबजावणी करणे सोपे
+जलद प्रारंभिक शिक्षण
+कोणतेही कृत्रिम निर्बंध नाहीत
+सैद्धांतिक कामासाठी उपयुक्त
संरक्षित केले
−धोरण कोसळण्याची शक्यता
−उच्च तफावतीचे अपडेट्स
−नमुन्याचा अयोग्य पुनर्वापर
−शिकण्याच्या दरास संवेदनशील
सामान्य गैरसमजुती
मिथ
क्लिपिंगमुळे धोरणामध्ये लक्षणीय बदल होणे पूर्णपणे थांबते.
वास्तव
क्लिपिंगमुळे एकाच अपडेट स्टेपमध्ये पॉलिसी किती बदलू शकते यावरच मर्यादा येते. अनेक इटरेशन्समध्ये, जोपर्यंत प्रत्येक स्टेप क्लिप रेंजच्या आत राहते, तोपर्यंत पॉलिसीमध्ये लक्षणीय बदल होऊ शकतो. ही मर्यादा प्रत्येक स्टेपसाठी आहे, कायमस्वरूपी नाही.
मिथ
अमर्याद अद्यतने नेहमीच मर्यादित पद्धतींपेक्षा अधिक वेगाने अभिसरण करतात.
वास्तव
अमर्याद अपडेट्स सुरुवातीला अधिक वेगवान वाटू शकतात, परंतु ते वारंवार विचलित होतात किंवा कोलमडतात, ज्यामुळे पुन्हा सुरुवात करावी लागते आणि सुरुवातीला मिळालेला फायदा नाहीसा होतो. प्रत्यक्षात, PPO सारख्या संक्षिप्त पद्धती अनेकदा कमी वेळेत अधिक चांगली अंतिम कामगिरी साधतात, कारण त्या खराब अपडेट्समधून सावरण्यासाठी प्रयत्न वाया घालवत नाहीत.
मिथ
PPO चे क्लिपिंग त्याला TRPO च्या समकक्ष बनवते.
वास्तव
दोन्ही पद्धती पॉलिसी अपडेट्सवर मर्यादा घालतात, परंतु TRPO लाइन सर्चसह एक कठोर KL डायव्हर्जन्स मर्यादा वापरते, तर PPO संभाव्यता गुणोत्तरावर एक सॉफ्ट क्लिप वापरते. PPO अधिक सोपी आहे, प्रति बॅच अनेक इपॉक्सना समर्थन देते आणि मोठ्या मॉडेल्ससाठी अधिक चांगल्या प्रकारे स्केल होते, म्हणूनच व्यवहारात तिने मोठ्या प्रमाणावर TRPO ची जागा घेतली आहे.
मिथ
क्लिपची मोठी श्रेणी म्हणजे नेहमीच अधिक आक्रमक शिक्षण.
वास्तव
क्लिप रेंज वाढवल्याने मोठे अपडेट्स करणे शक्य होते, पण त्यामुळे क्लिपिंगचा संरक्षक प्रभावही कमी होतो. एका विशिष्ट मर्यादेनंतर, अल्गोरिदम अधिक अमर्याद अपडेटसारखा वागतो आणि त्याचे स्थिरतेचे फायदे गमावतो. डीफॉल्ट ०.२ रेंज ही एक सर्वोत्तम मर्यादा आहे, ती पुढील स्तरावर ट्यूनिंग करण्यासाठीची सुरुवात नाही.
मिथ
अमर्याद धोरण अद्यतने कालबाह्य आणि निरुपयोगी आहेत.
वास्तव
अमर्याद अद्यतने संशोधनामध्ये आधाररेखा म्हणून मौल्यवान ठरतात आणि लहान ग्रिडवर्ल्ड किंवा कमी-मितीय नियंत्रण कार्यांसारख्या सोप्या वातावरणात बऱ्यापैकी चांगले काम करतात. ट्रस्ट रीजन पद्धती मुळात का विकसित केल्या गेल्या, हे समजून घेण्यासाठी ती शैक्षणिक साधने म्हणूनही उपयोगी पडतात.
वारंवार विचारले जाणारे प्रश्न
PPO मधील क्लिप रेशो नेमके काय करतो?
क्लिप रेशो नवीन आणि जुन्या पॉलिसींमधील संभाव्यता गुणोत्तराला ०.२ सारख्या मूल्यावर मर्यादित करतो, याचा अर्थ असा की नवीन पॉलिसी जुन्या पॉलिसीच्या तुलनेत कोणत्याही कृतीला २०% पेक्षा जास्त किंवा कमी संभाव्यता देऊ शकत नाही. जेव्हा हे गुणोत्तर ही मर्यादा ओलांडण्याचा प्रयत्न करते, तेव्हा ग्रेडियंट शून्य केला जातो, ज्यामुळे त्या स्टेपसाठी त्या दिशेने पुढील हालचाल थांबते.
अमर्याद पॉलिसी अपडेट्समुळे ट्रेनिंग अयशस्वी का होते?
मर्यादांशिवाय, एकच मोठी ग्रेडियंट स्टेप पॉलिसीला अशा क्षेत्रात ढकलू शकते जिथे तिची कामगिरी अत्यंत खराब होते, आणि परिणामी निर्माण होणारे खराब मार्ग भविष्यातील ग्रेडियंट अंदाजांना दूषित करतात. या फीडबॅक लूपमुळे अनेकदा पॉलिसी कोलॅप्स होतो, जिथे एजंटची कामगिरी अपरिवर्तनीयपणे घसरते आणि मॅन्युअल रीसेटशिवाय ती कधीही पूर्ववत होत नाही.
PPO हे व्हॅनिला पॉलिसी ग्रेडियंट पद्धतींपेक्षा नेहमीच चांगले असते का?
बहुतेक व्यावहारिक परिस्थितीत, होय. PPO चे क्लिपिंग अशी स्थिरता प्रदान करते जी सामान्य पद्धतींमध्ये नसते, विशेषतः सतत नियंत्रण आणि उच्च-मितीय निरीक्षण जागांमध्ये. अत्यंत सोप्या विविक्त वातावरणात, जिथे ग्रेडियंट सिग्नल स्वच्छ असतो आणि कोसळण्याचा धोका कमी असतो, तिथेही सामान्य पॉलिसी ग्रेडियंट्स यशस्वी ठरू शकतात.
तुम्ही क्लिपिंगला केएल पेनल्टीसारख्या इतर तंत्रांसोबत एकत्र वापरू शकता का?
होय, आणि अनेक अंमलबजावणींमध्ये नेमके हेच केले जाते. अपडेट्सना अधिक नियमित करण्यासाठी क्लिपिंगसोबत अॅडॅप्टिव्ह केएल पेनल्टी जोडल्या जाऊ शकतात, जरी मूळ पीपीओ पेपरमध्ये असे आढळले की सहसा केवळ क्लिपिंग पुरेसे असते. काही व्यावसायिकांच्या मते, दोन्ही एकत्र केल्याने विशेषतः अवघड कामांमध्ये किरकोळ सुधारणा होते.
PPO क्लिप रेंज शून्यावर सेट केल्यास काय होते?
शून्य क्लिप रेंजमुळे पॉलिसी पूर्णपणे गोठवली जाईल, कारण कोणताही बदल कापला जाईल आणि शून्य ग्रेडियंट तयार होईल. व्यवहारात, थोडेफार लर्निंग होण्यासाठी क्लिप रेंज पॉझिटिव्ह असणे आवश्यक आहे, म्हणूनच शून्याच्या जवळ जाण्याऐवजी ०.१ किंवा ०.२ सारखी मूल्ये मानक मानली जातात.
बेंचमार्कमध्ये अनबाउंडेड अपडेट्स कधी PPO पेक्षा चांगली कामगिरी करतात का?
क्वचितच, पण सोप्या कार्यांमध्ये असे घडू शकते जिथे इष्टतम पॉलिसीपर्यंत पोहोचणे सोपे असते आणि ग्रेडियंट सुव्यवस्थित असतो. MuJoCo किंवा Atari सारख्या प्रमाणित बेंचमार्कमध्ये, PPO सातत्याने अमर्याद बेसलाइनशी जुळते किंवा त्यांना मागे टाकते, म्हणूनच ते नवीन प्रकल्पांसाठी डीफॉल्ट पर्याय बनले आहे.
PPO सतत क्रिया जागांना अमर्याद पद्धतींपेक्षा वेगळ्या पद्धतीने कसे हाताळते?
दोन्ही पद्धती गॉसियन पॉलिसीद्वारे सतत क्रियांवर काम करतात, परंतु PPO चे क्लिपिंग अपडेट्स दरम्यान सरासरी आणि विचलन पॅरामीटर्सना अनियंत्रितपणे बदलण्यापासून प्रतिबंधित करते. सतत जागांमधील अमर्याद पद्धती विशेषतः अस्थिरतेस प्रवण असतात कारण पॅरामीटर्समधील लहान बदलांमुळे क्रिया वितरणांमध्ये मोठे बदल होऊ शकतात.
क्लिपिंग आणि ग्रेडियंट क्लिपिंग एकच आहेत का?
नाही, ह्या वेगवेगळ्या कार्यप्रणाली आहेत. ग्रेडियंट क्लिपिंग हे पॅरामीटर्स अद्ययावत करण्यापूर्वी ग्रेडियंट्सचे प्रमाण मर्यादित करते, तर PPO चे क्लिपिंग हे अद्ययावतीकरणाची गणना झाल्यानंतर संभाव्यतांचे गुणोत्तर मर्यादित करते. दोन्ही एकत्र वापरले जाऊ शकतात आणि ते प्रशिक्षणातील अस्थिरतेच्या संबंधित परंतु भिन्न स्रोतांवर उपाय करतात.
ओपनएआयने टीआरपीओ सुधारण्याऐवजी पीपीओ का विकसित केले?
TRPO चांगले काम करत होते, परंतु त्याच्या सेकंड-ऑर्डर ऑप्टिमायझेशन आणि लाइन सर्च प्रक्रियांमुळे ते संगणकीयदृष्ट्या खर्चिक होते. PPO ची रचना फर्स्ट-ऑर्डर पद्धतींद्वारे समान स्थिरतेची हमी मिळवण्यासाठी केली गेली, ज्या अंमलात आणायला सोप्या आहेत, मोठ्या नेटवर्क्ससाठी अधिक चांगल्या प्रकारे स्केल होतात आणि आधुनिक हार्डवेअरवर अधिक वेगाने चालतात.
कमी लर्निंग रेट वापरून अमर्याद अपडेट्स स्थिर करता येतात का?
कमी लर्निंग रेट प्रत्येक अपडेटची तीव्रता कमी करतो, ज्यामुळे क्लिपिंगच्या काही फायद्यांची नक्कल होते, परंतु तो PPO ला मजबूत बनवणारी सान्निध्य अट लागू करत नाही. तुम्ही या पद्धतीने स्थिरतेचा अंदाज घेऊ शकता, परंतु PPO च्या विश्वसनीयतेशी बरोबरी करण्यासाठी तुम्हाला सामान्यतः अधिक सॅम्पल्स आणि काळजीपूर्वक ट्यूनिंगची आवश्यकता असेल.
निकाल
जेव्हा तुम्हाला विविध वातावरणांमध्ये विश्वसनीय, पुनरुत्पादक प्रशिक्षणाची आवश्यकता असते, तेव्हा PPO मध्ये पॉलिसी क्लिपिंग निवडा; विशेषतः उत्पादन किंवा संशोधन सेटिंग्जमध्ये, जिथे केवळ वेगापेक्षा स्थिरता अधिक महत्त्वाची असते. अमर्याद पॉलिसी अपडेट्स केवळ सोप्या, कमी-मितीय समस्यांसाठी किंवा सैद्धांतिक अभ्यासांसाठीच उपयुक्त ठरतात, जिथे तुम्हाला विशेषतः त्या अपयशाच्या पद्धतींचे निरीक्षण करायचे असते, ज्यांना रोखण्यासाठी क्लिपिंगची रचना केली गेली होती.