PPO-তে পলিসি ক্লিপিং প্রতিটি আপডেটের সময় একটি নতুন পলিসি পুরানোটি থেকে কতটা বিচ্যুত হতে পারে তা সীমাবদ্ধ করে, যা প্রশিক্ষণকে স্থিতিশীল রাখে। সীমাহীন পলিসি আপডেট নতুন পলিসিকে অবাধে স্থানান্তরিত হতে দেয়, যা শেখার গতি বাড়াতে পারে কিন্তু প্রায়শই জটিল পরিবেশে অস্থিতিশীলতা বা পতনের কারণ হয়।
হাইলাইটস
PPO ক্লিপিং সম্ভাব্যতা অনুপাতকে ০.৮–১.২-এ সীমাবদ্ধ করে, যা ক্ষতিকর আপডেট প্রতিরোধ করে।
সীমাহীন আপডেটগুলো এক ধাপেই পলিসিকে যথেচ্ছভাবে অনেক দূর পর্যন্ত সরিয়ে নিতে পারে।
ক্লিপিং একই ডেটা ব্যাচের উপর একাধিক প্রশিক্ষণ পর্ব চালাতে সক্ষম করে, যা কার্যকারিতা বৃদ্ধি করে।
অসীম পদ্ধতিগুলোর ক্ষেত্রে ধস এড়ানোর জন্য লার্নিং রেট সতর্কতার সাথে টিউন করা প্রয়োজন।
পিপিও-তে পলিসি ক্লিপিং কী?
প্রক্সিমাল পলিসি অপটিমাইজেশনের একটি কৌশল যা প্রতি আপডেট ধাপে পলিসির পরিবর্তনের পরিমাণকে সীমিত করে।
ওপেনএআই-এর জন শুলম্যান ও তাঁর সহকর্মীরা তাঁদের ২০১৭ সালের পিপিও গবেষণাপত্রে এটি প্রবর্তন করেন।
নতুন এবং পুরাতন পলিসিগুলোর মধ্যে সম্ভাবনার অনুপাতকে সীমিত করতে একটি ক্লিপিং রেশিও ব্যবহার করা হয়, যা সাধারণত ০.১ থেকে ০.২-এর মধ্যে সেট করা থাকে।
TRPO-তে ব্যবহৃত KL ডাইভারজেন্স পেনাল্টিকে একটি সরলতর ক্লিপড সারোগেট অবজেক্টিভ দ্বারা প্রতিস্থাপন করে।
ধ্বংসাত্মকভাবে বড় নীতিগত পরিবর্তন প্রতিরোধ করতে সাহায্য করে যা প্রশিক্ষণকে ব্যাহত করতে পারে।
গবেষণা ও শিল্প উভয় ক্ষেত্রেই এটি অন্যতম বহুল ব্যবহৃত রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম হয়ে উঠেছে।
সীমাহীন নীতি আপডেট কী?
এমন একটি পদ্ধতি যেখানে সুস্পষ্ট সীমাবদ্ধতা ছাড়াই একটি একক প্রশিক্ষণ পুনরাবৃত্তির সময় পলিসি প্যারামিটারগুলি যেকোনো পরিমাণে পরিবর্তিত হতে পারে।
ভ্যানিলা REINFORCE এবং মৌলিক অ্যাক্টর-ক্রিটিক অ্যালগরিদমের মতো প্রাথমিক পলিসি গ্রেডিয়েন্ট পদ্ধতিগুলিতে ব্যবহৃত হয়।
প্যারামিটার পরিবর্তনের মাত্রা সীমিত করার জন্য কোনো ক্লিপিং বা কেএল কনস্ট্রেইন্ট প্রয়োগ করা হয় না।
গ্রেডিয়েন্টের দিক সঠিক হলে দ্রুত প্রাথমিক শিখন সম্ভব।
প্রায়শই স্টোকাস্টিক বা উচ্চ-মাত্রিক পরিবেশে উচ্চ বৈচিত্র্য এবং নীতির পতনের দিকে পরিচালিত করে।
কখনও কখনও অস্থিতিশীলতা আংশিকভাবে প্রশমিত করার জন্য ট্রাস্ট রিজিয়ন হিউরিস্টিকস বা লার্নিং রেট ডিকের সাথে যুক্ত করা হয়।
তুলনা সারণি
বৈশিষ্ট্য
পিপিও-তে পলিসি ক্লিপিং
সীমাহীন নীতি আপডেট
সীমাবদ্ধতা আপডেট করুন
০.১–০.২ অনুপাতে ছেঁটে ফেলা হয়েছে
কোনো সুস্পষ্ট সীমাবদ্ধতা নেই
প্রশিক্ষণের স্থিতিশীলতা
সাধারণত পুনরাবৃত্তি জুড়ে স্থিতিশীল
দোলন ও পতনের প্রবণতা রয়েছে
নমুনা দক্ষতা
উচ্চ, সংগৃহীত গতিপথগুলি পুনরায় ব্যবহার করে
পরিবর্তনশীল, প্রায়শই নতুন ডেটার প্রয়োজন হয়
বাস্তবায়ন জটিলতা
মাঝারি, একক ক্লিপ করা উদ্দেশ্য
সহজ, সাধারণ গ্রেডিয়েন্ট আরোহণ
হাইপারপ্যারামিটার সংবেদনশীলতা
নিম্ন, ক্লিপিং পরিসরটি সহনশীল।
উচ্চতর শেখার হার অত্যন্ত গুরুত্বপূর্ণ।
নীতি পতনের ঝুঁকি
নৈকট্যের সীমাবদ্ধতার কারণে কম
বাহ্যিক সুরক্ষা ব্যবস্থা ছাড়া উচ্চ
সাধারণ ব্যবহারের ক্ষেত্র
রোবোটিক্স, গেম এআই, আরএলএইচএফ, নিরবচ্ছিন্ন নিয়ন্ত্রণ
সহজ খেলনার সমস্যা, তাত্ত্বিক বিশ্লেষণ
উৎপত্তি
ওপেনএআই, ২০১৭ পিপিও পেপার
১৯৯০-এর দশক থেকে ২০০০-এর দশক পর্যন্ত প্রাথমিক নীতিগত তারতম্য বিষয়ক সাহিত্য।
বিস্তারিত তুলনা
মূল প্রক্রিয়া
PPO-তে পলিসি ক্লিপিং নতুন এবং পুরানো অ্যাকশন সম্ভাবনার অনুপাত গণনা করে কাজ করে, এবং তারপর সেই অনুপাতটিকে একটি সংকীর্ণ সীমার (সাধারণত ০.৮ থেকে ১.২) মধ্যে সীমাবদ্ধ রাখে। যখন অনুপাতটি এই সীমার বাইরে যাওয়ার চেষ্টা করে, তখন গ্রেডিয়েন্ট সিগন্যালটি শূন্য করে দেওয়া হয়, যা কার্যকরভাবে অপটিমাইজারকে বলে দেয় 'এই দিকে আর অগ্রসর হয়ো না'। আনবাউন্ডেড আপডেটগুলি এই সুরক্ষা ব্যবস্থাটি সম্পূর্ণরূপে এড়িয়ে যায়, এবং পরিবর্তনটি যতই নাটকীয় হোক না কেন, অপটিমাইজারকে গ্রেডিয়েন্ট যেদিকেই নির্দেশ করুক না কেন, পলিসি প্যারামিটারগুলিকে সেদিকে সরানোর সুযোগ দেয়।
স্থিতিশীলতা এবং নির্ভরযোগ্যতা
ক্লিপড অ্যাপ্রোচ তার নির্ভরযোগ্যতার জন্য খ্যাতি অর্জন করেছে, কারণ এটি সেই মারাত্মক বিস্মৃতিকে প্রতিরোধ করে যা আনবাউন্ডেড পদ্ধতিগুলোকে জর্জরিত করে। যখন একটি ভালো পলিসি খুঁজে পাওয়া যায়, ক্লিপিং সেটিকে একটি অতি-আত্মবিশ্বাসী আপডেটের দ্বারা ধ্বংস হওয়া থেকে রক্ষা করে। আনবাউন্ডেড আপডেটগুলো মাঝে মাঝে দ্রুততর সাফল্য খুঁজে পেতে পারে, কিন্তু একটিমাত্র ভুল পদক্ষেপে সপ্তাহের পর সপ্তাহের অগ্রগতি নষ্ট করে দেওয়ার প্রবণতাও এদের রয়েছে, যে কারণে বেশিরভাগ প্রোডাকশন সিস্টেম এগুলো এড়িয়ে চলে।
নমুনা দক্ষতা
PPO-এর ক্লিপিং একই ব্যাচ সংগৃহীত অভিজ্ঞতার উপর একাধিক অপ্টিমাইজেশন ইপোক সক্ষম করে, যা স্যাম্পল এফিসিয়েন্সি নাটকীয়ভাবে উন্নত করে। যেহেতু পলিসি খুব বেশি বিচ্যুত হতে পারে না, তাই ডেটা একাধিক গ্রেডিয়েন্ট স্টেপ জুড়ে প্রাসঙ্গিক থাকে। আনবাউন্ডেড আপডেটের জন্য সাধারণত প্রতিটি ইটারেশনে নতুন স্যাম্পলের প্রয়োজন হয়, কারণ পলিসি এতটাই পরিবর্তিত হতে পারে যে পুরানো ট্র্যাজেক্টরিগুলো আর বর্তমান আচরণকে প্রতিফলিত করে না, যা কম্পিউটেশনাল এবং এনভায়রনমেন্টাল রিসোর্সের অপচয় ঘটায়।
হাইপারপ্যারামিটার আচরণ
ক্লিপিং PPO-কে হাইপারপ্যারামিটারের ক্ষেত্রে উল্লেখযোগ্যভাবে সহনশীল করে তোলে। এর ০.২ ক্লিপ রেঞ্জটি খুব বেশি টিউনিং ছাড়াই বিশাল পরিসরের কাজে ভালোভাবে কাজ করে। আনবাউন্ডেড আপডেটগুলোর সাফল্য বা ব্যর্থতা লার্নিং রেটের উপর নির্ভরশীল: রেট খুব কম হলে লার্নিং প্রক্রিয়া ধীর হয়ে যায়, আর খুব বেশি হলে পলিসি ডাইভার্জ করে। এই সংবেদনশীলতা সেইসব ব্যবহারকারীদের জন্য আনবাউন্ডেড পদ্ধতিগুলোকে হতাশাজনক করে তোলে, যাদের কাছে বিস্তারিত সুইপ করার মতো সময় নেই।
ব্যবহারিক গ্রহণ
যেকোনো আধুনিক RL কোডবেস ঘাঁটলে আপনি দেখবেন, PPO-ই সর্বত্র আধিপত্য বিস্তার করছে; OpenAI-এর নিজস্ব কাজ থেকে শুরু করে রোবোটিক্স ল্যাব এবং RLHF-এর মতো ল্যাঙ্গুয়েজ মডেল ফাইন-টিউনিং পাইপলাইন পর্যন্ত সবখানেই এর ব্যবহার দেখা যায়। আনবাউন্ডেড পলিসি আপডেট মূলত পাঠ্যপুস্তক এবং তাত্ত্বিক আলোচনার মধ্যেই সীমাবদ্ধ, যা মাঝে মাঝে এমন গবেষণা পত্রে উঠে আসে যেখানে তুলনা করার জন্য একটি বেসলাইনের প্রয়োজন হয়। এই পদ্ধতির ব্যবহারে যে ঘাটতি দেখা যাচ্ছে, তা বাস্তবে কোন পদ্ধতিটি কার্যকর, সে সম্পর্কে কয়েক দশক ধরে সঞ্চিত প্রমাণেরই প্রতিফলন।
সুবিধা এবং অসুবিধা
পিপিও-তে পলিসি ক্লিপিং
সুবিধাসমূহ
+অত্যন্ত স্থিতিশীল প্রশিক্ষণ
+নমুনা কার্যকর
+ক্ষমাশীল হাইপারপ্যারামিটার
+শিল্পে ব্যাপক গ্রহণ
কনস
−প্রতি ধাপে ধীর অগ্রগতি
−ক্লিপ রেঞ্জ এখনও সমন্বয় করা প্রয়োজন।
−অতিরিক্ত রক্ষণশীল হতে পারে
−কিছুটা বেশি জটিল কোড
সীমাহীন নীতি আপডেট
সুবিধাসমূহ
+বাস্তবায়ন করা সহজ
+দ্রুত প্রাথমিক শিক্ষা
+কোন কৃত্রিম সীমাবদ্ধতা নেই
+তাত্ত্বিক কাজের জন্য উপযোগী
কনস
−নীতিগত পতনের ঝুঁকিতে
−উচ্চ বৈচিত্র্যের আপডেট
−নমুনার দুর্বল পুনঃব্যবহার
−শেখার হারের প্রতি সংবেদনশীল
সাধারণ ভুল ধারণা
পুরাণ
ছাঁটাই নীতিমালার উল্লেখযোগ্য পরিবর্তনকে সম্পূর্ণরূপে প্রতিরোধ করে।
বাস্তবতা
ক্লিপিং শুধুমাত্র একটি একক আপডেট ধাপের মধ্যে পলিসির পরিবর্তনের পরিমাণকে সীমাবদ্ধ করে। অনেকগুলো পুনরাবৃত্তির পরেও পলিসি যথেষ্ট পরিমাণে বিচ্যুত হতে পারে, যতক্ষণ পর্যন্ত প্রতিটি স্বতন্ত্র ধাপ ক্লিপ সীমার মধ্যে থাকে। এই সীমাবদ্ধতাটি ধাপ-ভিত্তিক, স্থায়ী নয়।
পুরাণ
সীমাহীন আপডেটগুলি সর্বদা ক্লিপড পদ্ধতির চেয়ে দ্রুত একত্রিত হয়।
বাস্তবতা
আনবাউন্ডেড আপডেটগুলো প্রথমে দ্রুততর মনে হতে পারে, কিন্তু সেগুলো প্রায়শই ভিন্ন পথে চলে যায় বা ভেঙে পড়ে, যার ফলে রিস্টার্ট করতে হয় এবং প্রাথমিক সব সুবিধা নষ্ট হয়ে যায়। বাস্তবে, PPO-এর মতো ক্লিপড পদ্ধতিগুলো প্রায়শই কম ওয়াল-ক্লক সময়ে আরও ভালো চূড়ান্ত পারফরম্যান্সে পৌঁছায়, কারণ এগুলো ত্রুটিপূর্ণ আপডেট থেকে পুনরুদ্ধার করতে শক্তি অপচয় করে না।
পুরাণ
PPO-এর ক্লিপিং এটিকে TRPO-এর সমতুল্য করে তোলে।
বাস্তবতা
উভয় পদ্ধতিই পলিসি আপডেটকে সীমাবদ্ধ করে, কিন্তু TRPO একটি লাইন সার্চ সহ একটি হার্ড KL ডাইভারজেন্স কনস্ট্রেইন্ট ব্যবহার করে, যেখানে PPO প্রোবাবিলিটি রেশিওর উপর একটি সফট ক্লিপ ব্যবহার করে। PPO সহজতর, প্রতি ব্যাচে একাধিক ইপক সমর্থন করে এবং বড় মডেলের ক্ষেত্রে ভালোভাবে কাজ করে, যে কারণে এটি কার্যত TRPO-কে অনেকাংশে প্রতিস্থাপন করেছে।
পুরাণ
ক্লিপের পরিসর যত বড় হবে, শেখার আগ্রহও তত বাড়বে।
বাস্তবতা
ক্লিপ রেঞ্জ বাড়ালে বড় আপডেট করা গেলেও, এটি ক্লিপিংয়ের সুরক্ষামূলক প্রভাব কমিয়ে দেয়। একটি নির্দিষ্ট সীমার পর, অ্যালগরিদমটি একটি সীমাহীন আপডেটের মতো আচরণ করে এবং এর স্থিতিশীলতার সুবিধাগুলো হারিয়ে ফেলে। ডিফল্ট ০.২ রেঞ্জটি একটি আদর্শ মান, এটিকে উপরের দিকে টিউন করার জন্য কোনো সূচনা বিন্দু নয়।
পুরাণ
সীমাহীন পলিসি আপডেটগুলো অপ্রচলিত এবং অকেজো।
বাস্তবতা
গবেষণায় বেসলাইন হিসেবে সীমাহীন আপডেটগুলো মূল্যবান এবং ছোট গ্রিডওয়ার্ল্ড বা স্বল্প-মাত্রিক নিয়ন্ত্রণমূলক কাজের মতো সরল পরিবেশে এগুলো বেশ ভালোভাবে কাজ করে। এছাড়াও, ট্রাস্ট রিজিয়ন পদ্ধতিগুলো মূলত কেন তৈরি করা হয়েছিল, তা বোঝার জন্য এগুলো শিক্ষামূলক উপকরণ হিসেবেও কাজ করে।
সচরাচর জিজ্ঞাসিত প্রশ্নাবলী
PPO-তে ক্লিপ রেশিও আসলে কী কাজ করে?
ক্লিপ রেশিও নতুন এবং পুরানো পলিসির মধ্যে সম্ভাবনার অনুপাতকে ০.২-এর মতো একটি মানে সীমাবদ্ধ করে, যার অর্থ হলো নতুন পলিসিটি পুরানোটির তুলনায় কোনো কাজের জন্য ২০%-এর বেশি বা কম সম্ভাবনা নির্ধারণ করতে পারে না। যখন এই অনুপাতটি এই সীমা অতিক্রম করার চেষ্টা করে, তখন গ্রেডিয়েন্টকে শূন্য করে দেওয়া হয়, যা সেই ধাপের জন্য ওই দিকে আরও অগ্রসর হওয়াকে বাধা দেয়।
কেন সীমাহীন পলিসি আপডেটের কারণে ট্রেনিং ব্যর্থ হয়?
সীমাবদ্ধতা না থাকলে, একটি বড় গ্রেডিয়েন্ট ধাপ পলিসিকে এমন একটি অঞ্চলে নিয়ে যেতে পারে যেখানে এটি অত্যন্ত খারাপভাবে কাজ করে, এবং এর ফলে সৃষ্ট ত্রুটিপূর্ণ গতিপথ ভবিষ্যতের গ্রেডিয়েন্ট অনুমানকে নষ্ট করে দেয়। এই ফিডব্যাক লুপটি প্রায়শই পলিসি কলাপসের দিকে নিয়ে যায়, যেখানে এজেন্টের পারফরম্যান্স অপরিবর্তনীয়ভাবে হ্রাস পায় এবং ম্যানুয়াল রিসেট ছাড়া আর কখনও পুনরুদ্ধার হয় না।
PPO কি সবসময় ভ্যানিলা পলিসি গ্রেডিয়েন্ট পদ্ধতির চেয়ে ভালো?
বেশিরভাগ বাস্তব ক্ষেত্রে, হ্যাঁ। PPO-এর ক্লিপিং এমন স্থিতিশীলতা প্রদান করে যা সাধারণ পদ্ধতিগুলোতে নেই, বিশেষ করে অবিচ্ছিন্ন নিয়ন্ত্রণ এবং উচ্চ-মাত্রিক পর্যবেক্ষণ পরিসরে। খুব সাধারণ বিচ্ছিন্ন পরিবেশে, যেখানে গ্রেডিয়েন্ট সিগন্যাল পরিষ্কার এবং পতনের ঝুঁকি কম, সেখানে সাধারণ পলিসি গ্রেডিয়েন্টগুলোও জয়ী হতে পারে।
আপনি কি ক্লিপিংকে কেএল পেনাল্টির মতো অন্যান্য কৌশলের সাথে একত্রিত করতে পারেন?
হ্যাঁ, এবং অনেক ইমপ্লিমেন্টেশন ঠিক এটাই করে থাকে। আপডেটগুলোকে আরও নিয়মিত করার জন্য ক্লিপিংয়ের পাশাপাশি অ্যাডাপ্টিভ কেএল পেনাল্টি যোগ করা যেতে পারে, যদিও মূল পিপিও পেপারটিতে দেখা গেছে যে সাধারণত শুধু ক্লিপিংই যথেষ্ট। কিছু বিশেষজ্ঞ জানান যে, বিশেষভাবে জটিল কাজগুলোতে উভয়কে একত্রিত করলে সামান্য উন্নতি হয়।
PPO ক্লিপ রেঞ্জ শূন্যতে সেট করলে কী হবে?
ক্লিপ রেঞ্জ শূন্য হলে পলিসিটি সম্পূর্ণরূপে স্থির হয়ে যাবে, কারণ যেকোনো পরিবর্তন বাদ পড়ে যাবে এবং গ্রেডিয়েন্ট শূন্য হবে। বাস্তবে, কোনো রকম লার্নিং সম্ভব করার জন্য ক্লিপ রেঞ্জ অবশ্যই ধনাত্মক হতে হবে, আর একারণেই শূন্যের কাছাকাছি না গিয়ে ০.১ বা ০.২-এর মতো মানই প্রচলিত।
বেঞ্চমার্কে আনবাউন্ডেড আপডেট কি কখনো পিপিও-কে ছাড়িয়ে যায়?
বিরল হলেও, এটি সহজ কাজগুলিতে ঘটতে পারে যেখানে সর্বোত্তম নীতিতে সহজে পৌঁছানো যায় এবং গ্রেডিয়েন্টটি সুনিয়ন্ত্রিত থাকে। MuJoCo বা Atari-এর মতো প্রমিত বেঞ্চমার্কে, PPO ধারাবাহিকভাবে অসীম বেসলাইনের সমান বা তার চেয়ে ভালো ফল করে, যে কারণে এটি নতুন প্রকল্পগুলির জন্য ডিফল্ট পছন্দ হয়ে উঠেছে।
PPO কীভাবে অসীম পদ্ধতিগুলোর থেকে ভিন্নভাবে অবিচ্ছিন্ন অ্যাকশন স্পেস পরিচালনা করে?
উভয় পদ্ধতিই গাউসিয়ান পলিসির মাধ্যমে অবিচ্ছিন্ন ক্রিয়া নিয়ে কাজ করে, কিন্তু PPO-এর ক্লিপিং আপডেটের মধ্যে গড় এবং ভেদাঙ্ক প্যারামিটারগুলির ব্যাপক পরিবর্তন রোধ করে। অবিচ্ছিন্ন পরিসরে অসীম পদ্ধতিগুলি বিশেষত অস্থিতিশীলতার ঝুঁকিতে থাকে, কারণ প্যারামিটারের সামান্য পরিবর্তনও ক্রিয়া বণ্টনে বড় ধরনের পরিবর্তন আনতে পারে।
ক্লিপিং এবং গ্রেডিয়েন্ট ক্লিপিং কি একই জিনিস?
না, এগুলো ভিন্ন ভিন্ন পদ্ধতি। গ্রেডিয়েন্ট ক্লিপিং প্যারামিটার আপডেট করার আগে গ্রেডিয়েন্টের মাত্রা সীমিত করে, অন্যদিকে পিপিও-এর ক্লিপিং আপডেট গণনা করার পরে সম্ভাবনার অনুপাত সীমিত করে। উভয়ই একসাথে ব্যবহার করা যেতে পারে, এবং এগুলো প্রশিক্ষণের অস্থিতিশীলতার সম্পর্কিত কিন্তু স্বতন্ত্র উৎসগুলোকে সমাধান করে।
OpenAI কেন TRPO উন্নত না করে PPO তৈরি করল?
TRPO ভালো কাজ করলেও এর সেকেন্ড-অর্ডার অপটিমাইজেশন এবং লাইন সার্চ পদ্ধতির কারণে এটি গণনাগতভাবে ব্যয়বহুল ছিল। PPO-কে ফার্স্ট-অর্ডার পদ্ধতির মাধ্যমে একই ধরনের স্থিতিশীলতার নিশ্চয়তা প্রদানের জন্য ডিজাইন করা হয়েছিল, যা বাস্তবায়ন করা সহজ, বড় নেটওয়ার্কে ভালোভাবে খাপ খাইয়ে নিতে পারে এবং আধুনিক হার্ডওয়্যারে দ্রুত চলে।
কম লার্নিং রেট ব্যবহার করে কি সীমাহীন আপডেটগুলোকে স্থিতিশীল করা সম্ভব?
একটি কম লার্নিং রেট প্রতিটি আপডেটের মাত্রা কমিয়ে দেয়, যা ক্লিপিং-এর কিছু সুবিধার অনুকরণ করে, কিন্তু এটি সেই প্রক্সিমিটি কনস্ট্রেইন্টটি প্রয়োগ করে না যা PPO-কে মজবুত করে তোলে। আপনি এইভাবে স্থিতিশীলতার একটি আনুমানিক ধারণা পেতে পারেন, কিন্তু PPO-এর নির্ভরযোগ্যতার সাথে মেলানোর জন্য আপনার সাধারণত আরও অনেক বেশি স্যাম্পল এবং সতর্ক টিউনিং-এর প্রয়োজন হবে।
রায়
যখনই বিভিন্ন পরিবেশে নির্ভরযোগ্য ও পুনরাবৃত্তিযোগ্য প্রশিক্ষণের প্রয়োজন হয়, বিশেষ করে প্রোডাকশন বা গবেষণার ক্ষেত্রে, যেখানে নিছক গতির চেয়ে স্থিতিশীলতা বেশি গুরুত্বপূর্ণ, তখন PPO-তে পলিসি ক্লিপিং বেছে নিন। সীমাহীন পলিসি আপডেট শুধুমাত্র সরল, স্বল্প-মাত্রিক সমস্যা বা তাত্ত্বিক গবেষণার ক্ষেত্রেই অর্থবহ, যেখানে আপনি বিশেষভাবে সেই ব্যর্থতার ধরণগুলো পর্যবেক্ষণ করতে চান যা প্রতিরোধ করার জন্যই ক্লিপিং ডিজাইন করা হয়েছিল।