обучение с подсилванеполитически градиентактьор-критикмашинно обучениеизкуствен интелект
Методи „актьор-критик“ срещу методи с чист градиент на политиката
Методите „актьор-критик“ смесват градиенти на политиката с функция на научена стойност, за да намалят дисперсията и да ускорят обучението, докато чистите методи с градиент на политиката разчитат единствено на политиката и възвръщаемостта от Монте Карло. Изборът между тях зависи от това дали се нуждаете от стабилност и ефективност на извадката или от простота и безпристрастни оценки.
Акценти
Методите „актьор-критик“ намаляват дисперсията на градиента, като използват базова линия на научената стойност, докато чистите градиенти на политиката разчитат на шумни резултати от Монте Карло.
Чисто политическите градиентни методи са безпристрастни, но изискват големи извадки, докато методите „актьор-критик“ заменят леко пристрастие с много по-добра ефективност на извадките.
Алгоритми, базирани на актьор-критик, като PPO и SAC, са в основата на повечето съвременни успехи на RL, от Atari до RLHF за големи езикови модели.
Чистите методи за градиент на политиката остават популярни за изследвания и прости контролни задачи, защото са по-лесни за прилагане и обосноваване.
Какво е Методи „актьор-критик“?
Хибридни алгоритми за обучение с подсилване, които сдвояват мрежа от политики (актьор) с мрежа за оценка на стойността (критик) за по-стабилно обучение.
Методите „актьор-критик“ бяха формализирани в началото на 2000-те години, надграждайки по-ранна работа на изследователи като Сътън и Барто върху итерацията на политиките.
Актьорът актуализира политиката, използвайки посоката на градиента, предложена от критика, докато критикът оценява функцията на стойността, за да оцени действията.
Популярните варианти включват A2C (Advantage Actor-Critic), A3C (Asynchronous Advantage Actor-Critic), SAC (Soft Actor-Critic) и PPO (Proximal Policy Optimization).
Чрез използване на заучена базова линия, подходите „актьор-критик“ драстично намаляват дисперсията на оценките на градиента на политиката в сравнение с доходността от Монте Карло.
Тези методи са довели до пробиви в играта, роботиката и фината настройка на модели на големи езици чрез RLHF.
Какво е Методи за чист градиент на политиката?
Алгоритми за обучение с подсилване, които директно оптимизират параметризирана политика, използвайки градиентен възход на очакваната възвръщаемост, без отделен модел на стойност.
Основният алгоритъм REINFORCE е въведен от Роналд Уилямс през 1992 г., установявайки теоремата за градиента на политиката.
Чисто политическите градиентни методи оценяват градиентите, използвайки внедрявания от Монте Карло или възвръщаемост на пълния епизод, вместо оценки на стойностите, базирани на първоначални условия.
Те са естествено съвместими със стохастични политики, което ги прави подходящи за среди с непрекъснати или многомерни пространства за действие.
Тъй като разчитат на семплирани траектории, тези методи са безпристрастни, но са склонни да показват висока дисперсия в оценките на градиента.
Забележителни реализации включват оригиналния REINFORCE, Vanilla Policy Gradient (VPG) и Trust Region Policy Optimization (TRPO).
Сравнителна таблица
Функция
Методи „актьор-критик“
Методи за чист градиент на политиката
Основен механизъм
Комбинира мрежа от политики (актьор) с мрежа от ценности (критик)
Оптимизира политиката директно, използвайки извадкови данни
Дисперсия на градиентните оценки
По-ниска дисперсия поради научената базова линия
По-висока дисперсия от доходността по метода Монте Карло
Пристрастие
Леко пристрастие, въведено от приближението на критика
Безпристрастни оценки на градиента
Ефективност на пробата
Обикновено по-високо, използва повторно данни чрез bootstrapping
По-ниска, изисква пълни епизоди или много семпли
Сложност на внедряването
По-сложно, изисква обучение на две мрежи
По-лесно, само една мрежа за управление
Стабилност на обучението
По-стабилна благодарение на по-ниската дисперсия и регионите на доверие
По-малко стабилен, чувствителен към скоростта на обучение и скалата на наградите
Работа с проучване
Може да включва бонуси за ентропия или стохастични критици
Естествено стохастичен, лесен за насърчаване на изследването
Типични случаи на употреба
Мащабно RL, роботика, RLHF за езикови модели
Прости контролни задачи, изходни данни за изследвания, епизодични проблеми
Подробно сравнение
Оценка на градиента и дисперсия
Най-голямата практическа разлика между тези две семейства се свежда до начина, по който те оценяват посоката на подобрение. Чисто политическите градиентни методи разчитат на Монте Карло възвръщаемост, събрана от пълни епизоди, което дава безпристрастен сигнал, но такъв, който се колебае силно в зависимост от късмета на всяко отделно внедряване. Методите „актьор-критик“ заместват тази шумна възвръщаемост с функция на научената стойност, като ефективно изваждат базова линия, която улавя очаквания резултат. Резултатът е градиент с много по-ниска дисперсия, който позволява обучението да протича по-плавно, особено в среди, където наградите са оскъдни или забавени.
Компромис между отклонение и дисперсия
Търговията с дисперсия за отклонение е централният компромис в дизайна на актьор-критик. Критикът сам по себе си е приближение, така че неговите оценки могат да бъдат грешни и тази грешка се отразява в актуализацията на политиката. Чисто градиентните методи на политиката избягват това изцяло, защото никога не апроксимират стойностната функция, но плащат за тази чистота с по-шумни актуализации. На практика съвременните актьор-критик алгоритми като PPO и SAC управляват този компромис толкова добре, че малкото отклонение рядко е проблем, поради което те доминират в бенчмарковете.
Ефективност на пробите и повторна употреба на данни
Ефективността на извадките е от огромно значение, когато взаимодействието със средата е скъпо, например в роботиката или диалоговите системи в реалния свят. Методите „актьор-критик“ блестят тук, защото критикът се основава на собствените си прогнози, позволявайки на алгоритъма да се учи от всеки преход многократно. Чисто методите за градиент на политиката обикновено се нуждаят от нови данни за политиката за всяка актуализация, което означава повече взаимодействия със средата за същото количество подобрения в политиката. Това е една от причините алгоритмите в стил REINFORCE да са по-често срещани в изследователски среди, където симулацията е евтина.
Внедряване и настройване
Ако искате нещо бързо за прототипиране, чистите методи с градиент на политики са привлекателни. Нуждаете се само от мрежа от политики, функция на загуба, изградена от логаритмични вероятности, претеглени по възвръщаемост, и начин за събиране на траектории. Методите „актьор-критик“ добавят тежестта на обучението на втора мрежа, балансирайки скоростта ѝ на обучение спрямо тази на актьора и гарантирайки, че критикът се сближава достатъчно бързо, за да бъде полезен. Тази допълнителна сложност се отплаща в производителността, но повишава летвата за начинаещите.
Политики за проучване и стохастика
И двата подхода обработват стохастичните политики естествено, но насърчават изследването по различен начин. Чисто градиентните методи на политиката получават изследването безплатно от собствената ентропия на политиката, което работи добре при проблеми с ясни разпределения на действията. Методите „актьор-критик“ често добавят експлицитен бонус за ентропия към целта, както прави известният „мекият актьор-критик“, за да предотвратят твърде ранния колапс на политиката. Това прави вариантите „актьор-критик“ по-стабилни в задачи, където агентът в противен случай може да се затрудни в неоптимално поведение.
Предимства и Недостатъци
Методи „актьор-критик“
Предимства
+Актуализации с по-ниска дисперсия
+По-добра ефективност на пробите
+По-стабилно обучение
+Мащабира се за сложни задачи
Потребителски профил
−По-сложно за изпълнение
−Допълнителна настройка на хиперпараметри
−Лека пристрастност от страна на критика
−Две мрежи за обучение
Методи за чист градиент на политиката
Предимства
+Лесно внедряване
+Безпристрастни оценки на градиента
+Естествени стохастични политики
+Чудесно за изследвания
Потребителски профил
−Актуализации с висока дисперсия
−Слаба ефективност на пробата
−Необходими са пълни епизоди
−Чувствителен към скоростта на обучение
Често срещани заблуди
Миф
Методите „актьор-критик“ са напълно различно семейство алгоритми от градиентите на политиките.
Реалност
Методите „актьор-критик“ всъщност са подмножество от методи за градиент на политиката. Те изчисляват същия градиент на политиката, но използват функция на научена стойност, за да намалят дисперсията, вместо да разчитат на сурови резултати.
Миф
Чисто политическите градиентни методи винаги се сближават по-бързо, защото са безпристрастни.
Реалност
Безпристрастността не е равна на бърза конвергенция. Високата дисперсия на оценките по метода на Монте Карло често забавя драстично обучението, особено при задачи с дълъг хоризонт, където наградите се забавят.
Миф
Методите „актьор-критик“ не могат да работят с пространства за непрекъснато действие.
Реалност
Много актьорско-критични алгоритми, включително SAC и DDPG, са специално проектирани за непрекъснат контрол и се представят изключително добре в роботиката и симулациите, базирани на физика.
Миф
Винаги е нужен критик, за да се справите добре с обучението с подсилване.
Реалност
Чисто методите за градиент на политиката, като REINFORCE и TRPO, са решили много проблеми без критик. Критикът е инструмент за намаляване на дисперсията, а не строго изискване.
Миф
PPO е чист метод на градиента на политиката.
Реалност
PPO технически е алгоритъм, базиран на актьор-критик. Той използва ограничена заместителна цел от страна на политиката, но разчита на мрежа от стойности, за да изчисли предимствата и да насочва актуализациите.
Често задавани въпроси
Каква е основната разлика между методите „актьор-критик“ и „градиент на политиката“?
Основната разлика е дали по време на обучението се използва стойностна функция. Методите „актор-критик“ обучават отделна критична мрежа за оценка на стойностите и намаляване на дисперсията, докато чистите методи за градиент на политиката оценяват градиентите директно от извадкови резултати без модел на заучена стойност.
Защо методите „актьор-критик“ имат по-ниска дисперсия?
Те изваждат от възвръщаемостта научена базова линия, обикновено функцията на стойността, преди да изчислят градиента. Тази базова линия улавя очаквания резултат, така че оставащият сигнал за предимство има много по-малко случаен шум от суровите възвръщаемости на Монте Карло.
PPO метод на „актьор-критик“ ли е или метод на политически градиент?
PPO е алгоритъм тип „актьор-критик“. Той използва ограничена цел, за да актуализира политиката, но зависи от мрежа от стойности, за да изчисли предимствата, което е отличителен белег на семейството алгоритъм „актьор-критик“.
Кога трябва да използвам чисти методи за градиент на политиката вместо актьор-критик?
Методите с чист градиент на политиката са подходящи за кратки епизодични задачи, изследователски бази или ситуации, в които е необходим прост, безпристрастен алгоритъм. Те работят добре и когато симулацията на среда е евтина и не е необходима максимална ефективност на извадката.
Работят ли методите „актьор-критик“ за пространства с непрекъснато действие?
Да, много го правят. Алгоритми като SAC, DDPG и TD3 са актьорско-критични методи, специално разработени за непрекъснат контрол и се използват широко в роботиката и симулираните физични среди.
Използват ли се все още чисто политически градиентни методи днес?
Абсолютно. REINFORCE и Vanilla Policy Gradient остават популярни в научните изследвания и образованието, а TRPO все още се използва в приложения, чувствителни към безопасността, където ограничението на доверителния регион е ценно.
Какво представлява теоремата за градиента на политиката?
Теоремата за градиента на политиката, доказана от Сътън и колеги, дава израз в затворена форма за градиента на очакваната възвръщаемост по отношение на параметрите на политиката. Както чистият метод за градиент на политиката, така и методът „актьор-критик“ са изградени върху тази теорема.
Как REINFORCE се свързва с методите „актьор-критик“?
REINFORCE е каноничният алгоритъм за чист градиент на политиката. Методите „актор-критик“ могат да се разглеждат като еволюция на REINFORCE, която замества възвръщаемостта от Монте Карло с оценка, базирана на самооценяване, от научен критик, което намалява дисперсията с цената на известно отклонение.
Могат ли методите „актьор-критик“ да се използват за RLHF в големи езикови модели?
Да, методите „актьор-критик“ като PPO са работните коне на RLHF конвейерите за подравняване на големи езикови модели. Те обработват дългите хоризонти и сложните сигнали за награди, включени в обучението на езикови модели с човешка обратна връзка.
Кой метод е по-добър за среди с ограничени награди?
Методите „актьор-критик“ обикновено се представят по-добре в условия на оскъдно награждаване, защото критикът може да разпространява ценностна информация назад във времето, давайки на политиката полезни сигнали за обучение, дори когато наградите са рядкост.
Решение
Изберете чисти методи за градиент на политиката, когато искате прост, безпристрастен алгоритъм за краткосрочни проблеми или като чиста база за изследване. Потърсете методи „актьор-критик“, когато ви е важна ефективността на извадката, стабилността на обучението или мащабирането към сложни среди като роботика и фина настройка на модели на големи езици.