обучение с подсилванемашинно обучениеизкуствен интелектоптимизация на политикиrl-алгоритми

Обучение, основано на политики, срещу обучение, основано на политики

Обучението въз основа на политиките и обучението извън политиките са два основни подхода в обучението с подсилване, които се различават по начина, по който агентите събират и използват опит. Методите въз основа на политиките се учат от действията, които агентът действително предприема, докато методите извън политиките могат да се учат от данни, събрани от други политики или минало поведение.

Акценти

Методите, основани на политиките, се учат само от действията на текущата политика, докато методите извън политиките могат да използват всеки източник на данни.
Обучението извън политиките предлага превъзходна ефективност на извадките чрез преиграване на опита, което го прави идеално за роботика в реалния свят.
Алгоритмите, базирани на политики, като PPO, осигуряват по-стабилно обучение, но с цената на необходимостта от нови данни при всяка итерация.
Подходите извън политиките позволяват учене от човешки демонстрации и исторически записи, които методите, основани на политиките, не могат да използват.

Какво е Обучение върху политиките?

Подход на обучение с подсилване, при който агентът се учи от действия, които в момента извършва при същата политика, която се подобрява.

Методите, основани на политики, оценяват и подобряват същата политика, използвана за вземане на решения по време на обучение.
SARSA (Състояние-Действие-Награда-Състояние-Действие) е класически алгоритъм, основан на правилата, който се актуализира въз основа на следващото реално предприето действие.
PPO (Proximal Policy Optimization - Проксимална оптимизация на политики) и A2C (Advantage Actor-Critic - Предимство на актьора-критика) са широко използвани on-policy алгоритми в съвременния дълбок RL.
Обучението въз основа на политиките обикновено изисква нови данни от текущата политика, което го прави по-малко ефективно по отношение на извадките, отколкото алтернативите извън политиките.
Тези методи са по-стабилни по време на обучение, защото директно оптимизират внедряваната политика.

Какво е Обучение извън политиките?

Подход за обучение с подсилване, при който агентът се учи от опит, генериран от политика, различна от тази, която се оптимизира.

Методите извън политиките могат да се учат от данни, събрани от всяка политика, включително исторически данни или човешки демонстрации.
Q-обучението е основният алгоритъм извън политиките, който учи стойността на оптималните действия, независимо от предприетите действия.
Дълбоките Q-мрежи (DQN) разшириха Q-обучението, за да обработват високоразмерни пространства на състояния, използвайки невронни мрежи.
Алгоритми извън правилата, като DDPG, TD3 и SAC, са станали стандарт за задачи за непрекъснат контрол в роботиката.
Буферите за повторно възпроизвеждане на опита позволяват на методи извън правилата да използват повторно минали преходи, което драстично подобрява ефективността на семплирането.

Сравнителна таблица

Функция	Обучение върху политиките	Обучение извън политиките
Източник на данни	Само от текущата политика	Всякакви правила или исторически данни
Ефективност на пробата	По-ниско, необходими са актуални данни	По-високо, използва повторно минал опит
Стабилност при тренировки	Като цяло по-стабилно	Може да бъде по-малко стабилно поради изместване на разпределението
Проучване	Обвързано с текущата политика	Отделено от политиката за поведение
Примерни алгоритми	SARSA, PPO, A2C, REINFORCE	Q-обучение, DQN, DDPG, SAC, TD3
Изисквания за памет	По-ниска, не е необходим буфер за повторно възпроизвеждане	По-висока, изисква големи буфери за повторно възпроизвеждане
Често срещани случаи на употреба	Игров изкуствен интелект, симулация на роботика, езикови модели	Роботика, системи за препоръки, автономно шофиране
Компромис между отклонение и дисперсия	По-ниска дисперсия, известно отклонение	По-ниско отклонение, по-висока дисперсия

Подробно сравнение

Основен механизъм за обучение

Фундаменталното разграничение се състои в това коя политика генерира данните за обучение. Обучението въз основа на политиките оценява и подобрява точната политика, следвана по време на проучването, което означава, че всяка актуализация отразява действията, които агентът би предприел в действителност. Обучението извън политиките разделя тези проблеми напълно, позволявайки на агента да научи оптимално поведение от данни, които може да са били събрани от по-стара версия на самия него, произволна политика или дори човешки демонстратор.

Ефективност на пробите и повторна употреба на данни

Методите извън правилата са ефикасни, когато данните са скъпи или оскъдни. Чрез съхраняване на преходите в буфер за повторно възпроизвеждане и многократно вземане на проби от него, алгоритми като DQN и SAC могат да извлекат максимална учебна стойност от всяко взаимодействие със средата. Методите, базирани на правилата, обикновено изхвърлят данните след еднократна употреба, което работи добре в евтини симулационни среди, но става непрактично, когато всяко взаимодействие струва реално време или пари, както например във физическата роботика.

Стабилност и конвергенция

Подходите, основани на политики, обикновено предлагат по-предсказуема конвергенция, защото оптимизираната политика винаги е тази, която генерира данни, елиминирайки несъответствието в разпределението. Методите, основани на политики, са изправени пред предизвикателството на изместване на разпределението, при което разпределението на данните се отклонява от това, което би произвела текущата политика, понякога причинявайки нестабилност или разминаване. Техники като целеви мрежи, вземане на проби по важност и ограничения на политиките помагат за смекчаване на тези проблеми, но добавят сложност.

Стратегии за проучване

При ученето, основано на политики, изследването е неразривно свързано с текущата политика, често постигано чрез стохастичен подбор на действия или бонуси за ентропия. Ученето извън политиките разделя изследването от ученето, позволявайки отделни политики за поведение, които могат да изследват широко, докато целевата политика се учи да експлоатира. Това разделяне позволява сложни стратегии за изследване, като например епсилон-алчни политики с разпадащи се графици или политики за поведение, водени от любопитство.

Практически приложения

Методите, базирани на политики, доминират в области, където симулацията е евтина и стабилността е от значение, като например обучение на геймърски агенти и фина настройка на големи езикови модели с RLHF. Методите, базирани на политики, се отличават в роботиката, където събирането на данни от реалния свят е скъпо, и в системите за препоръки, където масивните регистрационни файлове с потребителски взаимодействия предоставят богати данни за обучение. Изборът често зависи от това дали разполагате с изобилие от симулации или ценни данни от реалния свят.

Предимства и Недостатъци

Обучение върху политиките

Предимства

+ По-стабилно обучение
+ По-лесно внедряване
+ Не е необходим буфер за повторно възпроизвеждане
+ Директна оптимизация на политиките

Потребителски профил

− По-ниска ефективност на пробата
− Изисква актуални данни
− По-бавно обучение със стенен часовник
− Ограничено повторно използване на данни

Обучение извън политиките

Предимства

+ Висока ефективност на пробите
+ Повторно използва минали данни
+ Учи се от демонстрациите
+ Разделено проучване

Потребителски профил

− Риск от нестабилност в обучението
− По-голям размер на паметта
− Проблеми с изместването на дистрибуцията
− По-сложни алгоритми

Често срещани заблуди

Миф

Обучението извън политиките винаги е по-добро, защото използва повторно данни.

Реалност

Въпреки че методите извън политиките са по-ефективни при вземането на проби, те често страдат от нестабилност в обучението и изискват внимателна настройка на техники като целеви мрежи и вземане на проби по важност. Методите, базирани на политики, могат да превъзхождат подходите извън политиките в среди, където симулацията е евтина, а стабилността е от първостепенно значение.

Миф

Обучението въз основа на политиките не може да използва никакви минали данни.

Реалност

Методите, базирани на политики, технически могат да използват минали данни, но това изисква корекции на извадките по важност, които въвеждат висока дисперсия. На практика те работят най-добре с нови данни от текущата политика, поради което алгоритми като PPO събират внедрявания, обучават се върху тях и ги отхвърлят.

Миф

Q-обучението е извън политиката, защото то научава оптималната стойност на действието.

Реалност

Q-обучението се класифицира като „off-policy“, защото то учи за оптималната политика, като същевременно потенциално следва различна политика на поведение по време на изследването. Целта, от която се запознава, предполага алчен избор на действия, който може да се различава от действията, действително предприети за генериране на данни.

Миф

Всички алгоритми за дълбоко обучение с подсилване са извън правилата.

Реалност

Много популярни алгоритми за дълбоко обучение (deep RL) са в съответствие с политиките, включително PPO, A2C и TRPO. Разграничението между алгоритми, съответстващи на политиките, и такива, които не са в съответствие с политиките, съществува независимо от това дали се използват невронни мрежи, и двете категории имат успешни реализации на дълбоко обучение.

Миф

Ученето извън политиките винаги се конвергира по-бързо от ученето, основано на политиките.

Реалност

Скоростта на конвергенция зависи от средата и имплементацията. Методите извън правилата може да се нуждаят от по-малко взаимодействия със средата, но често изискват повече актуализации на градиента и внимателна настройка на хиперпараметрите. В някои задачи методите, които са в правилата, достигат до добри правила по-бързо в рамките на стенния часовник, въпреки използването на повече семпли.

Често задавани въпроси

Каква е основната разлика между ученето, основано на политиките, и ученето извън тях?

Ключовата разлика е връзката между данните, генериращи политиката, и политиката, която се учи. Методите, базирани на политиката, подобряват същата политика, която събира опит, докато методите, базирани извън политиката, се учат от данни, генерирани от различна политика. Това влияе върху ефективността на извадката, стабилността и видовете данни, които всеки подход може да използва.

Кое е по-ефективно по отношение на извадките, съгласно или извън правилата?

Методите извън правилата обикновено са по-ефективни по отношение на извадките, защото могат да използват повторно минали преживявания чрез буфери за повторно възпроизвеждане. Алгоритми като SAC и DQN могат да се учат от един преход многократно, докато методи, спазващи правилата, като PPO, обикновено използват всеки преход само веднъж, преди да го отхвърлят.

PPO съгласно политиката ли е или не?

PPO (Proximal Policy Optimization) е алгоритъм, базиран на политики. Той събира внедрявания, използвайки текущата политика, обучава се върху тези данни в продължение на няколко епохи, след което изхвърля данните и събира нови проби. Въпреки тази неефективност, PPO остава популярен поради своята стабилност и надеждна производителност при различни задачи.

Може ли обучението извън политиката да използва данни от човешки демонстрации?

Да, това е едно от основните предимства на обучението извън политиките. Алгоритмите могат да бъдат инициализирани или предварително обучени с помощта на демонстрационни данни от хора, след което обучението да продължи чрез самоизследване. Този подход, често наричан обучение от демонстрация или инициализация на имитационно обучение, се използва широко в роботиката, където експертните примери ускоряват обучението.

Защо обучението извън политиките има проблеми със стабилността?

Методите извън политиките са изправени пред смъртоносния проблем на триадата: комбинирането на апроксимация на функции, първоначално зареждане (bootstrapping) и данни извън политиките може да доведе до дивергенция. Когато функцията на стойността се апроксимира с невронни мрежи и се актуализира с помощта на цели от различно разпределение, грешките могат да се натрупат. Техники като целеви мрежи, двойно Q-обучение и консервативни актуализации помагат за справянето с това.

Какво е важност на вземането на проби в обучението извън политиката?

Извадката по важност е статистическа техника, която коригира несъответствието в разпределението между политиката на поведение и целевата политика. Тя претегля актуализациите чрез съотношението на вероятностите при всяка политика, което позволява корекции извън политиката при методите за градиент на политиката. Това съотношение обаче може да има висока дисперсия, което ограничава практическата приложимост.

Кой подход е по-добър за приложения в роботиката?

Методите извън политиките обикновено са предпочитани за роботиката, тъй като взаимодействията в реалния свят са скъпи и отнемат време. Алгоритми като SAC и TD3 могат да научат сложни манипулационни задачи от ограничени данни чрез повторно използване на опита. Методите, базирани на политиките, обаче понякога се използват в симулацията на роботи, преди да се прехвърлят научените политики към хардуера.

Q-обучението съгласно или извън политиките?

Q-обучението е извън политиките. То научава стойността на предприемането на най-доброто възможно действие във всяко състояние, независимо кое действие агентът действително е предприел по време на проучването. Това му позволява да научи оптимално поведение, дори когато следва произволна или изследователска политика, поради което работи добре с повторението на опита в DQN.

Как се свързва преиграването на преживявания с това дали са в съответствие с правилата или не?

Преиграването на опита се свързва предимно с учене извън политиките, защото съхранява и използва повторно минали преходи, които може да са били генерирани от по-стари политики. Методите, базирани на политики, обикновено избягват буферите за преиграване, тъй като повторното използване на стари данни нарушава предположението за спазване на политиките, въпреки че съществуват някои хибридни подходи.

Можете ли да комбинирате методи, съобразени с политиките, и методи, несъобразени с политиките?

Да, съществуват хибридни подходи. Някои алгоритми използват данни извън правилата за предварително обучение или като спомагателни цели, като същевременно са предимно в съответствие с правилата. Методите „актьор-критик“ често съчетават и двете, при които критикът може да учи извън правилата, докато актьорът актуализира данните в съответствие с правилата. Продължават изследванията на методи, които получават най-доброто от двата свята.

Решение

Изберете обучение въз основа на политики, когато се нуждаете от стабилност на обучението и имате достъп до евтини симулационни среди, особено за задачи като изкуствен интелект в игри или методи за градиент на политики в езикови модели. Изберете обучение извън политики, когато ефективността на извадките е критична, събирането на данни е скъпо или трябва да се учите от съществуващи набори от данни, като демонстрации или регистрирани взаимодействия.

Свързани сравнения

A/B тестване при обслужване на модели спрямо внедряване на един модел

A/B тестването при обслужване на модели насочва трафика между конкуриращи се версии на модели, за да измери реалната производителност, докато внедряването на един модел предоставя един модел на всички потребители. Екипите избират между тях въз основа на толерантността към риск, обема на трафика и необходимостта от статистическа валидация преди пълното внедряване.

A/B тестване при пускане на съдържание спрямо еднократно пускане на съдържание

A/B тестването при пускането на съдържание включва пускане на вариации към различни сегменти от аудиторията и измерване на ефективността, докато еднократните пускания на съдържание предлагат една версия на всички наведнъж. Всеки подход е подходящ за различни цели, като A/B тестването предпочита оптимизацията, основана на данни, а еднократните пускания дават приоритет на скоростта и простотата.

AI Companions срещу традиционни приложения за продуктивност

AI компаньоните се фокусират върху разговорното взаимодействие, емоционалната подкрепа и адаптивната помощ, докато традиционните приложения за продуктивност дават приоритет на структурираното управление на задачи, работните процеси и инструментите за ефективност. Сравнението подчертава преминаването от твърд софтуер, предназначен за задачи, към адаптивни системи, които съчетават продуктивност с естествено, подобно на човека взаимодействие и контекстуална подкрепа.

AI Slop срещу човешко ръководена работа с AI

„ИИ слоп“ се отнася до нискоусилно, масово произведено ИИ съдържание, създадено с минимално наблюдение, докато работата с ИИ, ръководена от човек, съчетава изкуствен интелект с внимателно редактиране, режисура и творческа преценка. Разликата обикновено се свежда до качество, оригиналност, полезност и дали истински човек активно оформя крайния резултат.

AI агенти срещу традиционни уеб приложения

Агентите с изкуствен интелект са автономни, целенасочени системи, които могат да планират, разсъждават и изпълняват задачи в различни инструменти, докато традиционните уеб приложения следват фиксирани работни процеси, управлявани от потребителя. Сравнението подчертава преминаването от статични интерфейси към адаптивни, контекстно-осъзнати системи, които могат проактивно да подпомагат потребителите, да автоматизират решенията и да взаимодействат динамично между множество услуги.