강화 학습머신러닝인공지능정책 최적화rl-알고리즘

온-정책 학습 vs 오프-정책 학습

온폴리시 학습과 오프폴리시 학습은 강화 학습에서 에이전트가 경험을 수집하고 활용하는 방식에 차이가 있는 두 가지 기본적인 접근 방식입니다. 온폴리시 방식은 에이전트가 실제로 취하는 행동을 통해 학습하는 반면, 오프폴리시 방식은 다른 정책에서 수집한 데이터나 과거 행동을 통해 학습할 수 있습니다.

주요 내용

온폴리션 방식은 현재 정책의 조치만을 학습하는 반면, 오프폴리션 방식은 모든 데이터 소스를 활용할 수 있습니다.
오프폴리시 학습은 경험 재생을 통해 탁월한 샘플링 효율성을 제공하므로 실제 로봇 공학에 이상적입니다.
PPO와 같은 온폴리시 알고리즘은 매 반복마다 새로운 데이터가 필요하다는 단점이 있지만, 더 안정적인 학습을 제공합니다.
오프폴리션 접근 방식은 온폴리션 방식에서는 활용할 수 없는 인간의 시연과 과거 기록을 통한 학습을 가능하게 합니다.

정책 기반 학습이(가) 무엇인가요?

에이전트가 개선하려는 동일한 정책 하에서 현재 수행하는 행동으로부터 학습하는 강화 학습 접근 방식입니다.

온폴리션 방법은 훈련 중에 의사 결정을 내리는 데 사용된 동일한 정책을 평가하고 개선합니다.
SARSA(State-Action-Reward-State-Action)는 실제로 취해진 다음 행동에 따라 업데이트되는 고전적인 온폴리시 알고리즘입니다.
PPO(근접 정책 최적화)와 A2C(이점 있는 액터-크리틱)는 현대 심층 강화 학습에서 널리 사용되는 온폴리시 알고리즘입니다.
온폴리션 학습은 일반적으로 현재 정책에서 얻은 최신 데이터를 필요로 하므로 오프폴리션 학습 방식보다 표본 효율성이 떨어집니다.
이러한 방법들은 배포되는 정책을 직접 최적화하기 때문에 훈련 과정에서 더 안정적인 경향이 있습니다.

오프 정책 학습이(가) 무엇인가요?

에이전트가 최적화 대상 정책과는 다른 정책에서 생성된 경험을 통해 학습하는 강화 학습 접근 방식입니다.

오프폴리션 방식은 과거 데이터나 인간의 시뮬레이션을 포함하여 모든 정책에서 수집한 데이터를 통해 학습할 수 있습니다.
Q-러닝은 최적의 행동이 무엇인지, 어떤 행동을 취했는지와 관계없이 그 가치를 학습하는 오프폴리시 알고리즘의 기본 원리입니다.
심층 Q 네트워크(DQN)는 신경망을 사용하여 고차원 상태 공간을 처리할 수 있도록 Q 학습을 확장한 것입니다.
DDPG, TD3, SAC와 같은 오프폴리시 알고리즘은 로봇 공학의 연속 제어 작업에서 표준으로 자리 잡았습니다.
경험 재생 버퍼를 사용하면 오프폴리시 메서드가 이전 전환을 재사용할 수 있으므로 샘플링 효율성이 크게 향상됩니다.

비교 표

기능	정책 기반 학습	오프 정책 학습
데이터 소스	현행 정책에 따라서만	정책 또는 과거 데이터
샘플 효율	더 낮은 수치는 새로운 데이터가 필요합니다.	더 높은 수준에서는 과거 경험을 재활용합니다.
훈련 안정성	일반적으로 더 안정적입니다.	유통망 변화로 인해 안정성이 떨어질 수 있음
탐구	현행 정책과 연관됨	행동 정책과 분리됨
예시 알고리즘	SARSA, PPO, A2C, 강화	Q-러닝, DQN, DDPG, SAC, TD3
메모리 요구 사항	더 낮은 레벨, 재생 버퍼 불필요	더 높은 레벨에서는 대용량 리플레이 버퍼가 필요합니다.
일반적인 사용 사례	게임 AI, 로봇 시뮬레이션, 언어 모델	로봇공학, 추천 시스템, 자율 주행
편향-분산 상충관계	분산이 낮고 편향이 약간 있음	편향이 낮을수록 분산이 높아집니다.

상세 비교

핵심 학습 메커니즘

근본적인 차이점은 어떤 정책이 훈련 데이터를 생성하는지에 있습니다. 온폴리시 학습은 탐색 중에 따르는 정책을 평가하고 개선하는 데 중점을 두므로, 모든 업데이트는 에이전트가 실제로 취할 행동을 반영합니다. 오프폴리시 학습은 이러한 측면을 완전히 분리하여, 에이전트가 이전 버전의 에이전트, 임의의 정책, 심지어는 인간 시연자가 수집한 데이터로부터 최적의 행동을 학습할 수 있도록 합니다.

샘플 효율성 및 데이터 재사용

오프폴리시 방식은 데이터 획득 비용이 높거나 데이터가 부족할 때 특히 효과적입니다. DQN이나 SAC와 같은 알고리즘은 전이 정보를 리플레이 버퍼에 저장하고 반복적으로 샘플링함으로써 환경과의 각 상호작용에서 최대의 학습 가치를 추출할 수 있습니다. 온폴리시 방식은 일반적으로 데이터를 한 번 사용 후 폐기하는데, 이는 비용이 저렴한 시뮬레이션 환경에서는 효과적이지만 물리적 로봇 공학처럼 각 상호작용에 실제 시간이나 비용이 소요되는 경우에는 비실용적입니다.

안정성과 수렴

온폴리션 접근 방식은 최적화 대상 정책 자체가 항상 데이터를 생성하는 정책이기 때문에 분포 불일치를 방지하여 일반적으로 더 예측 가능한 수렴을 제공합니다. 오프폴리션 방식은 데이터 분포가 현재 정책이 생성하는 분포에서 벗어나는 분포 변화라는 문제에 직면하며, 이는 때때로 불안정성이나 발산을 초래할 수 있습니다. 타겟 네트워크, 중요도 샘플링, 정책 제약 조건과 같은 기법은 이러한 문제를 완화하는 데 도움이 되지만 복잡성을 증가시킵니다.

탐색 전략

온폴리시 학습에서는 탐색이 본질적으로 현재 정책과 연결되어 있으며, 이는 종종 확률적 행동 선택이나 엔트로피 보너스를 통해 이루어집니다. 오프폴리시 학습은 탐색과 학습을 분리하여, 목표 정책이 활용 전략을 학습하는 동안 광범위한 탐색을 수행하는 별도의 행동 정책을 허용합니다. 이러한 분리를 통해 감쇠 스케줄을 사용하는 엡실론-그리디 전략이나 호기심 기반 행동 정책과 같은 정교한 탐색 전략을 구현할 수 있습니다.

실제 적용 사례

온폴리시(On-policy) 방식은 시뮬레이션 비용이 저렴하고 안정성이 중요한 영역, 예를 들어 게임 에이전트 학습이나 RLHF를 이용한 대규모 언어 모델 미세 조정 등에 주로 사용됩니다. 오프폴리시(Off-policy) 방식은 실제 데이터 수집 비용이 높은 로봇 공학 분야나 방대한 사용자 상호작용 로그를 통해 풍부한 학습 데이터를 얻을 수 있는 추천 시스템 분야에서 뛰어난 성능을 보입니다. 어떤 방식을 선택할지는 시뮬레이션 데이터가 풍부한지, 아니면 가치 있는 실제 데이터가 있는지에 따라 달라집니다.

장단점

정책 기반 학습

장점

+ 보다 안정적인 훈련
+ 더 간단한 구현
+ 재생 버퍼가 필요 없습니다.
+ 직접 정책 최적화

− 샘플 효율 저하
− 최신 데이터가 필요합니다
− 느린 벽시계 훈련
− 제한된 데이터 재사용

오프 정책 학습

장점

+ 높은 샘플 효율
+ 이전 데이터를 재사용합니다
+ 시연을 통해 배운다
+ 분리된 탐색

− 훈련 불안정 위험
− 더 큰 메모리 사용량
− 유통 변화 문제
− 더 복잡한 알고리즘

흔한 오해

신화

오프폴리시 학습은 데이터를 재사용하기 때문에 항상 더 좋습니다.

현실

오프폴리시 방식은 샘플 효율성이 높지만, 학습 불안정성이 높고 타겟 네트워크 및 중요도 샘플링과 같은 기술을 세심하게 조정해야 하는 경우가 많습니다. 온폴리시 방식은 시뮬레이션 비용이 저렴하고 안정성이 가장 중요한 환경에서 오프폴리시 방식보다 우수한 성능을 보일 수 있습니다.

신화

정책 기반 학습은 과거 데이터를 사용할 수 없습니다.

현실

온폴리션(On-policy) 방식은 이론적으로 과거 데이터를 사용할 수 있지만, 그렇게 하려면 중요도 샘플링 보정이 필요하며 이로 인해 분산이 크게 증가합니다. 실제로 이러한 방식은 현재 정책의 최신 데이터를 사용할 때 가장 효과적이며, 이것이 바로 PPO와 같은 알고리즘이 롤아웃 데이터를 수집하고, 이를 기반으로 학습한 후 폐기하는 이유입니다.

신화

Q-러닝은 최적의 행동 가치를 학습하기 때문에 오프폴리싱 방식입니다.

현실

Q-러닝은 탐색 과정에서 최적 정책과 다른 행동 정책을 따를 가능성이 있기 때문에 오프폴리시 학습으로 분류됩니다. Q-러닝이 부트스트랩하는 출발점은 탐욕적인 행동 선택을 가정하는데, 이는 실제로 데이터를 생성하기 위해 취해진 행동과 다를 수 있습니다.

신화

모든 심층 강화 학습 알고리즘은 오프폴리싱 방식입니다.

현실

많은 인기 있는 딥러닝 알고리즘은 PPO, A2C, TRPO를 포함하여 온폴리시(on-policy) 방식을 사용합니다. 온폴리시와 오프폴리시의 구분은 신경망 사용 여부와는 무관하며, 두 방식 모두 딥러닝에서 성공적으로 구현된 사례가 있습니다.

신화

오프폴리시 학습은 온폴리시 학습보다 항상 더 빠르게 수렴합니다.

현실

수렴 속도는 환경과 구현 방식에 따라 달라집니다. 오프폴리시 방식은 환경과의 상호작용이 적을 수 있지만, 종종 더 많은 그래디언트 업데이트와 세심한 하이퍼파라미터 튜닝이 필요합니다. 어떤 작업에서는 온폴리시 방식이 더 많은 샘플을 사용함에도 불구하고 실제 시간상으로 더 빠르게 최적의 정책에 도달하기도 합니다.

자주 묻는 질문

온폴리션 학습과 오프폴리션 학습의 주요 차이점은 무엇인가요?

핵심적인 차이점은 데이터를 생성하는 정책과 학습 대상 정책 간의 관계에 있습니다. 온폴리시(On-policy) 방식은 경험을 축적하는 동일한 정책을 개선하는 반면, 오프폴리시(Off-policy) 방식은 다른 정책에서 생성된 데이터를 사용하여 학습합니다. 이러한 차이는 샘플링 효율성, 안정성, 그리고 각 접근 방식에서 사용할 수 있는 데이터 유형에 영향을 미칩니다.

온폴리션 방식과 오프폴리션 방식 중 어느 쪽이 샘플링 효율성이 더 높습니까?

오프폴리시 방식은 재생 버퍼를 통해 과거 경험을 재사용할 수 있기 때문에 일반적으로 샘플링 효율성이 더 높습니다. SAC 및 DQN과 같은 알고리즘은 단일 전환을 여러 번 학습할 수 있는 반면, PPO와 같은 온폴리시 방식은 일반적으로 각 전환을 한 번만 사용한 후 폐기합니다.

PPO는 정책에 포함되나요, 아니면 포함되지 않나요?

PPO(근접 정책 최적화)는 온폴리시 알고리즘입니다. 현재 정책을 사용한 롤아웃 데이터를 수집하고, 해당 데이터로 몇 에포크 동안 학습한 후, 데이터를 폐기하고 새로운 샘플을 수집합니다. 이러한 비효율성에도 불구하고, PPO는 다양한 작업에서 안정적이고 신뢰할 수 있는 성능을 보여주기 때문에 여전히 널리 사용되고 있습니다.

오프폴리시안 학습은 인간 시연 데이터를 활용할 수 있을까요?

네, 이것이 오프폴리시 학습의 주요 장점 중 하나입니다. 알고리즘은 사람의 데모 데이터를 사용하여 초기화 또는 사전 학습된 후, 자체 탐색을 통해 학습을 지속할 수 있습니다. 데모 학습 또는 모방 학습 초기화라고도 불리는 이 접근 방식은 전문가의 예시를 통해 학습 속도를 높이는 로봇 공학 분야에서 널리 사용됩니다.

오프폴리션 학습에 안정성 문제가 발생하는 이유는 무엇일까요?

오프폴리시 방법은 치명적인 삼중고 문제에 직면합니다. 함수 근사, 부트스트래핑, 오프폴리시 데이터를 결합하면 발산이 발생할 수 있습니다. 가치 함수를 신경망으로 근사하고 다른 분포의 목표값을 사용하여 업데이트할 때 오류가 누적될 수 있습니다. 타겟 네트워크, 더블 Q-러닝, 보수적 업데이트와 같은 기법은 이러한 문제를 해결하는 데 도움이 됩니다.

오프폴리션 학습에서 중요도 샘플링이란 무엇인가요?

중요도 샘플링은 행동 정책과 목표 정책 간의 분포 불일치를 보정하는 통계적 기법입니다. 각 정책 하에서의 확률 비율에 따라 업데이트에 가중치를 부여하여 정책 경사법에서 오프폴리시 보정을 가능하게 합니다. 그러나 이 비율은 분산이 클 수 있어 실제 적용에 제약이 있습니다.

로봇 공학 응용 분야에는 어떤 접근 방식이 더 나을까요?

실제 환경에서의 상호작용은 비용과 시간이 많이 소요되기 때문에 로봇 공학에서는 일반적으로 오프폴리시(off-policy) 방식이 선호됩니다. SAC 및 TD3와 같은 알고리즘은 경험을 재사용함으로써 제한된 데이터로부터 복잡한 조작 작업을 학습할 수 있습니다. 하지만 학습된 정책을 하드웨어에 적용하기 전에 로봇 시뮬레이션 단계에서는 온폴리시(on-policy) 방식이 사용되기도 합니다.

Q-러닝은 온폴리전 방식인가요, 오프폴리전 방식인가요?

Q-러닝은 오프폴리시 학습 방식입니다. 에이전트가 탐색 과정에서 실제로 어떤 행동을 취했는지와 관계없이, 각 상태에서 가능한 최선의 행동을 취하는 것의 가치를 학습합니다. 따라서 무작위적이거나 탐색적인 정책을 따르는 경우에도 최적의 행동을 학습할 수 있으며, 이것이 바로 DQN에서 경험 재생과 함께 사용하기에 적합한 이유입니다.

경험 재현은 온폴리젠과 오프폴리젠과 어떤 관련이 있나요?

경험 재생은 주로 오프폴리시 학습과 관련이 있는데, 이는 이전 정책에서 생성된 과거 전환을 저장하고 재사용하기 때문입니다. 온폴리시 방식은 일반적으로 이전 데이터를 재사용하는 것이 온폴리시 가정을 위반하기 때문에 재생 버퍼를 사용하지 않지만, 일부 혼합 접근 방식도 존재합니다.

온폴리전 방식과 오프폴리전 방식을 결합할 수 있나요?

네, 하이브리드 접근 방식이 존재합니다. 일부 알고리즘은 주로 온폴리시를 사용하면서 사전 학습이나 보조 목표로 오프폴리시 데이터를 활용합니다. 액터-크리틱 방식은 종종 두 가지 방식을 혼합하여 사용하는데, 크리틱은 오프폴리시를 학습하고 액터는 온폴리시를 업데이트합니다. 두 방식의 장점을 모두 활용하는 방법에 대한 연구는 계속 진행 중입니다.

평결

게임 AI나 언어 모델의 정책 경사법과 같은 작업에서 훈련 안정성이 중요하고 저렴한 시뮬레이션 환경을 이용할 수 있다면 온폴리시 학습을 선택하세요. 반면, 샘플 효율성이 중요하거나 데이터 수집 비용이 많이 들거나 데모 또는 기록된 상호 작용과 같은 기존 데이터 세트를 활용해야 하는 경우에는 오프폴리시 학습을 선택하는 것이 좋습니다.