오프폴리시 학습은 데이터를 재사용하기 때문에 항상 더 좋습니다.
오프폴리시 방식은 샘플 효율성이 높지만, 학습 불안정성이 높고 타겟 네트워크 및 중요도 샘플링과 같은 기술을 세심하게 조정해야 하는 경우가 많습니다. 온폴리시 방식은 시뮬레이션 비용이 저렴하고 안정성이 가장 중요한 환경에서 오프폴리시 방식보다 우수한 성능을 보일 수 있습니다.
온폴리시 학습과 오프폴리시 학습은 강화 학습에서 에이전트가 경험을 수집하고 활용하는 방식에 차이가 있는 두 가지 기본적인 접근 방식입니다. 온폴리시 방식은 에이전트가 실제로 취하는 행동을 통해 학습하는 반면, 오프폴리시 방식은 다른 정책에서 수집한 데이터나 과거 행동을 통해 학습할 수 있습니다.
에이전트가 개선하려는 동일한 정책 하에서 현재 수행하는 행동으로부터 학습하는 강화 학습 접근 방식입니다.
에이전트가 최적화 대상 정책과는 다른 정책에서 생성된 경험을 통해 학습하는 강화 학습 접근 방식입니다.
| 기능 | 정책 기반 학습 | 오프 정책 학습 |
|---|---|---|
| 데이터 소스 | 현행 정책에 따라서만 | 정책 또는 과거 데이터 |
| 샘플 효율 | 더 낮은 수치는 새로운 데이터가 필요합니다. | 더 높은 수준에서는 과거 경험을 재활용합니다. |
| 훈련 안정성 | 일반적으로 더 안정적입니다. | 유통망 변화로 인해 안정성이 떨어질 수 있음 |
| 탐구 | 현행 정책과 연관됨 | 행동 정책과 분리됨 |
| 예시 알고리즘 | SARSA, PPO, A2C, 강화 | Q-러닝, DQN, DDPG, SAC, TD3 |
| 메모리 요구 사항 | 더 낮은 레벨, 재생 버퍼 불필요 | 더 높은 레벨에서는 대용량 리플레이 버퍼가 필요합니다. |
| 일반적인 사용 사례 | 게임 AI, 로봇 시뮬레이션, 언어 모델 | 로봇공학, 추천 시스템, 자율 주행 |
| 편향-분산 상충관계 | 분산이 낮고 편향이 약간 있음 | 편향이 낮을수록 분산이 높아집니다. |
근본적인 차이점은 어떤 정책이 훈련 데이터를 생성하는지에 있습니다. 온폴리시 학습은 탐색 중에 따르는 정책을 평가하고 개선하는 데 중점을 두므로, 모든 업데이트는 에이전트가 실제로 취할 행동을 반영합니다. 오프폴리시 학습은 이러한 측면을 완전히 분리하여, 에이전트가 이전 버전의 에이전트, 임의의 정책, 심지어는 인간 시연자가 수집한 데이터로부터 최적의 행동을 학습할 수 있도록 합니다.
오프폴리시 방식은 데이터 획득 비용이 높거나 데이터가 부족할 때 특히 효과적입니다. DQN이나 SAC와 같은 알고리즘은 전이 정보를 리플레이 버퍼에 저장하고 반복적으로 샘플링함으로써 환경과의 각 상호작용에서 최대의 학습 가치를 추출할 수 있습니다. 온폴리시 방식은 일반적으로 데이터를 한 번 사용 후 폐기하는데, 이는 비용이 저렴한 시뮬레이션 환경에서는 효과적이지만 물리적 로봇 공학처럼 각 상호작용에 실제 시간이나 비용이 소요되는 경우에는 비실용적입니다.
온폴리션 접근 방식은 최적화 대상 정책 자체가 항상 데이터를 생성하는 정책이기 때문에 분포 불일치를 방지하여 일반적으로 더 예측 가능한 수렴을 제공합니다. 오프폴리션 방식은 데이터 분포가 현재 정책이 생성하는 분포에서 벗어나는 분포 변화라는 문제에 직면하며, 이는 때때로 불안정성이나 발산을 초래할 수 있습니다. 타겟 네트워크, 중요도 샘플링, 정책 제약 조건과 같은 기법은 이러한 문제를 완화하는 데 도움이 되지만 복잡성을 증가시킵니다.
온폴리시 학습에서는 탐색이 본질적으로 현재 정책과 연결되어 있으며, 이는 종종 확률적 행동 선택이나 엔트로피 보너스를 통해 이루어집니다. 오프폴리시 학습은 탐색과 학습을 분리하여, 목표 정책이 활용 전략을 학습하는 동안 광범위한 탐색을 수행하는 별도의 행동 정책을 허용합니다. 이러한 분리를 통해 감쇠 스케줄을 사용하는 엡실론-그리디 전략이나 호기심 기반 행동 정책과 같은 정교한 탐색 전략을 구현할 수 있습니다.
온폴리시(On-policy) 방식은 시뮬레이션 비용이 저렴하고 안정성이 중요한 영역, 예를 들어 게임 에이전트 학습이나 RLHF를 이용한 대규모 언어 모델 미세 조정 등에 주로 사용됩니다. 오프폴리시(Off-policy) 방식은 실제 데이터 수집 비용이 높은 로봇 공학 분야나 방대한 사용자 상호작용 로그를 통해 풍부한 학습 데이터를 얻을 수 있는 추천 시스템 분야에서 뛰어난 성능을 보입니다. 어떤 방식을 선택할지는 시뮬레이션 데이터가 풍부한지, 아니면 가치 있는 실제 데이터가 있는지에 따라 달라집니다.
오프폴리시 학습은 데이터를 재사용하기 때문에 항상 더 좋습니다.
오프폴리시 방식은 샘플 효율성이 높지만, 학습 불안정성이 높고 타겟 네트워크 및 중요도 샘플링과 같은 기술을 세심하게 조정해야 하는 경우가 많습니다. 온폴리시 방식은 시뮬레이션 비용이 저렴하고 안정성이 가장 중요한 환경에서 오프폴리시 방식보다 우수한 성능을 보일 수 있습니다.
정책 기반 학습은 과거 데이터를 사용할 수 없습니다.
온폴리션(On-policy) 방식은 이론적으로 과거 데이터를 사용할 수 있지만, 그렇게 하려면 중요도 샘플링 보정이 필요하며 이로 인해 분산이 크게 증가합니다. 실제로 이러한 방식은 현재 정책의 최신 데이터를 사용할 때 가장 효과적이며, 이것이 바로 PPO와 같은 알고리즘이 롤아웃 데이터를 수집하고, 이를 기반으로 학습한 후 폐기하는 이유입니다.
Q-러닝은 최적의 행동 가치를 학습하기 때문에 오프폴리싱 방식입니다.
Q-러닝은 탐색 과정에서 최적 정책과 다른 행동 정책을 따를 가능성이 있기 때문에 오프폴리시 학습으로 분류됩니다. Q-러닝이 부트스트랩하는 출발점은 탐욕적인 행동 선택을 가정하는데, 이는 실제로 데이터를 생성하기 위해 취해진 행동과 다를 수 있습니다.
모든 심층 강화 학습 알고리즘은 오프폴리싱 방식입니다.
많은 인기 있는 딥러닝 알고리즘은 PPO, A2C, TRPO를 포함하여 온폴리시(on-policy) 방식을 사용합니다. 온폴리시와 오프폴리시의 구분은 신경망 사용 여부와는 무관하며, 두 방식 모두 딥러닝에서 성공적으로 구현된 사례가 있습니다.
오프폴리시 학습은 온폴리시 학습보다 항상 더 빠르게 수렴합니다.
수렴 속도는 환경과 구현 방식에 따라 달라집니다. 오프폴리시 방식은 환경과의 상호작용이 적을 수 있지만, 종종 더 많은 그래디언트 업데이트와 세심한 하이퍼파라미터 튜닝이 필요합니다. 어떤 작업에서는 온폴리시 방식이 더 많은 샘플을 사용함에도 불구하고 실제 시간상으로 더 빠르게 최적의 정책에 도달하기도 합니다.
게임 AI나 언어 모델의 정책 경사법과 같은 작업에서 훈련 안정성이 중요하고 저렴한 시뮬레이션 환경을 이용할 수 있다면 온폴리시 학습을 선택하세요. 반면, 샘플 효율성이 중요하거나 데이터 수집 비용이 많이 들거나 데모 또는 기록된 상호 작용과 같은 기존 데이터 세트를 활용해야 하는 경우에는 오프폴리시 학습을 선택하는 것이 좋습니다.
2차 복잡도 모델은 입력 크기의 제곱에 비례하여 계산량이 증가하므로 강력한 성능을 제공하지만 대규모 데이터 세트에서는 리소스 소모가 심합니다. 반면 선형 복잡도 모델은 입력 크기에 비례하여 계산량이 증가하므로 특히 장시간 처리 및 엣지 컴퓨팅 환경과 같은 최신 AI 시스템에서 훨씬 뛰어난 효율성과 확장성을 제공합니다.
이 상세한 분석은 자동화된 머신 비전과 전통적인 인력 감독 간의 뚜렷한 운영상 차이점을 보여줍니다. 소프트웨어 기반 비디오 분석 시스템은 피로감 없이 방대한 양의 실시간 영상을 지속적으로 처리하는 반면, 인간 경비원은 급박한 현장 상황에서 발생하는 문제를 실시간으로 해결하고 상황에 맞는 판단을 내리는 데 있어 대체 불가능한 능력을 발휘합니다.
AI 기반 개인화는 사용자의 선호도와 행동을 기반으로 개별 사용자에게 맞춤형 디지털 경험을 제공하는 데 중점을 두는 반면, 알고리즘 조작은 유사한 데이터 기반 시스템을 사용하여 사용자의 관심을 유도하고 의사 결정에 영향을 미치며, 종종 사용자의 복지나 의도보다 참여도나 수익과 같은 플랫폼 목표를 우선시합니다.
AI 마켓플레이스는 사용자를 AI 기반 도구, 에이전트 또는 자동화 서비스와 연결하는 반면, 기존 프리랜서 플랫폼은 프로젝트 기반 작업을 위해 전문 인력을 고용하는 데 중점을 둡니다. 둘 다 작업을 효율적으로 해결하는 것을 목표로 하지만, 실행 방식, 확장성, 가격 모델, 그리고 결과물을 도출하는 데 있어 자동화와 인간의 창의성 사이의 균형 측면에서 차이가 있습니다.
AI 기반 콘텐츠 탐지는 머신러닝 모델을 사용하여 품질이 낮거나 AI가 생성한 콘텐츠를 대규모로 식별하는 반면, 인간 검토는 훈련된 편집자가 판단력과 맥락을 통해 품질을 평가하는 방식입니다. 각 접근 방식은 고유한 강점을 가지고 있으며, 많은 조직에서 최상의 결과를 얻기 위해 두 가지 방식을 혼합하여 사용하고 있습니다.