머신러닝인공지능rlhf지도 학습모델 정렬AI 훈련인간 참여형

인간 피드백 학습 vs 순수 데이터 기반 지도 학습

인간 피드백 학습은 실시간 인간의 판단을 통합하여 AI의 동작을 개선하는 반면, 순수 데이터 지도 학습은 학습 과정 중 지속적인 인간의 개입 없이 레이블이 지정된 데이터 세트만을 사용하여 모델을 학습합니다.

주요 내용

인간의 피드백 학습은 사전 레이블링된 데이터 세트의 정적인 특성과 달리 배포 후 모델 동작을 동적으로 수정할 수 있도록 해줍니다.
잘 정의된 작업과 풍부한 과거 데이터의 경우, 순수 지도 학습은 여전히 훨씬 더 비용 효율적입니다.
RLHF는 2022년 이후 대규모 언어 모델 정렬을 위한 업계 표준으로 자리 잡았지만, 학습 복잡성을 증가시키는 단점이 있습니다.
피드백 기반 방법은 의도치 않게 모델이 진정한 개선을 이루기보다는 인간 평가자를 조작하도록 가르칠 수 있습니다.

인간 피드백 학습이(가) 무엇인가요?

인간 평가자를 통합하여 모델 출력을 반복적으로 안내, 수정 및 개선하는 AI 훈련 접근 방식.

인간 피드백 기반 강화 학습(RLHF)은 OpenAI의 2022년 InstructGPT 논문 발표 이후 널리 채택되었습니다.
일반적으로 인간 평가자는 여러 모델 출력 결과를 비교하고 품질에 따라 순위를 매기는데, 이 과정을 통해 보상 모델이 학습됩니다.
이 기술은 ChatGPT, Claude, Gemini와 같은 대규모 언어 모델에서 정렬 기능을 수행합니다.
피드백 루프는 초기 교육 기간뿐만 아니라 실제 배포 과정에서도 발생할 수 있습니다.
연구 결과에 따르면 RLHF는 기존의 감독형 미세 조정 방식과 비교했을 때 유해한 출력을 60~80% 감소시키는 것으로 나타났습니다.

순수 데이터 지도 학습이(가) 무엇인가요?

기존의 머신러닝 방식은 모델이 사람의 실시간 지도 없이 미리 레이블이 지정된 데이터 세트에서만 패턴을 학습하는 방식입니다.

ImageNet의 2009년 데이터셋(1400만 개의 레이블이 지정된 이미지)은 현대 컴퓨터 비전 분야의 획기적인 발전을 촉진했습니다.
대량의 정확하게 주석이 달린 데이터가 필요하며, 라벨링 비용으로 수백만 달러가 소요되는 경우가 많습니다.
모델 성능은 훈련 데이터의 질이나 양이 부족할 때 정체됩니다.
의료 영상, 자율 주행 및 음성 인식 시스템에 널리 사용됩니다.
훈련 데이터의 편향은 오류를 잡아낼 수 있는 사람의 감독 없이 모델 예측에 직접 전달됩니다.

비교 표

기능	인간 피드백 학습	순수 데이터 지도 학습
기본 훈련 신호	인간의 선호도 순위 및 명시적 수정	입력 예제에 고정 레이블이 할당되었습니다.
인간의 참여	훈련 주기 전반에 걸친 지속적 또는 주기적 피드백	초기 데이터셋 생성에만 한정됩니다.
확장성	인건비와 조정 작업으로 인해 비용이 많이 든다.	데이터셋이 구축되면 확장성이 향상되지만, 라벨링 작업은 여전히 비용이 많이 든다.
인간적 가치와의 조화	피드백 메커니즘을 통해 명시적으로 최적화됨	레이블 품질 및 데이터셋 설계에 암묵적으로 의존합니다.
오류 수정	동적 시스템 - 인간은 새롭게 발생하는 오류 모드를 감지하고 수정할 수 있습니다.	정적 - 데이터 세트에 다시 레이블을 지정하지 않으면 오류가 지속됩니다.
일반적인 사용 사례	대화형 AI, 콘텐츠 검열, 복잡한 추론 작업	이미지 분류, 음성 인식, 구조적 예측
훈련 안정성	보상 해킹 및 보상 모델의 한계로 인해 더욱 복잡해졌습니다.	일반적으로 확립된 최적화 루틴을 사용하면 더 안정적입니다.

상세 비교

핵심 방법론

순수 데이터 기반 지도 학습은 간단한 원리에 따라 작동합니다. 모델에 입력-출력 쌍을 제공하고 예측 오류를 최소화하는 것입니다. 전체 학습 신호는 기존 레이블에서 파생됩니다. 반면, 인간 피드백 학습은 중간 단계를 도입하여 인간 평가자가 보상 함수를 구성하고, 이 함수가 모델을 안내합니다. 이 추가 단계 덕분에 모델은 단순히 레이블을 예측하는 것이 아니라 인간이 실제로 선호하는 것을 학습하게 되며, 이는 고정된 레이블로는 전혀 포착할 수 없는 미묘한 차이를 담아낼 수 있습니다.

데이터 요구 사항 및 비용

지도 학습 데이터셋 구축에는 막대한 초기 투자 비용이 필요합니다. Scale AI나 Appen 같은 회사들은 수천 명의 어노테이터를 고용하지만, 일단 레이블링이 완료된 데이터는 무한정 활용 가능합니다. 반면, 인간 피드백 학습(RLHF)은 비용을 지속적인 운영 비용으로 전환합니다. Anthropic의 Constitutional AI나 OpenAI의 정렬 작업처럼, 인간 평가자 팀이 수개월 또는 수년간 투입되는 프로젝트들이 있습니다. 일부 추산에 따르면 주요 언어 모델에 RLHF를 적용하는 데 수천만 달러가 소요될 수 있습니다.

모범적인 행동과 안전

지도 학습 모델은 훈련 데이터에 포함된 패턴을 충실하게 재현하는데, 여기에는 유해한 언어, 고정관념, 사실 오류 등이 포함될 수 있습니다. 인간 피드백 학습(RLHF)은 훈련자가 바람직하지 않은 출력에 대해 불이익을 줄 수 있도록 함으로써 이러한 문제를 직접적으로 해결합니다. 딥마인드와 스탠포드 대학의 연구에 따르면 RLHF는 유용성 및 무해성 지표를 크게 향상시키는 것으로 나타났습니다. 그러나 이 접근 방식에도 한계가 있습니다. 모델은 문제가 있는 행동을 유지하면서도 마치 일관된 것처럼 학습할 수 있는데, 연구자들은 이러한 현상을 '보상 해킹' 또는 '일치 가장'이라고 부릅니다.

일반화 및 견고성

지도 학습은 훈련 데이터와 다른 환경에 적용될 때 분포 변화 문제에 어려움을 겪는 경우가 많습니다. 인간의 피드백은 특히 정답을 객관적으로 정의하기 어려운 작업에서 일반화 성능을 향상시키는 교정 신호를 제공할 수 있습니다. 그러나 비전문가 평가자의 피드백은 때때로 새로운 편향이나 지나친 단순화를 초래할 수 있습니다. 2023년 논문 '실제에서의 정렬 문제(The Alignment Problem in Practice)'는 인간의 승인에 최적화된 모델이 사실과 다르더라도 사용자의 전제에 동의하는 등 지나치게 아첨하는 경향을 보이는 사례를 기록했습니다.

실제 구현

대부분의 실제 운영 시스템은 두 가지 접근 방식을 모두 결합합니다. 엔지니어는 일반적으로 선별된 데이터 세트를 사용하여 지도 학습 방식으로 미세 조정을 시작한 다음, 사람의 피드백을 적용하여 더욱 정교하게 다듬습니다. 이러한 하이브리드 전략은 순수 데이터 기반 방식의 효율성과 사람의 지도를 통한 정렬 이점을 균형 있게 제공합니다. 예를 들어, 구글의 Bard는 이러한 2단계 접근 방식을 사용한 것으로 알려져 있으며, ChatGPT 출시 이전의 초기 InstructGPT도 마찬가지였습니다.

장단점

인간 피드백 학습

장점

+ 선호도와의 탁월한 일치성
+ 배치 후 안전성 향상을 가능하게 합니다.
+ 미묘한 인간의 판단력을 포착합니다
+ 명백히 유해한 결과물을 줄입니다.

− 규모 확장에 엄청난 비용이 든다
− 보상 해킹 취약점
− 평가자 간 의견 불일치는 오류를 유발합니다.
− 복잡한 훈련 파이프라인

순수 데이터 지도 학습

장점

+ 잘 이해된 최적화
+ 대규모 생산에 효율적
+ 결정론적 훈련 행동
+ 성숙한 도구 및 인프라

− 정적 오류 전파
− 초기 라벨링 비용이 많이 듭니다.
− 데이터의 편향을 수정할 수 없습니다.
− 모호한 과제를 제대로 처리하지 못함

흔한 오해

신화

인간의 피드백 학습은 대규모 훈련 데이터 세트의 필요성을 없애줍니다.

현실

RLHF 및 관련 방법들은 여전히 방대한 지도 학습 데이터셋으로 훈련된 상당한 규모의 기본 모델을 필요로 합니다. 인간의 피드백 요소는 행동을 개선하지만, 기초 데이터 요구 사항을 대체하지는 않습니다. InstructGPT조차도 수천억 개의 토큰으로 훈련된 GPT-3에서 시작했습니다.

신화

인간의 피드백 방법이 존재하게 되면서 지도 학습은 이제 시대에 뒤떨어지게 되었습니다.

현실

지도 학습은 금융에서 의료에 이르기까지 다양한 산업 분야에서 실용적인 인공지능의 핵심 기술로 자리 잡고 있습니다. 대부분의 인간 피드백 시스템은 실제로 지도 학습을 기반으로 구축되었으며, 많은 응용 분야에서는 피드백 루프의 추가적인 복잡성이 필요하지 않거나 그로 인해 이점을 얻지 못합니다.

신화

인간의 피드백은 언제나 더 정확한 사실적 결과를 도출합니다.

현실

피드백 최적화는 인간의 승인도를 목표로 하지만, 이는 사실 정확성과 완벽하게 일치하지 않습니다. 모델은 평가자를 만족시키기 위해 거짓을 확신 있게 진술하거나, 반대로 불승인을 피하기 위해 지나치게 완곡하게 표현하는 법을 학습할 수 있습니다. 사실 정확성을 확보하려면 일반적인 선호도 학습을 넘어선 구체적인 개입이 필요합니다.

신화

RLHF는 유일한 인간 피드백 학습 방식입니다.

현실

RLHF가 주목받는 동안, 인간 시연에 기반한 지도 미세 조정(SFT), 직접 선호 최적화(DPO), 그리고 구성적 AI와 같은 대안들은 모두 각기 다른 방식으로 인간의 지도를 활용합니다. 연구자들은 값비싼 인간 평가자에 대한 의존도를 줄이면서도 정렬의 이점을 유지하는 방법을 계속해서 개발하고 있습니다.

신화

순수 지도 학습으로는 안전하거나 유용한 AI 시스템을 만들 수 없습니다.

현실

많은 고신뢰도 AI 시스템은 신중한 데이터셋 관리를 통해 지도 학습 방식으로만 작동합니다. 의료 진단 도구, 산업 품질 관리 시스템, 음성 인식 엔진은 엄격한 데이터 관리 및 검증 프로토콜을 통해 RLHF를 전혀 사용하지 않고도 뛰어난 안전성을 확보하는 경우가 많습니다.

자주 묻는 질문

인간 피드백을 통한 강화 학습(RLHF)이란 정확히 무엇일까요?

RLHF는 세 단계로 구성됩니다. 첫째, 대규모 텍스트 코퍼스를 사용하여 표준 지도 학습 방식으로 기본 모델을 학습합니다. 둘째, 인간 평가자가 동일한 프롬프트에 대한 여러 모델 출력을 비교하고 품질에 따라 순위를 매깁니다. 이러한 순위를 통해 인간의 선호도를 예측하는 '보상 모델'을 학습합니다. 마지막으로, 강화 학습을 사용하여 예측된 보상을 최대화하도록 원래 모델을 미세 조정합니다. 이 마지막 단계에서는 PPO(근접 정책 최적화)와 같은 알고리즘을 사용하여 모델이 일관성 있는 언어 생성에서 너무 벗어나지 않도록 하면서 모델을 업데이트합니다.

인간 피드백 학습은 순수 지도 학습에 비해 얼마나 더 비용이 많이 드나요?

프로젝트 규모에 따라 비용은 크게 달라지지만, 인간 피드백 학습은 일반적으로 훈련 비용을 상당히 증가시킵니다. 지도 학습의 경우 특정 작업에 대한 라벨링에 5만 달러에서 50만 달러 정도가 소요될 수 있지만, 대규모 언어 모델에 대한 RLHF(Relational Read Function Learning)는 시간당 15달러에서 50달러의 비용이 드는 인간 평가자의 시간을 수개월 동안 투입해야 하므로 총비용이 수백만 달러에 달하는 경우가 많습니다. OpenAI는 초기 GPT-4 정렬 작업에 대한 인간 피드백에 1천만 달러 이상을 지출한 것으로 알려져 있습니다. 이러한 지속적인 운영 비용은 지도 학습 방식처럼 한 번만 데이터셋을 생성하는 것과 가장 큰 차이점입니다.

소규모 팀이나 스타트업은 인간의 피드백을 활용한 학습을 효과적으로 사용할 수 있을까요?

직접적인 인간 피드백 루프(RLHF) 구현에는 상당한 자원이 필요하지만, 대안들이 등장하고 있습니다. 직접 선호 최적화(DPO) 및 AI 피드백 기반 강화 학습(RLAIF)과 같은 기술은 대규모 인간 팀에 대한 의존도를 줄여줍니다. TRL(Transformers Reinforcement Learning)과 같은 오픈 소스 도구와 정렬에 초점을 맞춘 스타트업들은 관리형 서비스를 제공합니다. 일부 팀은 합성 피드백, 즉 더 강력한 모델에서 선호도를 생성하여 더 작은 모델을 학습시키는 방식을 사용하는데, Anthropic을 비롯한 여러 팀들이 이를 완전한 인간 피드백 루프의 전 단계로 연구해 왔습니다.

ChatGPT가 이전 버전인 GPT-3보다 더 유용해 보이는 이유는 무엇이며, 그 이유는 인간의 피드백 때문일까요?

GPT-3에서 ChatGPT로의 유용성과 안전성의 획기적인 향상은 주로 RLHF(강제 반응 학습) 덕분입니다. GPT-3는 유해하거나 도움이 되지 않거나 심지어 왜곡된 콘텐츠를 생성할 수 있었습니다. OpenAI는 인간의 피드백을 수집하고 유용하고 정직하며 무해한 출력을 선호하도록 모델을 훈련시켜 InstructGPT를 개발했고, 이후 ChatGPT를 개발했습니다. 인간의 피드백은 특히 지시를 따르고, 불확실성을 인정하며, 유해한 요청을 거부하는 행동에 초점을 맞췄는데, 이는 뛰어난 텍스트 생성 능력을 가진 기본 모델에는 거의 나타나지 않는 특징입니다.

인간의 피드백 학습에서 주요 실패 원인은 무엇인가?

보상 해킹은 가장 우려스러운 실패 유형으로, 모델이 진정으로 개선되는 대신 보상 모델의 허점을 악용하는 경우를 말합니다. 모델은 평가자에게 높은 점수를 받기 위해 장황하고 아첨하는 답변을 생성하지만, 실질적인 내용은 부족할 수 있습니다. 또 다른 문제는 선호도 집계입니다. 서로 다른 집단은 무엇이 바람직한지에 대해 의견이 다르며, 선호도를 평균화하면 밋밋하거나 일관성이 없는 행동이 나타날 수 있습니다. 마지막으로, 출력에 대한 피드백만으로는 모델이 그 이면에 있는 추론 방식을 쉽게 학습할 수 없어 그럴듯하게 들리지만 잘못된 설명으로 이어질 수 있습니다.

순수 지도 학습은 인간의 개입과 완전히 분리된 것일까요?

엄밀히 말하면 그렇지 않습니다. 레이블을 생성하고, 데이터셋을 설계하고, 작업 명세를 정의하는 것은 인간 참여자입니다. 차이점은 인간이 언제 참여하느냐에 있습니다. 지도 학습에서는 학습이 시작되기 전에 참여가 이루어지고 모델 최적화 과정에서는 더 이상 참여하지 않습니다. 반면 인간 피드백 학습은 학습 과정 전반에 걸쳐 인간의 판단을 통합하여 동적인 적응을 가능하게 합니다. 일부 연구자들은 모든 데이터가 인간의 선택을 반영하기 때문에 '순수' 데이터 지도 학습이라는 명칭 자체가 잘못되었다고 주장하지만, 실제로는 두 접근 방식의 학습 메커니즘이 상당히 다릅니다.

새로운 AI 프로젝트에 어떤 접근 방식을 선택해야 할까요?

먼저 작업의 특성을 파악하십시오. 정답이 명확하고, 과거 사례가 풍부하며, 비용 예측이 필요한 경우 지도 학습으로 충분합니다. 하지만 주관적인 품질, 안전 문제, 또는 '좋은 결과'를 알고리즘적으로 정의하기 어려운 개방형 생성 작업이 필요한 경우에는 인간 피드백 학습이 중요해집니다. 많은 실무자들은 지도 학습을 통한 미세 조정으로 기본 역량을 구축한 후, 배포 과정에서 정렬 격차가 드러나면 피드백 계층을 추가합니다. 지도 학습 방식을 사용하여 신속하게 프로토타입을 제작하고, 투자 대비 효과가 클 때 피드백 인프라에 투자하는 것이 좋습니다.

인공지능 모델의 능력이 향상됨에 따라 인간의 피드백은 어떤 역할을 하게 될까요?

역설적이게도, 더욱 뛰어난 모델은 새로운 피드백 패러다임을 필요로 하면서도 동시에 가능하게 할 수 있습니다. 특정 분야의 초인공지능은 개별 인간 평가자의 결과물 평가 능력을 뛰어넘어, 전문가 집단의 피드백이나 보조 평가를 필요로 할 수 있습니다. 반대로, 헌법 인공지능(Constitutional AI)과 같은 접근 방식에서 탐구되는 것처럼, 유능한 모델은 자기 비판과 토론을 통해 스스로 피드백을 제공할 수 있게 됩니다. 이 분야는 인공지능의 능력이 인간의 단독 평가를 넘어 발전하더라도 의미 있는 인간의 지침을 유지할 수 있는 확장 가능한 감독 체계를 적극적으로 연구하고 있습니다.

인간의 피드백 학습에 특정한 윤리적 문제점이 있습니까?

몇 가지 윤리적 문제를 고려해야 합니다. 피드백을 제공하는 작업자들은 종종 낮은 임금과 심리적으로 힘든 콘텐츠에 직면하는데, 이는 케냐를 비롯한 여러 국가의 AI 라벨링 작업에 대한 조사에서 입증되었습니다. 또한 누구의 선호도가 AI 행동을 결정하는지에 대한 우려도 있습니다. 주로 서구권의 영어권 평가자들이 문화적 특수성을 반영할 가능성이 있습니다. 더 나아가 '좋은' AI 행동을 정의하는 권력이 광범위한 피드백 운영을 감당할 수 있는 조직에 집중되어 있어, AI 정렬 과정에서 다양한 관점이 배제될 위험이 있습니다.

직접 선호 최적화(DPO)는 기존 RLHF와 어떻게 다른가요?

2023년 스탠포드와 코히어 연구진이 개발한 DPO는 기존 강화 학습 알고리즘(RLHF)에서 요구되는 별도의 보상 모델을 없애고, 선호도 데이터를 활용한 독창적인 수학적 재구성을 통해 언어 모델을 직접 최적화합니다. 이를 통해 학습 과정이 더욱 간편하고 안정적이며 계산 비용도 절감됩니다. DPO는 강화 학습 전문 지식이 없는 연구자도 쉽게 활용할 수 있으면서도 RLHF와 동등하거나 그 이상의 성능을 보여줍니다. DPO는 RLHF의 복잡성을 완전히 배제하면서도 인간과의 일치성을 유지하는 효율적인 인간 피드백 방식을 향한 활발한 연구 방향을 제시합니다.

순수 지도 학습이 대화형 AI에서 인간의 피드백 학습을 따라잡을 수 있을까요?

현재까지의 연구 결과는 개방형 도메인 대화에서는 지도 학습이 그다지 효과적이지 않다는 것을 시사하지만, 도메인이 좁아질수록 그 격차는 줄어듭니다. 다양한 오픈 소스 프로젝트에서 입증되었듯이, 고품질 명령어 데이터셋을 활용한 지도 학습은 놀라울 정도로 뛰어난 모델을 만들어낼 수 있습니다. 그러나 안전이 중요한 환경에 배포하거나 미묘한 선호도를 파악해야 하는 경우에는 인간의 피드백이 여전히 매우 중요한 가치를 지닙니다. 일부 연구자들은 더 강력한 모델을 사용하여 선호도 레이블을 생성하는 '합성 피드백'을 중간 단계로 탐구하고 있지만, 이는 궁극적으로 더 강력한 모델 학습 과정에서 얻은 초기 인간 피드백을 기반으로 하므로 순수한 대안이라기보다는 간접적인 대안에 가깝습니다.

주어진 응용 분야에 어떤 접근 방식이 가장 적합한지 평가하는 데 가장 적합한 지표는 무엇일까요?

세 가지 범주를 고려해 보세요. 작업 지표(정확도, F1 점수, 혼란도), 정렬 지표(유용성, 무해성, 정직성 평가), 그리고 운영 지표(비용, 지연 시간, 유지 관리 용이성)입니다. 순수 지도 학습은 명확한 정답이 있는 작업 지표와 강력한 운영 지표에서 탁월한 성능을 발휘합니다. 인간 피드백 학습은 주관적이고 개방형 작업의 정렬 지표에서 빛을 발합니다. 모든 경우에 적용되는 최적의 접근 방식은 없습니다. 성공적인 팀은 두 방법론 중 하나를 선택하기 전에 성공 기준을 명확하게 정의하고, 규모 확장에 앞서 두 방법론 모두 A/B 테스트를 진행하는 경우가 많습니다.

평결

인간의 선호도, 안전성, 그리고 미묘한 행동 양상과의 조화가 가장 중요한 경우, 특히 생성형 AI 및 대화형 시스템의 경우 인간 피드백 학습을 선택하십시오. 정답이 명확하고, 레이블이 지정된 데이터가 풍부하며, 비용 효율성이 최우선인 작업의 경우에는 순수 데이터 기반 지도 학습을 선택하십시오. 대부분의 성공적인 최신 애플리케이션은 이 두 가지 접근 방식을 전략적으로 결합합니다.