Anthropic Constitutional AI의 RLHF 대체 메커니즘과 안전성 벤치마크

Question 1

CAI의 자기 비판 메커니즘

Answer

Constitutional AI는 기존 RLHF 방식과 달리 인간 라벨러의 피드백을 최소화하고, 사전에 정의된 원칙 목록(Constitution)을 바탕으로 모델이 스스로 출력을 검토하고 수정하는 자기 개선 구조를 채택한다. 이 과정은 Supervised Learning 단계를 거쳐 초기 원칙 준수를 학습한 후, Reinforcement Learning from AI Feedback 단계로 이어지며 인간 개입을 극도로 줄이는 것이 핵심이다.

Question 2

학습 데이터 규모와 RLAIF 확장성

Answer

CAI 파이프라인은 Supervised Learning 단계에서 약 135,000개의 프롬프트-응답 쌍을 활용하여 기초 안전성을 다지며, 이어지는 RLAIF 단계에서는 모델이 생성한 약 430,000개의 쌍대 비교 데이터를 통해 학습 규모를 비약적으로 확장한다. AI가 직접 피드백을 생성하는 방식은 라벨링 비용을 절감하면서도 일관된 기준 하에 대규모 안전 튜닝을 가능하게 한다.

Question 3

안전성 벤치마크 및 적대적 테스트 결과

Answer

Red Teaming 실험을 통해 CAI 기반 모델은 적대적 프롬프트에 대해 RLHF 대비 평균 34% 더 높은 안전한 응답률을 기록하며 실질적인 안전성 우위를 입증했다. 특히 무해함(Harmlessness)과 도움이 되는 정도(Helpfulness) 평가에서 통계적으로 유의미한 저하 없이 동등 이상의 성능을 유지하여, 인간 피드백 의존도 감소가 안전성 훼손으로 이어지지 않음을 확인하였다. > 이 주제의 전체 맥락 방향성은 **"A학점 독후감의 배신: 아이의 뇌는 아무것도 읽지 않았다"** 원본 글에 세밀하게 정리되어 있습니다. 더 깊게 탐구하고 싶다면 관련 내부 대표 문서(Pillar/Entity)를 참조하세요.