AI 언어모델은 대체 왜 환각을 일으킬까? (feat. OpenAI 논문)
AI 언어모델이 환각을 일으키는 이유는 무엇일까?
AI가 때때로 틀린 정보를 마치 사실인 양 자신 있게 이야기하는 ‘환각(Hallucination)’ 현상은 마치 어려운 시험 문제 앞에서 정답을 모를 때 “모른다”고 말하기보다 아는 척하며 답을 지어내는 학생의 모습과 닮았습니다. 이는 단순한 기술적 결함이 아니라, AI가 훈련되고 평가받는 방식에 깊이 뿌리내린 문제입니다.
1. AI는 어떻게 찍는 습관을 갖게 될까?
많은 사람이 환각을 AI의 신비한 버그처럼 생각하지만, 논문은 환각이 사전 훈련 과정에서 발생하는 자연스러운 통계적 결과라고 설명합니다.
그 원인을 이해하기 위해 “이것이 유효한 문장인가? (Is-It-Valid)” 라는 개념을 살펴볼 수 있습니다. AI가 올바른 문장을 ‘생성’하는 것은, 주어진 문장이 올바른지 아닌지를 ‘분류’하는 것보다 훨씬 어려운 과제입니다. 환각은 바로 이 ‘분류’ 과정에서 잘못된 정보를 ‘유효하다’고 판단하는 통계적 오류에서 시작됩니다. AI가 ‘힘들어서’ 실수를 하는 것이 아니라, 학습한 데이터와 훈련 방식에 내재된 통계적 한계 때문에 발생하는 시스템적인 오류라고 보는 것입니다.
여기서 잠깐!
Q. 그렇다면 AI 언어모델이 어려운 부분에 인지 부하를 더 할당하고, 쉬운 부분에는 덜 할당하기 때문에 잘못되거나 확실하지 않은 정보를 유효하다고 판단하고 넘어간다는 말인가요?
A. AI가 인지 능력을 배분하는 것처럼 생각하신 부분이 흥미롭지만, AI가 어려운 부분에 신경을 더 쓰고 쉬운 부분은 그냥 넘어가는 개념과는 약간 다릅니다. 핵심은 과제의 본질적인 난이도 차이와 그로 인한 통계적 오류에 있습니다.
논문에서 말하는 바를 쉽게 비유하면 이렇습니다.
- ‘분류’ (상대적으로 쉬운 과제): 눈앞에 있는 사과가 진짜 사과인지, 플라스틱 모형인지를 구별하는 일입니다.
- ‘생성’ (훨씬 어려운 과제): 아무것도 없는 상태에서 진짜와 똑같은 사과를 그려내는 일입니다.
진짜와 똑같은 사과를 그려내려면(‘생성’), 최소한 진짜 사과와 모형을 구별할 줄(‘분류’) 알아야 합니다. 환각은 바로 이 ‘분류’ 단계에서부터 오류가 시작되는 것입니다. AI가 훈련 데이터 속에서 그럴듯하지만 사실이 아닌 정보(플라스틱 사과)를 접했을 때, 그것을 ‘유효한 정보(진짜 사과)’라고 잘못 판단하고 배우는 경우가 생깁니다.
따라서 AI가 확실하지 않은 정보를 가볍게 보고 넘어가는 것이 아니라, 틀린 정보를 맞다고 착각하는 것입니다. 일단 ‘맞는 정보’라고 잘못된 판단을 내리고 나면, AI는 그 정보를 기반으로 자신감 있게 새로운 문장을 ‘생성’하게 됩니다. 이것이 바로 환각 현상의 핵심적인 원리입니다.
즉, AI가 틀린 정보를 맞다고 착각하는 것은 인간의 ‘인지 부하(cognitive load)’ 개념과는 다릅니다. AI는 피곤함을 느끼거나, 중요한 문제에 집중하느라 사소한 것을 놓치는 방식으로 작동하지 않습니다.
환각 현상의 핵심은 AI 모델의 학습과 판단의 문제입니다.
- 학습의 문제: AI는 방대한 텍스트 데이터로부터 통계적 패턴을 학습합니다. 이 과정에서 그럴듯하지만 사실이 아닌 정보, 또는 매우 드물게 등장하는 정보를 접하면, 그것을 ‘유효한’ 패턴으로 잘못 학습할 수 있습니다.
- 판단의 문제: 학습된 패턴을 기반으로 “이 문장이 유효한가?”를 판단할 때, 잘못 학습된 통계 모델이 틀린 정보를 ‘유효하다’고 결론 내리는 것입니다.
논문은 두 가지 흥미로운 예시를 통해 이를 설명합니다.
(1) 단 한 번 등장한 지식의 함정 (임의적 사실 문제)
“특정인의 생일은 언제인가?”와 같이 패턴 학습이 어려운 ‘임의적 사실’을 생각해봅시다. 만약 어떤 정보가 방대한 훈련 데이터 속에서 단 한 번(singleton)만 등장했다면, AI는 그 사실에 대해 질문받았을 때 환각을 일으킬 확률이 매우 높습니다. 데이터에 충분히 반복되지 않아 학습할 패턴이 없기 때문입니다. 이는 교육 자료를 구성할 때 핵심 정보의 빈도와 반복이 AI의 정확도에 얼마나 중요한지를 시사합니다.
(2) 모델의 서툰 능력 (글자 세기 문제)
“DEEPSEEK이라는 단어에 D가 몇 개인가?”라는 질문에 최신 AI 모델이 “2개” 또는 “3개”라고 틀리게 답하는 경우가 있었습니다. 이는 AI가 단어를 ‘D-E-E-P-S-E-E-K’처럼 글자 단위가 아닌 ‘D/EEP/SEE/K’와 같은 토큰(token) 단위로 세상을 보기 때문입니다. 즉, 모델의 근본적인 처리 방식이 특정 과제(글자 세기)에 적합하지 않아 발생하는 오류입니다. 이는 특정 AI 모델이 모든 종류의 과제에 능숙할 것이라는 기대를 버리고, 과제의 성격에 맞는 적절한 모델과 접근법을 선택해야 함을 의미합니다.
2. 왜 AI 언어모델은 거짓말을 멈추지 않을까?
더 큰 문제는 사후 훈련을 통해 환각을 줄이려는 노력에도 불구하고 왜 이 현상이 지속되느냐는 것입니다. 논문은 그 원인을 “불확실성에 페널티를 주는 유행(epidemic of penalizing uncertainty)”, 즉 현재의 AI 평가 시스템 자체에서 찾습니다.
대부분의 주요 AI 성능 평가(벤치마크)는 정답이면 1점, 오답이거나 “모르겠다(IDK)”고 답하면 0점을 주는 이진 채점 방식을 사용합니다.
이러한 시스템에서는 불확실한 상황에서 정직하게 “모르겠다”고 답하는 AI보다, 틀릴 위험을 감수하고 가장 그럴듯한 답을 ‘찍는’ AI가 장기적으로 더 높은 점수를 받게 됩니다. 결국 AI는 진실을 말하는 모델이 아니라, 시험 잘 보는 모델로 최적화되는 것입니다. 이는 마치 오답 감점이 없는 시험에서 모든 문제를 찍어서라도 답안지를 채우는 학생의 전략과 같습니다.
3. 새로운 채점 기준의 제안
그렇다면 해결책은 무엇일까요? 논문은 단순히 환각을 탐지하는 평가를 추가하는 것만으로는 부족하며, 주류 평가 시스템의 ‘채점 기준’ 자체를 바꿔야 한다고 주장합니다.
해결책으로 명시적 신뢰도 목표(Explicit Confidence Targets)
를 제안합니다. 이는 평가 문항에 오답에 대한 페널티를 명시적으로 포함하는 방식입니다.
예시: “이 문제에 90% 이상 확신이 있을 때만 답하세요. 정답은 1점, 오답은 9점 감점되며, ‘모르겠다’고 답하면 0점입니다.”
이러한 새로운 채점 기준은 AI의 인센티브 구조를 완전히 바꿉니다. 이제 AI는 무조건 추측하는 대신, 자신의 확신 수준을 스스로 평가하고 기준에 미치지 못하면 정직하게 물러서는 것이 유리해집니다. 이는 AI가 ‘행동적 보정(behavioral calibration)’, 즉 자신의 불확실성을 행동으로 표현하도록 훈련하는 강력한 동기가 됩니다.
4. 정리
이 논문은 AI 환각이 단순한 기술적 오류가 아니라, 훈련 데이터의 통계적 특성과 우리가 AI를 평가하는 방식이 만들어낸 합작품임을 명확히 보여줍니다. 이는 AI를 교육에 활용하려는 교육자에게 다음의 중요한 시사점을 던져줍니다.
- AI의 한계를 명확히 인식해야 합니다: AI가 제공하는 정보, 특히 단편적이거나 희귀한 정보는 항상 비판적으로 검토해야 합니다.
- ‘어떤 시험을 통과했는가’를 질문해야 합니다: “이 AI가 얼마나 똑똑한가?”를 묻기 전에, “이 AI는 어떤 평가 기준에 맞춰 똑똑해지도록 훈련받았는가?”를 먼저 질문해야 합니다.
- 정직한 AI를 요구해야 합니다: 앞으로 우리는 AI에게 단순히 정답을 맞히는 능력뿐만 아니라, 자신의 한계를 인지하고 표현하는 ‘메타인지’ 능력을 요구해야 합니다. 이 논문이 제안한 새로운 평가 방식은 그 가능성을 열어줍니다.
AI 환각 문제를 해결하는 것은 결국 더 신뢰할 수 있고, 더 정직하며, 교육적으로 더 가치 있는 AI를 만드는 과정입니다. AI를 평가하는 기준이 바뀔 때, 비로소 AI도 더 나은 학습 파트너로 성장할 수 있을 것입니다.
출처
- OpenAI Blog: Why language models hallucinate
- Research Paper (PDF): Why language models hallucinate