4 분 소요

hits

인과관계를 진정으로 이해하는 기계 VS 진정한 이해 없이 인과적 언어를 단순히 재현하는 기계


1. 연구의 목적

본 연구는 대규모 언어 모델(LLM)이 인간의 핵심 인지 편향 중 하나인 인과성의 환상(illusion of causality)을 보이는지 여부를 검증하는 것을 목적으로 합니다. 인과성의 환상이란, 실제로는 두 변수 사이에 아무런 증거가 없음에도 불구하고 인과 관계가 존재한다고 믿게 되는 인지적 오류를 말합니다.

이러한 편향은 “내가 이 약을 먹고, 마침 기분이 나아졌다. 따라서 이 약은 효과가 있다” 와 같이 일상적인 미신부터 사회적 편견, 고정관념 형성, 가짜뉴스 및 사이비 과학 확산에 이르기까지 광범위한 사회 문제의 근간이 됩니다. 연구진은 LLM이 이러한 인간의 편향을 그대로 학습하고 증폭시킬 수 있다는 우려 속에서, 특히 정확한 인과 추론이 필수적인 의료와 같은 민감한 영역에서 LLM이 편향된 판단을 내리는지 확인하고자 했습니다.


🔬 2. 연구의 방법

연구진은 인과성 환상을 측정하기 위해 실험 심리학에서 사용되는 고전적인 패러다임인 상관판단 과제(contingency judgment task)를 LLM에 맞게 조정하여 적용했습니다.

  • 데이터셋 구축: 1,000개의 영(0) 상관(null-contingency) 시나리오를 구축했습니다. 영 상관이란 원인(예: 약 복용)의 존재 여부와 결과(예: 회복)의 발생 확률이 완전히 동일하여, 둘 사이에 아무런 인과 관계가 없는, 즉 증거가 없는 상황을 의미합니다. (예: 약을 먹은 환자의 회복률 40%, 약을 먹지 않은 환자의 회복률 40%).
  • 변수 유형: 편향을 정교하게 측정하기 위해 4가지 유형의 변수 쌍을 사용했습니다:
    1. 가상의 질병/약 이름 (Glimber 약)
    2. 불특정 변수 (질병 X)
    3. 대체의학 (침술)
    4. 과학적으로 검증된 약 (파라세타몰)
  • 실험 절차: 3개의 최신 LLM(GPT-4o-Mini, Claude-3.5-Sonnet, Gemini-1.5-Pro)을 대상으로 실험을 진행했습니다. LLM에게 의사 또는 의학 연구자 역할을 부여하는 프롬프트를 제공하고, 각 시나리오(20~100개의 환자 사례 리스트)를 제시했습니다.
  • 측정: LLM에게 제시된 데이터만을 바탕으로 해당 약물(원인)이 얼마나 효과적인지 0(전혀 효과 없음)에서 100(완전히 효과적) 사이의 점수로 평가하도록 요청했습니다. 이 과제에서 정답은 0이며, 0점보다 높은 점수를 부여할 경우 인과성의 환상 편향을 보인 것으로 간주합니다.


📊 3. 주요 발견

실험 결과, 테스트된 모든 LLM이 인과성의 환상에 강력하게 취약하다는 것이 밝혀졌습니다.

  • (1) 모든 모델의 체계적 오류: 세 가지 모델 모두 인과 관계가 전혀 없는(null-contingency) 시나리오에서 체계적으로 부당한 인과 관계를 추론했습니다. 모든 모델의 평균 점수는 정답인 0보다 통계적으로 유의미하게 높았습니다.
  • (2) 모델별 편향 정도
    • GPT-4o-Mini가 평균 75.74점으로 가장 강력한 인과성 환상을 보였습니다.
    • Claude-3.5-Sonnet은 평균 40.53점을 기록했습니다.
    • Gemini-1.5-Pro는 평균 33.07점으로 편향이 가장 낮았으나, 여전히 정답(0)과는 거리가 멀었습니다.
  • 일관성 없는 추론: 모델들은 서로 다른 기준으로 편향된 판단을 내렸습니다. 즉, 잘못된 답을 도출하는 내부 기준이 모델마다 전부 달랐습니다.
  • 맥락 무관 편향: LLM은 약이나 질병의 이름이 완전히 가짜이거나(Glimber 약) 불명확할 때(질병 X) 조차도 편향된 인과 관계를 추론했으며, 오히려 이런 경우에 더 높은 점수를 할당하는 경향을 보이기도 했습니다.


💡 4. 결론 및 시사점

연구진은 LLM이 이 간단한 데이터 처리 과제(단순히 목록을 보고 확률이 같은지 계산하는 것)를 완벽하게 수행할 것이라 예상했지만, 결과는 정반대였습니다.

이러한 실패는 LLM이 인과 관계를 진정으로 이해하는 것이 아니라, 단순히 인과 관계를 암시하는 언어를 흉내 내고 있을 뿐이라는 가설을 강력하게 뒷받침합니다. 즉, LLM은 데이터에 기반한 규범적 원칙(normative principle)을 내재화하지 못했습니다.

이는 의료, 과학, 법률, 교육 등 정확한 인과 추론이 필수적인 전문 분야에서 LLM을 사용하는 것에 대해 심각한 우려를 제기합니다. 자동화된 대규모 텍스트 생성이 의도치 않게 인간의 인지 편향을 강화하고 잘못된 인과 관계(미신, 편견 등)를 사회적으로 더욱 악화시킬 수 있습니다.


✨ 5. 리뷰어의 ADD(+) One: 생각 더하기

(1) 이 연구의 탁월한 점 (강점)

  • AI의 환각(Hallucination)보다 더 교활하고 근본적인 문제인 추론의 오류(Reasoning Error)를 정조준합니다. LLM은 제시된 데이터가 완벽하게 주어져도 그 데이터로부터 잘못된 결론을 도출할 수 있음을 보여줍니다.
  • 단순히 AI에게 미신에 대해 묻는 것이 아니라, 고전적인 인지 과학 실험 패러다임을 적용하여 AI를 피험자로 삼았습니다. 특히 가상의 변수와 실제 변수를 모두 사용한 설계는, AI가 가진 사전 지식(parametric knowledge)의 영향과 프롬프트의 데이터(in-context learning) 해석 능력을 분리해 볼 수 있게 한 탁월한 접근입니다.
  • 이 연구가 다루는 인과성의 환상은 교육 현장에서 다루는 비판적 사고, 미디어 리터러시, 과학적 방법론의 핵심 주제(고정관념, 가짜뉴스, 유사과학)와 정확히 일치합니다.

(2) 교육 현장을 위한 추가 제언

  • AI 리터러시 교육이 “AI가 거짓말을 할 수 있다(환각)”를 넘어 “AI가 주어진 사실(데이터)을 가지고도 바보 같은 결론(인지 편향)을 내릴 수 있다”로 심화되어야 함을 보여줍니다. 교사는 이 논문의 실험 방식을 학생들에게 간단히 제시하고, “AI에게 이 약이 효과 있는지 물어보자”라고 유도한 뒤, AI의 편향된 답변(예: 50점)을 학생들과 함께 비판하고 정답(0점)을 찾아내는 수업을 설계할 수 있습니다.
  • AI를 답변자가 아닌 인지 편향 시뮬레이터로 활용: 학생들에게 AI를 정답을 찾는 도구가 아니라, 인간의 인지 편향을 재현하는 시뮬레이터로 소개해야 합니다. AI가 왜 이런 편향(예: 우연의 일치를 인과 관계로 오해함)을 보이는지 토론하게 함으로써, 학생들은 AI의 한계와 인간 인지의 약점을 동시에 배울 수 있습니다.
  • 권위자 페르소나 벗기기: 본 연구는 LLM에게 의사나 연구자의 페르소나를 부여했습니다. 교육 현장에서는 AI가 설득력 있는 권위자의 목소리로 말할 때 그 내용에 대한 신뢰가 급증하는 경향이 있습니다. 학생들에게 AI가 어떤 페르소나를 쓰든, 그 답변은 데이터의 통계적 패턴일 뿐이며, 인간 고유의 인지 편향에 매우 취약하다는 점을 명확히 주지시켜야 합니다.


❓ 6. 추가 탐구 질문

  • 연구진은 한계점으로 CoT 프롬프트를 제안했습니다. 만약 “1단계: 약을 먹고 회복한 사람 수 계산. 2단계: 약을 안 먹고 회복한 사람 수 계산. 3단계: 두 비율 비교…“와 같은 CoT 프롬프트를 제공한다면, LLM이 이 규범적 추론을 따라 인과성 환상을 극복할 수 있을까요? 아니면 여전히 언어적 편향이 계산적 추론을 압도할까요?
  • 인간은 초반에 제시된 정보에 강한 영향을 받습니다(초두 효과). 만약 LLM에게 제시된 환자 목록 초반에 약 복용 후 회복 사례를 집중적으로 배치한다면, LLM의 인과성 환상 점수가 더 높아질까요? 이는 LLM이 데이터를 순차적으로 처리하며 편향을 쌓아가는지, 아니면 전체를 한 번에 보고 편향을 보이는지(batch-processing)를 밝힐 수 있을 것입니다.
  • 파라세타몰과 열처럼 LLM이 이미 강한 인과 관계(효과 있음)를 사전 학습한 시나리오에서, 정반대되는 영 상관 데이터를 프롬프트로 제시했을 때 LLM은 어떤 반응을 보일까요? 사전 지식과 제시된 데이터가 충돌할 때, LLM은 무엇을 우선시할까요?

_출처: Carro, M. V., Mester, D. A., Selasco, F. G., Marraffini, G. F. G., Leiva, M. A., Simari, G. I., & Martinez, M. V. (2025). Do large language models show biases in causal learning? Insights from contingency judgment. arXiv. https://arxiv.org/abs/2510.13985v1