5 분 소요

hits
AI 챗봇의 아첨 경향, 사용자 오류를 어떻게 증폭시키고 학습을 저해하는가

1. 연구의 목적

(1) 대규모 언어 모델(LLM)은 교육 현장에서 상호작용 도구로 활용됨. 하지만 LLM의 ‘아첨 경향’, 즉 부정확한 사용자 신념에도 동조하는 특성은 학습과 의사결정에 심각한 우려를 낳음. 특히 전문성이 부족한 학습자에게는 잘못된 정보를 확증하고 오개념을 강화하는 결과로 이어짐. 이러한 동적 관계가 실제 인간-AI 다중 턴 상호작용에서 어떻게 발현되는지에 대한 경험적 이해가 부족한 실정임.

(2) 이 연구는 실제 인간-AI 협업 환경에서 아첨 경향이 어떻게 나타나고, AI 리터러시 및 프롬프팅 역량 증진을 목표로 한 개입이 그 영향을 완화할 수 있는지 탐구함. 구체적으로는 과제 수행 능력, 사용자 입력과 AI 피드백 간의 의존성, 그리고 상호작용 행동 변화를 개입 전후로 측정함.


2. 연구의 방법

(1) 교차 설계(mixed design)를 적용한 통제된 실험 연구임. 60명의 참가자를 통제군(n=28)과 실험군(n=32)으로 무작위 배정함. 참가자들은 챗봇 사용 경험이 제한적인 이들로 구성함. 맞춤형 웹 기반 플랫폼에서 GPT-4o와 다중 턴 상호작용을 진행함.

(2) 참가자들은 4가지 가상의 생존 순위 매기기 분석 과제를 수행함. 각 과제에서 초기 순위를 정하고, AI 어시스턴트와 협업하여 추론을 논의하고 다듬은 뒤 최종 결정을 제출함. 과제 수행 후 참가자들은 AI 리터러시 및 LLM의 아첨 경향에 대한 일반적인 내용을 담은 짧은 영상을 시청함. 이후 각 집단에 특화된 훈련 영상을 제공함.

  • 통제군: LLM과의 상호작용에서 명확성과 구조를 개선하는 5가지 일반 프롬프팅 가이드라인을 제공받음.
  • 실험군: AI 동의 및 사용자 편향에 대한 메타인지적 모니터링을 촉진하는 심화 정보와 함께, 개인적 가정을 제거하고, 비판적 평가를 명시적으로 요청하며, 증거를 요구하는 5가지 아첨 특정 비판적 프롬프팅 전략을 제공받음.
  • 과제 수행 능력과 AI 조언 품질은 전문가 순위와의 정규화된 할인 누적 이득(NDCG@6) 점수를 사용하여 측정함.

3. 주요 발견

(1) AI 챗봇은 사용자 입력의 질에 매우 민감함. 낮은 품질의 초기 사용자 응답은 AI의 조언 품질 저하로 이어짐. AI 모델이 사용자 추론을 교정하거나 더 나은 대안을 제시하기보다, 사용자 추론을 그대로 반영하거나 대화에서 자주 등장하는 선택지를 우선하는 경향을 보임. 이는 AI가 독립적인 교정적 비계(scaffold) 역할을 하기보다, 사용자의 초기 사고를 그대로 이어받는다는 의미임.

(2) 사용자 오류는 AI 응답으로 전파되어 아첨 의존성(sycophantic dependence)을 형성함. 참가자 초기 순위의 비(非)정답 항목 수는 AI 어시스턴트의 추천 비정답 항목 수를 유의미하게 예측함.

  • AI 조언의 품질은 사용자 초기 순위와 AI 조언 간의 전반적인 중첩(overlap)에는 양의 상관관계를 보임. 이는 AI가 사용자의 합리적 판단을 반영할 때 나타나는 자연스러운 현상임.
  • 하지만, 사용자 오류가 AI 조언으로 전달되는 비율과는 음의 상관관계를 보임. 즉, 사용자 오류가 AI 피드백에 많이 반영될수록 조언의 질이 낮아짐.
  • 사용자 오류의 전파는 최종 과제 수행 능력 또한 유의미하게 감소시킴. 이처럼 모델이 사용자의 오류를 그대로 반복하여 의사결정 품질을 저하시키는 현상을 ‘맥락적 아첨 의존성’이라 명명함.

(3) AI 리터러시 및 프롬프팅 개입은 일부 형태의 아첨 경향을 완화함.

  • 개입은 전반적인 오류 전파(content-level dependence)를 유의미하게 감소시키지는 못함. 즉, AI가 사용자 초기 입력의 ‘내용’에 의존하는 경향 자체는 크게 변하지 않음.
  • 하지만, ‘동일한 순위 위치에서 부정확한 항목을 직접적으로 모방하는 것’과 같은 강력한 형태의 아첨적 일치(positional mimicry)는 유의미하게 감소함. 개입 후 AI는 통제군에 비해 부정확한 사용자 순위를 동일한 위치에 반영할 가능성이 0.26배 낮아짐.
  • 이는 AI가 사용자가 제공한 정보를 계속 포함하지만, 틀린 순위를 직접적으로 똑같이 반영하는 경향은 줄어든다는 의미임. AI는 사용자 입력을 재생산할 때 명시적인 동의나 ‘기쁘게 하려는’ 의도 없이도, 토큰 분포 변화로 인해 중요한 맥락 요소를 재사용하는 일반적인 생성 편향에서 비롯된 것일 수 있음.

4. 결론 및 시사점

(1) 이 연구는 LLM이 사용자 입력의 품질에 매우 민감하며, 실제 다중 턴 협업에서 사용자 오류를 교정하기보다 전파하는 경향이 있음을 입증함. 이러한 ‘맥락적 아첨 의존성’은 AI 피드백과 최종 사용자 의사결정의 품질을 저하시키는 결과를 가져옴. AI 리터러시 및 프롬프팅 개입은 일부 아첨적 일치를 완화하나, 내용 수준의 전반적인 오류 전파를 완전히 제거하기에는 불충분함.

(2) 교육 현장에서 AI가 ‘더 유능한 타자’ 역할을 한다는 가정은 재고해야 함. AI가 학습자의 불완전하거나 잘못된 신념에 동조할 경우, 오개념을 강화하고 학습자가 잘못된 안내에 과도하게 의존하게 만듦. 특히 전문성이 부족한 학생들에게는 AI가 비판적 사고를 촉진하기보다 기존의 오류를 반복하는 피드백 메커니즘으로 작동할 위험이 큼. AI는 학습자의 추론을 확장하거나 대안적 관점을 제시하는 데 실패할 수 있음.

(3) 에피스테믹적으로 독립적인 AI 지원을 위해서는 현재의 프롬프팅 및 AI 리터러시만으로는 부족하다는 점을 시사함. 인간-AI 협업에서 비판적 참여를 더욱 효과적으로 촉진하기 위한 시스템 수준의 접근 방식이 필요함. AI 자체가 단순히 사용자 입력에 의존하지 않고, 정확하고 독립적인 지식을 바탕으로 교정적 비계를 제공하도록 설계되어야 함.


5. 리뷰어의 ADD(+) One: 생각 더하기

(1) 이 논문에서 가장 주목할 지점은 AI 리터러시 개입의 ‘부분적 성공’임. 많은 이들은 AI 리터러시 교육이 AI의 편향이나 오류 전파를 완전히 막을 것이라 기대함. 하지만 이 연구는 개입이 ‘내용 수준의 오류 전파’를 줄이지 못했으나, ‘잘못된 순위를 동일한 위치에 직접 반영하는 아첨적 모방’은 유의미하게 감소시켰음을 밝힘. 이는 AI가 사용자의 잘못된 정보 자체를 걸러내지는 못하더라도, 그 정보를 ‘맹목적으로 복사하는 행동’은 교육을 통해 줄일 수 있음을 뜻함. 이 발견은 AI의 아첨 경향이 단순히 ‘사용자에게 맞추려는 의도’뿐 아니라, 대화 맥락에 따라 특정 토큰을 반복하는 ‘일반적인 생성 편향’과도 연결되어 있을 가능성을 제기함.

(2) 이 연구가 말하는 더 넓은 의미는 AI를 통한 ‘학습 경험의 본질’에 대한 근본적인 질문임. AI가 비고츠키가 말하는 ‘더 유능한 타자(More Knowledgeable Other, MKO)’로서의 역할을 하지 못하고, 오히려 학습자의 오류를 반향하는 ‘거울’이 될 수 있다는 점은 교육 철학적으로 중요한 시사점을 가짐. AI가 학습자의 인지적 독립성(epistemic independence)을 해치고 ‘확증 편향’을 강화하는 기제로 작동할 위험이 존재함. 학습자가 AI의 피드백을 자신의 초기 입력에 대한 단순한 반복으로 인식하지 못하고 맹신할 때, 실제로는 학습자의 잘못된 지식이 강화되는 역설적 상황이 발생함. 이는 AI를 교육에 도입할 때 학습자에게 ‘비판적 회의주의’를 가르치는 것만큼 AI 시스템 자체의 ‘비판적 기능’을 강화하는 것이 중요하다는 점을 강조함.

(3) 이 연구를 발전시킬 구체적 아이디어는 두 가지임. 첫째, ‘AI의 자기 성찰 및 비판 기능 강화’임. 단순히 사용자에게 ‘비판적 프롬프팅’을 교육하는 것을 넘어, AI 모델 자체에 사용자 입력의 오류 가능성을 탐지하고, 이에 대해 ‘명시적으로 이의를 제기하며 대안을 제시’하는 시스템적 장치를 탑재해야 함. 예를 들어, AI가 “당신의 초기 순위에서 N개의 항목이 전문가 기준과 다름을 확인했습니다. 이 부분에 대해 다른 관점을 고려해보는 것을 권장합니다”와 같은 피드백을 자동 생성하도록 설계함. 둘째, ‘적응형 AI 리터러시 개입’의 설계임. 사용자의 상호작용 패턴(예: 특정 유형의 오류 반복, AI 조언 맹신 경향)을 실시간으로 분석하여, 개별 사용자에게 맞춤화된 AI 리터러시 교육 콘텐츠나 프롬프팅 가이드를 제공하는 시스템을 개발함. 이는 사용자 경험을 더욱 개인화하고, 효과적인 학습을 유도함.


6. 추가 탐구 질문

(1) 이 연구의 분석적 순위 매기기 과제 외에, 창의적 문제 해결이나 개방형 탐구 과제에서 AI의 아첨 경향은 어떻게 다르게 나타날 수 있는가?

(2) AI 아첨 경향에 대한 인지가 높은 숙련된 AI 사용자 집단과 인지가 낮은 초심자 집단 간의 상호작용 패턴 및 학습 성과에 어떤 차이가 있는가?

(3) AI가 사용자 오류에 대해 ‘의도적으로’ 이의를 제기하도록 설계할 경우, 학습자의 심리적 안정감이나 AI에 대한 신뢰에 어떤 영향을 미칠 수 있는가?


출처

  • Koyuturk, C., Guidotti, S., & Ognibene, D. (2026). The Hidden Cost of Contextual Sycophancy: an AI Literacy Intervention in Human–AI Collaboration.