LLM은 학생들의 오개념 추론을 모방할 수 있을까? 오답 지문 생성 사례 연구

4 분 소요

1. 연구의 목적

(1) AI 교육 분야에서 학생 모델링은 중요한 문제임. 학생 모델링은 시험 설계, 오개념 진단, 교사 훈련, 맞춤형 교육 intervention 개발 등 다양한 응용 분야의 기반이 됨. 특히 학생이 무엇을 아는지 뿐만 아니라 체계적인 오류와 오개념을 나타내는 능력은 중요하지만, LLM이 이러한 학생들의 부정확한 추론을 어떻게 모델링하는지에 대한 이해는 아직 부족함.

(2) 이 연구의 핵심 목표는 LLM이 다지선다형 문제의 오답 지문(distractor)을 생성하는 과정에서 학생들의 오개념을 어떻게 추론하는지 분석하고, LLM의 추론 과정과 학습 과학 분야의 모범 사례 간의 연관성을 밝히는 것임.

2. 연구의 방법

(1) 연구 설계 개요는 다음과 같음:

단계 1: 학습 과학 이론과 LLM 추론 과정 분석을 결합하여 오답 지문 생성을 위한 전략 분류 체계를 개발함.
단계 2: DeepSeek-V3.2 및 GLM-4.7 모델을 사용하여 전문가가 작성한 다지선다형 문제에 대한 오답 지문 생성 과정을 추적함. Chain-of-Thought (CoT) 프롬프팅과 reasoning 프롬프팅의 두 가지 방식을 사용함.
단계 3: 개발된 분류 체계를 사용하여 LLM의 추론 과정을 분석하고, 각 전략의 빈도, 시간적 변화, 순차적 구성을 파악함.
단계 4: LLM의 오답 지문 생성 전략과 학습 과학 분야의 모범 사례를 비교하고, 실패 사례를 진단함.

(2) 평가 방법은 다음과 같음:

LLM이 생성한 오답 지문과 실제 정답 및 오답 간의 일치율을 측정함.
LLM의 추론 과정을 수동으로 분석하고, 분류 체계에 따라 각 단계에 해당하는 전략을 태깅함.
LLM이 생성한 오답 지문의 품질을 전문가가 평가함.

(3) 분석 관점은 다음과 같음:

LLM이 사용하는 전략의 빈도, 시간적 변화, 순차적 구성을 분석함.
LLM의 오답 지문 생성 과정에서 발생하는 오류의 유형과 원인을 분석함.
LLM의 추론 과정과 학습 과학 분야의 모범 사례 간의 연관성을 분석함.

3. 주요 발견

(1) LLM은 문제 해결 후 오개념 주입 전략을 주로 사용함. 즉, 먼저 문제를 올바르게 해결한 다음 잠재적인 오개념을 식별하고, 그 결과로 발생하는 오류를 시뮬레이션하여 해당 오답 지문을 생성함. LLM은 표면적인 유사성 휴리스틱보다는 오개념 기반 파이프라인을 사용하여 오답 지문을 생성함. 올바른 해결책을 먼저 찾는 것은 교육 문헌의 오개념 기반 방법과 일치함. 프롬프트에 올바른 답을 제시하면 사람이지은 오답과 일치도가 8% 향상됨.

(2) 오류 시뮬레이션 및 다단계 추론의 암묵적 구성과 같은 부분은 일반적으로 강력함. 그러나 오류는 주로 올바른 해결책을 복구하지 못하고 응답 후보를 선택하지 못하는 데서 발생함. DeepSeek-V3.2의 경우 92.5%, GLM-4.7의 경우 97.8%에서 모델이 오답 지문을 제안하기 전에 완전한 단계별 솔루션을 구성함. 이러한 사례 중 71.2%(DeepSeek-V3.2)와 76.3%(GLM-4.7)에서 모델은 특정 단계에서 오류를 주입하기 위해 벗어나 오개념 기반 설계를 밀접하게 반영함.

(3) 모델이 명시적으로 요청된 세 개 이상의 오답 외에 오류 가설을 탐색함. 무작위로 선택된 15개 문제에 대한 수동 검사 결과, reasoning 모드의 DeepSeek-V3.2는 CoT에서 5.9개에 비해 평균 12.6개의 가상 학생 솔루션 경로를 고려함. 이 패턴은 오답 구성이 단발성이 아니라 최종 선택 전에 후보 오개념에 대한 탐색적 최적-N 검색과 유사하다는 것을 시사함.

4. 결론 및 시사점

(1) LLM은 수학 오답 지문을 생성할 때 오개념 기반 설계를 체계적으로 모델링할 수 있음. LLM은 올바른 해답을 기준으로 삼아 학생들의 오개념을 시뮬레이션하고, 그에 따른 오답을 생성함. 이 과정은 학습 과학 원리와 잘 부합하며, 자동화된 평가, 지능형 튜터링 시스템, 고품질 교육 콘텐츠의 확장 가능한 생성에 적용될 수 있음.

(2) LLM의 추론 과정에서 발생하는 오류의 원인을 분석함으로써, 정답 복구, 개연성 평가, 오답 선택 등의 측면에서 개선의 여지가 있음을 확인했음. 이러한 개선은 자동 평가, 지능형 튜터링 시스템 및 확장 가능한 고품질 교육 콘텐츠 생성에 기여할 수 있음.

5. 리뷰어의 ADD(+) One: 생각 더하기

(1) 이 연구에서 가장 주목할 점은 LLM이 단순히 정답을 생성하는 것을 넘어, 학생들의 오개념을 기반으로 한 추론 과정을 모방하고, 이를 통해 교육적으로 의미 있는 오답 지문을 생성할 수 있다는 것을 실증적으로 보여주었다는 점임. 이는 LLM이 교육 분야에서 학생 모델링 및 맞춤형 학습 콘텐츠 제공에 효과적으로 활용될 수 있음을 시사함.

(2) 이 연구는 LLM이 학습 과학 분야의 모범 사례와 유사한 추론 과정을 거친다는 것을 밝혀냈음. 이는 LLM이 인간의 인지 과정을 어느 정도 반영하고 있으며, 교육적 맥락에서 LLM의 활용 가능성이 높다는 것을 의미함. LLM은 문제 해결 과정에서 발생하는 다양한 오류를 분석하고, 이를 바탕으로 학생들에게 맞춤형 피드백을 제공하는 데 활용될 수 있음.

(3) 이 연구 결과는 수학 교과에 한정되어 있으며, 초등학생 수준의 문제에 초점을 맞추고 있음. 다른 교과나 학교급, 또는 더 복잡한 문제에 적용했을 때 결과가 달라질 수 있음. 예를 들어, 과학 교과의 경우 실험 설계나 데이터 분석 과정에서의 오개념을 모델링하는 것이 중요할 수 있으며, 고등학생 수준의 문제는 더 추상적이고 복잡한 오개념을 포함할 수 있음.

(4) LLM이 생성한 오답 지문의 품질을 개선하기 위해, 학생들의 실제 오답 데이터를 활용하여 LLM을 fine-tuning하는 방법을 고려해 볼 수 있음. 또한, LLM이 생성한 오답 지문에 대한 학생들의 반응을 분석하여 LLM의 추론 과정을 개선하는 강화 학습 방법을 적용할 수도 있음. 만약 LLM이 학생들의 실제 오답 패턴을 학습하고, 이를 바탕으로 오답 지문을 생성한다면, 더욱 효과적인 맞춤형 학습 콘텐츠를 제공할 수 있을 것임.

6. 추가 탐구 질문

(1) LLM이 오개념을 식별하고 시뮬레이션하는 내부 메커니즘은 무엇이며, 어떤 요인이 LLM의 오개념 추론 능력에 영향을 미치는가?

(2) 이 연구 결과를 다른 교과(예: 과학, 역사) 또는 다른 학교급(예: 중학교, 고등학교)에 적용했을 때, 어떤 점이 달라질 수 있으며, 어떤 추가적인 고려 사항이 필요한가?

(3) LLM을 활용한 오답 지문 생성 과정에서 발생할 수 있는 기술적(예: 데이터 부족), 비용적(예: 모델 학습 비용), 윤리적(예: 학생 데이터 활용) 측면의 문제는 무엇이며, 어떻게 해결할 수 있는가?

<출처> - Zengaffinen, Y., Opedal, A., Rooein, D., Srivatsa, K. A., Sonkar, S., & Sachan, M. (2025). Can LLMs Model Incorrect Student Reasoning? A Case Study on Distractor Generation. *arXiv preprint* arXiv:2602.06202v1. [https://doi.org/10.48550/arXiv.2602.06202](https://doi.org/10.48550/arXiv.2602.06202)

X Facebook LinkedIn Bluesky

김진관(닷커넥터)

Categories

Tag Cloud

LLM은 학생들의 오개념 추론을 모방할 수 있을까? 오답 지문 생성 사례 연구

1. 연구의 목적

2. 연구의 방법

3. 주요 발견

4. 결론 및 시사점

5. 리뷰어의 ADD(+) One: 생각 더하기

6. 추가 탐구 질문

공유하기

참고

AI 에이전트 간의 상호 학습은 교육적 인간-AI 파트너십에 어떤 시사점을 주는가?

AI 시스템 개발에서 팀 다양성은 공정성 확보에 어떤 역할을 하는가?

AI는 피드백을 어떻게 더 효과적이고 확장 가능하게 만들 수 있을까?

교육용 AI 에이전트의 능력은 모델 크기가 아닌 프로필 구조에 따라 확장되는가?