AI는 서·논술형 평가를 어떻게 자동 채점하는가?

7 분 소요

1. 연구의 목적

(1) 미래 사회가 요구하는 실력을 키우기 위해 학교에서 서술형 및 논술형 평가(주관식 평가)를 늘리고 있음. 하지만 주관식 평가는 평가 기준을 만들고, 학생들의 다양한 답안을 하나하나 채점하고, 피드백하는 과정이 복잡하여 선생님들의 업무 부담이 매우 큼. 기존 AI 자동채점 연구들은 단문 위주이거나 특정 교과에 한정되어 있어, 다양한 유형의 서술형 평가를 채점하는 데 한계가 있음. 특히, AI가 왜 그렇게 점수를 매겼는지 사람이 이해하기 어려운 문제도 있었음.

(2) 이 연구는 주관식 평가의 자동채점 AI 모델을 개발하고 학교 현장에 잘 적용하기 위한 방법을 찾는 것을 목표로 함. 이를 위해 국어, 사회, 수학, 과학, 기술 과목의 주관식 평가 문제와 학생 답안을 모아 AI 학습 자료를 만들었음. 또한, AI 모델의 성능을 높이고 AI가 채점하는 방식을 사람이 이해할 수 있도록 ‘설명 가능한 AI(XAI)’ 기술을 적용하여 모델을 개선하고자 하였음.

2. 연구의 방법

(1) 이 연구는 다양한 방법론을 사용하여 진행됨. 먼저, 자동채점 관련 최신 연구와 상업화된 AI 모델들을 깊이 있게 분석하는 문헌 연구를 수행함. 다음으로, 각 교과 전문가, 교육 평가 전문가, AI 개발 전문가들이 모인 워킹그룹을 운영하여 주관식 평가 문제를 개발하고 학생 답안을 수집함. 이 답안에 점수를 매기는 ‘채점 라벨링’과 점수 기준이 되는 답안 특징을 찾아내는 ‘채점자질’을 논의하고 발전시켰음. 또한, 전문가 협의회를 통해 AI 모델 개발 과정과 결과를 검토하고, AI 모델 개발을 돕는 소프트웨어 개발 및 고도화 작업을 진행함. 마지막으로, 세미나를 개최하여 연구 결과를 공유하고 교육 현장에서 AI 도입 시 예상되는 문제점과 발전 방향을 논의함.

(2) 연구의 주요 분석 대상은 국어, 사회, 수학, 과학, 기술 등 5개 교과목의 서술형 및 논술형 평가 답안이었음. 1차 년도에 구축한 데이터를 바탕으로 2차 년도에는 새로운 평가 문제를 개발하고 학생 답안을 추가로 모아 AI 학습 자료를 확장함. 이 학습 자료를 가지고 다양한 AI 학습 방식(기계학습 알고리듬)을 적용하여 모델의 성능을 비교 분석하고, AI가 채점하는 방식을 설명하는 XAI 기술을 적용하여 모델을 고도화함.

3. 주요 발견

이 연구는 주관식 평가 자동채점 AI 모델을 개발하고 고도화하는 과정을 체계적으로 보여줌. AI 모델의 성능을 높이려면 양질의 AI 학습 자료(데이터)를 구축하고, 그 데이터의 특징에 맞는 AI 학습 방식을 선택하며, AI가 채점 결과를 내는 과정을 사람이 이해할 수 있어야 한다는 점을 강조함.

(1) AI 학습용 데이터 구축의 중요성 및 질 높이는 방안

AI가 정확하게 채점하려면 좋은 품질의 AI 학습 자료가 필수적임. 이 연구에서는 학습 자료의 질을 높이기 위한 다음과 같은 방안을 제시함.

채점 신뢰도 확보: 여러 선생님이 채점한 점수의 차이를 줄이기 위해 사전 채점을 두 번 실시하고, 채점 기준을 놓고 심도 있는 논의를 진행하여 채점자 간의 일관성을 확보함.
교과 특성 반영한 답안 수집: 교과목별로 답안의 내용과 표현 방식이 다르므로, 손글씨나 수식 같은 다양한 형태의 답안을 쉽게 디지털화할 수 있는 방법을 마련하고, 학생들이 자유롭게 사고를 펼칠 수 있는 개방형 문항을 개발함.
무의미한 답안 처리: 단순히 0점으로 채점된 답안이라도, 문항을 이해하고 노력했지만 부족해서 0점인 경우와 아예 답을 쓰지 않거나 의미 없는 글을 쓴 경우를 구분하여 AI가 더 정교하게 학습하도록 함.
등급별 답안 분포 균형: 특정 점수대에만 답안이 몰리지 않도록, 답안 수집 시 추가 정보를 제시하거나 다양한 학교급의 학생들을 대상으로 데이터를 모아 균형 잡힌 학습 자료를 만듦.

학습용 데이터 구축 과정 그림 1. 인공지능 모델 개발 과정 중 채점자질이 모델 성능에 미치는 영향을 보여주는 SHAP 플롯 예시. 다양한 채점자질이 모델의 예측에 어떻게 기여하는지 시각화함.

(2) 교과별 AI 학습용 데이터 구축 현황

이 연구는 1차 년도에 이어 국어, 사회, 수학, 과학 교과에서 총 3,483건의 학습용 데이터를 구축하였고, 2차 년도에 기술 교과를 추가하여 총 11,370건의 학습용 데이터를 구축함. 이는 AI 모델이 다양한 교과와 평가 유형에 걸쳐 학습할 수 있는 방대한 기반을 제공함. 특히 국어과의 경우, ‘촉법소년 연령 하향’과 ‘노키즈존 도입’이라는 주제의 논술형 문항을 개발하고, 총 914건의 학생 답안을 전문가 채점자 집단이 분석적·총체적으로 채점하여 학습 자료로 활용함. 채점자 간 일치도가 0.883~0.917로 매우 높게 나와 채점 결과의 신뢰성을 확보함.

(3) AI 모델 고도화 과정 및 새로운 학습 방식 적용

기존 연구에서 사용했던 랜덤 포레스트, SVM, XGBoost, CatBoost 외에, 새로운 AI 학습 방식인 k-NN과 Naive Bayes를 추가로 검토하고 적용함.

k-NN: 이 방식은 주변의 가장 비슷한 답안들을 보고 점수를 매기는 직관적인 방법임. 별도의 학습 과정 없이 유사한 답안을 찾아내 점수를 부여하며, 복잡한 채점 기준에도 적용될 수 있는 장점이 있음.
Naive Bayes: 통계적 확률에 기반하여 빠르고 효율적인 채점이 가능함. 적은 데이터로도 좋은 성능을 보이며, 각 채점 기준이 점수에 미치는 영향을 명확하게 수치화할 수 있음. 하지만 채점 기준 요소들이 서로 독립적이라는 가정을 하기 때문에, 복잡하게 얽힌 답안에는 정확도가 떨어질 수 있음.

(4) 설명 가능한 AI(XAI)의 적용

AI가 채점하는 결과를 사람이 이해할 수 있도록 LIME, SHAP와 함께 DiCE(Diverse Counterfactual Explanations) 기법을 적용함.

DiCE: 이 기술은 AI가 왜 특정 점수를 부여했는지뿐만 아니라, 답안을 어떻게 수정하면 더 높은 점수를 받을 수 있는지 구체적인 예시를 제시할 수 있음. 예를 들어 “핵심 개념 B를 넣고, 문장 길이를 20단어에서 28단어로 늘리면 한 단계 높은 점수를 받을 것”과 같은 유용한 피드백을 생성할 수 있음. 이를 통해 AI 채점의 신뢰성을 높이고, 학생과 선생님에게 의미 있는 교육적 피드백을 제공할 수 있음.

국어과 논술형 문항 채점점수별 답안유사도(표준화) 분포 답안유사도 영향력 분석: SHAP Beeswarm Plot 분석 결과(국어과) 그림 2. 국어과 학생 답안의 채점 점수별 유사도 분포와 답안 유사도가 AI 채점 결과에 미치는 영향을 시각적으로 분석한 결과. 유사도가 높은 답안들이 특정 점수대에 집중되는 경향을 보여줌.

(5) 거대언어모델(LLM) 기반 기술 활용 방안 탐색

ChatGPT와 같은 초거대 AI는 학생 답안의 복잡한 의미를 이해하고 채점에 반영할 잠재력이 큼. 이 연구는 LLM 기반 기술을 자동채점에 활용하기 위한 다음 방법들을 탐색함.

임베딩(Embedding): 학생 답안을 AI가 이해할 수 있는 숫자 형태로 바꾸어, 답안 간의 의미적 유사도를 측정하고 이를 채점 기준으로 활용하는 방안을 제시함.
파인 튜닝(Fine-tuning): 미리 학습된 LLM을 특정 채점 과제에 맞춰 추가로 훈련시켜 모델 성능을 높이는 방안을 모색함. 단, 이를 위해서는 수천 개 이상의 대규모 학습 자료가 필요함.
프롬프트 엔지니어링(Prompt Engineering): LLM에게 질문이나 지시(프롬프트)를 어떻게 효과적으로 주느냐에 따라 AI의 채점 결과가 달라짐. 이 기술을 통해 AI에게 채점 기준, 예시 답안, 역할 등을 구체적으로 제시하여 채점 정확도를 높일 수 있음을 확인했음.

(6) 자동채점 시스템 개발 동향 및 시사점

국내 교육부 및 시·도 교육청은 AI 교수학습 플랫폼을 통해 자동채점 서비스를 도입하고 있음. AI 단추 플러스(교육부, EBSi)는 주로 선다형, 단답형 채점을 지원하며, 하이러닝(경기도교육청)은 서·논술형 자동채점 기능을 시범 운영 중임. 민간 기업의 클리포(CLIPO)는 서·논술형 평가 설계부터 자동채점, 피드백까지 지원하며 교사 업무 부담을 줄여주는 역할을 함. 그러나 이들 시스템은 아직 초기 단계이며, 서·논술형 채점의 신뢰성 확보와 교육적 관점 반영이라는 과제를 안고 있음.

4. 결론 및 시사점

(1) 이 연구는 주관식 평가 자동채점 AI 모델이 학교 현장에 효과적으로 도입될 수 있음을 입증함. 특히, 양질의 AI 학습 자료 구축, 다양한 AI 학습 방식의 적용, 그리고 AI가 왜 그렇게 판단했는지 사람이 이해할 수 있도록 돕는 ‘설명 가능한 AI(XAI)’ 기술의 활용이 AI 모델의 성능과 신뢰성을 높이는 핵심임을 보여줌. 초거대 AI(LLM) 기반 기술인 임베딩, 파인 튜닝, 프롬프트 엔지니어링을 활용하면 주관식 평가 자동채점의 한계를 극복하고 더 발전된 서비스를 제공할 수 있다는 잠재력을 확인했음.

(2) 교육 현장과 AI 시스템 설계에 주는 시사점은 다음과 같음.

생성형 AI의 활용과 신중한 접근: 초거대 AI가 학생 답안의 의미를 분석하고 피드백까지 생성할 수 있지만, AI가 내놓는 판단의 이유를 사람이 이해하기 어렵거나, AI가 그럴듯하지만 사실이 아닌 정보를 만들어내는 문제(할루시네이션)가 발생할 수 있음. 따라서 이러한 기술적, 윤리적 문제를 충분히 논의하고 해결 방안을 마련한 후 교육에 적용해야 함.
LLM 기반 기술과 기존 AI의 균형: AI 자동채점은 학생 답안에 점수를 매기는 ‘판별’의 성격이 강함. 초거대 AI의 강력한 언어 이해 능력을 활용하되, 점수를 정확하게 예측하고 분류하는 기존 AI 모델의 강점을 잃지 않는 균형 잡힌 접근이 필요함. AI가 피드백을 생성하는 기능은 보조적으로 활용하는 것이 바람직함.
범국가적 학습 자료 공유 체계 구축: 주관식 평가 자동채점의 품질을 높이려면 방대한 양의 양질의 AI 학습 자료가 필수적임. 교육부와 시·도 교육청, 민간 기업이 협력하여 교육과정의 특성을 반영한 학습 자료를 공동으로 구축하고 공유하는 표준화된 체계를 마련해야 함. 이는 우리나라 교육 현실을 고려할 때 평가의 공정성과 신뢰성을 확보하는 데 중요함.

5. 리뷰어의 ADD(+) One: 생각 더하기

(1) 이 논문에서 가장 주목할 지점은 민감한 영역인 학교 평가, 그중에서도 주관성이 많이 개입될 수 있는 서·논술형 평가에 AI 자동채점 모델을 실증적으로 적용하고 검증하려는 체계적인 노력임. 단순히 AI 모델의 성능 수치를 제시하는 것을 넘어, ‘설명 가능한 AI(XAI)’ 기술을 적극적으로 활용하여 AI가 왜 그렇게 점수를 매겼는지 그 과정을 분석하고 이해하려 했다는 점이 기존 논의와 차별됨. 이는 AI가 ‘블랙박스’처럼 작동한다는 비판을 교육 현장에서 받아들이기 어렵다는 점을 명확히 인식하고, AI 자동채점의 신뢰성과 투명성을 높여 교육적 설득력을 확보하려는 시도라는 점에서 매우 중요함. AI가 가져올 교육 변화에 대한 막연한 기대나 우려를 넘어, 구체적이고 현실적인 적용 가능성을 탐색한 기초 연구로서 그 가치가 높음.

(2) 이 연구가 시사하는 더 넓은 의미는 AI 시대의 ‘평가의 본질’에 대한 질문과 연결됨. AI 자동채점이 고도화될수록, 교사는 단순 채점에서 벗어나 학생의 개별적인 학습 과정과 성장을 깊이 있게 살피는 ‘평가 전문가’로서의 역할에 더 집중할 수 있게 될 것임. 이는 교사의 전문성 재정의로 이어질 수 있으며, 교육 시스템 전반의 효율성과 학생 맞춤형 교육 실현에 기여할 잠재력이 있음. 또한, 학생들은 AI로부터 즉각적이고 일관된 피드백을 받으며 자기조절학습 능력을 향상시킬 수 있게 됨. 궁극적으로는 교육 현장에서 인간과 AI가 서로 협력하여 평가의 질을 높이고 학습 경험을 풍부하게 만드는 새로운 평가 생태계 구축의 초석을 다지는 연구라고 볼 수 있음.

(3) 이 연구를 발전시킬 구체적인 아이디어는 다음과 같음. 첫째, 현재는 키워드나 문장 유사도 등 비교적 정량적인 ‘채점자질’에 초점을 맞추고 있으나, 앞으로는 추론 능력, 비판적 사고, 창의성 등 고차원적인 사고 역량을 평가할 수 있는 ‘심층 채점자질’을 개발하고 AI 모델에 반영해야 함. 이를 위해서는 인지과학이나 교육철학 분야와의 융합 연구가 필수적임. 둘째, AI가 생성하는 피드백의 ‘품질’과 ‘효과’를 높이는 연구가 필요함. 학생의 오답 유형을 분석하여 개인별로 맞춤화된 교정 피드백과 심화 학습 자료를 추천하는 기능을 강화하고, 교사가 AI 피드백을 쉽게 수정하고 보완할 수 있는 인터페이스를 개발하여 교사의 활용도를 높여야 함. 마지막으로, 다양한 교육 맥락(예: 교실 수업, 수행평가, 모의고사)에서 AI 자동채점 모델이 어떻게 다르게 적용될 수 있는지 실제 학교에 시범 적용하고 그 효과를 검증하는 연구를 추진해야 함.

6. 추가 탐구 질문

(1) AI가 학생 답안의 ‘오개념’이나 ‘논리적 비약’ 등 미묘한 질적 차이를 얼마나 정확하게 변별할 수 있으며, 이를 개선하기 위한 AI 학습 자료 구축 및 모델 고도화 방안은 무엇인가?

(2) AI 자동채점이 학교 현장에 도입될 경우, 학생들의 글쓰기 전략이나 학습 방식에 어떤 변화를 가져올 것이며, 이는 장기적으로 학생들의 사고력 및 창의성 발달에 긍정적 혹은 부정적 영향을 미칠 수 있는가?

(3) AI 자동채점 모델이 특정 지역, 학교, 혹은 사회경제적 배경을 가진 학생들의 답안에 대해 편향된 채점 결과를 보일 가능성은 없는가? 이러한 AI 윤리적 문제점을 예방하고 해결하기 위한 정책적·기술적 방안은 무엇인가?

<출처> - 송민호, 김동영, 박준홍, 신중휘, 이정훈, 정수진, 임윤진, 은주연. (2025). 교과 서･논술형 평가 자동채점을 위한 인공지능 모델 적용 방안 연구(Ⅱ). *연구보고 RRE 2025-5*. 한국교육과정평가원.

X Facebook LinkedIn Bluesky

김진관(닷커넥터)

Categories

Tag Cloud

AI는 서·논술형 평가를 어떻게 자동 채점하는가?

1. 연구의 목적

2. 연구의 방법

3. 주요 발견

4. 결론 및 시사점

5. 리뷰어의 ADD(+) One: 생각 더하기

6. 추가 탐구 질문

공유하기

참고

AI 자동채점 모델은 서·논술형 평가를 어떻게 혁신하는가?

AI 챗봇이 프로그래밍 학습자의 인지적 노력을 어떻게 재분배하는가?

EdTech 로그 데이터로 학생의 장기 학습 성과를 예측할 수 있을까?

몸 기반 인지 원리가 교실 학습에 어떻게 적용될 수 있는가?