AI 자동채점 모델은 서·논술형 평가를 어떻게 혁신하는가?

5 분 소요

1. 연구의 목적

(1) 학생 개개인에게 맞는 교육을 하려면 서·논술형 평가를 잘 활용해야 하지만, 지금 학교 현장에서는 여러 어려움 때문에 쉽지 않음. 특히 미래 시대에 필요한 능력을 키우기 위해서는 평가 방식의 변화가 꼭 필요하다는 인식이 커지고 있음.

(2) 이 연구는 서·논술형 평가를 학교에서 효과적으로 사용하도록 돕기 위해 AI를 이용한 자동채점 모델을 만들고 발전시키는 방법을 찾아냄. 구체적으로는 AI가 배울 수 있는 데이터(학습용 데이터)를 만들고, AI 모델의 성능을 분석하여 더 좋게 만드는 것을 목표로 함.

2. 연구의 방법

(1) 이 연구는 먼저 AI 자동채점과 관련된 최신 연구와 시스템 개발 흐름을 분석함. 그리고 국어, 사회, 수학, 과학, 기술 교과에서 서·논술형 평가 도구를 직접 개발하고, 학생들이 쓴 답안을 모아서 AI 학습용 데이터를 구축함. 최종적으로 이 데이터를 활용해 AI 모델을 만들고 성능을 높이는 과정을 거침.

(2) 주요 분석 대상은 국어, 사회, 수학, 과학, 기술 교과 학생들이 쓴 서·논술형 답안임. 이 답안들을 채점 기준에 맞춰 점수를 매긴 후, AI가 이를 바탕으로 스스로 채점할 수 있도록 다양한 기계학습 알고리듬(예: RF, XGBoost, SVM 등)과 채점자질(형태소, 키워드, 혼합형, 임베딩 기반)을 적용하여 비교 분석함.

3. 주요 발견

(1) 연구팀은 1차 연도 연구에 이어 2차 연도에도 평가 도구를 만들고 학습용 데이터 구축을 이어갔음. 총 11,370건의 학생 답안과 채점 라벨링 데이터를 구축함. 이 데이터는 AI가 서·논술형 답안을 이해하고 채점하는 방법을 배우는 데 쓰임.

학생이 책상에 앉아 글을 쓰고 있음

학습용 데이터 구축 현황 (건)

구분	국어	사회	수학	과학	기술	계
응답 데이터 수집	2,124	3,691	3,491	3,250	1,096	13,652
학습용 데이터 구축	914	2,619	3,491	3,250	1,096	11,370

(2) 자동채점 AI 모델의 성능을 높이기 위해 다음 과정을 거침. 먼저 학습용 데이터를 모으고 깨끗하게 정리함. 그다음 AI가 데이터를 학습하도록 기계학습을 수행하고, 이 결과를 바탕으로 AI 모델을 개발하고 검증함. 특히 AI 모델의 성능을 올리려고 채점자질의 구성을 바꾸거나, 기계학습 알고리듬을 조정하는 등 다양한 시도를 함. AI 모델 개발을 돕는 프로그램도 개선하여 새로운 알고리듬과 XAI(설명 가능한 인공지능) 분석 기능을 추가함.

(3) 각 교과별로 AI 모델 고도화 방안을 탐색하고 분석한 결과는 다음과 같음.

국어과: RF(랜덤 포레스트)와 XGBoost(익스트림 그레이디언트 부스팅) 같은 앙상블 기법을 사용한 알고리듬이 다른 알고리듬보다 채점 성능이 우수했음. 또한, 기존보다 더 효율적으로 구성한 채점자질을 사용했을 때 AI 채점 성능이 조금 더 좋아지는 것을 확인함.
사회과: 답안의 특징을 여러 방식으로 조합한 혼합형 채점자질이 좋은 성능을 보였음. 전반적으로 트리 기반 알고리듬들이 높은 성능을 나타냈고, SHAP이라는 분석 기법을 활용하여 AI가 왜 그런 점수를 매겼는지 더 잘 설명할 수 있게 됨.
수학과: 국어과와 마찬가지로 RF, CatBoost, XGBoost 같은 앙상블 계열 알고리듬의 정확도가 높았음. 일부 상황에서는 NB(나이브 베이즈)와 같이 정확도 편차가 큰 알고리듬도 다른 알고리듬과 비슷한 성능을 보여, 학습 데이터를 유형화할 가능성을 확인했음.
과학과: 채점자질 중에서 답안의 핵심 단어를 분석하는 키워드 채점자질이 형태소(단어의 가장 작은 의미 단위) 기반 채점자질보다 채점 결과에 더 큰 영향을 미 미쳤음. 이는 교사와 AI 채점 결과의 차이를 분석할 때도 동일하게 나타남.
기술과: 기술 교과의 답안은 실제 생활 사례나 구체적인 설명을 많이 담는 특성이 있음. 이런 특징을 잘 반영하기 위해 형태소와 키워드를 합친 혼합형 채점자질을 사용함. 이 역시 트리 기반 앙상블 계열 알고리듬이 가장 안정적이고 우수한 성능을 보였음. 하지만 AI는 문장 길이, 연결어 같은 형식적인 요소에 민감하게 반응하는 반면, 교사는 기술 개념의 정확성이나 논리적 근거를 더 중요하게 여겨 AI 모델이 이런 개념적 깊이를 평가하는 데는 아직 한계가 있음을 확인함.

(4) 임베딩 기반 인공지능 모델 고도화 방안도 탐색했음. 이는 대규모 언어 모델을 활용하여 답안의 의미를 숫자로 표현(임베딩)하고, 이 숫자를 가지고 AI 모델을 발전시키는 방법임. 예를 들어, 모범 답안과 학생 답안의 유사도를 계산하여 이를 채점자질로 활용하거나, 답안들을 비슷한 의미끼리 묶어서 사전 채점에 활용하는 방안임. 국어, 수학, 사회 교과 사례에서 답안 유사도가 실제 채점 점수와 0.6~0.77 정도의 높은 상관관계를 보여, 임베딩 기법이 자동채점에 유용할 수 있음을 입증함.

4. 결론 및 시사점

(1) 이 연구는 교과 서·논술형 평가를 AI로 자동채점하는 것이 현실적으로 가능하다는 것을 보여줌. 이를 위해 필요한 학습용 데이터를 구축하고, 다양한 채점자질과 기계학습 알고리듬을 활용하여 AI 모델의 성능을 높이는 구체적인 방안을 제시함. 교과와 평가도구의 특성에 따라 최적의 AI 모델과 채점자질 조합이 다르다는 것을 발견했음.

(2) AI 자동채점은 학생 맞춤형 교육을 지원하고 서·논술형 평가를 학교 현장에 정착시키는 중요한 도구가 될 수 있음. 하지만 AI 모델이 점수를 매기는 이유를 설명하는 능력(설명 가능성), 잘못된 정보를 생성하는 문제(할루시네이션), 그리고 학생 데이터 보안과 같은 윤리적, 기술적 쟁점들을 먼저 해결해야 함.

(3) AI 자동채점의 성공은 양질의 학습용 데이터 확보에 달려 있음. 이를 위해 정부와 민간이 협력하여 대규모의 데이터를 구축하고, 한국어의 복잡한 특성을 잘 반영할 수 있는 채점 모델을 개발하며, 국어, 사회, 수학, 과학, 기술 등 더 다양한 교과의 데이터를 포괄적으로 수집하는 노력이 필요함.

색색의 책들이 꽂혀 있는 책장

5. 리뷰어의 ADD(+) One: 생각 더하기

(1) 이 논문에서 가장 눈여겨볼 지점은 AI의 설명 가능성(XAI)을 지속적으로 탐색하려는 노력과 거대언어모델(LLM)을 자동채점에 활용하려는 시도임. 기존 AI 자동채점 연구가 주로 정확도 향상에 초점을 맞췄다면, 이 연구는 단순히 점수를 매기는 것을 넘어 AI가 왜 특정 점수를 부여했는지 그 근거를 이해하려 함. 이는 AI 채점에 대한 교사와 학생의 신뢰도를 높이고, AI가 제시하는 피드백의 질을 향상시키는 데 결정적인 역할을 할 수 있음. 또한, 최신 기술인 LLM의 잠재력을 자동채점에 적용하려 한다는 점에서 미래 지향적 연구 방향을 제시함.

(2) 이 연구는 AI가 교육 평가 영역으로 확장될 때 우리가 마주할 근본적인 질문들을 던짐. AI가 답안의 형식적 요소(예: 문장 길이, 어미 다양성)에는 민감하게 반응하지만, 기술 교과 사례처럼 개념의 정확성이나 논리적 타당성 같은 고차원적인 인지 능력을 평가하는 데는 아직 한계가 있음. 이는 교육의 본질인 창의성, 비판적 사고, 문제 해결 능력 등을 AI가 어떻게 평가하고 반영할 것인가에 대한 깊은 논의가 필요하다는 것을 시사함. 평가의 주체가 인간에서 AI로 전환될 때, 학습자의 성장과 발달을 위한 평가의 교육적 가치를 어떻게 유지하고 강화할지에 대한 교육철학적 고찰도 동반되어야 함.

(3) 이 연구를 더욱 발전시키기 위한 구체적인 아이디어를 제안함. 첫째, 다차원적 피드백 시스템을 구축해야 함. AI가 단순히 점수만 주는 것이 아니라, 채점자질별로 학생의 강점과 약점을 분석하여 구체적인 개선 방안을 함께 제공하는 것임. 예를 들어, “주장과 근거의 연결이 부족합니다. ‘~이므로 ~하다’와 같은 연결어를 활용하여 논리를 강화해 보세요”와 같은 피드백을 제시하는 방식임. 둘째, 교사-AI 협업 채점 모델을 고도화해야 함. AI는 반복적이고 객관적인 채점 요소를 담당하여 교사의 업무 부담을 줄이고, 교사는 AI가 평가하기 어려운 심층적인 사고력, 창의성, 논리적 비약 등을 평가하고 학생과 직접 소통하여 질 높은 피드백을 제공하는 방식임. 셋째, 능동적 학습용 데이터 교정 시스템을 마련해야 함. AI 할루시네이션이나 편향된 채점 결과가 나올 경우, 교사나 전문가가 즉시 개입하여 AI 모델을 재학습시키고 데이터를 보완할 수 있는 사용자 친화적인 인터페이스를 개발하여 AI 모델의 신뢰성과 정확성을 지속적으로 높여야 함.

6. 추가 탐구 질문

(1) AI 자동채점 모델이 학생의 자기조절학습 능력과 학습 동기에 어떤 영향을 미칠까? AI가 제공하는 즉각적인 피드백이 학습자가 스스로 학습 과정을 점검하고 개선하는 데 실질적으로 도움이 되는지에 대한 심층적인 연구가 필요함.

(2) 이 연구의 AI 모델을 주관식 시험뿐만 아니라, 토론 평가나 발표 평가와 같이 구술 및 비구술 상호작용이 복합적으로 이루어지는 평가 맥락에 적용한다면 어떤 방식으로 평가 도구를 개발하고 AI 모델을 훈련시켜야 할까?

(3) AI 자동채점 시스템이 보편화될 경우, AI 채점 결과에 대한 학생과 학부모의 수용성을 어떻게 확보할 수 있을까? 채점 오류나 편향에 대한 책임 소재를 명확히 하고, 이에 대한 이의 제기 절차 등 윤리적, 법적 제도적 장치는 어떻게 마련해야 할까?

<출처> - 송민호, 김동영, 박준홍, 신중휘, 이정훈, 정수진, 임윤진. (2025). 교과 서·논술형 평가 자동채점을 위한 인공지능 모델 적용 방안 연구(Ⅱ). *한국교육과정평가원 연구리포트 2025*.

X Facebook LinkedIn Bluesky

김진관(닷커넥터)

Categories

Tag Cloud

AI 자동채점 모델은 서·논술형 평가를 어떻게 혁신하는가?

1. 연구의 목적

2. 연구의 방법

3. 주요 발견

4. 결론 및 시사점

5. 리뷰어의 ADD(+) One: 생각 더하기

6. 추가 탐구 질문

공유하기

참고

AI는 서·논술형 평가를 어떻게 자동 채점하는가?

AI 챗봇이 프로그래밍 학습자의 인지적 노력을 어떻게 재분배하는가?

EdTech 로그 데이터로 학생의 장기 학습 성과를 예측할 수 있을까?

몸 기반 인지 원리가 교실 학습에 어떻게 적용될 수 있는가?