AI 채점, ‘정답’은 같지만 ‘왜’는 다른 이유
교실 현장에서 대규모 언어 모델(LLM)이 일으키는 파장은 이미 현실이 되었다. 학생들의 글쓰기 피드백부터 맞춤형 학습 자료 생성까지, AI는 교육의 효율성을 약속한다. 하지만 ‘평가’의 영역, 특히 학생의 성적을 결정하고 그 과정의 투명성을 요구하는 지점에서, 우리는 여전히 물음표를 던진다. LLM이 단순한 답안 채점을 넘어, 진정으로 신뢰할 수 있는 교육적 ‘판단’을 내릴 수 있는가?
이 질문에 답을 찾아 나선 호주 연구진의 논문, “LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline”은 AI 채점의 현주소를 날카롭게 보여준다. 이 연구는 AI의 잠재력을 환영하면서도, 현장 적용의 복잡한 조건을 동시에 제시한다.
AI 채점, 새로운 지평을 열지만 신뢰는 어디에서 오는가
LLM은 방대한 데이터를 학습하여 복잡한 질문에 대한 답을 생성하고, 심지어 인간과 유사한 평가를 수행하는 능력을 보여준다. 교육 분야에서도 이러한 LLM의 활용은 학생들의 학습 성과를 높이고([1] 학습 성과 긍정적 영향) 교사의 업무 부담을 줄이는([17] 수천 시간 절약) 데 기여할 잠재력을 지닌다. 그러나 고부가가치 시험 준비와 같은 중요한 평가에 LLM을 적용하는 것은 단순한 프롬프트 엔지니어링 이상의 문제를 동반한다.
연구 주장은 AI가 전통적인 인간 채점의 문제점, 즉 채점자 간·내 편차([5] 채점자 간 상당한 편차 보고)나 후광 효과(Halo effect) 같은 인지 편향([5] 후광 효과)을 줄여 일관성을 높일 수 있다고 말한다. 하지만 기존 LLM 기반 평가 방식은 공식 교육과정이나 채점 기준과 정확히 일치하지 않을 위험([9], [10] 공식 표준에서 벗어날 위험)이 크다. 나아가, 교사들의 암묵적 지식(Tacit knowledge) – 논리적 일관성, 전문 용어 활용도, 추론의 질 등 –을 LLM이 제대로 포착하지 못한다는 한계가 명확하다.
필자의 판단은 AI가 점수를 매기는 속도는 가히 혁명적이지만, 그 점수가 ‘왜’ 나왔는지 투명하게 설명하지 못한다면 교육 현장에서 신뢰를 얻기란 불가능하다는 데 있다. 본질적으로, 평가는 단순한 점수 부여를 넘어 학습자의 성장 방향을 제시하는 과정이다. 이 과정에서 AI가 단순히 “이 점수다”라고만 말한다면, 그것은 반쪽짜리 평가에 불과하다. 결국 AI 평가의 핵심은 점수 자체가 아니라, 그 점수를 뒷받침하는 정당한 근거에 있다.
커리큘럼 기반 파이프라인, AI 심판의 설계도
이 연구는 호주의 NSW HSC(고등학생 졸업 자격시험) 교육과정을 기반으로 ‘커리큘럼 기반 LLM-as-Judge 파이프라인’을 설계한다. 이 파이프라인은 단순한 프롬프트 주입을 넘어, 공식 교육과정 자료를 ‘구조화된 맥락’으로 활용한다.
연구 주장은 채점 과정을 세 가지 주요 단계로 나눈다.
- 교육과정 매칭 (Syllabus Matching): 질문에 해당하는 주제, 하위 주제, 인지적 요구 수준(블룸 택소노미)을 식별한다. 이를 위해 HSC 교육과정 문서에서 ‘learn to’, ‘learn about’, ‘outcome’ 문장을 추출하고, 벡터 데이터베이스를 활용하여 질문과의 의미론적 유사성을 판단한다. 질문의 최대 배점(mark_max)을 기준으로 선정할 기술의 수를 조절한다. 이후 ‘일관성 검증(Coherence Verification)’ 단계를 거쳐 선정된 학습 목표들이 서로 모순되지 않고 적절히 질문을 포괄하는지 확인한다.
- 채점 기준 생성 (Marking Criteria Generation):
- 기준 구조화: 매칭된 교육과정 요소를 바탕으로 개념 이해, 적용, 추론 등 평가 차원을 정의한다. HSC 키워드 용어집을 활용하여 ‘설명하라(Explain)’와 같은 지시어의 의미를 ‘원인-결과 쌍으로 설명해야 한다’처럼 구체적인 채점 행동으로 변환한다. 최대 배점에 맞춰 기준의 세분화 정도를 조절한다.
- 성과 수준 보정 (Performance Calibration): 구조화된 기준을 ‘포괄적’, ‘적절함’, ‘부분적 이해’, ‘제한적’과 같은 네 가지 질적 수준으로 변환한다. 이 수준들은 공식 성과 등급표(Performance Band Descriptions)와 일치하도록 정의하며, 고배점 질문에는 더 세밀한 수준 구분을 적용한다.
- 규범적 제약 검증 (Normative Constraints Verification): 호주 교육 당국의 13가지 채점 가이드라인 원칙(일관성, 공정성, 대체 정답 허용 등)을 ‘타협 불가능한 LLM 행동 경계’로 프롬프트에 내재화한다. 이는 모델이 자의적인 판단을 내리지 않고 공식 채점 규범을 따르도록 강제한다.
- 채점 및 피드백 루프 (Marking and Feedback Loop):
- 자동 채점: 학생의 답안을 개별 기준으로 평가하고 부분 점수를 허용한다.
- 기술 연계 피드백 생성: 부여된 점수에 대한 정당화와 함께, 어떤 학습 목표나 기술이 충분히 시연되지 않았는지 구체적으로 설명한다.
- 과정 및 출처 검증 (Process and Provenance Verification): 모든 중간 산출물(매칭 결과, 기준, 피드백)을 기록하여 채점 결정의 출처를 추적 가능하게 만든다.
데이터 및 근거는 이 파이프라인이 단순한 ‘프롬프트 엔지니어링’을 넘어 ‘검증 가능한 소프트웨어 아키텍처’를 구축한다는 데 있다. 교육과정 매칭에서 ‘outcome recall’이라는 지표를 100% 달성해야 다음 단계로 넘어가는 등, 각 단계마다 명확한 검증 기준을 둔다.
필자의 판단은 이 설계가 AI의 ‘블랙박스’ 문제를 해결하려는 매우 구조적인 시도라는 점이다. LLM이 생성하는 결과물을 단순히 사용하는 것을 넘어, 그 결과물이 어떤 기준과 맥락에서 나왔는지 투명하게 드러내려는 노력은 현장 전문가들이 AI 평가를 신뢰하게 만드는 필수 조건이다. 특히 교육과정의 핵심 용어 정의나 채점 원칙을 ‘규범적 제약’으로 명시한 것은, AI가 예측 불가능하게 행동할 여지를 줄이는 중요한 장치다. 이것은 마치 복잡한 면역 시스템이 외부 침입자(오류)로부터 내부 시스템(교육과정 일관성)의 항상성을 지키기 위한 방어 메커니즘을 구축하는 과정과 같다.
점수 일치와 정당화, 무엇이 더 중요한가? – 데이터로 본 AI의 두 얼굴
연구진은 개발된 파이프라인의 성능을 평가하기 위해 실제 학생 답안 47개를 사용한다. 평가는 크게 두 가지 관점에서 이루어진다.
- 점수 일치도: 인간 채점자(튜터)가 부여한 점수와 AI가 부여한 점수의 일치도를 Lin의 Concordance Correlation Coefficient(CCC)와 Weighted Cohen’s Kappa로 측정한다.
- 정당화 품질: AI가 제공한 채점 정당화가 채점 기준, 학생 답안 증거, 명확성, 학생에게의 유용성 측면에서 얼마나 우수한지 두 명의 독립적인 LLM 심판이 쌍대 비교(pairwise comparison)하고, BLEU 점수를 통해 교육과정 문서와의 단어 일치도를 측정한다.
데이터 및 근거는 다음과 같은 흥미로운 결과를 제시한다.
| 평가 방법 | CCC (점수 일치도) | Kappa (점수 일치도) |
|---|---|---|
| 제안 파이프라인 (gpt-5) | 0.72 | 0.56 |
| 직접 LLM (gpt-5) | 0.81 | 0.64 |
| 작은 모델 직접 LLM (gpt-5-nano) | 0.81 | 0.58 |
연구 주장은 직접 프롬프트 기반의 LLM(gpt-5)이 파이프라인 방식보다 인간 채점 점수와 더 높은 일치도(CCC 0.81 vs 0.72)를 보였다고 밝힌다. 이는 LLM이 RLHF(인간 피드백 기반 강화 학습) 효과로 인해 채점 점수 자체에 민감하게 반응하도록 학습되었기 때문이라고 추정한다. 즉, LLM이 내부 지식으로 인간 튜터의 ‘점수’를 흉내 내는 데는 뛰어나다는 분석이다.
그러나 ‘정당화 품질’ 측면에서는 결과가 뒤바뀐다.
| 비교 대상 | 파이프라인 승률 | 인간 승률 | 무승부 |
|---|---|---|---|
| 파이프라인 vs 인간 정당화 | 80.4% (26) | 0% (0) | 19.6% (11) |
| 파이프라인 vs 직접 LLM (gpt-5) | 69.6% (19) | 2.7% (1) | 27.7% (17) |
연구 주장은 LLM 심판의 쌍대 비교 결과, 제안된 파이프라인이 인간이 생성한 정당화보다 80.4% 더 선호되었으며, 직접 LLM이 생성한 정당화보다도 69.6% 더 선호되었다고 보고한다. 특히, 교육과정 문서와의 BLEU 점수(단어 일치도)는 파이프라인이 다른 모든 방법보다 압도적으로 높았다. (파이프라인: 8.457e-03, gpt-5: 0.191e-03, gpt-5-nano: 0.491e-03, 인간: 0.080e-03)
필자의 판단은 이 지점이 연구의 핵심이자 교육 현장에 던지는 가장 중요한 메시지다. AI가 인간의 ‘점수’를 흉내 내는 것은 가능하지만, 그 점수를 ‘교육과정 기반으로 투명하고 추적 가능하게 정당화하는 능력’은 전혀 다른 차원의 문제다. 이는 AI의 채점 결과가 정확한 것을 넘어 ‘신뢰할 수 있는가’의 문제로 직결된다. 파이프라인 방식은 점수 일치도에서 약간 손해를 보더라도, 현장 교사가 “이 피드백은 우리 교육과정의 이 부분에서 나왔다”고 학생에게 설명할 수 있는 ‘근거’를 제공한다. 이 근거는 학생의 학습 성장을 유도하는 강력한 도구가 된다.
AI와 인간, 현장에서의 미묘한 불일치 – 사례 분석으로 본 한계
연구는 실제 채점 사례를 통해 AI와 인간 채점자 사이의 미묘한 차이를 드러낸다. 이는 AI 채점 시스템이 가진 구조적 한계와 현장 적용 시 고려해야 할 중요한 지점을 시사한다.
연구 주장은 두 가지 대표적인 불일치 사례를 제시한다.
- 오탈자/문법 오류 답안: “Explain ONE positive impact and ONE negative impact of TNCs” 질문에 학생이 심각한 오탈자 및 문법 오류가 있는 답안을 제출했다.
- 인간 채점: 0점 부여, “이해 불가. AI라면 해독할 수 있겠지만, 교사의 책임이 아니다.”라는 코멘트를 남긴다. 채점자가 가독성 임계점 아래의 답안은 내용을 재구성하려는 노력을 포기한 사례이다. 이는 채점자의 ‘첫인상’과 ‘편향’이 점수에 영향을 미친 경우로, 내용보다 형식적 오류에 엄격하게 반응한다.
- AI 파이프라인: 1점 부여, “부분적인 의미는 복구했으나, 원인-결과 연결이 부족하여 최하위 점수대에 해당한다.”는 구체적인 정당화를 제공한다. AI는 기준 중심 해석으로 답안에서 부분적인 의미를 최대한 찾아내려 시도한다.
- 지시어 해석 오류: “Discuss the consequences of a sustained worsening of Australia’s Current Account Deficit.” 질문에서 ‘Discuss’ 지시어 해석에 차이가 발생한다.
- 인간 채점: 4점 부여, 학생이 ‘부정적인 결과’에 대해 매우 잘 설명했으므로 모델 답안으로 평가한다. 인간 채점자는 ‘Discuss’를 한쪽 측면만 깊이 있게 다루는 것도 가능하다고 유연하게 해석한다.
- AI 파이프라인: 1점 부여, “한쪽 측면만 제시했으므로 ‘양쪽 측면을 논하라’는 요구사항을 충족하지 못한다.”고 판단한다. AI는 공식 용어집 지침에 따라 ‘Discuss’를 ‘반드시 양쪽 측면을 모두 언급해야 한다’고 엄격하게 해석한다. 이는 AI 시스템이 채점 규칙을 일관되게 적용하되, 그 규칙의 해석이 유연하지 못할 때 오류를 발생시킬 수 있음을 보여준다.
필자의 판단은 이 사례들이 AI 채점의 양면성을 극명하게 보여준다는 점이다. AI는 인간 채점자가 놓치기 쉬운 ‘일관성’과 ‘객관성’이라는 장점을 지닌다. 오탈자 답안에 대한 AI의 판단은, 학생이 비록 표현은 미숙하더라도 ‘부분적인 이해’를 했음을 인정하려는 시도다. 이는 현대 채점 방식이 추구하는 ‘무엇이 정확한가’를 찾아 점수를 부여하는 방향에 부합한다. 하지만 ‘Discuss’ 사례는 인간의 ‘상황적 지혜’와 ‘암묵적인 규범적 관행’이 AI에 제대로 이식되지 않았을 때 어떤 문제가 발생하는지 보여준다. 지시어의 의미조차 교육 전문가들 사이에서 미묘한 해석 차이가 존재하며, AI는 이 복잡한 맥락을 아직 완전히 이해하지 못한다. 정확히 말하면, AI는 주어진 규칙을 맹목적으로 따르지만, 그 규칙이 현장의 ‘암묵적 합의’를 온전히 반영하지 못할 때 삐걱거린다.
구조적으로 보면, 이 문제는 시스템의 ‘항상성’ 유지와 ‘변화에 대한 적응’이라는 두 가지 과제를 동시에 안고 있다. AI 파이프라인은 교육과정이라는 특정 기준에 맞춰 일관성을 유지하려는 항상성을 지향한다. 그러나 교육 현장의 복잡한 지시어 해석, 학생의 개별적인 상황에 대한 판단은 시스템이 외부 요인(학생의 답변 품질, 지시어의 다의성)에 유연하게 대처하고 변화에 적응해야 하는 ‘면역 반응’의 영역이다. 이 면역 반응은 궁극적으로 인간 교사의 전문적인 판단과 합의를 통해서만 진화한다.
AI 채점의 미래, 현장 전문가가 설계해야 할 로드맵
이 연구는 AI 채점이 가져올 교육의 긍정적인 변화를 분명히 보여준다. 일관되고 객관적인 채점, 교육과정에 명확히 연계된 피드백, 그리고 교사의 업무 경감은 AI가 제공하는 중요한 가치다. 특히 개인화된 성장을 돕는 피드백은 학생의 자기 주도 학습 능력을 높이는 데 결정적인 역할을 한다.
연구 주장은 향후 연구 방향으로 질문 생성 기능 확장, 다른 교육과정 및 과목으로 일반화, 대화형 평가, AI-학생 시너지 평가, 암묵적 지식의 아키텍처적 공식화 등을 제시한다. 이는 AI 평가 시스템이 단순한 도구를 넘어 교육 시스템의 핵심 구성 요소로 진화해야 한다는 비전이다.
필자의 판단은 이러한 비전이 실현되기 위해서는 현장 전문가들의 적극적인 참여와 비판적 성찰이 필수적이라는 점이다. 이 연구에서 AI 파이프라인이 낮은 재정의율(override rate: 2.91%)을 보였다는 것은 긍정적 신호이지만, 이것이 ‘사용자들이 만족했다’는 의미는 아니다. 단순히 귀찮아서 재정의하지 않았을 수도 있다. 현장 전문가가 AI를 단순히 ‘사용’하는 것을 넘어, ‘설계’ 과정에 참여해야 한다.
독자에게 던지는 질문: 우리 교육 현장에서 AI 채점 시스템이 진정으로 ‘신뢰’를 얻기 위해서는 무엇이 선행되어야 할까?
당장 실행할 수 있는 행동 하나는 지금 당장 동료 교사들과 함께 최근에 채점했던 몇몇 서술형 문항 답안을 가져와 AI에게 채점을 맡겨보고, 그 AI가 제공하는 ‘정당화’ 부분을 면밀히 분석하는 일이다. AI가 어떤 근거로 점수를 주었는지, 그 근거가 우리 교육과정과 현장의 ‘암묵적 채점 기준’과 얼마나 일치하는지, 혹은 어디에서 충돌하는지를 구체적인 사례를 통해 면밀히 기록해야 한다. 이처럼 작은 규모의 ‘현장 데이터 기반 AI 감사’를 주기적으로 수행하고 그 결과를 동료들과 공유하는 것은, AI의 한계를 이해하고 우리만의 ‘AI 채점 규범’을 만들어가는 첫걸음이 된다. 시스템의 진정한 진화는 개발자의 노력과 현장의 꾸준한 성찰이 만날 때만 가능하다.
출처
- Xu, X., Wang, C., Jiang, J., Yang, P., Fu, Q., Dhall, M., Zhang, W., & Zhu, L. (2025). LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline.