AI 조교, 답만 잘 주면 되는가? 상호작용의 질을 평가하는 TCR 프레임워크
AI가 학교 현장에 들어온다. 교육이라는 복잡한 장에서 AI를 어떻게 활용해야 하는지, 어떤 AI가 ‘좋은’ AI인지 그 기준을 두고 현장의 고민은 깊다. 단순히 정답을 잘 맞추는 AI를 넘어, 학생과의 상호작용으로 학습의 질을 높이는 AI를 원한다면, 우리는 AI를 평가하는 방식부터 바꿔야 한다.
LLM, 과연 ‘좋은’ 교육 조력자인가?
기존 대규모 언어 모델(LLM) 평가 방식은 정확성과 유창성 같은 총합 지표에 집중한다. 이러한 방식은 다중 턴 상호작용에서 나타나는 중요한 모델 행동을 간과하는 경향이 있다. 본질적으로, AI의 가치는 인간을 얼마나 잘 돕는가에 달려 있다. 교육 맥락에서는 특히 학습자의 이해를 돕고, 시행착오로 성장시키는 과정이 중요하다.
LLM 평가에 주로 활용되는 BLEU, ROUGE 같은 참조 기반 지표나 LLM-as-a-judge 방식은 AI 모델의 확장성과 표준화된 비교를 가능하게 한다. 하지만 실제 사용 맥락에서 인간-AI 상호작용의 질적 측면, 특히 다중 턴 대화의 변화 양상을 포착하는 데는 제한적이다. MT-Bench, Arena-Hard-Auto 같은 대화 벤치마크도 표면적인 대화 성능에 초점을 맞출 뿐, 실제 상호작용 맥락에서의 모델 행동에 대한 통찰은 제한적이다. 특히 LLM-as-a-judge 방식은 시스템적 편향을 보여 평가 결과가 왜곡될 수 있다는 연구 결과(Li et al., 2025; Szymanski et al., 2025)도 존재한다. 우리 현장의 교사들은 AI가 단순히 정답을 뱉어내는 기계가 아니라는 점을 직관적으로 인지한다. 현재의 평가 지표는 AI의 ‘조력자’로서의 중요한 역할을 ‘무시한다’는 것이 이 연구의 핵심 지적이다.
TCR 프레임워크 — 상호작용의 질을 들여다보다
이 연구는 기존 평가 방식의 한계를 극복하고자 TCR 프레임워크를 제안한다. TCR은 투명성(Transparency), 일관성(Consistency), 개선(Refinement)이라는 세 가지 차원으로 다중 턴 인간-AI 상호작용을 평가한다. 이 프레임워크는 단순히 AI의 ‘정답률’을 넘어 ‘어떻게’ 도움을 주는지를 묻는다. 정확히는, AI가 학습자의 인지 부하를 줄이고 자기 주도성을 높이는 방향으로 작동하는지를 평가한다.
TCR의 각 차원은 다음과 같은 의미를 갖는다.
- 투명성: AI가 추론 과정을 명확하고 이해하기 쉽게 소통하는 정도를 말한다. 예를 들어, 단계별 추론 과정이나 정보의 출처를 명시하는지를 평가한다. 교육에서는 ‘왜 그런 답이 나왔는지’ 아는 것이 학습의 본질이다.
- 일관성: 유사한 프롬프트나 상호작용 맥락에서 AI 시스템의 동작이 얼마나 안정적으로 유지되는지를 의미한다. 예를 들어, 프롬프트의 미세한 변화에도 불구하고 출력이 일관적인지, 세션 간 답변이 흔들리지 않는지를 본다.
- 개선: AI가 사용자의 피드백을 받아들여 설명이나 답변을 명확히 하고, 반복적인 수정으로 상호작용의 질을 높이는 능력을 말한다. 교육적 상호작용은 본질적으로 반복적이며, 피드백에 대한 반응성과 수정의 일관성이 중요하게 작용한다.
이 논문은 프로그래밍 조교 LLM의 실제 상호작용 예시를 제시한다. 동일한 ‘소리 안 나는 코드’ 문제에 대해 A 모델은 추상적인 설명을, B 모델은 구체적인 해결 단계를 제시한다. 총합 평가로는 둘 다 ‘정확’하다고 판단할 수 있다. 하지만 TCR 관점에서는 B 모델이 훨씬 투명하고 개선 지향적인 상호작용을 제공한다. 교실 현장에서 우리는 아이들이 답만 베끼는 것을 원하지 않는다. AI도 마찬가지다. 아이들이 왜 틀렸는지 이해하고, 어떻게 고쳐야 할지 스스로 깨닫게 돕는 AI가 진짜 교육 조력자이다.
현장 적용 — ‘어떻게’ AI를 교육에 녹여낼 것인가
TCR과 같은 구조화된 평가는 총합 평가에서 놓치는 LLM의 행동 패턴을 드러내며, 평가의 사회기술적 본질을 강조한다. 이는 미래 모델 평가가 맥락적 평가, 다중 턴 일관성 분석, 그리고 인간-AI 하이브리드 평가 접근법을 통합해야 한다는 것을 시사한다. LLM-as-a-judge 방식이 확장성과 효율성을 제공하지만, 맥락, 사용자 목표, 반복적 상호작용 패턴에 대한 민감성이 부족하다는 지적은 우리가 눈여겨봐야 할 부분이다. 기술적으로 정확한 답변을 우선시하여 맥락적 불일치, 불일치하는 행동, 비효과적인 개선 지원을 놓친다. 이러한 패턴은 LLM-as-a-judge가 상호작용 품질의 부분적인 시각만을 제공하며, 자동화된 감사와 인간 중심 평가를 결합한 하이브리드 접근의 필요성을 강조한다.
표: 전통적 LLM 평가와 TCR 프레임워크 비교
| 평가 차원 | 전통적 LLM 평가 (총합) | TCR 프레임워크 (상호작용) |
|---|---|---|
| 주요 목표 | 정확성, 유창성, 결과 최적화 | 투명성, 일관성, 개선을 통한 상호작용 품질 향상 |
| 주요 지표 | BLEU, ROUGE, 정확도, F-점수 | 단계별 추론, 출처 명시, 출력 안정성, 피드백 반응성, 수정 일관성 |
| 평가 대상 | 단일 턴 출력물 | 다중 턴 상호작용, 맥락적 변화, 모델 행동의 진화 |
| 주요 한계 | 맥락, 사용자 목표, 반복적 상호작용 간과; LLM-as-a-judge의 편향 | 개념적 정의, 대규모 실증 연구 필요; 정량화의 어려움, 평가 부담 가능성 |
| 교육적 가치 | 제한적 (답변의 정확도에 초점) | 높음 (학습 과정 지원, 자기 주도성 강화, 인지 부하 감소) |
이 연구가 ‘어떻게’를 제시하려는 시도는 반갑다. 하지만 현장 적용은 쉽지 않다. 교사들은 이미 과도한 업무에 시달린다. 구조적으로 보면, 이 프레임워크를 교실에 성공적으로 안착시키려면 평가 도구의 경량화와 함께, 교사들의 관찰과 성찰을 돕는 유연한 시스템 설계가 선행되어야 한다. 예를 들어, 매일의 AI 수업에서 특정 학생 그룹의 AI 상호작용 로그 중 ‘왜’를 묻는 질문과 AI의 ‘단계별 설명’이 얼마나 자주 나타나는지, 혹은 AI가 학생의 ‘오개념 수정 요청’에 얼마나 효과적으로 반응하는지를 짧은 문항으로 일주일에 한두 번 기록하는 정도의 부담이 적은 방식부터 시작한다. AI가 학생의 질문에 단순히 답을 주기보다, 역질문으로 사고를 유도하거나 관련 자료를 찾아보도록 안내하는 등 ‘교육적 대화’를 얼마나 효과적으로 수행하는지 관찰하는 것이 중요하다.
결론 — 비판적 성찰이 만드는 교육적 AI
이 연구는 AI를 교육에 도입할 때 우리가 무엇을 놓치고 있었는지 분명히 보여준다. 이건 과장이 섞여 있지 않다. 우리가 AI를 단순히 ‘빠른 계산기’로만 본다면, 그 교육적 잠재력의 절반도 못 쓰는 꼴이 된다. 중요한 것은 ‘더 많은 데이터를 학습하고, 더 똑똑해지는 AI’가 아니라, ‘인간 학습을 더 잘 이해하고, 더 나은 상호작용을 설계하는 AI’이다. 이 연구는 현재 개념적인 프레임워크이며, 대규모 실증 연구로 더욱 검증되고 확장될 수 있다. 다양한 사용자 및 상호작용 맥락에 맞는 더 접근성 높은 평가 방식이 필요하다. 우리 교육 현장의 동료들이 AI를 활용하며 무심코 던지는 “이 AI는 왜 이렇게 답만 던져줄까?”, “학생들이 이 AI랑 대화하면 뭘 배울까?” 같은 질문이야말로 TCR이 밝혀내려는 ‘진정한 평가’의 시작점이다.
Action Item: 다음 주 AI 수업에서, 학생이 AI에게 질문했을 때 AI가 ‘왜’ 또는 ‘어떻게’라는 단어를 사용하여 설명하거나 역질문하는 상호작용을 한 번만이라도 포착해보자. 그리고 그 상호작용이 학생의 이해에 어떤 영향을 주었는지 짧게 기록하는 것으로 우리 현장의 ‘TCR 평가’를 시작한다.
출처
- Ding, S., & Tan, S. (2026). Evaluating Multi-turn Human-AI Interaction. ACL 2026 Workshop on Evaluating Evaluations (EvalEval).