6 분 소요

hits

1. 연구의 목적

(1) 최근 AI 챗봇과 같은 대규모 언어 모델(LLM)이 학생들에게 피드백을 많이 생성한다. 그러나 교사들이 이 AI 피드백을 학생에게 전달하기 전에 어떻게 수정하는지, 이 수정 과정이 실제 학습에 어떤 영향을 미치는지에 대한 연구는 부족한 실정이다. 교사의 수정은 학생이 어떤 피드백을 받는지 결정하므로, AI 기반 교육 도구를 평가하는 데 중요하다.

(2) 이 연구는 교사들이 AI가 생성한 형성 평가 피드백을 실제 교육 현장에서 어떻게 수정하고 적용하는지 대규모로 조사한다. 교사들의 수정 패턴을 분석하여, 현재 AI 피드백 시스템이 교사의 교육적 목표와 얼마나 잘 맞는지 파악하고, 불필요한 편집 노력을 줄일 방안을 모색한다. 구체적으로 교사가 AI 피드백을 수정하는 데 영향을 미치는 텍스트 특성, 수정 여부의 예측 가능성, 수정이 피드백의 교육학적 유형을 어떻게 바꾸는지 밝힌다.


2. 연구의 방법

(1) 이 연구는 양적 및 질적 방법을 혼합한다. 교사의 AI 피드백 수정 행동을 대규모로 분석하기 위해 텍스트 길이, 의미론적 유사성 같은 표면적 특성과 의미적 특성을 비교한다. 또한, 기계 학습 모델을 활용하여 AI 피드백 텍스트만으로 교사의 수정 여부를 예측한다. 교사 수정 전후의 피드백 메시지를 교육학적 유형에 따라 이론 기반으로 코딩하여 질적으로 변화를 분석한다.

(2) 연구는 Tutoria라는 AI 기반 피드백 플랫폼의 로그 데이터를 활용한다. 이 플랫폼은 무들(Moodle)과 구글 클래스룸(Google Classroom)에 통합되어 있다. 데이터셋은 총 1,349건의 AI 생성 피드백 초안과 117명의 교사가 수정한 최종 피드백 메시지로 구성된다. 교사들의 인구 통계 정보는 일부 샘플에 대해 얻었으며, 브라질 교육자 68명이 포함된다. 학생들은 브라질 고등학교 화학 수업, 대학 컴퓨터 과학 입문 수업 등 다양한 교육 맥락에서 짧은 개방형 답변을 제출했다.


3. 주요 발견

(1) 교사의 피드백 수정 행위 패턴

  • 교사들은 거의 80%의 경우 AI 피드백을 수정하지 않고 학생에게 전달한다.
  • 수정된 AI 피드백은 수정되지 않은 피드백보다 처음에 더 길었지만, 교사가 수정한 후에는 짧아지는 경향을 보였다. 이는 교사들이 AI 피드백의 길이를 줄여주는 역할을 함을 시사한다.
  • 교사들의 수정 행동은 크게 달랐다. 절반 이상의 교사 (51.3%)는 AI 피드백을 단 한 번도 수정하지 않았다. 반면, 약 10%의 교사만 전체 피드백의 3분의 2 이상을 수정했다. 이는 교사마다 AI 피드백에 개입하는 정도가 매우 다양함을 보여준다.
교사별 메시지 수정 비율의 누적 분포
그림 1. 교사별 AI 피드백 메시지 수정 비율의 누적 분포. X축은 수정 비율에 따라 정렬된 교사 비율을, Y축은 수정된 메시지 비율을 나타냄. 점선은 교사 백분위수를 표시함.

(2) 수정 예측 가능성

  • AI가 생성한 피드백 텍스트만 사용해서도 교사가 해당 피드백을 수정할지 여부를 어느 정도 예측할 수 있다 (AUC 0.70~0.75).
  • 그러나 예측 성능이 아주 높지는 않아, 교사의 수정 결정이 AI 피드백 텍스트의 특성만으로 완전히 결정되지 않음을 보여준다. 학생의 답변 내용, 교사의 채점 의도, 시간 제약 등 다른 맥락적 정보가 수정 결정에 중요한 역할을 함을 의미한다.
LLM 기반 피드백 생성 인터페이스 스크린샷
그림 2. LLM 기반 피드백 생성 인터페이스 스크린샷. 교사의 태그, 평가, 피드백 모듈을 보여줌. 빨간색 상자 영역은 교사가 '피드백 생성' 버튼 클릭 후 AI가 생성한 피드백을 나타냄.

(3) 수정 후 피드백의 교육학적 유형 변화

  • 이 연구는 피드백 유형을 네 가지로 나눈다.
    • 강화/처벌 피드백: 정보 제공 없이 칭찬이나 비판 등 평가만 하는 피드백.
    • 교정적 피드백: 정오를 알려주거나 정답을 제시하지만, 자세한 설명은 거의 없는 피드백.
    • 고정보 피드백: 교정적 피드백에 더해 설명, 학습 전략, 자기조절을 유도하는 질문 등을 포함하는 피드백.
    • 기타: 위 유형에 속하지 않는 피드백.
  • 수정되지 않은 AI 피드백은 주로 교정적 피드백이었고, 다음으로 고정보 피드백이 많았다.
  • 교사가 수정한 AI 피드백은 초기에는 고정보 피드백의 비중이 더 높았으나, 수정 후에는 고정보 피드백의 비율이 줄어들고 교정적 피드백의 비율이 늘어났다. 이는 교사들이 AI의 지나치게 상세한 설명을 더 간결하고 직접적인 교정적 형태로 단순화하는 경향이 있음을 나타낸다.
  • 교사들은 AI 피드백이 평가 판단, 맥락 인식, 피드백 효율성과 충돌할 때 피드백을 단순화하는 것으로 나타났다. 예를 들어, AI의 칭찬을 학생 답변에 대한 비판으로 바꾸거나, 영어로 된 고정보 피드백을 포르투갈어 교정 피드백으로 변경하기도 했다.

4. 결론 및 시사점

(1) AI가 생성한 형성 평가 피드백은 교사의 선택적 중재를 거쳐 학생에게 전달된다. 대부분의 AI 피드백은 교사의 수정 없이 그대로 전달되므로, AI 시스템의 기본 작동 방식이 학습에 중요한 영향을 미친다. 교사의 수정은 AI 피드백이 교사의 교육학적 우선순위와 어떤 점에서 불일치하는지 보여주는 중요한 지표다. 교사들은 주로 AI 피드백을 압축하고 단순화하며, 설명 위주의 고정보 피드백을 간결한 교정적 피드백으로 바꾸려는 경향을 보인다.

(2) AI 기반 피드백 시스템을 설계할 때는 교사의 개입과 편집 행동을 적극적으로 고려해야 한다. 교사들이 모든 AI 피드백을 지속적으로 면밀히 모니터링하고 수정할 것이라는 가정은 비현실적이다. 시스템은 교사의 선택적 개입에 따라 ‘인간-AI 협력적 적응성’ 관점에서 작동해야 한다. 교사마다 수정 행동이 다르므로, 특정 교사의 과거 편집 패턴을 학습하여 맞춤형 피드백 초안을 제공하는 기능은 교사의 불필요한 노력을 줄이면서도 전문적 판단을 존중하는 방안이 된다.

(3) AI 피드백이 종종 보이는 ‘과잉 스캐폴딩’ 문제는 교육적 관점에서 주의해야 한다. AI가 학습자의 사고 과정을 방해할 수 있는 지나치게 직접적인 설명이나 정답을 제공하는 경향이 있는데, 교사들이 이러한 고정보 피드백을 간소화하는 것은 이 문제를 인식하고 중재하려는 시도로 볼 수 있다. 따라서 AI 피드백의 효과를 평가할 때, 단순히 AI 모델의 출력물만을 볼 것이 아니라, 교사와의 상호작용을 통해 공동으로 만들어진 결과물로서 평가해야 한다. 학습 분석 도구를 활용하여 교사의 수정 흔적과 상호작용 비용을 포착하고, 이를 학생 학습 결과와 연관 지어 교사를 더 잘 지원하는 피드백 시스템을 설계해야 한다.


5. 리뷰어의 ADD(+) One: 생각 더하기

(1) 이 논문에서 가장 주목할 지점은 기존 연구들이 AI 피드백 자체의 질이나 학생 반응에 초점을 맞추던 것과 달리, 교사의 ‘수정 행위’를 교육학적 중요성을 지닌 핵심 분석 대상으로 삼았다는 점이다. 교사는 AI 피드백이 학생에게 도달하기 전 최종 관문이자 조정자로서 학습 경험에 결정적인 영향을 미친다. AI가 아무리 정교한 피드백을 생성해도, 교사가 이를 수정하거나 그대로 전달하는 방식에 따라 교육적 효과가 완전히 달라질 수 있음을 실증적으로 보여준다. 특히 교사들이 AI 피드백을 수정 없이 받아들이는 비율이 높다는 것은, AI 시스템의 기본 설정이 실제 교육 현장에 미치는 영향이 생각보다 크다는 점을 강조하며, AI 설계자들에게 더 큰 책임감을 부여한다. 이는 ‘인간 중심 AI’ 또는 ‘인간-AI 협업’이라는 AIED의 핵심 가치를 구체적인 데이터로 뒷받침한다.

(2) 이 연구 결과는 교사의 ‘전문적 판단’이 AI 시대에도 여전히 대체 불가능한 핵심 역량임을 시사한다. AI는 정보 처리와 초안 생성에 탁월하지만, 학생의 개별 학습 맥락, 학습 목표와의 정렬, 그리고 섬세한 교육학적 접근을 고려한 최종 판단은 여전히 교사의 몫으로 남는다. 이는 AI를 ‘교체’의 대상이 아닌 ‘강화’의 도구로 보아야 한다는 교육철학적 논의를 강화한다. 또한, 교사가 AI 피드백을 간결하게 수정하는 경향은 학습 과학의 ‘인지 부하 이론’과도 연결된다. AI가 제공하는 방대한 정보가 오히려 학습자의 인지 부하를 높여 학습 효과를 저해할 수 있음을 교사들이 직관적으로 파악하고, 이를 줄여 학습 효과를 최적화하려는 시도로 해석할 수 있다. 이는 AI 인터페이스 설계 시 정보의 ‘밀도’와 ‘사용자 통제권’의 균형을 어떻게 맞출 것인지에 대한 중요한 질문을 던진다.

(3) 이 연구를 발전시킬 구체적인 아이디어는 ‘교사-맞춤형 AI 피드백 엔진’을 개발하는 것이다. 이 엔진은 교사 개개인의 과거 수정 이력, 즉 어떤 유형의 피드백을 선호하고 어떤 부분을 주로 줄이거나 추가하는지 학습하여, 해당 교사에게 최적화된 초기 피드백 초안을 제공하는 것이다. 이는 교사의 불필요한 편집 노력을 획기적으로 줄이면서도 교사의 교육학적 의도가 반영된 피드백을 생성하게 한다. 나아가, AI 시스템이 특정 피드백이 교사에 의해 수정될 가능성을 예측하고, 교사가 어떤 유형의 수정을 할지(예: ‘고정보 → 교정적’ 단순화)까지 예측하여, 여러 가지 수정 옵션(예: “더 간결한 버전 보기”, “추가 설명 버전 보기”)을 미리 제시하는 기능을 추가할 수 있다.


6. 추가 탐구 질문

(1) 교사가 AI 피드백을 수정하지 않은 경우, 이것이 교사가 AI 피드백 내용에 완전히 동의하거나 신뢰해서 수정하지 않은 것인지, 아니면 시간 부족, 인지 부하, AI 시스템에 대한 낮은 이해도, 특정 학생에게는 AI 피드백으로도 충분하다는 판단 등 다른 요인 때문에 수정하지 않은 것인지에 대한 추가 연구가 필요하다.

(2) 이 연구는 주로 짧은 개방형 답변 과제에 초점을 맞췄다. 긴 에세이, 복잡한 문제 해결 과제 또는 프로젝트 기반 학습과 같이 과제의 특성이나 복잡성이 달라질 때 교사의 AI 피드백 수정 양상은 어떻게 변할까? 또한, 초중등 교육, 고등 교육, 직업 교육 등 교육 맥락별로 교사들의 AI 피드백 활용 및 수정 전략에 차이가 있을까?

(3) AI가 교사의 수정 패턴을 학습하여 점점 더 교사 선호에 맞춘 피드백을 생성하게 된다면, 이는 교사의 교육학적 재량권이나 창의성에 어떤 영향을 미칠까? 교사의 판단이 AI에 의해 정형화되거나, AI가 특정 교육학적 관점을 강화하는 방식으로 작동할 윤리적 위험은 없을까?


<출처> - Borchers, C., Rodrigues, L., da Costa, N. T., Xavier, C., & Mello, R. F. (2026). Understanding Teacher Revisions of Large Language Model-Generated Feedback. *International Conference on Artificial Intelligence in Education*.