7 분 소요

hits
학생들은 AI를 교수 의도대로 사용하는가

1. 연구의 목적

(1) AI 기반 교육 시스템은 학생 참여도나 만족도를 주로 평가함. 하지만 교육 심리학 연구는 학생들이 스스로 학습 효과를 제대로 판단하지 못한다고 지적함. 쉬운 상호작용이 깊은 이해로 이어진다는 환상 즉, 유창성 환상(illusion of fluency)과 같은 인지 편향 때문임. 이는 교육 시스템이 교수 목표와 실제 학생 사용 방식 사이에 큰 차이가 있음을 의미함.

(2) 이 연구는 학생들이 AI 교육 시스템과 상호작용할 때 어떤 행동을 보이는지 자동으로 측정하는 계산 프레임워크를 제안함. 이 프레임워크는 6가지 새로운 지표를 도입하여, 교육적 의도와 학생 사용 패턴 간의 불일치를 드러내는 것을 목표로 함.


2. 연구의 방법

(1) 이 연구는 학생-AI 대화에서 교육적 정렬도를 평가하는 계산 프레임워크를 개발함. 대규모 언어 모델(LLM) 기반의 제로샷 분류규칙 기반 분석을 활용하여 학생 행동을 측정함. 각 지표는 사람이 직접 평가한 결과와 비교하여 그 신뢰성을 확인함.

(2) 연구는 3개 학문 분야에 걸친 5가지 교육용 데이터셋에서 총 500개의 학생-AI 대화(총 12,650개 메시지)를 분석함. 이 데이터셋은 주로 학습 지원을 위해 설계된 제약된(constrained) AI 도구 4가지와, 학생들이 과제에 자유롭게 사용할 수 있었던 비제약(unrestricted) AI 도구 1가지로 구성됨.


3. 주요 발견

이 연구는 AI 교육 시스템 사용 패턴을 분석하기 위한 6가지 계산 지표를 제안함. 이 지표들은 대화의 각 턴(turn-by-turn)을 분석하여 미묘한 학생 행동을 포착함.

(1) 학생-AI 상호작용 행동 분석 지표

연구는 다음과 같은 6가지 지표를 도입하여 학생들이 AI 교육 시스템을 사용하는 방식을 정량적으로 측정함. 이 지표들은 AI를 활용한 학습 환경에서 학생들이 단순히 정답을 찾으려는 행동과 탐색적인 학습 행동을 구분하는 데 도움을 줌.

  • 대화 참여도 점수(Conversational Engagement Score, CES): 학생들이 AI와 얼마나 적극적으로 대화에 참여하는지 측정함. 예를 들어, cool, thanks와 같은 최소한의 반응은 낮은 참여도를, what would protein contamination like처럼 AI 답변에 대해 후속 질문을 하는 것은 높은 참여도를 나타냄. 이 지표는 대화 턴 수, 후속 질문 비율, 맥락 참조 비율, 동의 표현 비율을 종합하여 점수화함. 점수가 높을수록 대화 참여도가 높음을 의미함.

  • 학습 지향성 지수(Learning Orientation Index, LOI): 학생들이 개념을 탐구하려 하는지, 아니면 단순히 정답을 찾으려 하는지 그 균형을 측정함. 예를 들어, how to convert glycerol into glucose라고 묻다가 give me example metabolism exam questions처럼 정답 찾기로 전환하는 행동은 학습 지향성이 낮아지는 것을 의미함. 반대로 correct me if I am wrong: insulin stimulates PFK-2, which encourages glycolysis...처럼 자신의 이해를 확인하며 개념을 연결하려는 시도는 높은 학습 지향성을 나타냄. 점수가 1에 가까울수록 학습 지향적인 행동을, 0에 가까울수록 정답 추출 행동을 의미함.

  • 스캐폴딩 저항 점수(Scaffolding Resistance Score, SRS): AI가 제공하는 힌트나 유도 질문 같은 교육적 안내(스캐폴딩)에 학생들이 얼마나 저항하는지 측정함. 예를 들어, AI의 안내에도 불구하고 Can you list the steps I should take to do this please처럼 절차적 정답을 요구하는 것은 스캐폴딩 저항을 나타냄. 또한 AI의 성찰 유도 질문을 무시하고 새로운 주제를 묻는 경우도 스캐폴딩을 우회하는 행동으로 간주함. 점수가 높을수록 스캐폴딩에 대한 저항이 크다는 의미임.

  • 과제 의존성 비율(Assignment Dependency Ratio, ADR): 학생들이 과제 해결을 위해 AI를 사용하는 정도를 탐지함. Can you help me to determine the appropriate amount of the driver sample...처럼 과제 문맥이 드러나는 질문을 하거나, Write a short response (~250 words, max 500) about what you thought of the film...처럼 과제 지시문을 직접 사용하는 경우를 포함함. 이 지표는 과제 문제 형식이나 학술적 명령문 등 구조적 텍스트 분석과 LLM 기반 대화 패턴 분석을 결합하여 측정함. 점수가 높을수록 과제 관련 사용 가능성이 큼을 의미함.

  • 위기 모드 지표(Crisis Mode Indicator, CMI): 시험 마감 기간 등 학생들이 높은 압박을 받을 때 나타나는 행동 변화를 감지함. 예를 들어, desperate, exam tomorrow와 같은 긴급 언어 사용, 질문의 직설성 증가, 심야 시간 사용, 짧고 단절된 대화 (단일 교환 비율), 전반적인 참여 감소 등을 종합하여 측정함. 점수가 높을수록 위기 상황에서의 AI 사용 패턴이 강함을 의미함.

  • 사용 집중도 지수(Usage Concentration Index, UCI): 학기 중 AI 플랫폼 사용량이 얼마나 고르게 분포되는지 또는 특정 시점에 집중되는지 측정함. 경제학의 지니 계수를 활용하여 일일 사용량 불균형, 최고 사용량 대비 평균 비율, 시간적 군집화 정도를 분석함. 점수가 1에 가까울수록 특정 시점에 사용량이 집중되는 위기 관리형 사용 패턴을 의미하며, 점수가 낮을수록 학기 전반에 걸쳐 분산된 참여를 의미함.

(2) 교수 의도와 다른 학생 사용 패턴의 발견

이 연구는 500개의 학생-AI 대화 분석을 통해 교수 의도와 학생들의 실제 AI 사용 패턴 사이에 근본적인 불일치가 있음을 밝혀냄.

  • 배치 맥락이 행동을 좌우함: AI 도구의 배치 맥락은 학생들의 사용 패턴을 예측하는 가장 강력한 요인임이 드러남. 이는 학생의 선호도나 시스템 설계보다 더 큰 영향을 미침.

  • 선택적 AI 도구의 ‘위기 관리’ 변모: 학생들이 선택적으로 AI 도구를 사용할 수 있는 경우, AI는 학습 동반자라기보다 위기 관리 시스템으로 기능함. 전체 학기 상호작용의 59%가 단일 시험 주간에 집중되는 등, 사용량이 시험 마감 기한 주변에 몰리는 패턴이 나타남. 이는 UCI 지표에서 평균 0.681이라는 높은 집중도로 확인됨.

다섯 가지 데이터셋에서 학기 중 메시지 볼륨을 보여주는 시간별 히트맵. DrMattTabolism, DrNucleicAlice, MEDS2004, OLiMent와 같은 제약된 플랫폼에서는 학기 말 시험 기간에 사용량이 급격히 집중되는 반면, StudyChat은 사용량이 학기 전반에 걸쳐 분산됨을 보여준다.
그림 1: 다섯 가지 교육 데이터셋의 AI 도구 사용량 변화. 제약된 플랫폼은 학기 말에 사용량이 집중되는 양상을 보임. StudyChat은 학기 전체에 걸쳐 사용량이 분산됨.
  • 통합형 AI 도구의 ‘정답 추출’ 경향: AI 도구가 교과 과정에 통합된 경우에는 학생들이 과제 질문을 AI에 직접 붙여넣어 해답을 얻으려는 경향이 자주 나타남. StudyChat과 같은 비제약 플랫폼에서 92.0%의 대화가 정답 찾기 행동을 보임. 이는 제약된 플랫폼의 66.5%보다 훨씬 높은 수치임.

  • 참여도-학습 역설(Engagement-Learning Paradox): 비제약 플랫폼은 높은 대화 참여도를 보이지만(CES 0.713), 학습 지향성은 오히려 낮게 나타남(LOI 0.020). 즉, 높은 참여도가 더 나은 교육적 결과로 이어지지 않는다는 역설이 발생함. 학생들은 교육적 스캐폴딩을 조직적으로 회피하며, 쉬운 상호작용이 깊은 이해로 이어진다는 유창성 환상에 빠지는 것으로 분석됨.

500개 대화의 대화 참여도 점수와 학습 지향성 지수 간의 관계를 나타내는 산점도. 파란색 점은 제약된 플랫폼, 빨간색 점은 비제약 플랫폼(StudyChat)을 나타낸다. StudyChat은 더 높은 참여도를 보이지만 학습 지향성은 낮은, 참여도-학습 역설을 보여준다.
그림 2: 대화 참여도 점수(CES)와 학습 지향성 지수(LOI) 비교. 비제약 플랫폼(StudyChat)은 높은 참여도를 보였으나, 학습 지향성은 낮아지는 역설을 보여줌.
  • 위기 모드 행동의 전환: 선택적 AI 도구는 평가 기간에 ‘위기 모드’ 사용으로 전환됨. 평가 기간 중 메시지 길이가 36%~96% 감소하고, 패닉 지표가 1%~19% 증가하는 행동 변화가 관찰됨. CMI 점수는 모든 선택적 AI 도구에서 0.13~0.20 범위로 나타나, 학생들이 탐색적 학습에서 정답 추출 행동으로 전환됨을 보여줌.
선택적 AI 도구가 있는 네 가지 과정에 대한 전반적인 위기 모드 점수를 보여주는 막대 그래프. 모든 데이터셋에서 0.19에서 0.24 범위 내의 위기 모드 점수가 나타나며, MEDS2004와 OLiMent에서 상대적으로 높은 점수를 보인다.
그림 3: 선택적 AI 도구를 사용한 네 개 과정의 전반적인 위기 모드 점수. 모든 데이터셋에서 위기 모드 행동이 관찰됨.
MEDS2004 데이터셋에서 기준선 대비 피크 평가 기간 동안의 위기 모드 행동 변화율을 보여주는 막대 그래프. 메시지 길이 감소(-60.3%), 대화 길이 감소(-35.8%) 등 부정적 변화가 두드러지며, 패닉 발생(6.5%)과 심야 사용 증가(-3.0%, 실제로는 증가했으나 표시 오류인 듯)도 나타난다.
그림 4: MEDS2004에서 위기 모드 시 행동 변화율. 메시지 길이가 크게 줄어드는 경향을 보임.
DrMattTabolism 데이터셋에서 기준선 대비 피크 평가 기간 동안의 위기 모드 행동 변화율을 보여주는 막대 그래프. 메시지 길이 감소(-59.8%), 대화 길이 감소(-43.4%) 등 부정적 변화가 두드러지며, 패닉 발생(5.9%)과 심야 사용 증가(7.9%)도 나타난다.
그림 5: DrMattTabolism에서 위기 모드 시 행동 변화율. 메시지 길이가 크게 줄어들고 심야 사용이 증가함.
DrNucleicAlice 데이터셋에서 기준선 대비 피크 평가 기간 동안의 위기 모드 행동 변화율을 보여주는 막대 그래프. 메시지 길이 감소(-42.0%)가 두드러지며, 대화 길이 증가(11.4%), 심야 사용 증가(10.5%), 패닉 발생(6.6%) 등도 나타난다.
그림 6: DrNucleicAlice에서 위기 모드 시 행동 변화율. 메시지 길이가 줄어들고, 대화 길이와 심야 사용이 증가함.
  • 과제 의존성 탐지의 한계: ADR 지표는 인간 평가자와 LLM 간에 가장 큰 불일치를 보임. LLM은 과제 관련성을 과대평가하는 경향이 있어, 자동화된 학업 무결성 모니터링 시스템의 실용성에 의문을 제기함.

4. 결론 및 시사점

(1) 이 연구는 AI 교육 시스템이 의도한 교육적 기능을 달성하는지 측정하는 데 필요한 행동 지표를 제시함. 학생들은 높은 참여도를 보이면서도 학습 기회를 조직적으로 회피하며 정답을 추출하는 데 집중함. 이러한 패턴은 기존의 만족도 평가로는 알 수 없는 부분임. AI 도구의 배치 전략이 시스템 설계나 학생 선호도보다 교육적 결과에 훨씬 큰 영향을 미친다는 점을 밝혀냄.

(2) 교육 현장에서는 AI 도구를 단순히 ‘선택 사항’으로 제공할 때, 학생들이 이를 학습 동반자가 아닌 시험 대비 ‘응급 서비스’로 활용할 수 있음을 인지해야 함. AI 설계자들은 사용자 만족도에만 초점을 맞추기보다, 본 연구에서 제안하는 지표들을 활용하여 시스템이 실제 교육적 목표에 부합하는지 평가하고 개선해야 함.

(3) 앞으로의 AI 시스템은 단순 통합을 넘어, 학생 행동 신호를 실시간으로 분석하여 교육적 스캐폴딩의 수준을 동적으로 조절하는 적응형 스캐폴딩 기능을 포함해야 함. 예를 들어, 학생들이 정답 찾기 행동을 보일 때 의도적으로 ‘생산적 어려움(productive struggle)’을 유발하는 방식으로 개입하는 설계가 필요함.


5. 리뷰어의 ADD(+) One: 생각 더하기

(1) 이 논문의 가장 주목할 지점은 AI 교육 시스템의 효과를 평가하는 기존 방식의 근본적인 한계를 지적하고, 이를 극복할 행동 기반 측정 프레임워크를 제시한 점임. 학생들이 AI에 대해 높은 만족도나 참여도를 보이더라도, 실제로는 학습 목표와 동떨어진 ‘정답 찾기’나 ‘위기 관리’ 행동에 몰두할 수 있다는 ‘참여도-학습 역설’을 밝혀낸 점이 중요함. 이는 AI 교육 시스템의 설계 및 운영의 초점을 시스템 성능이나 사용자 만족도에서 실제 교육적 가치학습 행동으로 전환해야 함을 강력하게 시사함. AI의 교육적 활용에 대한 막연한 기대나 기술 중심적 접근이 아닌, 교육학적 통찰에 기반한 실증적 평가의 필요성을 강조함.

(2) 이 연구는 AI가 교육 현장에 스며들면서 발생하는 더 넓은 의미의 질문들을 던짐. 첫째, 인지과학적 관점에서 인간의 메타인지적 한계인지 편향이 AI와의 상호작용에서 어떻게 발현되는지 보여줌. AI가 ‘너무 편리하게’ 설계될 때 오히려 학습자의 자기 조절 학습 능력 발달을 저해할 수 있다는 통찰을 제공함. 둘째, 교육 철학적 관점에서는 AI 시대에 ‘학습’의 본질을 어떻게 정의할 것인가에 대한 고민을 하게 함. 정답을 빠르게 얻는 효율성이 진정한 학습의 목표인지, 아니면 ‘생산적 어려움’을 통한 개념 형성 과정이 더 중요한지에 대한 논의를 촉발함. 셋째, 이 연구의 지표들이 학생 행동 모니터링에 활용될 때 발생할 수 있는 윤리적 문제(dual-use risks)는 AI 교육 시스템 설계에 있어 개인 정보 보호 및 감시의 균형점을 찾는 정책적 논의의 필요성도 시사함.

(3) 이 연구를 발전시킬 구체적인 아이디어는 다음과 같음. 첫째, 문화적, 학문 분야별 맥락을 고려한 지표 정교화가 필요함. 이 연구가 STEM 분야에 국한된 만큼, 인문학이나 사회과학 분야의 AI 학습 도구에서는 어떤 정답 추출 패턴(예: 논문 초록, 개요 요청)이 나타나는지 분석하고, 그에 맞는 탐지 규칙과 LLM 프롬프트 가이드라인을 개발할 수 있음. 둘째, AI 시스템 자체에 메타인지적 성찰 유도 기능을 내재하여 학생 스스로 자신의 AI 사용 패턴을 인식하고 개선하도록 돕는 방안을 모색함. 예를 들어, CMI 점수가 높게 나타날 때 “지금 과제를 위해 급하게 답을 찾고 있나요? 잠시 멈추고 개념을 탐색해 볼까요?”와 같은 AI의 능동적인 질문을 통해 학생들이 자신의 학습 전략을 되돌아보게 함. 셋째, 선택적 AI의 ‘위기 모드’ 사용을 줄이기 위해, 학기 초부터 AI를 활용한 과정 중심 평가(Process-Oriented Assessment)를 도입하여 AI 사용을 학기 전반에 걸쳐 분산시키고, 단순 정답 찾기보다 깊이 있는 탐구를 유도하는 방향으로 AI를 설계할 수 있음.


6. 추가 탐구 질문

(1) AI 교육 시스템이 학습자의 자기 조절 학습 능력메타인지 발달에 장기적으로 어떤 영향을 미치는가? AI가 제공하는 ‘생산적 어려움’이 과연 학습자의 인지 부하를 적절히 조절하며 효과적인 학습을 유도하는가?

(2) 학생들이 AI를 ‘위기 관리’ 도구로 사용하는 현상은 개별 학생의 학습 전략 문제인가, 아니면 대규모 수업 환경, 평가 방식, 학습량 등 교육 시스템 전체의 구조적 문제에서 비롯된 것인가?

(3) 이 연구에서 제안된 행동 지표들이 학생의 개인 정보 보호데이터 윤리 측면에서 어떤 문제점을 내포하는가? AI 시스템이 학생 행동을 측정하고 평가하는 과정에서 발생할 수 있는 잠재적 악용 가능성은 무엇이며, 이를 어떻게 방지할 수 있는가?


출처

  • Kobler, S., Clemson, M., Sun, A., & Kummerfeld, J. K. (2024). Your students don’t use LLMs like you wish they did. arXiv preprint arXiv:2404.12861.