챗GPT 시대, 학생 글쓰기는 어떻게 변화하는가?
우리는 매일 교실에서 챗GPT가 쓴 듯한 보고서를 마주한다. 이 불편한 현실은 우리의 평가 기준과 교육 목표를 근본적으로 흔든다. 학생들이 AI 도구에 의존하는 경향은 이제 거스를 수 없는 흐름이 되었으며, 우리에게는 이 변화를 이해하고 현명하게 대응할 새로운 전략이 필요하다.
AI 시대, 글쓰기 교육의 새로운 난제
통계 및 데이터 과학 교육에서 학생들은 실제 문제를 해결하는 프로젝트를 수행하고 보고서를 작성하며 비판적 사고와 의사소통 능력을 기른다. 이는 단순히 지식을 습득하는 것을 넘어, 복잡한 통계 결과를 비전문가에게 명확하게 전달하는 중요한 역량을 개발하는 과정이다. 그러나 챗GPT 같은 대규모 언어 모델(LLM)의 등장으로, 학생들이 글쓰기 과정에서 필요한 핵심적인 인지 활동을 AI에 전가할 위험이 커졌다.
연구자들은 이러한 현상이 학생들이 통계적 결과 해석, 가설 평가, 데이터 분석의 윤리적 함의 및 한계점 파악 등 중요한 학습 기회를 놓치게 한다고 지적한다. 실제 연구(Georgiou 2025)에서는 챗GPT를 사용하지 않은 학생들이 글쓰기 과제 수행 시 더 깊은 사고, 더 많은 정신적 노력, 더 강한 주의 집중을 보였다고 보고한다. 구조적으로 보면, AI에 대한 과도한 의존은 학생들이 지식을 단순히 나열하는 초기 단계(knowledge-telling)에 머물게 하고, 지식을 변형하고 새로운 이해를 창조하는(knowledge-transforming) 단계를 건너뛰게 한다. 이는 학생들이 나중에 실제 상황에서 새로운 통계 결과를 생산하거나 비판적으로 평가할 능력을 갖추지 못하게 하는 본질적인 결함이다.
학생 보고서, LLM과 전문가 스타일의 혼합 현상
카네기 멜런 대학 연구팀은 LLM의 등장 이후 학생들의 통계 글쓰기가 어떻게 변했는지 면밀히 분석했다. 이들은 2021년부터 2025년까지의 학부생 보고서 1,619개를 ‘학생 코퍼스’로, GPT-4o, GPT-5 Mini, Gemini Flash, Claude Haiku 등 4종의 LLM이 생성한 텍스트 1,227개를 ‘LLM 코퍼스’로, 그리고 LLM이 출현하기 전 발표된 전문가의 피어 리뷰 통계 논문 278개를 ‘전문가 코퍼스’로 구성했다. 각 텍스트의 어휘-문법적 특징(Biber feature rates)을 분석한 후, 선형 판별 분석(LDA) 모델을 적용해 글쓰기 스타일의 변화를 추적했다.
연구는 먼저 Pre-LLM 시기 학생, LLM 생성, 전문가 글쓰기 스타일 사이에 명확한 차이가 있음을 99.46%의 높은 정확도로 구별한다. LLM이 생성한 텍스트는 정보 밀도가 훨씬 높다. 이는 평균 단어 길이가 길고, 현재 분사(예: writing, analyzing), 명사화(예: flexibility), 속성 형용사, 부사 사용률이 높다는 특징으로 나타난다. 반면, Pre-LLM 시기 학생 보고서는 1인칭 대명사, 축약형, 담화 입자(예: well, now), ‘there are’ 같은 존재 구문, ‘that’ 주어절 사용률이 높아 더 상호작용적이고 정보 밀도가 낮은 경향을 보인다. 전문가는 현재 시제와 주체 없는 피동형(‘findings are limited by the small sample size’처럼 주체를 명시하지 않는 표현)을 더 자주 사용한다.
학생 글쓰기 스타일 변화의 핵심은 ‘혼합’이다. LLM 등장 이후 학생 보고서는 LLM과 전문가 글쓰기 스타일의 중간 지점으로 이동한다. 특히 보고서의 서론(첫 번째 5분위)과 결론(마지막 5분위)에서 Pre-LLM 시기 학생 스타일과의 유사성이 각각 17.5%와 18.8% 감소하며 가장 큰 변화를 보였다. 이 부분들이 동시에 전문가적이고 LLM스러운 특징을 띠기 시작한 것이다.
다음 표는 LLM 등장 이후 학생 보고서에서 사용 빈도가 크게 변한 Biber 특징을 보여준다.
| Biber 특징 | LLM 관련 특징 | 표준화된 평균 변화 (Pre-LLM 대비 Since-LLM) |
|---|---|---|
| 현재 분사 | LLM | +0.93 |
| 평균 단어 길이 | LLM | +0.89 |
| 속성 형용사 | LLM | +0.50 |
| 명사화 | LLM | +0.41 |
| ‘be’ 주 동사 | 전문가 | -0.31 |
| 1인칭 대명사 | Pre-LLM 학생 | -0.28 |
| 존재 구문 (‘there’) | Pre-LLM 학생 | -0.27 |
| 주체 없는 피동형 | 전문가 | -0.23 |
LLM과 연관된 특징은 사용 빈도가 뚜렷하게 증가했고, Pre-LLM 학생 특징은 감소했다. 흥미롭게도 전문가 특징인 ‘be’ 주 동사나 ‘주체 없는 피동형’의 사용은 오히려 줄었다.
LLM이 선호하는 동사 사용에서도 비슷한 경향이 나타났다. LLM이 가장 자주 쓰는 동사 97개 중 39개(40.2%)가 LLM 이후 학생 보고서에서 통계적으로 유의미하게 사용이 증가했다. 특히 ‘enhance’는 Pre-LLM 시기 14회에서 LLM 이후 122회로 8.71배 증가했고, ‘suggest’는 5배 이상 증가했다. 더 흥미로운 점은 ‘underscore’라는 동사는 Pre-LLM 학생 보고서에서는 단 한 번도 사용되지 않았으나, LLM 이후 학생 보고서에서는 35회 등장했다. 이는 학생들이 AI가 만들어내는 특정 어휘와 표현 방식을 직접적으로 흡수하고 있음을 강력히 시사한다.
본질적으로 보면, 학생들이 AI의 ‘정보 밀도 높은’ 스타일을 흡수하지만, 전문가의 미묘한 ‘주체 없는 피동’이나 ‘be 동사 주 동사’ 같은 사용법은 직접적으로 체득하지 못하는 것으로 보인다. 이는 표면적인 전문가 유사성 뒤에 숨겨진 인지적 회피라는 본질적인 문제를 드러낸다. 학생들이 특정 구간에서 AI 도움을 받는 이유는 해당 부분이 어떻게 쓰여야 할지 확신이 없거나, 통계적 가치가 낮다고 판단하기 때문일 수 있다.
교실 현장, 평가의 패러다임을 전환하다
이 연구는 AI 시대의 교육이 단순히 도구의 사용법을 넘어, 인간만이 할 수 있는 비판적 사고와 성찰의 영역을 어떻게 지킬 것인가에 대한 본질적인 질문을 던진다. 우리가 목격하는 학생 글쓰기의 변화는 단지 스타일의 문제가 아니라, 학습 과정의 깊이에 대한 경고음이다. 이제 전통적인 프로젝트 기반 평가 방식은 AI의 접근성 때문에 학생들의 실제 학습 기여도를 파악하기 어려워졌다. 미국 내 대학생 9만 5천 명 이상을 대상으로 한 조사에서 2/3가 생성형 AI를 사용했고, 37%는 정기적으로 사용한다고 보고한다(Chirikov et al. 2026). 이 현실 앞에서 단순히 AI 탐지 도구에 의존하는 것은 무의미하다. 학생들은 AI를 ‘감추는’ 방향으로 진화한다.
우리는 학생이 ‘AI 흉내 내기 선수’가 되기를 바라는 것이 아니다. 구조적으로 보면, 진정한 교육적 목표는 학생이 비판적 판단력과 통계적 사고를 갖추어 AI 도구를 책임감 있게 활용하도록 이끄는 것이다. 그렇다면 우리는 무엇을 어떻게 해야 할까?
다음은 현장에서 당장 시도할 수 있는 구체적인 대안이다.
1. 타겟팅된 짧은 글쓰기 과제 도입
학생들이 보고서의 특정 섹션(예: 데이터셋 설명, 계수 해석, 분석 한계점)을 특정 구조에 따라 작성하게 한다. 예를 들어, 연구 문제의 중요성 설명, 현재 지식 상태 제시, 연구 간극 식별, 그리고 자신의 작업이 그 간극을 어떻게 메우는지 명확히 설명하는 서론 작성 과제를 내는 것이다(Swales 1990). 이는 학생들이 서론의 중요성과 구조를 더 잘 이해하도록 돕는다.
- 실천 제안: 보고서 전체를 AI로 쓰더라도, 핵심 분석 결과 3개에 대한 ‘나만의 결론 문장’ 100자 쓰기 챌린지를 도입한다. 이 문장을 점심시간 동료 교사들과 돌려보며 ‘AI로는 이런 문장이 안 나온다’는 공감대를 형성한다. 혹은 주 1회, 수업 시작 5분 전 ‘지난 시간 학습 내용 중 가장 혼란스러운 개념 한 가지’를 A4 용지에 손글씨로 써서 제출하게 한다. AI가 할 수 없는 ‘개념적 혼란’을 명시적으로 드러내게 만드는 것이다. 이러한 활동은 학생들의 자기 성찰을 촉진하고, ‘어떻게 쓰여야 할지 모르겠다’는 지점 자체를 학습 기회로 바꾼다.
2. AI 산출물 비판적 평가 활동
학생들이 AI가 생성한 통계적 추론이나 결과물에 대해 숨겨진 가정이나 잠재적 오류를 비판적으로 평가하게 한다. 이는 통계적 사고와 평가를 디지털 리터러시의 핵심 구성 요소로 만드는 데 기여한다(Royal Statistical Society AI Task Force 2026).
- 실천 제안: 수업 시간, AI가 작성한 보고서 초안을 통계적 오류 3가지와 그 오류가 실제 데이터 해석에 미칠 영향을 찾아내고, 왜 이런 오류가 발생했는지 팀별로 토론하게 한다. 그 후, 챗GPT에게 이 오류들을 수정하도록 명령하는 프롬프트를 각 팀이 작성하여 발표하는 활동은 어떠한가? 이는 AI의 한계를 이해하고, 책임감 있게 활용하는 능력을 키운다. 이 조건이 충족될 때만 AI는 학습의 진정한 도구가 된다.
3. 구술 평가의 전략적 활용
구술 평가는 학생들의 의사소통 능력을 개발하고 AI의 도움 없이 통계적 사고를 평가할 수 있는 효과적인 방법이다(Theobold 2021). 대규모 수업에서는 모든 학생에게 적용하기 어렵지만, 특정 섹션에 대한 구술 점검을 도입하면 된다.
- 실천 제안: 보고서 제출 후 5분간 서론 또는 결론에 대한 구두 설명을 요구하거나, 결론의 핵심 문장 하나를 가지고 심층 질문을 던진다. 이 짧은 대화 한 토막은 AI가 대신할 수 없는 학생의 깊은 이해와 통찰을 파악하는 데 결정적인 역할을 한다.
결국 중요한 것은 무엇인가
이 연구는 우리에게 AI 시대의 교육이 단순히 도구의 사용법을 넘어, 인간만이 할 수 있는 비판적 사고와 성찰의 영역을 어떻게 지킬 것인가에 대한 본질적인 질문을 던진다. 기술이 발전할수록, ‘무엇을 아는가’가 아니라 ‘무엇을 할 수 있는가’와 ‘무엇을 어떻게 생각하는가’가 더 중요해진다. 우리는 이 변화를 위기가 아닌, 교육의 핵심 가치를 재정립할 기회로 삼아야 한다.
당신의 다음 수업에서, 학생들이 AI를 통해 얻은 ‘전문가처럼 보이는’ 문장 뒤에 숨겨진 ‘자신만의 생각’을 어떻게 발견하고 드러내게 할 것인가? 한 학기 동안 시도할 작은 글쓰기 도전 과제 하나를 지금 당장 설계해 본다.
출처
- Colando, S., Franke, E., Weinberg, G., & Reinhart, A. (2026). Analyzing Students’ Statistics Writing Before and After the Emergence of Large Language Models. Journal of Statistics and Data Science Education.