9 분 소요

hits
수행평가 AI 활용 관리 방안의 현장 안착을 위한 제안

1. 새로운 시대의 평가, 통제에서 역량 중심으로

교육부가 생성형 인공지능(AI) 시대의 도래에 발맞춰 학생 평가의 공정성과 신뢰성을 확보하고자 <수행평가 시, AI 활용 관리 방안>을 선제적으로 마련한 노력은 매우 시의적절하며 긍정적으로 평가받아야 마땅합니다. AI가 학습의 보조 도구를 넘어 지식 생성의 주체로 부상하는 오늘날, 학생의 실제 역량을 공정하게 측정하고 미래 사회에 필요한 AI 협업 역량을 길러주는 평가 체계를 구축하는 것은 더 이상 미룰 수 없는 핵심적인 정책 과제입니다.

하지만 현재 발표된 관리 방안은 근본적으로 ‘통제와 규제’라는 패러다임에 머물러 있어 학교 현장의 복잡한 현실을 충분히 담아내지 못하는 한계를 보입니다. ‘AI 활용 과정 표기 의무화’, ‘금지 행위 설정’ 등은 평가의 근본적인 틀은 그대로 둔 채 학생의 자발적 준수에 의존하는 ‘설명적 조치(discursive changes)’에 그칩니다. 이러한 접근은 교사에게 과도한 행정 부담을 지우고, 학생의 모든 활용 과정을 검증하는 것이 현실적으로 불가능하여 정책의 실효성을 담보하기 어렵습니다.

따라서 본 제안에서는 단순한 비판을 넘어, 평가의 패러다임을 ‘통제’에서 ‘역량’ 중심으로 전환하는 구체적이고 현실적인 대안을 제시하고자 합니다. 핵심은 학생에게 규칙 준수를 요구하는 것을 넘어, 과제의 본질과 평가 메커니즘 자체를 변경하는 ‘구조적 변화(structural changes)’를 통해 AI의 부적절한 사용을 원천적으로 어렵게 만드는 것입니다. 이를 통해 정책의 실효성을 높이는 동시에 교사의 감독 부담을 줄이고, 학생이 AI를 책임감 있는 협력자로 활용하는 역량을 자연스럽게 기르도록 지원할 수 있습니다.


2. 현행 AI 활용 관리 방안의 한계점 분석

교육부의 관리 방안이 AI 활용에 대한 기본 원칙을 제시했다는 점에서 그 첫걸음의 의미는 분명합니다. 그러나 학교 현장의 다양한 변수와 교사의 실제적 어려움을 충분히 고려하지 않은 지침은 의도치 않은 부작용을 낳을 수 있습니다.

2.1. 원칙의 모호성과 행정 부담의 가중

현행 방안은 ‘AI 활용 금지 행위 설정’이나 ‘AI 활용 과정 표기’ 등의 기준 마련을 개별 학교와 교사의 재량에 과도하게 위임하고 있습니다. 이는 교사의 전문성을 존중하는 것으로 보일 수 있으나, 명확한 가이드라인 없이는 오히려 학교 간, 교사 간 기준 편차를 유발하여 새로운 형평성 문제를 낳고 분쟁의 소지를 키울 수 있습니다.

특히, 학생이 사용한 모든 AI의 종류, 입력한 질문(프롬프트), 결과물 반영 방식 등을 상세히 기록하여 제출하도록 하는 요구는 현실성이 떨어집니다. 교사가 수십 명의 학생이 제출한 방대한 활용 기록을 일일이 검토하고 진위 여부를 판단하는 것은 물리적으로 불가능에 가깝습니다. 결국 이 조치는 실제적인 검증 과정 없이 형식적인 서류 작업으로 전락하여, 학생과 교사 모두에게 불필요한 행정 부담만 가중시킬 위험이 큽니다.

2.2. ‘수업 시간 내 평가’ 원칙의 비현실성

방안은 ‘수업 시간에 교사가 직접 학생의 산출 과정을 관찰할 수 있는 형태의 평가’를 강조합니다. 이는 과정 중심 평가의 원칙에 부합하지만, 현재 학교 현장의 여건을 고려할 때 경직된 적용은 오히려 교육의 질을 떨어뜨릴 수 있습니다. 절대적인 수업 시수 부족, 교사 1인당 학생 수가 많은 다인수 학급 환경 등 현실적 제약으로 인해 모든 프로젝트형 수행평가를 수업 시간 내에 완료하는 것은 매우 어렵습니다.

이 원칙을 무리하게 고수할 경우, 교사는 내실 있는 관찰과 개별 피드백을 제공하기보다 학생들의 활동을 형식적으로 확인하는 수준에 그칠 수 있습니다.

2.3. 부정행위 판단 기준의 부재

관리 방안은 ‘AI가 생성한 글을 자신의 창작물로 제출하는 행위’ 등 금지 행위를 예시로 들었지만, 정작 이를 위반했을 때의 구체적인 판단 기준과 처리 절차는 제시하지 않고 있습니다. 어느 정도까지 수정·가공해야 학생의 창작물로 인정할 것인지, 의심 사례 발생 시 어떤 증거를 기준으로 삼을 것인지, 성적 처리 방식은 어떻게 할 것인지에 대한 명확한 프로토콜이 부재하여 공정성 시비가 발생할 가능성이 매우 높습니다.

더욱이, 시중의 AI 탐지 도구는 정확도에 한계가 있어 이를 단독 증거로 사용하기 어렵다는 것이 학계의 중론입니다.

2.4. ‘통제’ 중심 접근법의 교육적 한계

현행 방안의 전반적인 기조는 ‘부정행위 방지’와 ‘공정성 확보’에 강하게 초점이 맞춰져 있습니다. 이러한 일률적(one-size-fits-all) 접근은 특히 초등과 중등의 발달 단계 차이를 고려하지 못하는 문제를 낳습니다. 결과적으로, 학생과 교사에게 AI는 ‘학습을 돕는 유용한 도구’가 아닌, ‘위험하고 통제해야 할 대상’이라는 인식을 심어줄 위험이 있습니다.


3. 정책 개선을 위한 핵심 원칙: ‘설명’에서 ‘구조’로의 전환

본 제안서의 핵심 원칙은 평가 설계의 패러다임을 ‘설명적 변화’에서 ‘구조적 변화’로 전환하는 것입니다.

Corbin, T., Dawson, P., & Liu, D. (2025)에 따르면, ‘설명적 변화’는 평가의 근본 메커니즘은 그대로 둔 채 학생에게 규칙이나 지침을 전달하는 데 의존하는 방식입니다. 반면, ‘구조적 변화’는 과제를 수행하는 방식의 본질, 형식, 메커니즘 자체를 변경하여 학생의 자발적 준수에 의존하지 않는 방식입니다.

설명적 변화 vs 구조적 변화 비교표
설명적 변화와 구조적 변화의 차이

이러한 ‘구조적 변화’의 효과성은 Das, S., Majumder, P., & Eliseev, A. (2025)의 연구를 통해 실증적으로 입증되었습니다. 이 연구는 AI에게 독립적인 문항을 제시했을 때는 90% 이상의 높은 정확도를 보였지만, 여러 문항이 서로 논리적으로 연결된 ‘상호 연관 문항’을 제시하자 정확도가 30~40%까지 급감하는 현상을 발견했습니다. 이는 AI가 개별 지식 인출에는 강하지만, 복합적인 제약 조건이 얽힌 논리적 통합(홀리스틱 추론)에는 취약하다는 점을 공학적으로 보여줍니다.


4. 실효성 제고를 위한 6대 핵심 개선 방안

4.1. 제안 1: 교사를 위한 ‘AI 복원력 있는 평가 설계’ 지원 도구 개발 및 보급

교사 스스로 자신의 평가 과제가 설명적 조치에만 의존하고 있는지 진단할 수 있는 ‘구조적 평가 요소 체크리스트’ 개발을 제안합니다.

점검 항목 해당 여부
실시간 시연 및 발표/구술 질의응답 요소가 있는가? □ 예 / □ 아니요
과제 수행 과정에 대한 성찰적 기록을 요구하는가? □ 예 / □ 아니요
이전 과제와의 연계성이 확보되었는가? □ 예 / □ 아니요
AI로는 생성하기 어려운 개인적 경험이나 현장 자료를 활용하는가? □ 예 / □ 아니요
최종 결과물이 아닌, 과정 중심의 평가 요소가 명확한가? □ 예 / □ 아니요
여러 과제를 연결하여 전체 역량을 입증하는 모듈 단위의 평가인가? □ 예 / □ 아니요

단순히 규칙을 전달하는 대신, 그 규칙을 평가 활동의 일부로 통합하여 구조화하는 과제 설계 예시를 제공합니다. “규칙을 지키라”고 말하는 것이 ‘무단횡단을 하지 마세요’라는 표지판을 세우는 것이라면, 규칙을 활동으로 구조화하는 것은 길 중간에 예쁜 화단을 조성하거나 편리한 육교를 설계하여 사람들이 자연스럽게 정해진 길로 걷게 만드는 것과 같습니다.

가. 아이디어 생성 및 구체화 단계

  • As-Is (설명적 지침): “AI로 아이디어만 얻고, 실제 글쓰기는 학생 스스로 직접 수행하시오.”
  • To-Be (구조적 활동): AI와 대화한 프롬프트(질문) 기록과 답변 내용을 제출하게 하고, 그중 어떤 아이디어를 왜 채택하거나 기각했는지 그 비판적 선택 과정을 활동지에 기록하도록 설계합니다.

(초등 고학년용)

  1. 먼저 AI에게 여러 가지 질문을 하여 글쓰기 아이디어를 떠올리세요.
  2. AI와 나눈 대화에서 나온 질문과 AI의 답을 함께 기록해 두세요.
  3. 그다음 AI가 제안한 아이디어 중에서 쓸 것을 골라 이유를 쓰고, 쓰지 않을 아이디어도 왜 버렸는지 활동지에 자세히 적으세요.
  4. 마지막으로, AI 아이디어를 참고하되 그대로 옮기지 말고, 여러분의 생각과 말투로 스스로 글을 완성하세요.

(중학교용)

  1. 글을 쓰기 전에 AI에게 여러 차례 질문하여 글의 주제와 관련된 다양한 아이디어를 얻으시오.
  2. 이때 사용한 프롬프트(질문)와 AI의 주요 답변 내용을 함께 정리하여 제출하시오.
  3. AI가 제시한 아이디어 중 어떤 것을 채택하고, 어떤 것을 기각했는지 그 이유를 활동지에 구체적으로 기록하시오.
  4. 글 초고를 작성할 때에는 AI가 준 내용을 그대로 베끼지 말고, 자신의 관점과 표현을 중심으로 스스로 글의 구조와 문장을 구성하시오.

(고등학교용)

  1. 글쓰기 과정에서 AI를 아이디어 발상 도구로 활용하되, 초안 작성은 본인이 직접 수행하시오.
  2. AI에게 제시한 프롬프트(질문)와 그에 대한 AI의 핵심 답변을 정리하여 함께 제출하시오.
  3. AI가 제안한 여러 관점·근거·표현 중에서 무엇을 왜 선택하거나 배제했는지, 그 비판적 판단 과정을 활동지에 논리적으로 기록하시오.
  4. 최종 글에서는 AI가 생성한 문장을 단순 전재하지 말고, 자신의 문제의식과 목소리가 드러나도록 내용을 재구성하고 표현을 재작성하시오.

나. 정보의 신뢰성 검증 단계

  • As-Is (설명적 지침): “AI는 잘못된 정보(할루시네이션)를 줄 수 있으니 반드시 사실 여부를 확인하고 출처를 밝히시오.”
  • To-Be (구조적 활동): ‘교차 검증 활동’을 평가의 필수 독립 단계로 구성합니다. AI가 제공한 정보를 나열한 뒤, 이를 공신력 있는 기관의 문서, 교과서, 통계 자료 등 최소 3가지 이상의 다른 출처와 비교하여 신뢰성을 판정하는 ‘정보 검증 리스트’ 작성을 과제에 포함시킵니다.

다. 산출물 작성 및 검증 단계

  • As-Is (설명적 지침): “AI가 생성한 결과물을 그대로 제출하지 마시오. 적발 시 부정행위로 간주합니다.”
  • To-Be (구조적 활동): 최종 결과물 제출에 그치지 않고, 수업 시간 내 실시간 활동 중심의 평가를 운영합니다. 과제 제출 후 ‘3분 구술 발표 및 질의응답’ 단계를 두어, 학생이 자신의 결과물에 담긴 논리와 개념을 정확히 이해하고 있는지 대면으로 확인하는 절차를 구조화합니다.

라. 개인적 경험 및 맥락의 반영

  • As-Is (설명적 지침): “자신만의 창의적이고 독창적인 의견을 담아 보고서를 작성하시오.”
  • To-Be (구조적 활동): AI가 생성하기 어려운 학교·지역의 특수성이나 개인적 경험, 실시간 실험 데이터를 탐구 과정의 필수 요소로 지정합니다. “우리 학교 주변의 식물을 직접 관찰한 기록”이나 “우리 동네의 특정 환경 문제”를 해결책과 연결하게 함으로써 AI의 표준적인 답변만으로는 과제를 완수할 수 없도록 구조를 설계합니다.

4.2. 제안 2: 학교 현장의 행정 부담을 줄이는 표준화된 양식 제공

핵심 아이디어 도출 등은 수업 중에, 자료 보완 및 편집은 과제로 허용하는 ‘혼합 모델’ 을 적극 권장합니다. 또한 교육부·교육청 차원에서 다음과 같은 표준 양식 세트의 개발 및 보급을 제안합니다.

  • 가. 가정통신문 예시: 학교 공통 안내문 (AI 활용 허용/금지 원칙, 개인정보보호 안내 포함)
  • 나. 학생용 과제 안내문 예시: 과제의 목표, 절차, AI 활용 방법 상세 안내 포함
  • 다. AI 활용 기록표 양식 (간소화/상세화 버전): 초등학생용 간단한 체크리스트 방식, 중·고등학생용 상세 서술형 방식으로 차등화
  • 라. 교사용 채점 기준표(루브릭) 예시: ‘AI 활용 태도 및 투명성’ 항목이 포함된 루브릭

4.3. 제안 3: 현실적인 ‘부정행위 의심 사례 처리 프로토콜’ 수립

“AI 탐지 도구는 보조적 참고자료일 뿐 단독 증거로 사용하지 않는다”는 원칙에 기반한 3단계 처리 프로토콜을 제안합니다.

  • 1단계: 구술 확인 — 학생에게 결과물의 핵심 내용을 구두로 설명하도록 요청하여 이해도를 확인합니다.
  • 2단계: 재과제 부여 — 필요 시, 핵심 부분을 수업 시간 내에 재작성하도록 하여 실제 수행 능력을 검증합니다.
  • 3단계: AI 활용 기록 재검토 — 제출된 기록과 결과물을 비교 분석하여 최종 판단의 근거로 삼습니다. 이 과정에서 학생에게는 충분한 소명 기회를 반드시 제공해야 합니다.

4.4. 제안 4: ‘AI 활용 태도 및 투명성’ 항목을 포함한 채점 기준표(루브릭) 공식화

AI 활용을 감시와 통제의 대상이 아닌, 평가 가능한 교육적 역량으로 전환할 것을 제안합니다.

등급 기준
AI 활용 내역을 솔직하고 상세하게 기록하며, AI가 제공한 정보를 다른 신뢰할 수 있는 출처와 교차 확인하는 등 비판적으로 검토한 흔적이 명확함.
AI 활용 기록은 있으나 설명이 간단하며, 전반적으로 학생 주도적 작성이지만 일부 AI의 영향이 보임.
AI 활용 기록이 없거나 불명확함에도 불구하고, 결과물이 AI 생성물과 과도하게 유사하거나 정직성이 결여된 것으로 판단됨.

이러한 루브릭은 학생들에게 AI 사용을 숨기기보다, 정직하게 밝히고 책임감 있게 활용하는 것이 더 좋은 평가를 받는다는 긍정적인 신호를 줌으로써 올바른 AI 윤리관을 내면화하도록 도울 것입니다.


4.5. 제안 5: 학교급·과제 유형별 ‘AI 활용 기록’ 양식 차등화 및 간소화

  • 간략형 (초등 및 간단한 과제용): AI 사용 여부(체크박스)와 주된 활용 목적만 간략히 기재
  • 서술형 (중·고등 프로젝트 및 보고서용): 사용한 AI 도구, 대표 프롬프트, 구체적인 활용 방식, AI 답변에 대한 비판적 검토 내용 등을 포함하는 상세 양식

4.6. 제안 6: AI와의 능동적 협업을 유도하는 과제 모델 발굴 및 공유

  • 비판 및 개선형 과제: AI가 생성한 불완전하거나 편향된 글 또는 자료를 제시하고, 학생이 사실을 확인하여 오류를 수정하고 논리를 보강하여 더 나은 결과물을 만들도록 요구하는 과제
  • 융합 및 초월형 과제: AI를 통해 얻은 일반적인 정보에 학생 개인의 고유한 경험이나 지역 사회에 대한 관찰 내용(예: ‘음식물 쓰레기 감량을 위한 우리 학교의 실천 방안’)을 융합하여 AI만으로는 생성할 수 없는 독창적 결과물을 창출하도록 요구하는 과제

5. 기대 효과 및 결론

여기에서 제시한 개선 방안들이 채택될 경우, 다음과 같은 긍정적 효과를 기대할 수 있습니다.

  • 가. 정책의 현장 안착 및 실효성 제고: 추상적 지침이 구체적인 도구(체크리스트, 템플릿)와 실행 방법론(구조적 과제 설계, 루브릭)으로 보완되어, 학교 현장에서의 혼란을 최소화하고 정책의 본래 취지를 성공적으로 구현할 수 있습니다.
  • 나. 교사의 행정 업무 부담 경감 및 평가 전문성 신장: 표준화된 양식과 체크리스트 제공으로 교사의 행정 부담이 줄어들고, 교육적 효과가 높은 구조적 평가 설계와 AI 협업 역량 평가에 더 집중함으로써 평가 전문성이 자연스럽게 향상됩니다.
  • 다. 미래 핵심 역량으로서 ‘AI 협업 역량’ 함양: 평가의 패러다임을 ‘통제’에서 ‘교육’으로 전환하여, 학생들이 AI를 자신의 사고를 확장하고 문제를 해결하는 협력적 파트너로서 책임감 있고 비판적으로 활용하는 능력을 실질적으로 기를 수 있는 교육 환경이 조성됩니다.
  • 라. 평가의 공정성 및 신뢰도 향상: 명확하고 구조화된 평가 기준과 부정행위 의심 시 절차적 정당성을 확보하는 프로토콜을 통해 AI 활용과 관련된 논란을 줄이고 평가 결과에 대한 사회적 신뢰도를 높일 수 있습니다.

본 제안서의 핵심은 평가의 패러다임을 ‘통제에서 역량 중심으로’ 전환하고, 이를 위해 평가의 메커니즘 자체를 바꾸는 ‘구조적 평가 설계’가 필수적임을 강조하는 데 있습니다.

아울러 중·고등학교에서는 ‘는’, ‘도’ 등의 조사 하나에, 양식 ‘참조’, ‘권고’ 단어 하나에 매우 민감하며, 지침 하나로 학생의 진로가 뒤바뀌기도 합니다. 표준화된 양식이 또 다른 업무가 되지 않도록, 지원 도구가 또 다른 발목 잡기가 되지 않도록 현장의 의견 수렴 및 깊은 검토가 필요합니다.


참고문헌

  • Corbin, T., Dawson, P., & Liu, D. (2025, May 15). Talk is cheap: why structural assessment changes are needed for a time of GenAI. Assessment & Evaluation in Higher Education. https://doi.org/10.1080/02602938.2025.2503964
  • Das, S., Majumder, P., & Eliseev, A. (2025). Designing AI-resilient assessments with interlinked problems. ITMO University & University of North Bengal.

출처

https://slashpage.com/tripod/column?post=3p4kj92yp8jr8m57q1x8&v=q9ke52