5 분 소요

hits

한 학기 동안 한 학생을 두고 우리가 실제로 모으는 증거를 적어 보면, 대개 중간고사 점수 한 줄과 기말고사 점수 한 줄로 끝난다. 학교 비전 페이지에는 자기주도성, 협력, 창의성이 큼직하게 적혀 있는데, 정작 그 역량을 보여주는 증거는 어디에도 쌓이지 않는다. 맥타이와 커티스가 이 장에서 찌르는 지점이 정확히 여기다. 우리는 길러내겠다고 선언한 것을 측정하지 않고, 측정하기 쉬운 것만 측정한 뒤 그것을 성취라 부른다.

무엇을 어떻게 평가할 것인가 — 5장 미래학습을 위한 평가시스템

스냅샷이 아니라 사진첩이다

이 장의 중심 비유는 단순하면서도 날카롭다. 학생의 학습을 한 장의 사진으로 볼 것인가, 여러 시점에 여러 렌즈로 찍은 사진을 모은 앨범으로 볼 것인가. 시험 한 번의 점수는 스냅샷이다. 그 순간 그 조건에서 그 학생이 보여준 한 컷일 뿐이다. 컨디션이 나빴거나, 문제 유형이 그 학생의 강점을 비껴갔거나, 긴장으로 아는 것을 못 풀었을 가능성을 단 한 장의 사진은 구별하지 못한다.

역량이나 이해처럼 복합적인 성취는 본질적으로 누적된 증거로만 신뢰성 있게 드러난다. 협력을 잘하는가는 한 번의 객관식으로 잡히지 않는다. 새로운 상황에 배운 것을 적용하는 전이 능력은 익숙한 유형의 문제를 반복해 풀게 해서는 보이지 않는다. 그래서 맥타이와 커티스는 평가를 낱개 시험의 합이 아니라 하나의 시스템으로 설계하라고 요구한다. 한 평가가 놓치는 증거를 다른 평가가 메우도록, 비전이 정의한 장기 목표를 정점에 두고 여러 방법을 의도적으로 배치하는 구조다.

여기서 핵심 전환이 일어난다. 평가는 학습이 끝난 뒤 결과를 재는 자가 아니다. 학교가 표방한 가치 있는 학습이 실제로 일어나고 있는지를 증명하는 비전의 거울이다. 평가 시스템을 들여다보면 그 학교가 무엇을 진짜로 중요하게 여기는지가 드러난다. 비전 문서가 아니라 평가표가 학교의 진심을 말한다.

구분 스냅샷 (전통 평가) 사진첩 (평가 시스템)
시점 한 번 (시험일) 학기·학년에 걸쳐 누적
증거 종류 주로 선택형·단답형 수행·산출물·관찰·자기평가 등 다원
측정 대상 회상·재인 중심 이해·전이·자기조절까지
공정성 한 순간 컨디션에 좌우 여러 기회로 편차 보정
학습 추론 단편적, 추론 폭 좁음 다양한 증거로 추론 견고
한계 복합 역량은 잡지 못함 설계·운영 비용이 큼

표의 마지막 줄을 정직하게 봐야 한다. 사진첩 방식이 무조건 우월한 것이 아니다. 증거를 다양하게 모으려면 설계와 채점에 시간이 든다. 그럼에도 우리가 길러내겠다고 한 것을 측정하려면 다른 길이 없다.

핵심 도구를 한자리에 모으면

이 장이 제안하는 평가의 무게중심은 백워드 설계의 2단계, 곧 수용 가능한 증거를 결정하는 단계에 있다. 위긴스와 맥타이의 UbD는 바람직한 결과를 먼저 확인하고, 그 결과를 어떤 증거로 확인할지 정한 다음, 마지막에 수업을 설계한다. 가르치기 전에 무엇을 어떤 증거로 볼지부터 정한다는 순서가 핵심이다. 이 장의 평가 시스템은 그 2단계를 한 교실이 아니라 학교 차원으로 확장한 것이다.

도구 무엇인가 무엇을 잡는가
수행과제 (GRASPS) 실제 맥락에서 지식·기능을 적용하게 하는 진정성 있는 과제 이해의 전이, 적용 능력
루브릭 수행의 질을 판단하는 기준표 (분석적·총체적) 복합 수행을 일관·투명하게 채점
포트폴리오 시간에 걸친 학생 작업의 모음 성장 과정, 누적된 역량 증거
자기평가·성찰 학생이 자기 학습을 점검·평가하는 활동 메타인지, 자기조절학습
전이의 평가 낯선 상황에 적용할 수 있는가를 보는 평가 진짜 이해 여부

GRASPS는 수행과제를 설계하는 틀이다. Goal(목표), Role(역할), Audience(대상), Situation(상황), Product 또는 Performance(산출물·수행), Standards(성공기준·평가기준)의 머리글자다. 단순 회상이 아니라 학생을 실제 역할에 놓아 지식의 적용을 끌어낸다는 발상이다.

요소 설계 질문
Goal (목표) 학생이 풀어야 할 진짜 문제·도전은 무엇인가
Role (역할) 학생이 맡는 역할은 무엇인가 (기자·설계자·정책 제안자 등)
Audience (대상) 결과물을 받는 청중은 누구인가
Situation (상황) 어떤 맥락·시나리오에 놓이는가
Product/Performance 무엇을 만들거나 수행하는가
Standards (성공기준) 무엇이 우수한 결과인가, 무엇으로 판단하는가

루브릭에 관해 한 가지를 분명히 해야 한다. 루브릭은 채점이 끝난 뒤 꺼내는 도구가 아니다. 우수함의 기준을 학생에게 미리 보여주는 학습 도구다. 채점 직전에 처음 공개되는 루브릭은 평가의 투명성을 약간 높일 뿐이지만, 과제 시작 전에 공유되고 우수 사례(앵커)와 함께 제시되는 루브릭은 학생이 자기 작업을 스스로 겨냥하게 만든다. 같은 표라도 언제 보여주느냐에 따라 기능이 완전히 달라진다.

유형 정의 장점 단점 적합 상황
분석적 루브릭 요소별로 나눠 채점 구체적 피드백, 성취기준별 도달 판단 채점 시간 길다 성취평가, 상세 피드백
총체적 루브릭 전체를 한 번에 채점 빠르고 전반적 인상 포착 어디를 고칠지 모호 대량 채점, 빠른 분류

고교학점제 성취평가제에서 성취수준을 산출할 때, 요소별 도달 여부를 가르는 분석적 루브릭이 일관성과 신뢰도 확보에 직접 쓰인다는 점은 짚어둘 만하다.

우리 교실로 옮겨 보면

여기부터는 책의 직접 내용이 아니라 필자가 한국 교실 맥락으로 번역한 해석과 가상의 예다. 책에 실린 학교 사례가 아님을 분명히 둔다.

이 장의 지향은 2022 개정 교육과정의 과정중심평가와 거의 같은 방향을 가리킨다. 결과 점수라는 스냅샷에서 학습 과정의 누적 증거라는 사진첩으로의 이동이 두 텍스트의 공통 지향이다. 그래서 이 장은 과정중심평가가 왜 필요한지를 이론적으로 받쳐주는 자료로 읽힌다.

책의 개념 대응하는 한국 제도·정책
전이의 평가 서·논술형 확대, AI 시대 평가 재설계
과정 증거의 누적 2022 개정 과정중심평가
분석적 루브릭 고교학점제 성취평가제 성취수준 산출
포트폴리오·자기평가 학교자율시간·자유학기제 산출물 평가
진정성 수행과제 핵심역량 평가, IB(MYP·DP) 내부평가

예를 들어 중학교 1학년 과학 수업이라면, 핵심역량 중 하나인 지식정보처리 역량을 어떻게 증거로 잡을지 막막할 때가 많다. GRASPS로 풀면 이렇게 설계할 수 있다. 학생에게 우리 동네 하천의 수질 변화를 분석하는 환경 모니터링 요원(Role)의 역할을 주고, 구청 환경 담당자(Audience)에게 제출할 개선 제안서(Product)를 만들게 한다. 최근 3년 측정 자료라는 낯선 데이터(Situation)를 주면, 교과서에서 본 적 없는 맥락에 배운 분석법을 적용해야 한다. 이때 비로소 회상이 아닌 전이가 증거로 남는다.

생성형 AI 시대에 이 장의 무게는 오히려 더 무거워진다. 단편 지식과 정형화된 과제의 답은 이제 학생이 챗봇에게 물어 5초 만에 얻는다. 그렇다면 어떤 평가 증거가 여전히 학생 자신의 이해를 보여주는가. 정확히는, 낯선 맥락에서의 적용과 학생 자신의 성찰만이 AI로 대체되기 어려운 증거로 남는다. 회상형 시험에 매달릴수록 우리는 AI가 가장 잘하는 일을 학생에게 시키고 채점하는 셈이 된다.

한 가지 비판적 시선

이 장의 설계가 현장에서 무너지는 지점을 정직하게 봐야 한다. 구조적으로 보면, 정렬과 균형이라는 두 원칙 중 한국 학교가 번번이 실패하는 쪽은 균형이 아니라 정렬이다.

균형은 그래도 손에 잡힌다. 형성평가와 총괄평가를 섞고, 회상형과 전이형을 안배하라는 지침은 평가계획표에 칸을 만들면 어느 정도 채워진다. 문제는 정렬이다. 정렬은 평가가 학교 비전·교육목표와 일치하느냐를 묻는데, 많은 학교에서 비전은 비전대로 게시판에 걸려 있고 평가는 평가대로 교과서 진도와 출제 관행을 따라 굴러간다. 둘은 서로를 한 번도 쳐다보지 않는다.

본질적으로 이 책의 평가 시스템은 비전이 살아 있는 학교에서만 작동한다. 비전이 입학 설명회용 장식이라면, 그 비전을 정점에 두고 증거를 쌓아 올리라는 이 장의 요구는 토대 없이 지붕부터 얹으라는 말이 된다. 평가를 바꾸려는 시도가 자주 좌초하는 이유는 평가 기법이 부족해서가 아니다. 그 위에 정렬할 진짜 목표가 학교에 없거나, 있어도 합의되지 않았기 때문이다. 그러니 평가 개혁의 첫 질문은 어떤 루브릭을 쓸까가 아니라, 우리 학교는 정말 길러내려는 것이 있는가여야 한다.

함께 생각할 질문

  • 한 학기 동안 한 학생에 대해 우리가 실제로 모으는 증거를 종류별로 적어 보면, 우리 평가는 스냅샷에 가까운가 사진첩에 가까운가, 그리고 어떤 편중이 드러나는가.
  • 우리 학교가 비전에서 표방한 역량 중 현재 평가로는 증거가 거의 잡히지 않는 것은 무엇이며, 그 역량을 GRASPS 과제로 만든다면 Role·Audience·Situation을 어떻게 설정하겠는가.
  • 우리 교과에서 단순 응용 문제와 진짜 전이 과제는 무엇이 다르며, 학생에게 배운 적 없는 새로운 상황을 어떻게 제시하겠는가.
  • 루브릭을 채점 도구가 아니라 학습 도구로 쓰려면 과제 전에 무엇을 학생과 공유해야 하며, 우수 사례를 미리 보여주는 것은 공정성과 학습에 각각 어떤 영향을 주는가.
  • 생성형 AI로 정형 과제의 답을 쉽게 얻는 시대에, 어떤 종류의 증거가 여전히 학생 자신의 이해와 전이를 보여준다고 신뢰할 수 있는가.

우리 교실 적용 체크리스트

점검 항목 점검 질문
증거의 다양성 한 학생의 한 학기 증거가 시험 점수 두 줄을 넘어서는가
비전 정렬 우리 평가는 학교가 표방한 역량·목표와 연결되어 있는가
전이 측정 낯선 맥락에 적용하는 과제가 평가에 한 개라도 있는가
루브릭 시점 루브릭을 과제 시작 전에 학생과 공유하는가
앵커 제공 우수 사례를 미리 보여주고 기준을 함께 읽는가
자기평가 학생이 자기 학습을 점검하는 장치가 있는가
형성·총괄 균형 과정 증거와 결과 증거가 한쪽으로 쏠리지 않는가
누적 보관 작업이 시간에 걸쳐 포트폴리오로 쌓이는가

출처

원서: McTighe, J., & Curtis, G. Leading Modern Learning: A Blueprint for Vision-Driven Schools. Solution Tree Press.

한국어판: 제이 맥타이·그레그 커티스 지음, 강현석·조인숙 옮김, 《학교, 이렇게 바꾼다》, 교육을바꾸는사람들, 2020.