역량 기반 평가, 현장 교사의 ‘보이지 않는 노동’을 드러내다
매년 새로운 교육 정책이 쏟아져 나온다. 교실 현장에서 그 정책이 현실이 될 것이라는 희망과 함께, 동시에 깊은 회의감도 함께 찾아온다. “또?”라는 한숨 속에는 지금까지 수없이 많은 ‘좋은 정책’들이 왜 현장에서 좌초했는지에 대한 뼈아픈 경험이 담겨 있다. 이번 연구는 바로 그 현장의 ‘좌절’을 개인의 역량 부족 탓으로만 돌리는 안일한 시선을 날카롭게 부순다.
역량 기반 평가, 이상과 현실의 간극
이 연구는 역량 기반 교육이라는 전 세계적인 흐름이 중국의 교육 현장에서 어떻게 구현되는지 깊이 들여다본다. 중국 교육부가 추진하는 ‘종합 평가(Xueye Shuping)’는 학생 개개인의 발달 과정을 미묘하고 개별적으로 평가하는 것을 목표로 한다. 즉, 단순 지식 암기나 점수 중심 평가에서 벗어나, 학생의 복잡한 과학적 사고와 문제 해결 과정을 깊이 있게 이해하라는 주문이다.
하지만 이상과 현실 사이에는 거대한 간극이 존재한다. 학교는 여전히 대규모 학급(33명), 경직된 40분 수업 시간, 운영 가능한 평가 도구 부족이라는 생태학적 제약에 묶여 있다. 이 상황에서 교사들은 과학적 사고나 데이터 해석 같은 복잡한 역량 평가 대신, 인지 부담이 낮은 개념 기억 중심의 과제에 집중하는 경향을 보인다. 교육 연구의 주류 담론은 종종 이러한 개혁 실패를 교사의 ‘평가 역량 부족’으로 돌리지만, 이 연구는 그러한 개인적 결함 모델이 미시적 구조 및 문화적 제약을 간과한다고 단언한다. 본질적으로, 혁신은 개인의 능력 문제가 아니라, 그 능력이 발현될 수 있는 생태계 전체의 지원 여부에 달린 구조적 사안이다.
SOLO 분류법과 RPP, 추상적 역량을 가시화하다
이 연구는 현장의 깊은 이해를 위해 연구자-실천가 파트너십(RPP)을 기반으로 한 탐색적 단일 사례 연구를 수행한다. 대학 연구자들은 SOLO 분류법(Structure of the Observed Learning Outcome)을 활용해 추상적인 역량을 구체적인 평가 루브릭으로 설계하는 이론적 틀을 제공하고, 현장 교사는 이를 5학년 과학 STEM 수업인 “보온병 만들기” 단위에 맞춰 학생용 자기 평가 및 동료 평가 루브릭으로 공동 개발한다.
SOLO 분류법은 단순히 지식을 조각내는 블룸의 분류법과 달리, 학생 반응의 복잡성과 통합성에 초점을 맞춘 위계적 구조를 지닌다. 이를 통해 학생들은 자신의 수행이 표면적인 이해에 머무는지, 아니면 깊은 개념적 이해로 나아가는지 명확하게 인지한다.
이 도구들은 실제 교실에서 긍정적인 변화를 일으켰다. 학생들이 역량 기반 평가 시스템을 어떻게 받아들였는지에 대한 설문 조사 결과는 다음과 같다.
| 항목 | 긍정 응답 비율 (동의 + 매우 동의) | 핵심 시사점 |
|---|---|---|
| 학생 적응 | 학생들이 새로운 평가 방식에 대한 높은 수용도를 보였다. | |
| 평가 루브릭 사용 의향 (Item 1) | 96.9% | |
| 점수 기반 평가 두려움 극복 (Item 5) | 100.0% | |
| 인지된 정확성 | 시스템이 역량을 공정하고 종합적으로 반영한다고 인식했다. | |
| 학업 성과 공정 반영 (Item 7) | 93.8% | |
| 핵심 역량 종합 평가 (Item 8) | 93.8% | |
| 학습 및 역량 개발에 미치는 영향 | 역량 인식 제고 및 학습 경로 안내에는 효과적이었으나, 자기 조절 능력 심화에는 차이가 있었다. | |
| 자기 성찰 및 교정 촉진 (Item 9) | 84.4% | |
| 핵심 역량 인식 제고 (Item 10) | 93.8% | |
| 미래 학습 경로 명확화 (Item 11) | 96.9% | |
| 주목할 만한 긴장 | 일부 학생들은 동료 평가의 공정성에 의문을 제기하며 문화적 과제를 드러냈다. | |
| 동료/교사 평가 동의 (Item 6) | 87.5% |
이 표에서 보듯이 학생들은 새로운 평가 시스템 자체의 가치는 높게 평가했지만, 동료 평가의 공정성에 대한 12.5%의 우려는 평가 주체의 권한이 분산되는 문화적 변화가 쉽지 않음을 명확히 보여준다.
실제로 한 학생은 “루브릭을 읽으면서 옵션 C와 D가 더 나은 수준임을 알았다. 앞으로 C와 D에 묘사된 방향으로 노력해야겠다고 생각했다”고 말했다. 이는 루브릭이 단순히 평가 도구를 넘어, 학생들에게 미래 학습의 로드맵이 되었음을 보여준다. 교사 또한 “학생들이 그룹 토론에서 루브릭의 언어를 사용하기 시작했다. 예를 들어 ‘우리 추론은 데이터를 비교했으니 레벨 3인 것 같아’라고 말하는 것을 들었다”고 보고한다. 평가 도구가 교실 담론에 성공적으로 침투한 증거이다.
또한, 이 루브릭은 교사의 진단 도구 역할도 했다. 실험 테스트 후 ‘추론 및 논증’ 자기 평가 결과, 많은 학생이 실제 행동을 루브릭의 추상적 기준으로 연결하는 데 어려움을 겪는다는 사실이 드러난다. 한 학생은 “선택지를 읽었지만, 내가 한 일과 맞는 것이 없었다”고 고백한다. 교사는 이 진단에 기반해 수업을 즉시 조정했고, 두 그룹의 데이터를 비교하며 관찰을 증거 기반 주장으로 변환하는 과정을 시연했다. 이후 한 학생은 “선생님이 그룹 A와 B의 데이터를 보여줬을 때 갑자기 이해했다. 단순히 ‘우리 것이 뜨겁다’고 말하는 것이 아니라, 숫자를 이용해 왜 그런지 증명해야 한다”고 말했다. 이 과정은 루브릭이 학습을 측정하는 것을 넘어, 교수-학습 과정을 적극적으로 재구성했음을 명확히 보여준다.
보이지 않는 장벽, 시간·관성·합리적 트리아지
이 연구의 가장 날카로운 지점은 바로 역량 기반 평가 시스템이 실제 교실 환경에서 맞닥뜨리는 구조적, 문화적 제약을 파고든다는 점이다. 루브릭의 유효성에도 불구하고, 시스템의 지속적인 운영은 심각한 현실 문제에 부딪혔다.
구조적 제약, 인지 과부하와 시간 강박
가장 두드러진 제약은 과정 중심 평가의 높은 요구와 학교의 경직된 구조 사이의 충돌이다. 이는 교실 내 미시적 수준과 제도적 업무량 거시적 수준에서 모두 나타났다.
-
교실 내 시간-기록 충돌: 33명 학생의 역동적인 학습 궤적을 40분이라는 제한된 시간 안에 추적하고 기록하는 일은 단 한 명의 교사에게 압도적인 과부하를 안긴다. 교사는 반성 일지에 이렇게 썼다. “훌륭하다! 3번 그룹은 단열층에 대해 깊이 있게 토론한다. 한 학생의 멋진 논증을 루브릭에 기록하고 싶었으나, 4번 그룹의 뜨거운 물 안전 확인을 위해 서둘러 가야 했다. 돌아왔을 때, 그 순간은 이미 사라져 있었다.” 즉각적인 교육적 지도와 상세한 평가 기록이라는 물리적으로 불가능한 요구 앞에서 교사는 합리적 트리아지(rational triage)를 수행했다. 그는 핵심 교수학적 과제(학생 안전, 실험 문제 해결, 토론 지도)를 우선시하고, 평가 기록이라는 행정적 부담을 내려놓았다. 이것은 교사의 의지 부족이 아니라, 생태학적 제약이 강요한 보호적 결정이다.
-
보이지 않는 노동의 간과: 교실 밖 제도적 차원에서는 평가 개혁이 막대한 ‘보이지 않는 노동’ 부담을 지웠다. 종합 평가 정책은 구체적인 운영 도구를 제공하지 않았고, RPP가 이론적 틀을 제공했음에도, 이를 수업별 루브릭으로 전환하는 막대한 실용적 노동은 온전히 교사의 몫이었다. 교사는 “연구팀의 이론적 지원에도 불구하고, 수업별 구체적 루브릭을 만드는 것은 엄청난 작업이었다. 이 집중적인 노동은 우리 업무량 계산에서는 보이지 않는다. 공식적인 시간 할당 없이, 이는 자발적인 ‘추가 업무’처럼 느껴진다”고 회고했다. 현행 제도가 평가 설계 및 데이터 분석을 공식적이고 ‘청구 가능한’ 전문 업무로 인정하지 않는다는 냉혹한 현실을 보여주는 대목이다.
문화적 제약, 인식론적 신념과 평가 습관
물리적, 구조적 한계를 넘어, 새로운 평가 시스템은 학생과 교사 모두에게서 깊은 문화적 저항에 직면한다. 이 연구는 이를 “문화적 차원”이라 부른다. 새로운 루브릭은 과정이 평가되고 주장이 정당화되는 ‘증거 문화’를 요구했지만, 이는 기존의 ‘정답 문화’와 정면으로 충돌했다.
-
학생들의 동료 평가 불신: 학생 설문에서 93.8%가 평가가 학업 성과를 공정하게 반영했다고 답했지만, 12.5%는 동료 평가의 공정성에 우려를 표했다(Item 6). 이 대조는 핵심 긴장이 루브릭의 일반적인 공정성이 아니라, 평가 권위의 재분배에 있었음을 시사한다. 한 학생은 “일부 친구들이 준 점수에 동의하지 않는다. 불공평하다고 느낀다. 그들은 내가 한 모든 작업을 보지 못했을 수도 있다”고 불평했다. 다른 학생은 “나는 선생님의 의견을 가장 신뢰한다. 선생님은 정답을 안다”고 말했다. 이는 학생들이 교사에게만 평가 권위가 있는 교실 생태계에 오랫동안 길들여져 왔음을 명확히 보여준다.
-
교사의 내적 갈등: 놀랍게도, 교사 또한 이러한 문화적 제약을 내면에서 경험했다. 전통적인 채점자에서 과학적 실천의 조력자로 전환하는 과정은 스스로의 오랜 전문적 습관과 끊임없이 싸워야 하는 일이었다. 그의 반성 일지는 솔직한 고백을 담는다. “[실험 테스트 중] 오늘도 또 나 자신을 붙잡았다. 모델이 ‘깔끔’하게 보인다는 이유만으로 2번 그룹을 본능적으로 칭찬할 뻔했다. 에어 포켓에 대한 가설이 훌륭했음에도 불구하고 디자인이 실패했다는 이유로 5번 그룹을 거의 무시할 뻔했다. ‘정답’을 찾는 습관을 버리기가 왜 이리 어려울까?”
이러한 솔직한 성찰은 역량 기반 평가를 실행하는 것이 단순히 새로운 기술을 배우는 문제가 아니라는 점을 보여준다. 이는 교사와 학생 모두가 학습과 평가의 본질을 인식하는 방식에 대한 깊고 어려운 문화적 전환을 요구한다.
현장에 던지는 질문, 무엇을 평가하느냐가 아니라 어떻게 안착시키느냐
이 연구는 역량 기반 평가의 성공적인 현장 안착을 가로막는 주요 병목이 교사의 역량 부족이 아니라, 시스템적인 생태학적 제약임을 명확히 보여준다. 이 결론은 우리에게 중요한 질문을 던진다. ‘어떤’ 평가를 할 것인가에서 그치지 않고, ‘어떻게’ 이 평가를 현장에 안착시킬 것인가이다.
구조적 변화를 위한 시스템적 개입
현재의 학교 구조는 과정 중심 평가의 데이터 처리 부하를 감당할 수 없다. 이를 해결하려면 아래와 같은 구체적 변화가 필요하다.
- 평가 업무의 공식화: 학교 관리자는 평가 설계 및 데이터 분석을 교사의 공식적인 업무 시간으로 인정해야 한다. 현재처럼 ‘자발적 추가 업무’로 두면 지속 가능한 구현은 불가능하다. 예를 들어, 역량 평가 루브릭을 새로 개발하는 학년이나 교과 전문적 학습 공동체에 학기당 최소 30시간의 연구 시간을 부여하는 방식이 필요하다.
- 학급 규모 조정: 탐구 기반 STEM 수업 단원의 경우, 학급 규모를 전략적으로 조정한다. 33명의 학생을 동시에 섬세하게 관찰하고 기록하는 것은 불가능하다. 과도한 학습량을 줄이거나 교사 보조 인력을 지원하는 것이 더 현실적인 해결책이다.
- 기술을 활용한 부하 경감: 경량 AI 도구 활용을 적극적으로 탐색한다. 예를 들어, 학생들의 구두 토론이나 활동 영상을 AI가 텍스트로 변환하거나 핵심 키워드를 추출하는 1차 분석을 수행하게 하여 교사의 데이터 처리 부담을 크게 줄일 수 있다. 교사는 AI가 뽑아낸 요약을 바탕으로 학생의 맥락을 이해하고, 심화 질문을 던지는 등 고차원적인 피드백에 집중한다. 이는 평가를 ‘자동화’하는 것이 아니라, 교사의 ‘인간적 개입’에 필요한 여유를 확보하는 전략이다.
문화적 전환을 위한 섬세한 접근
정답 문화에서 증거 문화로의 전환은 서두르지 않고 단계적으로, 신뢰를 기반으로 이루어져야 한다.
- 낮은 위험의 루틴에 통합: 루브릭을 즉시 정식 채점용으로 사용하기보다, ‘낮은 위험’의 루틴에 점진적으로 통합한다. 예를 들어, 학년 초에는 익명 처리된 작년 선배들의 프로젝트를 루브릭으로 평가해보는 활동을 통해 학생들이 평가 기준을 내면화하고, 동료 평가의 신뢰도를 높이는 경험을 제공한다. 동학년 점심 대화 한 토막이나, 학년 메신저에 의심 사례를 함께 들여다보는 5분 관찰 일지 공유는 좋은 시작이 될 수 있다.
- 협력적 성찰의 공간: 교사 스스로 자신의 평가 습관을 성찰하고 동료들과 함께 논의할 수 있는 심리적 안전감이 높은 협력적 성찰 공간을 마련한다. 이는 거창한 세미나가 아니라, “나는 오늘도 ~하는 학생을 보며 나도 모르게 ‘잘했어’라고 말해버렸다. 내가 놓친 건 뭘까?” 같은 솔직한 질문을 던지고 함께 고민하는 학년 메신저 한 줄 후기 문화로 시작할 수 있다.
이 연구가 강조하는 바는 명확하다. 이론적으로 아무리 훌륭한 평가 도구라도, 그것이 뿌리내릴 생태계의 토양을 함께 가꾸지 않으면 결국 시들고 만다는 사실이다. 우리의 다음 과제는 이 ‘보이지 않는 노동’을 가시화하고, 교사 한 명이 짊어지던 부담을 시스템적으로 나누어 짊어지는 구체적인 방법을 함께 찾아내는 것이다.
자, 우리 교실과 학교는 과연 역량 기반 평가를 위한 ‘생태계’를 얼마나 준비하고 있는가? 당장 내일, 우리 교실에서 학생들의 역동적인 학습 과정을 관찰하면서, 기록하고 싶었지만 놓칠 수밖에 없었던 ‘그 순간’을 딱 하나만 떠올려보는 건 어떨까? 그리고 그 순간을 놓치지 않으려면 우리에게 어떤 시스템적 지원이 필요한지 동료들과 잠시라도 이야기 나눠보자.
출처
- Shi, F., Yang, Q., Zhang, M-X., & Wang, X-T. (2026). Translating policy into practice: teacher agency amid cognitive and ecological constraints in enacting competency-based assessment. Frontiers in Psychology, 17, 1836710. https://doi.org/10.3389/fpsyg.2026.1836710