4 분 소요

hits

AI를 활용하는 교육 현장에서 우리는 늘 질문한다. “어떻게 하면 더 똑똑하게 쓸 수 있을까?” 단순히 질문을 잘 던지는 프롬프트 엔지니어링을 넘어, AI 스스로 배우고 발전하게 만드는 더 근본적인 설계 방식이 등장하고 있다. Fable 5가 보여준 사례는 AI를 단순한 도구가 아닌, 능동적인 학습 파트너로 만드는 길을 제시한다.

AI 학습 루프 설계, 교실의 자가 수정 메커니즘

AI의 ‘자가 수정 루프’ 교육 현장에 가져올 변화

AI 모델이 단순히 지시를 따르는 것을 넘어, 스스로 오류를 찾아 고치고 목표를 향해 나아가게 하는 방식, 이것이 바로 자가 수정 루프다. 우리는 흔히 학생들에게 특정 과제를 주고 피드백을 통해 개선을 유도한다. AI에게도 똑같은 메커니즘이 작동한다.

원본 자료에 따르면, 모델이 특정 평가 기준(rubric) 위에서 성능을 개선하도록 두는 방식이 일반적인 학습 레시피이다. 여기서 중요한 점은 AI를 직접 조종하려 들기보다, AI 스스로 목표를 충족할 때까지 실행하고 피드백을 수집하며 자가 수정하는 구조를 설계해야 한다는 것이다. 파라미터 골프(Parameter Golf)라는 ML 엔지니어링 과제에서 Fable 5는 Opus 4.7 대비 학습 파이프라인을 약 6배 더 개선하는 성과를 보여줬다. 이는 AI가 단지 계산 속도가 빨라서가 아니라, 이 자가 수정 루프를 통해 최적화 과정을 효율적으로 탐색했기 때문에 가능했다.

이러한 접근은 교육 현장에 큰 시사점을 던진다. 우리는 AI 기반 학습 도구를 설계할 때, 단순히 정답을 알려주는 기능을 넘어, 학생이 스스로 문제를 해결하고 피드백을 통해 학습 경로를 수정하도록 돕는 AI를 구상해야 한다. AI는 교사가 설정한 명확한 학습 목표와 평가 기준을 바탕으로 학생의 시행착오를 분석하고, 다음 학습 단계에 대한 ‘피드백’을 환경에 주입하는 역할을 수행한다. 교사는 이제 학습 내용 전달자에서 AI 학습 시스템의 ‘루프 설계자’로 역할이 전환된다.

‘채점 주체’의 중요성, AI의 비판적 사고를 돕는 구조

AI가 스스로를 평가하는 것은 생각만큼 쉽지 않다. 원문은 모델이 자기 출력에 대한 자가 비판(self-critique)에서 문제를 보인다는 점을 명확히 지적한다. 마치 학생이 스스로 자신의 에세이에서 오탈자나 논리적 오류를 모두 찾아내기 어려운 것과 같다.

이 문제를 해결하기 위해 검증 서브 에이전트(verifier sub-agent) 또는 채점 서브 에이전트(grader sub-agent)가 등장한다. 이는 독립적인 맥락 창(context window)에서 채점이 이뤄지므로, 모델이 스스로 평가하는 것보다 훨씬 우수한 결과를 낸다. Claude Managed Agents(CMA)의 Outcomes 기능은 이러한 채점 서브 에이전트를 자동 생성해 처리한다. 예를 들어, 9개의 체크 가능한 기준을 담은 루브릭을 제공하고, 모든 실험 기준 충족을 확인한 뒤에야 Claude의 작업을 종료하도록 허용한다.

이는 교육 현장에서 평가 주체의 객관성이 얼마나 중요한지 역설한다. AI가 학생의 글쓰기를 첨삭하고 피드백을 줄 때, 그 AI 스스로가 모든 판단을 내리게 하는 것보다, 별도의 평가 기준과 독립적인 ‘평가자 AI’를 두는 것이 더 정확하고 공정한 피드백을 제공한다. 이는 인간 교사가 학생의 수행을 다면적으로 평가하거나, 동료 교사의 피드백을 통해 평가의 질을 높이는 것과 같은 이치다. 인간 교사의 윤리적 판단과 교육 목표가 AI의 평가 기준에 구조화되지 않으면, AI가 아무리 자가 수정 능력이 뛰어나도 편향된 학습 경험을 제공할 수밖에 없다.

AI 학습 루프 설계, 교실의 자가 수정 메커니즘

‘기억’하는 AI, 연속적 학습 환경의 설계

AI가 단일 세션에서 벗어나 여러 세션에 걸쳐 학습 내용을 기억하고 재활용하는 능력은 개인화된 학습 경험을 구현하는 데 결정적인 역할을 한다. 원문에서는 세션 간 기록한 내용을 이후 세션에서 재사용하는 메모리(memory)아우터 루프(outer loop)로 설명한다.

기존 벤치마크는 모델을 ‘상태 없음(stateless)’으로 가정하여 각 예제를 독립적으로 처리했지만, Continual Learning Bench 1.0은 AI 시스템이 온라인 환경에서 개선되는 정도를 측정하는 최초의 현실적 벤치마크를 제공한다. SQL 데이터베이스 접근 권한을 가지고 순차 질문에 답하는 과제에서 각 AI 모델의 메모리 활용 단계를 비교한 결과는 다음과 같다.

단계 Sonnet 4.6 (1단계) Opus 4.7 (3단계) Fable 5 (완료 경향)
Fail (틀린 점 기록) O O O
Investigate (원인 파악) O O O
Verify (검증된 사실화) X (검증 커버리지 7~33%) O (검증 커버리지 7~33%) O (최대 73% 검증 커버리지)
Distill (일반 규칙화) X (실패 노트 목록) X O (학습 내용을 일반 규칙으로 정제)
Consult (규칙 참조) X X O

Fable 5는 오류를 기록(Fail)하고 원인을 파악(Investigate)하는 것을 넘어, 검증(Verify)을 통해 사실을 확정하고, 그 경험을 일반적인 규칙으로 정제(Distill)하여 향후 과제에 활용(Consult)하는 일련의 과정을 완수하는 경향을 보인다. 이는 학생이 특정 유형의 문제를 풀다가 틀리면, 원인을 분석하고(Investigate), 올바른 풀이법을 익혀(Verify), 일반적인 문제 해결 전략으로 승화시켜(Distill), 나중에 유사한 문제가 나왔을 때 참조(Consult)하는 과정과 정확히 일치한다.

교육 현장에서는 AI가 단편적인 정보를 제공하는 것을 넘어, 학생의 학습 이력을 ‘기억’하고 이를 바탕으로 맞춤형 학습 경로를 제시하며, 궁극적으로는 학생 스스로 일반적인 학습 전략을 터득하도록 돕는 시스템을 설계해야 한다. AI가 학생의 메타인지 발달을 도모하는 잠재력을 지녔다는 점이 이 벤치마크 결과에서 가장 주목할 대목이다.

AI 학습 루프 설계, 교실의 자가 수정 메커니즘

비판적 낙관주의, 교육 현장의 ‘루프 설계자’ 되기

Fable 5의 사례는 AI를 직접 프롬프트로 조종하기보다, AI가 환경 피드백에 반응해 스스로 수정하고 메모리를 활용해 문맥을 관리하도록 ‘루프를 설계하는 방식’이 훨씬 효과적임을 분명히 보여준다. AI는 더 이상 단순한 정보 검색 엔진이 아니다. AI가 교실에서 ‘학습 메커니즘’ 그 자체로 기능할 수 있다는 가능성이 이제 실증 데이터를 갖추기 시작했다.

그러나 이 낙관주의는 중요한 전제를 안고 있다. AI의 자가 수정 루프가 아무리 강력해도, 그 루프의 초기 목표(goal)와 평가 기준(rubric) 설계는 전적으로 인간의 몫이다. 목표 설정에 편향이 있거나 윤리적 고려가 부족하다면, AI는 그 편향을 학습하고 강화시킨다. 또한 AI의 ‘기억’이 축적될 때 학생 개인 정보 보호 문제는 어떻게 해결할 것인가. 데이터 주권과 보안에 대한 명확한 정책과 기술적 안전장치가 마련되어야만 교육 현장에서 AI의 메모리 기능을 신뢰할 수 있다.

교사는 이제 AI 도구의 ‘사용자’를 넘어 ‘설계자’의 관점을 가져야 한다. AI 시스템이 어떤 방식으로 피드백을 주고받으며 지식을 축적하는지 이해하고, 우리 교육의 목표와 가치를 AI의 학습 루프 안에 녹여내야 한다. 교사의 전문성과 철학이 AI 시스템의 근간을 이뤄야 한다는 뜻이다.

교육 현장에 던지는 질문이 있다. 당신이 AI 기반 학습 도구를 설계한다면, 학생들의 어떤 학습 과정을 ‘자가 수정 루프’로 만들고, 어떤 종류의 ‘기억’을 AI에 부여하여 그들이 더 효과적으로 학습하도록 돕겠는가. 그리고 이 과정에서 ‘객관적 채점자’의 역할을 누가, 어떻게 수행하게 할 것인가. 기존 교재를 디지털화하는 것을 넘어, 이 질문에 답하는 것이 진정한 교육 혁신의 시작이다.

출처