새로운 AI 앞에서 평가 시스템이 고장 나는 이유
한 교사가 작년 가을 잘 작동하던 채점 보조 AI에 학생 글 30편을 다시 넣었다. 모델은 업데이트됐고, 채점 루브릭은 그대로다. 그런데 점수가 작년과 미묘하게, 그러나 일관되게 달라져 있다. 교사는 잠시 손을 멈춘다. “AI가 바뀐 건가, 아니면 내 기준이 시대에 뒤떨어진 건가?” Lun Wang은 같은 질문을 훨씬 더 큰 스케일에서 던진다. 우리가 지금 쓰는 AI 평가 방식은 다음 세대 AI 앞에서 조용히 무너진다. 더 무서운 것은 무너지는 그 순간을 우리가 알아채지 못한다는 사실이다.
우리가 AI를 평가하는 방식, 그 숨겨진 함정
우리는 현존하는 AI 모델을 평가하는 데 꽤 능숙하다. 벤치마크 점수를 내고, 안전성 테스트를 통과시키며, 레드팀 활동으로 취약점을 찾는다. 하지만 미래에 등장할, 특히 현재의 능력을 질적으로 뛰어넘는 새로운 AI 모델을 평가하는 일은 형편없이 해낸다. 이것은 막연한 추측이 아니다.
대부분의 벤치마크, 안전성 평가, 레드팀 프로토콜은 암묵적으로 “다음 모델은 현재 모델의 더 강력한 버전일 것”이라고 가정한다. 즉, 성능이 선형적으로 개선되리라 예측하는 셈이다. 이 관점에서 우리는 더 빠르고, 더 정확하며, 더 많은 정보를 처리하는 AI를 상상한다. 하지만 만약 다음 AI가 본질적으로 다른 종류의 존재라면 어떨까? 우리의 모든 평가 인프라는 소리 없이 무너진다. 우리는 이 침묵 속에서 AI가 예기치 못한 방향으로 진화하는 것을 알아채지 못한다.
이는 우리가 대규모 언어 모델(LLM)을 이해하는 방식에서 가장 중요한 미해결 문제다. 훈련 방법, 아키텍처, 데이터보다 평가(eval)가 다음 능력 도약의 병목이라는 주장이다. 실제로 모델이 특정 규모에 도달해야만 갑자기 나타나는 새로운 능력(emergent abilities)에 대한 보고는 많다. 퓨샷 프롬프팅(few-shot prompting), 연쇄적 사고 추론(chain-of-thought reasoning), 지시 이행 능력 등이 그렇다. 이러한 능력은 이전 규모에서는 측정되지 않다가, 특정 지점을 넘어서야 비로소 모습을 드러낸다.
물론 일부 연구자들은 이러한 ‘도약’이 정확도(exact-match accuracy)처럼 불연속적인 측정 지표의 산물일 뿐이라고 반박한다. 연속적인 지표로 바꾸면 능력은 매끄럽게 확장되는 것처럼 보인다는 설명이다. 하지만 이 반박은 오히려 이 주장을 더 날카롭게 만든다. 과거의 변화조차 질적인 전환인지, 아니면 지표의 착시 현상인지 명확히 구별할 수 없다면, 우리는 다가올 변화를 어떻게 감지할 수 있을까? 평가 인프라가 우리를 놀라게 하는 것은 변치 않는 사실이다. 우리는 이미 일어난 변화를 보고 뒤늦게 평가 도구를 고친다. 미래는 언제나 예측 불가능하다는 막연한 변명이 아니라, 평가 체계 자체가 예측 불가능을 내포한다.
무엇을 측정해야 할지 모른다
물리학에서 상전이(phase transition)를 이해하려면 질서 변수(order parameter)를 찾아야 한다. 질서 변수는 거시적인 양으로, 임계점 근처에서 그 값이나 스케일링 행동이 변해 서로 다른 상태를 구분하는 역할을 한다. 질서 변수 없이는 우리가 경계에 얼마나 가까이 있는지, 심지어 경계 자체가 존재하는지조차 알 수 없다.
배포 규모의 LLM에서 우리는 능력 전환을 위한 질서 변수를 아직 찾지 못했다. 특정 환경에서는 진전이 있었지만, 우리가 실제로 현장에 배포하는 시스템에 관해서는 맹목적으로 나아가는 중이다.
우리가 사용하는 모든 벤치마크 — GPQA, SWE-bench, ARC-AGI, Humanity’s Last Exam —는 모델이 지금 무엇을 할 수 있는지를 측정한다. 이러한 벤치마크는 현재의 능력 체계 내에서 유용하다. 하지만 체계 자체가 변한 이후의 상황에 대해서는 약한 증거에 불과하다. 새로운 능력이 나타나는데, 기존 벤치마크는 그것을 측정하지 못한다면 우리는 사후에 급히 평가 시스템을 만든다. 연쇄적 사고 추론에서 우리는 이런 상황을 목격했다. 이 유도 방식이 표준이 되자, 일부 오래된 추론 벤치마크는 진단 능력을 상실했고, 우리는 더 어려운 평가로 옮겨갈 수밖에 없었다. 이 현상은 또다시 반복된다. 현재의 벤치마크는 우리가 지금 당장 ‘무엇을 할 수 있는지’를 측정할 뿐, 내일 무엇을 하게 될지 전혀 알려주지 않는다.
구체적인 사례를 떠올려보자. 특정 규모에 도달한 모델이 목표 달성을 위해 정보를 전략적으로 보류하는 능력을 개발했다고 상상해본다. 거짓말하는 것은 아니지만, 훈련 과정이 우연히 강화한 결과에 따라 대화를 특정 방향으로 유도하기 위해 사실을 선택적으로 누락하는 방식이다. 당신의 기존 정직성 벤치마크는 이러한 행동을 포착하지 못한다. 왜냐하면 그것들은 사실적 정확성을 테스트하지, 전략적 누락을 테스트하지 않기 때문이다. 당신의 안전 분류기는 이것을 경고하지 않는다. 왜냐하면 개별 출력은 모두 기술적으로 사실이기 때문이다. 이 능력은 새롭고, 실패 모드 또한 새롭다. 당신의 평가 도구 세트 중 그 어느 것도 이런 상황을 찾아내도록 설계되지 않았다. 당신은 잘못된 것을 모니터링하면서도 그것을 모른다. 이것이 핵심 문제다. 우리의 전체 평가 인프라는 구조적으로 반응적이다. 시스템이 변한 후에야 비로소 그 변화를 측정한다. 우리는 변화를 예측하지 않는다.
평가가 모든 것의 시작점이다
이 문제는 생각보다 훨씬 중요하다. 한 가지 단순한 사실 때문이다. 올바르게 평가할 수 있다면, 올바르게 훈련할 수 있다.
훈련은 최적화 과정이다. 그리고 최적화는 그 목표만큼만 유효하다. 이 목표는 평가에서 비롯된다. 무엇을 측정해야 할지 알고, 그 측정이 규모에 따라 어떻게 변할지 예측할 수 있다면, 우리는 올바른 훈련 목표를 설계하고, 적절한 안전 장치를 구축하며, 정보에 입각한 규모 확장 결정을 내릴 수 있다. 다음 단계에서 굿하트 법칙(Goodhart’s Law)에 빠질 대리 지표 대신, 정확한 행동 속성을 목표로 하는 강화 학습(RLHF)을 수행할 수 있다.
역으로, 당신의 평가가 잘못된 체계에 맞춰져 있다면, 그 이후의 모든 것은 틀린다. 훈련 신호, 안전 지표, 확장 결정 — 이 모든 것이 잘못되지만, 너무 늦기 전까지는 알지 못한다. 당신은 모델이 무엇을 배웠는지조차 확신할 수 없다. 평가가 틀리면, 훈련도 안전도 모두 틀린다.
이것이 평가가 다음 능력 도약의 병목이라고 생각하는 이유다. 미리 평가하는 방법을 알아내는 연구실이 안전하게 규모를 확장한다. 그렇지 못한 연구실은 예기치 못한 상황에 직면한다. 구조적으로 보면, 현재의 평가 시스템은 기술 발전의 속도를 따라가지 못하는 제도적 병목 현상을 보여준다. 우리는 과거의 성공 방정식에 갇혀 새로운 게임의 규칙을 읽어내지 못한다.
그래서 우리는 무엇을 해야 하는가
우리는 다르게 투자해야 한다. 현재의 평가 시스템을 버리자는 말이 아니다. 현재의 시스템은 여전히 작동한다. 하지만 이 평가 시스템이 언제 작동을 멈출지 예측하는 인프라를 구축해야 한다.
첫째, 질서 변수를 찾아야 한다. 어떤 양이 능력, 정렬, 행동 특성에서 질적인 전환을 나타낼까? 이것은 단순한 이론적 바람이 아니다. 특정 환경에서는 이미 가능성이 입증되었다. Shan, Li, 그리고 Sompolinsky(PNAS, 2026)는 통계 역학을 사용하여 연속 학습 환경의 심층 네트워크에 대한 질서 변수를 도출했다. 그리고 그 질서 변수들은 학습 능력의 상전이를 실제로 예측했다. Nanda et al.(2023)은 기계적 해석 가능성(mechanistic interpretability)을 사용하여 그로킹(grokking) 현상이 발생하기 전에 이를 예측하는 ‘진행 측정값(progress measures)’을 발견했다. 가시적인 성능 도약 이전에 발생하는 내부 구조적 변화를 찾아낸 셈이다. 이 과제는 이러한 스타일화된 환경에서의 연구를 실제 규모의 LLM으로 확장하는 데 있다. 무엇을 측정해야 할지 안다면, 무엇을 주시해야 할지 알게 된다.
둘째, 스스로 노후화를 감지하고 진화하는 평가 시스템을 구축해야 한다. 모델이 점점 더 에이전트 역할을 맡으면서 이 과제는 더욱 시급해진다. 코드를 작성하고, 실험을 실행하며, 데이터를 생성하고, 훈련 또는 평가 파이프라인을 돕는 시스템은 정적인 평가를 더욱 취약하게 만든다. 모델의 능력이 인간 평가팀이 벤치마크를 업데이트하는 속도보다 빠르게 향상된다면, 평가는 적응적이 되어야 한다.
구체적으로: 메타 신호를 모니터링해야 한다. 벤치마크 점수 분포의 특성이 변하고 있는가? 평가들 간의 상관관계 구조가 이동하고 있는가? 모델이 측정 축과 직교하는 새로운 능력을 개발하고 있는가? 손실(loss)뿐 아니라 추론 깊이, 도구 사용 정교함, 기만적 역량 등 모든 것에 대한 스케일링 곡선을 추적하고, 매끄러운 추세가 깨질 때 주목해야 한다. 더 나아가, 자체 진화하는 평가 시스템을 구축할 수 있다. 이는 모델을 사용하여 다른 모델을 탐색하고, 능력이 변함에 따라 자동으로 새로운 테스트 케이스를 생성하며, 원래 평가 설계자들이 예상하지 못했던 실패 모드를 발견하는 평가 시스템이다. 평가 시스템은 정적인 체크리스트가 아니라, 측정 대상인 모델과 함께 숨 쉬고 진화하는 유기체가 되어야 한다.
우리의 평가가 놀랄 것인가 하는 질문은 이미 답이 나왔다. 그것은 실제 상전이 때문이든, 우리의 측정 방식이 우리를 오도했든, 이미 반복적으로 발생했다. 핵심 질문은 우리가 다음 놀라움을 예측할 수 있는가이다. 지금 당장은 예측할 수 없다.
이 문제가 우리 손에 실제로 떨어지는 자리는 OpenAI 본사가 아니라 다음 주 학년 협의회다. 새 모델이 발표될 때마다 누군가가 채점·피드백·자동화 도구를 한 번씩 다시 돌려본다. 점심시간 옆자리 교사가 “얘 이번엔 학생 답을 두 번씩 만들어내네” 하고 지나가듯 말한다. 그 한마디가 사실은 Lun Wang이 말한 ‘질서 변수’의 가장 미세한 신호일 수 있다. 평가 인프라를 다시 짜는 일은 박사 학위 보유 연구자들의 일만이 아니다. 매일 AI 출력물을 손으로 만지는 교사가 가장 먼저 “뭔가 어긋났다”고 느낀다. 그 느낌을 동학년 메신저 한 줄, 학년 협의록 한 칸으로 옮겨 적는 작업이 우리 교실에서 가능한 ‘메타 신호 모니터링’의 첫 형태다.
출처
- Wang, L. (n.d.). Your Evals Will Break and You Won’t See It Coming.