6 분 소요

hits

1. 연구의 목적

(1) 대규모 언어 모델(LLM)은 뛰어난 성능에도 불구하고, 고정된 지식 기반으로 인해 지식 노후화(knowledge cutoff)와 새로운 정보 학습 시 기존 지식을 잊어버리는 치명적 망각(catastrophic forgetting)이라는 고질적인 문제에 직면함. 기존의 재학습이나 미세 조정 방법은 엄청난 계산 비용이 들거나 망각 현상을 유발하는 한계를 지님.

(2) 이 연구는 인간의 수면 중 기억 통합 과정에서 영감을 받아, 언어 모델이 단기적이고 불안정한 지식을 안정적인 장기 기억으로 지속적으로 통합하고, 외부 감독 없이 스스로 성능을 개선하는 ‘수면(Sleep)’ 패러다임을 제안하고 그 효과를 입증함을 목표로 함.


2. 연구의 방법

(1) 연구는 인간의 학습 및 기억 통합 메커니즘을 LLM에 적용하는 접근 방식을 취함. 특히, 인간의 수면 단계인 NREM(비렘) 수면의 ‘기억 통합’과 REM(렘) 수면의 ‘꿈꾸기’ 역할을 LLM의 ‘수면’ 패러다임에 도입함. 이는 ‘활성(Wake)’과 ‘수면(Sleep)’이라는 두 가지 주기적 학습 단계로 구성됨.

(2) 제안된 ‘수면’ 패러다임은 크게 두 가지 핵심 단계로 이루어짐. 첫째, ‘메모리 통합(Memory Consolidation)’ 단계에서는 모델의 파라미터 용량을 점진적으로 확장하고, 고주파수(빠르게 업데이트되는) 메모리에서 저주파수(느리게 업데이트되는) 메모리로 지식을 ‘상향 증류(Upward Distillation)’하는 ‘지식 시딩(Knowledge Seeding)’ 과정을 거침. 이 과정에는 강화 학습 기반의 ‘모방 학습(Imitation Learning)’이 결합됨. 둘째, ‘꿈꾸기(Dreaming)’ 단계에서는 모델이 스스로 합성 데이터를 생성하고 이를 통해 자기 개선을 수행하며 성능을 향상시키는 구조임을 밝힘.


3. 주요 발견

(1) 수면 패러다임: 지속 학습의 새로운 주기

지속 학습 모델은 기존의 ‘학습/테스트’ 구분에서 벗어나 ‘활성(Wake)’ 상태와 ‘수면(Sleep)’ 상태를 주기적으로 오감. 활성 상태는 모델이 새로운 외부 데이터를 능동적으로 처리하는 시기임을 의미함. 반면, 수면 상태는 외부 데이터 입력 없이 모델 내부적으로 기존 지식을 처리하고 통합하며 스스로를 개선하는 기간임을 제시함. 이 주기적 패러다임은 LLM의 지식 노후화와 치명적 망각 문제를 해결하는 본질적인 접근 방식임을 강조함.

기존 기계 학습과 지속 학습의 학습 단계 차이, 그리고 인간의 뇌파와 수면의 역할이 언어 모델의 학습 단계에 비유된 그림
지속 학습 모델은 기존의 학습/테스트 구분을 넘어 활성(깨어있는) 상태와 수면 상태를 주기적으로 오가며 지식을 처리함을 인간의 수면 메커니즘에 비유해 설명

(2) 메모리 통합: 지식의 상향 증류와 파라미터 확장

인간의 NREM 수면(느린 파동 수면)에 비유되는 메모리 통합 단계에서는 모델의 단기적이고 불안정한 고주파수 메모리(빠르게 업데이트되는 계층)의 지식을 장기적이고 안정적인 저주파수 메모리(느리게 업데이트되는 계층)로 ‘상향 증류(Upward Distillation)’함. 이는 치명적 망각을 완화하고 추상화된 지식을 효과적으로 저장하는 핵심 메커니즘임을 밝힘. 이 과정은 모델의 용량을 점진적으로 확장하는 방법을 포함함.

  • 파라미터 확장: 모델의 용량 한계로 인한 치명적 망각을 피하고자, 인간 뇌의 신경 가소성(Neuroplasticity)에 영감을 받아 메모리 블록에 새로운 저랭크 전문가(Low-Rank Expert) 파라미터를 점진적으로 추가함. 이 새로운 파라미터는 이전 지식과의 간섭 없이 새로운 지식을 저장하도록 설계됨.
  • 지식 시딩(Knowledge Seeding, KS) 및 자기 지식 시딩(Self-Knowledge Seeding, SKS): 고주파수 메모리에 저장된 지식(‘작은 모델’ 또는 ‘자기 자신의 작은 버전’)을 새로 확장된 파라미터를 포함한 저주파수 메모리(‘더 큰 모델’ 또는 ‘자기 자신의 더 큰 버전’)로 전달함. 이 설계는 기존 지식을 보존하면서도 더 큰 모델의 용량을 활용하는 데 필수적임을 지적함.
다중 주파수 기억 계층 구조와 지식 통합 과정을 보여주는 다이어그램
언어 모델의 '수면' 패러다임에서 고주파수, 중주파수, 저주파수 FFN 계층 간 파라미터 확장 및 지식 통합이 주기적으로 이루어지는 구조
라우터를 통해 활성 및 비활성 파라미터가 동적으로 업데이트되며 메모리가 통합되는 과정을 설명하는 다이어그램
수면 주기 동안 라우터가 선택한 전문가 파라미터만 업데이트하고 용량을 확장하며 지식 간섭을 최소화하는 과정

(3) 모방 학습을 통한 일반화된 지식 증류(GKD with Imitation Learning)

메모리 통합 과정에서 학생 모델(더 큰 용량의 저주파수 메모리)이 교사 모델(고주파수 메모리)의 지식을 단순히 증류하는 것을 넘어, 교사의 ‘샘플링 분포와 성능’을 모방하도록 강화 학습(RL) 기반의 ‘모방 학습(Learning to Imitate, LTI)’을 도입함. 이는 지식 전달의 품질을 높이고 학생 모델이 새로운 지식을 효과적으로 ‘사용’하는 방법을 학습하는 데 결정적인 역할을 함. 보상은 의미론적 유사성과 토큰 수준 유사성(Levenshtein 거리)을 결합하여 설계됨.

메모리 통합의 전체적인 흐름을 보여주는 다이어그램으로, 온-정책 증류와 모방 학습을 통해 지식이 전달되는 과정을 설명
지식 시딩을 포함한 메모리 통합 단계에서 파라미터 확장과 온-정책 증류 및 모방 학습을 통한 지식 정제 과정

(4) 꿈꾸기: 스스로 데이터를 생성하여 자기 개선

인간의 REM 수면(꿈꾸는 단계)에 비유되는 ‘꿈꾸기(Dreaming)’ 단계에서는 모델이 외부 입력 없이 스스로 ‘꿈(합성 데이터)’을 생성하고 이를 통해 성능을 개선함. 이는 다음과 같은 특징을 가짐.

  • 합성 데이터 생성 및 탐색: 모델은 특정 태스크와 관련된 컨텍스트를 기반으로 다양하고 새로운 꿈을 생성함. 이때 희소 전문가(Mixture of Experts) 라우터가 무작위 전문가를 선택하도록 하여, 기존 지식 공간을 넘어선 새로운 연결과 패턴을 탐색함을 강조함.
  • 선별적 학습: 생성된 꿈 중 모델 성능 개선에 잠재력이 높은 꿈을 경사 기반(Gradient-based) 중요도 점수를 바탕으로 선별함. 다양성 유지를 위해 무작위 샘플도 포함함.
  • 치명적 망각 완화: 메모리 통합 단계를 먼저 거친 후 꿈꾸기 단계를 수행함으로, 반복적인 자기 개선 과정에서 발생할 수 있는 치명적 망각의 위험을 효과적으로 완화함을 실험적으로 입증함.

(5) 실험 결과: ‘수면’ 패러다임의 광범위한 성능 향상

다양한 태스크에서 ‘수면’ 패러다임의 효과를 평가했으며, 모든 평가에서 일관된 성능 향상을 확인함.

  • 지속 학습 및 장문 이해: 클래스 증분 학습(CLINC, Banking, DBpedia 데이터셋)과 장문 질문 응답(LongHealth, QASPER, MK-NIAH) 태스크에서 Sleep 모델은 ICL, EWC, InCA 등 기존 지속 학습 및 장문 이해 기법 대비 일관되게 높은 정확도를 달성함. 특히, 통합 단계가 많을수록 인-컨텍스트 학습 및 장문 이해 능력이 향상됨을 관찰함.
  • 새로운 언어 학습: 이전에 본 적 없는 언어 번역 태스크(Manchu, Kalamang)에서 표준 ICL이 새로운 언어를 학습할 때 급격한 성능 저하와 치명적 망각을 보이는 반면, Sleep 모델은 기존 학습 내용을 상당 부분 유지하며 새로운 언어를 효과적으로 학습함을 증명함. 통합 단계가 추가될수록 성능이 선형적으로 개선됨.
  • 수학적 추론: AIME, HMMT 등 수학적 추론 벤치마크에서 Sleep 모델(Qwen3-8B 기준 79.2%)이 SFT(75.5%)나 GRPO(76.4%) 등 다른 방법론보다 우수한 추론 능력을 보여줌.
  • 지식 통합 및 소수샷 학습: 새로운 사실 정보 통합(Knowledge Incorporation) 태스크(SQuAD)와 소수샷 추론(Few-shot Abstract Reasoning) 태스크(ARC)에서도 Sleep 모델이 기존 최신 방법론(SEAL) 대비 최고의 성공률을 달성함. 특히 소수샷 추론에서 80%의 성공률을 기록함.

4. 결론 및 시사점

(1) 이 연구는 LLM이 지식을 지속적으로 통합하고 스스로 개선하는 ‘수면’ 패러다임을 도입하여, 기존 LLM의 고질적인 치명적 망각과 지식 노후화 문제를 해결하는 효과적인 방법임을 입증함. 인간의 기억 통합 과정을 모방한 두 가지 핵심 단계(메모리 통합, 꿈꾸기)가 모델의 장기 학습 능력과 일반화 성능을 크게 향상시킴을 확인함.

(2) 교육 현장에서 AI 튜터, 지식 관리 시스템 등 LLM 기반 도구를 설계할 때, 단순한 정보 제공이나 즉각적인 질의응답 기능을 넘어, 학습자의 장기 기억 형성 및 지식 통합 과정을 지원하는 ‘수면’과 같은 주기적 내부 처리 메커니즘을 적극적으로 고려해야 함. 이는 AI가 학습자의 변화하는 지식 수준에 맞춰 능동적으로 적응하고, 새로운 정보를 망각 없이 통합하여 진정한 ‘평생 학습 동반자’로 기능하는 데 필수적임.

(3) AI 설계자는 모델의 용량을 고정된 것으로 인식하는 대신, 인간 뇌의 신경 가소성처럼 학습 과정에서 점진적으로 확장 가능한 ‘모듈형 아키텍처’와 ‘가변적 파라미터 운용’을 적극적으로 고려해야 함. 이는 AI 모델이 새로운 지식을 수용하는 동시에 기존 지식과의 충돌을 최소화하며, 복잡한 교육 환경에 지속적으로 적응하고 진화하는 ‘회복탄력적(resilient)’ 지능 시스템을 구축하는 길임을 시사함.


5. 리뷰어의 ADD(+) One: 생각 더하기

(1) 이 논문에서 가장 주목할 지점은 LLM의 지속 학습 문제를 ‘인간 인지 시스템의 메모리 구조’라는 근본적인 관점에서 재해석하고 해결책을 제시했다는 점임. 기존의 많은 LLM 연구가 데이터 확장이나 프롬프트 엔지니어링 등 외부적 요소에 집중한 반면, 이 연구는 모델 자체의 내부 아키텍처와 학습 주기를 ‘수면’이라는 인간의 생체 리듬에 빗대어 재설계함. 특히, ‘메모리 주파수’ 개념을 도입하여 파라미터 업데이트 속도와 기억의 안정성을 연결한 것은 LLM이 단순히 텍스트를 처리하는 도구를 넘어, ‘내부적으로 지식을 숙성시키고 재구성하는 능동적 주체’로 진화할 가능성을 시사하는 통찰임.

(2) 이 연구는 단순한 AI 기술 개선을 넘어 교육학, 인지과학, 그리고 AI 철학에 깊은 함의를 지님. 교육학적으로는 학습 과정에서 능동적 지식 습득(Active Learning)만큼이나 ‘수동적 지식 통합(Passive Consolidation)’이 중요하다는 인간 수면 연구의 메시지를 AI 모델을 통해 재확인함. 이는 교육 현장에서 학습 설계 시 ‘휴식과 성찰’의 시간을 의도적으로 포함해야 한다는 강력한 근거가 됨. 인지과학 측면에서는 인간 뇌의 정교한 기억 통합 이론이 복잡한 인공지능 시스템 설계에 실질적인 영감을 제공할 수 있음을 보여줌. 이는 생물학적 지능과 인공지능 간의 교차 연구가 가져올 잠재력을 다시 한번 강조함. 나아가 AI가 ‘스스로 배우고 개선하는’ 존재로 진화할 가능성을 제시하며, AI의 창의성과 자기 주도적 학습 능력에 대한 철학적 논의를 촉발함.

(3) 이 연구를 발전시킬 구체적인 아이디어는 다음과 같음. 첫째, ‘개인화된 AI 수면 스케줄러’ 개발이 가능함. 학습자의 학습 패턴, 지식 습득 속도, 망각 곡선 등을 AI가 분석하여 각 학습자에게 최적화된 ‘AI 수면 주기’를 동적으로 조절하는 것임. 예를 들어, 새로운 개념을 많이 학습한 날 밤에는 AI 튜터가 ‘메모리 통합’에 더 집중하고, 특정 추론 능력 향상이 필요한 시점에는 ‘꿈꾸기’를 통해 관련 합성 문제를 더 많이 생성하여 훈련하는 방식임. 둘째, AI 모델의 ‘꿈꾸기’ 과정을 학습자에게 시각적으로 제시하여, AI가 어떻게 새로운 지식을 통합하고 문제를 해결하는지 보여줄 수 있음. 이는 학습자가 자신의 메타인지 능력과 학습 전략을 향상시키는 데 활용될 수 있음. 셋째, 교사의 전문성 개발을 위해 AI가 ‘맞춤형 교육 콘텐츠’를 생성하는 도구로 활용될 수 있음. AI의 ‘수면’ 과정을 통해 교사들이 미처 예상치 못한 교육 시나리오나 교수법을 미리 탐색하도록 돕는 방식으로, 교사 전문성의 지속적인 성장을 지원함.


6. 추가 탐구 질문

(1) 이 ‘수면’ 패러다임이 시각(Vision) 모델이나 멀티모달(Multimodal) 모델과 같이 텍스트 외 다른 형태의 데이터를 처리하는 AI에도 동일하게 적용될 수 있는지, 만약 그렇다면 어떤 새로운 ‘기억 통합’ 메커니즘이나 ‘꿈꾸기’ 방식이 필요할 수 있을까?

(2) 현재 모델 내부에서 합성 데이터를 생성하는 방식이지만, 실제 교육 현장에서 학생들의 특정 오개념이나 빈번한 질문 패턴 등 ‘실제 학습 데이터’에서 추출한 특징을 ‘수면’ 단계에서 활용하여, 모델이 더욱 현실적인 교육 시나리오에 대비하도록 훈련하는 방법은 무엇일까?

(3) AI가 스스로 ‘꿈’을 생성하고 자신을 개선하는 과정에서, 이 ‘꿈’이 모델의 초기 편향을 증폭시키거나 의도치 않은 비윤리적 지식, 혹은 확인되지 않은 허위 정보를 생성할 위험은 없는가? 이러한 자율적인 자기 개선 과정의 ‘윤리적 통제’ 메커니즘은 어떻게 설계해야 하는가?


출처

  • Behrouz, A., Hashemi, F., & Mirrokni, V. (2026). Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories. OpenReview. https://openreview.net/forum?id=iiZy6xyVVE