인공 일반 지능(AGI)의 현재: GPT 모델의 인지 프로필 심층 분석
인공 일반 지능(AGI)의 현재: GPT 모델의 인지 프로필 심층 분석
1. 서론
1.1. 보고서의 배경 및 목적
인공 일반 지능(Artificial General Intelligence, AGI)은 인류 역사상 가장 중요한 기술 발전이 될 잠재력을 지니고 있지만, 그 용어 자체는 명확한 정의 없이 모호하게 사용되어 왔습니다. 이러한 정의의 부재는 현재 인공지능(AI) 기술의 실제 수준과 인간 수준의 포괄적인 인지 능력 사이에 존재하는 격차를 파악하기 어렵게 만듭니다. 특정 과제에서 AI가 인간을 능가하는 성과를 보일 때마다 AGI의 기준점이 계속해서 이동하며, 이는 AGI 달성 현황에 대한 생산적인 논의를 저해하는 요인이 되고 있습니다.
본 보고서는 이러한 모호성을 극복하고 AI의 능력을 체계적으로 평가하기 위한 정량적 프레임워크를 기반으로, 최신 AI 시스템의 인지 프로필을 심층 분석하는 것을 목적으로 합니다. 인간 인지 과학의 검증된 이론을 바탕으로 AI의 강점과 약점을 진단함으로써, AGI 달성을 위해 해결해야 할 핵심적인 기술적 과제들을 명확히 규명하고자 합니다.
보고서는 먼저 AGI의 조작적 정의와 이를 측정하기 위한 평가 프레임워크를 소개하고, 이어서 해당 프레임워크를 GPT-4와 GPT-5 모델에 적용하여 얻은 인지 프로필 분석 결과를 제시합니다. 마지막으로, 분석 결과를 통해 드러난 주요 기술적 과제와 시사점을 논의하며 결론을 맺을 것입니다.
2. AGI 평가를 위한 정량적 프레임워크
2.1. 프레임워크의 이론적 기반과 AGI의 조작적 정의
신뢰할 수 있는 AI 평가를 위해서는 인간 지능에 대한 경험적으로 검증된 모델을 이론적 기반으로 삼는 것이 필수적입니다. 본 보고서에서 활용하는 평가 프레임워크는 100년 이상의 반복적인 요인 분석(factor analysis)을 통해 종합된, 인간 인지 능력에 대한 가장 실증적인 모델인 ‘캐텔-혼-캐롤(Cattell-Horn-Carroll, CHC) 이론’에 기반을 두고 있습니다. 실제로 거의 모든 주요 임상 및 개인별 인간 지능 검사는 명시적이든 암묵적이든 CHC 모델의 설계 청사진을 기반으로 개정되어 왔습니다. CHC 이론을 평가의 준거로 삼음으로써, AI의 능력을 단편적인 성능 지표가 아닌 인간의 다각적인 지능 구조와 비교하여 객관적이고 체계적으로 분석할 수 있습니다.
이러한 이론적 기반 위에서, 본 프레임워크는 AGI를 다음과 같이 명확하게 조작적으로 정의합니다.
AGI란 잘 교육받은 성인의 인지적 다재다능함(versatility)과 숙련도(proficiency)를 갖추거나 능가하는 AI이다.
이 정의는 AGI가 특정 영역에서의 탁월함을 넘어, 인간 지능의 특징인 폭넓은 능력의 ‘다재다능함’을 갖추어야 함을 강조합니다. 이를 측정하기 위해, 프레임워크는 CHC 이론을 바탕으로 일반 지능을 10개의 핵심 인지 요소로 분류하고, 각 요소에 10%의 동일한 가중치를 부여합니다. 이는 특정 능력의 깊이(숙련도)보다 능력의 폭(다재다능함)을 우선적으로 평가하겠다는 설계 철학을 반영합니다.
10가지 핵심 인지 구성 요소는 다음과 같습니다.
- 일반 지식 (General Knowledge, K)
- 읽기 및 쓰기 능력 (Reading and Writing Ability, RW)
- 수학적 능력 (Mathematical Ability, M)
- 즉각적 추론 (On-the-Spot Reasoning, R)
- 작업 기억 (Working Memory, WM)
- 장기 기억 저장 (Long-Term Memory Storage, MS)
- 장기 기억 인출 (Long-Term Memory Retrieval, MR)
- 시각 처리 (Visual Processing, V)
- 청각 처리 (Auditory Processing, A)
- 속도 (Speed, S)
결론적으로, 이 프레임워크는 AI의 종합적인 능력을 단일 점수로 요약하면서도, 각 인지 영역별 강점과 치명적인 약점을 정밀하게 진단하는 종합적인 도구입니다. 다음 장에서는 이 프레임워크를 실제 최신 AI 모델에 적용하여 얻은 구체적인 분석 결과를 살펴보겠습니다.
3. AI 모델의 인지 프로필 분석: GPT-4 vs. GPT-5
3.1. 종합 AGI 점수 및 ‘들쭉날쭉한(Jagged)’ 능력 특성
본 장에서는 앞서 설명한 AGI 평가 프레임워크를 최신 AI 모델인 GPT-4와 GPT-5에 적용하여 얻은 정량적 데이터를 분석합니다. 이 분석을 통해 현재 AI 기술 수준에 대한 명확한 그림을 제시하고, 모델 세대 간의 발전 양상과 함께 여전히 남아있는 한계를 구체적으로 비교하고자 합니다.
표 1: GPT-4 및 GPT-5의 AGI 점수 요약 | 인지 영역 | GPT-4 (2023) | GPT-5 (2025) | | :— | :—: | :—: | | 일반 지식 (K) | 8% | 9% | | 읽기 및 쓰기 (RW) | 6% | 10% | | 수학 (M) | 4% | 10% | | 즉각적 추론 (R) | 0% | 7% | | 작업 기억 (WM) | 2% | 5% | | 장기 기억 저장 (MS) | 0% | 0% | | 장기 기억 인출 (MR) | 4% | 4% | | 시각 처리 (V) | 0% | 4% | | 청각 처리 (A) | 0% | 6% | | 속도 (S) | 3% | 3% | | 총점 | 27% | 58% |
분석 결과, GPT-4의 총점은 27%, GPT-5의 총점은 58%로 나타났습니다. 이는 AI 분야의 빠른 기술 발전을 명백히 보여주는 동시에, 인간 수준의 AGI(100%)에 도달하기까지는 여전히 상당한 격차가 존재함을 시사합니다.
더 중요한 발견은 두 모델 모두 매우 ‘들쭉날쭉한(jagged)’ 인지 프로필을 보인다는 점입니다. 일반 지식, 읽기/쓰기, 수학과 같이 방대한 데이터 학습에 유리한 영역에서는 높은 숙련도를 보이지만, 장기 기억 저장이나 즉각적 추론과 같은 근본적인 인지 기능 영역에서는 심각한 결함을 나타냅니다.
이러한 능력의 극심한 불균형은 현재 AI 기술의 근본적인 한계를 드러냅니다. 이는 단순히 특정 벤치마크 점수를 높이는 것만으로는 AGI에 도달할 수 없음을 의미하며, 결함이 있는 특정 인지 기능을 집중적으로 개발해야 할 필요성을 제기합니다. 이어지는 하위 섹션에서는 각 인지 영역별 점수를 더 깊이 있게 분석하여 이러한 ‘들쭉날쭉한’ 특성의 구체적인 양상을 살펴보겠습니다.
3.2. 영역별 상세 분석
3.2.1. 일반 지식 (K) 및 읽기/쓰기 능력 (RW)
일반 지식(K)은 세상에 대한 폭넓은 배경 지식을 평가하며, 읽기 및 쓰기 능력(RW)은 서면 언어를 이해하고 생성하는 능력을 측정합니다. 두 영역 모두 GPT-4(K: 8%, RW: 6%)와 GPT-5(K: 9%, RW: 10%)에서 비교적 높은 점수를 기록했습니다. 이는 대규모 언어 모델이 방대한 텍스트 데이터를 학습한 직접적인 결과로, 기존 지식을 활용하는 능력에 강점이 있음을 보여줍니다. 특히 GPT-5는 읽기/쓰기 영역에서 만점을 기록하며 GPT-4가 가졌던 일부 격차를 성공적으로 메웠습니다.
3.2.2. 수학적 능력 (M)
수학적 능력(M)은 논리적이고 수리적인 문제 해결 능력을 평가합니다. 이 영역에서는 GPT-4와 GPT-5 간에 극적인 발전이 관찰됩니다. GPT-4는 4%로 제한된 능력을 보인 반면, GPT-5는 10% 만점을 기록하며 탁월한 수준으로 도약했습니다. 이는 AI의 논리적, 수리적 추론 능력에 중대한 발전이 있었음을 시사하며, 단순한 패턴 인식을 넘어 복잡한 문제 해결을 위한 기반이 강화되었음을 의미합니다.
3.2.3. 즉각적 추론 (R)
즉각적 추론(R)은 기존 지식에만 의존하지 않고, 새로운 문제에 직면했을 때 유연하게 사고하여 해결책을 도출하는 능력을 측정합니다. GPT-4는 이 영역에서 0점을 기록하여, 새로운 유형의 문제에 대한 적응 및 추론 능력이 거의 전무했음을 보여줍니다. 반면 GPT-5는 7%의 점수를 획득하며 상당한 개선을 이루었습니다. 이는 AI가 점차 예측 불가능한 상황에 대처하는 능력을 갖추기 시작했음을 의미하지만, 인간 수준의 유연한 사고까지는 여전히 발전이 필요함을 나타냅니다.
3.2.4. 작업 기억 (WM)
작업 기억(WM)은 정보를 일시적으로 유지하고, 이를 능동적으로 조작하여 과제를 수행하는 능력을 평가합니다. GPT-4(2%)에 비해 GPT-5(5%)는 이 영역에서 개선된 성능을 보였습니다. 이는 더 길고 복잡한 맥락을 처리하고, 대화나 작업 중에 정보를 일관되게 유지하는 능력이 향상되었음을 의미합니다.
3.2.5. 장기 기억 저장 (MS)
장기 기억 저장(MS)은 새로운 경험이나 정보를 지속적으로 학습하고 이를 안정적으로 통합하는 능력을 측정합니다. 놀랍게도, 두 모델 모두 이 영역에서 0점을 기록했습니다. 이는 현재 AI 시스템이 이전의 상호작용이나 새로운 데이터로부터 지속적으로 학습하여 자신의 지식 체계를 업데이트하는 근본적인 능력이 없음을 보여주는 가장 치명적인 약점입니다. 매 상호작용이 단절되어 진정한 의미의 개인화나 장기적인 학습이 불가능한 상태임을 의미합니다.
3.2.6. 장기 기억 인출 (MR)
장기 기억 인출(MR)은 저장된 지식을 얼마나 빠르고 정확하게 꺼내 사용하는지를 평가합니다. 두 모델 모두 4%로 동일한 점수를 기록했으나, 이 점수의 구성은 매우 중요합니다. 이 4%라는 점수는 전적으로 ‘인출 유창성(Retrieval Fluency)’ 하위 항목에서 비롯된 것이며, 사실과 다른 정보를 생성하는 환각(hallucination) 현상을 평가하는 ‘인출 정확성(Retrieval Precision)’ 하위 항목에서는 두 모델 모두 0점을 기록했습니다. 이는 AI가 지식을 빠르게 꺼내는 능력은 일부 갖추었지만, 그 지식의 신뢰도를 보장하는 능력은 전혀 발전하지 못했음을 정량적으로 보여주는 결과입니다.
3.2.7. 시각 처리 (V) 및 청각 처리 (A)
시각 처리(V)와 청각 처리(A)는 각각 시각 및 청각 정보를 분석하고 생성하는 멀티모달 능력을 평가합니다. GPT-4는 텍스트 기반 모델이었기에 두 영역 모두에서 0점을 기록하여 해당 능력이 전무했습니다. 그러나 GPT-5는 시각 처리에서 4%, 청각 처리에서 6%의 점수를 획득하며, 텍스트를 넘어선 멀티모달 능력의 중대한 발전을 보여주었습니다. 이는 AI가 더 다양한 형태의 데이터를 이해하고 상호작용할 수 있게 되었음을 의미하지만, 점수에서 알 수 있듯 아직 인간 수준에는 한참 미치지 못하는 초기 단계에 머물러 있습니다.
3.2.8. 속도 (S)
속도(S)는 간단한 인지 과제를 얼마나 빠르게 수행하는지를 측정합니다. 두 모델 모두 3점으로 동일한 점수를 기록했습니다. 이는 단순 텍스트를 읽고 쓰는 속도는 빠르지만, 복잡한 멀티모달 정보를 처리하거나 다양한 자극에 신속하게 반응하는 능력에서는 여전히 한계가 있음을 나타냅니다. 특히 GPT-5의 경우, ‘사고(thinking)’ 모드에서 답변을 생성하는 데 종종 오랜 시간이 걸린다는 점은 이러한 속도 점수의 실질적인 한계를 보여줍니다.
이러한 들쭉날쭉한 인지 프로필 분석은 AGI 달성을 위해 어떤 부분에 기술적 노력이 집중되어야 하는지를 명확히 보여줍니다. 다음 장에서는 이 분석을 바탕으로 AGI 개발의 핵심 과제들을 더 깊이 있게 논의하겠습니다.
4. AGI 달성을 위한 주요 기술적 과제와 ‘능력 왜곡’ 현상
4.1. 분석의 의의와 주요 과제 식별
앞선 정량적 분석은 단순히 AI 모델에 점수를 부여하는 것을 넘어, AGI 개발 경로에 놓인 핵심적인 병목 현상과 구조적 문제를 식별하는 데 중요한 의미를 가집니다. 특정 능력은 인간을 초월하는 수준에 가까워지는 반면, 다른 능력은 완전히 부재한 ‘들쭉날쭉한 프로필’은 현재 AI 기술의 현주소를 명확히 보여줍니다.
본 장에서는 분석된 데이터를 통해 드러난 가장 시급하고 중대한 기술적 과제 두 가지, 즉 ‘핵심 병목 현상’과 ‘능력 왜곡(Capability Contortions)’ 현상에 대해 심층적으로 논의하고자 합니다.
4.2. 핵심 병목 현상: 장기 기억 저장 능력의 부재
모든 AI 모델에서 0점으로 평가된 ‘장기 기억 저장(Long-Term Memory Storage, MS)’ 능력의 부재는 AGI 달성을 가로막는 가장 중대하고 명백한 병목 현상입니다. 이 능력은 AI가 진정한 의미의 ‘학습’을 통해 발전하기 위한 전제 조건입니다.
장기 기억 저장 능력이 없다면, AI는 이전의 상호작용이나 경험으로부터 지속적으로 배울 수 없습니다. 이는 AI가 매번의 대화나 작업을 새로운 맥락에서 시작해야 하는 영구적인 ‘기억 상실’ 상태에 머무르게 함을 의미합니다. 결과적으로, 사용자에 맞춘 깊이 있는 개인화, 며칠 또는 몇 주에 걸친 장기적 과제 수행, 그리고 새로운 정보를 통해 스스로를 개선하는 진정한 학습이 근본적으로 제한됩니다. 이 문제를 해결하지 않고서는 AGI로의 도약은 불가능합니다.
4.3. ‘능력 왜곡(Capability Contortions)’ 현상과 그 한계
‘능력 왜곡’이란 강점인 영역을 활용하여 다른 영역의 근본적인 약점을 임시방편으로 보완함으로써, 실제보다 더 일반적인 능력을 갖춘 것처럼 보이는 현상을 의미합니다. 이러한 ‘꼼수’는 AI의 실제 한계를 가리고, AGI의 능력을 과대평가하게 만들 위험이 있습니다. 현재 AI 시스템에서 나타나는 대표적인 능력 왜곡 사례는 다음과 같습니다.
-
작업 기억(WM) 대 장기 기억 저장(MS) AI는 장기 기억 저장(MS) 능력이 전무하다는 치명적 약점을 보완하기 위해, 방대한 양의 정보를 일시적으로 담을 수 있는 컨텍스트 창(작업 기억, WM)에 과도하게 의존합니다. 그러나 이는 근본적인 해결책이 아닌 임시방편에 불과합니다. 이 방식은 엄청난 계산 비용을 요구하여 비효율적일 뿐만 아니라, 시스템의 주의 집중 메커니즘(attentional mechanisms)에 과부하를 줄 수 있습니다. 무엇보다 며칠 또는 몇 주에 걸쳐 축적되는 장기적인 맥락을 처리하는 데에는 완전히 실패합니다.
-
외부 검색(RAG) 대 내부 인출(MR) AI가 부정확한 정보를 사실처럼 말하는 환각 현상(부정확한 장기 기억 인출, MR)을 해결하기 위해, 검색 증강 생성(Retrieval-Augmented Generation, RAG)과 같은 외부 도구에 의존하는 것 역시 또 다른 능력 왜곡 사례입니다. RAG는 AI 내부 기억의 두 가지 개별적이고 근본적인 약점을 가리는 임시 해결책 역할을 합니다.
- 정적 파라미터 지식 접근의 불안정성: RAG는 AI가 내부에 방대하게 저장하고 있지만 정적인 파라미터 지식에 안정적으로 접근하지 못하는 한계를 외부 검색으로 보완합니다.
- 동적 경험적 기억의 부재: 더 비판적으로, RAG는 개인적인 상호작용과 변화하는 맥락을 통해 지속적으로 업데이트되는 동적인 경험적 기억이 전무하다는 사실을 가립니다. RAG는 진정한 학습과 개인화를 위해 필수적인 통합된 기억 시스템을 대체할 수 없습니다.
이러한 능력 왜곡을 진정한 능력의 발전으로 착각하는 것은 AGI 도달 시점을 오판하게 만들고, 개발 노력을 엉뚱한 방향으로 이끌 수 있습니다. 따라서 AI의 능력을 평가할 때는 이러한 ‘꼼수’의 한계를 명확히 인지하는 것이 매우 중요합니다.
5. 결론 및 시사점
5.1. 연구 요약 및 종합적 평가
본 보고서는 AGI에 대한 모호한 논의를 지양하고, 인간 인지 과학에 기반한 정량적 프레임워크를 통해 최신 AI 모델인 GPT-4와 GPT-5의 인지 프로필을 심층적으로 분석했습니다. 분석 결과, 종합 AGI 점수가 GPT-4의 27%에서 GPT-5의 58%로 증가하며 상당한 기술적 진보가 있었음을 확인했습니다. 특히 지식, 읽기/쓰기, 수학과 같은 데이터 기반 영역에서 괄목할 만한 성과를 보였습니다.
하지만 이러한 인상적인 발전 이면에는 ‘들쭉날쭉한’ 능력 프로필이라는 현재 AI의 명백한 실상이 존재합니다. 특히, 새로운 정보를 지속적으로 학습하고 통합하는 장기 기억 저장(MS) 능력의 완전한 부재와 같은 근본적인 결함은 AGI로 나아가는 길에 심각한 장애물로 작용하고 있습니다.
이러한 상황은 엔진 비유(Engine Analogy)를 통해 효과적으로 설명할 수 있습니다. AI라는 고성능 엔진의 전반적인 출력(마력)은 결국 가장 약한 부품에 의해 제약을 받습니다. 현재 AI 엔진은 일부 부품(지식, 언어 능력 등)은 고도로 최적화되었지만, 다른 핵심 부품(장기 기억, 즉각적 추론 등)은 심각한 결함이 있거나 아예 존재하지 않는 상태와 같습니다. 본 프레임워크는 바로 이러한 결함들을 식별하여, 우리가 AGI로부터 얼마나 떨어져 있는지에 대한 평가를 안내하는 진단 도구 역할을 합니다.
따라서 총점과 같은 단일 지표만으로 AI의 능력을 평가하는 것은 심각한 오해를 낳을 수 있습니다. 개별 인지 영역의 강점과 약점을 함께 보여주는 인지 프로필을 종합적으로 살펴보는 것이 AI의 현재 수준을 정확히 이해하는 데 필수적입니다.
결론적으로, 본 연구는 AGI를 향한 길이 단순히 기존의 강점을 강화하고 확장하는 것만으로는 달성될 수 없음을 시사합니다. 그보다는 현재 부재하거나 심각한 결함을 보이는 근본적인 인지 기능을 처음부터 설계하고 개발하는 데 기술적 노력이 집중되어야 함을 명확히 보여줍니다. 진정한 AGI는 모든 인지적 부품이 조화롭게 작동하는 균형 잡힌 엔진을 통해서만 실현될 수 있을 것입니다.
출처: Hendrycks, D., Li, N., Zhang, O., Edson, A., & Blyth, M. (2025). A definition of AGI. arXiv preprint arXiv:2501.12345.