6 분 소요

hits

교실에서 AI가 뱉어내는 질문들을 보며 우리는 종종 혼란에 빠진다. 겉으로는 그럴듯하지만, 과연 이 질문들이 학생들의 머릿속에서 ‘생각의 비약’을 일으킬까? 아니면 그저 새로운 형식의 암기를 유도할 뿐일까? 오늘 함께 살펴볼 논문은 바로 이 근본적인 질문에 대한 답을 찾는다.

AI가 던지는 질문, 그 이면의 고민

AI, 특히 대규모 언어 모델(LLM)은 교육 콘텐츠를 자동 생성하는 데 놀라운 잠재력을 보여준다. 덕분에 교사들은 질문 설계라는 반복적 작업에서 벗어나 더 중요한 교육 활동에 집중할 시간을 얻는다고 이야기한다. 그러나 문제는 이 지점에서 시작된다. 기존 연구는 생성된 질문의 ‘질’과 ‘지식 관련성’에만 초점을 맞추었을 뿐, 교육의 본질적 목표인 ‘인지적 수준의 합리적 진전’을 간과하는 경향이 있었다. 교육의 진정한 가치는 단순히 지식을 전달하는 것이 아니라, 학습자를 ‘사실 암기’에서 ‘해결책 창조’로 이끄는 인지적 도약에 있다.

블룸 수준별 수동 프롬프트 예시와 LLM이 생성한 질문 비교
데이터 과학 강의를 가정해 블룸 6개 수준별 수동 프롬프트 예시(좌)와 LLM이 실제로 생성한 질문(우)을 나란히 둔 동기 사례. (출처: Wang et al., 2026)

이 연구의 출발점은 현장 교사들이 겪는 실제 문제와 정확히 맞닿는다. 우리는 질문을 통해 학생의 사고를 확장하고 싶은데, AI는 그저 핵심 지식 포인트에 대한 ‘정확한’ 질문만 던져줄 때가 많다. 정확도가 아니라 깊이의 부재가 문제다. 인지 차원이 더 낮은 수준으로 회귀하는 질문은 학생의 실제 인지 수준에 미치지 못하여 학습에 충분한 도전 과제를 제시하지 못한다. 반대로 인접한 인지 차원 간의 전환을 촉진하는 질문은 점진적인 학습을 유도하고 인지 발달을 자극한다.

블룸 택소노미로 AI 질문의 깊이를 측정하다

연구팀은 블룸의 인지 과정 차원(기억, 이해, 적용, 분석, 평가, 창조)을 기반으로 LLM 질문 생성 및 평가 프레임워크를 제시한다. 여기서 핵심은 정교한 프롬프트(FGP) 전략과 인지적 이동(Cognitive Shift) 측정이다. 이들은 기존의 지식 포인트 중심적 관점에서 벗어나 ‘인지적 도약’ 패러다임으로 전환한다.

CoT와 FGP, 평가용 프롬프트 템플릿 예시
컴퓨터 과학과 K-12 수학 영역에서 사용한 CoT(사고의 연쇄), FGP(정교한 프롬프트), 평가(Eval) 프롬프트 템플릿 예시. (출처: Wang et al., 2026)

이 연구는 6가지 LLM을 대상으로 컴퓨터 과학, K-12 수학, 사회 과학 세 가지 영역에서 총 20,700개의 질문을 생성하고 분석했다. 연구자들은 두 가지 프롬프트 전략을 비교한다.

  • 사고의 연쇄(CoT) 프롬프트: LLM이 먼저 관련 지식 단위와 인지 수준을 식별하고, 이에 따라 질문을 생성하도록 유도한다. 단계별 추론을 통해 논리적 일관성과 인지적 정렬을 개선하려 한다.
  • 정교한 프롬프트(FGP): 목표 지식 단위와 블룸 수준을 입력에 직접 명시하여 중간 추론 단계를 없앤다. 이는 질문 생성에 더 엄격한 제어를 보장한다.

FGP, 질문의 고유성과 고차원 인지 수준 질문을 늘린다

FGP는 LLM이 생성하는 질문의 질과 인지적 깊이를 현저히 개선한다. 다음 표는 컴퓨터 과학 데이터셋에서 CoT 대비 FGP가 질문의 고유성(반복성 감소)과 인지적 비약(고차원 질문)에 미치는 영향을 보여준다.

모델 CoT (고유성 %) FGP (고유성 %) 증가율 (p) CoT (CogLeap %) FGP (CogLeap %) 증가율 (p)
GLM-4-9B 90.77 99.50 8.73 48.05 58.96 10.91
Qwen2.5-7B 74.56 99.01 24.45 52.41 57.94 5.53
Baichuan2-7B 85.31 88.89 3.58 44.64 52.96 8.32
Meta-LLaMA3-8B 97.20 98.02 0.82 54.87 57.77 2.90
InternLM3-8B 94.81 98.94 4.13 53.63 65.16 11.53
Spark Max 96.96 94.70 -2.26 38.16 52.84 14.68

표 1: CoT 대비 FGP 적용 시 LLM의 질문 고유성 및 인지적 비약(CogLeap) 변화율

Qwen2.5-7B 모델은 FGP 적용 시 질문의 고유성이 24.45%p나 크게 증가했다. 이는 FGP가 LLM의 반복적인 질문 생성 경향을 효과적으로 줄여 다양한 질문을 만들도록 돕는다는 의미다. 또한, InternLM3-8B는 FGP를 사용했을 때 고차원 인지 수준의 질문(CogLeap) 생성 비율이 11.53%p 상승하여, 더 깊이 있는 사고를 요구하는 질문을 더 많이 만들었다.

CoT 대비 FGP의 인지 이동 점수 비교
모델별 인지 이동 점수. FGP(우)는 인지적 비약(CogLeap)을 높게 유지하면서 인지적 퇴보(CogDeg)를 CoT(좌)보다 줄인다. (출처: Wang et al., 2026)
LLM 생성 질문의 블룸 수준 인지적 전환 경로
각 모델의 원래 질문(original)에서 생성된 질문(new)으로의 블룸 수준 전환 흐름. 좌측(a)이 CoT, 우측(b)이 FGP다. (출처: Wang et al., 2026)

위 그림은 인지 수준 전환 경로를 시각화한 결과다. CoT 프롬프트에서는 많은 모델이 인지적 퇴보(예: 적용→이해)나 비인접 수준 전환을 보이며, 인지 목표에 대한 제어력이 약하다. 하지만 FGP를 적용하면 대부분의 전환이 인접 수준(예: 이해→분석)으로 제한되어 더욱 구조적인 전환이 나타난다. InternLM3-8B와 GLM-4-9B는 인지적 퇴보를 효과적으로 억제한다.

AI는 ‘높은 인지 수준 질문’을 남발한다

이 연구에서 주목할 만한 반직관적 발견은 LLM이 의도했던 블룸 수준보다 더 높은 인지 수준의 질문을 생성하려는 경향, 즉 ‘인지적 비약(CogLeap) 편향’을 보인다는 점이다. CoT 프롬프트에서 모든 모델의 CogLeap 비율은 44%를 넘는다. FGP는 이러한 상향 편향을 더욱 증폭시키기도 하지만, 동시에 원치 않는 하향 편차(인지적 퇴보)는 효과적으로 줄여준다.

그러나 중요한 질문이 남는다. AI가 생성한 질문이 과연 우리가 의도한 인지 수준에 정확히 부합하는가? 사회 과학 데이터셋을 통한 휴먼 평가 결과는 흥미롭다. 질문의 유용성, 가독성, 답변 가능성과 같은 지표에서는 자동 평가와 전문가 평가가 90% 이상 일치했다. 하지만 블룸 수준 일치도는 46.58%에 불과했다.

이 결과는 본질적으로 AI가 단순히 ‘질문’을 잘 만드는 것이 아니라, ‘특정 의도를 가진 질문’을 만드는 데 여전히 한계가 있음을 시사한다. AI가 자체적으로 블룸 수준을 정확히 인지하는 능력과 해당 수준의 질문을 생성하는 능력 사이에는 분명한 괴리가 존재한다. AI가 높은 수준의 질문을 ‘남발’하는 것이 학습에 도움이 될 것이라는 순진한 낙관은 위험하다. 오히려 학습자에게 과도한 인지 부하를 줄 수 있다.

현장의 냉정한 현실과 실질적 가치

이 연구는 LLM의 질문 분류 능력과 질문 생성 능력 사이에 구조적인 불일치가 존재한다는 점을 명확히 보여준다. AI는 개념적 추상화 능력은 뛰어나지만, 질문의 인지적 깊이를 정확히 분류하는 인식 메커니즘은 아직 신뢰도가 떨어진다. 흥미롭게도 LLM의 ‘질문 분류 정확도’와 ‘질문 생성의 범주 일관성’ 사이에는 역상관관계가 나타난다. 질문 분류를 잘하는 모델이 역설적으로 의도된 블룸 수준의 질문을 일관적으로 생성하는 데 어려움을 겪는다는 의미다. AI가 ‘적용’ 수준의 질문을 분류하는 데는 강하지만, ‘분석’이나 ‘창조’ 같은 고차원 질문은 낮은 수준으로 오분류하는 경우가 많다.

LLM의 질문 분류 정확도와 범주 일관성, 지식 식별 정확도와 지식 커버리지 간의 상관관계
LLM의 질문 분류 정확도와 범주 일관성(a), 지식 식별 정확도와 지식 커버리지(b) 상관관계. (출처: Wang et al., 2026)
블룸 수준별 LLM 질문 분류 정확도 혼동 행렬
블룸 수준별 LLM 질문 분류 정확도 혼동 행렬. 예시로 GLM-4-9B는 창조(C) 질문 147개를 이해(U)로 오분류했다. (출처: Wang et al., 2026)

반면, 지식 단위 식별 정확도가 높으면 지식 커버리지도 높아지는 강력한 양의 상관관계가 나타난다. 예를 들어, GLM-4-9B는 지식 식별 정확도 84.5%로 가장 높았고, 지식 커버리지도 85.45%로 가장 높았다. 이는 지식 식별이 지식 수준의 충실도를 높이는 데 핵심적 역할을 한다는 의미다.

여기에서 우리는 중요한 통찰을 얻는다. AI는 겉보기에는 고차원적 질문을 잘 만드는 것처럼 보이지만, 사실은 스스로 질문의 인지적 깊이를 정확히 ‘이해’하고 ‘조절’하는 능력이 부족하다. 본질적으로 AI는 패턴을 모방하고 통계적으로 다음 올 단어를 예측할 뿐이다. 질문의 ‘지식 단위’를 정확히 지정하는 것은 비교적 쉽고, 이는 결과적으로 지식 포함 범위에도 긍정적인 영향을 준다. 하지만 ‘인지적 깊이’는 훨씬 추상적인 개념이며, 이를 AI가 완벽하게 제어하기는 아직 어렵다. 이는 우리가 AI를 교육 현장에 들여올 때 단순히 ‘질문 생성 도구’가 아니라 ‘인지적 깊이를 조절할 수 있는 교사 보조 도구’로 인식해야 함을 명확히 보여준다.

현장 적용의 세 가지 원칙

이 연구는 LLM이 단순 암기를 넘어 창의적 사고를 자극하는 질문을 만들 잠재력을 가졌음을 보여주지만, 이는 교사의 면밀한 설계와 개입 없이는 불가능하다. AI는 아직 우리를 보조할 도구이지, 그 자체로 완벽한 ‘교사’가 아니다.

그렇다면 우리는 이 연구 결과를 바탕으로 교육 현장에서 AI를 어떻게 활용해야 하는가?

  1. FGP(Fine-Grained Prompting)를 적극적으로 활용한다: 교사는 학습 목표와 블룸 수준을 명확히 정의하고, 짧고 구체적인 예시 질문과 함께 FGP를 사용하여 AI에게 질문 생성을 지시한다. ‘이 개념에 대해 ‘적용’ 수준의 질문 3개와 ‘분석’ 수준의 질문 1개를 만들어 줘’와 같은 방식이 효과적이다. 이는 AI가 무작정 고차원 질문을 쏟아내는 것을 방지하고, 교사의 의도에 맞는 질문을 생성하도록 돕는다.
  2. 질문 선별과 수정은 교사의 몫이다: AI가 생성한 질문은 ‘높은 인지 수준 편향’을 보일 수 있으므로, 반드시 교사의 안목으로 수정하고 선별하는 과정이 필요하다. 특히 ‘창조’, ‘평가’ 같은 최상위 블룸 질문은 AI의 한계가 명확하므로, 인간 교사가 최종 검토를 거쳐야 한다. 단순히 ‘유용하다’고 판단된 질문이라도 인지적 맥락에서 재평가해야 한다.
  3. 동료와의 ‘5분 성찰’ 문화를 만든다: AI가 만든 질문 중 학습자에게 혼란을 주거나, 의도와 다르게 작동한 사례가 있다면, 동료 교사에게 짧게 공유하고 ‘이 질문이 왜 이렇게 느껴질까?’, ‘어떤 점을 바꿔야 할까?’와 같이 함께 의심 사례를 들여다보는 5분짜리 대화를 나누는 것이 중요하다. 이는 거창한 전문적 학습 공동체(PLC) 미팅보다 훨씬 실질적인 학습 효과를 낳으며, AI 활용 역량을 실제적으로 고도화하는 방법이다.

LLM은 교육 질문 생성의 지평을 넓혔지만, ‘지식의 전달’을 넘어 ‘사고의 비약’을 이끌어내기 위해서는 여전히 교사의 섬세한 통제와 비판적 사고가 요구된다. AI가 던지는 질문의 인지적 깊이를 우리가 어떻게 효과적으로 조절하고 활용할 것인가? 이것이 우리의 다음 과제다.

출처

  • Wang, X., Zhao, Z., Lai, S., Zhang, C., Geng, Z., Tong, Y., Wei, Y., & Wen, Q. (2026). From Memorization to Creation: Evaluating the Cognitive Depth of LLM-Generated Educational Questions. Proceedings of the 32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining V.1 (KDD’26). https://doi.org/10.1145/3770854.3785686