LLM은 개방형 질문에 대해 획일적인 답변을 얼마나 생성하는가?

3 분 소요

1. 연구의 목적

(1) 대규모 언어 모델(LLM)은 종종 다양하고 인간과 유사한 창의적인 콘텐츠를 생성하는 데 어려움을 겪으며, 이는 유사한 출력에 반복적으로 노출되어 인간 사고의 장기적인 획일화에 대한 우려를 제기함. 특히 무작위 숫자 또는 이름 생성과 같이 좁은 작업 범위를 벗어나거나 단일 모델에서 반복적으로 샘플링하는 경우, LLM 출력의 다양성을 평가하는 확장 가능한 방법이 제한적임.

(2) 이러한 격차를 해소하기 위해 광범위한 답변이 가능한 2만 6천 개의 다양하고 실제적인 개방형 사용자 쿼리 데이터 세트인 INFINITY-CHAT을 제시함. 또한 LLM에 제기되는 개방형 프롬프트의 전체 스펙트럼을 특성화하기 위한 포괄적인 분류 체계를 도입하여 창의적인 콘텐츠 생성, 브레인스토밍 및 아이디어 구상과 같은 6개의 최상위 범주와 17개의 하위 범주로 세분화함. INFINITY-CHAT을 사용하여 LLM의 모드 붕괴에 대한 대규모 연구를 제시하고 LLM의 개방형 생성에서 두드러진 인공 하이브마인드 효과를 밝혀냄.

2. 연구의 방법

(1) 연구 설계는 다음과 같음:

INFINITY-CHAT100 데이터 세트에서 100개의 대표적인 개방형 질문을 선택
70개 이상의 LLM을 대상으로 실험 진행 (주요 논문에서는 25개 모델 상세 분석)
각 모델에 대해 질문당 50개의 응답을 생성하고, 다양한 지표를 통해 분석

(2) 평가 방법은 다음과 같음:

인간 평가자 25명이 각 응답 쌍에 대한 절대 품질 평가 및 쌍별 선호도 평가 수행
LLM, 보상 모델, LLM 기반 판정 모델을 사용하여 응답 평가하고 인간 평가와 비교

(3) 분석 관점은 다음과 같음:

LLM의 응답에서 구문 및 의미적 반복 측정
모델 간 응답의 유사성 및 다양성 비교
인간의 주관적인 선호도와 모델의 평가 간의 상관관계 분석

3. 주요 발견

(1) LLM은 개방형 질문에 대해 높은 수준의 반복성을 보임. 동일한 모델이 유사한 응답을 반복적으로 생성하는 경향이 있으며, 서로 다른 모델 간에도 유사한 출력을 생성하는 경향이 있음. 특히 top-p 샘플링과 같은 높은 확률적 디코딩 파라미터를 사용했음에도 불구하고 이러한 현상이 나타남. Figure 4는 동일한 LLM이 생성한 응답에서 반복 정도를 보여줌. 높은 임의성 디코딩 파라미터에도 불구하고, 응답 간의 유사성이 높게 나타남.

LLM의 개방형 질의 응답 반복성 히트맵

(2) 인간 평가자의 선호도는 응답에 따라 크게 다를 수 있으며, LLM, 보상 모델 및 LLM 기반 판정 모델은 이러한 인간의 주관적인 선호도를 잘 반영하지 못함. 특히 유사한 품질의 응답이나 인간 평가자 간의 의견 불일치가 큰 경우 모델의 평가 정확도가 떨어지는 경향이 있음.

(3) 특정 프롬프트에 대해 여러 모델이 매우 유사한 응답을 생성하는 경향이 있으며, 이는 모델 앙상블이 진정한 다양성을 제공하지 못할 수 있음을 시사함. Figure 1은 “시간에 대한 은유를 작성하시오”라는 질문에 대한 여러 모델의 응답을 보여줌. 다양한 모델들이 “시간은 강이다”와 “시간은 직조공이다”라는 두 가지 은유에 집중되는 경향을 보임.

시간에 대한 은유를 묻는 질문에 대한 LLM 응답 클러스터

4. 결론 및 시사점

(1) LLM은 개방형 질문에 대해 다양하고 창의적인 응답을 생성하는 데 어려움을 겪으며, 이는 인공 하이브마인드 효과로 이어질 수 있음.

(2) 교육 현장에서 LLM을 활용할 때 학생들의 창의성과 비판적 사고 능력을 저해하지 않도록 주의해야 함. LLM 개발자는 모델의 다양성을 향상시키고 인간의 주관적인 선호도를 더 잘 반영할 수 있도록 노력해야 함. 학생들에게 다양한 관점을 제시하고 스스로 생각하는 능력을 키울 수 있도록 교육 전략을 수립해야 함.

5. 리뷰어의 ADD(+) One: 생각 더하기

(1) 이 연구의 가장 인상적인 부분은 INFINITY-CHAT 데이터 세트를 구축하고, 이를 통해 LLM의 응답 다양성 부족을 실증적으로 분석했다는 점임. 기존 연구들이 좁은 범위의 작업이나 합성 데이터에 집중했던 반면, 이 연구는 실제 사용자 쿼리를 사용하여 LLM의 한계를 명확하게 보여줌.

(2) 이 연구는 LLM의 획일성이 단순히 기술적인 문제가 아니라 사회적, 문화적 함의를 지니는 문제임을 시사함. LLM이 특정 관점이나 표현 방식을 선호하게 되면, 이는 사회 전체의 다양성을 감소시키고 특정 집단의 목소리를 억압할 수 있음. 이러한 문제는 교육 분야에서 특히 중요하며, LLM을 활용한 교육 콘텐츠가 특정 문화적 편향을 강화할 수 있다는 점을 경계해야 함.

(3) 이 연구 결과는 현재 초등학교에서 대학교까지, 혹은 평생교육 맥락에서 LLM 활용 방식에 근본적인 질문을 던지게 함. 획일적인 사고방식을 조장할 수 있는 LLM의 특성을 고려할 때, 교육자들은 LLM을 비판적으로 사용하고 학생들의 창의적 사고와 문제 해결 능력을 장려하는 방향으로 교육 전략을 수정해야 함. 예를 들어, LLM이 제공하는 정보에만 의존하지 않고 다양한 출처를 통해 정보를 수집하고 분석하는 능력을 강조해야 함.

(4) 이 연구를 발전시키기 위한 구체적인 아이디어로, LLM의 응답 다양성을 평가하는 새로운 지표를 개발하고, 이를 기반으로 LLM의 다양성을 향상시키는 알고리즘을 개발하는 것을 제안함. 예를 들어, 응답의 novelty, relevance, usefulness를 종합적으로 평가하는 지표를 개발하고, 이 지표를 최적화하는 강화 학습 알고리즘을 사용하여 LLM을 훈련한다면 어떨까.

6. 추가 탐구 질문

(1) LLM의 획일성이 발생하는 근본적인 원인은 무엇이며, 이를 해결하기 위한 기술적, 교육적, 사회적 접근 방식은 무엇인가?

(2) LLM을 활용한 교육 콘텐츠가 학생들의 창의성과 비판적 사고 능력에 미치는 영향은 무엇이며, 이를 긍정적으로 변화시키기 위한 교육 전략은 무엇인가?

(3) LLM의 획일성이 사회 전체의 다양성에 미치는 영향은 무엇이며, 이를 해결하기 위한 윤리적, 정책적 논의는 어떻게 이루어져야 하는가?

<출처> - Jiang, L., Chai, Y., Li, M., Liu, M., Fok, R., Dziri, N., Tsvetkov, Y., Sap, M., Albalak, A., & Choi, Y. (2025). Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond). *NeurIPS 2025*. [https://github.com/liweijiang/artificial-hivemind](https://github.com/liweijiang/artificial-hivemind)

X Facebook LinkedIn Bluesky

김진관(닷커넥터)

Categories

Tag Cloud

LLM은 개방형 질문에 대해 획일적인 답변을 얼마나 생성하는가?

1. 연구의 목적

2. 연구의 방법

3. 주요 발견

4. 결론 및 시사점

5. 리뷰어의 ADD(+) One: 생각 더하기

6. 추가 탐구 질문

공유하기

참고

AI 에이전트들은 어떻게 서로 가르치고 배우는가?

AI 플래시 카드 도구는 자기 주도 학습을 어떻게 지원하는가?

고등 교육에서 AI는 자기조절학습(SRL)을 어떻게 지원하는가?

수학 교육용 LLM 튜터는 어떻게 사고 과정에 대한 보상을 통해 성능을 향상시킬 수 있을까?