LLM은 어떻게 획일적인 사고방식을 조장하는가?
1. 연구의 목적
(1) 대규모 언어 모델(LLM)이 창의적인 콘텐츠를 생성하는 데 어려움을 겪고, 유사한 결과에 반복적으로 노출됨으로써 인간 사고의 획일화를 야기할 수 있다는 우려가 제기됨. 기존 LLM의 출력 다양성을 평가하는 방법은 제한적이며, 특히 광범위한 주제나 실제 사용자 쿼리에 대한 평가는 미흡함.
(2) 실제 사용자 쿼리를 기반으로 LLM의 다양성 부족을 대규모로 평가하고, 그 원인을 분석하고자 함. 이를 위해 다양한 답변이 가능한 실제 사용자 쿼리 데이터셋인 INFINITY-CHAT을 구축하고, LLM의 응답에서 나타나는 획일성(homogeneity)을 측정하는 새로운 프레임워크를 제시함.
2. 연구의 방법
(1) 연구 설계는 크게 세 단계로 구성됨:
- INFINITY-CHAT 데이터셋 구축: 실제 사용자 쿼리 26,000개를 수집하고, 6개의 상위 카테고리 및 17개의 하위 카테고리로 분류하는 taxonomy를 개발함.
- LLM의 획일성(homogeneity) 평가: INFINITY-CHAT을 사용하여 70개 이상의 LLM에서 intra-model 반복(한 모델이 유사한 응답을 반복 생성) 및 inter-model 획일성(여러 모델이 유사한 응답 생성)을 측정함.
- 인간 선호도와의 비교: LLM, 보상 모델, LLM 판정기의 응답을 인간의 선호도와 비교하여, 모델이 다양한 인간 선호도를 얼마나 잘 반영하는지 평가함.
(2) 평가는 절대 평가와 쌍대 비교 평가로 진행됨. 25명의 독립적인 평가자가 각 쿼리-응답 쌍에 대해 절대적인 품질 점수를 부여하고, 응답 쌍 간의 선호도를 평가함.
(3) 분석 관점은 다음과 같음:
- Intra-model 반복: 각 모델이 생성한 응답 풀 내에서 평균 쌍별 문장 임베딩 유사성을 계산하여 반복 정도를 측정함.
- Inter-model 획일성: 서로 다른 모델 간의 응답 유사성을 측정하고, 동일한 쿼리에 대한 상위 N개 유사한 응답이 얼마나 다양한 모델에서 나오는지 분석함.
- 인간 선호도와의 비교: LLM, 보상 모델, LLM 판정기의 응답에 대한 점수와 인간 평가 점수 간의 상관관계를 분석함.
3. 주요 발견
(1) LLM은 intra-model 반복 및 inter-model 획일성 모두에서 높은 수준의 획일성을 보임.
- Intra-model 반복: 단일 모델이 생성한 응답의 평균 쌍별 유사성이 높은 경향을 보임. 높은 온도(temperature) 값을 사용했음에도 불구하고 응답이 다양하지 않았음.
- Inter-model 획일성: 다양한 모델이 유사한 응답을 생성하는 경향이 있으며, 특히 OpenAI의 GPT 모델과 Qwen의 API 모델 간의 유사성이 높게 나타남.

(2) LLM, 보상 모델, LLM 판정기는 인간의 다양한 선호도를 제대로 반영하지 못함. 특히, 응답 품질이 유사하거나 평가자 간의 의견이 불일치하는 경우 모델의 평가 정확도가 낮아지는 경향을 보임.
(3) min-p decoding을 사용해도 LLM의 획일성을 완벽하게 해결하지 못함. 모델 훈련 수준에서 출력 다양성을 보장하는 일반화 가능한 솔루션이 필요함.
4. 결론 및 시사점
(1) LLM은 개방형 쿼리에 대해 다양한 응답을 생성하는 데 어려움을 겪으며, 이는 모델 자체의 반복성과 모델 간의 획일성으로 나타남.
(2) LLM의 획일성은 인간의 창의성을 저해하고 사고방식을 획일화할 수 있다는 점에서 우려됨. LLM이 다양한 인간의 선호도를 제대로 반영하지 못한다는 점은 모델의 공정성과 신뢰성에 대한 문제를 제기함.
(3) INFINITY-CHAT은 LLM의 다양성 부족을 진단하고 개선하는 데 유용한 리소스임. 향후 연구에서는 모델 훈련 데이터 다양성 확보, 다양성을 고려한 학습 알고리즘 개발, 다양한 디코딩 전략 탐색 등을 통해 LLM의 획일성을 완화해야 함.
5. 리뷰어의 ADD(+) One: 생각 더하기
(1) 이 연구에서 가장 주목할 점은 LLM의 획일성을 실제 사용자 쿼리 데이터셋을 활용하여 대규모로 평가했다는 점임. 기존 연구들은 주로 제한적인 주제나 인위적인 task를 사용하여 LLM의 다양성을 평가했음. 이 연구는 실제 사용자들이 LLM에 던지는 다양한 질문에 대한 응답을 분석함으로써 LLM의 실제적인 한계를 드러냄.
(2) 이 연구는 LLM의 획일성이 단순히 기술적인 문제가 아니라, 사회 문화적인 함의를 지니는 문제임을 시사함. LLM이 특정 답변 패턴을 반복하거나, 특정 모델과 유사한 답변을 생성하는 경향은 사용자의 사고방식을 획일화하고, 창의성을 저해할 수 있음. 이는 민주주의 사회에서 다양한 의견과 관점이 공존하는 것을 방해할 수 있다는 점에서 심각한 문제임.
(3) 이 연구 결과는 초·중등 교육 현장에서 LLM을 활용하는 방식에 대한 중요한 시사점을 제공함. 교사들은 LLM이 제공하는 정보가 획일적일 수 있다는 점을 인지하고, 학생들이 다양한 관점을 탐색하고 비판적으로 사고할 수 있도록 지도해야 함. 예를 들어, LLM이 생성한 답변을 비판적으로 분석하고, 다양한 출처의 정보를 비교 검토하는 활동을 통해 학생들의 창의적 사고 능력과 비판적 사고 능력을 함양할 수 있음.
(4) 이 연구를 발전시키기 위해, LLM의 획일성이 사용자에게 미치는 영향에 대한 실험 연구를 제안함. 예를 들어, LLM이 생성한 획일적인 답변에 노출된 집단과 다양한 답변에 노출된 집단 간의 창의적 문제 해결 능력, 비판적 사고 능력, 의사 결정 능력 등을 비교 분석하는 실험을 통해 LLM의 획일성이 사용자에게 미치는 실제적인 영향을 파악할 수 있을 것임.
6. 추가 탐구 질문
(1) LLM의 획일성은 어떤 메커니즘에 의해 발생하는가? 훈련 데이터의 편향, 모델 구조의 한계, 학습 알고리즘의 문제점 등 다양한 요인이 복합적으로 작용할 수 있는가?
(2) LLM의 획일성이 교육, 문화, 정치 등 다양한 사회 영역에 미치는 영향은 무엇인가? 특정 집단의 의견이 과대 대표되거나, 소수 집단의 의견이 묵살되는 등 불평등을 심화시킬 수 있는가?
(3) LLM의 획일성을 완화하기 위한 기술적, 윤리적, 정책적 해결책은 무엇인가? 모델 훈련 데이터 다양성 확보, 알고리즘 개선, 사용자 교육, 규제 등 다양한 접근 방식이 필요할 수 있는가?
<출처> - Jiang, L., Chai, Y., Li, M., Liu, M., Fok, R., Dziri, N., Tsvetkov, Y., Sap, M., Albalak, A., & Choi, Y. (2025). Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond). *arXiv preprint* arXiv:2501.12277v1. [https://doi.org/10.48550/arXiv.2501.12277](https://doi.org/10.48550/arXiv.2501.12277) 출처>