생성형 AI는 웹 검색을 어떻게 변화시키는가
1. 연구의 목적
(1) 대규모 언어 모델(LLM)이 웹 검색에 통합되며 사용자들이 AI 챗봇을 전통적 검색 엔진 대신 사용하기 시작함. 특히 구글이 AI Overview(AIO)를 기본으로 표시하면서 검색 결과에 큰 변화가 나타남. 전통적 검색과 생성형 AI 검색이 정보를 검색하고 제시하는 방식이 다르고, 이러한 차이가 사용자, 웹사이트, 전반적인 정보 생태계에 어떤 영향을 미치는지 명확하지 않음.
(2) 이 연구는 생성형 AI가 웹 검색 생태계를 어떻게 변화시키는지 실증적으로 이해하는 것을 핵심 목표로 함. 구글의 전통적 검색, AI Overview, Gemini Flash 2.5의 검색 결과 및 정보 소스 제공 방식을 비교하여 웹사이트 가시성, 생성형 엔진 최적화(GEO) 기법의 효과, 사용자가 받는 정보의 질에 미치는 영향을 밝혀냄. 또한, 퍼블리셔와 생성형 검색 제공자 간의 지속 가능하고 상호 이익이 되는 생태계를 위한 수익 프레임워크를 제안함.
2. 연구의 방법
(1) 이 연구는 대규모 비교 분석 접근 방식을 사용함. 11,500개의 벤치마크 쿼리셋과 추가로 시의성 높은 정치, 유행 쿼리셋을 구성함. SerpAPI와 Gemini API를 활용하여 Google Search(전통적 검색 결과 페이지, SERP), AI Overview(AIO), Gemini 2.5 Flash 세 가지 검색 시스템으로부터 순위가 매겨진 정보 소스 목록을 수집함.
(2) 주요 분석 대상과 비교 조건은 다음을 포함함:
- 검색 소스 유사성: 각 검색 시스템이 반환한 소스 목록 간의 유사성을 Jaccard 유사도(고유 소스 집합 비교)와 Rank-biased overlap(RBO, 순위 가중치 부여) 지표로 정량화함.
- 소스 특성 비교: 검색된 소스의 도메인 수준 특성(인기도, 콘텐츠 카테고리, Google AI 봇 차단 여부 등)을 수집하여 각 검색 시스템이 선호하는 소스의 차이를 분석함.
- 일관성 및 견고성 평가: 동일 쿼리를 반복 실행하거나, 기기 유형(모바일/데스크톱) 및 위치를 변경할 때, 또는 미세한 쿼리 수정 시 검색 결과의 일관성과 견고성 변화를 평가함.
- 고위험 쿼리 분석: 논쟁, 정치, 유행과 같이 사회적 파급력이 큰 쿼리에 대해 생성형 AI가 AIO를 생성하는 빈도, 인용 소스의 신뢰도, 요약 내용의 입장 채택 여부 등을 집중적으로 분석함.
3. 주요 발견
(1) 생성형 AI는 웹 검색의 정보 원천과 사용자 경험에 근본적인 변화를 가져옴. 이 연구는 전통적인 검색 방식과 생성형 AI 검색 방식 간의 핵심적인 차이를 밝히고, 이 차이가 웹 생태계에 미치는 영향을 다각도로 보여줌.
(2) AIO 생성 빈도 및 쿼리 특성
- AIO는 전체 벤치마크 쿼리의 65.6%에서 생성됨. 실제 사용자 쿼리를 대표하는 ORCAS 데이터셋에서는 51.5%의 쿼리에서 AIO가 나타남.
- ELI5 쿼리(94.6%), 논쟁 쿼리(93.8%), 자연어 질문(NQ) 쿼리(86.2%) 등 정보성 질문, 질문 형식의 쿼리, 긴 쿼리에서 AIO 생성 확률이 높음. 반면, Amazon 제품 검색 같은 키워드 중심의 쿼리에서는 AIO 생성률이 낮음(17.4%).
- 질문 형태의 쿼리가 비질문 형태 쿼리보다 AIO 생성 가능성이 유의미하게 높음.
- 쿼리 길이가 길어질수록 AIO 생성 빈도가 높아지는 경향을 보임.
(3) 검색 소스의 낮은 유사성
- AIO, Gemini, 전통적 SERP 간 검색된 소스 목록의 유사성은 매우 낮게 나타남. Jaccard 유사도(고유 소스 집합 비교)는 0.11에서 0.20 사이, RBO(순위 반영 유사도)는 0.10에서 0.27 사이의 낮은 값을 보임.
- AIO와 Gemini는 구글에서 개발되었음에도 불구하고, 서로 간의 소스 목록 유사성이 가장 낮았음.
- 각 검색 엔진이 반환하는 평균 소스 개수는 유사함(Gemini 9.68개, AIO 9.24개, SERP 8.75개). 이는 낮은 유사성이 소스 개수의 차이보다는 각 엔진의 다른 검색 방법론 때문임을 시사함.
(4) 검색 소스 특성의 변화
- 주요 도메인에 미치는 영향: Reddit, Facebook, Amazon, Wikipedia, YouTube 등 대형 및 유명 웹사이트들이 가장 큰 영향을 받음.
- 틈새 소스 선호 경향: 생성형 검색 엔진은 전통적 검색보다 틈새 시장 소스(niche sources)를 더 많이 인용하는 경향이 있음.
- Google 소스 선호: Google AIO는 google.com과 youtube.com 등 구글 소스를 더 선호하는 현상을 보임. Gemini 역시 YouTube를 선호하지만 AIO보다는 그 정도가 약함.
- Google-Extended 봇 차단 영향: Google-Extended 봇을 차단하는 웹사이트는 Gemini에서 전혀 인용되지 않았음. AIO에서도 인용 빈도가 유의미하게 낮아짐. 이는 웹사이트가 AI 크롤러를 차단함으로써 스스로 가시성을 낮추는 결과로 이어짐.
- 인기 웹사이트의 노출 감소: 생성형 검색 엔진(Gemini, AIO)은 전통적 검색에 비해 인기 있는 웹사이트(Tranco 랭킹 상위)로부터의 콘텐츠 검색 비율이 유의미하게 낮음. 특히 상당한 트래픽을 보유하지만 아주 유명하지는 않은 Tranco 랭킹 1k-10k 범위의 도메인에서 이러한 차이가 더욱 두드러짐.
- 신뢰성 문제: Gemini는 아동 인터넷 보호법(CIPA)에 따라 어린이에게 접근 불가능한 웹사이트를 인용할 가능성이 유의미하게 높음. 정부나 교육 기관과 같이 신뢰성 높은 기관의 소스 인용률은 낮음.
(5) 일관성 및 견고성의 부족
- 낮은 일관성: 생성형 검색 엔진(AIO, Gemini)은 전통적 검색(SERP)보다 동일 쿼리 반복 실행, 기기 유형(모바일/데스크톱) 및 위치 변경 시 일관성이 떨어짐.
- 쿼리 편집에 취약: AIO는 미세한 쿼리 편집(예: 단어 축약/확장, 약어 사용, 물음표 추가/제거)에 덜 견고함. 원본 쿼리와 수정된 쿼리 간 소스 유사성(RBO)이 AIO의 경우 0.49로 크게 감소함(28.99% 감소). 이는 AIO가 경량 Gemini 모델을 사용하며 쿼리 의도보다 키워드에 더 의존하기 때문으로 분석됨.
- 소스 유사성과 요약 텍스트 유사성: 검색된 소스 간의 유사성이 높을수록 생성된 요약 텍스트의 유사성 또한 높아짐(AIO: r=0.62, Gemini: r=0.55). 즉, 소스가 바뀌면 요약 내용도 바뀜.
(6) 고위험 쿼리 처리 문제
- 논쟁 쿼리: AIO가 자주 생성되며, AIO 요약의 33.4%가 특정 입장을 취하며 긍정적/부정적 답변으로 시작하는 경향을 보임(Gemini는 5.6%). 이는 민감한 주제에서 AI가 편향된 정보를 제공할 수 있음을 의미함.
- 정치 쿼리: AIO가 매우 자주 생성됨(93.8%). 생성형 검색 엔진은 congress.gov 같은 정부 자원보다 덜 신뢰할 수 있는 소스를 인용하는 경향이 있음. AIO는 NYTimes, Politico, APNews 등 인기 뉴스 도메인을 더 인용하며, Gemini는 Fandom, Grokipedia에 더 의존함.
- 신뢰도 문제: 생성형 AI는 기존 검색보다 신뢰도가 의심스러운 소스(중간 또는 낮음)를 인용할 가능성이 높음(AIO 11.4%, Gemini 15.0% vs SERP 10.6%).
- 유행 쿼리의 오정보: 유행 쿼리에서 AIO 생성률은 낮음(8.1%). 이는 가드레일 역할을 하는 것으로 보이나, 오정보 제공 사례(그림 2: 복싱 경기 결과 오보)가 발견됨.
4. 결론 및 시사점
(1) 이 연구는 생성형 AI가 웹 검색의 방식과 결과에 중대한 변화를 가져왔음을 입증함. 특히 Google AI Overview는 실제 사용자 검색에서 높은 빈도로 나타나며 전통적 검색 결과보다 상단에 노출됨. 생성형 AI 검색은 정보 소스의 다양성, 웹사이트 가시성, 정보의 일관성 및 신뢰성 측면에서 전통적 검색과 현저한 차이를 보이며, 특히 고위험 쿼리에서는 신뢰성 문제와 편향 가능성을 드러냄.
(2) 교육 현장과 AI 설계에는 다음과 같은 시사점이 있음.
- 사용자의 비판적 정보 활용 능력 함양: 생성형 AI가 제공하는 요약 정보의 부정확성 및 ‘환각(hallucination)’ 위험이 있으므로, 사용자는 AI가 제공하는 정보를 맹신하기보다 정보 출처를 확인하고 비판적으로 사고하는 능력을 길러야 함. 특히 건강, 정치 등 민감하고 중요한 정보에 대한 의존도를 경계하고, 제공된 링크를 통해 원본 소스를 직접 확인하는 습관이 중요함.
- 퍼블리셔의 전략 재고 및 AI 설계 개선: 생성형 AI는 인기 있고 검증된 웹사이트보다 틈새 시장 콘텐츠 제공자에게 이점을 줄 가능성을 지님. 퍼블리셔는 트래픽 감소에 대응하여 생성형 엔진 최적화(GEO) 전략을 고민해야 하며, Google-Extended 봇 차단 여부를 재고하여 AIO를 통한 가시성 확보 기회를 모색할 필요가 있음. 또한, AI 검색 시스템은 동일 쿼리에 대해 일관성 있는 결과를 제공하고, 미세한 쿼리 변경에도 견고성을 높여 사용자 신뢰와 정보 공정성을 확보해야 함.
(3) 궁극적으로는 지속 가능한 웹 생태계를 위한 협력이 필수적임.
- 생성형 AI 검색 엔진은 덜 알려진 웹사이트에 대한 신뢰성 및 편향 평가를 강화하고, 필요시 인기 있고 평판 좋은 소스를 더 활용하도록 설계되어야 함.
- 퍼블리셔와 AI 기업 간에 콘텐츠에 대한 정당한 보상을 제공하는 수익 프레임워크(라이선싱 계약, 크롤링당 지불, 수익 공유 등)를 개발하여 상호 이익이 되는 생태계를 구축해야 함. 고품질 콘텐츠의 감소는 장기적으로 AI 모델 훈련 및 정보 제공 능력에도 악영향을 미침.
5. 리뷰어의 ADD(+) One: 생각 더하기
(1) 이 논문에서 가장 주목할 지점은 생성형 AI가 웹 검색에 가져오는 변화가 단순히 검색 결과 형태의 변형을 넘어, 정보 원천의 다양성, 신뢰성, 그리고 사용자가 정보를 소비하는 방식 자체에 근본적인 ‘단절적 혁신’을 야기한다는 점임. 기존 검색 엔진이 점진적으로 정보를 축적하고 순위를 매기는 방식을 진화시켜 왔다면, AIO는 ‘질문에 대한 답변’이라는 편리함을 전면에 내세우며 정보 편향과 불일치성 문제를 내포함. 특히 AIO가 고위험 쿼리에서 특정 ‘입장’을 취할 수 있다는 실증적 발견은 단순한 기술적 문제를 넘어 사회적, 윤리적으로 깊이 있는 함의를 지님. 이는 AI가 정보 제공자를 넘어 여론 형성자의 역할을 할 수 있음을 시사함.
(2) 이 연구가 명시하지 않은 더 넓은 의미는 인지과학 및 교육철학적 관점에서 사용자의 ‘메타인지’ 능력의 중요성이 더욱 커진다는 점임. AI가 요약된 답변을 제공할 때, 사용자는 정보의 출처, 신뢰도, 잠재적 편향성 등을 비판적으로 판단하고 검증하는 고차원적인 사고 능력을 발휘해야 함. 교육 현장에서는 AI 리터러시 교육이 AI 활용법을 넘어, AI가 생성한 정보에 대한 ‘비판적 사고’와 ‘정보 윤리’를 가르치는 방향으로 전환될 필요가 있음. 또한, 정책 및 규제 측면에서는 AI의 사회적 영향력을 고려한 강력한 규제 프레임워크와 오정보에 대한 책임 소재 명확화가 시급함. AI가 특정 입장을 취하는 경우, 이는 단순한 정보 왜곡을 넘어 여론 조작의 도구가 될 위험을 내포하고 있어 사회적 논의와 합의가 필요함.
(3) 이 연구를 발전시킬 구체적 아이디어는 두 가지임. 첫째, 개인화된 AI Overviews의 영향 분석을 심화하는 것임. 본 연구는 API를 통한 데이터 수집으로 사용자 특성을 충분히 고려하지 못했음. 실제 사용자의 로그인 상태, 검색 기록, 선호도 등에 따라 AIO가 어떻게 개인화되며, 이것이 정보 편향과 ‘에코 체임버’ 현상을 어떻게 강화하는지 연구해야 함. A/B 테스트나 심층 사용자 인터뷰를 통해 개인화된 AIO가 사용자의 정보 소비 행태와 의사결정에 미치는 영향을 정성적·정량적으로 분석할 수 있음. 둘째, 다국어 및 다문화 맥락에서의 생성형 AI 검색 연구를 제안함. 본 연구는 주로 영어 쿼리를 중심으로 진행됨. 언어와 문화적 맥락이 다른 국가에서 생성형 AI 검색이 어떤 방식으로 작동하고, 어떤 편향성을 보이는지 비교 연구가 필요함. 예를 들어, 한국어, 일본어, 중국어 등 비영어권에서 생성형 AI가 참조하는 소스, 생성되는 요약문의 특성, 사용자 수용도 등을 분석하여 문화적 차이가 AI 검색에 미치는 영향을 규명하는 것이 중요함.
6. 추가 탐구 질문
(1) 사용자가 AI Overview의 오정보나 편향성을 인지했을 때, 전통적 검색 엔진으로 다시 전환하는 경향이 있는가, 아니면 AI 요약에 대한 신뢰도를 전반적으로 낮추는가?
(2) 학술 연구자들이 생성형 AI 검색 엔진을 통해 정보를 탐색할 때, 정보의 신뢰성, 깊이, 최신성 등 학술적 요구사항을 얼마나 충족시킬 수 있는가, 그리고 그 한계는 무엇인가?
(3) 생성형 AI 검색 결과가 광고 수익 모델에 미치는 직접적인 영향은 무엇이며, 광고주들은 이러한 변화에 어떻게 대응하여 새로운 광고 전략을 수립하는가?
출처
- Grossman, R., Liu, S., Chen, M. K., Smith, M., Borcea, C., & Chen, Y. (2026). How Generative AI Disrupts Search: An Empirical Study of Google Search, Gemini, and AI Overviews. Proceedings of the 49th International ACM SIGIR Conference on Research and Development in Information Retrieval.