AI와의 협업 시대, 과학적 저술의 책임은 누가 지는가?
1. 연구의 목적
(1) 거대 언어 모델(LLM)이 과학 논문 작성에 빠르게 통합되면서, 전통적인 저작권, 책임, 과학적 진실성 개념이 근본적인 도전에 직면함. 연구자들이 컴퓨터를 단순히 정해진 명령을 실행하는 도구에서 가상 협력자로 인식하기 시작하면서, 인간의 기여를 재평가할 필요성이 커짐.
(2) 이 연구는 AI와 함께 과학 논문을 작성하는 과정에서 인간이 주도하는 방식(Human-in-the-Loop, HITL)의 필수적인 역할을 탐색함. AI가 구조적 조직과 문법 생성에는 탁월하지만, 엄격한 물리적 논리 적용, 학술적 외교 유지, 동료 심사 비판 예측 등 최종 책임은 인간 저자에게 있음을 입증하고자 함. 또한 이 새로운 시대에 책임감을 확보하고 과학 기록의 진실성을 보존하기 위해, AI와의 모든 상호작용 기록을 보충 자료로 공개하도록 의무화할 것을 주장함.
2. 연구의 방법
(1) 이 연구는 최근 작성된 전산 물리학 논문의 초안 작성 과정을 사례 연구로 사용함. AI와 협업하여 AI에 대한 물리학 논문을 작성한 저자의 직접적인 경험을 분석함.
(2) 주요 분석 대상은 저자가 AI와 논문을 공동 저술하는 과정에서 주고받은 구체적인 상호작용 기록임. 저자는 이 과정을 통해 AI를 ‘가상 협력자’로 관리하고 멘토링하며, ‘가상 연구 그룹’을 활용하여 물리학 코드와 논문을 작성했음.
3. 주요 발견
이 연구는 AI를 단순한 도구가 아닌 ‘가상 협력자’로 활용하는 새로운 패러다임을 제시함. 인간 연구 책임자가 AI를 멘토링하고 이끌며 과학적 저술의 정확성과 진실성을 확보하는 ‘인간 주도(Human-in-the-Loop, HITL)’ 방식의 중요성을 강조함.
(1) 이 연구는 AI를 활용해 논문과 코드를 작성하는 과정을 마치 주니어 연구원들을 지도하는 ‘가상 연구 그룹’처럼 관리해야 한다고 제안함. AI를 마법의 텍스트 생성기가 아니라, 유능하지만 경험이 부족한 주니어 협력자로 대해야 함. 이 그룹은 다음과 같은 역할을 수행함.
- AI #1 주니어 이론가 (LLM-0): 원시 방정식 추출
- AI #2 선임 박사후 연구원 (LLM-1): 수학적으로 엄밀한 LaTeX 설계도 작성
- AI #3 코더 (LLM-2): 최종 파이썬 코드 구현
AI가 생성한 초안은 종종 부정확하거나 일반적인 내용을 담기 때문에, 인간은 AI가 생성한 내용을 적극적으로 지도하고 수정해야 함.

(2) 내부에서 외부로의 작성 전략(Inside-Out Writing Strategy): AI와의 협업 시, 서론부터 시작하는 것이 가장 큰 실수임. 핵심 주장이 확정되기 전에 서론을 요구하면 AI는 맥락을 잃고 잘못된 내용을 생성함. 따라서 인간 연구 책임자는 다음 단계를 따라야 함.
- 맥락 로딩(Context Loading): 논문 작성에 들어가기 전, 연구의 전체 범위와 모든 세부 정보를 AI에 충분히 제공해야 함. 이는 원본 아이디어, 코딩 실험의 단계별 세부 사항, LaTeX 사양, 그리고 가장 중요한 모든 AI와의 대화 기록 원본을 포함함.
- 핵심 개념의 대화적 생성(Conversational Genesis): 논문의 핵심 용어들은 AI가 일방적으로 생성하거나 인간이 미리 정의한 것이 아니라, 인간과 AI 간의 반복적인 대화를 통해 발전함. 예를 들어, 연구자가 “AI 학생들을 훈련시키는 것 같다”는 직관적인 관찰을 AI에 제시하면, AI는 이를 “가상 연구 그룹”이라는 공식적인 비유와 역할로 구체화함.
(3) AI 멘토링: 학술적 엄밀성 강화: 인간 개입(HITL)의 진정한 가치는 오타를 수정하는 것이 아니라, 해당 분야의 과학적 엄밀성과 논리적 일관성을 강화하는 데 있음. 연구자는 AI가 작성한 내용에서 다음과 같은 오류를 적극적으로 수정함.
- 물리학적 부정확성 수정: AI가 ‘연속적인 수학’과 ‘이산적인 소프트웨어’를 대비시킬 때, 실제 양자 시스템은 이산적인 스핀 격자에서 작동함을 지적하여 ‘추상적이고 도식적인 수학’과 ‘명시적인 배열 연산’으로 수정하도록 이끔.
- 현대 응집 물질 분류법 적용: AI가 ‘숨겨진 위상 질서’라는 구식 용어를 사용할 때, ‘대칭 보호 위상(SPT) 질서’와 같은 현대적이고 엄격한 분류법을 사용하도록 지시함.
- 학술적 외교 및 전문적 어조 유지: AI가 오픈 소스 라이브러리(ITensor, TeNPy)를 비판적으로 묘사할 때, 해당 라이브러리 개발자들이 학계의 존경받는 인물임을 고려하여 표현을 완화하고, 비판의 초점을 AI 자체의 ‘규약 혼합’ 문제로 돌리도록 수정함.
(4) ‘심사위원 2’의 비판 예측 및 대응: 인간 공동 저자의 중요한 역할은 학술지의 까다로운 심사위원(‘심사위원 2’)이 제기할 수 있는 논리적 결함, 데이터 오염, 부정확한 용어 사용 가능성을 미리 예측하고 이에 대한 방어 논리를 논문에 포함하는 것임.
- 데이터 오염 방어: AI가 단순히 기존 코드를 복사한 것이 아니라, 새로운 LaTeX 설계도를 바탕으로 독자적인 코드를 생성했음을 강조하는 내용을 추가함.
- 모델 능력의 역설 해결: 동일한 AI 모델이라도 초기 단계에서는 비현실적인 코드를 생성했으나, 구조화된 LaTeX 설계도를 제공하자 엄밀한 소프트웨어를 생성했음을 보여줌. 이는 AI의 추론 능력이 부족한 것이 아니라, 단계별이고 제약된 수학적 맥락이 부족했음을 입증함.
- 알고리즘의 엄밀성: AI가 사용한 알고리즘의 메모리 스케일링(예: O(D4))에 대한 설명을 물리학 및 컴퓨터 과학 분야의 엄격한 기준으로 수정하여, 정확한 수학적 표현(예: 단일 사이트 업데이트의 O(d2D4)와 두 사이트 업데이트의 O(d4D4) 구별)을 사용하도록 함.
(5) AI를 아트 디렉터로 활용: 인간-AI 협업은 텍스트와 코드 작성뿐만 아니라 시각 자료 생성에도 확장될 수 있음. 저자는 텍스트 기반 AI(Gemini 3.1 Pro Preview)에게 추상적인 학술적 요구사항을 이미지 생성 AI(Nano Banana 2)가 이해할 수 있는 구체적인 디자인 지시(레이아웃, 타이포그래피, 색상 코드 등)로 번역하도록 지시하여 시각적으로 매력적이고 물리적으로 정확한 그림과 삽화를 생성함. 이는 AI가 복잡한 양자 역학적 제약을 기하학적 지시로 성공적으로 변환했음을 보여줌.
4. 결론 및 시사점
(1) AI와 함께 논문을 쓰는 것은 자동화가 아니라 인간의 능력을 확장하고 반복적인 개선을 이루는 과정임. 인간은 여전히 연구 책임자(Principal Investigator)로서 연구의 방향을 설정하고, 물리학적 정확성을 교정하며, 과학적 진실성을 보장하는 역할을 함. 인간의 기여는 정형화된 텍스트를 입력하는 것에서 높은 수준의 지적 조종 역할로 전환됨.
(2) ‘가상 연구 그룹’ 패러다임이 과학 소프트웨어 개발 및 논문 작성의 표준이 됨에 따라 학술적 진실성에 대한 심각한 질문이 제기됨. AI가 과학 문헌의 구조와 문법 생성에 적극적으로 기여한다면, 아이디어의 원천은 어디에 있으며, 저자에게 어떻게 책임을 물을 것인가에 대한 답이 필요함.
(3) 이 연구는 이러한 문제에 대한 해결책으로 급진적 투명성을 제안함. AI 도구가 논문 준비에 사용되었다면, 저자는 AI와의 모든 상호작용 기록 원본을 보충 자료로 포함하도록 의무화해야 함. 프롬프트와 AI의 반복적인 응답을 공개함으로써, AI 생성 과정의 ‘블랙박스’를 투명하게 만들고, 인간 연구자가 논리를 주도하고 오류를 수정하며 혁신을 이끌었음을 입증할 수 있음. AI 시대에 이러한 투명성은 저작권의 책임과 과학 기록의 진실성을 보존하는 유일한 방법임.
5. 리뷰어의 ADD(+) One: 생각 더하기
(1) 이 논문에서 가장 주목할 지점은 AI를 단순한 도구가 아닌 ‘멘티’ 또는 ‘주니어 협력자’로 대하며 적극적으로 멘토링하고 이끄는 인간 연구 책임자의 역할에 대한 상세한 설명임. 대부분의 AI 활용 논문이 AI의 ‘능력’에 초점을 맞추는 반면, 이 연구는 AI의 한계와 그 한계를 극복하기 위한 인간의 지시, 교정, 맥락 부여 과정을 구체적인 사례로 보여줌. 특히 ‘심사위원 2의 비판 예측’과 같이 실제 학술 과정에서 발생할 수 있는 고난도 문제 해결에 AI를 어떻게 활용하고 인간이 어떻게 조종하는지를 명확히 제시한 점은, 기존 AI 활용 논의에서 한 발짝 더 나아가 인간 중심의 AI 협업 모델을 제시하는 중요한 시사점을 가짐.
(2) 이 논문이 명시적으로 다루지 않지만 더 넓은 의미를 가지는 부분은 ‘교육’과 ‘인지과학’ 분야의 연결점임. AI를 ‘가상 연구 그룹’의 멘티로 설정하고, ‘교수학적 피드백’을 통해 훈련시키는 과정은 인간 학습자의 학습 과정을 시뮬레이션하고 있음. 즉, AI가 실제 주니어 연구원처럼 ‘오류’를 만들고, 인간 멘토가 ‘맥락’과 ‘전문 지식’을 바탕으로 피드백을 주어 AI의 ‘이해’를 교정하는 과정은 인간 학습과 유사한 인지적 상호작용을 내포함. 이는 AI를 단순한 작업 도구가 아니라, 복잡한 문제 해결 과정을 학습하는 ‘인공지능 학습자’로 보게 하는 새로운 관점을 제시하며, 인지 부하 관리, 메타인지 지원 등 교육공학적 개념을 AI 훈련에 적용할 가능성을 열어줌.
(3) 이 연구를 발전시킬 구체적인 아이디어는 ‘급진적 투명성’을 넘어선 ‘상호작용 데이터 표준화’ 및 ‘자동 분석 도구’ 개발임. 현재는 AI와의 대화 기록을 단순히 공개하는 수준이지만, 이러한 상호작용 기록이 체계적으로 표준화된 형식(예: 교육 과정 설계 시 AI 피드백 유형, 인간의 교정 유형, AI가 개선된 정도 등을 태깅)으로 저장된다면, AI 학습 과정 및 인간-AI 협업 패턴에 대한 빅데이터 분석이 가능해짐. 이를 통해 어떤 유형의 프롬프트나 피드백이 AI의 정확도를 높이고 ‘환각’을 줄이는 데 효과적인지 객관적인 지표를 얻을 수 있음. 또한, 이러한 표준화된 데이터를 자동으로 분석하여 AI의 ‘성장 곡선’이나 ‘약점’을 시각화하는 도구를 개발한다면, 연구자들은 AI를 더욱 효율적으로 멘토링하고, AI의 학습 능력을 교육공학적 관점에서 심층적으로 연구할 수 있을 것임.
6. 추가 탐구 질문
(1) 이 ‘가상 연구 그룹’ 모델은 개별 연구자의 생산성을 극대화하는 데 효과적이지만, 대규모 연구 프로젝트나 학제 간 연구에서 여러 인간 연구 책임자와 다수의 AI 그룹이 협업할 경우, 의사소통과 책임 분배는 어떻게 관리되어야 할까?
(2) 물리학 논문과 같이 객관적인 ‘정답’과 엄밀한 ‘논리’가 중요한 분야에서는 인간 연구 책임자의 교정 역할이 명확하지만, 인문사회학이나 예술 분야와 같이 주관적인 해석과 창의성이 중시되는 영역에서 AI는 어떤 역할을 할 수 있으며, 인간의 ‘멘토링’은 어떻게 달라져야 할까?
(3) AI와의 모든 상호작용 기록을 공개하는 ‘급진적 투명성’ 제안은 중요하지만, 민감한 미공개 데이터나 사전에 합의된 연구 아이디어가 포함된 대화 기록을 어떻게 안전하게 처리하면서도 투명성을 유지할 수 있을까? 또한, 상업적 AI 모델을 사용하는 경우, AI 제공자의 지적 재산권과 사용자 데이터 공개 요구 사이의 균형은 어떻게 맞출 수 있을까?
<출처> - Zhou, Y. (2026). Co-Authoring with AI: How I Wrote a Physics Paper About AI, Using AI. *arXiv preprint arXiv:2604.08041*. 출처>