컴퓨터 과학 교육에서 협업 프로젝트의 AI 기반 채점 및 조정 방식
컴퓨터 과학 교육에서 협업 프로젝트의 AI 기반 채점 및 조정 방식
이 연구는 컴퓨터 과학 교육의 핵심인 협업 프로젝트에서 개인의 기여도를 공정하고 객관적으로 평가하는 어려움을 해결하고자 합니다. 이를 위해, 리포지토리 마이닝, 커뮤니케이션 분석, 머신러닝 모델을 활용하여 프로젝트의 질적 수준과 개인의 노력을 모두 평가하는 반자동화된 AI 기반 채점 시스템을 설계하고 그 효과를 검증하는 것을 목표로 합니다.
1. 연구의 목적
이 연구의 목적은 컴퓨터 과학 교육의 핵심인 협업 그룹 프로젝트에서 개인의 기여도를 공정하고 객관적으로 평가하는 어려움을 해결하는 것입니다. 기존의 성적 균등 분배나 주관적인 동료 평가 방식은 특히 대규모 강의에서 공정성, 객관성, 확장성에 한계가 있습니다. 이를 극복하기 위해, 본 연구는 리포지토리 마이닝, 커뮤니케이션 분석, 머신러닝 모델을 활용하여 프로젝트의 질적 수준과 개인의 노력을 모두 평가하는 반자동화된 AI 기반 채점 시스템을 설계하고 그 효과를 검증하는 것을 목표로 합니다.
2. 연구의 방법
본 연구는 AI 채점 시스템을 설계, 구현하고, 실제 교육 환경에서 파일럿 연구를 통해 그 타당성을 검증하는 방식으로 진행되었습니다.
(1) 시스템 설계
- 프로젝트 품질 평가 모듈 (PQAM): 코드 품질, 테스트 커버리지, 문서화, 기능성, 사용성 등 5개 하위 모듈을 통해 그룹 프로젝트의 전반적인 기술적 완성도를 평가합니다. 정적 분석 도구, NLP 모델, UI 테스트 프레임워크 등을 활용합니다.
- 개인 기여도 분석기 (ICA): Git과 같은 버전 관리 시스템과 이슈 트래커의 데이터를 분석하여 개인의 기여도를 객관적으로 정량화합니다. 커밋 내역 분석(무의미한 커밋 필터링), 코드 소유권(git blame 활용), 이슈 트래커 참여도, 코드 리뷰 평가 등을 다각도로 분석합니다.
- 채점 엔진 (GE): PQAM에서 산출된 ‘프로젝트 품질 점수’와 ICA의 ‘개인 기여도 점수’를 가중 합산하여 최종 개인 성적을 산출합니다. 또한, 기여도가 극단적으로 낮거나 높은 학생을 감지하는 이상 탐지 기능을 포함하여 교수자의 수동 검토를 유도합니다.
채점 프로세스 흐름
- 1단계: 프로젝트 제출
- 학생들이 GitHub 클래스룸을 통해 코드와 문서를 제출합니다.
- 2단계: 데이터 추출
- REST/GraphQL API를 통해 커밋, PR, 이슈, README 등 데이터를 마이닝합니다.
- 3단계: 모델 평가
- PQAM(품질, 테스트, 문서)과 ICA(커밋, 리뷰) 모듈이 각각 점수를 산출합니다.
- 4단계: 성적 산출
- PQAM과 ICA 결과를 합산하고, 이상치를 감지합니다.
- 이상치 발견 시: 교수자에게 수동 검토 및 조정을 요청합니다.
- 이상치 미발견 시: 다음 단계로 진행합니다.
- 5단계: 최종 검토 및 LMS 내보내기
- 교수자가 대시보드에서 최종 결과를 검토하고 LMS로 성적을 내보냅니다.
(2) 파일럿 연구
- 대상: 2024년 가을 학기, 한 대학의 소프트웨어 공학 강좌에 참여한 20명의 학생(5개 팀)을 대상으로 8주간 진행되었습니다.
- 환경: 학생들은 GitHub를 사용하여 버전 관리, 이슈 추적, 코드 제출을 수행했습니다.
- 평가 방법: 시스템의 타당성을 검증하기 위해 세 가지 방법을 사용했습니다.
- 교수자 평가와의 일치도: AI가 생성한 성적과 교수자가 전통적인 방식으로 매긴 성적 간의 피어슨 상관계수를 비교했습니다.
- 학생 인식: 프로젝트 종료 후 설문조사(N=53)를 통해 공정성, 투명성에 대한 학생들의 인식을 조사했습니다.
- 교수자 노력: 채점에 소요된 시간을 측정하여 이전 학기의 수동 채점 방식과 비교했습니다.
3. 주요 발견
파일럿 연구 결과, AI 기반 채점 시스템은 여러 측면에서 긍정적인 효과를 보였습니다.
- 높은 타당성 및 신뢰도: AI 시스템이 산출한 성적은 교수자의 평가와 매우 높은 상관관계(r=0.91)를 보여 시스템의 평가 결과가 타당함을 입증했습니다.
- 긍정적인 학생 반응: 학생들은 시스템의 공정성(4.3/5)과 투명성(4.5/5)에 대해 높게 평가하며, 자신의 성적이 어떻게 산출되었는지 가시적으로 확인할 수 있다는 점에 만족했습니다.
- 교수자 업무 경감: 수동 평가 방식에 비해 채점에 소요되는 시간이 45% 감소하여 교수자의 업무 부담을 크게 줄여주었습니다.
- 정교한 기여도 분석: 시스템은 실제 협업 상황을 효과적으로 포착했습니다. 예를 들어, 한 학생이 공백 수정과 같은 무의미한 커밋을 반복하여 기여도를 부풀리려 한 사례를 성공적으로 식별하여 낮은 가중치를 부여했으며, 반대로 팀의 핵심 코드를 대부분 작성한 학생의 기여도를 정확히 인정하여 점수를 상향 조정했습니다.
- 한계점: 디자인 구상, 팀 조율 등 코드로 남지 않는 기여를 정량화하는 데에는 어려움이 있었습니다. 또한, 학생들이 GitHub 이슈 트래커 등을 꾸준히 사용하지 않을 경우 기여도가 누락될 수 있으며, NLP 기반의 문서 평가는 비영어권 학생에게 불리하게 작용할 수 있는 편향의 가능성도 발견되었습니다.
4. 결론 및 시사점
이 연구는 AI 기반 채점 시스템이 컴퓨터 과학 교육에서 팀 프로젝트 평가의 공정성, 확장성, 투명성을 획기적으로 개선할 수 있음을 성공적으로 보여주었습니다. AI의 정밀한 데이터 분석은 교수자의 주관적 판단을 보완하고, 학생들에게는 자신의 기여도에 대한 명확한 근거를 제공하여 평가에 대한 신뢰를 높였습니다.
중요한 시사점은 AI 채점의 미래가 완전한 자동화가 아닌, ‘인간(교수자)과 지능형 시스템 간의 협업’에 있다는 것입니다. 시스템의 분석적 정확성은 교육자의 교육적 판단 및 공감 능력과 결합될 때 가장 큰 시너지를 낼 수 있습니다. 이러한 데이터 기반의 인간 중심적 평가는 채점 과정을 단순한 결과 확인을 넘어, 학생들의 학습 과정을 성찰하고 개선을 유도하는 교육적 활동으로 변화시킬 잠재력을 가지고 있습니다.
5. 리뷰어의 ADD(+) One: 생각 더하기
(1) 이 연구의 탁월한 점 (강점)
- 포괄적인 평가 설계: 단순히 커밋 횟수를 세는 수준을 넘어, 코드의 질, 테스트, 문서화, 소통 기록까지 아우르는 매우 포괄적이고 다각적인 평가 모델을 설계한 점이 탁월합니다. 이는 실제 소프트웨어 엔지니어링의 복잡성을 교육 평가에 잘 반영한 것입니다.
- 교육 현장의 실제 문제 해결: ‘팀 프로젝트 무임승차’와 같은 문제는 교육자들이 오랫동안 겪어온 실제적인 난제입니다. 이 연구는 교육 현장의 고질적인 문제에 대해 실용적이고 데이터 기반의 해결책을 제시했다는 점에서 큰 의미가 있습니다.
- 인간-AI 협업 모델 제시: 시스템이 교수자를 대체하는 것이 아니라, 이상 징후를 감지해 교수자의 개입이 필요한 부분을 알려주는 ‘인간 참여형(Human-in-the-Loop)’으로 설계된 점이 매우 현명합니다. 이는 기술의 한계를 인정하고 교육적 맥락과 공정성을 지키려는 성숙한 접근입니다.
(2) 교육 현장을 위한 추가 제언 🏫
- 과정 중심 평가의 교육 도구로 활용: 이 시스템은 최종 결과물뿐만 아니라, Git 커밋, 이슈 트래커, 코드 리뷰 등 개발 ‘과정’ 전체를 데이터로 활용합니다. 교육자들은 이 시스템을 단순한 채점 도구가 아니라, 학생들에게 ‘과정 중심 평가’의 중요성을 가르치는 교육 도구로 활용해야 합니다. 대시보드를 통해 학생들 스스로 자신의 기여 패턴을 성찰하고, 동료들과의 협업 방식을 개선하도록 유도할 수 있습니다.
- 협업 역량 교육 목표와 연계: 시스템이 코드 기여뿐만 아니라 이슈 제기, 코드 리뷰 참여 등 ‘협업적 행동’을 정량적으로 측정하므로, 이를 교육 목표와 직접 연계할 수 있습니다. 예를 들어, “의미 있는 코드 리뷰 5회 이상 작성”과 같은 구체적인 목표를 제시하고, 시스템을 통해 학생들이 자신의 협업 역량을 객관적으로 확인하고 발전시키도록 지도해야 합니다.
- 형성 평가(Formative Assessment)로의 확장: 현재 시스템은 학기 말 총괄 평가(summative assessment)에 초점이 맞춰져 있습니다. 이 시스템을 학기 중에 주기적으로 활용하여, 기여도가 낮은 학생이나 팀 내 불균형이 감지될 때 교수자가 조기에 개입하는 형성 평가 도구로 확장할 수 있습니다. 이는 무임승차 문제를 조기에 예방하고 팀워크를 개선하는 데 큰 도움이 될 것입니다.
6. 추가 탐구 질문
- 이러한 정량적 평가 시스템의 도입이 학생들의 협업 행동에 장기적으로 어떤 영향을 미치는가? (예: 의미 있는 기여보다 ‘측정되는’ 행동에만 집중하는 부작용은 없는가?)
- 디자인, 기획, 리더십 등 코드화되지 않는 소프트 스킬 기여를 객관적으로 측정하고 평가 모델에 통합할 수 있는 방안은 무엇인가?
- 학생들이 시스템의 평가 로직을 이해하고 이를 ‘어뷰징(abusing)’하려는 시도(예: AI를 이용해 무의미한 코드를 대량으로 커밋)가 나타날 때, 시스템은 이를 어떻게 탐지하고 방어할 수 있는가?
- 이 시스템을 컴퓨터 과학 외에 공동 작문, 디자인, 경영 등 다른 분야의 팀 프로젝트 평가에 어떻게 적용하고 확장할 수 있는가?
출처: - Yu, S., & Zagula, A. (2025). AI-Driven Grading and Moderation for Collaborative Projects in Computer Science Education. arXiv. https://arxiv.org/abs/2510.03998