본문 바로가기
카테고리 없음

생성형 AI로 논문 쓰기에 대한 심사자들의 인식과 오해: 학계의 새로운 도전

by SidePlay 2025. 4. 7.

#생성형AI #학술논문 #동료심사 #연구윤리 #AI글쓰기 #학술커뮤니케이션 #연구투명성
생성형 AI의 학술 논문 활용에 대한 심사자들의 인식과 오해

 

연구에 따르면 생성형 AI(일명 'GenAI', ChatGPT와 같은 인공지능)를 논문 작성에 활용하는 사례가 급속도로 늘고 있습니다. 하지만 논문 심사를 맡은 전문가들이 AI의 도움을 받아 작성된 원고를 어떻게 인식하는지에 대한 연구는 아직 부족한 상황입니다. 최근 캐나다 워털루 대학교 연구팀은 인간-컴퓨터 상호작용 분야의 유명 학술대회 심사위원 17명을 대상으로 온라인 설문조사를 진행했는데요, 이들에게 다양한 글 샘플을 보여주고 평가하게 한 결과, 심사위원들은 사람이 쓴 글과 AI가 도움을 준 글을 구분하는 데 어려움을 겪었지만, 글의 품질에 대한 판단은 일관성을 유지한다는 흥미로운 결과를 보여줬다고 합니다.

생성형 AI로 논문 쓰기: 현재 상황

ChatGPT와 Gemini 같은 생성형 AI 도구들은 학계와 기업 세계에서 큰 주목을 받고 있습니다. 이런 AI 도구들은 문장을 더 좋게 다듬어주거나, 말한 내용을 글로 바꿔주고, 심지어 글의 초안까지 작성해줄 수 있어서 연구자들의 글쓰기 방식에 큰 변화를 가져오고 있고요. 이런 AI는 글의 맥락을 이해하고 문법적으로 정확한 답변을 만들어내는 능력이 있어서, 연구자들이 새로운 아이디어를 떠올리는 데 도움을 주고 연구 논문의 품질과 읽기 쉬운 정도에 많은 영향을 미칠 수 있습니다.

하지만 많은 연구자들이 논문에서 AI를 사용했다는 사실을 공개적으로 밝히는 것에 대해선 꺼리는 경향이 있습니다. LinkedIn, Reddit, Retraction Watch 같은 플랫폼에서는 AI를 사용했지만 이를 밝히지 않은 연구 논문들이 독자들에 의해 발견된 사례들이 있기도 했었고요. 연구에 따르면 사람들은 AI가 만든 내용이 사실이더라도 부정확하고 믿을 수 없다고 생각하는 'AI 회피' 현상이 있다고 합니다. 또한 AI를 사용했다고 밝히면 독자들이 그 글에 대한 만족도가 떨어지고, 저자의 능력과 노력을 낮게 평가하는 경향이 있다고도 하네요.

  • 연구자들은 AI 사용을 인정하면 심사자들의 인식에 손상을 줄 수 있다는 두려움이 있음
  • 현재 출판 윤리 위원회(COPE)와 ACM 등은 GenAI 사용을 허용하지만 완전한 공개를 요구함
  • AI에 대한 상반된 인식: AI 회피(algorithm aversion)와 알고리즘 선호(algorithmic appreciation) 현상이 공존

특히 원고 작성은 저자의 의미와 목적을 효과적으로 전달하기 위한 단어 선택과 문장 구조에 관한 다양한 결정을 포함하는데, 생성형 AI를 사용하면 이러한 많은 결정이 AI에 위임되어 연구자들의 소유권 감각을 감소시킬 수 있습니다. 이는 잠재적으로 연구 논문에서 무책임한 주장으로 이어질 수 있어 연구 출판물의 책임성과 신뢰성을 유지하기 위해 생성형 AI 지원 정도를 규제하는 것이 중요한 부분이기도 합니다.

논문 심사자들은 AI 사용을 어떻게 인식할까?

워털루 대학교 연구팀은 인간-컴퓨터 상호작용 분야의 유명 학술대회 심사위원들을 대상으로 온라인 설문조사를 실시했습니다. 이들에게 세 가지 유형의 글 샘플을 보여주었어요: 사람이 직접 쓴 원본, AI가 다시 표현한 버전, 그리고 AI가 처음부터 생성한 버전입니다. 이렇게 다양한 글 샘플에 대한 심사자들의 반응을 살펴본 것은 이 연구가 처음입니다.

연구팀은 다음 네 가지 질문에 답하고자 했습니다:

  1. 논문 심사자들은 AI가 논문 작성에 사용된 것을 얼마나 잘 알아차리는가?
  2. 글쓰기에 AI가 사용되었다는 사실이 심사자들의 논문 품질 평가에 영향을 미치는가?
  3. 심사자의 경험, 전문 지식, AI에 대한 친숙도가 그들의 인식과 판단에 어떤 영향을 주는가?
  4. 글쓰기의 어떤 부분이 심사자들의 인식과 판단에 영향을 미치는가?

연구팀은 인간-컴퓨터 상호작용 학술대회에 제출된 논문 중에서 많이 인용된 16개의 논문 요약을 선택했습니다. 그런 다음 Google Gemini를 사용해 이 요약들을 두 가지 방식으로 변형했어요: 하나는 AI가 원문의 의미를 유지하면서 다시 작성한 버전, 다른 하나는 AI가 처음부터 새롭게 생성한 버전입니다. 17명의 심사위원들에게 이렇게 만든 글 샘플들을 무작위 순서로 보여주고 평가하도록 했습니다.

놀라운 연구 결과

연구 결과 심사자들이 AI가 작성한 글과 사람이 작성한 글을 구별하는 데 어려움을 겪는다는 사실을 발견했습니다. 사람이 직접 쓴 원본과 AI가 처음부터 생성한 글 모두 비슷한 평가를 받았는데, 이는 심사자들이 사람이 쓴 글과 AI가 쓴 글을 효과적으로 구분할 수 없다는 것을 보여줍니다. 재미있게도, AI가 원문의 의미를 유지하면서 다시 작성한 버전은 오히려 AI 개입이 가장 적은 것으로 인식되었습니다.

또한 심사자들의 글 품질 평가는 글의 유형에 따라 크게 달라지지 않았습니다. 정확성, 신뢰성, 정직성, 명확성, 설득력에 대한 평가는 세 가지 유형의 글 모두에서 비슷하게 나타났는데요, 이는 AI를 사용했다는 사실이 연구의 인식된 품질에 부정적인 영향을 주지 않았다는 것을 의미합니다.

  • AI가 다시 작성한 글은 가장 정직한 것으로 인식됨
  • 전문 지식이 많고 AI에 친숙한 심사자들은 모든 종류의 글을 더 명확하고 설득력 있게 평가함
  • 심사자들은 AI가 쓴 글에서 논리가 일관되지 않고, 문장 구성이 부자연스럽고, 글의 흐름이 명확하지 않으며, 전문 용어를 잘못 사용하는 등의 문제를 발견함

심층 분석 결과, 심사자들은 사람 저자의 주관적인 표현을 중요하게 여기는 것으로 나타났습니다. 이런 "인간적 감성"이 연구 커뮤니티의 협력적인 특성을 유지한다고 느끼는 것이죠. 따라서 연구자들은 AI의 도움을 받더라도 글쓰기 과정에 적극적으로 참여하고 주도적인 역할을 하는 것이 중요하다고 강조합니다.

AI로 논문 쓰기, 어떻게 하면 좋을까?

이 연구 결과를 바탕으로, 너무나도 당연하지만, 생성형 AI를 논문 작성에 활용할 때는 균형 잡힌 접근이 중요하다는 것을 알 수 있습니다. 연구자들이 AI를 사용할 때 다음과 같은 가이드라인을 따르면 좋을 것 같다는 의견도 있었습니다 - 이미 학계에서 사용하고 있을 것이라 믿고 싶습니다:

  1. 논문에서 AI를 사용했다는 사실을 솔직하게 밝히기 - 이는 학술 커뮤니티에 투명성과 신뢰를 쌓는 데 도움이 됩니다
  2. AI가 작성한 모든 내용을 꼼꼼히 검토하고 사실 확인하기 - AI가 만든 정보가 정확한지 확인해야 합니다
  3. "인간적 감성"을 글에 유지하기 - 이는 학술적 대화의 협력 정신을 지키는 데 중요합니다
  4. AI를 자신의 비판적 사고와 독특한 통찰력을 대체하는 것이 아니라, 이를 더 잘 표현하는 도구로 현명하게 사용하기

반면에 논문을 심사하는 전문가들은 글이 사람이 썼는지 AI가 썼는지 추측하기보다, 연구의 과학적 가치, 연구 방법의 타당성, 학문적 기여도에 집중하는 것이 좋습니다. 연구 결과, 사람의 직관이나 AI 감지 도구 모두 AI 작성 여부를 정확히 판단하기 어려운 것으로 나타났기 때문입니다.

AI와 함께하는 학술 논문의 미래

이 연구는 생성형 AI가 논문 작성에 미치는 영향에 대한 의미있는 통찰을 제공합니다. AI가 글쓰기를 더 읽기 쉽고, 다양한 표현을 사용하고, 정보를 더 잘 전달하게 도와주지만, 연구의 세부 사항과 저자의 깊은 통찰력을 담아내는 데는 부족한 점이 있는 것으로 나타났습니다. 지혜롭고 책임감 있게 AI를 사용하면 연구 발표의 품질을 높일 수 있지만, 최종적으로는 사람 연구자의 감독이 논리적이고 정보가 풍부한 논문을 만드는 데 꼭 필요합니다.

결론적으로, 연구자들은 AI 사용을 솔직하게 밝히면서도 자신의 글쓰기에 대한 주도권과 통제력을 유지하는 방식으로 이러한 도구의 장점을 활용해야 합니다. 학술 커뮤니티도 사람과 AI의 협력이 연구 소통의 품질을 높이는 균형 잡힌 접근법을 발전시켜 나가길 기원해봅니다.

출처: Hadan, H., Wang, D. M., Hadi Mogavi, R., Tu, J., Zhang-Kennedy, L., Nacke, L. E. (2024). The great AI witch hunt: Reviewers' perception and (Mis)conception of generative AI in research writing. Computers in Human Behavior: Artificial Humans, 2(2024), 100095.