When and how to disclose AI use in academic publishing: AMEE Guide No.192

논문 쓸 때 ChatGPT 썼다면? 이렇게 밝히세요! (AMEE 가이드 192호 핵심 요약)
안녕하세요! 연구자 여러분, 그리고 논문을 쓰고 계신 대학원생 여러분. 👋 요즘 연구실이나 학회 가면 온통 인공지능(AI) 이야기뿐이죠? 특히 챗GPT(ChatGPT) 같은 생성형 AI(GenAI)가 등장하면서 "이거 논문에 써도 되나?", "쓴다면 어디까지 밝혀야 하지?" 고민하는 분들 많으실 거예요.
최근 의학 교육 분야의 권위 있는 AMEE(Association for Medical Education in Europe)에서 아주 시의적절한 가이드(Guide No.192)를 내놓았습니다. 제목부터 "학술 출판에서 AI 사용을 언제, 어떻게 공개할 것인가"인데요.
저자들이 제안하는 핵심 내용을 쉽고 명확하게 정리해 드릴게요. 📝
1. AI는 '저자'가 아니라 '도구'입니다. 책임은 인간에게! 🧑💻
가장 먼저 짚고 넘어가야 할 대원칙입니다. AI가 아무리 똑똑하게 글을 써줘도, AI는 저자(Author)가 될 수 없어요. 저자됨(Authorship)은 책임질 수 있는 인간만의 영역이거든요.
연구진은 이 점을 아주 분명하게 강조합니다.
"인간 저자들은 원고가 AI의 도움을 받아 작성되었든 그렇지 않든 상관없이, 모든 저널 제출물의 정확성, 독창성, 그리고 진실성/무결성에 대해 완전히 책임져야 한다."
"Human authors remain fully responsible for the accuracy, originality, and integrity of all journal submissions regardless of whether GenAI was used."
즉, AI가 내놓은 결과물이 '환각(Hallucination)'을 일으켜 엉터리 참고문헌을 만들거나 편향된 내용을 써도, 그 검증 책임(Verification and responsibility)은 오롯이 저자인 여러분에게 있다는 뜻입니다. AI 결과물은 '완성된 학문'이 아니라 '검증되지 않은 메모'로 취급해야 해요!
2. 언제 공개해야 할까요? (단순 교정 vs 실질적 기여) 🤔
"그럼 문법 검사만 한 것도 다 써야 하나요?"라고 물으신다면, 대답은 NO입니다. 단순한 문법 교정이나 철자 확인 같은 일상적인 지원(Routine assistance)은 굳이 밝힐 필요가 없습니다. 하지만, AI가 연구나 원고의 내용을 실질적으로 형성(Materially shapes)했다면 반드시 공개해야 합니다. 예를 들어 아이디어를 생성하거나, 텍스트를 초안 작성하거나, 데이터를 분석했을 때가 그렇죠.
연구진은 애매할 때를 대비해 이런 팁을 줍니다.
"저널 정책은 다양하고 진화하고 있으므로, '의심스러울 때는 공개하라'는 접근 방식이 권장된다."
"Because journal policies vary and are evolving, a ‘disclose-when-in-doubt’ approach is recommended."
3. 어떻게 공개해야 할까요? (고백하지 말고, 보고하세요!) 📢
많은 분들이 AI 사용을 밝히는 걸 마치 '부정행위 자백'처럼 부끄러워하거나 방어적으로 씁니다. ("죄송하지만 썼습니다..." 😭) 하지만 연구진은 AI 사용 공개를 고백(Confession)이 아니라 방법론적 보고(Methodological reporting)로 여기라고 조언해요. 우리가 SPSS나 엑셀을 썼다고 사과하지 않는 것처럼요!
"공개를 고백이 아닌, 일상적인 방법론적 보고로 취급하라."
"Treat disclosure as routine methodological reporting, not confession."
💡 좋은 공개의 예시 (AIHPERD 프레임워크) 이 논문에서는 구체적으로 아래 내용을 포함하라고 제안합니다.
- 도구 명시: ChatGPT 4.0인지, Claude 3인지 정확한 이름과 버전.
- 구체적 활동: "글쓰기 보조"처럼 뭉뚱그리지 말고, "초록 요약", "Python 코드 생성", "문헌 검색" 등 구체적으로!
- 검증 방법: AI가 쓴 내용을 내가 어떻게 확인했는지(예: 원문 대조 확인).
- 책임 명시: 최종 책임은 나에게 있음을 한 번 더 언급.
4. 공동 연구자에게도 솔직해지세요 🤝
마지막으로 중요한 점! 저널에 내기 전, 공동 연구자(Collaborators)들과 먼저 상의해야 합니다. 나중에 "어? 이거 AI가 쓴 거였어?" 하고 동료가 당황하면 곤란하잖아요.
"연구 팀은 연구 절차 및 원고 개발 중에 GenAI가 어떻게, 언제, 그리고 어느 정도까지 사용될 것인지에 대해 초기에 명시적인 논의를 가져야 한다."
"Research teams should have early, explicit discussions about how, when, and to what extent GenAI will be used during research procedures and manuscript development..."
1. Introduction (서론)
어디를 가든 (Everywhere you go), 참석하는 모든 컨퍼런스마다 (every conference you attend), 그리고 읽는 모든 저널마다 (every journal you read), 점점 더 디지털화되는 직장 환경 (increasingly digitalised workplaces)에서 일할 수 있도록 학습자들을 준비시키는 것 (preparing learners)을 목표로 (with the aim of), 교육과 훈련을 최적화하기 위해 (to optimize education and training) 인공지능(AI)을 어떻게 사용할지에 대한 콘텐츠를 포함하고 있다. 이와 병행하여 (In parallel), 생성형 인공지능(Generative Artificial Intelligence, GenAI)의 출현 (emergence)이 연구 (research), 학술적 글쓰기 (academic writing), 그리고 출판 관행 (publishing practices)을 어떻게 재편하고 있는지 (reshaping)에 대한 논의가 학계 전반에 걸쳐 진행 중이다 (discussions are underway across all academia) (예: [1–3], 및 Box 1 참조).
Box 1. Defining GenAI (GenAI의 정의)
생성형 인공지능(Generative Artificial Intelligence, GenAI)은 대규모 언어 모델(large language model, LLM)을 사용하는 ChatGPT와 같은 전형적인 예시들 (exemplars) 덕분에 상당한 주목을 받게 된(gained considerable prominence) 인공지능(AI)의 하위 범주 (sub-category)이다.
GenAI는 복잡하고 다양한 언어적 입력 (linguistic inputs), 지시 (instructions), 또는 질문 (inquiries)에 반응하여 (in response to) 이미지나 단어와 같은 인간과 유사한 콘텐츠(human-like content)를 생성하기 위해 (to generate) 훈련 데이터로부터의 딥 러닝 (deep learning from training data)과 ‘트랜스포머’ 기술 (‘transformer’ technology)을 활용하여 작동한다 (operates by leveraging) [4], [5,6].
요약하자면 (In short), GenAI는 인간 사용자의 프롬프트 (prompt)나 지시 (instruction)를 따르며 창의적인 텍스트, 이미지, 또는 기타 콘텐츠를 자동으로 생성할 수 있는(able to automatically produce) 모든 도구(예: ChatGPT, Perplexity AI)의 사용을 지칭한다 (refers to).
의학 교육 (medical education)에서의 AI 사용이 몇 년간 논의되어 왔지만 (had been discussed for some years) [7], 대규모 언어 모델(LLM)을 사용한 ChatGPT 3.5의 대중 공개(public release)는 2022년에 모든 것을 바꾸어 놓았다(changed everything). 이는 주로 AI의 위력 (power of AI)이 비전문가들(non-technical people)에게 훨씬 더 접근하기 쉬워졌기 (became far more accessible) 때문이다.
- 불과 5개월 후 (Just five months later), 유네스코(UNESCO, 2023)는 ‘고등교육에서의 ChatGPT와 인공지능(ChatGPT and Artificial Intelligence in Higher Education)’이라는 제목의 퀵 스타트 가이드(Quick Start Guide)를 발간했다 [8]. 이 가이드는 연구 설계 (design research), 데이터 수집 (collect data), 데이터 분석 (analyse data), 그리고 연구 논문 작성 (write up research)에 있어 ChatGPT의 가능한 용도 (possible uses)를 기술했다.
- 더 최근에는 (More recently), 학술적 글쓰기와 연구의 맥락 (context of academic writing and research)에서, 5,000명 이상의 저자들을 대상으로 한 글로벌 설문조사 (global survey) 결과, 90%가 연구 논문을 교정(edit)하는 데 AI를 사용하는 것이 적절하다고 보고했으며, 65%는 초안 작성(drafting) 시 AI 사용을 지지한 것으로 나타났다 [9]. 이러한 결과들 (These findings)은 AI가 이미 글쓰기 과정 (writing process)에서 흔하지만, 종종 침묵하는 협력자 (common, if often silent, collaborator)로서 많은 저자들 곁에 자리 잡고 있음을 시사한다 (suggest) [10].
GenAI는 연구에 있어 혁신적인 잠재력(transformative potential)과 중대한 도전 과제들(significant challenges)을 동시에 제공한다 [11].
- GenAI 도구들은 연구 및 글쓰기 과정의 핵심 요소들 (core elements)을 효율화(streamline)하여, 생산성(productivity)과 학술적 성과(academic output)를 증대시킬 수 있다 (enabling increased) [12].
- 그러나 (However), GenAI가 연구와 학술적 글쓰기에 유익할 수 있는 반면 (can be beneficial), 특히 저자들이 비판적이지 않고 (uncritically) 비윤리적으로 (unethically) 접근할 경우 오용될 수도 있다(can also be misused). 연구자들의 GenAI 사용은 원고에서 종종 보고되지 않은 채 넘어간다(often goes unreported).
- 이는 불완전한 방법론 공개 (incomplete methodology disclosure)나 의도치 않은 기만 (inadvertent deception)과 같은 의심스러운 관행(questionable practices)을 통해 연구 진실성(research integrity)을 훼손할 가능성이 있으며 [13], 따라서 저자됨 (authorship), 투명성 (transparency), 그리고 윤리적 연구 관행 (ethical research practices)에 대한 중요한 의문들(critical questions)을 제기한다 [14,15].
2. Who are we? (우리는 누구인가?)
저자로서 (As authors), 우리는 다양하고 교차하는 입장들(intersecting positions)에서 이 가이드에 접근한다.
- 우리 모두는 보건 전문직 교육 연구(health professions education research, HPER) 분야의 지식 생산자들(knowledge producers)이다. 따라서 우리는 GenAI의 이점 (benefits)과 한계 (limitations)를 어떻게 탐색할지 (navigate), 그리고 우리 자신의 연구에서 이를 어떻게 투명하고 책임감 있게(transparently and responsibly) 사용할지에 대한 지침을 구한다 (seek guidance).
- 우리는 또한 AI 사용자들(AI users) 이다. 따라서 우리는 윤리적이고 적절한 AI 사용을 위한 공유된 기준(shared standards)을 우리 분야에서 공동 구축(co-construction)하는 데 기여하고 있음을 인식하고 있다 (appreciate) [16].
- 우리는 지식 사용자들(knowledge users)이다. 따라서 우리는 다른 이들의 출판된 연구물 (published work)을 참고하며 (draw on), 그것이 AI가 조작한 데이터(AI-fabricated data)나 AI가 지어낸 생각(AI-concocted thinking)의 결과물이 아니라는 확신 (confidence)을 필요로 한다.
- 마지막으로, 여러 주요 HPER 저널의 편집자로서, 우리는 지식 큐레이터들(knowledge curators)이다. 따라서 우리는 우리 커뮤니티가 연구에서의 GenAI 사용 및 공개 (disclosure)에 대한 모범 사례(best practices)를 명확히 하도록 (articulate) 도울 책임 (responsibility)을 느낀다.
이 가이드의 저자 5명 중 4명은 원어민(native English speakers)이며, 우리 모두는 영문학 및 언어 (English language and literature) 측면에서 정규 교육 (formal training)을 받았고, 이는 우리의 연구 및 글쓰기 접근 방식에 정보/영향을 준다 (inform). 이 원고를 계획 (planning)하고 초안을 작성할 때 (drafting), 우리는 우리 중 다수가 학술적 글쓰기 과정 (process of academic writing)과 우리만의 고유한 표현 (unique expression)을 만들어내는 기회를 즐긴다는 것을 발견했다. 이러한 즐거움은 적어도 부분적으로는 (at least in part), 과학 및 교육 문헌의 지배적인 언어(predominant language)인 영어로 글을 쓰는 것에 대한 우리의 편안함(comfort)에서 기인할 수 있다 [17]. 동시에 (At the same time), 우리는 연구 관심사 (research interests)와 초점 (foci)이 다르며, 따라서 인식론적 관점(epistemological perspectives)에서도 차이가 있다. 이러한 차이는 지식 발전 (knowledge development)에 대한 우리의 입장과 GenAI 도구의 기저에 있는 원칙 (principles underlying GenAI tools)에까지 확장된다.
우리는 GenAI를 각기 다르게 사용하는데 (use GenAI differently), 예를 들어
- 발표 계획하기 (plan presentations), 글과 영어 다듬기 (polish writing and English), 반대 주장 브레인스토밍하기 (brainstorm counterarguments), 또는 떠오르는 아이디어 테스트하기 (test emerging ideas) 등에 사용한다.
우리는 AI가 기술적 자원 (technical resource)일 뿐만 아니라 영어가 모국어가 아닌 (English is not their first language) 연구자들에게 ‘더 공정한 입지(fairer footing)’를 확보하는 수단 (means)이라고 믿으며, 따라서 우리 분야의 지식 기반을 다양화(diversify our field’s knowledge base)할 잠재력이 있다고 본다 [18,19], [20].
마지막으로, 우리는 이 AMEE 가이드(AMEE Guide)에서 제공하는 지침이 HPER 커뮤니티가 GenAI를 채택할 준비가 되었음(readiness)을 보여주는 데 중요한 역할(crucial role)을 할 수 있음을 인식하고 있다 (aware). 이는 우리가 주요 커뮤니티 구성원들의 역할과 책임 (roles and responsibilities)에 대한 논의를 시작할 것이기 때문이다 [21].
이 AMEE 가이드의 목표 (aim)는 연구자들에게 글쓰기에서 AI 사용을 언제, 그리고 어떻게 공개(disclose)할지에 대한 실용적인 지침(practical guidance)을 제공하는 것이다.
- 구체적으로 (Specifically), 우리는 HPER 분야에서 AI의 윤리적 사용(ethical use)과 보고 관행(reporting practices)을 증진하기 위한 명확한 프레임워크(clear framework)를 제안한다.
- 우리는 출판에서의 책임감 있는 AI 사용(responsible AI use)의 핵심 측면들에 대한 간략한 탐구 (brief exploration)로 시작하여, AI 도구 사용을 언제, 그리고 어떻게 공개할지 개괄하는 (outline) 두 개의 섹션으로 이어진다.
- 이 가이드를 작성하는 시점(2025년 11월)에, 출판을 위한 AI 사용 및 공개와 관련하여 여전히 많은 의문이 남아 있다(many questions remain)는 점을 감안하여 (Given that), 우리는 미래의 발전 (future developments)과 연구 방향 (directions for research)에 대한 고찰 (reflections)로 결론을 맺는다.
3. What is responsible use of AI in publishing? (출판에서 AI의 책임감 있는 사용이란 무엇인가?)
우리는 학자들의 AI 사용에 찬성하거나 반대하는 것(arguing for or against)이 아니며, AI의 적절한 사용법(appropriate usage)에 대해 논쟁하려는 것도 아니다 [22]. 대신, 우리는 GenAI 사용이 초안 작성(drafting), 교정(editing), 그리고 아이디어 생성(idea generation) 속도를 높일 수는 있지만, 학문적 책무성(scholarly accountability)의 근본(fundamentals)을 바꾸지는 않는다고 제안한다. 인간 저자들은 원고가 AI의 도움을 받아 작성되었든 그렇지 않든 상관없이, 모든 저널 제출물의 정확성(accuracy), 독창성(originality), 그리고 진실성/무결성(integrity)에 대해 완전히 책임져야 한다(remain fully responsible). Eva가 주장하듯이, 출판에서 AI의 책임감 있는 사용에 대한 논의는 인간의 감독(human oversight)에 대한 필요성으로 ‘귀결된다(boils down)’ [23]. 이는 저자됨(authorship), 자료의 검증(verification of materials), 그리고 저널을 선택하고 투고하는 과정에 참여하는 방식에 시사점을 준다. 이러한 복잡성들(complexities)이 AI 사용에 대한 우리의 권고 사항(recommendations)에 정보를 제공한다.
3.1. Authorship (저자됨)
출판사들이 이 주제에 대한 정책을 수립하기 전에는, 학술 논문에서 AI 시스템을 저자로 인정할지에 대한 문제가 뜨겁게 논쟁 되었다(hotly debated) [24,25]. 그러나 이 논쟁은 기술적 능력(technical ability)에 관한 것이 아니라, 학술 저자의 전문적, 사회적, 그리고 철학적 지위와 위치(professional, social, and philosophical status and position)에 관한 것이다. 결과적으로, AI 시스템은 책임을 질 수 없고(cannot accept responsibility), 원고를 승인하거나(approve a manuscript), 이해 상충(conflicts of interest)을 관리할 수 없기 때문에, 이 가이드를 작성하는 시점에 출판윤리위원회(COPE)와 국제의학학술지편집인위원회(ICMJE)의 국제적 지침은 AI가 저자로 등재되어서는 안 된다(AI shall not be listed as an author)는 점을 명확히 하고 있다 [26,27]. 비록 이에 대한 반론이 제기되기도 했지만(예: 20, 28, 29), 보건 전문직 교육 분야를 포함한 많은 저널이 현재 저자 지침(author instructions)에 이러한 기준을 반영하고 있다. 예를 들어, 이 저널의 출판사인 Taylor and Francis는 다음과 같이 언급한다: ‘생성형 AI 도구는 저자로 등재되어서는 안 된다’ [30].
3.2. Verification and responsibility (검증과 책임)
저자들은 모든 AI 보조 콘텐츠(AI-assisted content)를 독립적으로 검증하고(independently verify) 이에 대한 책임을 져야 한다(take responsibility). 예를 들어, MedEdPORTAL에 출판하고자 하는 저자들은 다음과 같은 지침을 받는다:
- ‘저자는 제출된 모든 콘텐츠를 포함하여 자신의 작업물의 품질(quality), 진실성(integrity), 독창성(originality)에 대해 완전히 책임을 져야 한다(remain fully accountable)’ [31].
본질적으로(In essence), AI가 사용되었다면, 저자들은 그 결과물을 완성된 학문적 성과(finished scholarship)가 아니라 검증되지 않은 메모(unverified notes)로 취급해야 한다.
- 따라서 저자들은 사실(facts), 인용(quotations), 참고문헌(references)을 1차 자료(primary sources)와 대조하여 확인해야 한다. 연구들이 LLM(예: ChatGPT, Gemini)이 인용을 생성할 때 신뢰할 수 없을 수 있음(can be unreliable)을 반복적으로 보여주고 있기 때문에 [22,32], 저자들은 조작되거나(fabricated) ‘환각을 일으킨(hallucinated - 거짓으로 지어낸)’ 참고문헌에 대해 각별히 주의해야 한다(especially vigilant).
- 또한 저자들은 정확성을 검증하기 위해 AI가 수행한 모든 통계 분석(statistical analyses), 코드(code), 또는 계산(calculations)을 다시 실행해 보아야 한다(rerun) [33,34].
- 마지막으로, 저자들은 숨겨진 저작권 위험(hidden copyright risks)을 모니터링하고 완화하기 위해 AI가 생성한 이미지, 도표, 또는 텍스트에 대한 권리와 허가(rights and permissions)를 검증해야 한다. 이는 부분적으로 국가마다 저작권법이 다르기 때문에 간단하지 않다.
- 그러나 저자는 구글 이미지 역검색(reverse Google search)을 통해 이미지/도표가 이전에 출판된 적이 있는지 확인할 수 있다.
- 텍스트의 경우, 표절 탐지 도구(plagiarism detection tools)를 사용하여 기존 출판물과의 유사성을 확인할 수 있다.
- 또한 저자들은 메타데이터 태깅 옵션(metadata tagging options)을 사용하여 이미지/도표가 언제 생성되었는지, 어떤 도구가 사용되었는지, 그리고 해당 이미지/도표가 AI로 생성되었으며 타인의 저작권을 침해할 의도가 없었음을 증명하는 데 도움이 될 기타 관련 정보를 기록(document)할 수 있다.
3.2.1. Practice point (실무 포인트)
이 AMEE 가이드를 작성하는 시점에, AI 도구는 저자로 등재될 수 없으며(cannot be listed as authors) 학술 논문의 콘텐츠에 대해 책임을 질 수 없다. 인간 저자들은 GenAI 사용 여부와 관계없이 모든 저널 제출물의 정확성, 독창성, 진실성에 대해 완전히 책임져야 한다(remain fully responsible).
3.3. Plagiarism and bias (표절과 편향)
원고는 자기 표절(self-plagiarism)과 의도치 않은 텍스트 재사용(inadvertent text reuse)을 포함하여, 표절(일명: ‘Aigiarism’ [35])을 탐지하기 위해 스크리닝 되어야 한다. 이는 AI가 학문적 출처 표시 규범(academic attribution norms)을 따르지 않기 때문이다 [36]. 게다가, AI 모델은 과거 데이터(historic data)로부터 학습하기 때문에, 저자들은 AI가 생성한 텍스트에 잠재적 편향(potential bias)이 있는지, 또는 불평등(inequalities)을 영속화하거나 소외 계층(marginalized groups)에게 해를 끼칠 수 있는 예시가 의도치 않게 포함되어 있는지 면밀히 조사해야 한다(scrutinize) [37].
- 예를 들어, 한 연구자 그룹이 AI 텍스트-이미지 생성기인 DALL-E3에게 호주 의대생의 이미지를 생성하도록 지시했을 때, 그들은 생성된 이미지의 92%가 밝은 피부색을 가진 개인(individuals with light skin)이고 58.8%가 남성(male)이라는 것을 발견했다. 이는 호주 의대생 모집단(population)을 잘못 나타내는 것이며 성별 및 인종 편향(gender and race bias)을 영속화한다 [38].
3.3.1. Practice point (실무 포인트)
저자는 모든 AI 보조 또는 AI 생성 콘텐츠의 정확성(accuracy)을 검증해야 하며, 편향(bias), 표절(plagiarism), 또는 저작권 침해(copyright infringements)가 없음을 보장해야 한다.
3.4. Data privacy and confidentiality (데이터 프라이버시와 기밀성)
AI가 생성하는 텍스트는 기관, 환자, 또는 연구 참여자에 대한 민감하고, 개인적이며, 기밀인 정보(sensitive, personal, or confidential information)를 포함할 수 있다. 마찬가지로, 저자들은 GenAI에 업로드하는 모든 데이터의 프라이버시와 기밀성을 고려해야 하는데, 이는 일부 도구들이 향후 훈련(future training)을 위해 이 데이터를 저장하거나 사용할 수 있기 때문이다.
- 연구 데이터(예: 인터뷰 녹취록, 설문 응답), 특히 식별 가능한(identifiable) 임상 또는 기관 정보를 입력하기 전에, 저자들은 그러한 사용이 소속 기관의 정책(institution’s policies) 하에 허용되는지 확인해야 한다.
- 인간 대상 데이터(human subject data)를 다룰 때, 이는 기관 윤리 위원회(institutional ethics committee)에 확인하여 AI 도구에 데이터를 업로드하는 것이 승인된 프로토콜(approved protocols)과 일치하는지, 그리고 기밀 유지 계약(confidentiality agreements), 데이터 사용 제한(data-use restrictions), 또는 참여자의 동의(participants’ consent)를 위반하지 않는지 확인하는 것을 포함한다.
3.5. Journal requirements (저널 요구사항)
저널 요구사항을 논의하기 전에, AI 사용의 차이점을 고려하는 것이 유용하다. 꽤 일반적인 구분은 AI 보조 콘텐츠(AI-assisted content)와 AI 생성 콘텐츠(AI-generated content) 간의 구분이다 [39,40]. 추가 설명은 Box 2를 참조하라.
어떤 종류의 AI 사용이 허용되는지에 대해 저널들의 입장은 다양하다(vary).
- 일부 저널은 언어 다듬기(language polishing)(즉, AI 보조 콘텐츠)를 위한 AI 사용은 허용하지만 독창적인 텍스트 생성(generating original text)(즉, AI 생성 콘텐츠)은 금지한다.
- 어떤 곳은 방법(Methods) 섹션에 공개할 것을 요구하고, 다른 곳은 감사의 글(Acknowledgments)에 요구하며, 소수(점점 줄어들고 있지만)는 AI 사용을 전면 금지한다.
그러므로 원고 초안을 작성하기 전에, 저자들은 대상 저널의 저자 지침(author instructions)과 관련 출판사 가이드라인을 참조해야 한다. (저널 요구사항에 대한 자세한 내용은 Section 5: 언제 공개가 요구되는가?를 참조). 저널과 출판사의 AI 사용 정책은 예고 없이(without warning) 자주 변경되므로, 가장 최신의 가이드라인을 확인하는 것이 중요하다는 점을 유의하라.
Box 2. What counts as AI use in publishing? (출판에서 무엇이 AI 사용으로 간주되는가?)
AI 보조 콘텐츠(AI-assisted content)는 개인이 처음 작성했으나 AI 도구의 도움으로 개선된 작업물을 지칭한다. 예를 들어, 저자는 초안의 철자나 문법을 확인하거나 명료성(clarity)을 높이기 위해 AI를 사용할 수 있다. 이 시나리오에서 저자는 통제권(control)을 확고히 쥐고 있으며, AI는 최종 결과물을 다듬는(polish) 유용한 도구로서 기능한다. 이는 때로 AI 보조 원고 교정(AI-assisted copy editing)이라고 불린다 [41].AI 생성 콘텐츠(AI-generated content)는 저자가 제공한 프롬프트(prompt)에 반응하여 AI가 처음 생성한 텍스트이다. 텍스트의 상당 부분(significant portions)이나 전체 섹션이 될 수도 있는 이 콘텐츠는, 저자에 의해 최소한의 편집(minimal editing)이나 수정만 거칠 수도 있고, 혹은 상당히 수정될 수도 있지만, 초기 초안(initial draft)은 AI에 의해 생성된 것이다. 유사성(resemblance)이 클수록, 그리고 AI가 기여한 아이디어가 실질적일수록(more substantive), 그 기여를 명확히 공로로 인정/명시(credit)하는 것이 더욱 중요하다 [29].
물론, 실제로는(in practice), AI 보조 콘텐츠와 AI 생성 콘텐츠 사이의 경계가 모호하다(blurred). 예를 들어, 저자가 AI(예: ChatGPT)에게 콘텐츠 생성을 요청하고, 이후 시간이 지나며 생성된 콘텐츠와 거의 알아볼 수 없을 정도로(almost unrecognisable) 상당히 수정할 수 있다. 이 경우, 비록 AI가 초기 콘텐츠를 생성했더라도 최종 결과물에 AI 텍스트의 ‘연속성(continuity)’은 거의 없다 [29]. 그리고 변경 내용 추적(tracked changes) 기능을 활용하며 작업하는 것은 초기 텍스트와 최종 텍스트 간의 차이를 기록하고 평가하는 유용한 방법이다. 또는 저자가 자신의(저자가 생성한) 자료 일부를 ChatGPT에 업로드한 다음, 다시 자신의 작업에 기반한 일련의 매우 구체적이고 점진적인 프롬프트(specific and incremental prompts)를 사용하여 AI가 자신의 아이디어를 특정 텍스트 형태로 작성하도록 돕게 하거나, 논문의 위치 설정(positioning a paper)에 대한 제안을 얻는 상황을 고려해 보자. 이것은 AI 생성 콘텐츠인가, AI 보조인가? 비록 우리가 이 가이드의 마지막에 있는 프레임워크(Framework)에서 어느 정도 명확성을 제공하고는 있지만, 우리에게도 간단한 답은 없다. 이것과 AI 사용과 관련된 다른 윤리적 딜레마 및 도전 과제들에 대한 논의는 시간이 지남에 따라 진화할 것이다(evolve over time).
위의 요점을 반복하자면(Reiterating), 우리의 조언은 글쓰기 과정을 시작하기 전에(in advance of) 대상 저널을 선택하고, 해당 저널의 AI 사용 가이드라인을 확인하며, 이 지침 내에서 작업하고 있음을 확실히 하고, 적절하게 공개하라는 것이다.
4. Why disclose AI use? (왜 AI 사용을 공개해야 하는가?)
연구 생산(research production)에서 GenAI 사용을 공개하는 것이 왜 중요한가? 근본적으로(Fundamentally), 이는 투명성(transparency), 진실성(integrity), 그리고 책무성(accountability)으로 귀결된다. 이는 AI 도구가 사용되었는지 여부에 초점을 맞추기보다는, AI 도구가 얼마나 많은 도움(how much assistance)을 제공했는지, 즉 Jenkins와 Lin [29]이 말하는 최종 결과물 내 AI 텍스트의 ‘연속성(continuity)’에 초점을 맞춰야 함을 시사한다.
- 공개(disclosure)가 학술 콘텐츠 생산에 있어 GenAI 도구의 역할(그리고 반대로 인간의 투입)을 포착할 때, 이는 다른 연구자들이 원고와 그 구체적인 주장들(specific claims)을 비판적으로 평가(critically evaluate)할 수 있게 돕고 [42], 편집자들이 제출된 원고가 편집 정책(editorial policies)을 충족하는지 판단할 수 있게 한다 [43].
- 반면에(On the other hand), 우리가 이런 방식으로 공개하지 못할 경우, 앞서 논의한 바와 같이 표절, 사실적 오류(예: 부적절한 출처 표시, 참고문헌의 환각), 편향, 그리고 출판 윤리와의 불일치(misalignment) 위험을 감수하게 된다.
5. When must you disclose to journals? (저널에 언제 공개해야 하는가?)
외부 공개(External disclosure, 즉 저널과 독자에게 공개하는 것)는 현재 AI 사용 보고(AI-use reporting)에 있어 가장 가시적이고 규제되는 요소(most visible and regulated element)이다. 원고에서, 공개는 AI 도구가 연구나 원고를 실질적으로 형성할 때(materially shapes)마다 요구된다(warranted). 저자들은 ‘실질적으로 형성한다’는 기준(threshold)을 단지 기술적인 것(not merely technical)이 아니라 또한 인식론적인 것(epistemic)으로 접근해야 한다. 이는 AI가 지식의 창조, 검증, 그리고 변형(creation, validation and transformation of knowledge)에 있어 능동적인 역할(active role)을 한다는 것을 의미한다. 즉, 새로운 사실이 어떻게 발견되는지, 새로운 연구가 어떻게 수행되는지, 그리고 모든 종류의 정보가 검색 엔진(search engines)을 통해, 소셜 미디어 환경(social media environments)에서, 전자 기기(electronic devices)의 사용을 통해 등등 사회 전반에 어떻게 퍼지는지에 관한 것이다. 다시 말해(In other words), AI는 비인간(non-human)임에도 불구하고, 비록 기술 그 자체가 인간과 같은 주체성(human-like agency)을 가지고 있지 않더라도 우리 믿음과 그 내용의 창시자(originator)로서 기능할 수 있다 [44,45].
이를 감안할 때(Given this), 독자들은 타당성(validity)과 책무성(accountability)을 평가할 수 있도록, GenAI가 언제 그리고 어떻게 연구자의 사고(thinking)에 영향을 미쳤으며, 이것이 결과적으로 그들의 질문, 방법, 주장, 또는 발표에 영향을 주었는지 알 필요가 있다. 여기에는 다음이 포함된다:
- 산문 작성 또는 다시 쓰기(drafting or rewriting prose),
- 문헌 요약(summarizing literature),
- 논증 구조화(structuring arguments) [46],
- 통계 지원(assisting with statistics) [33,34] 또는
- 이미지 분석, 도표 생성 또는 변형(generating or transforming figures), 또는
- 해석 지원(aiding interpretation) (즉, AI 생성 콘텐츠).
그러나(However), 저자와 편집자들은 종종 AI 공개에 대해 불안해한다(feel unsettled). 최근의 경험적(empirical) 및 개념적 연구(conceptual work)는 왜 이런 경우가 생기는지에 대한 통찰(insight)을 제공한다. 예를 들어, Lingard와 동료들은 [16] 편집자들과의 인터뷰를 바탕으로, 공개의 필요성(necessity)과 충분성(sufficiency)(얼마나 상세한 것이 충분한가)을 둘러싼 모호하고 변화하는 경계(blurred and shifting boundary)를 특성으로 묘사한다. 이 모호한 경계는 급격한 기술 변화(rapid technological change), 공개 기준에 대한 해당 분야의 유기적 구축(organic construction), 그리고 재현성(reproducibility)과 같은 전통적인 엄격성 원칙(rigor principles)과 LLM 행동 간의 불완전한 적합성(imperfect fit)에 의해 형성된다. 그들의 분석은 HPER 저자들을 위한 실용적인 규칙(pragmatic rule)을 지지한다: 사소한 문법 수정(trivial grammar fixes)을 넘어설 때는 언제나 공개하라. 그리고 불확실할 때는 공개하라(when uncertain, disclose). Nature 저널의 편집 정책(editorial policies)은 이러한 입장을 반영한다(reflect this stance):
‘AI 보조 원고 교정(AI assisted copy editing)’ 목적을 위한 LLM(또는 기타 AI 도구)의 사용은 신고할 필요가 없다(not need to be declared). 이 맥락에서, 우리는 ‘AI 보조 원고 교정’이라는 용어를 가독성(readability)과 스타일(style)을 위해, 그리고 텍스트에 문법, 철자, 구두점 및 어조(tone)의 오류가 없도록 보장하기 위해 인간이 생성한 텍스트를 AI의 도움으로 개선하는 것(AI-assisted improvements)으로 정의한다. 이러한 AI 보조 개선 사항은 텍스트에 대한 어휘(wording) 및 서식 변경(formatting changes)을 포함할 수 있지만, 생성적 편집 작업(generative editorial work)과 자율적 콘텐츠 생성(autonomous content creation)은 포함하지 않는다 [41].
5.1. Practice point (실무 포인트)
- 문법 교정, 문장 다듬기(sentence refinement), 또는 문헌 검색 지원과 같은 일상적인 지원(Routine assistance)은 정상적인 학술 관행(normal scholarly practice)으로 간주될 수 있으며 공개를 요구하지 않는다.
- 반면에(On the other hand), 텍스트 생성, 코드 수정, 표나 도표 생성, 단어 수 줄이기, 또는 분석 확인(checking on analyses)과 같은 실질적인 GenAI 사용(substantive GenAI use)은 대상 저널의 가이드라인에 따라(예: 방법 섹션, 선언문, 또는 감사의 글에) 공개되어야 한다.
마지막으로, 정책이 출판사마다 다르며(differ across publishers) (심지어 한 출판사 사이트 내에서도 시간이 지남에 따라 변하므로), 저자들은 원고 제출 시점(time of manuscript submission)에 저널별 구체적인 지침(journal-specific instructions)을 확인해야 한다.
- 예를 들어, JAMA의 최근 편집 업데이트는 원고나 연구에 영향을 미치는 AI 사용의 투명한 보고(transparent reporting)를 요구하며 기본적인 문법/철자 확인에 대해서만 좁은 예외를 두는(carves out a narrow exception) 반면,
- Springer Nature는 출판물 내 GenAI 이미지를 금지한다 [47]. 정책이 움직이는 표적(moving target)이라는 점을 감안할 때, 우리는 HPER 분야에서 ‘의심스러울 때는 공개하라(disclose-when-in-doubt)’는 접근 방식을 권장한다.
또한(Additionally), 저자들이 대상 저널을 확신하지 못하는 경우, 가장 엄격할 것으로 예상되는 정책(strictest likely policy)을 충족하는 보수적인 공개 성명서(conservative disclosure statement)를 선제적으로 작성(pre-emptively draft)한 다음, 필요에 따라 제출하려는 저널에 맞게 조정(tailor)할 수 있다. 마지막으로, 원고가 거절되어(rejected) 2순위 또는 3순위 저널에 제출할 경우, 저자들은 그 새로운 저널의 정책을 확인하고 이에 맞춰 공개 내용과 원고를 업데이트해야 한다.
5.2. Practice point (실무 포인트)
저널 정책은 다양하고 진화하고 있으므로(evolving), ‘의심스러울 때는 공개하라(disclose-when-in-doubt)’는 접근 방식이 권장된다.
6. What about disclosing to your collaborators? (공동 연구자들에게 공개하는 것은 어떠한가?)
주목할 점은(Notably), AI 사용 공개에 대한 기존 문헌은 주로 원고 제출 시점에 저널에 공개하는 것에 초점을 맞춰왔다는 것이다. 그러나 공개 관행(disclosure practices)은 연구 팀이 연구를 계획할 때, 더 일찍 시작되어야 한다. 연구 절차(research procedures) 및 원고 개발(manuscript development) 중에 AI 도구가 어떻게, 언제, 그리고 어느 정도까지 사용될 것인지(그리고 사용되었는지)에 대한 대화는 공동 연구자들 간의 투명성(transparency), 신뢰(trust), 그리고 공유된 이해(shared understanding)를 구축하는 데 매우 중요하다(crucial). 초기 문헌은 그러한 논의가 아직 일반적인 관행(common practice)이 아님을 시사한다 [48]. 일부 저자들은 수치심(shame), 판단에 대한 두려움(fear of judgment), 또는 공개가 어떻게 받아들여질지에 대한 불확실성(uncertainty) 때문에 공동 저자들에게 AI 사용을 공개하기를 주저할 수 있다 [49,50]. 다른 이들은 AI 사용을 밝히는 것이 동료들로 하여금 그들 작업의 정당성(legitimacy), 창의성(creativity), 또는 지적 기여(intellectual contribution)를 의심하게 만들 수 있다는 ‘공개 페널티(disclosure penalty)’에 대해 걱정할 수 있다 [51].
이러한 과제들을 해결하기 위해, 연구 및 저자 팀은 GenAI 사용과 관련된 공개 관행을 표준화(normalize)하고 구조화하기 위해 의도적인 조치(deliberate steps)를 취할 수 있다.
- 초기에 명시적인 대화(explicit conversations)를 확립하는 것은 기대치를 명확히 하고(clarify expectations), 윤리적 및 저널 요구사항에 대한 상호 이해(mutual understanding)를 보장하며, AI 보조 작업과 관련된 낙인(stigma)을 줄이는 데 도움이 될 수 있다.
- 팀들은 주요 프로젝트 마일스톤(key project milestones)마다 간단하고 반복적인 점검(recurring check-in)을 도입하여 AI 도구가 어떻게 활용되고 있는지, 어떤 기능(functions)을 수행하는지, 그리고 그 사용이 학문 분야 및 저널 가이드라인과 일치하는지 문의할 수 있다.
- 이러한 논의를 기록(Documenting)하는 것은 정확한 저자 기여 성명서(authorship contribution statements)를 뒷받침하고 개방성(openness)과 공유된 책임(shared responsibility)의 문화를 조성할 수 있다.
- 공개를 팀의 진실성 및 품질 보증 과정(integrity and quality assurance process)의 일부로 프레이밍(framing)함으로써, 팀들은 학습(learning), 성찰(reflection), 그리고 GenAI가 계속 진화함에 따른 유연성(flexibility)을 위한 잠재력을 위한 공간을 마련할 수 있다.
이러한 관행들은 저자됨 논의(authorship discussions)에 관한 지침과 유사하다(parallel) [52]. 저자됨에 대한 논의는 이상적으로 프로젝트의 시작(outset) 단계인 초기 계획 단계(initial planning stages)에서 시작되어야 하며, 작업이 진행됨에 따라 정기적으로 재검토(revisited regularly)되어야 한다. 이러한 선제적이고 지속적인 의사소통(proactive and ongoing communication)은 미래의 오해와 분쟁(disputes)을 예방하는 데 도움이 된다. 이는 연구가 석사 또는 박사 과정(master’s or PhD program)의 일부일 때 특히 중요하다. 학생들에게 있어 저자됨에 대한 대화를 시작하는 것은 어려울 수 있다(challenging). 따라서 지도교수들(supervisors)은 이러한 대화를 이끌고 지원할 책임(responsibility)이 있다 [53].
6.1. Practice point (실무 포인트)
연구 팀은 연구 절차 및 원고 개발 중에 GenAI가 어떻게, 언제, 그리고 어느 정도까지 사용될 것인지에 대해 초기에 명시적인 논의(early, explicit discussions)를 가져야 한다. 이는 기대치를 명확히 하고, 윤리적 및 저널 요구사항을 충족하며, AI 보조 또는 AI 생성 학문(AI-generated scholarship)과 관련된 낙인(stigma)을 줄이기 위함이다.
7. How to disclose? (어떻게 공개할 것인가?)
표 1(Table 1)은 어떻게 공개할지에 대한 예시를 제공하지만, 먼저 몇 가지 지침 원칙(guiding principles)을 고려하는 것이 중요하다.
Table 1. AIHPERD Framework of good practice for writing AI disclosures. (표 1. AI 공개 작성을 위한 모범 사례의 AIHPERD 프레임워크.)

표 1. AI 공개 작성을 위한 모범 사례의 AIHPERD 프레임워크 (AIHPERD Framework of good practice for writing AI disclosures)
| 번호 (N) | 실천 사항 (Practice) | 예시 (Examples) |
| 1 | 사용된 모델을 명시하라(Specify the model used). 로컬 모델/버전이 사용된 경우, 이를 명시하고 모델의 이름과 버전을 포함하라. | 저자들은 ChatGPT 5.1 Thinking (OpenAI) / Gemini Pro (Google DeepMind) / Perplexity / Claude (Anthropic) / NoteBook LM / 맞춤형 GPT (a custom GPT) (http://...) / X 대학에서 개발한 ChatGPT 버전...을 사용했다. |
| 2 | AI 시스템이 사용된 구체적인 활동을 언급하도록 보장하라(Ensure that you refer to the specific activities). 정밀하게 기술하라. (참고: '코딩(coding)'이라는 단어는 질적 데이터 분석이나 프로그래밍 모두를 지칭할 수 있으므로, 선언 시 구체적으로 명시하라.) | ... 세 가지 개요(outlines)를 생성하기 위해, 그리고 저자들은 그중에서 ...을 도출했다 ... 초기 문헌 검색(initial literature search)을 수행하기 위해 ... ... 논문들을 분석(analyse)하기 위해 ... ... 방법론(Methodology)을 평가하기 위해 ... ... 탐색적 군집 모델링(exploratory cluster modelling)을 위해. AI 도구는 데이터 내 잠재적 그룹화를 제안했으며..., 저자들은 이를 수동으로 검증하고 재시험했다. ... 중심 주장에 대한 대안적 프레임(틀)을 제안(propose alternative framings)하기 위해 ... ... 밀도 높은 분석적 묘사를 바꾸어 표현하고(rephrase), 데이터 수집 및 분석의 반복적 단계가 어떻게 진행되었으며 표본 추출 접근법에 영향을 미쳤는지 더 잘 설명(articulate)하기 위해... ... 언어와 문법을 교정하고 수정(proofread and correct)하며, 단어 수 요건을 충족하기 위해 논문 초록을 줄이기 위해 ... ... 데이터 분석을 위한 파이썬(Python) 스크립트, 그림 3 생성을 위한 R 코드, 그리고 MS-Excel 매크로 작성을 위해. ... 영어로의 1차 번역(first translation)을 제공하기 위해 ... ... 참고문헌 서식 지정(reference formatting)을 돕기 위해 ... ... 제출 전 초기 검토(initial review)를 제공하기 위해 ... |
| 3 | 학습자, 환자, 또는 기타 참여자 데이터를 AI에 제출한 경우 동의를 얻었음을 선언하라(Declare that consent was obtained). | 참여자들은 분석을 지원하기 위해 자신의 익명화된 데이터(anonymized data)가 AI 시스템에 업로드되는 것에 동의했다. |
| 4 | 학습자, 환자, 또는 기타 참여자 데이터를 공공 모델(public model)에 제출한 경우 업로드된 데이터를 보호하기 위해 취한 조치를 명시하라(Indicate the steps taken to protect uploaded data). | 우리는 데이터가 비공개 채팅 내에 유지되도록 보장하기 위해 ChatGPT에서 '모두를 위한 모델 개선(Improve the model for everyone)' 설정을 껐다. ... API를 통해 ChatGPT에 접속함으로써 사용자 데이터가 훈련 데이터로 사용되지 않도록 보장했다. |
| 5 | AI 도구가 사용되었을 것이라고 예상할 만한 타당한 이유가 있지만 실제로는 사용되지 않은 경우, 이를 명시적으로 밝히는 것을 고려하라(Consider explicitly stating when you did not use an AI tool). | 모델은 데이터를 코딩하거나 해석을 생성하는 데 사용되지 않았다. AI 시스템은 어떠한 이미지 생성에도 사용되지 않았다. AI가 생성한 모든 제안은 저자들에 의해 논의되었으며, 작성된 모든 자료는 저자들에 의해 수정되었다. 저자들은 논의에 참여할 다양한 방향 중 어느 것을 선택할지와 최종 논증 라인(final line of argument)을 결정했다. ... 이는 저자들에 의해 수동으로 검증되고 재시험되었다. 연구 팀이 모든 분석적 결정과 해석을 내렸다. 모든 텍스트는 정확성(accuracy)과 어조(tone)를 위해 저자들에 의해 검토되고 수정되었다. |
| 6 | 헬싱키 선언 준수, PRISMA 사용, 또는 기타 지침을 선언하는 것과 마찬가지로, GenAI에 관한 저널, 출판사, 또는 저자 소속 기관의 정책을 언급하여(Refer to the ... policy) 해당 정책을 읽었으며 그 정책 범위 내에서 AI를 사용했음을 인정하고 있음을 보여주라. | ... 대학의 AI 정책(http:// ...)에 부합하여 ... 저널의 AI 가이드라인(http:// ...)에 부합하여 |
| 7 | 저널 정책이 명시적으로 요구하지 않더라도, 책임에 대한 최종 성명(statement of responsibility)을 작성하라. | 저자들은 이 출판물에 제시된 과학적 콘텐츠의 정확성과 진실성(integrity)에 대해 전적인 책임을 진다(assume full responsibility). |
| 8 | 편집자가 요청할 경우를 대비하여 가능한 경우 프롬프트의 기록을 보관하라(Keep a record of the prompt/s). 데이터와 마찬가지로, 합리적인 요청이 있을 시 독자들에게 이를 공개하는 것을 고려하라. | 프롬프트는 / 전체 상호작용은 / 합리적인 요청 시 교신 저자로부터 받을 수 있음 / 부록 A에 제공됨. 참고(NOTE): ChatGPT에서는 '공유(Share)' 기능을 사용하거나, 브라우저 확장 프로그램 'Save as PDF' (https://addons.mozilla.org/en-US/firefox/addon/save-as-pdf/)를를) 사용하라. |
유용한 출발점(useful starting point)은 공개를 고백(confession)이 아닌, 일상적인 방법론적 보고(routine methodological reporting)로 취급하는 것이다. AI 사용 보고를 생각하는 도움이 되는 방식(helpful way)은 우리가 이미 소프트웨어를 기록하는 방식(document software)을 모방하는 것(mirror)이다:
- ‘분석은 SPSS v27에서 수행되었다(Analyses were conducted in SPSS v27)’ 또는
- ‘질적 코딩은 NVivo 14를 사용했다(Qualitative coding used NVivo 14)’.
이 논리(logic)를 따라, 좋은 AI 공개는 다음을 포함해야 한다:
- AI 도구 및 버전 명시(name the AI tool and version),
- 사용 방법 기술(예: 글쓰기(writing), 교정(editing), 데이터 처리(data processing), 도표 생성(figure generation), 문헌 요약(literature summarizing)),
- 사용의 범위(extent) 또는 중요성(significance) 표시 (예: 사소한 언어 교정(minor language editing) 대 실질적인 초안 작성(substantive drafting) 또는 분석적 기여(analytic contribution)), 그리고
- 모든 콘텐츠에 대한 책임을 확언(affirming responsibility)하면서 저자들이 결과물(outputs)을 어떻게 검증(verified)했는지 설명해야 한다.
JAMA의 정책은 이를 구체화한다(operationalizes):
- 제출 중(during submission), 저자들은 텍스트, 표, 또는 도표를 생성(create)하기 위해 AI가 사용되었는지 질문받는다.
- 만약 그렇다면, 그들은 도구, 버전, 그리고 용법(usage)을 명시해야 하며(specify), 방법(Methods) 또는 감사의 글(Acknowledgments) 섹션에 해당 성명서(corresponding statement)를 포함해야 한다.
- 방법 섹션이 없는 관점(perspectives)이나 에세이(essays)의 경우, 감사의 글 또는 간략한 ‘AI 사용 선언(Declaration of AI Use)’을 사용하라 [54].
HPER 논문의 경우, AI가 연구 수행(research conduct)을 지원했을 때 방법 섹션이 이상적(ideal)이다. 그러나 저자들은 책임 증명(responsibility attestation)이 간과되지 않도록(does not get overlooked) 보장해야 한다 [10].
포함할 세부 사항의 수준(level of detail)에 관해서는, 관행들이 진화하고 있다(practices are evolving). 현재, HPER 출판물들은 최소한의 공개 스타일(minimalist disclosure style)을 지향하는 경향이 있다 [10].
- 그러나 독자들이 AI 사용의 본질(nature of AI use)과 그것이 학문에 미친 영향(impact on the scholarship)을 평가할 수 있도록 공개가 충분한 정보(sufficient information)를 제공하기 위해서는, 간결성(brevity)과 투명성(transparency)이 균형을 이루어야 한다(need to be in balance). 예를 들어(For instance), 저자가 자신만의 맞춤형 GPT(custom GPT)를 생성했을 때와 같이, 사용된 AI 모델이 독자들에게 덜 익숙할 때(less familiar) 더 많은 세부 사항이 요구될 수 있다.
- 저자들은 또한 AI 사용의 한계(limits of their use)를 나타내기를 원할 수 있는데, 특히 그 사용이 논쟁 중인(under debate) 학술적 맥락(scholarly contexts)에서 그러하다 [55]. 예를 들어, 질적 연구자들(qualitative researchers)은 대규모 인터뷰 데이터셋(large interview dataset)의 인간 코딩과 LLM 코딩을 비교하기 위해 AI가 사용되었으나, 분석의 해석적 단계(interpretive phases)에는 사용되지 않았음을 공개할 수 있다.
- 이러한 ‘부정적 공개(negative disclosures - 사용하지 않았음을 밝히는 것)’가 HPE 문헌에 등장하고 있지만 [10], 우리는 저자들이 그들의 동기(motivation)와 영향(impacts)을 고려할 것을 권장한다. 왜냐하면 이 전략이 투명성과 신뢰성(credibility)에 어떤 영향을 미치는지 아직 명확하지 않기 때문이다.
저자들은 유익한 정보가 있는(informative) 공개를 목표로 해야 한다(should aim for) [56]. 2025년 상반기 동안 의학 교육 저널들의 AI 사용 공개에 대한 최근의 계량서지학 연구(bibliometric study)는 그것들이 용어 면에서 피상적인(superficial) 경향이 있음을 발견했는데, 이는 AI가 정확히 어떻게 사용되었고 그 결과물이 어떻게 검증되었는지에 대해 제한된 정보(limited information)만을 제공했다 [10]. 그러한 일반적이거나(generic) ‘안전한(safe)’ AI 면책 조항들(disclaimers)은 이해할 만하다(understandable): 그것들은 저자들이 AI 사용 공개에 수반되는 위험(risks involved)을 헤쳐 나가는 데 도움을 준다 [51]. 그러나 공개가 연구자들이 학술적 관행에서 AI와 어떻게 관여했는지(engaged with)에 대해 의미 있고 구체적인 정보(meaningful concrete information)를 거의 전달하지 못할 때, 그것들은 학술적 신뢰성의 상징(symbols of scholarly credibility)이라기보다는 미덕 과시(virtue-signalling)로서 기능한다.
- Weaver 인공지능 공개 ‘AID’ 프레임워크(Weaver Artificial Intelligence Disclosure ‘AID’ Framework)는 공개를 형식적인 것(performative)이 아닌 구체적인 것(specific)으로 만들기 위한 실용적인 발판(practical scaffold)을 제공한다 [57].
- 이는 연구 원고에 대한 AI 관여(AI involvement)의 누가/무엇을/왜/얼마나를 묘사하기 위해 익숙한 저자 기여(author contribution)의 언어를 사용한다.
- 이를 통해 저자들이 일반적인 상용구(generic boilerplate)(예: ‘명료성을 개선하기 위해 AI가 사용되었다’)를 피하도록 돕고, 독자들이 연구자와 AI 모델 간의 학술적 상호작용(scholarly interaction)을 통해 모델 결과물을 생산하고 검증하는 과정을 볼 수 있게 한다.
- 유사하게, Lingard와 동료들은 저자들에게 검증을 ‘약속(promise)이 아닌 과정(process)으로 취급하라: 어떻게 검증했는지에 대해 투명해져라’라고 조언한다 [16,p.17]. 예를 들어,
- ‘우리는 자체적인 PubMed 검색(conducting our own PubMed search)을 수행하고, AI가 인용한 모든 자료가 정확한지 확인하는 것을 포함하여 주요 출처(key sources)를 검토함으로써 AI가 생성한 텍스트의 정확성을 검증했다. 오류(errors)나 지나친 단순화(oversimplifications)를 발견한 곳에서는 필요에 따라 AI 텍스트를 수정했다(edited).’
위에 인용된 문헌과 Kousha의 선언문 데이터베이스(database of declarations) [19]를 바탕으로, 우리는 공개 예시(Table 1)를 포함하여 HPER에서의 AI 선언(AIHPERD) 모범 사례 프레임워크(AI in HPER Declaration (AIHPERD) framework of good practice)를 만들었다.
또한, 다음을 해서는 안 된다(should not):
- 모호하고(vague) 지나치게 일반적인(overly general) 공개를 작성하는 것.
- 예: ‘우리는 이 기사를 연구하고 작성하는 데 ChatGPT를 사용했다’와 같은 진술(Statements). 독자가 텍스트에 미친 AI의 영향(AI impact)을 판단하기에 불충분한 정보(insufficient detail)를 제공한다.
- 사과하거나(Apologize) 지나치게 방어적으로 공개(disclose over-defensively)하는 것.
- 예: ‘우리는 이 연구에서 GenAI를 사용했지만, 오직 ...로만 제한했다’. 당신은 ‘우리는 엑셀을 사용했지만, 오직 차트 구성을 위해서만...’이라고 쓰지 않을 것이다. SPSS로 통계 분석을 수행한 것에 대해 사과하지 않는 것처럼, 마찬가지로 AI를 사용한 것에 대해 사과할 필요(no need to apologise)는 없다.
요약하자면(In summary), 우리는 저자들이 공개를 고백(confessing)보다는 보고(reporting)로 접근할 것을 권장한다. AI 사용은 부끄러워해야 할 것(something to be ashamed of)이 아니다: 그것은 당신이 사려 깊게(thoughtfully) 그리고 적절하게(appropriately) 사용한 도구이다. 공개의 목표(aim of the disclosure)는 독자들이 모델이 연구와 글쓰기를 어떻게 형성했는지(shaped) 이해할 수 있도록 하는 연구자와 AI 간의 관여에 대한 솔직한 묘사(candid description)여야 한다. 명료성과 투명성을 달성하지 못한 채 공개 박스에 체크만 하는(checks the disclosure box) 안전한 묘사가 되어서는 안 된다.
7.1. Practice point (실무 포인트)
공개를 고백이 아닌, 일상적인 방법론적 보고(routine methodological reporting)로 취급하라.
8. What about the use and disclosure of GenAI in peer review? (동료 심사에서의 GenAI 사용과 공개는 어떠한가?)
비록 이 가이드가 저자들의 GenAI 사용 공개에 초점을 맞추고 있지만, 우리는 또한 동료 심사(peer-review)에서의 GenAI 사용도 고려할 필요가 있다. 리뷰어들(Reviewers)은 저자들과 마찬가지로, 그들이 생산하는 콘텐츠에 대해 책임이 있다(accountable). 따라서 동료 심사를 준비하는 데 있어 GenAI의 어떠한 사용도 심각한 주의(serious attention)를 요한다(warrants).
비록 일부 저널과 출판사들이 동료 심사를 지원하기 위해(to support peer-review) AI 사용을 탐색하고 있지만 [58,59], 인간 동료 심사자들(human peer-reviewers)에 의한 AI 사용은 몇 가지 이유로 권장되지 않는다(discouraged):
8.1. Publishers’/journals’ policies (출판사/저널의 정책들)
리뷰어들은 그들의 동료 심사가 저널의 전문적(professional)이고 윤리적인 기준(ethical standards)을 충족하도록 보장해야 한다. 핵심적인 우려(key concern)는 기밀성(confidentiality)이다. 심사 중인 원고(manuscripts under review)는 특권적인 문서(privileged documents)이며 기밀성에 대한 위험 때문에 전체든 부분이든 AI 도구에 업로드되어서는 안 된다 [60,61]. 예를 들어, Academic Medicine과 MedEdPORTAL은 동료 심사자에 의한 AI 사용을 포함하도록 AI 사용 지침(AI-use guidance)을 업데이트했다. 이 정책은 리뷰어들이 저널과 저자 사이의 기밀 유지 계약(confidentiality agreement)을 위반할 수 있는 AI 도구에 기밀 원고를 업로드하는 것을 금지한다(prohibits) [31,62].
8.2. Expertise and real-world experience (전문성과 실제 세계 경험)
논문 심사 요청(invitation to review)은 도메인(domain) 및/또는 방법론적 전문성(methodological expertise)에 대한 인정(acknowledgement)이자, 비판적 판단(critical judgment)에 대한 요청이다. 예를 들어,
- 방법론적 선택(methodological choice)이 진정으로 적절한지, 혁신적인지, 또는 잠재적으로 문제가 있는지 판단하는 것은 현재의 AI 시스템이 완전히 복제할 수 없는(cannot fully replicate) 깊은 도메인 지식(deep domain knowledge)과 비판적 사고(critical thinking)를 필요로 한다.
- GenAI는 또한 연구가 진정으로 참신한지(novel) 또는 윤리적인지, 혹은 그것이 더 넓은 학술적 논쟁(broader scholarly debates)에 어떻게 부합하는지 판단하는 데 필요한 산 경험(lived experience), 세상 지식(world knowledge), 그리고 도메인 특화 관점(domain-specific perspective)이 결여되어 있다(lacks).
- 게다가(Moreover), GenAI는 ‘블랙박스(black box)’로서, 권고(recommendation)에 어떻게 도달했는지에 대한 정보를 제공하지 않으므로, 편집자와 저자들에게 도움이 되지 않는다(unhelpful).
이러한 이유들 외에도, 저널들이 AI가 쓴 것에 대해 윤리적(ethically) 및 도덕적으로 책임(morally responsible)질 수 없기 때문에 저자가 될 수 없다고 주장하면서(insisting), 동시에(simultaneously) 논문 심사에 AI 도구를 사용하는 것에는 무언가 의문스러운 점(questionable)이 있다. ‘남에게는 엄격하지만 나에게는 관대한 규칙(Rules for thee, but not for me - 내로남불)’은 적절한 격언(adage)일지 모르나 적절한 태도(stance)는 아니다.
그러나, 리뷰어들이 저널의 기밀 유지 정책을 위반하지 않는 방식(manner that does not violate)으로 AI 도구를 사용한다면, 그들은 이 사용을 공개해야 한다. 최소한(At a minimum), 그들은 도구의 이름과 사용 방법(usage method)을 식별해야 하며 (예: ‘나는 이 심사를 [제품명, 버전, 회사, 이름, 연도]의 도움을 받아 수행했다’고 명시), 그것이 심사를 어떻게 지원했는지 정확하게 묘사(describe precisely)해야 한다. 이 정보는 편집자와 저자 모두가 볼 수 있도록 저자에게 보내는 기밀 코멘트(Confidential Comments to the Author)에 두는 것이 가장 좋을 수 있다. 편집자들은 도구의 영향력의 범위(extent of the tool’s influence)를 완전히 이해하기 위해, 사용된 프롬프트(prompts used)나 AI가 생성한 텍스트와 같은 추가 세부 사항(additional detail)을 요청할 수 있다.
본질적으로(At heart), 동료 심사는 판단(judgment)과 책무성(accountability)에 관한 것이다. GenAI는 기계적인 작업(rote tasks) (예: 저널 요구사항 준수 확인 [63]) 측면에서는 도움이 될 수 있지만, 영향력(impact)과 중요성(significance), 참신성(novelty), 그리고 관련성(relevance)을 평가하기 위해서는 인간의 전문성(human expertise)이 필요하다 [58,59].
심사에서의 AI의 역할은 Medical Teacher 이번 호에 실린 Masters와 Cleland의 사설(editorial) [64]에서 더 논의된다.
8.2.1. Practice point (실무 포인트)
AI 도구는 생각을 정리하거나(organising thoughts) 심사 작업을 관리하는 데(managing review tasks) 유용하지만, 인간의 판단이나 비판적 평가(critical evaluation)를 대체할 수는 없다(cannot replace).
9. What will the future hold for AI disclosure? (AI 공개의 미래는 어떻게 될 것인가?)
AI 공개의 미래를 고려하기 위해(To consider the future), 우리는 과거를 반추해야 한다(must reflect on the past). 역사적으로(Historically), 교육에 새로운 기술의 도입(introduction of new technologies)은 파괴적이었으며(disruptive) 정책 변화(policy change)를 요구했다. 전자 계산기(electronic calculator), 그리고 이후 워드 프로세서(word processors), 스프레드시트(spreadsheets), 통계 패키지(statistical packages)의 채택(adoption)은 모두 적응 기간(adjustment periods)을 필요로 했다. 오늘날, 아무도 워드 프로세서 사용을 ‘선언(declare)’할 것으로 예상되지 않으며, 엑셀이나 SPSS 사용을 ‘선언’하는 것은 방법론적 보고(methodological reporting)의 일상적인 부분(routine part)이다. 그러나 새로운 교육 도구들(New educational tools)은 그 사용이 표준화(normalised)되기 전에 수용 기간(period of acceptance)을 필요로 한다. GenAI 도구들은 그러한 시기(such a period)에 있다. 그러한 이유로(For that reason), 출판사, 저널, 그리고 교육 기관들은 그 사용의 공개(disclosure)를 요구한다. 시간이 지남에 따라(Over time), 이것은 변할 것이다: 결국 공개는 최소화되거나(minimised) (SPSS나 질적 데이터 관리 소프트웨어 패키지 사용처럼) 일상적인 것(routine)이 되거나, (맞춤법 검사기처럼) 전혀 행해지지 않게(not done at all) 될 것이다. 그동안(Meanwhile), 학술 커뮤니티(scholarly community)는 명확성(clarity)과 투명성(transparency)을 제공하는 표준(standards)을 만들어야 하며, 동시에 이러한 표준들이 진화할 것이고(will evolve), 빠르게 변할 수도 있음(may do so quickly)을 인정해야 한다(acknowledging). 그러나 핵심 원칙들(take-home principles)은 그대로 남는다(remain). 그리고 우리 각자는 변화하는(shifting) 출판사, 저널, 기관 정책들에 대해 최신 정보를 유지해야 할(stay abreast of) 필요가 있다.
10. Call for research (연구 요청)
AI 사용에 대한 연구는 급격히 성장했으나(grown rapidly), AI 공개에 대한 경험적 연구(empirical work)는 여전히 제한적이다(remains limited). 현재까지(To date), 이 학문의 대부분은 [10,65]에서의 AI 공개 비율(rates)을 기록하거나(documenting) 편집 정책(editorial policies)을 목록화하는 것(cataloguing)에 초점을 맞춰왔다 [16,39]. 빠져 있는 것은(Missing) 기술(description)을 넘어 실제(in practice) AI 공개가 어떻게 작동하는지, 어떤 기능(function)을 수행하는지, 그리고 그것이 연구 진실성(research integrity), 저자 팀 규범(author team norms), 그리고 형평성(equity)을 어떻게 지원할 수 있는지 탐구하는 응집력 있는 탐구 프로그램(cohesive program of inquiry)이다.
기초적인 다음 단계(foundational next step)는 현재의 공개 행동(disclosure behaviour)을 이해하는 것일 수 있다.
- 연구자들은
- 저자들이 언제 그리고 왜 공개하기로(또는 안 하기로) 선택하는지,
- 어떤 세부 사항(details)을 포함할지 어떻게 결정하는지, 그리고
- 그들의 공개가 AI가 워크플로우(workflow)에 어떻게 관여했는지(factored into) 정확하게 묘사하는지를 기록할 수 있다.
- 그러한 연구들은 낙인에 대한 두려움(fear of stigma), 판단에 대한 우려(concerns about judgment), 또는 편집자와 동료 심사자 기대(expectations)에 대한 불확실성과 같이 공개에 영향을 미치는 사회적 및 문화적 역학(social and cultural dynamics)을 조사할 수 있다.
- 병행 분석(Parallel analyses)은 출판된 공개들의 완전성(completeness)과 명확성(clarity)을 조사하고, 독자, 편집자, 리뷰어들이 원고 평가(appraisal) 시 이 진술들을 쉽게 해석(readily interpret)하고 사용할 수 있는지 평가할 수 있다.
또한 학술적 의사소통(scholarly communication)의 인식(perception)에 미치는 공개의 효과를 조사할 필요가 있다. 예를 들어,
- 연구자들은 다양한 형태의 공개(different forms of disclosure)가 원고의 신뢰성(credibility), 엄격성(rigour), 독창성(originality)에 대한 이해관계자들의 인식(stakeholders’ perceptions)에 어떤 영향을 미치는지 탐구할 수 있다.
- 게다가(Additionally), 연구자들은 다양한 공개 형식(예: 서술적 공개(narrative disclosures) 대 구조화된 템플릿 공개(structured, templated disclosures)) 또는 위치(예: 방법 섹션 대 감사의 글)가 인식에 영향을 미치는지 조사할 수 있다.
또 다른 탐구 영역(area of inquiry)은 새롭게 등장하는 AI 특화 보고 지침(emerging AI-specific reporting guidelines)의 유용성(usefulness)과 영향력(impact)을 평가하는 것일 수 있다.
- GAMER [66]와 같은 AI 특화 표준들과 기존 가이드라인의 확장판(예: CONSORT-AI [67] 및 PRISMA-AI [68])이 인기를 얻음에 따라(gain popularity), 연구자들은 이러한 가이드라인들이 AI 도구가 연구 설계(study designs), 데이터 처리(data handling), 원고 준비(manuscript preparation)에 어떻게 통합되었는지를 묘사함에 있어 일관성(consistency), 명확성(clarity), 완전성(completeness), 투명성(transparency)을 지원하는지 평가할 수 있다.
미래 연구를 위한 핵심 우선순위(key priority)는 특히 HPER 맥락에서 공개의 형평성 시사점(equity implications)을 이해하는 것이다.
- 최근 한 연구는 HPER에서 AI 도구를 공개하는 저자의 상당한 비율(substantial proportion)이 글로벌 사우스(Global South) 국가 출신임을 발견했다. 이는 AI가 종종 제도적 지원(institutional supports)이 적고, 전문 교정 서비스(professional editing services)에 대한 접근성이 낮으며, 시간과 자원이 더 제한된 환경에서 일하는 연구자들에 의해 채택되고 있음을 강조한다 [10]. 따라서 공개 정책들은 다국어 학자들(multilingual scholars), 초기 경력 연구자들(early-career researchers), 그리고 정식 AI 훈련이나 인프라가 없는 기관의 연구자들에게 불균형적으로 부담(disproportionately burden)을 줄 잠재력이 있는지 검토되어야 한다.
- 연구들은 엄격하거나 모호한(strict or ambiguous) 공개 기대치가 AI에 더 능숙하거나(more AI-fluent) 자원이 풍부한 환경(well-resourced environments)에 기반을 둔 저자들에게 특권을 줌으로써(privileging) 기존의 불평등(inequities)을 악화시킬(exacerbating) 위험이 있는지 탐구해야 한다. 이러한 역학을 이해하는 것은 학술 출판에서 구조적 격차(structural disparities)를 영속화하지 않으면서(without perpetuating) 투명성을 증진하는 공개 규범(disclosure norms)을 개발하는 데 중요할 것이다(crucial).
10.1. Practice point (실무 포인트)
기술(description)을 넘어 실제 AI 공개가 어떻게 작동하는지, 어떤 기능(function)을 수행하는지, 그리고 그것이 연구 진실성, 저자 팀 규범, 형평성을 어떻게 지원할 수 있는지 탐구하는 응집력 있는 탐구 프로그램(cohesive program of inquiry)이 필요하다.
11. Conclusion (결론)
요약하자면(In summary), GenAI는 의심할 여지 없이 학술적 글쓰기 과정을 향상시킬 수 있지만(enhance), 그 사용과 공개는 주의 깊게(with care) 접근되어야 한다. 저자, 리뷰어, 편집자들이 특히 AI가 관련되었을 때 학문적 진실성(academic integrity)을 유지하는 데 있어 경계를 늦추지 않는 것(remain vigilant)이 필수적이다(essential). 저자들은 AI 생성 콘텐츠의 정확성(accuracy)과 적절성(appropriateness)을 검증하여, 그것이 자신의 작업의 독창성(originality)이나 타당성(validity)을 훼손하지 않도록(does not compromise) 보장해야 한다.
종합적으로(Collectively), 우리는 투명성, 책무성, 윤리적 연구 관행을 증진하는 공통 표준(common standards)을 확립하는 것이 중요하다고 믿는다. 이를 통해 지식 생산(knowledge production)을 책임감 있고 엄격하게(responsibly and rigorously) 발전시키는 방식으로 기술 혁신(technological innovation)에 대한 우리 분야의 대응(response)을 형성해야 한다. 이러한 표준과 가이드라인들은 실용적이고(practical), 저자들이 이행하기 쉬워야 하며(easy for authors to implement), 준수(compliance), 완전한 공개(full disclosure), 그리고 진실성(truthfulness)을 장려하도록 설계되어야 한다. 마지막으로, 각 연구자와 연구 팀은 과학적 진실성(scientific integrity)을 옹호하는(uphold) 방식으로 사용과 공개를 보장하면서, 보급(dissemination)과 동료 심사를 포함한 연구 과정에 GenAI를 가장 잘 통합(integrate)할 방법을 고려해야 한다.
'논문 읽기 (with AI)' 카테고리의 다른 글
| 의과대학의 사회적 책무성 재정의: 규범과 계약을 넘어 기여 측정으로 (Med Teach. 2026) (0) | 2026.01.12 |
|---|---|
| 단순화할 것인가, 계층화할 것인가? 의과대학 성적 평가 제도를 둘러싼 논쟁 (N Engl J Med. 2025) (0) | 2026.01.10 |
| 보건의료 전문가 교육의 공동 창작에서의 인공지능의 역할: 혁신을 협력에 통합하기 AMEE Guide No. 190 (Med Teach. 2025) (0) | 2026.01.10 |
| 전문직 정체성 형성: 핵심 기여 요인 및 치대생들의 고민 (J Dent Educ. 2022) (1) | 2026.01.01 |
| 임상가에서 교육자로 전환하는 치과대학 신임 교원의 경험 (J Dent Educ. 2024) (0) | 2026.01.01 |