의학교육에서 가장 흔하게 쓰이는 평가 방법 중 하나가 객관식 문항(MCQ, Multiple Choice Question)이죠. 그런데 이 문항을 만드는 건 생각보다 꽤 어렵고 시간도 많이 듭니다. 그래서 요즘 많은 의학교육자들이 궁금해합니다.
🤖 “AI가 객관식 문항을 만들어줄 수 있다면 얼마나 좋을까?”
이 질문에 답하고자, 호주 애들레이드 대학교 연구진은 GPT-4가 생성한 MCQ의 구조적 품질(structural quality)이 과연 전문가와 비슷한 수준인지 본격적으로 비교해봤습니다.
🔍 연구는 어떻게 했을까?
연구진은 총 125개의 객관식 문항을 비교했습니다.
40개는 GPT-4가 만든 문항
40개는 의대생이나 전공의 같은 초심자(novice)가 만든 문항
45개는 의학교육 전문가들이 만든 문항
각 문항에는 보기 5개와 해설까지 포함되어 있었고, 내용의 정확성(content validity), 문항 구성(item anatomy), 인지 수준(cognitive skill level) 같은 기준으로 꼼꼼히 평가했어요.
💡 연구진의 주요 발견은?
연구팀은 다음과 같이 말합니다:
"GPT-4 is capable of producing comparable quality items in most instances and outperforms human novices in this task." GPT-4는 대부분의 경우에서 전문가와 비슷한 수준의 문항을 만들 수 있었고, 초심자보다는 더 나은 성과를 보였다.
그리고,
"These findings indicate that the quality of AI-generated MCQs are on the whole satisfactory, indicating their validity." AI가 만든 객관식 문항은 전반적으로 만족스러운 수준이며, 평가의 타당성도 갖추고 있다.
✅ 특히 주목할 만한 점
GPT-4가 만든 문항 중 85%는 소폭 수정만으로도 사용 가능
95%는 고차원적 인지 기능(higher-order cognitive skills)을 평가할 수 있는 수준
내용 타당도(content validity) 평균 점수: 3.7/4
문항 구성(item anatomy) 평균 점수: 3.9/4
👀 이런 수치는 GPT-4가 생각보다 "진짜 잘 만든다!"는 걸 보여주는 결과입니다.
⚠️ 하지만 이런 한계도 있었어요
연구진은 GPT-4가 만든 문항 중 약 15%는 ‘대폭 수정 없이는 사용 불가능’하다고 평가했습니다.
또한,
정답이 잘못된 문항도 7개 중 1개 비율로 있었고
정답이 C번 보기로 쏠리는 편향(middle bias)도 나타났어요.
"1 in 7 AI-generated items were deemed unfit for use without major edits... and almost half (45%) had correct answers default positioned as option C."
이건 AI가 기존에 학습한 편향된 자료를 그대로 반영했을 수 있다는 걸 의미하죠.
🎓 교육적으로 어떤 의미가 있을까?
연구진은 GPT-4의 해설(explanatory feedback)이 학습에 도움이 될 수 있다고 봅니다.
"Explanatory feedback to MCQs may enhance the acquisition or consolidation of contextualized knowledge and clinical reasoning for learners, functioning as a ‘virtual teaching assistant’."
즉, GPT-4가 만든 해설은 학생들에게 ‘가상의 튜터’처럼 작용해서, 임상 추론(clinical reasoning)을 돕고 맥락 있는 지식을 정리하는 데 기여할 수 있다는 것이죠.
"This AI-human interaction in MCQ generation can be conceptualized as a ‘sandwich’ approach."
이런 식의 협업이라면, 기존 방식 못지않게 좋은 품질의 문항을 만들 수 있다는 거죠.
🧭 앞으로의 연구 방향은?
앞으로는…
GPT-4 말고 다른 LLM들도 비교해보기
임상 이미지를 포함한 문항 설계 실험
AI 해설이 실제 학습에 미치는 영향 분석
AI에게 핵심 학습 포인트(key learning point)를 생성하게 해보기 등
다양한 연구가 가능하다고 합니다.
🧩 마무리 정리
이 논문은 우리에게 이렇게 말해줍니다:
🎯 AI는 객관식 문항 작성에서 전문가에 근접하는 결과를 낼 수 있다. ⚠️ 하지만 검토 없이 쓰기엔 아직 이르다. 전문가의 개입은 여전히 필수!
GPT-4는 강력한 도구가 될 수 있지만, AI와 인간이 협력하는 방식을 고민하고 설계하는 게 의학교육자들의 몫인 시대가 온 것 같습니다.
서론 (Introduction)
의학교육에서 객관식 문항(MCQ, Multiple Choice Question)은 매우 일반적으로 사용되는 평가 방식이며, 폭넓은 내용을 효율적으로 평가할 수 있으며, 잘 설계된 경우 고차원적 인지 능력도 주관식 형식만큼 효과적으로 평가할 수 있다¹⁻³. 그러나 고품질의 맥락 중심 문항을 제작하기 위해서는 전문가의 시간과 전문성이 상당히 요구되며, 이로 인해 최신화된 평가 문항 은행을 개발하고 유지하는 것은 기관에 지속적인 도전과제가 된다. 문항 부족은 종종 교수진이 이전 문항을 그대로 재사용하게 만들고, 이는 학생들이 개념적 이해보다는 암기 위주의 학습 전략을 택하도록 영향을 미칠 수 있다⁴⁻⁵. 또한 문항 작성 결함(IWFs, Item-Writing Flaws)이 있는 저품질 문항의 사용은 평가의 타당성을 저해할 수 있으며⁶⁻⁷, 때로는 우수한 성취를 보이는 학생에게 더 큰 불이익을 줄 수 있다⁸.
표준적인 평가 문항 제작 절차는 본질적으로 많은 자원을 소모하며, 산출물의 품질도 기관에 따라 크게 다르다. 교수 대상의 목표 기반 연수⁹⁻¹⁰나 동료 간 검토¹¹⁻¹² 같은 근거 기반 개입은 문항의 질을 높일 수 있지만, 동시에 자원 소모를 더 키운다. 이러한 한계는 대규모 문항 생성을 위한 대안적 접근을 탐색하게 만들었으며, 학생 작성자(student authors)의 활용¹³⁻¹⁴나 최근에는 인공지능(Artificial Intelligence, AI) 활용으로 이어지고 있다.
대형 언어 모델(LLM, Large Language Model)은 방대한 양의 텍스트를 학습한 인공신경망 기반 AI로서, 콘텐츠 생성 등 자연어 처리 작업을 수행할 수 있다. 특히 OpenAI의 ChatGPT(Chat Generative Pre-trained Transformer) 공개 이후, LLM의 기능과 활용에 대한 관심이 급증하였고, 이는 점점 더 많은 연구로 이어지고 있다. 의학교육 분야에서도 LLM이 의학 관련 시험의 객관식 문항을 얼마나 잘 푸는지에 대한 연구가 활발히 진행되고 있으며¹⁵⁻¹⁷, 이 외에도 AI를 활용한 MCQ 문항 생성이 평가 콘텐츠 개발의 어려움을 해결하려는 매우 매력적인 방안으로 주목받고 있다.
그러나 어떠한 신기술도 실제로 활용되기 전에는 철저한 검증 과정이 필수적이며, 특히 평가가 학습자 역량 검증과 자격 부여에 핵심 역할을 하는 의학교육에서는 더욱 그러하다. MCQ 평가의 타당성은 구조적(structural) 및 심리측정학적(psychometric) 분석을 통해 평가할 수 있다.
구조적 특성에는 인지 복잡성, 문항 작성 오류(IWF), 문항의 구성 등이 포함되며,
심리측정적 특성에는 문항 난이도, 변별도, 오답 선택지의 효율성 등이 있다.
AI 기반 문항의 평가 타당성에 대한 근거는 아직 초기 단계다. 초기 연구들은 ChatGPT를 활용한 MCQ 생성의 가능성을 탐색했지만, 연구 방법과 질이 다양하고 문항의 질에 대한 결과도 일관되지 않다¹⁸. 특히 구조적 특성에 대한 평가는 제한적이며 일관되지 않게 수행되어 왔다. 최근 Kiyak과 Emekli는 ChatGPT 기반 MCQ 문항의 타당성을 '프롬프트 엔지니어링(prompt engineering)'의 관점에서 검토한 신속 검토(rapid review)를 수행하였다¹⁹. 프롬프트 엔지니어링이란 사용자 입력을 반복적으로 조정해 LLM의 응답을 최적화하는 과정으로, AI 생성 콘텐츠의 질에 영향을 주는 중요한 요소로 알려져 있다²⁰⁻²¹.
프롬프트 구성은 매우 다양하게 이루어져 왔으며, 입력 텍스트의 길이와 성격에서도 차이가 크다. 예를 들어, Klang 등²²은 ChatGPT-4에 실제 시험 전범위를 입력하여 210개의 문항을 생성하였고, 전문 임상의가 이 문항들이 AI가 만든 것임을 모른 채 평가한 결과, 약 15%는 구조적 수정이 필요했으며(외과는 30%, 정신과는 0%), 한 문항(0.5%)은 완전히 무효하다고 판정되었다. 반면 Ayub 등²³은 ChatGPT-3.5로 생성된 40개의 피부과 문항 중 60%가 정확성, 복잡성, 명확성의 문제로 인해 시험에 적합하지 않다고 평가하였다.
AI 생성 문항의 정확성에 문제를 일으키는 주요 요인 중 하나는 바로 ‘환각(hallucinations)’이다. 이는 LLM이 실제 존재하지 않는 정보나 잘못된 내용을 마치 사실인 것처럼 그럴듯하게 생성하는 현상을 의미한다. 보건의료처럼 안전이 매우 중요한 분야에서 이러한 오류는 용납될 수 없으며, 심각한 위험을 초래할 수 있다²⁴.
AI가 생성한 객관식 문항(MCQs)의 질을 평가한 연구들은 평가 방법에서도 큰 다양성을 보인다. Kiyak과 Emekli는²⁹ 다음과 같이 다양한 접근법이 사용되었음을 보고했다. 예를 들어, 비공식적 검토부터 시작해서, 2~6명의 평가자 패널이 참여하는 전문가 평가까지 포함되며, 평가자들은 AI 생성 여부에 대해 블라인드 또는 비블라인드 상태로, 정성적 기준 또는 사전 정의된 평가 기준을 사용하였다. 대부분의 연구들은 정확성과 문항을 실제 시험에 사용 가능하도록 만들기 위해 필요한 수정 정도에 초점을 맞추었으며, 인지적 수준, 구조적 결함, 문항 구성요소 등은 덜 빈번하게 검토되었다. 예를 들어, Ngo 등²⁵은 AI가 생성한 면역학 문항 60개를 자체 정의한 정확성과 편집 기준을 바탕으로 평가하였으며, 전체의 68%가 부정확하거나, 오해의 소지가 크거나, 상당한 수정이 필요하다고 판정되었다. 이에 반해, Rezigalla²⁶는 전문가들이 문항작성 가이드라인에 기초한 8문항 체크리스트를 사용해 AI 생성 문항을 평가한 결과, 전체적인 문항 질이 ‘좋음’에서 ‘우수함’ 사이에 해당한다고 결론지었다.
문항의 복잡성(complexity)을 어떻게 고려할 것인가에 대해서도 연구들 간 이질성이 매우 크다. 복잡성은 AI 문항 생성 결과에 영향을 미치는 잠재적 요인으로 간접적으로 언급되어 왔지만, 체계적으로 평가된 바는 드물다. 예를 들어, Benitez 등²⁷은 AI가 생성한 USMLE 스타일의 문항이 일반적으로 ‘낮은 수준(low-order)’의 복잡성을 가진다고 보고했으며, Doggett 등²⁸도 예과 및 임상 학생 대상 문항 200개를 분석한 결과 유사한 경향을 확인하였다. 다른 연구들 역시 임상 추론이 요구되는 고차원 문항 생성이나²⁵, 전공의 수준(postgraduate level)에 적합한 문항 생성에서 AI가 한계를 드러낸다고 보고하였다²³. 이러한 결과는 AI 생성 MCQ가 사용자 프롬프트의 구성, 주제 내용, 인지적 복잡성, 평가 방식 등에 따라 질이 크게 달라질 수 있음을 보여준다.
더불어, 현재까지는 AI가 생성한 문항과 인간이 생성한 문항 간의 구조적 특성을 직접 비교한 연구는 거의 없다. Cheung 등²⁹은 ChatGPT와 교수진이 각각 작성한 문항 50개씩을 사용해 블라인드 전문가 평가를 실시하였으며, 문항의 적절성, 명확성, 관련성, 변별력, 대학원 수준 적합성에 대해 유사한 평균 점수를 보였다고 보고하였다. 그러나 개별 항목별 비교에서는 인간이 작성한 문항이 대체로 우세하였고(누적 평점 기준으로 60%에서 우위), AI 문항은 항목별 점수의 변동성이 더 컸다. 반면 Coskun 등³⁰은 ChatGPT와 인간이 각각 작성한 임상 사례(clinical vignettes)를 평가하기 위해 학생들에게 10개의 문항에 대해 리커트 척도로 응답하게 하였고, 양 그룹 모두 유사한 문항 질을 보였다고 보고하였다.
이러한 연구들은 AI가 생성한 문항을, 문항작성 경험이 있는 교수급 전문가들이 만든 문항과 비교하고 있으며, 인간 생성 문항 중에서도 학생이 만든 문항은 인지적으로 도전적인 요소를 가질 수 있다³¹는 점이 알려져 있으나, 전체적인 질은 교수 문항과 차이를 보인다¹³. 그러나 AI가 생성한 문항이 초심자(novice)와 전문가(expert) 문항 작성자 사이에서 어느 위치에 놓이는지는 아직 불분명하다.
AI 기반 MCQ 콘텐츠는 학생들의 학습을 지원하는 도구로도 잠재력을 지닌다. 최근 부상하는 활용 중 하나는, 교수가 작성한 MCQ에 대해 AI가 해설을 제공하는 방식으로, 이 해설이 충분히 정확하다면 학생들에게 유용한 학습 도구가 될 수 있다³². 하지만 특히 복잡도가 높은 MCQ에서 AI 해설이 임상적 추론을 제대로 포함하고 있는지를 평가하는 후속 연구가 필요하며, 이를 통해 교육적 활용 가능성을 검토해야 한다.
지금까지의 근거들을 종합해보면, AI가 생성한 의학 MCQ의 구조적 질에 대한 이해에는 상당한 공백이 존재함을 알 수 있다.
첫째, MCQ의 구조적 질을 포괄적으로 평가할 수 있는 검증된 표준화 프레임워크가 존재하지 않는다. 이는 아마도 MCQ가 다양한 맥락에서 다르게 사용된다는 특성 때문일 수 있으며, 보편적 기준을 설정하기 어렵게 만든다. 예를 들어, 임상의학에서는 맥락이 풍부한 문항(context-rich items)이 고차원적 임상 추론을 평가하기 위해 설계되지만, 기초의학에서는 기억 기반 문항이 주를 이루는 경향이 있으며, 이는 문항의 구성요소에 부여되는 상대적 중요도(weighting)에도 영향을 미친다.
둘째, AI 문항 연구들 대부분은 문항이 저복잡도 또는 고복잡도 개념을 평가하는지에 따른 구조적 평가를 구분하지 않는다. 그러나 의학교육에서는 고차원적 역량을 평가하기 위해 복잡한 시나리오 또는 임상 사례 기반 문항이 일상적으로 사용되며, 이와 관련해 AI가 생성한 문항과 해설이 자격검증(certificate) 또는 학습 목적으로 어느 정도 역할을 할 수 있는지를 집중적으로 탐구해야 한다.
마지막으로, AI 문항과 인간 전문가/교수진 문항의 구조적 특성을 비교한 연구가 부족하다. 특히 AI 기반 MCQ 연구에서는 프롬프트 구성 방식과 참고자료 사용 여부 등 입력 조건이 크게 다양하며, 그 결과로 산출물의 질도 일관되지 않다. 이러한 공백을 고려하여, 본 연구는 임상적으로 복잡한 AI 생성 MCQ의 구조적 특성에 대한 문헌의 부족을 해결하고자 하며, 학부 수준 의학 자격검정에 해당하는 폭넓은 의학 전공 분야를 포괄적으로 탐색하고자 한다. 이러한 구조적 특성에 대한 깊이 있는 이해는 AI 생성 MCQ가 인간이 만든 문항과 어떻게 비교될 수 있는지를 규명하고, 궁극적으로는 AI가 실제 의학 평가 현장(예: 문항 생성)에 어떻게 통합될 수 있을지를 결정하는 데 기여할 수 있을 것이다.
연구 목적 (Aim) 임상적으로 복잡한 객관식 문항(clinically complex MCQs)과 그에 대한 해설 문항(explanatory feedback)의 구조적 질(structural quality)을 인간(초심자 및 전문가 수준의 문항 작성자)과 Generative Pre-trained Transformer 4(GPT-4)가 작성한 문항 간에 평가하고 비교하는 것이 본 연구의 목적이다.
연구 질문 (Research Question) GPT-4가 생성한 임상적으로 복잡한 MCQs 및 해설 문항의 구조적 질은, 초심자(novice) 및 전문가(expert) 수준의 인간 작성자와 비교할 때 어떠한가?
자료 및 방법 (Materials and Methods) 이 연구는 혼합 방법론(mixed-methods)을 사용하여 AI가 생성한 MCQs의 구조적 질을 인간이 작성한 문항과 비교하여 비판적으로 평가하고자 수행되었다. AI 문항은 전향적으로(prospectively) 생성되었으며, 인간 작성 문항은 기존 문항 은행에서 후향적으로(retrospectively) 추출되었다. 사용된 방법에 대한 개요는 그림 1(Figure 1)의 플로우차트(flowchart)에 요약되어 있다.
그림 1. 본 연구에서 사용된 방법 요약 플로우차트 (Figure 1. Flowchart summary of method used in this study)
문항 구조 및 시험 계획표(test blueprint) 구성 문항 형식은 단일 정답형(single-best-answer) 객관식 문항으로 구성되었으며, 각 문항은 다음과 같은 구성요소를 포함하였다:
맥락이 충분히 제시된 문제 제시문(contextual stem)
질문(question)
5개의 선택지(options) (정답 표시 포함)
정답과 오답에 대한 논리를 서술하는 해설(explanatory text)
표준 MCQ에서는 해설 문항이 필수적으로 포함되지 않기 때문에, 해설은 다른 문항 구성 요소와 분리되어 별도로 평가되었다.
특정 분야의 심화보다는 다양한 의학 분야의 폭넓은 주제 포괄을 우선시하였는데, 이는 졸업 시점의 의대생이 접하게 될 의학 내용의 단면을 반영함으로써 문항 샘플의 타당도(validity)를 높이기 위한 전략이었다. 이를 위해 의학(Medicine), 외과(Surgery), 소아과(Pediatrics), 여성 건강(Women’s Health), 정신과(Psychiatry), 공중보건(Population Health), 일반진료(General Practice)를 포함하는 균형 잡힌 콘텐츠 범위를 보장하도록 시험 계획표(test blueprint)를 설계하였다.
총 125개의 문항이 포함되었으며, 그 구성은 다음과 같다:
GPT-4가 생성한 문항: 40개
초심자 수준 인간 작성자 문항: 40개
전문가 수준 인간 작성자 문항: 45개
전문가 문항이 상대적으로 더 많이 포함된 이유는, 향후 모의시험(mock examination)에서 사용할 문항을 선별하기 위해, 일정 수준 이상의 문항만 포함되도록 여유분(redundancy)을 확보하기 위한 목적이었다. 시험 계획표의 발췌 내용은 부록 1(Appendix 1)에 제시되어 있다.
표준화된 평가 기준 개발 (Development of a standardized scoring system) MCQ의 구조적 질을 포괄적으로 평가할 수 있는 공인된 평가 체계가 발표된 바 없기 때문에, 본 연구에서는 인간 및 AI 문항을 일관성 있게 평가하기 위한 표준화된 평가 체계(채점 기준, rubric)를 전문가 패널이 개발하였다. 이 체계는 다음과 같은 문헌들을 바탕으로 구성되었다:
정확성과 수정 여부를 기준으로 MCQ의 구조적 질을 평가한 기존 연구들¹⁷⁺²⁵⁺²⁹⁺³³
총 6명의 저자 패널은 교육, 문항 작성, 임상의학, 기술에 걸친 전문성을 갖추고 있다:
HW, SCK, PD는 의과대학 교수이며
DL, EP는 교육학 교수이다.
HW, TZ, SCK, PD는 모두 의사(medical doctors)이고
TZ는 소프트웨어 개발자이기도 하다.
모든 저자들은 의학 또는 고등교육 분야에서의 문항 작성 경험을 갖고 있다.
개발된 채점 기준(rubric)은 다음 요소들을 포함하였다:
내용 타당도(content validity): 사실 정확성, 현실성과의 일치(fidelity and realism) 포함
문항 범위(scope)
문항 구성의 적절성(item anatomy)
특정 문항 작성 오류(IWFs)
인지 기능 수준(cognitive skill level)
이 루브릭은 수정된 블룸의 인지분류체계(modified Bloom’s taxonomy)와 문항 작성 지침(item-writing guidelines) 등 근거 기반 프레임워크(evidence-based frameworks)에 근거하여 구성되었으며³⁴, 표 1–3(Tables 1–3)에 제시되어 있다. 또한, 졸업시험에 사용할 수 있을 정도로 문항이 적절한지 여부를 판단하는 전반적 인상(global impression) 기준도 포함하였다.
이와는 별도로 각 문항의 해설 텍스트(explanatory feedback)에 대해서는 임상 추론을 포함한 정보의 충실도(comprehensiveness), 사실성(veracity), 논리적 연결성(articulation of clinical reasoning)을 기준으로 이차 평가(secondary evaluation)를 수행하였다. 패널은 각 평가 요소별 점수를 독립적으로 산정하는 방식이 가장 적절하다고 판단하였으며, 총점으로 환산하거나 가중치를 부여하지 않기로 결정하였다. 이 루브릭은 이후 GPT-4 산출물의 다양성(Variability of GPT-4 outputs) 항목에서 설명하는 샘플 문항을 통해 파일럿 테스트되었다.
인간이 작성한 MCQs – 초심자(Novice)와 전문가(Expert) “Human-generated MCQs – Novice and Expert”
총 85개의 인간 작성 객관식 문항(MCQ)은 호주의 상업용 의학교육 제공업체인 eMedici2 Pty Ltd(Adelaide, Australia; https://emedici.com)에서기존에 구축된 콘텐츠 은행에서 확보되었다. 해당 콘텐츠는 의과대학생 및 전공의(junior doctors)가 제출한 문항을 바탕으로 하며, 동료 평가(peer review), 전문가 임상의 평가, 편집 승인이라는 절차를 거쳐 채택된다. 문항 제출 당시, 작성자들에게는 스타일과 문항 구성요소(item anatomy)에 대한 지침이 포함된 자세한 문항 작성 가이드라인이 제공된다.
문항 은행의 모든 항목은 의학 분야, 주제(topic), 인지 기능 수준(cognitive skill level)에 따라 수정된 블룸 분류체계(modified Bloom’s taxonomy)를 기준으로 미리 분류되어 있으며, 이러한 분류 기준에 따라 고차원적 인지 기술(higher-order cognitive skills)을 평가하는 문항만 본 연구에 포함될 수 있었다. 각 문항은 주제에 기반하여 무작위로 선택되었고, 이 과정에서 두 명의 연구자가 문항의 실제 내용을 블라인드 상태로 유지하였다.
85개의 인간 문항 중 40개는 편집 과정이나 동료 검토를 거치지 않은 문항으로, 문항 작성 초심자(Novice) 수준으로 분류되었고, 45개는 전문가(subject matter expert)의 편집 또는 승인을 거친 것으로, 전문가(Expert) 수준으로 분류되었다. 이러한 문항들은 본 연구의 시작 시점 이전에 이미 작성된 것이기 때문에, 연구 참여자에게 ‘연구 목적으로 문항을 생성해달라’고 지시하는 경우 발생할 수 있는 잠재적 편향(bias)을 줄일 수 있다는 장점이 있다. 각 그룹 간의 문항 주제 영역은 일치시켜 구성하였다.
이 연구에서 사용된 MCQ들은 향후 연구 참여자를 대상으로 한 모의시험(mock examination)에서 문항의 심리측정학적 특성(psychometric characteristics)을 평가하는 데 사용될 예정이었으며, 이는 본 연구에서 AI, 초심자, 전문가 문항을 총 125개로 분석하는 실용적 결정을 뒷받침한 배경이다.
AI가 생성한 MCQs AI-generated MCQs
본 연구에서는 GPT-4 (모델 번호: gpt-4-0125-preview)를 사용하였으며, 이는 Massive Multi-task Language Understanding 벤치마크에서 우수한 성능을 보인 모델로 보고되었기 때문이다³⁵. 문항 생성은 프롬프트(prompt)와 핵심 학습 포인트(key learning point)를 기반으로 사전 구성된 스크립트를 GPT-4에 적용하여 비감독 방식(unsupervised fashion)으로 생성되었다.즉, AI가 생성한 문항에 대해 이후 인간이 개입하거나 반복 수정(iteration)을 하지 않았으며, 모든 연구 저자는 생성된 문항의 내용을 블라인드 상태로 유지하였다.
프롬프트 엔지니어링 (Prompt Engineering)
GPT-4를 위한 맞춤형 프롬프트(prompt) 구성은 앞서 언급한 6인 전문가 패널(author team)이 진행한 3회의 참조 집단 회의(reference group meetings)를 통해 이루어졌다. 목표는 GPT-4가 고차원적 인지 기능을 평가하는 구조적으로 완성도 높은 문항을 생성할 수 있도록 설계된 범용 템플릿(generic prompt template)을 개발하는 것이었으며, 다양한 학습 포인트나 문항 주제에 손쉽게 적용할 수 있도록 인간 개입을 최소화하는 방향으로 제작되었다.
프롬프트는 반복적으로 개선되었으며, 각 출력 결과에 대해 주관적 평가를 거쳐 질이 최고 수준(ceiling point)에 도달할 때까지 조정되었다. 최종 프롬프트 템플릿에는 다음과 같은 항목이 포함되었다:
MCQ의 맥락(setting)과 대상 학습자(target audience)에 대한 정보
기본적인 문항 구성 요건(item anatomy)을 충족하기 위한 임상 시나리오의 포함 및 제외 요소
문항 작성 오류(IWFs)를 피하기 위한 조언 (Haladyna 외의 문항 작성 가이드라인 전체 분류체계에 근거하며, 표 3(Table 3)에 제시됨)
질문 선택지의 수 및 오답 선택지(distractors)에 대한 지침
정답 및 오답에 대한 임상적 추론(clinical reasoning)을 포함한 해설 작성 지침
최근 동료심사(peer-reviewed) 논문에 대한 인용 요청
다양한 의학 주제를 아우르는 고품질 MCQ 5개의 예시
문항 주제(topic)가 포함된 사실 진술 형태의 핵심 학습 포인트 (시험 계획표 Appendix 1과 일치)
GPT-4 출력의 다양성과 평가 기준 파일럿 테스트 (Variability of GPT-4 Outputs and Piloting of Standardized Scoring System)
GPT-4 인터페이스에는 ‘temperature’라는 입력 변수(parameter)가 있으며, 이는 생성된 텍스트의 창의성과 다양성 정도를 조절하는 요소다. 이 값은 0부터 2까지 범위를 가지며, 값이 낮을수록 출력이 더 일관성 있게 생성된다.현재까지는 의학 MCQ 생성에 이상적인 temperature 값이 무엇인지 밝혀지지 않았으며³⁶, 이는 교육 맥락에 따라 다를 가능성이 있다.
본 연구의 재현성을 극대화하기 위해 temperature 값은 0.0으로 설정하였다. 이를 바탕으로 출력의 예측 가능성을 확인하기 위해, 6개의 학습 포인트에 대해 프롬프트 수정을 하지 않고 연속으로 3개의 출력을 생성하였다. 이렇게 생성된 총 18개 문항은 우선 5인의 연구진 합의 패널에 의해 루브릭(rubric)을 사용하여 평가되었다. 이후 6번째 연구자(SCK)가 독립적으로 점수를 다시 검토하였다. 이 절차는 루브릭 사용에 대한 평가자 훈련(rater training) 역할도 수행하였다. 채점 상의 차이점은 토의를 통해 해결하였으며, 그 결과는 부록 2(Appendix 2)에 제시되어 있다.
GPT-4 생성 문항에서 인용된 참고문헌의 진위 여부 평가 (References)
GPT-4가 생성한 해설에서 제시된 참고문헌의 진위(veracity) 역시 위에서 설명한 ‘출력 다양성 테스트’ 문항 18개를 대상으로 평가되었다. 각 문헌은 다음의 기준에 따라 평가되었다:
문헌이 실제 존재하며(real), 해당 MCQ와 관련성이 있고(relevant), 형식이 갖춰져 있으며(formatted), 동료심사를 거쳤는지(peer-reviewed).
평가는 1점(기준을 전혀 충족하지 않음)부터 4점(기준을 완전히 충족함)까지의 4점 척도로 이루어졌으며, 문헌 내의 구체적 오류도 별도로 문서화되었다.
AI 및 인간이 작성한 모든 문항은 통합(pooling)된 뒤, 문항의 출처를 블라인드 처리한 상태에서 사전 정의된 채점 기준표(scoring rubric)에 따라 무작위 순서(random order)로 5인의 합의 패널(consensus panel)이 평가하였다. AI 문항은 사전 검토나 반복 수정(iteration) 없이 원본 그대로(de novo) 사용되었고, 초심자(Novice) 및 전문가(Expert) 문항에 대해서도 연구 과정 중 추가적인 검토는 이루어지지 않았다. 중복 문항 1개는 확인되어 분석에서 제외되었다.
평가 패널은 각 문항의 루브릭 개별 기준 항목에 대해 전문가적 판단(expert judgment)을 바탕으로 채점하였다. 본 연구에서 사용된 초심자, 전문가, AI 생성 문항의 예시는 부록 3(Appendix 3)에 제시되어 있다.
같은 전문가적 판단 기준은 전반적 인상(global impression) 항목에서도 적용되었으며, 다음과 같이 네 가지로 구분하여 평가되었다:
즉시 사용 가능(fit for use)
소폭 수정 필요(minor revision)
대폭 수정 필요(major revision)
복구 불가능(unsalvageable)
각 등급에 해당하는 문항 예시는 부록 4(Appendix 4)에 수록되어 있다. 채점상의 이견은 패널 간의 구두 토론(verbal discussion)을 통해 조율되었다.
윤리 승인 (Ethics Approval) 이 프로젝트는 애들레이드 대학교 인간 연구 윤리위원회(University of Adelaide Human Research Ethics Committee)로부터 승인(HREC-2023-285)을 받았다.
자료 분석 (Data Analysis) 이 연구에서는 식별 가능한 데이터(identifiable data)가 포함되지 않았다. 문항 질을 평가한 평균 점수는 작성자 유형별(author type)로 비교되었으며, ANOVA 분석 후 사후 검정(post-hoc tests)으로 Bonferroni 또는 Tamhane 방식을 사용하였다. 분산이 2배 이상 차이날 경우에는 Tamhane 검정을 적용하였다. 다음과 같은 지표의 분포가 백분율(%)로 요약되어 제시되었다:
전반적 인상 점수(global impression scores) (해설 포함 및 제외 모두 분석)
문항 작성 오류(IWFs)
인지 기능 수준(cognitive skill level)
정답의 위치와 식별 정확도
참고문헌의 질적 평가 결과
정답 위치의 분포 차이 분석에는 독립 비율 검정(independent proportions test)이 사용되었으며, 통계적 유의성 수준은 p < 0.05로 설정되었다.
결과 (Results)
문항 질 평가 – 개별 구조적 특성 (Item Quality Evaluation – Individual Structural Characteristics)
문항의 출처별(초심자, 전문가, AI) 점수화 결과는 그림 2(Figure 2)에 요약되어 있다. 초심자 항목 중 중복된 문항 1개가 분석 전에 확인되어 제외되었으며, 초심자 집단에서는 총 39개 문항이 분석되었다.
그림 2. 작성자 집단별 문항 질 점수 요약 및 데이터 표 (Figure 2. Item quality scores by author group, with data table)
전문가(Expert)가 작성한 문항은 대부분의 항목에서 초심자(Novice) 문항보다 우수한 것으로 평가되었으며, ‘문항 범위의 적절성(scope)’과 ‘해설의 충실도(comprehensiveness of explanatory text)’에서는 세 그룹 간 차이가 없었다. 전문가 문항은 내용 타당도(content validity) 평균 점수에서 AI 문항보다 다소 우위(3.98 vs 3.73, p < 0.001), 인지 기능 수준(cognitive skill level) (2.58 vs 2.25, p < 0.05), 해설의 사실성 및 임상 추론(veracity and clinical reasoning in feedback text) (3.96 vs 3.65, p < 0.001)에서 통계적으로 유의한 차이를 보였다. 반면, 문항 구성(item anatomy), 문항 범위(scope), 문항 작성 오류(IWF) 수, 해설의 충실도에서는 유의미한 차이가 없었다.
AI 문항은 문항 작성 오류 수(IWFs)에서 초심자 문항보다 다소 우수한 결과를 보였다 (0.80 vs 1.33, p < 0.05). 그 외 항목에서는 두 집단 간 유의한 차이는 관찰되지 않았다.
문항 질 평가 – 전반적 인상 (Global Impressions)
문항 구조에 대한 전반적 인상(global impression) 점수는 그림 3(Figure 3)에 요약되어 있으며, 각 점수는 빈도(n) 및 백분율(%)로 제시되었다.
그림 3. 집단별 문항 구조의 전반적 인상 점수 요약 및 데이터 표 (Figure 3. Summary of global impression scores for item structure, by group, with data table)
해설을 제외하고 분석한 경우, 전문가 문항의 95.5%가 사용 가능하거나 소폭 수정 후 사용 가능으로 평가되었고, AI 문항은 85%, 초심자 문항은 61.5%가 해당되었다. ‘복구 불가능(unsalvageable)’로 평가된 문항은 초심자 문항에만 포함되었으며(12.8%), AI 및 전문가 문항에서는 나타나지 않았다.
해설을 포함한 평가에서도 동일한 경향이 나타났으며,전문가 문항 95.5%, AI 문항 85%, 초심자 문항 59%가 사용 가능 또는 소폭 수정 후 사용 가능으로 평가되었다.
집단 내 평균 점수를 보면, 해설 포함 여부와 관계없이 전문가 문항과 AI 문항 간의 전반적 인상 점수는 유사하였다. 그러나 AI와 초심자 문항 간의 전반적 인상 점수는 통계적으로 유의한 차이를 보였다 (해설 포함 시: 3.38 vs 2.77, p < 0.001; 해설 제외 시: 3.35 vs 2.69, p < 0.001).
추가 하위 분석 (Additional Subanalyses)
문항 작성 오류(Item-Writing Flaws, IWFs)
문항당 IWF의 수와 유형은 표 4(Table 4)에 제시되었다. 전체 IWF 발생률은 세 집단 간 차이가 작았으며 (전문가 0.8, 초심자 1.3, AI 0.8, p < 0.05), 초심자 문항은 ‘IWF가 전혀 없는’ 비율이 가장 낮고, ‘3개 이상 오류가 있는’ 비율이 가장 높았다. 모든 집단에서 가장 흔한 오류 유형은 ‘선택지 작성(writing the choices)’으로, 이는 표 3의 문항 작성 지침에 따른 분류 기준에 의거하였다.
표 4. 집단 간 문항 작성 오류 요약 (Table 4. Summary of item-writing flaws between groups)
인지 기능 수준(Cognitive Skill Level)
표 5(Table 5)는 집단별 문항의 인지 기능 수준 분포를 보여준다. 전문가 문항의 대부분은 수준 III, 초심자 및 AI 문항은 수준 II로 분류되었다. 수준 II와 III 모두 ‘고차원적 인지 영역(higher-order)’으로 간주된다. 그러나 초심자 문항은 수준 I으로 분류된 비율이 가장 높았다.
표 5. 블룸 수정 분류에 따른 인지 기능 수준 분포 (Table 5. Distribution of assigned cognitive skill levels vis a vis Bloom’s modified taxonomy)
정답의 사실성 및 위치(Correct Option Veracity and Placement)
작성자가 제시한 정답이 실제로 패널 합의에 의해 정답으로 확인된 비율은 전문가 문항 100%, 초심자 문항 90%, AI 문항 85%였다. 정답의 위치 분포에서도 유의한 차이가 나타났다 (표 6 참조). AI 문항의 45%, 전문가 문항의 33%는 정답을 선택지 C에 집중적으로 배치했으며, 이는 초심자 문항과 비교했을 때 통계적으로 유의한 차이를 보였다 (AI vs 초심자: p = 0.028; 전문가 vs 초심자: p = 0.002).
표 6. 정답 위치 분포 (Table 6. Distribution of correct option position)
참고문헌 (References)
GPT-4가 생성한 참고문헌의 질은 다양하게 평가되었다. 출력 다양성 테스트(variability testing)에서 생성된 18개 문항의 52개 참고문헌에 대해 점수를 부여한 결과, 평균 점수는 4점 만점 중 3.06점이었으며 (범위: 2~4점, 2점: 6건, 3점: 5건, 4점(완벽): 7건).
가장 흔한 오류는 다음과 같았다:
잘못된 DOI(Digital Object Identifier)
오래된 판본의 가이드라인 사용
참고문헌 세부 정보 오류
이러한 오류의 유형은 표 7(Table 7)에 요약되어 있다.
표 7. GPT-4가 생성한 참고문헌 오류 유형 요약 (Table 7. Summary of types of errors in the references generated by GPT-4)
논의 (Discussion)
본 연구는 사전 학습된 생성형 인공지능(pre-trained generative AI)이 의학 객관식 문항(MCQs)을 생성할 수 있는 능력에 대한 점점 더 많은 근거들에 기여하며, 그 구조적 질(structural quality)이 전문가 문항 작성자와 대체로 유사한 수준임을 보여준다. 그러나 이러한 결과는 이 기술을 교육적으로 활용하고자 하는 교육자들에게 중요한 유의사항을 동반한다. MCQ는 여전히 의학교육에서 보편적인 평가 수단으로 자리잡고 있으며, 고품질 문항을 생성하는 데 요구되는 자원의 부담으로 인해 새로운 콘텐츠 생성 경로에 대한 탐색이 지속되어 왔다. 본 연구는 지금까지 발표된 바 중에서 GPT-4가 생성한 임상의학 MCQ에 대한 가장 포괄적인 평가에 해당하며, 전체적으로 AI 생성 MCQ 콘텐츠의 타당성(validity)을 시사하며, 교수진이 평가 문항을 개발할 때 AI를 활용할 가능성을 보여준다.
이 연구에서 MCQ 문항의 고유한 특성에 대한 정밀한 평가(granular appraisal)는 대략적인 질의 위계를 도출해냈다. 즉, 의대생이나 전공의가 작성하고 편집되지 않은 초심자 문항(Novice-authored items), GPT-4가 생성한 AI 문항, 그리고 전문가 및 숙련된 문항 작성자가 작성·편집·승인한 전문가 문항(Expert items) 순으로 질이 높게 나타났으며, 각 집단은 특정 구조적 특성에서 전 집단을 능가하거나 최소한 동등한 수준을 보였다. 본 연구에서 AI의 성능이 초심자와 전문가 사이에 위치한다는 발견은 새롭고 유용한 근거를 제공하며, 의학 지식, 임상 경험, 교육학적 훈련이 요구되는 고품질 MCQ 작성을 감안할 때 교육 전문가에게는 놀랍지 않을 수 있다. 이 논의에서는 먼저 초심자와 전문가 수준의 인간 문항 작성자의 특성을 기술하고, 이후 AI와 인간 전문가 그룹 간 비교, 마지막으로 AI 생성 문항의 세부 분석으로 이어진다.
먼저 인간 문항 작성자에 대해 살펴보면, 초심자 문항의 38.4%가 전반적 인상(global impression) 기준에서 ‘사용 부적합’ 또는 ‘대폭 수정 필요’에 해당하였고, 반면 전문가 문항의 95.5%는 ‘소폭 수정으로 사용 가능’ 또는 ‘즉시 사용 가능’으로 평가되었다. 이는 학생과 전문가가 작성한 MCQ의 질적 차이를 보여준 기존 연구 결과와 일치하며¹³, MCQ를 작성하는 학습 활동이 학습에 도움이 되는 것으로 알려져 있음에도 불구하고³⁷, 이러한 문항이 실제 평가 문항으로 사용되기 위해서는 신중한 검토와 수정 과정이 필요함을 강조한다. 이에 비해, AI가 생성한 문항 중 15%는 중대한 결함(critical flaws)이 있어 대폭 수정을 요하는 것으로 평가되었으며, 이는 아래에서 추가로 논의된다.
이제 AI 생성 문항과 전문가 문항 간 비교로 넘어가면, 본 연구 결과의 핵심은 GPT-4가 생성한 신규 문항(de novo AI items)의 전반적 인상 점수(3.38/4)가 전문가 문항(3.49/4)과 유사했다는 점에 있다. 세부 구조 항목별 비교에서는 내용 타당도(content validity), 인지 기능 수준(cognitive skill level), 해설의 사실성 및 임상 추론(feedback veracity and clinical reasoning) 등에서 경미한 통계적 유의차가 있었지만, 각 그룹의 점수가 모두 교육적으로 수용 가능한 수준 이상이었기 때문에 이러한 차이는 교육적 의미(educational significance)를 반드시 시사하는 것은 아니다. 그러나 전반적으로 유사한 인상 점수(global impression scores)를 고려할 때, AI가 생성한 문항을 인간의 개입을 통해 전략적으로 정제할 수 있는 특정 영역이 존재함을 시사한다.
기존의 비교 연구는 많지 않지만, 본 연구 결과를 지지하는 방향으로 보완적 역할을 한다. 예를 들어, 현재까지 확인된 유일한 유사 연구에서는, 동일한 주제를 다룬 MCQ에서 전문가가 AI보다 전반적 품질에서 우위를 보였지만, 집계 점수의 평균에서는 AI도 유사한 수준의 품질을 보였다고 보고되었다²⁹. 이전까지는 AI가 초심자(학생 혹은 수련의) 문항 작성자와 MCQ 생성이라는 과업에서 직접 비교된 바는 없었지만, GPT-4는 이미 여러 보고에서 의과대학 입학 또는 수료 시험에서 합격 수준의 성적을 기록한 사례들을 통해, 임상 MCQ 해석 능력이 인간 의대생 및 전공의와 비슷하거나 능가하는 경우가 있음이 반복적으로 입증되었다³⁸⁻⁴³. 이를 종합해 보면, GPT-4의 임상 MCQ 처리 능력은 학생/수련의와 전문가 사이에서 상위권에 위치할 가능성이 높음을 시사한다.
본 연구에서 생성된 AI 문항(AI-generated items)에 주목할 때, 이 기술이 의학 분야의 객관식 문항(MCQ) 작성에 적용될 수 있는지 평가하는 데 있어 주목할 만한 결과들이 다수 존재한다. AI 문항은 전체적으로 높은 품질을 보였으며, 85%가 소폭 수정만으로 사용 가능, 95%는 고차원적 인지 기능(higher-order cognitive skills)을 평가한다고 판단되었고(수정된 블룸 분류 체계 기준으로 수준 II 또는 III), 내용 타당도(content validity, 3.7/4), 문항 범위(scope, 4/4), 문항 구성(item anatomy, 3.9/4) 등에서도 우수한 평균 점수를 기록하였다. 이전의 비교되지 않은(non-comparative) 연구들은 AI가 생성한 MCQ의 질이 매우 다양함을 보고한 바 있으나¹⁸, 본 연구 결과는 GPT-4가 임상적으로 복잡한 내용을 다루는 전문가 수준의 문항을 생성할 수 있는 내재적 능력을 보유하고 있음을 지지한다.
이러한 높은 품질의 결과물은 최적화된 프롬프트(prompt engineering)를 기반으로 하여, 우수한 문항 작성 원칙(item-writing principles)을 반영하고, 고품질의 예시 문항(high-quality example MCQs)과 명확하게 서술된 핵심 학습 포인트(key learning point)가 포함되었기 때문에 가능했으며,이는 본 연구의 특징이자 기존 문헌에서도 강하게 지지되는 전략이다⁴⁴,⁴⁵. AI 기반 작업 흐름(workflow)의 초기 단계에서는 구조, 내용, 스타일에 대한 지역적 요구(local requirements)를 포함하는 프롬프트 개발에 집중적이고 의도적인 인간의 개입이 필수적이다. 한편, 임상 지식이 인코딩된 LLM(대형 언어 모델, Large Language Model)에 의존하는 일반화된 프롬프트(generic prompt)는 문항 작성 이후 단계에서 필요한 인간 개입의 정도를 최소화할 수 있다.
본 연구에서는 사실에 기반한 핵심 학습 포인트를 인간이 미리 제공함으로써, GPT-4에 긴 참고문헌(reference text)을 제공할 필요가 없었으며, 이는 문항 생성 효율성을 크게 향상시킬 수 있음을 보여주는 사례다. 비록 본 연구에서는 AI가 핵심 학습 포인트를 생성하지는 않았지만, 이 역시 AI가 충분히 수행 가능한 작업이며⁴⁶, 향후 연구에서는 이를 프롬프트의 일환으로 통합하는 방향도 고려될 수 있다.
그러나 전체 시험의 평균 품질만으로는 충분하지 않으며, 의료와 같은 안전이 중대한(safety-critical) 분야에서는 개별 문항 수준에서도 높은 최소 품질과 정확성 기준을 충족해야 한다⁴². 이 관점에서 중요한 점은, AI가 생성한 문항 중 7개 중 1개(15%)는 전반적 인상 점수 기준으로 대폭 수정 없이는 사용 부적합으로 평가되었으며(인간 전문가 문항은 25개 중 1개), 7개 중 1개는 정답이 부정확하게 제시되었고, 거의 절반(45%)은 정답이 항상 선택지 C에 위치하였다.또한, 문항 작성 오류(IWFs)는 모든 집단에서 관찰되었으며, 대부분은 ‘선택지 작성(writing the choices)’과 관련된 항목이었다.
이는 이전 연구에서 AI가 생성한 MCQ 해설 중 32–76%만이 유효(valid)하다고 평가되었던 결과⁴⁷와는 대비되며, 이는 GPT 엔진의 세대 간 개선 가능성을 시사할 수도 있다. 그럼에도 불구하고, 이러한 문제들은 수정 없이 남겨질 경우 평가 타당성(assessment validity)에 심각한 위협이 될 수 있으며, AI 문항을 실제 평가에 사용하기 전 반드시 전문가의 검토가 필요함을 강하게 시사한다. 이는 특히 자격 인증(certification)이나 학업 진급(academic progression)과 같은 고위험(high-stakes) 평가 문맥에서 핵심적 고려 사항이다.
이러한 문제의 일부는 GPT-4 자체의 기술적 한계에서 비롯될 수 있지만, AI 엔진이 학습 데이터(training data)의 결함을 반복 학습(recapture)했을 가능성도 매우 높다. 예를 들어, 객관식 문항에서 정답이 중간 위치(예: 선택지 C)에 몰리는 ‘중간 편향(middle bias)’은 잘 알려져 있는 현상이며⁴⁸, 이는 시험 전략적 접근(test-wiseness)을 통해 특정 수험생이 평가를 왜곡하는 오류 요인(error source)이 될 수 있다⁴⁹,⁵⁰. 이러한 경향은 AI의 학습 데이터에 이미 편향된 형태로 내재되어 있을 가능성이 높으며, 교육자들은 이 외에도 여러 잠재적인 편향(biases)에 대해 인식하고 있어야 한다⁵¹.
LLM이 생성한 데이터에 인종이나 성별과 관련된 편향(racial and gender biases)이 존재하며, 이는 건강 불평등(health inequities)에 영향을 미칠 수 있다는 점은 이미 잘 알려져 있다⁵²,⁵³. 따라서 의학교육자들은 LLM을 활용하여 교육 콘텐츠를 제작할 때, 이러한 알고리즘적 편향을 식별하고 선제적으로 대응해야 하며, 그렇지 않으면 학생들의 임상 실무(clinical practice)에까지 편향이 지속적으로 반영될 수 있다. 이러한 위험을 완화하기 위해서는 명시적 편향 평가(explicit bias assessments)가 도움이 될 수 있다⁵¹.
편향 문제를 넘어, AI를 교수진의 실제 작업 흐름(faculty workflow)에 통합하고자 한다면 여러 추가적인 요소들 역시 고려되어야 한다. 예를 들어, 학생 및 교수진의 수용성(acceptability)은 공정성(fairness)에 대한 인식이나 윤리적 공개(ethical disclosure) 요구에 영향을 받을 수 있다. 최근에는 투명하고 윤리적인 구현 과정의 중요성이 강조되는 공식적 가이드라인(formal guidance)이 등장하고 있다⁵⁴.
또한, AI 활용은 소프트웨어 개발 비용, 인적 자원(human resourcing), 교수진 연수(faculty training), 절차 유지(process maintenance) 등 재정적 요소(financial costs)도 함께 고려해야 한다. AI 활용이 일부 비용을 감소시키거나 재배분할 수는 있겠지만, 예를 들어 문항 작성에 대한 교수 연수(item-writing training)처럼 콘텐츠의 질을 보장하기 위해 반드시 필요한 활동까지 완전히 대체하지는 못한다⁵⁰. 따라서 AI 기반 MCQ 생성 시스템을 실제로 도입하는 데 소요되는 전체 비용과 실행 가능성은 아직 명확하게 규명되지 않았다.
비록 본 연구는 대형 언어 모델(LLM)의 임상 추론(clinical reasoning)에 대한 기술적 세부 분석을 목표로 하지는 않았으나(관심 있는 독자는 Liévin 외⁵⁵ 참고), 본 연구는 GPT-4가 높은 복잡도의 의학 MCQ에 대해 설득력 있고 논리적으로 일관된 해설 문항(explanatory text)을 생성할 수 있음을 입증하였다. 이는 AI 기반 콘텐츠가 '학습으로서의 평가(assessment as learning)'를 촉진하고, 학생들의 비판적 사고 능력(critical appraisal) 및 자기조절 학습 능력(self-regulated learning skills)을 함양하는 데 기여할 수 있는 가능성을 의미한다. 이러한 효과는 학생이 평가 문항을 작성하는 활동에서 이미 보고된 바 있으며(Lakhtakia 외, 2022)⁵⁸, MCQ에 포함된 해설은 맥락화된 지식(contextualized knowledge)과 임상 추론(clinical reasoning)을 습득하거나 강화하는 데 도움을 주며, 가상의 교수 조교(virtual teaching assistant)로서 기능할 수 있다. GPT-4는 이러한 해설 자료를 고도로 효율적으로 생성할 수 있는 잠재력을 지닌 도구이지만, 이 용도를 교육적 도구로써 평가하는 후속 연구가 필요하다. 다만, 본 연구에서 GPT-4가 생성한 참고문헌 중 일부는 LLM의 환각(hallucination) 현상으로 인해 완전히 허구로 구성되었음이 확인되었으며, 이는 AI 활용의 명확한 한계점 중 하나로 지적된다.
또한, 본 연구는 AI가 생성한 문항을 인간이 수정했을 때의 품질 향상 정도를 직접 평가하지는 않았지만, 인간의 개입이 문항의 질을 개선할 것이라는 점은 충분히 합리적인 추론이다. 이러한 AI-인간 협업 기반의 MCQ 생성 모델은 ‘샌드위치 접근(sandwich approach)’으로 개념화할 수 있으며, 프롬프트 개발 단계에서의 인간 개입과 최종 산출물에 대한 전문가의 검토가 결합될 경우, 기존의 교수 혹은 전문가 주도 문항 개발 방식과 실질적으로 비열등한 결과를 산출할 수 있다.
본 연구의 목적은 AI 기반 시스템의 운영화(operationalization)를 평가하는 것이 아니었으나, 사용된 연구 방법론은 AI 통합 기반 문항 생성 워크플로우 구현에 대한 몇 가지 통찰을 제공할 수 있다. 본 연구 수행 이후, 프롬프트 엔지니어링(prompt engineering) 원칙에 기반한 가이드라인들이 발표되었으며, 이들은 MCQ 생성 과정에서 AI를 어떻게 효과적으로 활용할 수 있는지 보여준다⁵⁶,⁵⁷.이에 따라, 우리는 다음의 구체적인 요소를 포함하는 접근 방식을 제안한다:
다학제적 전문가 패널에 의한 반복적 프롬프트 개발(iterative prompt engineering)을 수행하며, 교육 맥락 및 지역 교육학적 선호(local pedagogy preferences)를 반영하여 출력 품질에서 '천장 효과(ceiling effect)'에 도달할 때까지 조정한다.
긴 참고문헌 제공을 대체할 수 있도록 범용 프롬프트(generic prompt)를 개발한다.
핵심 학습 포인트(key learning point)를 프롬프트에 포함시키되, 이 포인트 자체를 AI가 생성하는 방향도 향후 연구로 탐색할 필요가 있다.
AI의 출력 결과를 투명하게 보존할 수 있는 소프트웨어의 활용을 탐색한다.
교수진이 문항 구조의 질을 평가할 수 있도록 문항 작성(item-writing)에 대한 명시적 훈련(explicit training)을 제공한다.
전문가(faculty 또는 subject matter expert)를 활용해 내용의 정확성(content accuracy), 임상 추론의 적절성(clinical reasoning), 인지 기능 수준(cognitive skill level), 정답 위치의 다양성(correct answer positioning) 등을 검토하고, 필요시 프롬프트를 반복 수정(iteration)하여 출력 품질을 최적화한다.
AI와 인간의 오류를 모두 방지하기 위한 추가적 동료 검토(peer review) 절차가 문항 생성 과정에서 필요할 수 있음을 고려한다.
마지막으로, 우리가 본 논문 전반에서 강조했듯이, 교육자들은 빠르게 확장되고 있는 AI 관련 문헌의 흐름을 지속적으로 인지하고 있어야 하며, 특히 LLM에 인코딩된 편향(encoded biases)에 대한 감수성을 유지해야 한다. 명시적 편향 평가(explicit bias assessments), 반응적이고 반복적인 프롬프트 설계(responsive and iterative prompt engineering), 윤리적 사용을 위한 가이드라인 도입(ethical implementation guidelines) 등은 AI 기반 의학교육의 시대에 필수적으로 요구되는 조치들이다.
한계 (Limitations)
이 혼합 방법론(mixed-methods) 연구는 기존 문항(초심자 및 전문가 작성)과 전향적으로 생성된 문항(GPT-4 기반 AI 문항)을 조합하여 사용하였다. 이에 따라 인간 작성자에게 제공된 지침과 GPT-4에 입력된 프롬프트 간에 표준화 부족이 존재하게 되었고, 이는 각 문항의 질에 영향을 미쳤을 가능성이 있다.
GPT-4의 ‘temperature’ 설정: 의학 MCQ 생성을 위한 이상적인 temperature 값은 아직 명확히 규명되지 않았으며⁵⁶, 교육 맥락에 따라 최적의 temperature 값이 다를 수 있고, 이에 따라 출력물이 달라질 가능성이 있다. 본 연구에서는 외적 타당도(external validity)와 재현성(reproducibility)을 극대화하기 위해 temperature를 0.0으로 설정하였으나, 이 설정이 출력물의 품질을 제한했을 가능성도 존재한다.
본 연구는 명시적으로 높은 복잡도의 문항(high-complexity items), 즉 고차원적 인지 기능(higher-order cognitive skills)을 평가하는 문항에 집중하였다. 따라서 본 연구의 결과는 지식 및 기억력 수준(knowledge and recall level)과 같은 저차원적 인지 기능을 평가하는 의학 MCQ 생성에는 일반화하기 어렵다.
향후 연구 방향 (Future Directions) AI가 생성한 MCQ의 심리측정학적 특성(psychometric properties)에 대한 평가 결과는 향후 논문에서 별도로 보고될 예정이다. 추가 연구 영역으로는 다음과 같은 주제가 포함될 수 있다:
다른 대형 언어 모델(LLMs)을 사용한 출력물의 질 평가
임상 이미지(clinical images)가 AI 기반 MCQ 설계에 미치는 역할
AI가 생성한 해설 문항(explanatory feedback)과의 상호작용이 학생 학습에 미치는 교육적 효과 평가
참고문헌(reference texts)을 자동 제공하는 고도화된 프롬프트 엔지니어링의 탐색
대량의 고품질 MCQ 데이터를 이용한 LLM의 파인튜닝(fine-tuning) 과정 연구 등
결론 (Conclusion) 요약하면, 본 블라인드 연구(blinded study)는 다음과 같은 시사점을 제공한다: 고복잡도의 임상 MCQ에 대한 구조적 특성의 전반적 평가에서는 인간 전문가가 가장 우수한 문항을 생산하지만, GPT-4 역시 대부분의 경우에서 이에 상응하는 품질의 문항을 생성할 수 있으며, 초심자 인간 작성자보다는 확실히 우수한 성과를 보였다. 이는 AI가 생성한 MCQ의 전반적인 질이 만족스러운 수준에 있으며, 타당성을 갖추고 있음을 시사한다.
이러한 결과는 다음과 같은 본 연구의 방법론적 설계에 의해 도출되었다:
인간 주도의 프롬프트 엔지니어링(prompt engineering)을 통해 AI 출력의 품질을 극대화하였고,
핵심 학습 포인트(key learning point)를 사전에 제공했으며,
MCQ 구조적 질을 포괄적으로 평가할 수 있는 표준화된 루브릭(scoring rubric)을 기반으로 평가가 이루어졌다.
다만, 소폭의 차이라 할지라도, 다음과 같은 GPT-4 문항의 한계점은 여전히 존재하며 인간 검토의 필요성을 강하게 뒷받침한다:
대폭 수정을 거치지 않으면 사용이 부적합한 문항의 비율이 비교적 높았고,
정답이 부정확하거나,
정답이 편향적으로 특정 위치(예: 선택지 C)에 집중 배치된 경향이 있었다.
이러한 요소들은 AI 생성 문항의 출력 품질을 최적화하기 위해 반드시 인간 전문가의 검토(human validation)가 수반되어야 함을 명확히 보여준다.