인공지능(AI)의 급속한 발전은 다양한 산업 분야에서 경제성과 효율성을 크게 향상시켰으며, 의료 분야도 예외는 아니다. 이 혁신의 최전선에는 **대형 언어 모델(large language models, 이하 LLMs)**이 있다.¹–³ 이들은 임상 업무 수행에 있어 초기부터 유의미한 성과를 보였다. AI가 문서화(documentation), 의사소통(communication), 심지어 임상적 추론(clinical reasoning)과 같은 핵심 역량을 *보완(augment)*할 것으로 예상되는 가운데, 의료 교육에서는 필연적으로 다음과 같은 핵심 질문이 제기된다: “AI 시대에 미래의 의사들을 어떻게 교육해야 하는가?”

 

AI가 제공하는 가능성은 분명 매력적이지만, 이를 현대 의학교육에 성공적으로 통합하려면 그 장점과 한계를 섬세하게 이해하는 것이 필수적이다. 더불어, AI 활용은 유능하고(compentent), 공감하며(compassionate), 적응력 있는(adaptable) 의사를 양성하려는 의료 교육의 본래 목적과도 부합해야 한다. 이 글에서는 AI가 교육, 학습, 평가 방식에 혁신을 가져오면서 다음 세대의 의사 양성 방식을 어떻게 변화시킬 수 있는지를 고찰하고자 한다. 현재의 활용 가능성을 넘어, 이들 모델은 **교육 기회의 표준화와 민주화(standardization and democratization)**를 가능케 하여, 과거에는 상상하기 어려웠던 기회들을 제공하고 있다.

 

LLM은 임상적 과업에서 놀라운 성과를 보여왔다.¹² 일부 맥락에서는 이 모델들이 표준화된 평가 기준에서 인간 의사와 유사하거나 오히려 뛰어난 성과를 보이기도 했다.⁴ 겉으로 보기에는, 이러한 성공이 곧 LLM이 임상적 의사결정에 필요한 **추론 과정(reasoning)**을 복제한다는 뜻처럼 보일 수 있다. 만약 이것이 사실이라면, 이러한 추론 능력은 모델이 결과를 도출하는 ‘블랙박스’를 열어, 의학 실천을 보완할 수 있는 투명하고 합리적인 과정을 제공할 전례 없는 기회를 의미한다. 그러나 최근 연구들은 이 모델들이 실제로 논리적 추론을 수행하는지에 대해 의문을 제기하고 있으며, 이들이 단지 통계적 패턴 인식에 의존하는 것이 아닌가 하는 문제 제기가 이어지고 있다.⁵–⁸ LLM은 훈련 데이터에서 패턴을 인식하고 이를 재현하는 방식으로 작동한다. 이러한 작동 방식은 임상적 문맥에서는 **유행어(buzzwords)**나 **자주 함께 등장하는 임상 특성(co-occurring clinical features)**에 반응하여, 그럴듯해 보이지만 **기전적 깊이(mechanistic depth)**가 부족한 진단이나 치료 계획을 생성하게 만들 수 있다.

 

의학교육의 목표는 단순한 사실 전달이 아니라, 임상 가설(clinical hypothesis)에 도달하는 사고 과정을 가르치는 데 있다. 실제 임상에서는 상황이 미묘하지만 중대한 방식으로 변화할 수 있다: 새로운 증상이 나타나거나, 병력(history)을 다시 고려하게 되거나, 검사 결과가 기존 정보를 뒤흔들 수도 있다. 이처럼, 진정한 추론은 과거 데이터를 기반으로 ‘가장 가능성 높은 답’을 고르는 것이 아니라, 실시간으로 사고 방식을 재평가하는 과정이다. LLM이 미국의사면허시험(USMLE)과 같은 단일 정답(single-answer) 평가에서 좋은 성과를 보이는 것은 고무적이지만, 이는 동적인 임상적 추론 능력을 반영한다기보다는, 패턴을 인식하고 사실을 회상하는 능력을 보여주는 것이다. LLM이 임상 추론 교육에서 파트너 역할을 수행하려면, 복잡한 임상 사례를 단계적으로 추론하고, 자신의 의사결정을 정당화하며, 불확실성과 모호함 속에서도 진단적 사고를 반복적으로 정제해 나가는 새로운 평가 기준이 필요하다.²

 

 

진정한 임상 추론(clinical reasoning) 능력을 갖춘 대형 언어 모델(LLM)이 개발된다면, 의학교육의 패러다임은 근본적으로 변화할 수 있다. 최근 수년간 사례 기반 학습(case-based learning)이 현대 의학교육의 핵심으로 자리 잡음에 따라, 이러한 모델은 교육적 사례에서 **의대생의 사고 과정을 평가하고 비평하는 ‘비판적 조력자(informed critic)’**로 기능할 수 있으며, **튜터(tutor), 평가자(grader), 심지어 토론 파트너(discussion partner)**의 역할까지 수행할 수 있게 된다. 이와 같은 기술은 또한 복잡한 텍스트—예컨대, 교내 교육과정 문서, 의학 교과서, 동료 심사 기반 생물의학 논문—를 학습자 수준에 맞게 해석할 수 있는 도구로서 활용될 수 있다. 이러한 기능은 의대생뿐 아니라, 전공의(resident), 임상의(attending physician)에게도 유용하다. 왜냐하면 의학은 끊임없이 변화하는 분야이므로, 이러한 도구를 개발하는 일은 의료계 전체가 자기 속도에 맞춰 발전해 나갈 수 있도록 하는 기반을 마련하는 작업이기 때문이다.

 

이제 더 이상, 임상 실습 중 우연히 마주치는 환자만을 대상으로 학습하는 시대는 지났다. LLM은 다양한 환자 증례 수백 가지를 빠르게 제시함으로써 고차원 임상 기술을 정교하게 연마하는 데 기여할 수 있다. 또한 지리적 또는 사회인구학적 특성으로 인해 특정 유형의 환자에 편중된 교육 경험을 갖게 되는 문제를 보완하기 위해, LLM을 활용해 희귀질환이나 특이 환자 증례를 포함한 폭넓은 임상 경험을 제공할 수 있다. 이를 구체적으로 실현하는 방법 중 하나는 LLM을 표준화 환자(standardized patient, SP)와의 상호작용에 활용하는 것이다. 즉, 객관적 구조화 임상시험(objective structured clinical examination, OSCE)에서 표준화 환자 역할을 수행하는 특화된 도구를 사용하는 방식이다. 우리는 이러한 도구를 SP-LLM이라 명명했으며, 이는 의사소통 기술을 연습할 수 있는 손쉽고 접근 가능한 환경을 제공한다.⁹ SP-LLM은 SP의 역할을 연기하도록 훈련 및 프롬프트(prompt) 설정이 가능하며, 이어서 학생의 수행을 평가하도록 다시 프롬프트할 수도 있다. 이로 인해 학생들은 *초희귀질환(ultrarare diseases)*이나 *문화적으로 특수한 환자 표현(culturally distinct presentations)*을 포함한 다양한 상황에 노출될 수 있다.

 

또한, LLM은 의학교육 전문성을 전 세계적으로 분산시킬 수 있는 확장 가능하고 비용 효율적인 학습 도구가 될 잠재력을 지니고 있다. 이들은 학생의 질문에 대해 정확한 설명을 생성하고, 표준화 시험이나 기관 내 교육과정을 대비하는 데 도움을 줄 수 있으며, 특히 **자원이 제한된 환경(resource-limited settings)**에서 그 가치가 더욱 크다. 예컨대, 환자 다양성이 부족하거나 환자 수 자체가 적은 학교에서는 이러한 LLM 기반 모델을 교육 보완 수단으로 활용함으로써, 학생들이 보다 포괄적인 임상 경험을 접할 수 있도록 보장할 수 있다. 그러나 이러한 도구에 공정하고 광범위하게 접근하려면, 각 기관의 자원 수준과 지역 간 경제적 차이를 고려한 기술 라이선스 모델이 필요하며, 자원이 풍부한 기관과 제한된 기관 간의 협력 파트너십도 중요하다.

 

의학교육 맥락에서 LLM을 개발하고 검증하는 일은—임상 추론 과정이 면밀히 검토될 수 있는 이 환경에서—이후 임상 실무에 통합될 수 있는 기반을 제공한다. AI가 투명하고 신뢰할 수 있는 방식으로 추론할 수 있다는 것을 보여줄 수 있다면, 의료 전반에 걸쳐 LLM을 폭넓게 응용할 수 있는 기반이 마련되며, 이는 곧 **신뢰 가능한 임상 의사결정 지원 시스템(clinical decision support)**으로 나아가는 길이 열릴 것이다.

 


AI가 **일상적인 문서화(routine documentation)**나 **의무기록 검토(medical record review)**와 같은 업무를 수행하게 됨에 따라, **미래의 의사들은 이러한 기술의 책임 있는 관리자(responsible stewards)**로서의 역할을 감당해야 한다. 미래의 의사에게는 임상 추론(clinical reasoning), 데이터 해석(data interpretation), **윤리적 감독(ethical oversight)**과 같은 고차원의 역량이 요구된다. 따라서 의학교육은 변화하는 환경에 적응해야 하며, 학생들에게 **알고리즘 기반 결과물(algorithmic outputs)**을 비판적으로 평가하고, 문맥에 맞게 해석하며, 환자 진료에 안전하게 통합하는 방법을 가르쳐야 한다. 이를 위해 교육과정은 **데이터 시스템 리터러시(data systems literacy)**에 대한 심층적인 교육을 포함하여, 의사가 이 강력한 도구들을 신중하게 구현하고 감독할 수 있는 능력을 갖추도록 해야 한다.

 

그러나 이러한 기술적 정교함(technical sophistication)은 **핵심 임상 기술(core clinical skills)**을 희생해서는 안 된다. 기술은 언제든 실패할 수 있기 때문에, 의학교육은 AI 기반 진료와 전통적 진료 모두에 자신감을 갖춘 의사를 양성해야 한다. 그래야만 예기치 못한 시스템 중단(unplanned downtimes), 보안 침해(security breaches), 그리고 전염병을 포함한 공중보건 위기(unprecedented public health challenges) 등의 다양한 상황에서도 환자 진료의 질이 최고 수준으로 유지될 수 있다. 이러한 **이중 역량(dual competency)**을 갖추기 위해서는 **병력 청취(history taking), 신체검진(physical examination), 감별진단(differential diagnosis)**과 같은 기본 임상 기술을 보조 도구 없이 스스로 수행하도록 도전하는 학습 경험을 통해 지속적으로 강화해야 한다. 다행히도, 이러한 이중 역량을 구축할 수 있는 길은 이미 존재한다. 오늘날 전통적인 방식으로 훈련받은 임상의들이 실제 임상 현장에서 AI를 적극적으로 통합하고 있으며, 이들로부터 얻은 교훈은 다음 세대를 위한 교육에 유용한 통찰을 제공할 수 있다.

 

미래의 의과대학은 단순히 AI를 수용하는 데 그치지 않고, 검증된 교육 방법과의 통합을 통해 접근성의 격차를 해소하고, 확장성과 교육의 엄격함을 동시에 확보해야 한다. 이때 가장 중요한 것은, **임상 진료에서의 인간적인 요소(human elements of clinical care)**를 보존하는 동시에, 끊임없이 변화하는 의료 환경에 적응하는 의사를 양성하는 것이다. 이러한 비전을 실현하려면, 신기술—특히 신흥 AI 기술의 능력과 한계, 그리고 궁극적으로 다가올 인공지능 일반화(artificial general intelligence)의 확산—을 정면으로 마주해야 한다. 이러한 도전에 대응하려면, **의사와 교육자는 이 모델에 대해 깊이 이해하고 있는 기계학습 전문가(machine learning experts)**와 협업해야 하며, 이를 통해 의학교육과 환자 진료의 수준을 최고로 유지할 수 있어야 한다.

 

비록 의학교육은 앞으로도 지속적으로 AI와 같은 최신 기술을 통합해 나갈 것이지만, 그것이 진정으로 최상위 수준의 임상 진료(elite clinical care)의 기반이 되기 위해서는, 다음 세대의 의사에게 반드시 철저한 추론의 원칙(rigor in reasoning), 공감(empathy), **도덕적 판단(moral judgment)**을 심화된 수준으로 체득하게 해야 한다.

 

 

 

 

 

JAMA. 2025 Mar 31.  doi: 10.1001/jama.2025.2789. Online ahead of print.

Building the AI-Enabled Medical School of the Future

+ Recent posts