인공지능(AI)에 대한 위임판단과 EPA: 보건전문직 교육에서 AI 사용을 보호하기 위한 프레임워크 (Acad Med, 2025)

Meded 2026. 5. 1. 09:09

2026. 5. 1. 09:09

Acad Med. 2025 Mar 1;100(3):264-272. doi: 10.1097/ACM.0000000000005930. Epub 2024 Nov 14.

Entrustment and EPAs for Artificial Intelligence (AI): A Framework to Safeguard the Use of AI in Health Professions Education

Brian C Gin, Patricia S O'Sullivan, Karen E Hauer, Raja-Elie Abdulnour, Madelynn Mackenzie, Olle Ten Cate, Christy K Boscardin

🤖 AI도 "믿을 만한지" 검증해야 한다 — 위임(Entrustment) 개념을 AI에 적용하기

들어가며 — 왜 이 논문이 중요한가?

요즘 의학교육 현장에서 AI를 안 쓰는 곳이 있을까요? 입학 지원서 스크리닝, 피드백 품질 평가, 문항 자동 생성, 역량 달성 여부 판단…… AI가 다방면에서 쓰이고 있어요. 그런데 우리는 이 AI를 정말 "믿어도 되는지" 한 번이라도 제대로 따져봤을까요?

이 논문은 바로 그 질문에서 출발합니다. UCSF와 UIC의 의학교육 연구자들이 뭉쳐서 내놓은 제안인데요 — 우리가 의대생이나 전공의에게 써 왔던 위임(entrustment) 개념을 AI에 그대로 적용해보자는 거예요. 생각보다 훨씬 논리적이고 실용적인 아이디어입니다.

🎯 핵심 문제의식 — AI가 결과를 내놓으면 우린 그냥 믿나요?

ChatGPT, Gemini, Claude 같은 생성형 AI(generative AI)는 그럴듯한 결과물을 만들어내지만, 정작 어떻게 그 결과가 나왔는지는 알려주지 않아요. 훈련 데이터에 무슨 편향이 들어 있는지도 모르고, 틀린 내용을 자신 있게 말하는 경우도 허다하죠.

저자들은 이렇게 말합니다.

"새로운 생성형 AI 역량은 딥러닝 모델에 점점 더 의존하고 있으며, 이 모델들은 자신의 결과가 어떻게 나왔는지, 어떤 부정확성·불확실성·편향이 있는지에 대해 거의 또는 전혀 공개하지 않는다."

"New capabilities afforded by generative AI have become increasingly dependent on deep learning models that provide little to no insight into how they produce their results or disclosure of potential inaccuracies, uncertainties, or biases."

그러면서 이런 핵심 질문을 던지죠.

"보건의료 전문직 교육자들이 고품질 임상 훈련 프로그램을 개발하는 책임을 맡고 있고, 그 궁극적 목표가 신뢰할 수 있는 학습자를 양성하는 것이라면 — AI에게도 같은 신뢰 기준을 적용해야 하지 않을까?"

"If health professions educators use AI tools with the ultimate goal of training learners to be trustworthy of providing patient care, should they not subject AI to the same standards of trust?"

바로 이 지점에서 위임 개념이 등장합니다.

📐 위임(Entrustment)이 뭐였죠? — 잠깐 복습

보건의료 전문직 교육(health professions education, HPE)에서 위임(entrustment)은 지도 교수가 훈련생에게 "이 임상 과제를 어느 정도 독립적으로 수행해도 되겠다"고 판단하는 과정이에요. 그 구체적인 과제 단위가 바로 위임 가능한 전문 활동(Entrustable Professional Activity, EPA)이고요.

이 판단의 핵심에는 훈련생의 신뢰성(trustworthiness)이 있는데, 세 가지 요소로 구성됩니다:

능력(ability) — 과제를 제대로 해낼 수 있는가?
성실성(integrity) — 솔직하고 투명하게 임하는가?
선의(benevolence) — 환자의 이익을 진심으로 추구하는가?

저자들은 이 세 가지를 AI에게도 똑같이 적용하자고 제안합니다.

🔍 AI의 신뢰성을 어떻게 평가할까?

1️⃣ 능력(Ability) — "이 AI, 제대로 할 수 있어?"

AI의 능력이란, 해당 과제를 정확하고 일관되게 수행하는 역량이에요. 의학교육에서는 요약, 진단 예측, 이미지 분석, 문항 생성·채점 등이 대표적인 AI 능력 영역이고요.
문제는, 대부분의 생성형 AI가 일반 지식으로 훈련됐기 때문에 전문적인 맥락에서는 정확성이 떨어질 수 있다는 거예요. RAG(Retrieval-Augmented Generation)처럼 맥락 보강 기술을 써도, AI가 출처를 충실히 반영하는지 자동으로 검증하는 장치는 없습니다.
저자들이 흥미로운 해법으로 제시하는 건 병렬 검증 AI(parallel validation AI) 개념인데요 — AI가 생성한 요약이 원본 데이터를 얼마나 잘 반영하는지를 별도의 AI가 비교·검증하는 방식이에요.

2️⃣ 성실성(Integrity) — "이 AI, 솔직한가?"

성실성은 AI가 자신의 결과를 얼마나 투명하게 생성하는가, 그리고 한계를 스스로 인정하는가에 관한 거예요.
ten Cate와 Chen은 성실성을 겸손(humility)으로 확장해서 논의하는데요, AI 맥락에서는 이게 "확실하지 않을 때 그냥 답하지 않는 것"을 의미해요. 저자들의 제안이 흥미롭습니다:

"AI 도구들은 확률 모델을 기반으로 하기 때문에, 자신의 응답에 대한 확실성을 추정하고, 확실성이 낮을 때는 여러 응답을 제시하거나 응답을 제공할 수 없다고 선언해야 한다."

"Since AI tools are built on probabilistic models, they should be able to estimate the certainty of their responses and propose multiple responses or declare they cannot provide a response when certainty is low."

또한 성실성에는 편향으로부터의 자유도 포함돼요. 연구팀은 실제로 성별 중립적 LLM을 개발해 피드백 내러티브의 감정적 어조를 분석했고, 젠더와 의료 내 소수자 지위에 따라 서술 언어에 미묘한 차이가 존재함을 밝혔다고 해요. AI 편향을 잡아내는 데 AI를 활용한 사례죠.

3️⃣ 선의(Benevolence) — "이 AI, 좋은 의도로 쓰이고 있어?"

AI는 감정이 없으니 "선의"를 갖기 어렵죠. 그래서 저자들은 AI의 선의를 윤리적 기준 준수로 재정의합니다. 구체적으로 다섯 가지 원칙을 제시해요:

원칙	의미
선행(Beneficence)	AI가 이해관계자들(교수, 학습자, 환자, 지역사회)에게 실질적 이익을 가져다주는가?
공정성(Justice)	혜택과 위험이 다양한 집단에 공평하게 분배되는가?
자율성·충실성(Autonomy & Fidelity)	환자의 의사결정권과 개인 건강정보 통제권을 존중하는가?
무해성(Non-maleficence)	해로운 목적으로 사용되지 않도록 자기검열이 가능한가?
책무성(Accountability)	AI 개발자와 사용자 간 협력 체계가 마련돼 있는가?

특히 흥미로운 부분은 AI의 상업적 동기에 대한 경고예요:

"AI 결과물이 정치적·상업적 어젠다를 반영하지 않도록 하려면, AI 개발자와 임상 진료 관행 사이의 잠재적 이해충돌을 공개하는 것이 중요하다."

"To ensure that AI outputs do not reflect political or commercial agendas, it is important to disclose any potential conflicts of interest between AI developers and clinical care practices."

🧭 AI 위임 의사결정 — 무엇을 고려해야 할까?

AI의 신뢰성만으로 위임 결정이 내려지는 건 아니에요. 훈련생에 대한 위임이 훈련생(trustee), 지도교수(trustor), 맥락(context), 관계(relationship), 과제(task) 다섯 가지 요소에 달려 있듯이 — AI 위임도 마찬가지예요.

요소	훈련생 맥락	AI 맥락
수탁자(Trustee)	훈련생의 신뢰성	AI의 신뢰성 (능력·성실성·선의)
신뢰자(Trustor)	지도교수의 신뢰 성향	사용자의 AI 리터러시 및 HPE 전문성
맥락(Context)	지원의 가용성, 인지 부하	이해관계자(교수·학습자·환자·지역사회)에 대한 영향
관계(Relationship)	훈련생-지도교수의 신뢰 관계	HPE 이해관계자와 AI 개발자 간의 파트너십
과제(Task)	임상 과제의 복잡성·위험도	HPE 과제의 위험도 및 AI 부가가치 가능성

📊 AI 위임 척도(Entrustment Scale) — 5단계 제안

논문의 하이라이트 중 하나예요. 훈련생 위임 척도를 AI에 맞게 재설계했는데, 결정적 차이가 있어요.

"AI 위임의 전반적 목표는 결국 독립적 수행일 수 있지만, 그 목표가 AI 위임에는 적용되지 않을 수 있다 — 즉, 의학교육자들이 AI 도구가 완전히 자율적으로 수행하길 원하지 않을 과제들이 있을 수 있다."

"While the overall goal of entrustment for HPE trainees is their eventual unsupervised practice, this goal may not apply to the entrustment of AI—that is, there may be tasks that health professions educators might not ever want AI tools to conduct autonomously."

단계	설명	예시 과제
1단계	AI의 자율적 역할 불가	역량위원회의 최종 진급 판정
2단계	지속적 인간 감독 하에 보조 역할	클럭십 피드백 요약
3단계	인간과 동등한 협업	강의용 삽화·카툰 창작
4단계	제한적 인간 감독 하에 주도적 역할	자유응답 문항 자동 채점
5단계	완전 자율 수행 가능	개인화된 순수 형성적 학습 대시보드

주목할 건 1단계의 존재예요. 훈련생 척도에는 없던 개념인데, "AI가 절대 자율적으로 해서는 안 되는 과제"를 명시적으로 정해두는 거죠. 예를 들어 학습자의 진급·유급 같은 고위험 결정은, 아무리 AI가 발전해도 항상 인간이 최종 판단권을 가져야 한다는 거예요.

📋 AI를 위한 EPA 예시 — 실제로 어떻게 쓸까?

저자들은 "강의 과목의 학습자 지식 측정을 위한 평가 자료 생성"이라는 과제에 대해 실제 AI-EPA 서술 사례를 제시해요. Ten Cate & Taylor의 EPA 기술 템플릿을 AI에 맞게 수정한 버전인데요.

특히 기존 EPA 기술 틀에 없었던 AI 전용 섹션이 눈에 띄어요:

최대 허용 위임 수준 — "AI가 독립적으로 문항을 생성하고 인간 검토 없이 사용하는 건 이상적이지 않으므로, 최대 위임 수준은 3단계(동등 협업)"
AI 알고리즘 및 데이터셋 유지관리 고려사항 — "의학 지식이 바뀔 수 있으므로, 강의가 진행될 때마다 AI 모델에 제공되는 강의 자료를 최소한 업데이트해야 함"
인간 감독이 필요한 영역 — 핵심 지식 선별, 편향 분석, 지속적 품질 개선

⚠️ 과의존과 전문성 약화(Deskilling)에 대한 경고

논문이 특히 강조하는 부분이 있어요 — AI에 과도하게 의존하면 인간 교육자와 학습자 스스로의 역량이 약해질 수 있다는 거예요. 저자들은 이를 전문성 약화(professional deskilling)라고 부릅니다.

"핵심적인 질문은 의학교육자들이 AI를 신뢰하느냐를 넘어서, AI 지원이 없을 때도 스스로 이 과제들을 수행할 수 있다고 믿느냐로 확장된다."

"The question extends beyond whether health professions educators trust AI to perform such tasks toward whether they trust themselves to perform these tasks when AI assistance is not available."

명시적인 위임 척도와 의사결정 과정을 통해 AI 기여의 경계를 설정하면, 최소한의 인간 전문성이 식별·함양·유지될 수 있다고 저자들은 주장해요.

💡 한국 의학교육에 주는 시사점

이 논문의 아이디어는 우리나라 맥락에서도 꽤 유용하게 쓸 수 있을 것 같아요.

🔸 교육과정 설계 단계 — AI를 활용할 HPE 과제를 정의하고 위임 수준을 미리 설정해두는 것, 즉 "AI-EPA"를 교육과정에 내장하는 게 가능해요.
🔸 역량 평가 맥락 — AI가 평가 보조 도구로 들어오기 전에, AI의 능력·성실성·선의를 검증하는 절차를 평가 정책에 포함시킬 수 있어요.
🔸 AI 리터러시 교육 — 학습자가 AI 결과물의 신뢰성을 스스로 평가할 수 있도록 훈련하는 것 자체가 새로운 역량 영역이 될 수 있어요.
🔸 기관·프로그램 차원 — AI 개발자와의 파트너십을 통해 HPE 맥락에 적합한 AI 신뢰성 기준을 개발하고 요구하는 것도 필요해요.

마치며

저자들의 마지막 메시지가 인상적이에요.

"AI 책임 있게, 신뢰성 있게, 윤리적으로 사용하려면 의학교육자들이 교육·학습·실천에서 이를 사용하기 위한 안전장치를 개발해야 한다 — 위임 개념을 AI에 적용함으로써 운용 가능한 가드레일로 구현할 수 있는 안전장치를."

"Responsible, trustworthy, and ethical use of AI requires health professions educators to develop safeguards for using it in teaching, learning, and practice—guardrails that can be operationalized via applying the entrustment concept to AI."

AI를 쓸지 말지의 문제가 아니에요. 어디까지 믿고, 어디까지 위임하고, 어디서 반드시 인간이 개입해야 하는지를 명시적으로 설계하는 것 — 그게 우리 의학교육자들의 과제입니다.

지난 한 해, 즉 2023–2024년에는 보건전문직 교육(HPE)에서 AI 도구의 적용이 폭발적으로 증가했다. HPE 팀들은 자동화된 의과대학 지원서 선별, 피드백의 질과 내용 평가, 자동화된 평가 문항 생성 및 채점(automated assessment item generation and scoring)에 이르기까지 다양한 과업에 AI를 사용하는 방안을 탐색해 왔다.1–4 이러한 과업들 중 상당수는 학습자에게도, 고품질 임상훈련 프로그램을 개발하도록 위임받은 교육자에게도 고부담(high-stakes)일 수 있다. 그렇다면 보건전문직 교육자들은 AI에게 이러한 과업 수행을 신뢰해도 되는지 어떻게 알 수 있을까? 보건전문직 교육자들이 궁극적으로 환자 진료를 신뢰할 수 있는 학습자를 양성하기 위해 AI 도구를 사용한다면, AI에도 동일한 신뢰 기준을 적용해야 하지 않을까?

생성형 AI가 제공하는 새로운 역량은 점점 더 딥러닝 모델(deep learning models)에 의존하고 있는데, 이러한 모델은 결과를 어떻게 산출하는지, 잠재적 부정확성(inaccuracies), 불확실성(uncertainties), 편향(biases)이 무엇인지에 대해 거의 또는 전혀 통찰을 제공하지 않는다.1 이러한 도구의 투명성 부족은 신뢰가능성 판단을 어렵게 만들지만, 동시에 그 판단을 더욱 중요하게 만든다. 이 글의 목적은 현재 교육자들이 학습자의 임상적 성장(clinical growth)을 지원하기 위한 평가 프레임워크로 사용하는 위임판단 개념(entrustment concept)을 재목적화하여, 보건전문직 교육자들이 HPE에서 AI를 어떻게 사용할지 안내하는 것이다. 위임판단은 AI를 HPE 실제에 통합할 때 발생하는 위험을 식별하고 완화하는 익숙하고 안전한 경로를 제공하며, AI 사용에 대한 명확한 경계를 설정하고 AI와 HPE에 대한 신뢰를 보장할 수 있다.

생성형 AI의 등장은 새로운 도구의 홍수를 가져왔지만, 동시에 부정확성, 편향, 과의존(overdependence)의 위험을 증가시킬 가능성도 열어두었다.5 생성형 AI 모델, 예를 들어 ChatGPT, Gemini, Claude, Stable Diffusion, MidJourney 등은 대체로 자기 감독(self-oversight) 능력이 부족하여, 오도적이고 잠재적으로 해로운 결과를 만들어낼 수 있다. 따라서 생성형 AI는 진짜처럼 보이지만 타당하지 않은 결과를 생성할 수 있다.1 또한 이러한 생성형 AI 모델을 훈련하는 데 사용된 데이터는 AI가 지속시키거나 증폭할 수 있는 편향이나 고정관념(stereotypes)의 영향을 받을 수 있으며,6 AI는 그러한 결과가 해를 초래할 가능성을 인식하지 못할 수 있다.7 현재 AI 도구는 자신이 어떻게 결과에 도달했는지 사용자에게 투명하게 제공하는 데 매우 취약하다.1 따라서 생성형 AI 도구로부터 얻은 결과가 바람직한 결과로 이어지더라도, 인간은 그 결과를 재현하거나 검증하지 못할 수 있다.8

보건전문직 교육자들은 신뢰(trust)를 기반으로 한 평가에 익숙하며, AI 도구가 HPE 관련 과업을 수행하도록 어느 정도 허용되어야 하는지 결정하기 위해 신뢰와 관련된 개념을 적용할 수 있다. AI를 신뢰한다는 것은 AI가 생성한 결과에 내재된 위험을 평가하고 완화하는 것을 요구한다. 신뢰란 과업에 대한 책임을 수탁자(trustee)에게 위임하는 것과 관련된 위험을 신뢰자(trustor)가 받아들이려는 의지를 의미하기 때문이다.9 비즈니스, 경제, 보건의료 행정 부문은 AI의 신뢰가능성을 평가하기 위한 이상적 프레임워크를 개발해 왔다.10–13 이러한 프레임워크는 신뢰성(reliability), 투명성(transparency), 공정성(fairness), 데이터 프라이버시(data privacy)와 같은 특징을 강조한다. 그러나 이러한 기준에 비추어 AI 수행을 평가하는 경로나, 특정 환경에 AI를 통합하는 방법에 대한 지침을 반드시 제공하는 것은 아니다.

HPE에서 위임판단 개념은 AI가 특정 HPE 과업을 어느 정도까지 위임받을 수 있는지 평가하는 체계적 프레임워크로서 이러한 공백을 메울 수 있다.14 위임판단은 보다 경험 많은 감독자(supervisor)가 덜 경험 많은 수련생(trainee)에게 임상 과업, 즉 위임 가능한 전문직 활동(EPA)을 수행하도록 신뢰할 것인지에 관한 결정을 운영화한다. 이때 감독자가 완전한 통제를 유지하지 않는다는 점이 중요하다. 위임판단은 수련생의 신뢰가능성(trustworthiness)에 의존하며, 감독자는 이 신뢰가능성을 다른 요인들과 통합하여 수련생이 다양한 정도의 감독(supervision) 하에서 EPA를 수행할 준비가 되었는지를 결정한다.15–18 보건전문직 교육자들이 AI를 수탁자(trustee)로 생각한다면, 다음 세 가지를 구상할 수 있다.

첫째, HPE에서의 신뢰가능성 기준이 AI에 어떻게 번역될 수 있는가.
둘째, 위임판단 의사결정, 위임판단 척도를 포함한 과정이 AI에 어떻게 적용될 수 있는가.
셋째, 위임판단이 HPE 관련 과업에 신뢰 가능한 AI를 통합하기 위한 로드맵을 어떻게 제공할 수 있는가.

AI의 신뢰가능성 Trustworthiness of AI

HPE에서 수련생의 신뢰가능성은 능력(ability), 진실성/성실성(integrity), 선의성(benevolence)이라는 세 가지 특성에 기반할 수 있으며, 이 특성들은 AI 도구의 신뢰가능성에도 적용될 수 있다(Table 1).9,13,19

능력은 의도한 대로 과업을 수행할 수 있고, 과업을 잘 수행하는 데 필요한 역량을 지속적으로 보여줄 수 있음을 의미한다. AI 모델이 훈련 데이터(training data)의 패턴을 복제하고, 종합하고, 인식하도록 훈련될 때, AI는 능력을 개발한다.
- HPE에서 이러한 능력에는 요약(summarization), 진단 예측(diagnostic prediction), 이미지 분석(image analysis), 문항 생성 및 채점(item generation and scoring)이 포함되어 왔다.3,20 그러나 대규모 언어모델(large language models, LLMs)에 기반한 생성형 AI 도구는 주로 일반 지식(general knowledge)을 기반으로 훈련되었기 때문에 전문화된 맥락(specialized contexts)에 적용될 때 정확성과 신뢰성 문제가 자주 발생한다. 특정 맥락의 추가 데이터로 LLM을 미세조정(fine-tuning)하면 의도된 사용 목적에 대한 정확성이 향상될 수 있지만, 생성된 응답이 원자료(original sources)와 대조 검증되는 것을 보장하지는 않는다.
- 검색증강생성(retrieval-augmented generation, RAG)21과 같은 맥락 증강(context augmentation)은 LLM이 사용자가 정의한 보충 데이터베이스에 접근할 수 있도록 함으로써 맥락 특이적 정확성을 높이고 출처 인용 능력을 제공하기 위해 개발되었다. 이 보충 데이터베이스는 종종 전문화된 내용22을 포함한다. 그럼에도 불구하고, RAG로 강화된 LLM의 출력물이 해당 출처를 충실하게 대표한다는 것을 보장하는 내장 메커니즘은 없다.23
- 병렬 검증 AI(parallel validation AI)는 생성형 AI 모델의 출력물을 그 출처 데이터와 비교할 수 있다. 예를 들어, 생성형 AI를 사용하여 요약을 생성하는 프로젝트는 이러한 병렬 검증 AI를 포함하여 요약이 원자료(raw data)를 얼마나 잘 대표하는지 평가할 수 있다. 즉, 어떤 내용이 포함되거나 제외되었는지24–26, 그리고 얼마나 공정하게,27 다시 말해 편향을 최소화하면서 대표하는지를 평가할 수 있다. 유사한 비교 도구는 임상 문서(clinical documentation)에 대한 AI 요약의 정확성을 평가하기 위해 개발되어 왔다.28 병렬 검증 도구에 대한 생성형 AI의 수행 결과를 바탕으로, 생성형 AI는 반복적으로 개선될 수 있으며,29 이를 통해 그 능력이 향상될 수 있다.
진실성/성실성은 과업 수행에서의 투명성과 정직성, 즉 생성된 결과와 그 확실성(certainty) 뒤에 있는 “사고 과정(thought processes)”을 의미한다.
- 맥락 증강은 제한적 출처 인용 능력을 제공함으로써 투명성을 높일 수도 있지만, LLM이 정보를 통합하여 응답을 생성하는 방식은 현재 알려져 있지 않다.30 생성형 AI 챗봇의 기반이 되는 LLM은 딥러닝 신경망(deep learning neural networks)에 의존하는데, 이는 전통적인 머신러닝의 일부 형태와 비교할 때 해독하기 어렵거나, 다루기 어려울 만큼 복잡하다.31 설명가능 AI(explainable AI)라는 하위 분야는 신경망이 정보를 통합하고 새로운 의미를 종합하는 방식에 대한 통찰을 제공하기 위해 활발히 해결책을 모색하고 있다.32–34 훈련된 신경망의 내부 구조를 탐색하기 위해 개발된 기법들은 AI가 지식을 어떻게 표상하고 의사결정을 내리는지에 대한 통찰을 드러내는 데 가능성을 보여주고 있다.2,35–37
- 위임판단의 맥락에서 ten Cate와 Chen은 진실성/성실성을 겸손(humility)으로 더 확장한다.38 HPE 수련생에게 겸손의 가장 관련성 높은 특징은 자신의 한계를 인식하고 언제 도움을 요청해야 하는지를 아는 것이다.39 생성형 AI 모델은 현재 응답을 생성할 때 확실성에 대해 제한적으로40, 때로는 전혀 공개하지 않지만, 앞으로는 결과의 확실성에 관한 더 많은 투명성을 제공하도록 개발될 수 있다. AI 도구는 확률모형(probabilistic models)에 기반하기 때문에, 자신의 응답에 대한 확실성을 추정하고, 확실성이 낮을 때는 여러 응답을 제안하거나 응답할 수 없다고 선언할 수 있어야 한다.
- 특정 생성형 AI 모델은 동일한 입력 프롬프트(input prompt)에 대해 여러 응답을 생성할 수 있다. 이는 서로 다른 무작위 통계적 시작점(random statistical starting points), 즉 무작위 시드(random seeds)를 제공하고, 응답의 창의성에 대한 모델의 허용도, 즉 온도(temperature)를 조정함으로써 가능하다. 온도가 높을수록 더 창의적인 결과가 가능하다. 이 방식으로 동일한 프롬프트에서 생성된 서로 다른 결과들은 주제적 유사성(thematic similarity)을 보이고
  - 모델 온도가 증가해도 견딜 수 있다면 더 큰 확실성을 나타낼 수 있다.
  - 반대로 주제적 차이를 보이고 온도 증가를 견디지 못한다면 더 낮은 확실성을 나타낼 수 있다.
- 진실성/성실성은 또한 공정성(fairness) 및 편향으로부터의 자유와도 관련된다.10 AI 모델의 잠재적 편향을 평가하고, 편향을 인식하는 AI 모델을 개발하며, AI 모델의 편향을 완화하는 것은 활발한 연구 분야이며,7,27,41 AI 생성 결과의 개선을 가져왔다.42,43
  - 예를 들어, 개념 범주, 즉 인구집단(demographic groups)과 잠재적 고정관념 사이의 무의식적 연합(subconscious associations)을 측정하는 데 사용되는 암묵적 연합 검사(Implicit Association Test)44에서 영감을 받아, Caliskan 등은 LLM의 암묵적 연합을 측정하기 위해 Word Embedding Association Test, 즉 WEAT를 개발했다. 이는 알고리즘 편향(algorithmic bias)의 한 형태이다.7,27 그들과 다른 연구자들은 AI 모델이 텍스트나 이미지를 생성할 때 훈련 데이터에 포함된 인간 유사 편향과 고정관념을 반복하는 경향이 있음을 발견했다.7,27,45
  - 더 나아가 AI 모델에서 발견되는 편향은 데이터 안에 이전에는 알려지지 않았던 편향을 드러낼 수도 있다.46 AI 모델에서 발견된 편향은 젠더 정체성(gender identity), 성적 지향(sexual orientation), 인종/민족(race/ethnicity), 종교(religion), 사회경제적 요인(socioeconomic factors) 및 기타 인구학적 특성과 관련되어 있다.39
- 이러한 편향을 완화하기 위한 전략에는
  - AI 도구를 훈련하는 데 사용되는 데이터셋의 편향을 식별하고 최소화하는 것,
  - 즉 목표 집단의 인구학적 특성을 공정하게 대표하는 데이터셋을 개발하는 것, 그리고
  - WEAT와 같은 편향 측정 도구를 개발하여 AI 도구의 훈련 방식을 최적화하는 것이 포함된다.
- 예를 들어, 최근 저자들은 피드백 서술문(feedback narratives)에서 감정(sentiment), 즉 언어의 정서적 가치(emotional valence)를 측정하기 위해 젠더 중립적 LLM(gender-neutral LLM)을 개발했다.43 AI 모델의 편향을 완화함으로써 저자들은 인간 필자들이 서로 다른 젠더와 의학 내 대표성 부족 집단(underrepresented in medicine) 지위를 가진 수련생을 묘사할 때 사용하는 정서적 언어의 미묘한 차이를 식별할 수 있었고, 이를 통해 임상학습환경(clinical learning environment)에 지속적으로 존재하는 편향을 밝혀냈다. 공정성을 유지하려면 AI 생성 출력과 AI 보조 의사결정에 대한 지속적인 경계가 필요하다.

마지막으로, 선의성은 좋은 일을 하려는 성향과 신뢰자의 최선의 이익을 염두에 두는 것을 의미한다.9 그러나 이러한 특성은 감각이나 의식을 갖지 않은 AI 도구(nonsentient AI tools)에는 적용되지 않을 수 있다.30 대신 AI의 선의성은 그 출력물이 윤리 기준(ethical standards)을 준수하는지 여부에 기반할 수 있으며,10,11 이는 사회의 최선의 이익(best interests of society)을 대표한다. 윤리 프레임워크에는 밀접하게 관련된 선행(beneficence) 개념이 포함된다. 이는 이해관계자에게 이익을 주는 행위를 수행하는 것과 관련되며, HPE의 이해관계자에는 감독자, 수련생, 환자, 지역사회, 학습환경이 포함된다.10,11 선행을 평가하려면 맥락이 필요하며, 각 이해관계자 집단 내에서 AI의 잠재적 이익과 위험을 틀지어 바라보는 것이 필요하다.
- 예컨대, 의과대학 입학에서 지원자 선별을 자동화하는 AI 도구는 교수진에게 이익이 될 수 있지만, 선발된 지원자 집단의 다양성에는 불명확한 영향을 미칠 수 있다. 표준화된 시험 점수와 미리 선택된 비교과 경험의 축적을 강조하는 AI 기반 선별은 학습자의 다양한 훈련 경로나 어려움을 극복하는 능력에서 나타나는 장점(merit)을 인식하지 못할 수 있다. 이해관계자 집단에 대한 이익과 위험 사이의 공정한 균형은 정의(justice)의 윤리 원칙을 반영하며, 이는 이를 평가하고 달성하기 위한 의도적 메커니즘을 필요로 한다.27,47
- 윤리 프레임워크에는 자율성(autonomy), 신의/충실성(fidelity), 무해성(non-maleficence), 책무성(accountability)의 원칙도 포함된다.11
  - 자율성과 신의/충실성은 AI 도구가 환자가 자신의 진료에 대해 의사결정을 내릴 권리, 자신의 진료 목표에 따를 권리, 개인 건강정보의 사용을 통제할 권리를 지지하는지와 관련된다.
    - HPE 기준은 환자 참여(patient engagement)와 공유의사결정(shared decision-making)에 관한 수련생 역량을 강조하지만, 보건전문직 교육자들은 AI가 환자 진료 과업에 통합될 때 이러한 우선순위를 유지할 것이라고 반드시 신뢰할 수는 없다. 예를 들어, 수련생이 진료계획(care plan)을 제안하는 데 AI를 사용할 때가 이에 해당한다. 더 나아가 자동화된 환자 선별 및 중증도 분류(patient screening and triage)에서 AI의 역할이 확대됨에 따라, 자율성과 신의/충실성에 대한 고려는 점점 더 중요해진다.49 AI가 환자의 진료 선호와 목표를 어느 정도까지 존중할 수 있는지를 결정하는 것은 AI를 환자 대면 과업(patient-facing tasks)에 통합하는 경계를 규정해야 한다.
    - 또한 환자의 자율성을 보호한다는 것은 연구 목적으로 생물학적 검체(biological samples)를 사용하는 데 대한 제한과 유사하게, 개인 건강정보 사용을 제한할 권리를 보호하는 것을 포함한다.50,51 건강정보가 비식별화(deidentified)되었다 하더라도, AI 훈련을 위한 환자 데이터 사용은 여전히 의도치 않은 노출과 사용으로 이어질 수 있다. 일단 데이터가 LLM이나 기타 머신러닝 모델에 통합되면 해당 데이터에 대한 통제가 거의 불가능하기 때문이다.
  - 무해성은 AI 도구의 행동이 해로운 결과로 향하지 않도록 보장하는 책임과 관련된다. 이 책임은 개발자, AI 도구 자체, 사용자 간에 공유된다.
    - 예를 들어, 잠재적 사용자와 연결되는 눈길을 끄는 이미지를 생성하기 위해 대중적인 AI 도구의 개발자들은 표절(plagiarism)이나 딥페이크(deepfakes)의 가능성보다 충실도 인식(fidelity perceptions)을 우선할 수 있다. 여기서 딥페이크란 기존 인물의 모습을 다른 사람의 모습으로 대체하는 조작된 미디어 콘텐츠를 의미한다.52 따라서 AI는 개발자의 동기, 예를 들어 대중의 관심을 끌려는 동기를 반영하면서 무해성을 낮은 우선순위로 둘 수 있다. AI 출력물이 정치적 또는 상업적 의제를 반영하지 않도록 보장하기 위해서는 AI 개발자와 임상진료 실제 사이의 잠재적 이해상충(conflicts of interest)을 공개하는 것이 중요하다.
    - AI 도구의 무해성을 보장하기 위한 보호장치에는 자기 검열(self-censorship)이 포함될 수 있다. 이는 생성형 AI 모델 위에 구축된 AI 도구가 잠재적으로 해로운 내용에 대해 입력과 출력을 모니터링하고 그 공개를 방지하는 것이다.53
    - 그러나 궁극적으로 AI 도구가 악의적 과업(nefarious tasks)에 사용되는 것을 제한하는 것은 사용자의 손에 달려 있으며, 사용자는 그러한 보호장치를 우회할 수 있다. 따라서 개발자와 사용자는 모두 AI의 선행적이고 무해한 적용에 대해 책무성을 공유한다. HPE의 맥락에서 이는 AI가 기여할 수 있는 과업과 그러한 과업 수행에서 AI의 역할을 명확히 정의하는 것을 의미한다.

표 1 Table 1. HPE 관련 과업 수행을 위한 AI의 신뢰가능성

신뢰가능성 특성	HPE 수련생에게 적용될 때	AI 도구에 적용될 때
능력 Ability	수련생은 과업을 신뢰성 있고 일관되게 수행하는 데 필요한 역량, 즉 지식, 술기, 태도(knowledge, skills, and attitudes)를 보여주는가? 수련생은 자신의 업무에 대해 성실성(conscientiousness)과 책임감(responsibility)을 보여주는가?	AI는 과업 수행에 필요한 영역특이적 지식(domain-specific knowledge)을 갖추고 있는가? AI는 해당 과업과 관련된 데이터셋으로 훈련되었는가? 그렇지 않다면 AI의 역량은 얼마나 전이 가능(transferrable)한가? AI 출력의 타당도(validity)와 신뢰도(reliability)를 보장하기 위해 어떤 조치가 필요한가?
진실성/성실성 Integrity	수련생은 자신이 과업을 수행하는방식에 대해 개방적이고 정직한가? 자신의 능력 한계를 이해하고, 필요할 때 적절히 도움을 요청할 것인가?	AI는 자신의 출력을 어떻게 생성하는지에 대해 투명한가? AI는 출처 데이터를 충실하게 대표하고, 해당 출처 데이터를 인용할 수 있는가? AI는 자신의 “사고 과정”에 대한 통찰을 제공하고 확실성 수준을 추정할 수 있는가? AI의 편향은 공개되고 다루어지는가?
선의성 Benevolence	수련생은 환자의 최선의 이익을 염두에 두는가? 수련생은 환자 진료와 학습이라는 공유된 목표를 달성하려는 동기를 가지고 있는가?	AI는 윤리 기준, 즉 사회의 최선의 이익을 지지하는가? 선행 Beneficence: AI의 행동은 이해관계자에게 이익을 주는가? 정의 Justice: AI 사용의 이익과 위험은 이해관계자 집단에 공평하게 영향을 미치는가? 자율성과 신의/충실성 Autonomy and fidelity: AI는 환자의 우선순위, 목표, 데이터 프라이버시를 지지하는가? 무해성 Non-maleficence: AI는 의도되지 않은 목적이나 맥락에서 사용되는 것을 방지하기 위해 자기 감독을 제공할 수 있는가? AI는 상업적 의제나 동기에서 자유로운가? 책무성 Accountability: 보건전문직 교육자들은 AI 감독을 제공하기 위해 AI 개발자들과 협력적 관계를 개발할 수 있는가?

약어: AI, artificial intelligence; HPE, health professions education.
a AI 신뢰가능성의 세 가지 특성은 Mayer 등의 신뢰가능성 세 차원, 즉 ability, integrity, benevolence에 기반한다.9,13,19

AI에 대한 위임판단 의사결정 Entrustment Decision-Making About AI

이러한 고려사항들이 보여주듯이, AI 도구가 특정 과업 수행을 위임받을 수 있는지는 AI의 내재적 신뢰가능성(intrinsic trustworthiness)에만 의존하지 않는다. 그것은 AI 사용의 맥락, 즉 선행성을 판단하기 위한 맥락, AI를 적절하고 무해하게 배치할 사용자의 책무성, 그리고 환자 진료를 향해 AI, 개발자, 사용자 간 의제와 동기를 정렬시키는 관계에도 의존한다. 이러한 의존성은 감독자가 수련생에 대한 위임판단을 내릴 때 고려하는 요인들과 유사하다. 즉

신뢰자(trustor, supervisor), 수탁자(trustee, trainee), 맥락(context), 관계(relationship), 과업(task)이다(Table 2).18,54,55

이러한 요인들은 종합적으로 AI가 특정 과업 수행을 어느 정도까지 위임받을 수 있는지를 결정한다. 부담(stakes)이 더 높은 과업은 위험을 감수할 수 있는 허용도가 낮기 때문에 더 많은 감독이 필요할 수 있다. 이러한 위험은 AI가 과업에 더할 수 있는 잠재적 가치와 균형을 이루어야 한다.

표 2 Table 2. AI의 HPE 관련 과업 수행에 대한 위임판단에 영향을 미치는 핵심 요인

위임판단 요인	HPE 수련생에게 적용될 때	AI 도구에 적용될 때	AI 맥락에서의 예시 질문
수탁자 Trustee (수련생 Trainee)	수련생 신뢰가능성 특성: 능력, 진실성/성실성, 선의성	AI 신뢰가능성 특성: 능력, 진실성/성실성, 선의성	Table 1 참조
신뢰자 Trustor (감독자 Supervisor)	감독자가 수련생을 신뢰하려는 성향. 이는 개인적 경험과 관점에 의해 형성됨	AI를 신뢰하려는 사용자의 성향. 이는 AI 리터러시(AI literacy)와 HPE 내용 전문성(content expertise)에 의해 형성됨	AI 사용자는 AI 생성 출력의 타당도와 신뢰도를 판단할 만큼 AI와 HPE 관련 전문성에 충분히 익숙한가? AI 사용자는 의도된 맥락에서 AI를 신중하게 사용할 것으로 신뢰될 수 있는가?
맥락 Context	지원의 가용성 및 인지부하(cognitive load)	감독자, 수련생, 환자, 지역사회, 학습환경을 포함한 이해관계자에 대한 영향	AI 도구 사용이 학습환경 내 이해관계자에게 미치는 영향은 무엇인가? AI 도구는 서로 다른 이해관계자 집단에 적용될 때 이익이나 위험 양상이 차별적으로 나타날 수 있는가? 인간 사용자가 AI에 과의존하게 될 가능성이 있는가?
관계 Relationship	수련생과 감독자 사이의 신뢰 관계 상태, 공유 목표 포함	HPE 이해관계자와 AI 개발자 사이의 파트너십 및 공유 동기의 상태	AI 사용자는 HPE 관련 우선순위를 옹호할 수 있도록 AI 개발자와 파트너십을 가지고 있는가? AI 자체는 무감각/비의식적 존재로서 내재적 동기나 인식을 갖지 않을 수 있지만, 개발자는 인간이므로 동기를 가진다.
과업 Task	환자 진료의 중증도(acuity)와 복잡성(complexity)	과업의 부담과 복잡성, 그리고 AI가 가치를 더할 잠재력	AI는 저부담 과업 또는 고부담 과업에 사용되는가(Table 3 참조)? 해당 과업의 부담이 너무 높아서 보건전문직 교육자들이 AI 도구가 만들 수 있는 오류를 감수할 수 없는가? 예를 들어 총괄평가가 이에 해당한다. AI 도구는 사용자 단독 수행보다 더 높은 기준으로 과업을 완료하는가? 예를 들어 효율성을 높이거나 편향을 줄이는가?

약어: AI, artificial intelligence; HPE, health professions education.
a 이러한 요인들은 Hauer 등이 설명한 수련생, 감독자, 맥락, 관계, 과업이라는 다섯 요인에 의존하는 위임판단 의사결정 모델에서 영감을 받았다.18 AI 맥락에서 이름이 달라진 요인의 경우, 원래 이름은 괄호 안에 제시하였다.

위임판단 척도(entrustment scale)는 AI가 각 과업에 어느 정도까지 참여할 수 있는지를 명시적으로 만들어줄 수 있다.56 HPE 수련생에 대한 위임판단에서, 수련생에 대한 감독자의 신뢰는 수련생에게 어느 정도의 감독이 필요한지를 알려준다. 위임판단 척도는 수련생에게 필요할 수 있는 감독의 범위를 나타내며, 수련생이 단지 관찰만 할 수 있는 수준부터 감독 없이 수행할 준비가 된 수준까지 포괄한다. HPE 수련생에 대한 위임판단의 전반적 목표는 결국 감독 없는 실천(unsupervised practice)이지만, 이 목표는 AI에 대한 위임판단에는 적용되지 않을 수 있다. 즉 보건전문직 교육자들이 AI 도구가 결코 자율적으로 수행하기를 원하지 않을 과업들이 존재할 수 있다. 예를 들어, 수련생의 진급(promotion)이나 교정(remediation)에 관한 총괄적 결정(summative decisions)을 내리는 것, 또는 환자 선호와 보건전문직 전문가의 판단을 고려하지 않고 치료 옵션을 결정하는 것 등이 이에 해당한다. 저자들은 이러한 차이를 고려한 대안적 AI 위임판단 척도를 제안한다(Table 3).

AI 지원의 명확한 경계를 정의하는 것은 HPE, 임상 실천(clinical practice), 연구(research)가 만나는 접점에서 특히 중요하다.

교육자에게 도전은 학습자가 자신의 훈련과 직관에 대한 신뢰와 AI 지원에 대한 신뢰를 적절하게 균형 잡을 수 있도록 개발하는 것이다. 예를 들어, AI 보조 내시경(AI-assisted endoscopy)에서 교육자는 AI 지원을 통해 얼마나 많은 훈련이 이루어져야 하는지 결정해야 한다. AI가 이용 가능하지 않을 때 학습자가 과업을 독립적으로 수행하는 능력에 영향을 미칠 수 있기 때문이다. 마찬가지로, 일차자료(primary sources)를 사용하는 연구에서 교육자는 학습자 자신의 출처 평가를 얼마나 강조할지, 편리한 AI 기반 요약에 대한 의존을 얼마나 허용할지 결정해야 한다.

이 질문은 보건전문직 교육자들이 AI가 그러한 과업을 수행하는 것을 신뢰하는지 여부를 넘어선다. 그것은 AI 지원이 없을 때 자신들이 그러한 과업을 수행할 수 있다고 신뢰하는지 여부, 즉 AI 과의존(overreliance)과 전문직 탈숙련(professional deskilling)을 피하는 문제까지 확장된다.8 HPE의 맥락에서 전문직 탈숙련은 AI 과의존으로 인해 실천 및/또는 교육에 필요한 전문직 기술이 감소하는 것을 의미한다. 명시적 위임판단 척도와 위임판단 의사결정 과정은 AI의 기여를 제한하는 경계를 포함할 수 있으며, 이를 통해 최소한의 인간 전문성(human expertise) 수준을 식별하고, 함양하고, 유지할 수 있다. 또한 학습자와 교육자가 AI 위임판단을 실행하고 모니터링하는 데 필요한 역량을 유지하면, AI 과의존과 전문직 탈숙련의 위험을 낮출 수 있다.

표 3 Table 3. HPE 관련 과업 및 그 특성과 관련한 AI 위임판단 척도

위임판단 수준	HPE 관련 과업	과업의 부담	AI의 잠재적 부가가치	AI의 잠재적 위험
1: AI는 과업 수행에서 어떠한 자율적 역할도 맡을 자격이 없다	역량위원회(competency committee)가 이용 가능한 수행 자료를 바탕으로 전공의가 졸업할 수 있는지에 대해 최종 총괄 결정을 내리는 경우	높음	AI가 최종 총괄 결정의 책임을 져서는 안 되지만, 평가위원회가 수행한 작업을 검증하여 추가적 감독층을 제공할 수는 있다	AI는 역량위원회 구성원과 동일한 수준의 주제 전문성(subject matter expertise)을 갖지 못할 수 있다. 인간과 달리 AI는 자신이 어떻게 결정을 내리는지, 또는 서로 다른 근거 조각에 얼마나 강한 가중치를 두는지 설명하지 못할 수 있다
2: AI는 지속적인 인간 감독(constant human supervision) 하에 과업 수행에서 지원적 역할을 맡을 수 있다	임상실습 평가위원회가 특정 역량 또는 마일스톤에 관한 학생의 서면 피드백을 요약하기 위해 AI를 사용하여 피드백의 서면 요약을 제공하는 경우	중간	AI는 요약의 일관성과 공정성을 높이고, 인간 업무부담을 줄이며, 프로그램 전체의 요약 전략 변화를 빠르게 실행할 수 있게 한다	AI는 출처 자료에 있는 편향을 인식하지 못하고 따라서 편향을 지속시킬 수 있다. AI는 요약 시 출처의 우선순위를 정하거나, 작성자가 공손성 전략(politeness strategies) 또는 암호화된 표현(code words)을 사용할 때 이를 식별하는 데 필요한 맥락 지식을 갖지 못할 수 있다74
3: AI는 인간과 동등한 협업(equivalent collaboration)을 통해 과업 수행에 기여할 수 있다	강의의 요점을 설명하기 위해 만화나 그림을 그리는 등 창의적 목적을 위해 생성형 AI를 사용하는 경우	중간	AI는 텍스트와 이미지를 포함한 가능한 콘텐츠를 빠르게 탐색할 수 있게 하여 인간의 창의성을 증강할 수 있다	AI는 창의적 출처를 인용하지 못할 수 있다. “창의적 결과”가 새롭지 않을 수 있고, 심지어 저작권 보호 자료를 나타낼 수 있다. AI 결과에는 부정확한 정보가 포함될 수 있다
4: AI는 제한된 인간 감독(limited human supervision) 하에 과업 수행에서 주도적 역할을 맡을 수 있다	충분한 검증과 훈련이 이루어진 자유응답형 시험 문항의 자동 채점. 예를 들어 채점 루브릭(grading rubric) 또는 구인 지도(construct map)에 기반한 경우75	중간	AI는 교육자의 업무부담을 줄이고, 여러 인간 채점자 간 평정자 간 변동(interrater variability)을 줄일 수 있다	AI 채점은 명확하지 않거나 이전에 알려지지 않은 편향에 취약할 수 있다. AI는 문제에 대한 새로운 해결책을 인식하지 못할 수 있다
5: AI는 과업 수행에서 완전한 자율성(full autonomy)을 가질 수 있다	각 학생의 평가자료 자동 분석에 기반하여 강점과 개선 영역에 관한 개별화된, 순수하게 형성적(purely formative) 통찰과 적시 교육 콘텐츠(just-in-time educational content)를 제공하는 학생 대시보드60	낮음	AI는 실시간 통찰을 제공하고 학생 수행의 미묘한 추세를 식별할 수 있다. AI는 수작업으로 평가하기에는 너무 큰 데이터셋을 분석할 수 있다	AI는 평가에 포함된 잠재적 편향을 인식하거나 걸러내지 못할 수 있다. AI는 더 권위 있는, 또는 덜 권위 있는 출처가 작성한 피드백의 우선순위를 적절히 정하지 못할 수 있다

약어: AI, artificial intelligence; HPE, health professions education.
a 과업의 특성에는 부담, 복잡성, AI가 가치를 더할 잠재력, AI로 인한 잠재적 위험이 포함된다. 과업의 특성과 AI 도구가 이를 수행할 때의 신뢰가능성에 기반하여, AI 도구가 과업 완료에 어느 정도 참여할 수 있는지를 명시하는 위임판단 수준을 부여할 수 있다. 이러한 단계화된 참여 수준은 완전한 AI 자율성부터 AI 자율성 배제까지 범위를 이루며, 특정 HPE 과업에서 AI 참여의 적절성을 평가하는 데 사용할 수 있는 AI 위임판단 척도를 형성한다.

AI를 위한 EPA를 향하여 Toward EPAs for AI

AI를 위한 EPA를 개발한다는 것은 보건전문직 교육자들이 AI가 수행하거나 도울 수 있다고 신뢰하는 과업을 식별하고, 정의하고, 구체화하는 것을 포함한다. AI가 광범위한 HPE 활동을 지원할 수 있는 잠재력은 이미 폭넓게 검토되어 왔다.1–3,20,50,57–59 이러한 활동은 세 이해관계자 집단, 즉 수련생(trainees), 교수진(faculty), 프로그램(programs)을 중심으로 구성된다.

수련생에게 AI는 특정 질문에 답하고 진행 중인 작업에 피드백을 제공할 수 있다. 학생들은 학습 가이드(study guides)와 연습시험(practice tests)을 만들기 위해 AI 도구를 사용한다.5 머신러닝 모델은 여러 출처의 수행 데이터를 종합하는 피드백 대시보드(feedback dashboards)를 학생에게 제공하고60 맞춤형 학습 콘텐츠(customized learning content)를 제공할 수 있다.61
교수진은 수련생 평가를 생성하고 채점하는 데, 그리고 수련생이 왜 문항에 잘못 답했는지를 이해하는 데 AI를 사용해 왔다.62,63 또한 교수진은 표준화 환자(standardized patients)를 닮도록 훈련된 챗봇64이나 AI 강화 술기 시뮬레이션에서 현실적인 생리학적 반응(physiologic responses)을 생성하는 방식63처럼 교육과정(curricula)을 향상시키는 데 AI를 사용할 수 있다.
프로그램, 즉 임상실습(clerkships), 전공의 과정(residencies), 펠로우십(fellowships)은 지원자 선별을 자동화하고4 평가를 위한 다지점 피드백(multipoint feedback)을 종합하기 위해 AI를 사용해 왔다.65 프로그램 평가(program evaluation)는 지속적 질 개선(continuous quality improvement)과 평가자료에서 젠더 또는 기타 인구학적 특성과 관련된 편향을 식별하는 데 AI를 통합할 수 있다.43,66

AI를 기존 또는 제안된 적용에 활용하기 위해 EPA 설명서를 구성할 수 있다.

AI를 위한 EPA 설명서는 AI가 기여할 수 있는 구체적 하위과업(subtasks), AI 사용의 위험, AI에 요구되는 지식과 내용 전문성(knowledge and content-expertise), AI 수행을 평가하는 데 필요한 방법과 정보 출처, AI 참여의 한계, 인간 감독의 필요에 관한 지침을 제공할 것이다.
저자들은 Ten Cate와 Taylor의 EPA 설명 템플릿67을 모델로 하여, 강의식 과정(didactic course)에 관련된 학습자 지식을 측정하기 위한 평가자료 생성 과업을 중심으로 예시 EPA 설명서를 개발하였다(Table 4). 생성형 AI 모델에 대한 경험이 증가함에 따라, 모델의 개선(Figure 1)은 EPA 하위과업과 관련하여 능력과 신뢰성을 향상시킬 수 있다. AI가 이러한 하위과업을 수행하도록 점진적으로 위임(progressive entrustment)하는 것은 EPA의 위험 설명(section 3)에 제시된 위험의 완화에 기반할 것이며, 인간 감독 요구사항(section 9)에 의해 요구되는 최대 허용 위임수준(section 7)까지 가능하다.

표 4 Table 4. AI가 HPE 관련 과업을 수행하기 위한 EPA 예시

구분	설명
1. “EPA 제목”67	강의식 과정(didactic course)에 관련된 학습자 지식을 측정하기 위한 평가자료 생성
2. “구체화 및 제한사항 Specification and limitations”67	이 EPA는 임상 강의계획서(clinical didactic syllabus)와 관련된 핵심 개념에 대한 학습자의 지식과 이해를 효과적으로 측정하는 평가자료를 만드는 능력을 포함한다. 적용 예시는 다음과 같다. • 자기학습 퀴즈, 과제, 중간고사 또는 기말고사를 포함하여 형성적 또는 총괄적 목적의 평가자료 개발 • 평가해야 할 핵심 지식과 술기를 결정하기 위해 이용 가능한 강의자료와 자원, 예를 들어 교과서, 임상진료지침, 동료심사 출판물에 대한 검토 수행
3. “실패 시 잠재적 위험 Potential risks in case of failure”67	• 학습자 지식의 근본적 공백이나 결함이 식별되지 않아 학습자 능력에 대한 부정확한 평가로 이어짐 • 평가자료가 관련 없는 정보나 부정확한 정보를 반영하여 학습자의 혼란 또는 사실적으로 부정확한 지식의 습득으로 이어짐
4. 인간 수행에 해당하는 동등 역량 영역 Equivalent competency domains for human performance	이 과업을 수행하는 인간에게 비교 가능한 역량은 다음을 포함할 수 있다. • 의학지식(medical knowledge) • 실천 기반 학습과 개선(practice-based learning and improvement)
5. 요구되는 지식, 역량, 신뢰성, 적응성 Required knowledge, capability, reliability, and adaptability	• 해당 주제 영역 내에서 정확하고 신뢰할 수 있으며 충분한 임상지식 • 의도된 학습자 집단의 학습 요구에 대한 적응성 • 다른 과정에서 AI 기반 평가 생성의 이전 적용 경험
6. 수행 평가를 위한 정보 출처 Information sources to assess performance	• 평가자료의 질에 대한 학습자 피드백 • 검사 통계(test statistics) 평가: 문항 난이도(item difficulty), 변별도(discrimination index), 신뢰도(reliability) • 질문 또는 문항에 대한 교수진 검토
7. 최대, 이상적, 및/또는 허용 가능한 위임수준 Maximum, ideal, and/or allowable entrustment level	AI가 인간의 검토 없이 완전히 독립적으로 이 과업을 수행하는 것은 이상적이지 않다. 따라서 최대 위임수준은 “3 - AI는 인간과 동등한 협업을 통해 과업 수행에 기여할 수 있다”가 될 것이다.
8. AI 알고리즘과 데이터셋의 유지관리에 관한 고려사항 Considerations for the maintenance of AI algorithms and datasets	의학지식은 변화할 수 있으며, AI 모델에 제공되는 강의자료도 변화할 것이다. 최소 요구사항은 해당 과정이 개설될 때마다 생성형 AI 모델에 제공되는 강의자료를 업데이트하는 것일 수 있다.
9. 인간 감독이 필요한 특정 영역 Specific areas requiring human oversight	• 핵심 지식의 식별: AI는 관련 문헌을 수집함으로써 도움을 줄 수 있지만, 인간은 문헌을 검토하고 어떤 핵심 지식이 평가되어야 하는지를 결정해야 한다. • 지속적 질 개선: 인간은 시간이 지남에 따라 AI의 문항 생성 알고리즘 개선을 위한 피드백을 제공하고, 평가의 엄밀성(rigor)을 유지하기 위해 정기적으로 강의자료를 검토해야 한다. • 편향 분석: 과정 책임자(course directors)는 생성된 평가에서 편향의 증거를 검토해야 한다. 여기에는 문항 텍스트의 편향된 언어, 임상 사례(vignettes)가 사용되는 경우 환자 집단의 공평한 대표성, 잠재적 차별문항기능(differential item functioning)이 포함된다.75

약어: EPA, entrustable professional activity; AI, artificial intelligence; HPE, health professions education.

a 구분은 Ten Cate와 Taylor가 권장한 EPA 설명 방식에 기반하되, AI를 HPE 수련생이 아닌 수탁자로 적용할 수 있도록 수정하였다. 그들의 프레임워크 중 1–3번 구분은 AI에도 직접 적용 가능하며, 나머지 구분은 다음 각주에 표시된 대로 수정 또는 추가되었다.
b AI 과업 수행을 위한 역량 정의는 아직 존재하지 않는다. 따라서 이 구분은 해당 과업을 수행하는 인간에게 정의된 동등 역량을 참조할 수 있다.
c 지식, 역량, 신뢰성, 적응성은 Table 1에 설명된 AI 신뢰가능성의 특성과 관련된다.
d EPA 평가의 목적은 종종 HPE 수련생의 진전을 판단하는 것이지만, AI의 경우 진전보다 수행이 더 중요할 수 있다. 즉 특정 과업에 대해 AI를 위임하는 것은 점진적 위임 준비보다 질 유지에 의해 동기화될 수 있다.
e 이러한 구분은 HPE 수련생을 위한 Ten Cate와 Taylor의 프레임워크67에는 직접 대응되는 항목이 없으며 AI 특화 항목이다. 예를 들어, 7번 구분은 보건전문직 교육자들이 특정 과업에 대해 AI가 자율적으로 수행하는 것을 결코 신뢰하고 싶지 않을 수 있다는 사실을 반영한다.

위임판단 유지하기: AI와 보건전문직 전문가 및 교육자에 대한 신뢰 증진 Maintaining Entrustment: Advancing Trust in AI and Health Professions Professionals and Educators

위임판단은 정적인 것이 아니다. 오히려 Table 2의 요인들을 지속적으로 모니터링할 것을 요구하며, 이는 수련생, 감독자, 프로그램이 공유하는 책임이다. 학습 목적으로 AI를 사용하는 수련생은 AI 생성 출력의 신뢰가능성을 지속적으로 평가하는 능력을 개발해야 한다.68,69 이 능력에는 근거 평가(evidence appraisal)의 일반 역량도 포함되지만, 더욱 중요하게는 수련생이 점차 발전시키는 HPE 특이적 내용 전문성(HPE-specific content expertise)에 의존한다. 수련생이 의학지식과 임상판단에서 역량을 개발함에 따라, AI에 대한 자신의 신뢰를 평가할 수 있는 능력도 점차 증가할 것이다.

수련생과 함께 일하는 감독자들은 학습에 사용되는 AI 도구의 신뢰가능성을 모니터링할 책임을 공유하며, 이러한 도구의 효과적 사용을 안내하고 환자 진료에서 신중한 AI 사용을 모델링해야 한다.

경험 많은 감독자는 전문 임상의이자 교육자로서의 관점을 가지고 있으므로, 특정 맥락에서 AI 도구의 출력이 도움이 되는지 또는 적용 가능한지를 빠르게 평가할 수 있다. 이러한 판단은 초보 학습자가 독립적으로 내리기 어려울 수 있다.
따라서 AI에 대한 건전한 위임판단을 내릴 책임은 보건전문직 전문가와 교육자가 자신의 능력을 유지하고 개발할 것을 요구하며, 이를 통해 AI 과의존을 억제하고 전문직 탈숙련을 최소화한다.

프로그램은 이러한 학습과 환자 진료 과정의 질을 감독할 책임이 있으며, 수련생의 성장을 지원하고 감독자 전문성의 가치를 극대화하는 AI 통합 정책을 개발해야 하는 추가적 책임도 가진다. 여기에는 평가에서 수련생의 AI 사용을 제한하는 것과 같은 적절한 AI 사용에 관한 정책 개발, 그리고 AI 보조 환자 진료를 위한 지속적 질 개선 과정을 개발하는 것이 포함될 수 있다. AI를 위한 EPA와 접점을 이루는 HPE 수련생의 진화하는 역량과 EPA70–73는 AI를 보건의료 전달과 학습에 통합하는 데 필수적일 것이다. 마지막으로, 프로그램은 AI 위임판단을 달성하기 위한 공유 목표를 창출하기 위해 AI 개발자와 전략적 파트너십을 형성하는 방안을 탐색할 수 있다. 이러한 협력에는 개발자 제품이 보건의료 환경에서 사용되기 전에 준수해야 할 AI 신뢰가능성에 대한 엄격한 기준을 수립하는 것이 포함될 수 있다.

보건전문직 교육자들은 AI를 신뢰하는지, 그리고 AI를 HPE 실제에 신중하게 통합할 수 있도록 자기 자신을 신뢰하는지를 물어야 하는 책임에 직면해 있다. AI를 책임 있고, 신뢰 가능하며, 윤리적으로 사용하기 위해서는 교육자들이 AI를 교수, 학습, 실천에 사용할 때 필요한 보호장치를 개발해야 한다. 이러한 가드레일은 AI에 위임판단 개념을 적용함으로써 운영화될 수 있다.

HPE는 곧 충분한 투명성이나 자기 감독을 제공할 수도, 제공하지 않을 수도 있는 수많은 AI 도구의 폭격을 받게 될 것이다. 이러한 도구들은 실용성이나 효율성 관점에서 사용할 만큼 매력적으로 보일 수 있다. AI 위임판단에 관한 명시적 프레임워크를 개발하는 것은

모든 AI 도구의 신뢰가능성을 능력, 진실성/성실성, 선의성(Table 1)을 통해 다루고,
AI 도구가 실제에 통합될 때의 경계를 정의하는 위임수준(Table 3)을 제시하며,
위임수준을 결정하기 위한 명확하고 투명한 위임판단 의사결정 과정(Tables 2 and 3)을 제공한다.
보건전문직 교육자들이 이러한 AI 도구가 등장할 때마다 AI를 위한 EPA를 개발한다면, AI 도구가 기여할 수 있는 과업을 식별하고, 그 한계를 명확히 하며, 예상되는 위험에 대한 지침을 제공하고, 수행을 모니터링하기 위한 전략을 제안할 수 있다(Table 4).

AI 위임판단에 대한 감독을 유지하는 수련생, 감독자, 프로그램의 공유 책임은 AI 과의존과 전문직 탈숙련으로부터 보호할 것이다. 이러한 보호장치가 없다면, HPE 실제는 학습자와 환자와 함께 구축되는 신뢰와 투명성에 뿌리를 둔 HPE 원칙에 따라 형성되기보다는, 상업적 동기에 묶인 AI 혁신의 다가오는 파도에 의해 형성될 위험이 있다.

그림 1 Figure 1 HPE 수련생과 AI 도구에 대한 EPA를 통한 위임판단 과정을 보여주는 도식.

EPA는 위쪽의 HPE 수련생 또는 아래쪽의 AI 도구가 수행할 수 있는 임상 또는 교육 과업을 의미한다. EPA 수행은 Table 2에 제시된 요인을 고려하는 직무기반평가(workplace-based assessments, WBAs)를 통해 평가되며, 이는 위임판단 결정으로 이어진다. 위임판단 결정은 위임수준(Table 3)을 결정하고, 이는 가드레일, 감독 필요성, 실천 또는 참여의 한계를 정의한다. 위임판단 결정은 또한 반복적 순환(iterative cycle) 속에서 향후 EPA 수행을 위한 학습 또는 개선을 촉진하기 위해 의도된 교육적 개입(educational intervention) 또는 AI 도구 수정(AI tool modification)으로 이어질 수 있다.
약어: HPE, health professions education; AI, artificial intelligence; EPA, entrustable professional activity; WBAs, workplace-based assessments.

'논문 읽기 (with AI)' 카테고리의 다른 글

똑똑하게 공부하기: 학습전략 훈련이 학생의 학습행동과 학업성취에 미치는 영향 (Adv Health Sci Educ Theory Pract. 2023) (0)	2026.05.01
피드백 루프와 장기적 관점: 피드백 나선으로 나아가기 (Assessment & Evaluation in Higher Education, 2019) (0)	2026.05.01
피드백 풀어헤치기: 실천 뒤에 놓인 패턴을 지도화하기 (Med Educ. 2025) (0)	2026.05.01
액티브 러닝의 정의: 제한적 체계적 문헌고찰 (Teaching & Learning Inquiry: The ISSOTL Journal, 2023) (0)	2026.04.16
모든 성찰이 같은 것은 아니다: 자기성찰이 아니라 성찰적 실천이 인도네시아 의과대학생의 전문직 정체성 형성과 상관된다 (Med Educ. 2026) (0)	2026.04.16

의대에서 교육하고 있습니다.