지금의 긴급성: 의학교육 프로그램에서 평가 실천을 재고하고 개선하기 (Acad Med. 2023)

Meded 2026. 3. 29. 22:44

2026. 3. 29. 22:44

Acad Med. 2023 Aug 1;98(8S):S37-S49. doi: 10.1097/ACM.0000000000005251. Epub 2023 Apr 18.

The Urgency of Now: Rethinking and Improving Assessment Practices in Medical Education Programs

Eric S Holmboe 1, Nora Y Osman 2, Christina M Murphy 3, Jennifer R Kogan 4

요즘 의학교육에서 '평가(assessment)'를 둘러싼 논의가 뜨겁습니다. 역량바탕의학교육(competency-based medical education, CBME)이 도입된 지 20년이 넘었지만, 정작 현장의 평가 방식은 얼마나 바뀌었을까요? ACGME의 Eric Holmboe를 필두로 한 저자들이 Academic Medicine 특별호에 기고한 이 논문은, 의학교육 평가의 현주소를 진단하고 구체적인 개선 방향을 제시합니다. 핵심 내용을 함께 살펴보겠습니다.

1. 평가는 전문직 발달(professional development)을 지원해야 한다

저자들이 가장 먼저 지적하는 문제는, 현재 의학교육 시스템이 학습자를 마치 '조립 라인 위의 균일한 제품'처럼 취급한다는 점입니다.

"현재 대부분의 의학교육 교육과정과 평가 프로그램은 이러한 현실을 무시하고, 개별 학습자를 분절된 교육과정과 평가 조립 라인 위를 이동하는 하나의 단일한 제품으로 취급한다." ("The current design of most medical education curricula and assessment programs disregards this reality and treats each individual learner as a monolithic product moving along a disjointed curricular and assessment assembly line.")

학습자마다 역량별 발달 궤적(developmental trajectory)이 다르다는 것은 이미 잘 알려진 사실인데, 평가 시스템은 이를 반영하지 못하고 있다는 거죠. 저자들은 학습을 위한 평가(assessment for learning)가 학습에 대한 평가(assessment of learning)보다 훨씬 중요하다고 강조합니다. 발달적 관점에서 성장 마인드셋(growth mindset)을 기반으로, 빈번한 저부담 평가(low-stakes assessment)와 개별화된 코칭(individualized coaching)이 결합되어야 한다는 것이 핵심 메시지입니다.

2. 🚨 편향(bias)을 정면으로 마주해야 한다

이 논문에서 가장 강한 어조로 다뤄지는 부분이 바로 평가에서의 편향 문제입니다. 저자들은 구조적 편향(structural bias), 명시적 편향(explicit bias), 암묵적 편향(implicit bias) 모두를 다층적으로 다뤄야 한다고 주장합니다.

의학에서 과소대표 집단(underrepresented in medicine, URiM) 학습자들이 교수로부터 더 낮은 평가를 받고, 시험 성적이나 우등 학회(honor society) 입회에서 인종 간 격차가 존재한다는 연구 결과가 축적되어 있습니다. 저자들은 이 효과가 누적된다는 점을 특히 강조합니다.

"평가에서의 작은 차이가 향후 훈련 및 고용 기회의 격차로 이어지는데, 이를 증폭 연쇄(amplification cascade)라고 한다." ("Small differences in assessment translate to disparities in future opportunities, including training and employment, a phenomenon described as the amplification cascade.")

평가 도구 자체의 편향뿐 아니라, 학습 환경에 내재된 구조적 편향, 개별 평가자의 편향, 그리고 임상역량위원회(Clinical Competency Committee, CCC) 같은 집단 의사결정 과정에서의 편향까지 모두 함께 다뤄야 한다는 것이 저자들의 입장입니다.

📋 편향 줄이기 위한 5가지 전략

논문에서는 Table 3을 통해 다섯 가지 실천 전략을 제시합니다.

고정관념 대체(Stereotype replacement): 고정관념이 활성화된 순간을 인지하고, 비고정관념적 사고로 대체하기
관점 취하기(Perspective taking): 소수화된 집단의 입장에서 상황을 상상해보기
개별화(Individuation): 집단 소속이 아닌 개인의 고유한 특성에 초점 맞추기
반고정관념적 상상(Counterstereotypic imaging): 고정관념에 반하는 구체적인 사례를 떠올리기
접촉 기회 확대(Increased opportunities for contact): 고정관념의 대상이 되는 집단과 의미 있는 시간 보내기

3. 시스템 사고(systems thinking)로 평가 프로그램을 바라봐야 한다

저자들은 평가 프로그램을 훈련 프로그램 안의 하나의 하위 시스템(subsystem)으로 봐야 한다고 제안합니다. 시스템의 구성 요소에는 사람(학습자, 동료, 교수, 다직종 팀원, CCC), 도구(시험, 사례 발표), 기술(학습관리시스템, 스마트폰 앱) 등이 포함되는데, 저자들은 그중에서도 사람이 가장 중요한 요소라고 말합니다.

프로그래밍 평가(programmatic assessment)를 설계할 때 참고할 수 있는 핵심 원칙들도 제시됩니다. 몇 가지만 꼽으면 다음과 같습니다.

역량(competence)은 일반적인 것이 아니라 맥락 특이적(context-specific)이다
양적 척도(quantitative scales)가 질적 서술(qualitative narratives)보다 반드시 나은 것은 아니다
평가자가 분산(variance)의 주된 원인이므로, 평가자 훈련(rater training)이 필수적이다
학습자가 평가 정보에 접근할 수 있어야 한다: "나에 대한 것은 나 없이 하지 말라(Nothing about me without me)"

4. 📝 구체적인 평가 개선 방안들

평가의 '왜(Why)'를 명확히 하기

저자들은 개별 평가 도구를 도입하거나 수정할 때, 6가지 W(Why, Who, What, How, When, Where)를 체계적으로 검토해야 한다고 제안합니다. COVID-19 팬데믹이 USMLE Step 2 CS의 영구 폐지, Step 1의 Pass/Fail 전환 등 큰 변화를 촉발한 만큼, 이 시점이야말로 평가의 목적을 재정립할 기회라는 것이죠.

직장기반평가(Workplace-Based Assessment, WBA) 강화

학습자가 전문직 발달의 연속선(continuum)을 따라 성장할수록, 직접 관찰(direct observation)에 기반한 직장기반평가의 비중을 높여야 합니다. 저자들이 제안하는 평가 순서(Figure 1)가 인상적인데, 핵심은 서술 먼저, 점수는 나중에(Narrative Description First)라는 원칙입니다. 관찰한 내용을 먼저 풍부하게 서술하고, 학습자와 피드백 및 코칭 대화를 나눈 다음, 마지막에 위탁(entrustment) 등급이나 마일스톤(milestone) 평정을 하라는 것입니다. 매 단계에서 편향을 점검할 수 있는 '공정성 멈춤(equity pause)' 또는 '편향 타임아웃(bias timeout)'의 기회가 주어집니다.

서술 평가(narrative assessment)의 가치

숫자 점수에 대한 과도한 의존을 경계하면서, 저자들은 서술 평가의 신뢰도와 가치를 강조합니다.

"서면 코멘트를 사용하여 레지던트 간 차이를 구별하는 것은 몇 개의 보고서만 수집한 후에도 극도로 높은 신뢰도를 보일 수 있다. 이는 주의가 필요한 레지던트를 조기에 식별할 수 있는 방법을 시사한다." ("Using written comments to discriminate between residents can be extremely reliable even after only several reports are collected. This suggests a way to identify residents early on who may require attention.")

귀인(attribution)에서 기여(contribution)로

대부분의 평가는 특정 학습자에게 결과를 귀속시키는 귀인(attribution) 관점에서 이루어지지만, 실제 임상에서는 팀이 함께 돌봅니다. 저자들은 앞으로의 평가가 학습자 개인의 기여(contribution)와 팀 기능을 함께 파악하는 방향으로 나아가야 한다고 주장합니다.

5. 🤝 학습자와의 공동생산(coproduction)

이 논문에서 특히 인상 깊은 개념이 공동생산(coproduction)입니다. 임상에서 환자와 전문가가 함께 의료를 만들어가듯, 교육에서도 학습자와 교수·프로그램이 평가를 함께 설계하고 수행하고 해석해야 한다는 것입니다.

"환자와 의료진의 관계처럼, 학습자와 교수 사이의 관계 역시 결과를 최적화하기 위해 각자의 전문성이 시스템, 지역사회, 사회의 맥락 안에서 통합되어야 한다."
("… like the relationship between patients and providers, the relationship between learner and teacher requires the integrated expertise of each nested in the context of their system, community, and society to optimize outcomes.")

저자들은 전통적 평가 모델과 공동생산 모델을 Table 4에서 체계적으로 비교합니다. 전통적 모델이 학습자를 '제품'으로, 교수를 일차 평가자로 보고 총괄적·회고적 평가에 초점을 맞추는 반면, 공동생산 모델에서는 학습자를 능동적 파트너로 보고, 형성적·서술적 평가를 강조하며, 평가 정보의 소유권도 학습자에게 부여합니다.

핵심은 평가가 학습자에게 '행해지는(done to)' 것이 아니라 학습자와 '함께 이루어지는(done with)' 것이어야 한다는 점입니다.

6. 실행과학(implementation science)의 활용

마지막으로 저자들은, 이미 우리에게는 충분한 평가 도구와 접근법이 있다는 점을 상기시킵니다. 문제는 그것들을 '어떻게' 효과적으로 실행하느냐에 있으며, 이를 위해 실행과학의 프레임워크, 특히 CFIR(Consolidated Framework for Implementation Research)을 활용할 것을 권고합니다.

"궁극적으로, 프로그램의 설계와 운영은 도착지에 관한 것이 아니라, 교육 접근법을 지속적으로 개선하기 위한 끊임없는 발달적 여정이다." ("Ultimately, designing and running programs is not about a destination, but rather an ongoing developmental journey to continuously improve educational approaches.")

💡 의학교육 프로그램이 지금 당장 할 수 있는 일들

논문 말미의 Appendix 1에서 저자들은 10가지 실행 과제를 제시합니다. 그중 특히 주목할 만한 것들을 뽑으면:

대부분의 평가를 발달적으로 설계하고 초점을 맞출 것
평가 데이터를 활용하여 편향의 원인을 조사하고 대응할 것
직장기반평가와 서술 평가를 강화할 것
학습 분석(learning analytics)을 활용하여 학습자 발달과 프로그램 개선을 지원할 것
모든 교수와 학습자의 평가 역할을 명시적으로 정의할 것
공동생산(coproduction)을 평가 실천에 접목할 것
평가 관행 변화에 대한 관성을 정직하게 직면할 것

🔖 읽고 나서

이 논문의 가장 큰 미덕은, 평가 개선을 단순히 '더 좋은 도구를 개발하자'는 기술적 차원이 아니라, 발달적 마인드셋, 편향에 대한 구조적 대응, 학습자와의 공동생산, 그리고 시스템 사고라는 원칙적 차원에서 접근한다는 점입니다. ACGME 워크숍이나 교육과정 개편을 준비하는 분들이라면, 이 논문이 '우리 프로그램의 평가는 어디에 서 있는가'를 점검하는 좋은 출발점이 될 것 같습니다.

특히 한국 의학교육 맥락에서도, 졸업후의학교육 인증평가(수련환경평가)에서 평가 시스템에 대한 요구가 강화되고 있는 만큼, 이 논문이 제시하는 프로그래밍 평가의 원칙과 편향 대응 전략은 실질적인 참고가 될 수 있을 것입니다.

20세기 후반, 보건의료 체계의 심각한 결함(serious deficiencies in health care)에 대한 인식이 커지면서, 보건의료 체계 성과(health care system performance)를 개선하기 위해 보건의료전문직 전반에서 교육의 역할을 재검토하게 되었다. 이러한 검토의 결과로, 특히 의사 교육(education of physicians)으로 대표되는 의학교육 체계(medical education enterprise)는 성과기반 의학교육(outcomes-based medical education) 프로그램을 개발하라는 대중과 규제기관(regulatory bodies)의 압력을 받게 되었다. 역량(competencies)은 “지식(knowledge), 기술(skills), 가치(values), 태도(attitudes)와 같은 여러 요소를 통합하는 보건의료전문직의 관찰 가능한 능력(observable abilities of a health professional)”으로 정의되며, 현재 학습자의 교육성과(educational outcomes)를 규정하는 지배적 틀이 되었다.1

역량기반 의학교육(CBME)은 훈련의 목표, 곧 환자(patient), 가족(families), 지역사회(communities)의 건강 및 보건의료 요구를 진정으로 충족할 준비가 된 의사를 길러 내기 위해 효과적인 평가(effective assessment) 에 의존한다. 미국에서 대학원 의학교육(graduate medical education, GME) 성과 프로젝트(Outcome Project, 2001)와 학부 의학교육(undergraduate medical education, UME) 의과대학 목표 프로젝트(Medical School Objectives Project, 1996)가 출범한 이후(그리고 캐나다, 영국 등지의 유사한 노력 이후) 평가 분야에는 의미 있는 진전이 있었지만, UME와 GME 훈련 프로그램은 여전히 효과적인 평가 실천을 약화시키는 도전에 직면해 있다.2,3

그러한 중요한 도전 가운데 하나는 지속적이고 해로운 편향(ongoing and pernicious effects of bias) 이다. 인종/민족 집단 중 의학 분야에서 전통적으로 과소대표된 집단(underrepresented in medicine, URiM)을 포함하여, 평가에서 편향으로 인해 주변화되기 쉬운 다른 집단(예: 여성, 성적 및 젠더 소수자(sexual and gender minorities)로 정체화하는 사람들, 장애를 가진 사람들, 국제의대졸업생(international medical graduates) 등)의 학습자는 전문직 발달에서 추가적인 장애물에 직면한다. 또 다른 도전은 교육 프로그램 설계(educational program design)의 관성(inertia) 과 관련된다.

예를 들어, 너무 많은 UME 및 GME 프로그램이 여전히 교육활동(educational activities)의 만족스러운 이수(satisfactory completion)와 역량(competence)을 사실상 동일시하는 전제 위에서 교육 프로그램을 설계하고 운영한다. 이러한 틀에서는 교수(faculty)와 프로그램이 대체로 시간 기반 활동(time-based activity, 예: 임상실습 clinical rotation)의 만족스러운 완료 여부를 판단하기 위해 평가를 사용한다. 또한 교수와 프로그램은 구두 환자발표(oral patient presentations)나 수련 중 시험 성적(in-training examination performance)과 같은 임상역량(clinical competence)의 지표(proxy)를, 학습자가 환자진료(patient care)와 의사소통기술(communication skills)의 역량을 가졌다는 근거로 사용하곤 한다. 그러나 이때 학습자가 환자와 가족을 실제로 진료하는 모습을 직접 관찰(direct observation) 하지는 않는다.

면허시험(licensing examinations)과 자격인증시험(certification examinations)과 같은 고부담 시험(high-stakes testing)은 학습자가 훈련의 특정 단계를 만족스럽게 완료했다는 어느 정도의 보장을 제공한다. 그러나 이제는 환자 및 가족과 함께 있는 학습자를 직접 관찰하지 않은 평가에 과도하게 의존할 경우, 불충분한 교육성과(suboptimal educational outcomes) 가 발생할 수 있다는 근거가 충분하다. 그러므로 교육자와 프로그램은 학습자의 발달 궤적(developmental trajectories)을 지원하는 평가 접근과 도구를 통합적 프로그램 평가(integrated programmatic assessment) 의 일부로 설계해야 한다. 그러나 CBME를 지지하는 가장 강력한 평가 프로그램조차도 해결되어야 할 다양한 형태의 편향에 취약할 수 있다.

CBME의 완전하고 효과적인 도입을 더 잘 지원하기 위해, 우리는 먼저 아래에서 훈련 프로그램 내 프로그램적 평가(programmatic assessment) 가 바람직한 의학교육 성과를 달성하고 특정 학습자 집단을 주변화할 수 있는 편향의 해로운 영향을 줄이기 위해 반드시 수용해야 할 포괄적 원리(overarching principles)를 설명한다. 그런 다음 평가의 구체적 측면을 탐색하고, 평가 실천을 개선하고 편향을 줄이기 위한 단계적 제안을 제시한다. 이 관점 논문이 평가 개선의 모든 과제나 가능한 해결책을 다 담을 수는 없지만, 후속 대화를 촉진하여 혁신과 실행(implementation)을 이끄는 데 도움이 되기를 바란다.

프로그램적 평가를 개선하기 위한 포괄적 원리 (Overarching Principles to Improve Programmatic Assessment)

프로그램적 평가는 전문직 발달을 지원해야 한다 (Programmatic assessment must support professional development)

과거와 현재의 평가 실천은 학습자가 몇몇 특정 시점(specific points in time) 에 지식이나 기술을 보여주는 데 지나치게 초점을 맞추어 왔다. 이러한 좁은 렌즈를 통해 볼 때, 미국의 의학교육 체계는 학습자의 임상역량(clinical competence)을 판단하기 위해 고부담 시험(high-stakes examinations)과 실습 종료 후 총괄평가(end-of-rotation summative assessments)에 크게 의존한다. 이러한 접근은 학습자, 교수, 훈련 프로그램 모두에게 발달 마인드셋(developmental mindset)이나 성장 마인드셋(growth mindset)을 지원하지 못한다.4

학습자의 발달 궤적(individual development trajectories)은 역량별로 다르게 나타난다는 사실이 잘 확립되어 있다.5 그러나 현재 대부분의 의학교육 교육과정(curricula)과 평가 프로그램 설계는 이 현실을 무시하고, 각 학습자를 분절된 교육과정 및 평가 조립 라인(disjointed curricular and assessment assembly line)을 따라 이동하는 단일한 산출물(monolithic product)처럼 다룬다. 예컨대 대부분의 평가는 전문성(expertise) 획득을 위한 의도적 연습(deliberate practice), 학습자 발달의 단계모형(stage models of learner development), 숙달기반 학습(mastery-based learning) 과 같은 이론을 충분히 반영하지 못한다.2,6,7 이러한 이론들은 이제 의학교육 개선의 실행 노력을 이끌어야 하는 CBME 핵심 구성요소 틀(core components framework)의 토대가 된다.8

중요하게도, CBME 핵심 구성요소 틀은 학습자가 각자의 학습 궤적(individual learning trajectories)을 따라가며 발달 마인드셋과 성장 마인드셋 을 획득하는 데 초점을 둔다.4,8 학습 경로(learning paths)의 개별화(individualization)는 학습자의 실제 경험(lived experiences)이 그들의 전문직 발달과 전문직 정체성 형성(professional identity formation) 에 통합되도록 해 준다.

발달의 렌즈(developmental lens)로 보면, 학습을 위한 평가(assessment for learning) 는 학습의 평가(assessment of learning) 보다 훨씬 중요하다. CBME 평가는 각 학습자가 무엇을 할 수 있는지, 그리고 무엇을 할 수 없는지를 식별하도록 발달적으로 설계되어야 한다. 후자 역시 전자만큼이나 중요하다.

더 나아가, 학습자는 적시에 제공되는 평가 피드백(timely assessment feedback)에 거의 접근하지 못하며, 이로 인해 평가 결과를 사용해 목표(goals)를 설정하고 이를 달성하기 위한 실행계획(action plans)을 수립하는 능력이 약화된다. 성장 마인드셋을 장려하는 발달적 접근은 교수법(instructional methods), 학습경험(learning experiences), 평가 실천(assessment practices)을 대대적으로 재설계하는 토대가 되어야 한다.4,6,7 훈련 프로그램은 빈번한 저부담 평가(low-stakes assessment), 풍부한 피드백, 개별화된 코칭(individualized coaching)을 통해 바람직한 역량의 성장과 발달을 촉진하는 데 초점을 두어야 한다.8

프로그램적 평가는 구조적 편향과 개인적 편향을 다루어야 한다 (Programmatic assessment must address structural and individual bias)

의학교육과 평가에서 지속적이고 해로운 편향의 영향을 직면하고 해결해야 할 긴급한 필요가 있다. 편향은 여러 수준(multiple levels)에서 발생할 수 있다.

구조적 편향(structural bias) 은 의과대학, 병원과 같은 기관(institutions)의 패턴과 실천이 특정 집단에는 이점을 주고 다른 집단에는 불이익을 주는 현상을 말한다.
개인 수준에서 명시적 편향(explicit bias) 은 타인이나 집단에 대해 의식적으로 지니는 신념과 태도(conscious beliefs and attitudes)이며,
암묵적 편향(implicit bias) 은 특정 사회집단이나 그 구성원에 대해 개인이 지니는 편견적 태도(prejudicial attitudes) 와 고정관념적 신념(stereotypical beliefs) 을 뜻한다.9

문헌은 URiM 학습자 또는 평가 실천에서 주변화될 위험이 있는 다른 학습자에게 작용하는 암묵적 편향과 교육적 불평등(educational inequity)의 요인과 해로운 효과를 점점 더 많이 보여 주고 있다. 편향은 교수-학습 관계(teaching dyads or teams) 같은 대인적 수준에서부터, 합격선이 있는 표준화 시험(standardized exams with grade cutoffs) 같은 구조적 현상까지 광범위하게 영향을 미친다. Hagiwara는 암묵적 편향이 정서적 요소(affective components) 와 인지적 요소(cognitive components) 를 모두 지니며, 교육자들은 편향 감소 개입을 고려할 때 편견(prejudice) 과 고정관념(stereotyping) 의 차이를 인식해야 한다고 말한다.9

편견은 실제 경험과 무관하게 특정 개인이나 집단에 대해 미리 형성된 부정적 태도(negative attitudes)와 관련되고,
고정관념은 특정 집단에 대한 경직되고 과도하게 일반화된 신념을 뜻한다.

이러한 편견적 태도와 고정관념적 신념은 자발적으로 활성화되어 개인의 교수행동(teaching behaviors)과 평가행동(assessment behaviors)을 변화시킬 수 있다. 마찬가지로 구조(structures)와 정책(policies) 역시 이러한 행동을 재생산하여 편향되고 불평등한 학습환경(biased and inequitable learning environment)을 만들 수 있다.

평가는 교육환경(learning environment)과 근무환경(working environment)이 분리 불가능하게 연결된 맥락 에서 이루어지며,10,11 교수의 책무는 환자진료(patient care)와 교육(education)이 중첩되는 영역에 존재한다. 지역사회와 기관 수준의 구조적 요인은 결합된 학습-근무 환경(combined learning-working environment)에서 모든 학습자의 훈련에 부정적 영향을 줄 수 있다. 예를 들어, 인종차별(racism), 외국인혐오(xenophobia), 기타 편향으로 인해 지역사회에서 보건의료 접근성(access to health care)에 불평등이 발생하면, 주변화된 집단은 질이 낮은 진료(suboptimal care)를 경험하게 되고, 이는 학습자에게도 최선이 아닌 임상진료 행동(suboptimal clinical care behaviors)을 내면화시키는 결과를 낳을 수 있다.

지역사회 수준에서 보건의료에 영향을 미치는 요인들을 명시적으로 학습하고 이해하는 것은 시스템기반 실천(systems-based practice, SBP) 의 핵심 원리이며 학습자에게 매우 중요하다. 기관은 일상적으로 자신들의 임상진료 지표(clinical care measures)를 점검해 편향과 불평등한 진료의 증거를 찾아야 하며, 그 정보를 프로그램과 학습자와 공유하여 교육과 임상실천 모두의 개선을 이끌어야 한다.

학습자가 구조적 편향을 경험하면, 이는 최적이 아닌 학습환경(suboptimal learning environments)으로 이어져 웰빙(well-being)과 역량의 최고 수준에서 기능할 수 있는 능력을 손상시킨다. 여러 연구는 역사적으로 URiM 집단에 속한 학습자들이 교수로부터 더 낮은 평가 점수(lower assessment ratings) 를 받는다는 사실을 보여 주었다.12,13 또한 성적과 अन्य 요인을 보정하더라도 시험 채점(exam score grading)의 인종 격차와 명예학회(honor societies) 선발에서의 불평등이 존재한다.14–16 이러한 효과는 누적적(cumulative)이다. 평가에서의 작은 차이는 향후 수련 기회와 취업 기회의 격차로 이어지며, 이는 증폭 연쇄(amplification cascade) 라고 불린다.12

프로그램 수준에서는 상충하는 우선순위(conflicting priorities), 시간 제약(time constraints), 번아웃(burnout)이 교수로 하여금 무의식적으로 활성화된 편향을 학생 평가에 적용하는 문턱을 낮출 수 있다. 편향은 학습자와 교수 모두에게 여러 현상을 통해 영향을 미친다. URiM 집단 학습자는 사회적 고립(social isolation)과 과도한 가시성(heightened visibility)을 경험하며, 이것이 고정관념 위협(stereotype threat) 과 사기꾼 증후군(impostor syndrome) 을 유발하거나 강화할 수 있다.17 학습자는 환자와 가족으로부터 적대감(hostility)과 편견(prejudice)을 경험할 수도 있고, 팀이 이러한 대인관계를 적절히 다루지 못하면 환자진료에서 소외(sidelining)되거나 배제(exclusion)될 수 있다. 학습자는 전임상(preclerkship)과 임상실습(clerkship) 환경에서 서로 다른 기대를 경험하기도 한다.18–21 편향의 영향을 완화하려는 개인적·구조적 노력은 중개과학(translational science; bench-to-bedside science) 과 질 향상(quality improvement) 의 핵심 원리에 기반해야 한다.

프로그램적 평가는 시스템 사고를 사용해야 한다 (Programmatic assessment must use a systems-thinking approach)

전문직 발달을 지원하면서 동시에 편향을 줄이려면, 견고하고 신중하게 설계된 평가 프로그램(program of assessment) 이 필요하다. 평가 프로그램은 훈련 프로그램 안에 포함된 하나의 하위시스템(subsystem)으로 보는 것이 가장 적절하다. 시스템(system)은 “공유된 목표(shared aim)를 달성하기 위해 함께 작동하는 둘 이상의 상호의존적 부분(two or more interdependent parts)”으로 간단히 정의할 수 있다.22 평가 프로그램은

학습자, 동료, 교수, 전문직간 팀 구성원(interprofessional team members), 그리고 점점 더 많이 학습자 진전을 판단하는 전문가 집단인 임상역량위원회(clinical competency committees, CCCs) 와 같은 사람들,
시험(exams)·증례발표(case presentations)와 같은 도구(tools),
학습관리시스템(learning management systems)·스마트폰 앱(smart phone apps)과 같은 기술(technology) 등 여러 구성요소를 가진다.
이 가운데 사람(people) 이 시스템의 가장 중요한 구성요소다.

시스템 사고를 활용하면, 평가 프로그램은 학습자를 포함한 사람들의 집단으로 기능해야 한다. 이 집단은 정기적으로 함께 일하며 평가를 수행·검토·성찰하고, 훈련 전반에 걸쳐 피드백, 코칭, 진로지도(career guidance)를 제공해야 한다. 이들은 바람직한 교육 목표와 성과에 대한 공유된 정신모형(shared mental models) 을 가져야 하며, 개별 평가를 전문직 발달에 대한 전체적 관점(holistic views)으로 통합해야 한다.23,24 이를 위해서는 학습자의 수행을 효과적으로 지원하는 편향 없는 피드백(unbiased feedback) 과 forward feeding 이 필요하다. 학습자의 진전을 지원하기 위한 정보 공유가 효과적으로 이루어지려면, 기관과 프로그램은 임상학습환경(clinical learning environment)에서 심리적 안전(psychological safety) 을 우선시해야 한다.

평가 자료(assessment data)는 평가 프로그램과 교육과정(curriculum)을 평가하고 개선하는 데에도 사용되어야 하며, 구조적 편향, 명시적·암묵적 편향, 편견을 식별하고 해결하는 데에도 활용되어야 한다.

다음과 같은 핵심 원리는 프로그램적 평가의 창출, 개발, 지속적 개선을 이끄는 데 도움이 될 수 있다.25

훈련 프로그램은 교육과정 비전(curricular vision)과 정렬되고 이를 지원하는 중앙집중적으로 조정된 평가 계획(centrally coordinated assessment plan) 을 가져야 한다.
역량은 일반적(generic)이지 않고 구체적(specific) 이다. 평가 프로그램은 서로 다른 임상맥락(clinical contexts)에서, 훈련 기간에 걸쳐(longitudinally), 여러 평가자(multiple assessors)를 사용하여 표집해야 한다.
정량적 수치척도(quantitative numeric scales)가 질적 자료(qualitative data; words and narratives)보다 더 나은 것은 아니다. 질적 평가는 귀중한 정보와 통찰을 제공할 수 있다. 평정척도(rating scales)는 관찰이나 질문을 숫자 코드로 번역하는 과정이므로, 그 수치 코드가 발달적 능력(developmental ability)을 정확하게 번역했을 때만 유용하다.
평가자는 현재 उपलब्ध한 최선의 임상과학 및 시스템과학(best available clinical and systems science)에 근거한 신뢰할 수 있는 기준(credible standards) 을 사용해야 한다.
타당도(validity)는 평가도구 자체보다 그것을 사용하는 사람들(교수, CCC 등)에게 있다. 평가자는 변이의 주된 근원(primary source of variance)이므로, 평가자 훈련(training and preparing assessors)은 CBME의 잠재력을 실현하는 데 필수적이다.
학습자는 자기조절학습(self-regulated learning)을 촉진할 수 있는 정보가 풍부한 피드백(information-rich feedback) 에 쉽게 접근할 수 있어야 한다. 평가 정보에 대한 접근은 투명성(transparency)과 학습자의 행위주체성(agency), 즉 “Nothing about me without me.”26 를 뒷받침한다.
코칭(coaching)은 평가자료를 성찰(reflection)과 학습계획 수립에 효과적으로 활용하도록 돕는 데 필수적이다.
CCC와 같은 전문가 집단은 효과적이고 편향 없는 의사결정 실천(bias-free decision-making practices)을 사용하여 학습자의 진전(progress)과 다음 단계로의 준비도(readiness for advancement)에 관한 결정을 내려야 한다.

평가를 개선하기 위한 구체적 기회 (Specific Opportunities to Improve Assessment)

평가의 “왜(why)”를 명확히 하라 (Gain clarity around the “why” of assessment)

COVID-19 팬데믹이 UME와 GME에 미친 심대한 영향 등 여러 요인은 평가의 목적(purpose of assessment)을 건강하게 재검토하게 만들었다. 팬데믹은 학습자의 발달 궤적을 크게 교란했으며, UME가 고부담 clerkship 성적과 시험에 의존해 온 구조도 흔들었다. 미국의사면허시험(USMLE) clinical skills examination 은 영구 중단되었고, 임상술기 평가의 주된 책임은 다시 의과대학으로 돌아갔다.27 이러한 COVID-19의 교란, 그리고 USMLE Step 1의 pass-fail 전환은 평가의 초점을 학습자가 실제 환자와 가족을 돌보는 과정에서 무엇을 할 수 있는지(what the learner can do) 에 더 맞추는 변화를 촉진할 수 있다.

의학교육 공동체는 이제, 특히 의사 양성의 후반 단계(latter stages of physician training)로 갈수록 임상실천(clinical practice)에 근거한 보다 발달지향적 평가(developmentally focused assessment)가 필요하다는 사실을 깨닫고 있다. 발달 마인드셋은 전문직 발달, 피드백, 코칭을 더 잘 지원하기 위해 평가의 목적을 근본적으로 다시 생각할 것을 요구한다.28 이는 현장기반평가(workplace-based assessment, WBA) 에 더 큰 비중을 두도록 만들 것이다. WBA는 다른 평가와 달리 보다 시의적절하고 종단적인 피드백을 제공할 수 있으며, 환자와 가족이 있는 진료 현장(point-of-care) 에서 이루어질 수 있기 때문이다. 기술(technology)은 자연어처리(natural language processing)를 스마트폰에 적용하여 서사적 평가(narrative assessment)를 더 쉽게 포착하게 함으로써 WBA의 효율적 실행을 지원하고 있다.29

훈련 프로그램이 새로운 평가 접근을 도입하거나 기존 접근을 수정하려 할 때에는, 개별 평가가 전체 평가 프로그램 안에 어떻게 들어맞는지를 평가의 기본적인 6가지 W 로 검토해야 한다(표 1). 6W를 고려한 뒤에는, 모든 평가도구를 좋은 평가(good assessment) 와 형평성(equity) 의 기준으로 재검토해야 한다. 편향은 평가의 타당성과 효과(validity and impact)를 위협하기 때문이다.30 발달적 평가 접근은 평가도구 자체뿐 아니라, 평가 정보가 어떻게 사용되는지(how assessment information is used) 까지 함께 고려할 것을 요구한다.

표 1. 평가 목적의 명확성을 보장하기 위한 평가의 6W (Table 1. The 6 W’s of Assessment to Ensure Clarity of Purpose)

Why: 왜 이 평가를 사용하는가? 평가도구의 목적은 의미 있는 교육성과(meaningful educational outcome)와 연결되어야 한다.
Who: 누가 평가를 수행(예: 관찰)하거나 시행(예: 시험)해야 하는가?
What: 평가도구의 내용(content) 또는 초점(focus)은 무엇인가? 예를 들어 어떤 지식이나 기술을 확인할 것인가?
How: 평가는 어떻게 수행되고 완료되는가? 여기에는 평가자 훈련(assessor training) 에 관한 세부사항도 포함되어야 한다.
When: 이 평가도구는 언제, 얼마나 자주 사용되어야 하는가?
Where: 평가는 어디에 적용되는가? 외래클리닉(ambulatory clinic), 수술실(operating room) 등 어떤 환경(setting)에서 사용되는지도 포함된다.

모든 핵심 역량(core competencies)을 포괄적이고 공정하게 다루어라 (Ensure comprehensive and fair coverage of all core competencies)

어떤 단일한 평가도구나 접근도 학습자의 전문직 발달을 충분히 판단하고 지원할 수 없다. 표 2는 현재 GME와 지속적 전문직 개발(continuous professional development)에서 사용되는 6가지 일반 역량을 적절히 평가하기 위해 필요한 최소 조합(de minimus combination) 을 제시한다. 미국에서는 이에 상응하는 UME 역량 틀이 존재하지 않는다.31 이러한 공유된 역량 틀(shared competency framework) 의 부재는 UME에서 GME로의 이행(transition)에서 긴장과 문제를 낳았고, 의대생이 전공의 수련(residency)에 충분히 준비되지 못할 위험을 초래한다. 최소한 4학년 의대생은 자신이 대학원 수련을 받을 국가의 GME 역량 틀을 접해야 한다. 이상적으로는 UME-GME 연속체(continuum) 전반에서 역량 틀과 프로그램적 평가가 더 잘 정렬되어야 한다.

포괄적 범위를 확보하기 위해, 프로그램은 각 역량이 어디서(where), 언제(when), 어떻게(how) 가르쳐지고, 경험되고, 평가되는지를 포함하는 평가 맵(assessment map) 을 작성해야 한다. 이상적으로는 역량당 둘 이상의 도구나 방법이 있어야 한다. 평가 맵은 모든 핵심 역량이 적절히 평가되는지 확인하는 데 좋은 방법이며, SBP, 대인 및 전문직간 의사소통기술(interpersonal and interprofessional communication skills), 실천기반 학습과 개선(practice-based learning and improvement, PBLI), 프로페셔널리즘(professionalism)처럼 상대적으로 주목받지 못하는 역량도 드러내 준다.32,33

근거기반 도구와 틀을 사용한 충분한 직접 관찰(sufficient direct observation) 은 필수적이다. 직접 관찰은 병력청취(medical interviewing), 신체진찰(physical examination), 상담/정보에 근거한 의사결정(counseling/informed decision making), 임상추론(clinical reasoning), 술기(procedures)를 평가하는 데 핵심적이다.34 학습자의 진전과 승급 결정을 신뢰성 있게 판단하려면, 훈련 전반에 걸친 다수의 종단적 직접 관찰이 필요하다.34 그림 1은 평정(rating)에 앞서 서사적 기술(narrative description)을 먼저 수행하고, 편향의 존재를 고려하는 직접관찰기반 평가의 권장 순서를 제시한다. 마지막으로 평가 프로그램은 전문직간 팀워크(interprofessional teamwork)와 프로페셔널리즘을 평가하기 위해 다면평가(multisource feedback) 를 포함해야 하며, SBP와 PBLI를 적절히 평가하기 위해 표준화된 지표를 사용한 의무기록 감사(medical record audit) 도 포함해야 한다.34

그림 1. 평가 과정 다시 생각하기 (Figure 1. Rethinking the assessment process)

평가를 문서화할 때, 평가자는 먼저 관찰한 내용을 풍부한 서사적 기술(rich narrative description) 로 기록해야 하며, 이는 관찰된 역량에 대한 근거기반 실천(evidence-based practice) 에 근거해야 한다.
이 근거는 또한 피드백 및 코칭 대화를 이끌어 학습자의 학습개선 계획(learning improvement plans)을 지원해야 한다.
각 단계는 형평성 점검(equity pause) 또는 편향 타임아웃(bias timeout) 을 통해 편향을 인식하고 줄일 기회를 제공한다(표 3 참조).

질 높은 보건의료를 제공하기 위해서는 전문직간 진료팀(interprofessional care team) 구성원 모두의 통합된 기여(integrated contributions)가 필요하다. 실제로 대부분의 진료는 고립된 개인(individuals acting in silos) 이 아니라 팀(teams) 에 의해 이루어진다. 그럼에도 대부분의 평가는 기여(contribution) 보다는 귀속(attribution) 의 렌즈를 사용한다.

귀속(attribution)은 어떤 특정한 환자진료 과정이나 결과의 질과 안전이 특정 학습자의 임상기술의 직접적 결과라고 추론하는 것이다.
반면 기여(contribution)는 임상진료의 질과 안전이 환자진료에 관여한 모든 보건의료전문직의 상호의존적 기여(interdependent contributions)의 결과라고 본다.

이 때문에 특정 환자결과가 주로 한 학습자에게 귀속될 수 없을 때 평가가 불공정하다고 여겨지는 어려운 상황이 만들어진다. 앞으로 평가 프로그램은 학습자가 팀과 협력하면서 환자의 진료와 성과에 어떻게 기여했는지 에 더 많은 주의를 기울여야 한다.35 임상추론(clinical reasoning)처럼 전통적으로 개인 역량으로 여겨지는 영역조차도, 분산인지(distributed cognition) 와 상황인지(situated cognition) 를 활용한 집단 참여(group involvement)를 통해 진단 및 치료 오류를 줄일 수 있다.36 따라서 앞으로는 개별 학습자의 기여뿐 아니라, 그 학습자와 팀이 어떻게 함께 기능하는지 역시 판별하는 것이 중요하다.

표 2. 핵심 역량별 최소 요구 평가 예시 (Table 2. Examples of Minimum Required Assessments for the Core Competencies)

핵심 역량 약어: MK(medical knowledge), PC(patient care), ICS(interpersonal and communication skills), P(professionalism), PBLI(practice-based learning and improvement), SBP(systems-based practice)

교수 평가(Faculty assessments): 환자·가족·술기·전문직간 팀 상호작용에 대한 관찰 / 현장기반 임상추론(work-based clinical reasoning)
- 설명: 질문 유무와 관계없이 수행되는 관찰. 단일 만남(single-encounter)의 현장기반 평가도구(예: mini-clinical evaluation exercise)는 학습자와 환자 사이 임상만남(clinical encounter)의 관찰을 안내하도록 설계된다.
- 관련 역량: MK, PC, ICS, P, PBLI, SBP
다면평가(Multisource feedback; 전문직간 팀과 환자 포함)
- 설명: 평가자가 학습자와의 상호작용을 통해 관찰한 내용을 일련의 질문(예: survey items)과 평정척도, 서사적 코멘트의 조합으로 기록한다.
- 관련 역량: 주로 ICS, P, SBP(그리고 일부 맥락에서는 다른 역량도 포괄 가능)
수련 중 시험, 면허시험, 자격인증시험(In-training, licensing, and certification examination)
- 설명: 보통 객관식(multiple-choice) 및 단답형(short-answer) 문항으로 구성된다.
- 관련 역량: 주로 MK
의무기록 감사(Medical record audit)
- 설명: 구조화되었거나 비구조화된 방식으로 의무기록을 검토한다. 구조화된 감사는 수행지표(performance measures)의 추출과 점수화로, 비구조화된 감사는 문서화 질과 면담·진찰·상담 서술의 질을 판단하는 방식으로 이루어진다.
- 관련 역량: 주로 PC, PBLI, SBP
개별화된 학습계획(Individualized learning plan)
- 설명: 기술적으로는 평가가 아니지만 발달에 매우 중요하다. 성찰적 실천(reflective practice)은 GME에서 PBLI 하위역량(subcompetency)으로 명시되어 있으며, 개별화된 학습계획을 공동 구성(co-construct)하는 능력은 성찰적 실천의 일부가 되어야 한다.
- 관련 역량: PBLI
숙달기반 시뮬레이션(Mastery-based simulation): 술기, 고위험·희귀 임상상황
- 설명: 평가 목적에 따라 체크리스트를 포함할 수 있는 관찰 평가(observational assessment)이다. 표준화 환자(standardized patients, SPs)는 자신의 관찰을 평정척도로 전환하고, 필요시 서사적 코멘트를 덧붙인다.
- 관련 역량: 주로 MK, PC, ICS

평가 프로그램의 초점을 보다 현장기반 평가에 재조정하라 (Re-balance the focus of assessment programs to emphasize more workplace-based assessments)

앞서 말했듯이, 평가 프로그램은 clerkship 성적, 시험, 실습 종료 평가와 같은 총괄평가(summative assessments)를 지나치게 강조해 왔고, 이는 전문직 발달을 지원하는 시의적절한 형성평가(formative assessments)를 약화시켰다. 학습자가 연속체를 따라 진전함에 따라, 평가 프로그램은 훈련받은 집단(예: CCC)이 통합·종합하여 발달적 판단(developmental judgments)으로 전환할 수 있는 WBA 쪽으로 무게중심을 이동해야 한다. 여기에는 ACGME의 Milestones, AAMC의 entrustable professional activities (EPAs) 등이 포함된다.37,38

더 높은 부담을 갖는 WBA와 비-WBA 평가(예: clerkship grades, licensing examinations, OSCE 등)는 여전히 전체적 프로그램적 평가(holistic programmatic assessment)에서 역할을 갖는다. 그러나 이러한 고부담 평가는 목적 적합성(fit-for-purpose) 을 갖고 전문직 발달을 지원하는 방식으로 사용되어야 한다. Govaerts 등은 지역(local) 및 국가(national) 평가체계를 설계할 때 “both/and” polarity thinking 을 사용할 것을 권고했다.39 예를 들어 평가 프로그램은 표준화(standardization) 와 진정성(authenticity), 정량자료(quantitative data) 와 정성자료(qualitative data), WBA 와 비-WBA 사이의 균형을 적절히 맞추어야 한다.

van der Vleuten은 형성평가와 총괄평가를 이분법적으로 구분하는 것에 주의할 것을 강조하며, 평가 목적에 따라 형성-총괄 스펙트럼(formative-summative spectrum of stakes) 으로 이해해야 한다고 했다.25 예를 들어, 단일 직접관찰 평가는 주로 피드백과 코칭을 위한 정확한 정보 수집, 그리고 프로그램 차원에서 집계·종합될 데이터 포인트(data point) 제공에 초점을 두어야 한다. 반면 졸업 여부와 같은 고부담 결정을 내리는 CCC는 다수의 집계된 종단 평가(multiple, aggregated, and longitudinally generated assessments) 를 사용해야 한다.

위임 결정(entrustment decisions)을 위해 서사적 평가를 수용하라 (Embrace narrative assessment to make entrustment decisions)

위임(entrustment) 은 빠르게 의학교육의 대표적 평가 개념이 되고 있다. 위임은 EPAs로 조작화(operationalized)되어 왔다.

EPAs는 특정 전문과 및 세부전문과의 의사가 일상적으로 수행하는 전문직 활동(routine professional-life activities)으로 정의되며,
여기서 entrustable 하다는 것은 “해당 활동을 감독 없이 수행할 수 있도록 신뢰받기 위해 필요한 지식, 기술, 태도를 입증했다”는 뜻이다.38

의학교육자들은 EPAs로 전환하면서 발달적 위임척도(developmental entrustment scales)를 개발했다. 위임 평정척도(entrustment rating scale)의 anchor는 평가자가 향후 임상만남에서 학습자에게 어느 정도의 감독(supervision)이 필요하다고 보는지, 혹은 학습자-환자 상호작용이나 술기 중 평가자(대개 임상교수)가 환자진료에 어느 정도 관여했는지에 의해 정의된다. 교수들은 이러한 척도가 학습자의 능력(ability), 신뢰 가능성(trustworthiness), 감독 필요도를 사고하는 방식과 더 잘 맞는다고 느끼기 때문에 더 큰 만족을 보고한다.40

그러나 교수 만족감이 있다고 해서 위임척도가 WBA의 문제를 모두 해결하는 만병통치약(panacea)은 아니다. 수십 년 동안 숫자, 특히 평정척도는 교수 평가의 지배적 형식이었다. 하지만 숫자 평정척도는 그저 평가자와 학습자가 해석해야 하는 코드(code) 에 불과하다. 평가 과정이 관찰(observation) 후 곧바로 평정 부여(assigning a rating)에서 멈춘다면, 그리고 그 평정의 근거가 되는 데이터가 학습자에게 신뢰 가능하고(credible), 실행 가능하며(actionable), 믿을 만하고(trustworthy), 편향이 없는 형태(free of bias) 로 전달되지 않는다면, 그 과정은 불충분하다.

최근 두 연구는 위임척도의 타당성과 정확성에 의문을 제기했다. Schumacher는 응급실에서 소아과 전공의가 제공한 진료의 질(quality of care)과 감독자의 위임 평정 사이에 상관이 거의 없음을 보여 주었다.41 Kogan 등은 서로 다른 위임 수준의 학습자를 담은 scripted video에 대해 교수들이 부여한 위임 평정이 매우 가변적이었고, 특히 병력청취와 상담 능력의 최저 수준에서 변이가 더 컸다고 보고했다.42 요컨대 척도에는 어떤 마법적 효능 이 있는 것이 아니다. 척도는 통계적·심리측정적 분석(statistical and psychometric analysis)을 가능하게 하지만, 여전히 “garbage in, garbage out” 원칙이 적용된다. 코드가 학습자의 수행을 정확하고 타당하게 반영하지 못하면, 그 결과의 유용성은 크게 떨어진다.

또한 척도에 대한 과도한 강조는, 만남(encounter) 중 실제로 무슨 일이 일어났는지를 풍부하게 기술하는 서사적 평가(narrative assessments) 의 중요성을 약화시킬 수 있다. 특히 평가가 근거기반 임상 및 교육실천에 바탕을 둘 때, 서사적 평가는 매우 중요한 정보를 제공한다. 예를 들어, 교수는 병력청취에 대한 피드백을 줄 때 agenda setting, silence를 활용한 active listening 등 구체적 행동을 언급할 수 있으며, 단순히 “good bedside manner”라고 말하는 것보다 훨씬 유용하다.

Ginsburg 등은 서사적 코멘트가 높은 수준의 신뢰도(reliability)를 가질 수 있음을 발견했다. 그들은 “written comments를 사용하여 전공의들을 구별하는 일은, 단지 몇 개의 보고서만 수집된 이후에도 극히 신뢰롭게 이루어질 수 있다. 이는 조기에 주의가 필요한 전공의를 식별하는 한 방법을 제시한다. 이러한 발견은 평가에 질적 자료를 사용하는 타당성 논거(validity argument)를 지지하는 증거를 제공한다”고 적었다.43

정당화되지 않은 변이(unwarranted variation)를 गंभीर하게 받아들이고 해결하라 (Take seriously and address unwarranted variation)

부당한 변이는 교육 프로그램과 평가에서 충분히 주목받지 못한 문제다.44 일부 변이는 바람직하다. 예를 들어, 교수가 효과적 실천의 특정 강점이나 측면을 잘 활용하여 평가에 반영하는 경우는 정당한 변이(warranted variation) 로 볼 수 있다. 그러나 근거기반이 아닌 개인적 기벽(idiosyncrasies)이나 편향에 의해 주도되는 평가는 부당한 변이(unwarranted variation) 를 나타낸다. 이는 해롭고, 불안정한 교육성과를 낳으며, 더 나아가 졸업생이 제공하는 진료의 질에도 악영향을 줄 수 있다. 편향은 특히 바람직하지 않은 부당한 변이의 한 형태다. 교수진은 흔히 정당화되지 않은 변이(unwarranted variation) 의 주요 원천이며, 이에 대해서는 아래에서 다루겠다. 그러나 프로그램 및 기관 수준에서의 정당화되지 않은 변이 역시 교육성과와 졸업생이 제공하는 의료의 질에 영향을 미칠 수 있다는 풍부한 근거가 있다.45

학습자들은 지역사회(communities) 안에 위치한 기관(institutions) 안에, 그리고 그 안에 다시 훈련 프로그램(training programs; 의과대학, 전공의 수련, 펠로십) 안에 중첩되어(nested) 존재한다. 이러한 중첩된 관계들은 상호의존적(interdependent)이며, 이러한 상호의존성은 임상성과와 교육성과에 영향을 미치고, 구조적 편향(structural bias)을 증폭시켜 잠재적으로 매우 심대한 효과를 낳을 수 있다. Warm와 동료들은 평가를 최적화하려면 체계 내 모든 참여자가 평가의 목적을 명확히 규정하고, 훈련 프로그램 내에서 발생하는 변이를 깊고도 정교하게 이해한 뒤, 이 정보를 개선 중재(improvement interventions)에 활용해야 한다고 주장하였다.22

프로그램은 교수 한 사람의 평정 패턴(rating patterns)을 분석하고, straight-lining(즉, 모든 평가 항목에 동일한 점수를 주는 것), 관대화(leniency), 엄격화(stringency), 후광 오류(halo rating errors), 그리고 편향(bias)과 같은 비최적적이고 역기능적인 평가 행동에 대해 피드백을 제공할 수 있다. 학습자를 포함한 모든 참여자는 이용 가능한 모든 데이터를 활용하여 훈련 프로그램 내 정당화되지 않은 변이의 원천과 원인을 확인하고 해결해야 한다.22

평가 프로그램의 지속적 질 향상(continuous quality improvement)을 지원하고, 정당화되지 않은 변이와 편향을 줄이기 위해서는 교육 연속체(continuum) 전반에 걸친 피드백 루프(feedback loops) 도 필요하다. 한 예로, 학부의학교육(UME) 프로그램은 자교 졸업생이 전공의 수련(residency)에서 어떻게 수행하는지를 평가하여 의과대학 프로그램의 효과성에 대한 피드백으로 삼아야 한다. 2023년부터 의과대학 행정가와 교수들은 처음으로 자교 졸업생들의 초기 마일스톤(milestones) 수행 자료에 접근할 수 있게 되었고, 이를 프로그램 수준의 질 향상 노력에 활용할 수 있게 되었다. 현재 의과대학들이 교육과정(curricular processes)과 평가 과정을 개선하도록 돕기 위해, 이러한 마일스톤 피드백의 유용성과 영향을 검토하려는 계획이 진행 중이다. 마찬가지로 전공의의학교육(GME) 프로그램은 수련과 펠로십의 효과성에 대한 피드백으로서 초기 진료 현장의 임상성과 지표(clinical performance measures)를 활용해야 할 것이다. 졸업생 관련 데이터를 어떻게 획득하고, 해석하고, 훈련 프로그램의 지속적 개선에 활용할 것인지에 대해서는 더 많은 연구가 필요하다.

학습분석(learning analytics)과 빅데이터(big data)를 활용하라 (Use learning analytics and big data)

지역 수준과 국가 수준의 데이터(예: 빅데이터(big data) )를 활용한 학습분석(learning analytics) 은 평가 프로그램(programs of assessment)에 내재되어야 한다.46 학습분석은 “학생들을 대신하여 생성되고 수집된 광범위한 데이터를 해석하여 학업 진척을 평가하고, 미래 수행을 예측하며, 잠재적 문제를 포착하는 것”을 의미한다.47 프로그램은 자신들이 보유한 정량적(quantitative) 및 정성적(qualitative) 평가 데이터를 더 능숙하게 활용하여, 프로그램 리더와 학습자를 위한 의미 있는 전문직 발달 대시보드(professional development dashboard) 를 구축해야 한다. 대부분의 학습관리시스템(learning management systems)은 이러한 대시보드를 생성할 수 있으며, 이 대시보드는 준거참조(criterion-referenced) 와 규준참조(normative-referenced) 관점에서 학습자 발달의 스냅샷을 제공한다.22 그러나 학습분석과 빅데이터는 평가 분석 안에 무심코 편향이 스며들 수 있다는 문제를 반드시 고려해야 한다.47 이는 특히 인공지능(artificial intelligence, AI) 과 기계학습(machine learning, ML) 기법을 사용할 때 더욱 중요해질 것이다. AI/ML은 프로그램 안팎에서 현명하고 신중하게 사용된다면 엄청난 잠재력을 지니며, 학습자의 발달 궤적(developmental trajectories)의 패턴을 더 정확하게 식별하는 평가의 다음 프런티어가 될 것이다. 예를 들어, 지역 차원에서 수집된 GME 평가 데이터는 이제 국가 수준의 GME 빅데이터와 비교될 수 있다. 전공의 수련 프로그램은 마일스톤(milestones) 의 국가 기반 예측 확률값(predictive probability values)을 사용하여 개별 학습자가 어려움을 겪고 있을 수 있는 특정 하위역량(subcompetencies)을 식별하고, 이후 이를 돕기 위한 중재를 시행할 수 있다.48

평가자의 역할과 책임(roles and responsibilities)을 명시적으로 정의하라 (Explicitly define assessors’ roles and responsibilities)

지금까지 우리는 프로그램 수준에서 평가의 목적과 역할에 초점을 맞추었다. 그러나 대부분의 일터기반평가(workplace-based assessments, WBAs) 는 개별 학습자를 대상으로 개별 교수들이 수행하며, 그 결과가 프로그램 차원의 평가로 흘러 들어간다. 따라서 평가 프로그램에 참여하는 모든 사람이 자신의 역할과 책임을 명확히 이해하는 것이 필수적이다.

학습자의 전문직 발달(professional development)에 기여하는 모든 일선 보건의료전문직(frontline health professionals)은 어떤 평가 프로그램에서든 핵심 기반(backbone)이다. 대부분의 평가는 아마도 의사 교수진이 수행하겠지만, 훈련 프로그램은 학습자의 전문직 간 동료(interprofessional colleagues) 를 교육과 평가의 풍부한 자원으로 보아야 한다. 핵심적인 평가 책임(core assessment responsibilities)은 다음과 같다.

(1) 임상기술(clinical skills)에 대한 직접 관찰(direct observation)을 수행한다.
(2) 수행에 대한 풍부한 서술적 기술(rich narrative descriptions)과 정확한 평정(accurate ratings)을 제공한다.
(3) 지속적인 피드백(feedback)과 코칭(coaching)을 제공한다.
(4) 학습자의 전문직 발달을 지원하기 위해 프로그램 리더십과 임상역량위원회(Clinical Competency Committee, CCC) 에 견고한 평가 정보를 제공한다.
(5) 적절한 학습자 감독(learner supervision)을 통해 모든 환자에게 안전하고(safe), 효과적이며(effective), 공정하고(equitable), 환자중심적인(patient-centered) 진료가 제공되도록 보장한다.

교수 평가(faculty assessment)에는 여러 문제가 존재한다. 이미 강조한 것들 외에도, 신뢰도(reliability) 와 정확성(accuracy) 이 낮다는 점, 평가자 자신의 임상능력(clinical abilities), 그리고 부정확한 추론(inaccurate use of inference) 등이 있다.49 그 결과, 학습자들은 종종 서로 상이한 평가와 피드백을 스스로 해석해야 한다. 학습자는 어떤 피드백을 신뢰하고 우선시해야 하는가? 그 피드백은 근거기반실천(evidence-based practice)에 토대를 두고 있는가, 아니면 학습자의 능력을 포착하기에 충분한 상호작용 시간도 없이 형성된 것인가? 그 평가는 편향의 영향을 받았는가? 낮은 신뢰도와 정확성에 대해 가장 자주 제안되는 해법은, 여러 평가자가 장기간(longitudinally)에 걸쳐 여러 차례 평가를 수행하도록 하여 충분한 수의 평가를 확보하는 것이다. 다수의 평가를 확보하는 것은 심리측정학(psychometric science) 을 활용하는 것이며, 프로그램 평가(programmatic assessment)의 관점에서는 학습자에 대한 보다 나은 총괄적 위임 판단(summative entrustment judgments) 을 가능하게 한다. 그러나 부정확하고 신뢰롭지 못한 평가에 근거한 감독 결정(supervision decisions)은, 더 많은 감독이 필요한데도 교수가 학습자에게 더 적은 감독만으로 일하도록 맡기게 되면, 환자 진료의 질을 해칠 수 있다. 가능한 한 자주 고품질 진료가 제공될 확률을 높이려면, 교수는 타당하고(valid) 정확한(accurate) 평가를 해야 한다. 그렇다면 현재 상황은 어떻게 개선될 수 있는가?

평가자들, 특히 교수진은 평가에 대한 지속적 훈련(ongoing training)이 필요하다. 안타깝게도 평가 관련 교수개발(faculty development)을 둘러싸고는 어느 정도의 허무주의(nihilism) 가 존재한다. 시간과 비용은 흔히 평가자 훈련(rater training)의 주요 장벽으로 지목된다. 그러나 평가자가 훈련받지 않는다면, 그 비용은 환자와 학습자에게 어떻게 돌아가는가? 환자, 그리고 그다음으로 학습자가 형편없는 평가 실천과 정당화되지 않은 변이에 의해 가장 큰 영향을 받는 이해관계자들이다.

평가에 대한 교수개발(faculty development in assessment)

평가에 대한 교수개발은 어렵고, 지속적이며 장기적인 노력을 요구한다. 암묵적 편향(implicit bias)의 문제에서 행동 패턴이 무의식적 습관이 되는 것과 마찬가지로, 교수들의 평가 습관도 유사하다. 교수들은 학습자의 임상기술을 평가할 때 자기 자신을 주요 준거틀(frame of reference), 즉 기준(standard)으로 사용한다.49 그러나 교수 자신이 평가하는 바로 그 임상기술에서의 능력은 서로 다르다. 앞으로 WBA 의 주요 준거틀, 즉 기준은 환자가 안전하고(safe), 효과적이며(effective), 공정하고(equitable), 환자중심적인(patient-centered) 진료 를 받았는지 여부가 되어야 한다.50 최근의 한 무작위 대조시험(randomized, controlled trial)은 어느 정도의 희망을 제공한다. 그 시험에서 중재군은 대면 워크숍(in-person workshops)으로 시작하고, 이후 6주마다 직접 관찰(direct observation)에 대한 비동기 온라인 연습(asynchronous, online practice)이 이어지는 다요소 교육중재(multicomponent educational intervention)를 받았다.43 중재를 받은 참가자들은 대조군보다 근거기반 의사소통 기술(evidence-based communication skills)에 대해 유의하게 더 정확한 서술적 코멘트(narrative comments)를 제공하였으나, 부적절한 엄격성(inappropriate stringency)이 다소 증가하는 대가를 치렀다.43

교수개발 프로그램은 또한 맥락적 요인(contextual factors)이 학습자가 공정하고(equitable), 고품질이며(high-quality), 안전한(safe) 진료 를 제공하는 능력에 어떤 영향을 미치는지를 교수가 고려하도록 가르쳐야 한다(Figure 2). 이것이 개별 학습자의 평가를 항상 조정해야 한다는 뜻은 아니다. 어떤 경우에는 학습자가 효과적이고, 안전하고, 공정하며, 환자중심적인 진료를 제공하기 위해 해당 상황에 적응(adapt)해야 하기 때문이다. 예를 들어, 보건의료 환경에 유용한 자원이 부족하더라도, 전공의는 낮은 건강문해력(health literacy)을 가진 환자의 요구를 충족시키기 위해 자신의 상담(counseling)을 조정해야 할 것이다. 평가자와 프로그램은 학습자의 적응성(adaptability) 을 핵심 역량(core competency)으로 평가해야 한다.

Figure 2. 맥락 속의 일터기반평가 (Workplace-based assessment in context)

WBA 는 항상 맥락(context) 속에서 발생하며, 평가자의 능력과 관점에 영향을 받는다. 평가자는 자신의 임상능력(clinical abilities)과 자신의 평가에 영향을 줄 수 있는 편향의 가능성(Table 3)을 인식해야 한다. 또한 평가자는 임상적 만남(clinical encounter)에 영향을 미치는 다수의 시스템 요인(system factors)에도 주의를 기울여야 한다. 프로그램과 그에 연계된 평가 활동은 기관의 실천(practices), 문화(culture), 그리고 마이크로시스템(microsystems) 안에 중첩되어 있다. 외래 클리닉(ambulatory clinics), 병동(hospital wards), 수술실(operating rooms)과 같은 마이크로시스템은 수련이 실제로 이루어지는 주요 임상 현장(primary clinical sites of training)이다. 이러한 마이크로시스템은 그림에 제시된 것처럼 그 자체의 역량(compentencies)을 지니고 있으며, 학습자와 환자가 바람직한 성과(desired outcomes)를 달성하는 능력에 영향을 미칠 수 있다. 모든 평가자와 프로그램 리더는 마이크로시스템과 임상 학습 및 근무 환경(clinical learning and working environment)이 제공하는 안전(safety)과 지원(support)을 반드시 인식해야 한다.

평가에서 편향을 다루는 것과 마찬가지로, 평가에 대한 교수개발을 향상시키는 일 역시 중개적 활동(translational activity) 으로 다루어져야 한다. 여기에는 환자 진료의 질과 안전(patient care quality and safety)의 관점에서 틀지어진 직접 관찰(direct observation)의 예가 있다. Kogan과 동료들은 직접 관찰을 개선하기 위한 교수개발 중재(faculty development intervention)를 구축하기 위해 3단계의 중개적 설계(3-phase, translational design)를 사용하였다.

1단계(단계 T1 활동)는 평가의 질(assessment quality)에 영향을 미치는 요인들을 보다 깊이 이해하고자 하였다.49
2단계(초기 T2 활동)는 복합 중재(complex intervention) 접근을 사용하여 여러 교수개발 활동 조합을 시범 적용하였다.51 그다음에는 앞서 기술한 다요소 교수개발 중재에 대한 무작위 대조시험이 있었다.43
중재를 추가로 다듬을 수 있고 또 그래야 하지만, 다음 단계(단계 T3)는 이 교수개발 훈련을 새로운 맥락(new contexts)에서 더 넓게 구현하는 것을 탐색하는 것이다. 전문직 발달(professional development)과 임상진료(clinical care)를 동시에 향상시키기 위한 목적으로 평가를 개선하기 위해, 근거(evidence)에 기반한 보다 지속적인 교수개발 노력을 기울여야 할 시점은 이미 한참 지났다.

좋은 집단 과정(good group processes)을 활용하 (Use good group processes)

집단이 효과적인 실천(effective practices)을 사용할 때, 더 나은 판단을 내린다.37 CCC 가 학습자 발달(learner development)에 대해 판단을 내리도록 하는 것은 평가 프로그램 설계에서 점점 더 중요한 구성요소가 되고 있다.27 잘 설계된 집단 과정(group processes)은 평가에 대한 교수 훈련을 통해 역량(competencies)에 관한 공유 정신모형(shared mental models) 을 개발하는 기제를 제공함으로써 교육적 판단(educational judgment)을 향상시킨다.23 반대로, 잘못 설계되었거나 잘못 구현된 집단 과정은 교육적 판단을 악화시킬 수 있다. 최근 수행된 다기관 민족지학 연구(multi-institution ethnographic study)에서 Ekpenyong와 동료들은 CCC 과정에 상당한 변이가 존재하며, 일부 실천은 효과적인 집단 기능(effective group functioning)에 관한 현재 근거에 의해 지지되지 않는다는 사실을 발견하였다.52 중요한 점은, 편향은 집단 과정을 통해 완화될 수도 있고 악화될 수도 있다는 것이다. 증가하고 있는 연구들은, 고성과의 다양한 집단(high-performing, diverse groups), 즉 근거기반의 효과적인 팀 실천(evidence-based effective team practices)을 구현하는 집단이 학습자에 대해 더 나은 결정을 내리고 학습자의 전문직 발달을 더 잘 지원할 가능성이 높다는 점을 시사한다.37 따라서 CCC 구성원은 효과를 최대화하기 위해 다양해야 한다. CCC는 질 향상(quality improvement)의 일환으로 자신의 수행을 정기적으로 검토하기 위해 효과적인 집단 실천(science of effective group practice)의 과학을 사용해야 하며, 여기에는 자신들의 평가와 판단에서 편향의 증거를 검토하는 일도 포함된다.37

평가에서 편향(bias)을 다루어라 (Address bias in assessment)

우리는 앞서 편향과 관련된 몇 가지 구체적 문제를 설명했지만, 여기서 다시 강조하고 싶은 것은 의학교육에서의 편향의 다면성(many facets of bias) 을 해결해야 할 시급한 필요성이다. 이러한 편향은 학습자의 전문직 발달을 위협한다. 여기에는 학습환경(learning environment)에서의 편향과 불평등(inequity), 평가 도구(assessment instruments) 자체에 내재된 편향, 학습자를 평가하는 개별 평가자(individual evaluators)의 편향, 그리고 평가를 검토하고 고위험 의사결정(high-stakes decisions)을 내리는 CCC 또는 기타 집단의 편향이 포함된다.53 이러한 문제들은 앞서 제시한 구체적 권고안과 기회들에 영향을 미친다. 앞으로는, 앞서 설명한 바와 같이, 평가 도구는 위험집단(at-risk populations)을 위한 옹호(advocacy) 와 같이 의사의 역할에 필수적인 추가 영역(domains)을 포함해야 한다. 또한 역량(competence)의 정의 자체가 편향되어 있지 않은지 를 보장하는 일도 중요하다. 예를 들어, 전문직업성(professionalism) 평가가 성별 및 인종 규범적(gender- and race-normative) 구성과 정의에 기반하고 있다는 우려가 점점 커지고 있다.54

편향과 편견(prejudice)을 줄이기 위한 중재의 근거가 아직 충분히 견고하지 않음에도 불구하고, 다양한 유형과 초점의 편향을 다루기 위해 교수개발은 여전히 필수적이다.55 프로그램은 의학에서의 편향과 인종주의의 역사(the history of bias and racism in medicine), 편향 없는 서술(bias-free narratives) 쓰기, 그리고 평가자 자신의 편향 효과를 줄이기 위한 개인적 마음챙김(mindfulness) 실천에 대한 교수개발을 제공함으로써, 편향의 개인적 혹은 대인관계적 효과를 다룰 수 있다.

의학교육은 한계가 있더라도 편향 감소 중재(bias-reducing interventions)에 관한 기존 문헌을 활용하여, 특정 기법의 효과를 축적하고 연구해야 한다. 참여자에게 위협(threat)이나 감정(emotions)을 유발하는 중재 절차는 효과가 미미하다. 최근의 메타분석(meta-analysis)은 일회성(one-time)이고 제한된 초점의 중재가 편향이나 편견 감소에 거의 영향을 미치지 못한다는 점을 보여주었다.55 이는 놀라운 일이 아니다. 암묵적 편향과 편견은 종종 반복적 주의와 연습이 있어야 변화할 수 있는 개인적 습관(personal habits)이 되기 때문이다. 다면적(multifaceted)이고 종단적인(longitudinal) 중재가 더 유망하며, 의학교육에서 연구되어야 한다.56 Table 3 은 의학교육에서의 잠재적 예시와 함께 5가지 유망한 전략을 제시한다.56

Table 3. 평가에서 편향을 줄이기 위해 프로그램과 교수진이 시도할 수 있는 다섯 가지 전략 (Five Possible Strategies Programs and Faculty Can Try to Reduce Bias in Assessment)

1) 고정관념 대체(Stereotype replacement)

설명: 고정관념이 활성화되었음을 인식하고, 왜 그런지 생각한 뒤, 비고정관념적(nonstereotypical) 사고로 적극적으로 대체하는 것.
평가 예시: 여성 학습자에 대한 서술 평가(narrative assessment)를 작성할 때, 평가자는 자신이 성별 편향적 표현(gender-laden language)을 사용하고 있는지 멈추어 성찰하거나, 성별 편향을 점검하는 온라인 도구를 사용할 수 있다. 편향이 발견되면, 보다 중립적인 근거기반 행동기술(evidence-based behavioral skills)로 대체한다.

2) 관점 취하기(Perspective taking)

설명: 소수화된 집단(minoritized group)의 구성원이 되는 것이 어떤 느낌일지를 생각해 보는 것.
평가 예시: 회진(rounds) 중 교수는 URiM 집단 출신 학습자와 차별적인 환자(discriminatory patient) 사이의 어려운 상호작용을 목격할 수 있다. 이때 교수는 스스로에게 다음과 같이 물어야 한다. “이 학습자에게 이것이 어떤 경험일까? 나는 이 상황에 어떻게 개입할 것인가?”

3) 개별화(Individuation)

설명: 누군가를 집단 소속(group affiliation)에 따라 고정관념화했음을 인식하고, 대신 그 사람을 하나의 개별적 존재(individual)로 생각하는 것.
평가 예시: 한 교수는 다른 나라 출신 학습자가 성매개감염 가능성이 있는 환자를 면담하는 데 어려움을 겪는 것을 보고, 처음에는 그 학습자를 “성에 대해 말하기 불편해하는 집단” 출신이라고 고정관념화할 수 있다. 그러나 대신, 어려움을 겪는 개별 학습자로 보고 왜 그 개인이 어려움을 겪는지를 이해하려고 노력한다.

4) 반고정관념적 심상화(Counter-stereotypic imaging)

설명: 고정관념적 반응을 상쇄하는 개인이나 상황을 구체적으로 상상하는 것.
평가 예시: 한 교수는 여성이 정형외과 술기(orthopedic procedures)를 수행할 만큼 충분히 강하지 않다는 가정을 가지고 시작할 수 있다. 그러나 대신 성공한 여성 정형외과 의사들을 떠올린다.

교수개발을 통해 편향을 줄이는 연구는 중개과학(translational science) 접근, 즉 기초에서 임상으로(bench to bedside) 의 접근을 사용해야 한다.9 첫 번째 단계는 평가 프로그램 안에 편향이 존재하는지 확인하는 것이다. 프로그램은 다수 집단(majority group)과 비교하여, 정체성 하위집단(identity subgroup)별 학습자들 사이에 차이가 있는지를 보기 위해 자신들의 평가 데이터(점수와 편향이 담긴 서술 코멘트)를 검토할 수 있다. CCC는 비참여 관찰자(nonparticipant observers)에게 편향적 용어, 기술, 혹은 결정이 사용되는지를 관찰하게 할 수 있다. 필요도 평가(needs assessment)가 이루어진 뒤에는, 이론에 근거한 전략(Table 3)을 규명하여 교육자들의 암묵적 편향(implicit bias)을 줄이기 위한 T1 연구를 수행할 수 있다. 향후에는 직접 관찰 평가(direct observation assessments)에서 암묵적 편향을 줄이는 학습 전략을 보다 구체적으로 가르치는 노력이 가능할 것이다.9 예를 들어, 환자에 대한 암묵적 편견(implicit prejudice)은 언어적 및 비언어적 의사소통 행동(verbal and nonverbal communication behaviors)으로 나타난다.

이와 동일한 현상이 학습자와 교수 사이에서도 나타날 수 있으며, 이는 교수진을 대상으로 한 의사소통 기반 중재(communication-based interventions) 를 통해 암묵적 편향을 줄일 수 있는 기회가 된다. T2 연구는 보다 큰 규모의 교육자 집단과 다른 평가들에서의 효과를 겨냥한다. 마지막으로 T3 연구는, 편향을 줄이기 위한 새로운 평가 실천이 평가 프로그램 전반에 내재되었을 때, 보다 광범위한 구현(wider implementation)을 겨냥한다. 평가에서 편향을 가장 효과적으로 다루는 방법에 대해서는 아직 배울 것이 많지만, 임상실천(clinical practice)의 초기 연구는 평가에서 더 효과적인 의사소통 전략을 중심으로 교수개발을 설계할 토대를 제공한다.

학습자와의 공동생산(coproduction)의 중요성을 인식하라 (Recognize the importance of coproduction with learners)

프로그램 평가(programmatic assessment)가 완전히 효과적이기 위해서는, 학습자들이 개별적 행위성(individual agency) 을 지닌 적극적 참여자(active participants)여야 한다. 의대생, 전공의, 펠로우는 자신의 훈련 프로그램 리더와 교수진과 맺는 양방향적이고 상호이익적인 관계(bidirectional and mutually beneficial relationships) 의 중심에서 배우며 존재한다. 이러한 관계에는 공동생산적 사고방식(coproduction mindset) 이 필요하다. 공동생산적 사고방식에서, 평가는 심리적으로 안전한(psychologically safe) 환경에서 이루어지며, 평가는 주로 학습자에게 가해지는(to them) 것이 아니라 학습자와 함께(with them) 수행된다.

공동생산(coproduction)은 임상진료(clinical care)에서 이미 강력한 기반을 확보하고 있다. 보건의료의 공동생산은 “개인과 집단의 건강에 기여하는 관계와 행동을 설계하고(design), 창조하고(create), 발전시키고(develop), 제공하고(deliver), 평가하고(assess), 개선하기 위해 사용자(users)와 전문가(professionals)가 수행하는 상호의존적 작업(interdependent work)”으로 정의된다.57 최근 Englander와 동료들은 의학교육에서 공동생산의 이점을 설명하며 다음과 같이 지적하였다. “환자와 제공자 사이의 관계와 마찬가지로, 학습자와 교사 사이의 관계 역시 성과를 최적화하기 위해서는 각자의 전문성이 자신들의 체계(system), 지역사회(community), 사회(society)의 맥락 안에 중첩된 채 통합적으로 작동해야 한다.”58 공동생산은 학습자와 훈련 프로그램 사이의 양방향 상호작용이다. 공동생산은 순환적이고 지속적인 과정을 촉진한다.

Figure 3a 는 궤적(trajectory)을 따라가는 학습 주기(learning cycles)의 일부로 공동생산을 통합하는 것이, 학습자들이 자신의 전문직 발달을 지속적이고 공동생산된(iterative, coproduced) 평가 과정으로 보도록 힘을 실어줄 수 있음을 보여준다.
Figure 3b 는 전문직 발달의 학습곡선(professional development learning curves), 프로그램 평가(programmatic assessment), 그리고 공동생산 접근을 활용한 반복적 학습 주기(iterative learning cycles)의 핵심 개념을 하나로 통합한다. (Figure 3의 확장판은 Supplemental Digital Appendix 1 at http://links.lww.com/ACADMED/B436 에서 볼 수 있다.)

Englander와 동료들의 작업을 바탕으로 수정한 Table 4 는 전통적 평가 접근(traditional assessment approaches)과 공동생산을 활용한 접근을 비교한다. UME 와 GME 프로그램은 이 틀(framework)을 활용하여 평가 프로그램을 개선하고, 학습자가 더 나은 성과를 위해 노력하도록 역량을 부여(empower)할 수 있다.58 그러나 의학교육은 학습자를 위한 심리적 안전(psychological safety)을 갖춘 환경을 만드는 데 어려움을 겪어 왔다. 이는 특히 의학계 대표성 부족 집단(URiM) 학습자에게 더욱 그러한데, 이들은 흔히 고정관념 위협(stereotype threat) 과 가면증후군(impostor syndrome) 을 극복해야 하기 때문이다. 현재 및 과거의 평가 활동에 대한 학습자의 경험을 이해하고 대응하기 위해 학습자와 협력하는 것은, 프로그램이 평가를 개선하고 평가에서의 편향을 직면하고 줄이도록 도울 것이다. 프로그램 리더는 학습자에게 공동생산에 대해 알려야 하며, 공동생산에서 학습자의 역할을 인정하고 보상해야 하고, 대시보드(dashboards)와 풍부한 정보 시스템(rich information systems)을 통해 학습자가 더 시의적절한 피드백과 평가를 받을 수 있도록 시스템 변화를 만들어야 한다.

요약하면, 견고한 평가 프로그램(robust program of assessment)은 반드시 공동생산(coproduced) 되어야 하며, 전체 훈련 프로그램에 걸쳐 종단적으로(longitudinally) 수행되는 일련의 학습-평가 주기(learning–assessment cycles) 로서 다수의 통합된 평가 방법과 도구를 포함해야 한다. 공동생산된 평가 프로그램은 정보에 기반한 집단 판단과 의사결정(informed group judgment and decision making)에 의해 이끌려야 하며, 의학교육 연속체 전반에서 공동생산의 철학을 수용하는 학습자를 적극적으로 포함해야 한다.

Table 4. 의학교육에서 전통적 평가 모델과 공동생산 모델의 비교 (Traditional versus coproduction models of assessment in medical education)

(Englander et al58을 바탕으로 수정)

1) 지배적 논리 모델(Logic-dominant model)

전통적/위계적 모델: “재화(goods) 모델”. 학습자를 “제품(product)”으로 보며, 평가는 그 “제품”이 경력의 다음 단계로 넘어가기 위한 최소 기준(minimal standards)을 충족했는지 확인하기 위해 주로 수행된다.
공동생산 모델: “서비스(service) 모델”. 학습자를 궁극적으로 타인에게 서비스를 제공하는 보건의료전문직으로 본다. 서비스 모델은 정의상 서비스가 항상 두 당사자 사이에서 공동생산되기 때문에, 공동생산적 사고방식을 요구한다.

2) 주된 동인(Primary driver)

전통적/위계적 모델: 교사가 주된 평가자(primary assessor)이다.
공동생산 모델: 학습자-교사 파트너십(learner-teacher partnership)이 평가를 설계하고, 수행하고, 해석한다.

3) 초점(Focus)

전통적/위계적 모델: 학습자를 “수량화”하는 평정척도(rating scales)를 사용하는 총괄적(summative), 회고적(retrospective) 평가에 중점을 둔다. 예: 실습 종료 평가(end-of-rotation evaluations) 또는 성적(grades). 단일 시점(single point-in-time)의 평가에 집중한다. 예: 실습 종료/클럭십 평가 또는 지식 시험.
공동생산 모델: 학습자가 자신의 발달 궤적(developmental trajectory)을 성찰할 수 있도록 하는 서술적으로 풍부한 데이터(narratively rich data) 를 포함한 형성적(formative), 빈번한(frequent) 평가를 강조한다. 정량적 평정척도에 대한 과도한 의존을 약화시킨다.

4) 정보의 “소유권”(Information “ownership”)

전통적/위계적 모델: 의과대학, 레지던시, 펠로십 프로그램이 평가 정보를 소유하고 통제한다.
공동생산 모델: 학습자가 자신의 평가 데이터를 소유하며, 그 데이터는 새로운 학교나 프로그램으로 이동 가능하다(transportable). “나에 관한 것은, 나 없이 결정하지 말라(Nothing about me without me).” 기관은 평가 데이터의 신뢰할 수 있는 보관자(trusted custodian)이며, 학습자의 동의를 바탕으로 집계된 평가 데이터를 사용하여 학습자에 대한 총괄 결정(summative decisions)을 내리고 교육과정과 평가를 개선한다.

5) 전문가들 사이의 관계(Relationship between professionals)

전통적/위계적 모델: 각 평가자는 고립된 상태에서 평가를 제공하며, 여러 전문가의 평가 데이터는 종종 부족하거나 질이 낮거나 실행 가능한 학습 및 개선 계획(actionable learning and improvement plan)에 통합되지 않는다. 다른 보건의료전문직의 평가는 주로 문제와 “이탈자(outliers)”를 식별하는 데 사용된다.
공동생산 모델: 여러 보건의료전문직의 평가 데이터가 발달적 사고방식(developmental mindset) 을 바탕으로 모든 역량에 대한 보다 총체적인 능력 그림(holistic picture of abilities)으로 통합된다.

6) 시스템 요소들 간의 연결(Connections between aspects of the system)

전통적/위계적 모델: 교육 단계 간 급격한 전이(abrupt transitions)가 존재한다. 예: 의과대학에서 레지던시, 펠로십, 진료 현장으로의 전환. 평가 데이터의 공유(forward feeding)는 수행되지 않거나, 권장되지 않거나, 지원되지 않는다.
공동생산 모델: 체계적인 “따뜻한 인계(warm handoffs)” 를 통한 명확한 전이가 이루어진다. 평가 데이터의 공유는 교육 연속체 전반에서 전문직 발달을 위한 학습 맞춤화(tailoring learning)와, 역량 및 학습자 필요에 기반한 가변적 시간(variable time-based training)을 지원한다.

7) 개선 모델(Improvement model)

전통적/위계적 모델: 제한된 시스템 관점, 비난(blame)과 처벌(punishment) 모델. “나쁜” 혹은 성과가 낮은 학습자를 가려내는(weeding out) 데 초점을 둔다.
공동생산 모델: 모든 이해관계자의 입력(input)에 기반하여 전문직 발달을 지원하는 평가 프로그램의 지속적 개선(continuous improvement) 에 초점을 둔다.

모든 것을 통합하기: 실행과학(Implementation Science)과 프로그램 평가(Programmatic Assessment) (Putting It All Together: Implementation Science and Programmatic Assessment)

새로운 평가 접근과 도구를 개발하는 일은 여전히 필요하지만, 우리는 이미 여러 유용한 평가 접근과 도구를 가지고 있다. 따라서 앞으로 의학교육은 주로 기존의 풍부한 평가 접근을 어떻게 더 잘 사용할 것인가 에 초점을 맞추어야 한다. 프로그램 리더들이 자신의 평가 접근을 발전시켜 나갈 때, 실행과학(implementation science) 의 교훈과 도구는 평가 프로그램과 개별 평가를 어떻게 구현할 것인지를 결정하는 데 도움을 줄 수 있다. 예를 들어, 통합 실행연구 프레임워크(Consolidated Framework for Implementation Research, CFIR) 는 평가에서의 구현과 지속적 질 향상(continuous quality improvement)을 안내할 수 있다.59

CFIR 는 명시적으로 다섯 가지 요소에 주목한다.

외적 환경(outer setting) 의 조건과 특성(예: 기관의 사회적 맥락, 심리적 안전),
내적 환경(inner setting) (예: 훈련 프로그램의 행정적 지원),
평가 접근(assessment approach) (예: 평가 사용의 복잡성, 학습자의 인식),
관여된 개인(individuals involved) (예: 이들이 평가에 대해 행위성(agency)과 자기효능감(self-efficacy)을 가지고 있는가), 그리고
과정(process) (예: 프로그램의 변화 수용 능력, 변화 촉진자(change agents)와 의견 선도자(opinion leaders)의 존재)이다.

Yaghmour와 동료들은 이 프레임워크를 적용하여 마일스톤을 구현하는 레지던시 프로그램의 발달적 변화 여정(developmental change journey)을 더 잘 이해하고자 하였고, 프로그램 수준 발달의 최소 세 단계를 발견하였다.28 2017년 캐나다 Queen’s University의 모든 레지던시 프로그램은 성과기반(outcomes-based)이며 시간가변적(time-variable)인 접근을 도입하였고, 급속 순환 평가(rapid cycle evaluations) 를 통해 초기 구현 결과를 공유하였다. 그들은 여러 예상된 도전과 예상치 못한 도전을 발견하였는데, 이는 대규모 시스템 변화에서 흔히 나타나는 현상이다.60 이 두 연구는 모두 실행 프레임워크를 활용하여 대규모 이니셔티브(large-scale initiatives)의 평가를 이끌면 프로그램 변화(programmatic change)에 대한 더 깊은 통찰을 얻을 수 있음을 보여준다.

궁극적으로, 프로그램을 설계하고 운영하는 일은 하나의 도착점(destination)에 관한 것이 아니라, 생물학적, 의학적, 보건의료 체계 과학이 진화함에 따라 교육 접근(예: 학습환경, 교육과정, 평가 프로그램)을 지속적으로 개선해 나가는 지속적 발달 여정(ongoing developmental journey) 에 관한 것이다. 본질적으로 변화와 지속적 개선은 복잡하고 지저분한(messy) 과정이다. 의학교육은 유해한 편향(harmful bias)의 제거를 포함하여 평가의 변혁(transformation in assessment)을 지원하기 위해 실행과학을 받아들여야 한다.

결론 (Conclusions)

의학교육 훈련 프로그램은 풍부한 평가 접근과 도구를 보유하고 있다. 이제 우리는 편향을 줄이고 지속적으로 개선하고자 하는 평가 시스템(systems of assessment) 안에서 이러한 도구와 접근을 더 효과적으로 사용하는 데 전념해야 한다. 우리는 평가 실천을 개선하고(Appendix 1), 편향을 줄이기 위해(Table 3) 많은 일을 할 수 있다. 이를 위해서는 평가 프로그램의 개발, 구현, 지속가능성(sustainability)을 가능하게 하는 교육 시스템(educational systems)을 만들어야 한다.

평가는 교육 프로그램에서 부수적인 것(adjunct)이나 사후적 고려(afterthought)로 취급되어서는 안 되며, 높은 우선순위(high priority) 를 가져야 한다.

교육 환경은 학습자와 평가자가 함께할 충분한 시간을 가질 수 있도록 적절한 자원(adequate resources)을 갖추고 구성되어야 하며, 그래야 효과적인 평가와 피드백이 이루어질 수 있다. 이를 위해서는 특히 구조적 편향(structural bias)과 인종주의(racism)의 문제를 둘러싸고, 평가의 개선과 변화를 지속적으로 제한해 온 불편한 관성(inertia) 과 맞서야 한다. 변화는 무엇이 제대로 작동하지 않는지를 인정하는 겸손(humility) 과, 우리 평가 시스템 안의 약점과 공백을 해결하려는 집중된 노력(concerted effort)을 필요로 한다. 우리는 발달적이고 공동생산적인 사고방식(developmental, coproduction mindset)에 기반한 더 나은 평가 실천을 통해 학습자와 환자의 삶에 실질적 차이를 만들 수 있는 강력한 평가과학(assessment science)을 갖고 있다. 이제 평가에 관여하는 우리 모두가 해야 할 핵심 과제는, 이러한 요청을 받아들이고 행동에 옮기는 일이다.

Figure 3. 공동생산을 활용한 학습 주기 (Learning cycles using coproduction)

a. UME 와 GME 시기의 의학교육은 매우 발달적이며 반복적인(intensely developmental and iterative) 과정이다. 각 학습자는 서로 다른 궤적을 경험하며, 평가를 포함한 자신의 교육 경험을 공동생산(coproduce)하기 위해 행위성(agency)을 가진 적극적 파트너(active partner)가 되어야 한다. Figure 3a 는 공동생산 주기(coproduction cycle)의 핵심 단계와 질문들을 보여주며, 이것들은 Figure 3b 에 묘사된 종단적 성장곡선(longitudinal growth curve)의 일부로 반복적으로 구현되어야 한다.61 학습자가 자신의 학습곡선(learning curve)을 따라 올라갈수록, 평가의 성격과 유형은 변화해야 하며 점점 더 일터기반평가(WBA) 에 초점을 두어야 한다(Miller Pyramid의 상단에서 볼 수 있음).34
약어: UME, undergraduate medical education; GME, graduate medical education.
a 본문에는 이 그림의 축약판(condensed version)을 제시하였다. 전체 크기(full-size) 버전은 Supplemental Digital Appendix 1 at http://links.lww.com/ACADMED/B436 에서 확인할 수 있다.

부록 1 (Appendix 1) 의학교육 프로그램이 지금 당장 평가를 개선하기 위해 할 수 있는 행동들의 (부분적) 목록 (A (Partial) List of Actions Medical Education Programs Can Do Now to Improve Assessment)

대부분의 평가가 발달적으로 설계(developmentally designed) 되고 발달에 초점을 맞추도록 하라.
평가 데이터를 사용하여 평가 프로그램 내 편향의 원천(sources of bias)을 조사하고, 이해하고, 해결하라.
a. 프로그램 문화(program culture)와 기관의 학습환경(institutional learning environment)이 학습자의 전문직 발달에 미치는 영향을 이해하려고 노력하라.
프로그램 평가(programmatic assessment) 를 개발하고 구현하라.
a. 학습자의 전문직 발달을 지원하기 위한 목적으로 일터기반평가(WBA) 를 강조하라.
b. 서술 평가(narrative assessment) 를 수용하라.
c. 평가를 개선하기 위해 편향 감소 중재(bias-reducing interventions)를 실험하라.
d. 학습자의 전문직 발달과 평가 프로그램의 지속적 개선을 지원하기 위해 학습분석(learning analytics) 을 활용하라.
기존 기술(existing technologies)을 활용하여 평가를 개선하라. 예: 자연어처리(natural language processing), 스마트폰 앱(smart phone apps) 등.
평가 프로그램 내 정당화되지 않은 변이(unwarranted variation) 의 원천을 조사하고, 이해하고, 해결하라.
모든 교수진(의사 및 기타 보건의료전문직)과 학습자의 평가 역할(assessment roles)을 명시적으로 정의하라.
평가에 관한 교수진과 학습자 훈련(training)에 투자하라.
평가 실천과 학습자의 전문직 발달을 지원하기 위해 공동생산(coproduction) 을 활용하라.
평가 프로그램과 실천을 구축하고, 수정하고, 개선하기 위해 중개과학(translational science) 과 실행과학(implementation science) 을 활용하라.
평가 실천을 변화시키는 데 존재하는 관성(inertia)을 정직하게 평가하고 직면하라.

'논문 읽기 (with AI)' 카테고리의 다른 글

의학교육과 보건의료체계 사이의 사일로 허물기: 시스템기반실무 역량 강화를 위한 통합 다수준 데이터 모델 구축 (Acad Med. 2024) (0)	2026.03.30
21세기 보건의료체계에서 환자 요구를 충족하기 위한 전공의 수련에서의 시스템 기반 실천 역량의 진화 (Acad Med. 2022 ) (0)	2026.03.29
주제분석 탐색하기: 귀추적 추론에 기반한 실천 전략 (Teach Learn Med. 2026) (0)	2026.03.15
이론에서의 창조적 도약: 귀추(abduction)의 힘 (Adv Health Sci Educ Theory Pract. 2021) (0)	2026.03.15
의학에서의 전문직정체성형성 개념화하기 (Acad Med. 2024) (0)	2026.03.15

의대에서 교육하고 있습니다.