국가적 평가 프로그램 모델의 설계 및 실행 – 캐나다 전공의 의학 교육에 신뢰할 수 있는 전문 활동(EPA) 평가 통합 (Perspect Med Educ. 2024)

Meded 2025. 12. 13. 14:31

2025. 12. 13. 14:31

Perspect Med Educ. 2024 Feb 6;13(1):44-55. doi: 10.5334/pme.956. eCollection 2024.

Design and Implementation of a National Program of Assessment Model - Integrating Entrustable Professional Activity Assessments in Canadian Specialist Postgraduate Medical Education

Warren J Cheung 1 2, Farhan Bhanji 3 4, Wade Gofton 4 5, Andrew K Hall 1 4, Jolanta Karpinski 4 6, Denyse Richardson 4 7, Jason R Frank 8, Nancy Dudek 4 9

캐나다의 실험: 국가 단위로 EPA 기반 평가 시스템을 도입하면 어떤 일이 생길까? 🇨🇦🩺

안녕하세요! 오늘은 의학교육, 그중에서도 역량 바탕 의학 교육(Competency Based Medical Education, CBME)에 관심 있는 분들이라면 아주 흥미로워하실 내용을 들고 왔습니다.

바로 캐나다 왕립 내과 및 외과 대학(Royal College)이 주도한 대규모 프로젝트, '설계에 의한 역량(Competence by Design, CBD)' 모델의 도입 과정과 그 교훈을 담은 논문 리뷰입니다. 전공의 수련 과정에 신뢰할 수 있는 전문 활동(Entrustable Professional Activities, EPAs)을 국가 차원에서 어떻게 접목했는지, 그리고 그 과정에서 겪은 시행착오는 무엇이었는지 함께 살펴보시죠! 🧐

1. 왜 '프로그램 평가(Programmatic Assessment)'인가?

과거의 평가는 주로 "시험 한 번 잘 보면 통과!"하는 식이었죠. 하지만 의사를 길러내는 과정이 그래서는 안 된다는 문제의식에서 프로그램 평가(Programmatic Assessment)가 등장했습니다.

이 논문에서 강조하는 프로그램 평가의 핵심은 '한 방'이 아니라 '꾸준함'과 '모음(Suite)'입니다.

🗣️ 연구진의 의견: "프로그램 평가는 개별 평가 도구에 의존하는 것에서 벗어납니다; 대신 고부담 의사결정에 정보를 제공하기 위해 의도적으로 그리고 지속적으로 수집 및 분석되는 평가 구성 요소들의 “모음(suite)”에 초점을 맞춥니다." "Programmatic assessment shifts away from relying on individual assessment tools; it focuses instead on a “suite” of assessment components that are purposefully and continually collected and analyzed to inform high-stakes decisions."

즉, 평가 하나하나는 가벼운 저부담(low-stakes) 피드백을 위한 것이고, 이것들이 모여서 나중에 진급이나 졸업 같은 고부담(high-stakes) 결정을 내리는 근거가 된다는 것이죠.

2. EPA는 '체크리스트'가 아니라 '데이터 포인트' 📊

캐나다의 CBD 모델에서는 각 전공과목별로 EPA를 개발했습니다. 전공의가 특정 의료 행위를 혼자서 수행할 수 있는지 확인하는 것이죠. 여기서 중요한 건, EPA 관찰 한 번으로 모든 게 결정되지 않는다는 점입니다.

많은 교수님들이나 전공의들이 "이거 점수 잘 받아야 통과해!"라고 오해하곤 하는데요, 저자들은 이 점을 분명히 합니다.

🗣️ 연구진의 의견: "모든 평가(의 일부)는 단지 하나의 데이터 포인트(data-point)일 뿐입니다." "Every (part of an) assessment is but a data-point."

여러 교수자에게, 다양한 상황에서, 여러 번 관찰된 결과들이 모여야 비로소 역량 위원회(Competence Committee, CC)가 "이 전공의는 다음 단계로 가도 좋다"는 결정을 내릴 수 있습니다. 이를 다각검증(Triangulation)이라고 해요.

3. 현장의 혼란과 교훈: "위임 가능성(Entrustability)"이라는 단어의 함정 ⚠️

이 논문의 백미는 바로 '성찰과 교훈' 파트입니다. 이론은 완벽했지만, 실제 현장(Real-world)에서는 예상치 못한 문제들이 터져 나왔거든요.

가장 큰 문제는 용어였습니다. 평가 척도에 '위임 가능성 척도(Entrustability scale)'라는 이름을 붙였더니, 평가를 하는 교수님들이 엄청난 부담을 느낀 겁니다. "내가 5점 주면, 내일부터 얘는 이거 혼자 다 해도 된다고 보증하는 건가?" 하고 말이죠. 😅

🗣️ 연구진의 의견: "'위임 가능성 척도'라는 용어가 교수진에게 그들이 EPA 관찰 양식에 기록한 수행 평정이 전공의의 미래 위임에 대한 결정이라는 메시지를 의도치 않게 그리고 잘못 전달하고 있다는 우려가 제기되었습니다." "
The wider medical education community raised concerns that the term entrustability scale was inadvertently and erroneously conveying a message to faculty that the rating of performance they documented on the EPA observation form was a determination of the resident’s future entrustment."

그래서 연구진은 이 척도를 '회고적 감독 척도(Retrospective supervision scale)'라고 부르는 쪽으로 선회하고 있다고 해요. "앞으로 맡길 수 있다"가 아니라, "방금 내가 어느 정도로 감독했나"를 기록하는 것으로 부담을 낮춘 거죠.

4. EPA만 쳐다보지 마세요! (Tunnel Vision 주의) 🔭

또 하나의 문제는 모든 관심이 EPA에만 쏠리면서, 정작 EPA로 측정하기 힘든 다른 중요한 역량들이 소홀해질 수 있다는 점이었습니다. EPA는 중요한 뼈대지만, 전공의 수련의 '전부'는 아니니까요.

🗣️ 연구진의 의견: "밀러 피라미드의 다중 수준과 EPA 프레임워크에 포착된 것 이외의 내용을 다루는 평가 방법 및 도구의 모음은 피교육자 발달의 전체적인 관점(holistic view)을 얻고 CC에 의한 진전에 대한 고부담 결정을 지원하기 위해 필요합니다."
"A suite of assessment methods and tools that address multiple levels of Miller’s pyramid and content beyond those captured in the EPA framework are necessary to obtain a holistic view of trainee development and support high-stakes decisions about progress by a CC."

5. 마치며: 완벽을 기다리지 말라 🚀

전국 단위의 거대한 교육 개혁이 쉬울 리 없겠죠. 하지만 연구진은 마거릿 애트우드(Margaret Atwood)의 명언을 인용하며, 시행착오를 두려워하지 말고 계속 수정하고 개선해 나가는 것이 중요하다고 강조합니다.

🗣️ 연구진의 의견: "만약 내가 완벽을 기다렸다면, 나는 한 글자도 쓰지 못했을 것입니다."
"If I waited for perfection, I would never write a word."

우리나라 의학 교육 현장에서도 시사하는 바가 큰 논문인 것 같습니다. 완벽한 시스템을 기다리기보다, 일관된 철학(프로그램 평가)을 가지고 현장의 목소리에 귀 기울이며 계속 나아가는 태도가 필요하지 않을까요?

서론 (Introduction)

프로그램 평가 (Programmatic assessment)는 역량 바탕 의학 교육 (competency based medical education, CBME)의 핵심 구성 요소 (core component)이며 전 세계 교육 시스템 (systems of education)에 점차 도입되고 있습니다 [1, 2, 3]. CBME의 중심에는 (Central to CBME) 프로그램들이 피교육자 (trainees)의 역량 개발 및 성취 (development and achievement of competence)를 평가하기 위한 체계적인 수단 (systematic means)을 갖추어야 한다는 개념이 있습니다. 이를 위해서는

바람직한 성과 (desired outcomes)에 대한 명확한 정의 (clear definitions)와,
피교육자가 다음 단계로 나아가기에 (to advance) 충분한 진전 (sufficient progress)을 이루었는지를 정확하게 식별 (accurately identify)하는 동시에
학습을 위한 양질의 피드백 제공 (provision of high-quality feedback)을 촉진하고 성찰적 실천 (reflective practice)을 지원하는 견고한 평가 시스템 (robust assessment systems)이 필요합니다 [4, 5].

프로그램 평가는 이러한 목표들과 부합하며 (aligns with) 유능한 졸업생을 배출한다는 (produce competent graduates) 의학의 사회적 계약 (social contract)을 이행하는 데 있어 매우 중요합니다 (crucial) [6]. 프로그램 평가란

평가의 의사결정 및 학습 기능 (decision-making and learning function)을 동시에 최적화 (simultaneously optimize)하기 위해, 교육적 틀 (educational framework) 내에 내재된 (embedded) 다양한 평가 방법 및 활동 (variety of assessment methods and activities)을 의도적으로 선택하고 조합 (intentional selection and combination)하여 평가 시스템을 설계하는 특정한 접근법 (specific approach)입니다 [7, 8, 9].

프로그램 평가는 개별적인 고부담 평가 도구 (individual high-stakes assessment tools)의 개발과 사용에 초점을 맞춤으로써 평가의 총괄적 기능 (summative function)을 주로 강조해 온 전통적인 평가 접근법 (traditional approaches to assessment)의 몇 가지 단점 (shortcomings)을 해결하고자 합니다 [10].

전통적인 접근법들은 구조화된 고부담 시험 (structured high-stakes examinations)과 같은 수행의 제한된 단면들 (limited snapshots of performance)이 학습자의 성취 및 역량 개발 (learners’ achievement and competence development)에 관한 견고한 의사결정 (robust decision-making)을 뒷받침하기에는 충분한 증거 (sufficient evidence)를 제공할 수 없다는 이유로 비판받아 왔습니다 [11].
더욱이, 교육자들이 교수 및 학습 현장 (teaching and learning encounters)과 동떨어진 (removed from) 주기적인 평가 활동 (periodic assessment activities)에 의존할 때, 그들은 성찰적 실천과 개선 (reflective practice and improvement)을 가능하게 하는 데 필요한 빈번하고 의미 있는 수행 피드백 (frequent and meaningful performance feedback)을 제공함으로써 학습자의 발달을 지원할 기회를 놓치게 됩니다 (miss opportunities) [10].

대조적으로 (By contrast), 프로그램 평가는 개별 평가 도구에 의존하는 것에서 벗어납니다 (shifts away from relying on individual assessment tools); 대신 고부담 의사결정 (high-stakes decisions)에 정보를 제공하기 위해 (to inform) 의도적으로 그리고 지속적으로 수집 및 분석되는 (purposefully and continually collected and analyzed) 평가 구성 요소들의 “모음 (suite)”에 초점을 맞춥니다 (표 1 참조) [7]. 프로그램 평가는 다음의 세 가지 근본적인 개념 (fundamental concepts)에 기반을 두고 있습니다 (grounded in):

종단성 (Longitudinality): 프로그램 평가는 훈련 과정 전반에 걸친 (through training) 종단적 평가 (longitudinal assessments)를 강조합니다. 이는 피교육자에게 빈번하고 지속적인 피드백 (frequent and ongoing feedback)을 지원하여 성찰과 학습 (reflection and learning)을 촉진하는 동시에, 시간이 지남에 따른 (over time) 피교육자의 진전 상황을 추적 (tracking)할 수 있게 해주는 프로그램으로의 지속적인 정보의 흐름 (continual flow of information)을 생성합니다 [7].
다각검증 (Triangulation): 어떠한 단일 평가 (single assessment)도 결정을 뒷받침하기에는 충분하지 않습니다. 그보다는, 동일한 내용 (same content)에 관련된 평가 정보가 다각검증 (triangulated)되며, 의사결정의 신뢰성 (decision reliability)은 시간이 지남에 따라, 서로 다른 평가자들 (different assessors)에 의해, 서로 다른 방법 (different methods)을 사용하여 수집된 다양한 데이터 포인트의 종합 (synthesis of multiple data points)으로부터 도출됩니다 [12]. 다각검증의 개념에는 각 역량 영역 (competency domain)을 포착 (captures)하는 평가 프로그램을 설계할 때 신중을 기해야 한다 (need to be deliberate)는 점과, 각 영역이 다양한 정보원 (variety of information sources)에 의해 정보를 제공받아야 한다는 점이 내재되어 있습니다 (inherent).
비례성 (Proportionality): 평가 결정의 중요도/부담 (stakes of an assessment decision)은 해당 결정을 알리는 데 사용되는 데이터의 풍부함과 신뢰성 (richness and trustworthiness)에 상응해야 (correspond with) 합니다 [8]. 전공의 수련 (postgraduate training)에서의 고부담 결정은 수련 과정 동안의 진급 및 승진 (progress and promotion)과 같은 중요한 결과를 초래합니다. 따라서, 방어 가능한 (defensible) 고부담 결정을 알리기 위해서는 다수의 저부담 평가 (multiple low-stakes assessments)에서 나온 집계된 양적 및 질적 데이터 (aggregated quantitative and qualitative data)가 필요합니다. 추가적으로, 고부담 결정은 개별 평가 (individual assessment)와 분리되어 발생하기 때문에, 학습자가 관찰될 때마다 개선을 위한 코칭 (coaching for improvement)과 학습 지도 (guide learning) (즉, 학습을 위한 평가 [assessment for learning])에 더 큰 주의를 기울일 수 있습니다.

표 1. 전통적인 평가 접근법에 대한 비판을 다루는 프로그램 평가의 특징 (Features of programmatic assessment that address criticisms of traditional assessment approaches.)

특징 (FEATURE)	설명 (DESCRIPTION)
일상적이고, 부담이 적은 평가 활동들이 일일 임상 진료에 통합됨 (Routine, low-stakes assessment activities are integrated into day-to-day clinical practice)	각 평가 만남 (assessment encounter)은 발달을 위한 의미 있는 종단적 피드백 (meaningful longitudinal feedback)을 제공하는 자극제 (stimulus) 역할을 합니다.
의도적으로 선택된 평가 및 평가 방법들이 “목적에 부합함” (Intentionally selected assessments and assessment methods are “fit for purpose”.)	평가 및 방법의 의도적 선택 (Intentional selection)은 교육 활동의 의도된 학습 성과 (intended learning outcomes)와 수집된 데이터 간의 더 큰 일치 (greater alignment)를 지원합니다.
고부담 결정은 개별 평가 만남과는 별도로 이루어짐 (High-stakes decisions are made separately from the individual assessment encounter.)	각 평가 만남은 부담이 적도록 (low stakes) 의도되었으며, 이는 학습 지도 (학습을 위한 평가 [assessment for learning])에 더 큰 초점을 맞추는 것을 지원합니다.
결정은 시간이 지남에 따라 서로 다른 방법을 사용하여, 서로 다른 평가자들에 의해 수집된 광범위한 증거를 기반으로 이루어짐 (Decisions are made on the basis of a wide body of evidence that is collected by different assessors, using different methods over time.)	개별 사례 (individual cases) 및 맥락 (contexts)의 특수성으로 인한 변동 (variation)의 효과뿐만 아니라 평가자의 특이성 (assessor idiosyncrasies)이 감소됩니다 (적절한 표본 추출 [adequate sampling]이 제공된다면). 또한, 한 가지 평가 유형의 한계점 (limitations)은 다른 유형의 강점 (strengths)에 의해 상쇄됩니다 (countered).

교육과정 및 평가 설계 (curricular and assessment design)에 있어 프로그램 평가가 제공하는 (affords) 발전은 점점 더 많은 수의 의료 훈련 프로그램 (medical training programs)에서 그 실행 (implementation)을 촉진시켰습니다 (catalyzed) [7]. 프로그램 평가가 학습자, 교사 및 프로그램에 미치는 영향 (impact)에 대한 연구 증거 (research evidence)가 계속해서 증가하고 있는 반면 [7, 13], 대규모 (large scale)로 진행된 프로그램 평가 실행의 영향에 대해서는 아직 널리 알려진 바가 거의 없습니다 (little has yet been disseminated). 캐나다에서는, 전공의 교육 (postgraduate specialist medical education)이 신뢰할 수 있는 전문 활동 (entrustable professional activities, EPAs)을 중심으로 한 (centred around) 역량 바탕 모델 (competency based model)로의 변혁적인 변화 (transformative change)를 겪었습니다. 이 논문에서, 우리는 학습을 지도하고 (guide learning) EPA 성취 및 훈련 과정의 진전 (EPA achievement and progress through training)에 대한 방어 가능한 결정 (defensible decisions)을 지원하기 위해 견고한 데이터 (robust data)가 수집되도록 보장하게끔 설계된 평가 프로그램 모델의 대규모, 전국적 실행 (large scale, national implementation)에 대해 기술하고 성찰 (describe and reflect on)합니다. 이를 수행함에 있어, 우리는 오타와 2020 합의 성명서 (Ottawa 2020 consensus statement)에 정의된 프로그램 평가의 원칙들을 참조합니다 (make reference to) (표 2 참조) [8]. 이러한 원칙들은 프로그램 평가의 중요하고 인식 가능한 측면들 (important and recognizable facets)을 나타냅니다. 이 논문에서는 원칙 1-8에 특히 주의를 기울입니다 (Attention is specifically given to). 원칙 9-12는 이 시리즈의 다른 논문들에서 다루어집니다 [14, 15].

표 2. 프로그램 평가를 위한 오타와 2020 합의 성명서에 따른 프로그램 평가의 원칙들 (Principles of programmatic assessments from the Ottawa 2020 consensus statement for programmatic assessment [8].)

모든 평가(의 일부)는 단지 하나의 데이터 포인트 (data-point)일 뿐이다.
모든 데이터 포인트는 학습자에게 의미 있는 피드백 (meaningful feedback)을 제공함으로써 학습을 위해 최적화 (optimised for learning)된다.
합격/불합격 결정 (Pass/fail decisions)은 단일 데이터 포인트 (single data-point)에 기반하여 내려지지 않는다.
평가 방법들의 혼합 (mix of methods of assessment)이 존재한다.
선택된 방법은 해당 방법을 사용하는 교육적 정당성 (educational justification)에 의존해야 한다.
총괄 평가 (summative)와 형성 평가 (formative)의 구분은 부담의 연속선 (continuum of stakes)으로 대체된다.
학습자 진전 (learner progress)에 대한 의사결정은 그 부담 (stake)과 비례적으로 관련 (proportionally related)된다.
평가 정보는 적절한 프레임워크 (appropriate framework)를 향해 데이터 포인트 전반에 걸쳐 다각검증 (triangulated)된다.
고부담 결정 (진급 [promotion], 졸업 [graduation])은 포괄적 접근 (holistic approach)을 사용하여, 신뢰할 수 있고 투명한 방식 (credible and transparent manner)으로 이루어진다.
학습자와 그들의 진전 (progression)에 대해 논의하고 결정하기 위해 중간 검토 (Intermediate review)가 이루어진다.
학습자는 모든 평가 데이터에 대한 자기 분석 (self-analysis)을 사용하여 (교수) 멘토/코치와 반복적인 학습 미팅 (recurrent learning meetings)을 갖는다.
프로그램 평가는 개인의 학습 우선순위 (individual learning priorities)를 지원하도록 맞춤화된 학습 (learning being tailored)을 통해 자신의 학습에 대한 학습자의 주도성 및 책무성 (agency and accountability)을 점진적으로 증가시키는 것을 추구한다.

캐나다 왕립 내과 및 외과 대학 (Royal College)의 신뢰할 수 있는 전문 활동 (EPAs) 실행 (Royal College implementation of Entrustable Professional Activities [EPAs])

설계에 의한 역량 (Competence by Design, CBD)은 전공의 전문 훈련 (postgraduate specialist medical training)을 위해 캐나다 왕립 내과 및 외과 대학 (Royal College of Physicians and Surgeons of Canada, 이하 Royal College라 칭함)이 개발한 CBME 모델입니다. CBD에서 훈련은 네 가지 진행 단계 (progressive stages)로 구성됩니다. 각 훈련 단계마다 피교육자가 다음 단계로 승진 (promoted to the next stage)하기 전에 반드시 성취해야 하는 일련의 성과들 (a set of outcomes)이 정의되었습니다. 각 국가 전문 위원회 (national specialty committee)는 해당 전문 분야의 피교육자들을 위해 관련된 CanMEDS 이정표 (milestones)와 함께 EPA를 개념화하고 작성했습니다 (conceptualized and wrote).

EPA는 피교육자가 충분한 역량 (sufficient competence)을 입증한 후 수행하도록 완전히 위임 (fully entrusted to perform)될 수 있는 해당 전문 분야의 핵심 과업 (key tasks)이며,
이정표는 그 과업을 완수하기 위해 요구되는 구성 기술들 (component skills)을 나타냅니다 [16, 17].

Royal College의 EPA (RCEPAs)는 단계별로 특화되어 있으며 본질적으로 발달적 (stage-specific and developmental in nature)입니다. 즉, 후반 단계의 EPA는 점진적으로 더 복잡해지며 (incrementally more complex) 초기 단계의 EPA를 기반으로 구축됩니다 (build upon). 한 단계에서 다음 단계로 나아가기 (progress) 위해서, 피교육자는 해당 단계 내의 EPA 성취를 입증해야 합니다. 역량 위원회 (Competence Committee, CC)는 피교육자의 포트폴리오 (portfolio) 내에 있는 사용 가능한 데이터를 포괄적으로 검토 (comprehensive review)한 후:

a) EPA 성취에 대한 고부담 결정 (high-stakes decisions)과
b) 훈련 단계를 거치는 전반적인 피교육자 진전 및 승진 (overall trainee progress and promotion)에 대해 프로그램에 권고 (recommendations)를 합니다 [14].

EPA 성취에 대한 결정은 CC의 관점에서 그리고 다수의 관찰 (multiple observations)에 근거하여, 전공의 (resident)가 해당 EPA를 일관되게 완수하도록 위임 (entrusted to consistently complete)받을 수 있을 때 내려집니다. 각 전문 위원회는 해당 분야의 EPA 성취에 대한 고부담 CC 결정을 지도하기 위해, 맥락의 다양성 (context variety)과 성공적인 EPA 관찰 횟수 (number of successful EPA observations)에 대한 국가 가이드라인 (National guidelines)을 개발했습니다. 그러나, 결정을 뒷받침하는 데 필요한 데이터의 유형과 양 (type and amount of data)을 결정하는 것은 CC에게 달려 있습니다 (up to the CC).

EPA는 즉각적인 관찰 및 코칭 피드백 (in-the-moment observation and coaching feedback)을 위한 목표물 (targets)로 기능하도록 설계되었습니다. 관찰된 과업에 대한 문서화 (Documentation)는 또한 CC가 EPA 성취에 대한 결정을 내리는 데 정보를 제공하기 위한 중요한 직장 바탕 평가 (workplace-based assessment, WBA) 데이터에 기여하도록 의도되었습니다. EPA 관찰은 일반적으로 EPA 관찰 양식 (EPA observation form) (그림 1)에 기록되지만, 프로그램들은 관찰을 기록하는 데 적합하다고 판단되는 어떠한 WBA 도구라도 사용할 수 있는 유연성 (flexibility)을 부여받습니다. EPA 관찰 양식 템플릿은 프로그램을 위한 자원 (resource)으로 개발되었으며, 수행에 대한 코칭 피드백과 판단 (judgments of performance)의 즉각적인 문서화를 용이하게 하도록 설계되었습니다. 이 관찰 양식은 RCEPA의 주요 특징 (key features)을 개요화하고 (outlines) 과업이 관찰된 구체적인 맥락 (specific context) (임상 환경, 환자 특성, 케이스 복잡성 등)을 문서화하도록 장려합니다. 지도전문의 (Supervisors)는 해당 임상 활동에 요구되는 감독 수준 (degree of supervision)에 근거하여 수행에 대한 단일한 포괄적 평정 (single global rating)을 제공하도록 요청받습니다. Royal College는 프로그램들이 다양한 임상 환경 전반에 걸쳐 강력한 심리측정적 특성 (strong psychometric characteristics)과 타당도 증거 (evidence of validity)를 입증한 O-SCORE 평정 척도 (rating scale)를 사용할 것을 강력히 권장했습니다 [18, 19, 20, 21, 22, 23]. 그러나, 프로그램들은 발달적 궤적 (developmental arc)을 따라 피교육자의 독립성 수준 (level of independence)을 나타내는 다른 회고적 감독 척도 (retrospective supervision scales)를 사용할 수 있는 지역적 유연성 (local flexibility)을 부여받았습니다 [24, 25]. 또한 각 EPA에 대한 이정표가 양식에 표시되어 지도전문의와 피교육자를 위해 과업을 “세분화 (breaking down)”함으로써 구체적이고 실천 가능한 (specific and actionable) 피드백 및 코칭 제공을 용이하게 합니다. 이러한 피드백을 문서화하기 위해 서술형 의견 섹션 (narrative comment section)이 포함되어 있습니다.

그림 1. EPA 관찰 양식 템플릿. EPA 신뢰할 수 있는 전문 활동 (EPA observation form template. EPA entrustable professional activity.)

직장 내 (In the workplace)에서는, EPA 관찰 양식 이외의 다양한 평가 방법 및 도구를 사용하여 EPA를 관찰하고 평가하는 방식에 다용도성 (versatility)이 존재합니다.

EPA는 임상 평가, 의사소통 기술, 리더십 기술, 술기 능력에 대한 관찰과 같이 임상 지도전문의에 의해 직접 관찰 (directly observed)될 수 있습니다.
또한 케이스 또는 차트 검토, 혹은 자문 기록 (consult note)과 같은 작업 산출물 검토 (review of work products)와 같은 다양한 방법을 사용하여 간접적으로 관찰 (indirectly observed)될 수도 있습니다.
EPA는 다면 피드백 (multisource feedback)으로부터 수집된 데이터를 사용하여 평가될 수도 있습니다.
더욱이, 다양한 WBA 도구 (단지 EPA 관찰 양식뿐만 아니라)에서 나온 질적 및 양적 데이터가 집계되고 다각검증 (aggregated and triangulated)되어 EPA 성취에 관한 CC 결정에 정보를 제공할 수 있습니다.
따라서, EPA를 수행하는 전공의의 능력은 서로 다른 관찰 방법 (different methods of observation)을 사용하는 지도전문의들에 의해 평가될 수 있으며 다양한 WBA 도구를 사용하여 기록될 수 있습니다.

문서화된 EPA 관찰 (documented EPA observations)의 설계 및 실행은 2020 오타와 합의 성명서 (Ottawa consensus statement)에 정의된 프로그램 평가의 원칙들과 일치하도록 (align) 의도되었습니다 (표 3).

표 3. 2020 오타와 합의 성명서에 정의된 프로그램 평가 원칙과 매칭된 문서화된 EPA 관찰 특성 (Documented EPA observation characteristics matched to programmatic assessment principles defined in the 2020 Ottawa consensus statement [8].)

EPA 관찰 특성 (EPA OBSERVATION CHARACTERISTIC)	원칙 (PRINCIPLES)
저부담, 직장 관찰이 즉각적인 피드백 및 평가를 위해 사용됨 (Low-stakes, workplace observations are used for in-the-moment feedback and assessment)	1–3, 5
관찰은 시간이 지남에 따라 서로 다른 맥락에서, 서로 다른 평가자에 의해, 서로 다른 방법 및 도구를 사용하여 의도적으로 수집됨 (Observations are purposefully collected in different contexts, by different assessors, using different methods and tools over time)	4, 5, 8
EPA 성취에 대한 고부담 결정은 CC에 의해 EPA 관찰과 별도로 이루어짐 (High-stakes decisions about EPA achievement are made separately from the EPA observation by the CC)	3, 6, 7
다양한 평가 도구 및 방법에서 나온 데이터가 EPA 성취에 대한 고부담 결정을 알리기 위해 다각검증됨 (Data from a variety of assessment tools and methods are triangulated to inform high-stakes decisions about EPA achievement)	4, 8

약어: EPA 신뢰할 수 있는 전문 활동; CC 역량 위원회 (Abbreviations: EPA entrustable professional activity; CC competence committee).

EPA를 넘어서 – 평가 프로그램 (Beyond EPAs – the program of assessment)

CBD 모델은 프로그램들이 반드시 준수해야 하는 (must adhere to) 각 전문 분야별 단계 및 EPA로 구성된 국가 교육 프레임워크 (national educational framework)를 수립합니다. 그러나 CC에 의한 훈련 진전에 대한 고부담 결정은 오로지 EPA 성취 여부의 결정 (determination of EPA achievement)에만 기반하도록 의도되지 않았습니다. 그보다는, 프로그램들은 피교육자의 발달에 대한 포괄적인 관점 (comprehensive view)을 얻기 위해 EPA 프레임워크에 의해 포착되지 않는 역량 및 내용 (competencies and content)에 관련된 평가 정보 또한 수집해야 합니다. 프로그램들은 전공의의 훈련 진전에 대한 CC의 결정을 알리기 위해 EPA 기반 데이터와 비-EPA 기반 데이터 (non-EPA based data) 모두의 다수를 통합하는 (integrates a host of) 그들만의 고유한 평가 “모음 (suite)”을 설계할 수 있는 유연성 (flexibility)을 부여받습니다 (표 2, 원칙 6–8 참조).

CBME는 피교육자의 발달에 대한 보다 전체적인 관점 (holistic view)을 희생시키면서 (at the expense of) 역량을 EPA와 같이 분절되고 측정 가능한 과업 (discrete measurable tasks)으로 해체한다는 (deconstructing) 비판을 받아왔습니다 [26, 27]. 그러나, CBD 맥락에서의 EPA는 모든 것을 포함하도록 (all-encompassing) 설계되지 않았습니다; 그것들은 유능한 졸업생에게 필수적인 모든 지식, 기술, 태도 및 전문적 기대 (professional expectations)를 포착할 수 없습니다. 그보다는, 그것들은 프로그램과 피교육자를 위한 훈련 성과의 국가적 프레임워크 (national framework of training outcomes) 역할을 하도록 만들어졌습니다. CBD의 설계에 있어, 일선 교수진 (front-line faculty)에 의한 학습자의 직장 바탕 관찰 및 평가 (즉, EPA 프레임워크)를 위한 실질적인 기회 (practical opportunities)에 대한 필요성과 [16], 단지 직장 바탕 데이터뿐만 아니라 밀러의 피라미드 (Miller’s pyramid)의 모든 수준에 있는 평가 데이터를 CC가 포괄적으로 검토함으로써 학습자에 대한 전체적인 개요 (holistic overview)를 유지하는 것 사이의 균형을 맞추려는 시도 (attempt was made to balance)가 있었습니다 [14, 28]. 따라서, CBD 모델에서 피교육자의 진전 및 승진에 대한 방어 가능한 결정 (defensible decisions)을 위해서는 EPA 및 비-EPA 기반 내용과 관련된, 시간이 지남에 따라 다수의 출처와 방법으로부터 수집된 평가 정보의 보완 (complement)이 필요합니다 (표 2, 원칙 4 및 8 참조).

설계상 (By design), EPA는 전문 분야의 필수 과업이며 따라서 EPA 기반 평가는 전공의가 일일 임상 진료에서 무엇을 “하는가 (does)”에 초점을 맞춤으로써 밀러 피라미드의 가장 높은 수준 (highest level)을 목표로 합니다 [28]. 그러나, CC에 의한 피교육자 진전에 대한 방어 가능한 고부담 결정을 알리기 위해서는 밀러의 평가 위계 (assessment hierarchy)의 다양한 수준 (various levels)을 다루는 다양한 평가 방법들 (diverse assessment methods)이 필요합니다 [29]. 그러므로, 국가 EPA 프레임워크에 의해 안내되는 평가 데이터를 수집하는 것에 더하여, 프로그램들은 그들의 평가 “모음”에 포함할 추가적인 비-EPA 기반 데이터가 무엇인지 결정해야 하며, 다음을 보장해야 합니다:

1) 각 평가 유형이 그것이 선택된 교육 활동의 목적과 일치함 (aligns with) (표 2, 원칙 5 참조),
2) 각 평가가 학습자에게 의미 있는 피드백 (meaningful feedback)을 생성하고 CC 결정에 정보를 제공할 유용한 데이터를 생성함 (표 2, 원칙 2 참조), 그리고
3) 서로 다른 평가 활동 전반의 데이터가 다각검증 (triangulated)될 수 있음 (표 2, 원칙 8 참조).

CBD EPA 설계의 독특한 특징 (Unique feature)은 구성 이정표 (component milestones)를 EPA 내에서 그리고 EPA 간에 연결 (linking)하는 것이며, 이는 EPA 관찰에 의해 잘 다루어지는 역량들과 다른 교수 및 평가 방법 (other methods of teaching and assessment)을 필요로 하는 역량들을 식별할 수 있게 해줍니다. 표 4는 고부담 진전 결정을 알리기 위해 프로그램들이 그들의 평가 모음에 통합하는 것을 고려할 수 있는 특정 평가 도구의 예시와 함께 다양한 평가 유형의 전부는 아니지만 일부 목록 (non-exhaustive list)을 제시합니다. 평가 모음의 신중한 선택 (deliberate selection)을 용이하게 하기 위해, 프로그램들은 교수 및 학습 활동뿐만 아니라 평가 방법이 의도된 학습 성과와 일치되는 구성적 일치 (constructive alignment) 개념을 적용하도록 장려됩니다 [30]. 이 과정은 다음을 명시적으로 매칭시키는 (explicitly matches) 교육과정 지도 (curriculum map)의 생성을 통해 지원받을 수 있습니다: 1) 학습 활동과 훈련 단계, 2) 역량과 학습 활동, 3) 평가 활동과 학습 활동, 그리고 4) 평가 도구와 평가 활동 [31].

표 4. 평가 유형별 평가 방법 및 도구의 예시 (Examples of assessment methods and tools by assessment type.)

평가 유형 (ASSESSMENT TYPE)	예시 (EXAMPLES)
지식 시험 (Tests of knowledge)	국가 또는 지역 수련 중 시험 (in-training examinations)
	진급 시험 (Progress testing)
OSCE, 시뮬레이션 평가 (OSCEs, simulation assessments)	객관구조화진료시험 (Objective structured clinical examinations)
다면 평가 (Multisource assessments)	360도 평가 (360 assessment), O-RON [32]
직장 바탕 평가 (Workplace-based assessments)	O-EDShOT [22], OCAT [33], Mini-CEX [34]

약어: OSCEs 객관구조화진료시험 (Abbreviation: OSCEs objective structured clinical examinations).

요약하자면 (In summary), CBD 접근법은 전문 분야의 모든 프로그램에 국가 EPA 세트 (national set of EPAs)를 제공함으로써 중요한 임상 학습 성과를 표준화 (standardizing)하고 이러한 성과를 중심으로 한 WBA 시스템의 실행을 용이하게 합니다. 개별 프로그램들은 피교육자의 발달에 대한 포괄적인 그림 (comprehensive picture)을 생성하기 위해 국가 EPA 프레임워크에 의해 안내되는 WBA와 비-EPA 기반 평가 모두를 포함하는 지역적 평가 프로그램 (local program of assessment)을 설계하는 데 유연성 (flexibility)을 부여받습니다. Royal College 인증 기준 (accreditation standards)과 정기적인 인증 조사 (accreditation surveys)는 개별 프로그램들이 해당 전문 분야의 전체 역량 스펙트럼 (full spectrum of competencies)을 다루고 방어 가능한 진전 및 승진 결정을 가능하게 하는 전체적인 평가 프로그램 (holistic program of assessment)을 개발하기 위한 요구사항을 충족하도록 보장합니다.

성찰과 교훈 (Reflections and lessons learned)

여느 주요한 변화 이니셔티브 (major change initiative)와 마찬가지로, Royal College는 초기에 실행상의 도전 (implementation challenges)에 직면했습니다. 그러나, 이러한 시련들 (trials)은 보편적으로 경험된 것은 아니었습니다 (not universally experienced). 예를 들어, 나중에 실행한 전문 분야들은 초기 실행자들 (early implementers)의 과거 경험과 그들이 얻은 교훈으로부터 혜택을 받았습니다. 하지만, 동일한 실행 집단 (implementation cohort) 내에서도 기관, 전문 분야 및 프로그램 전반에 걸쳐 변동성 (variability)이 관찰되었습니다 [35]. 따라서, 성공적인 실행에 영향을 미치는 매개 요인들 (mediators)을 결정하고 특징짓는 노력은 여전히 Royal College의 프로그램 평가 전략의 중요한 요소로 남아 있습니다 [36]. 우리는 또한 이러한 도전 중 많은 부분이 CBD 실행에만 고유한 것이 아니며 (not unique) 이전에 문헌에서 기술된 바 있다는 점을 인정합니다 (acknowledge). 일부는 각 프로그램의 지역적 맥락 (local context) 전반에 적용될 수 있는 단일한 분절적 해결책 (single discrete solution)이 없는 “난제들 (wicked problems)”을 나타내며, 이는 전국적 규모의 실행이 가진 복잡성 (complexity)을 강조합니다. 더욱이, 일부 도전은 예상되었던 반면, 일부는 의도하지 않은 예상치 못한 결과 (unintended and unexpected consequences)를 나타내며, 이에 대해 CBD의 평가, 적응 및 대규모 진화 (evaluation, adaptation and large-scale evolution)라는 반복적인 과정 (iterative process)이 진행 중입니다. 여기서 우리는 이러한 도전들이 CBD의 전국적 실행에 어떻게 독특한 영향을 미쳤는지 성찰하고, 다른 이들에게 지침이 되기를 (guide others) 바라는 마음으로 얻은 교훈을 강조합니다.

도전 1 – 평가 프로그램 (program of assessment)을 배제한 채 EPA 기반 평가 데이터에만 치중 (Challenge 1 – Emphasis on EPA-based assessment data at the exclusion of a program of assessment)

CBD의 설계 및 실행과 함께, 직장 바탕 평가 (workplace-based assessments)를 지도하기 위한 새로운 국가적 EPA 프레임워크 (new national framework of EPAs)가 도입되었습니다. 전문 위원회와 프로그램 책임자들 (program directors)은 일련의 CBD 워크숍 동안 그들의 국가적 EPA를 설계, 정제 및 수립하기 위해 상당한 시간과 노력을 투자했습니다 [37]. 게다가, 일선 현장 (on the front lines)에서는 활용과 참여 (uptake and engagement)를 강화하려는 목표로 프로그램, 교수진 및 피교육자들을 그들의 새로운 전문 분야별 EPA에 적응시키는 데 (on-boarding) 자원이 투입되었습니다 (dedicated). 이러한 노력은 각 전문 분야를 위한 새로운 국가적 역량 세트 (new national set of competencies)의 실행을 용이하게 하기 위해 필요했지만, EPA에 대한 인식된 강조 (perceived emphasis)는 프로그램 평가의 원칙에 도전하는 (challenge) 몇 가지 상호 관련된 그리고 의도하지 않은 결과들을 낳았습니다 (표 5).

표 5. EPA 실행으로부터 얻은 성찰과 교훈 (Reflections and lessons learned from EPA implementation.)

의도하지 않은 결과 (UNINTENDED CONSEQUENCE)	PA 원칙 (PA PRINCIPLES)	성찰과 교훈 (REFLECTIONS AND LESSONS LEARNED)
일부 프로그램에서 EPA가 유일한 평가 목표가 됨. (In some programs, EPAs became the sole target of assessments.) EPA 관찰 양식 템플릿이 밀러 피라미드의 다양한 수준에 걸쳐 EPA 및 비-EPA 기반 데이터를 모두 포착하는 평가 “모음 (suite)”을 배제한 채 기본 평가 도구 (default assessment tool)가 되었음.	4, 8
프로그램 리더와 CC는 오로지 EPA 관찰 양식 데이터에만 의존하는 것이 평가 공백 (assessment gaps)을 초래한다는 것을 확인했음; 그들은 평가 시스템을 정제하는 주체 (agents)로서 기능할 수 있는 좋은 위치에 있음 [38, 39, 40, 41]. 밀러 피라미드의 다중 수준과 EPA 프레임워크에 포착된 것 이외의 내용을 다루는 평가 방법 및 도구의 모음은 피교육자 발달의 전체적인 관점 (holistic view)을 얻고 CC에 의한 진전에 대한 고부담 결정을 지원하기 위해 필요함. 대규모 실행 동안, 변화 관리 (change management) 노력은 필연적으로 새로운 혁신 (예: EPA 프레임워크)에 자원을 쏟겠지만, 앞으로 계속 가져갈 (carried forward) 기존 요소들 (existing elements) (즉, 평가 방법의 모음)의 통합 또한 반드시 지원되어야 함.
			EPA 관찰 및 평가가 피교육자들에게 고부담으로 인식됨. (Observation and assessment of EPAs are perceived by trainees as high stakes.)	1, 2, 3, 7	EPA 시스템은 코칭과 성장을 위한 기회를 지도하는 프레임워크라기보다는 훈련의 CBD 단계를 통과하기 위한 (progress through) 일련의 요구사항 (set of requirements)으로 간주되었음.
			EPA 시스템은 코칭과 성장을 위한 기회를 지도하는 프레임워크라기보다는 훈련의 CBD 단계를 통과하기 위한 (progress through) 일련의 요구사항 (set of requirements)으로 간주되었음. 성취를 위한 맥락의 다양성과 성공적인 EPA 관찰 횟수에 대한 국가 가이드라인이 엄격한 요구사항 (strict requirements)으로 해석되었으며, 이는 EPA 기반 평가 데이터 수집을 둘러싼 “체크리스트” 사고방식 (“checklist” mentality)을 조장했음 [42, 43]. => Royal College는 맥락의 다양성과 성공적인 EPA 관찰 횟수가 엄격한 기준 (strict criteria)이 아닌 CC에 대한 지침 (guidance)으로 기능해야 함을 프로그램과 피교육자에게 명확히 하기 위해 기술 가이드 (technical guide)와 필수 요구사항 성명서 (statement of essential requirements)를 배포했음 [29, 44]. 성장 마인드셋 (growth mindset)을 촉진하고 직장 바탕 평가가 학습자에게 저부담 (low stakes)이며 긍정적으로 인식될 수 있도록 하는 안전한 학습 환경 (safe learning environments)을 조성해야 할 지속적인 필요성이 있음. 연구에 따르면 a) 피교육자와 평가자 간의 상호작용 및 b) 평가의 의미와 결과에 대한 피교육자의 이해가 평가 부담에 대한 인식에 영향을 미침 [43]. => Royal College의 즉각적인 코칭 (coaching in the moment) 모델 [15]은 프로그램과 교수진이 실천 가능한 피드백 (actionable feedback)을 강조하고 평가의 학습 기능을 최적화하는 긍정적인 피교육자-평가자 상호작용을 수립하도록 돕기 위해 개발되었음. => 프로그램과 전공의를 위해 EPA 관찰의 역할을 명확히 하는 국가적 이니셔티브들이 개발되고 배포되었음 [45, 46]. 이러한 이니셔티브들은 EPA 관찰의 학습 기능, 합격/불합격 결정은 단일 관찰에서 이루어지지 않는다는 점, 그리고 다양한 출처에서 수집된 많은 데이터 포인트가 EPA 성취 및 진전에 대한 결정을 알리는 데 사용된다는 점을 강조함.

약어: CBD 설계에 의한 역량 (Competence by Design); CC 역량 위원회 (Competence Committee); EPA 신뢰할 수 있는 전문 활동 (entrustable professional activity); PA 프로그램 평가 (programmatic assessment).

도전 2 – 평가 부담에 대한 인식에 영향을 미치는 용어 (Challenge 2 – Terminology impacting the perception of assessment stakes)

Royal College에 의한 EPA 관찰 양식의 설계에는 O-SCORE 평정 척도의 광범위한 도입 (wide-scale introduction)이 포함되었습니다 [18, 47]. O-SCORE 척도는 관찰된 과업에 대해 지도전문의가 필요로 했던 관여 정도 (degree of involvement)를 기술하기 위해 구어체 언어 (colloquial language)를 사용하여 작성된 앵커 (anchors)를 포함합니다. 이 척도는 다양한 임상 맥락에 적용되어 왔으며 신뢰할 수 있는 점수 (reliable scores)와 훈련 수준을 변별하는 능력 (ability to discriminate training level)을 포함하여 강력한 심리측정적 특성을 입증했습니다 [19, 20, 22, 23, 48]. O-SCORE와 다른 유사한 척도들은 초기에 위임 가능성 척도 (entrustability scales)라고 기술되었습니다 [49]. Royal College가 예상하지 못한 것은 일선 교수진이 단일 EPA 관찰 양식에 제공한 평정을 피교육자가 미래에 해당 과업을 수행하도록 완전히 위임될 수 있는지 여부에 대한 고부담 판단 (high-stakes judgment)으로 인식할 것이라는 점이었습니다 (이 결정은 시간이 지남에 따라 서로 다른 맥락에서 수집된 다수의 데이터 포인트의 다각검증에 근거하여 CC를 위해 유보된 것입니다; 표 2, 원칙 7 및 8 참조). 더 넓은 의학 교육 커뮤니티는 위임 가능성 척도라는 용어가 교수진에게 그들이 EPA 관찰 양식에 기록한 수행 평정이 전공의의 미래 위임에 대한 결정 (determination)이라는 메시지를 의도치 않게 그리고 잘못 전달하고 있다 (inadvertently and erroneously conveying)는 우려를 제기했습니다 [50]. 이는 이러한 평가에 대해 인식된 부담 (perceived stakes)을 높이고 일선 교수진에게 과도한 부담과 책임 (undue burden and responsibility)을 지우게 되었습니다 (표 2, 원칙 3 및 7 참조) [24, 51].

https://pubmed.ncbi.nlm.nih.gov/22914526/

성찰과 교훈 (Reflections and lessons learned)

EPA 수행에 대한 교수진 판단의 부담을 둘러싼 오해를 불식시키기 위한 (dispel the misconception) 노력의 일환으로, Royal College는 ‘위임 가능성 (entrustability)’이라는 용어와 그것이 가질 수 있는 모든 고부담 함축 의미 (high-stakes connotations)를 제거하기 위해 회고적 감독 척도 (retrospective supervision scale)라는 용어로 전환하는 것을 고려하고 있습니다 [24]. 추가적으로, 평가자들이 평가의 학습 목표 (learning goal) (저부담, 관찰된 만남에 근거한 피드백과 성장에 초점)를 더 잘 이해하도록 돕기 위해 교수 개발 (faculty development)을 위한 지속적인 자원이 개발 및 배포되고 있습니다. 평가의 교육적 영향력 (educational impact)은 주로 학습자에 대한 서술형 피드백 (narrative feedback)에서 파생되므로, 평가에 기록된 서술형 의견의 질을 향상시키기 위한 지속적인 교수 개발 전략은 Royal College가 CBD 실행을 계속해서 강화함에 따라 (continues to enhance) 초점이 되어 왔습니다.

도전 3 – 파견 로테이션 (Challenge 3 – Off-service rotations)

전문 분야별 EPA 시스템 (system of discipline-specific EPAs)을 사용하여 파견 로테이션 (off-service rotations) 중인 피교육자를 평가하는 것은 몇 가지 이유로 둥근 구멍에 네모난 못을 끼우려는 것 (square peg in a round hole)처럼 도전적일 수 있습니다.

첫째, 평가자가 피교육자와 동일한 전문 분야가 아니기 때문에, 피교육자의 전문 분야에서 유능하고 독립적인 진료를 위한 표준 (standard)에 익숙하지 않을 수 있습니다.
둘째, EPA는 전문 분야에 특화된 과업 (discipline-specific tasks)이므로 다른 임상 환경에서는 관찰되지 않을 수 있습니다. 일부 전문 위원회는 파견 로테이션에서 관찰되고 평가될 수 있는 EPA를 설계하는 데 신중을 기했지만 (deliberate), 이는 전문 분야 전반에 걸쳐 다양하게 고려되었습니다 (variably considered).
셋째, 파견 로테이션의 목표는 과업을 독립적으로 수행하는 능력 (즉, EPA)을 획득하는 것이 아닐 수 있습니다; 대신 지식 습득 (knowledge acquisition)이나 기술 개발 (skill development)일 수 있습니다. 결과적으로, 파견 교수진에게 EPA 평가를 완료하도록 요청하는 것은 의도된 학습 성과 (intended learning outcomes)와 관련이 없을 수 있으며 많은 프로그램이 필요하다고 느끼는 수준의 유용한 정보 문서화를 촉진하지 못할 수 있습니다.
넷째, 다양한 전문 분야에서 로테이션을 도는 파견 피교육자들을 위해 무엇을 가르치고 평가해야 하는지에 대해 교수진을 오리엔테이션 (orienting)하는 것은 도전적입니다.

성찰과 교훈 (Reflections and lessons learned)

피교육자가 왜 특정 파견 로테이션을 가는지에 대한 명확한 이해 (clear understanding)가 본 소속 프로그램 (home program)에 의해 수립되어야 하며 사용되는 평가 도구는 이러한 목표를 반영해야 합니다 (표 2, 원칙 5 참조).

파견 로테이션 동안 피교육자가 어떻게 발달하고 있는지에 대한 세부 사항을 포착하기 위해 (EPA 관찰 양식 이외의) 다른 유형의 평가 도구를 사용하는 것은 CC에게 더 의미 있는 데이터 (meaningful data)를 제공할 수 있습니다.
이는 또한 피교육자가 이러한 로테이션 동안 적절한 훈련 경험에 노출되고 있는지 확인하는 데 도움이 됩니다. 파견 교수진에게 이러한 로테이션의 목표, 평가해야 할 것, 그리고 사용될 평가 도구의 유형에 대한 오리엔테이션을 제공하는 것은 이러한 로테이션 동안 수집되는 수행 데이터의 질 (quality of performance data)을 향상시킬 수 있습니다. 그러나, 관여될 수 있는 교수진의 상당한 숫자 (significant number) 때문에 이것이 항상 가능하지는 않을 것임이 인식됩니다.
따라서, 평가 도구를 가능한 한 사용자 친화적 (user friendly)으로 만드는 것이 도움이 될 수 있습니다.

도전 4 – 평가에 대한 전공의 부담 (Challenge 4 – Resident burden of assessment)

많은 프로그램이 피교육자가 EPA 관찰을 주도하는 것 (driving EPA observations)에 전적으로 책임 (solely responsible)이 있도록 평가 시스템을 설정했습니다. 피교육자가 자신의 학습을 지휘하는 것 (direct their own learning)에는 분명 가치가 있지만, 피교육자 주도 평가 (trainee-driven assessments)에 대한 배타적 의존 (exclusive reliance)은 몇 가지 의도하지 않은 결과를 초래했습니다. 여기에는

피교육자에 대한 업무 부담 증가 (increased burden of work) [42],
전공의 웰빙 (resident wellness)에 대한 부정적 영향 [52],
어떤 교수진이 평가를 완료하는지에 대한 제한 (limitations),
피교육자가 독립적인 수행 (independent performance)을 입증한 경우로만 평가가 제한되는 것 [53], 그리고
전반적으로 문서화된 관찰 수의 감소가 포함됩니다.

성찰과 교훈 (Reflections and lessons learned)

평가 활동의 개시 (Initiation)는 교수진과 피교육자 모두가 공유하는 책임 (responsibility shared)이어야 합니다.

피교육자는 자신의 강점 영역과 더 많은 관찰 및 코칭이 필요한 진료 영역에 대해 가장 잘 알고 있을 수 있지만, 교수진은 피교육자가 아직 식별하지 못한 결핍 (deficiencies)을 포착하는 데 더 잘 조율되어 있을 수 있습니다 (more attuned to pick up).
따라서, 평가는 이 작업의 부담이 공유되고, 매우 다양한 교수진과 광범위한 관찰자 (range of observers)가 참여하며, 피교육자가 독립을 향해 나아감에 따라 임상 수행에 대한 일상적이고 문서화된 피드백 (routine and documented feedback)을 받을 수 있도록 보장하기 위해 교수진과 피교육자 모두에 의해 촉발 (triggered)되어야 합니다.
EPA를 특정 로테이션에 매핑 (Mapping)하는 것은 교수진이 그들이 일상적으로 관찰하고 평가할 과업의 하위 집합 (subset of tasks)에 더 익숙해지도록 돕고 (표 2, 원칙 5 참조) 그들이 피교육자 평가에 투자해야 하는 노력을 줄여줄 수 있습니다.
또한, 주당 촉발되어야 하는 문서화된 관찰의 수와 누가 촉발해야 하는지에 대한 기대치 (expectation)를 설정한 프로그램들이 위의 도전들을 해결하는 데 더 큰 성공을 거두었습니다.

도전 5 – EPA의 현실 세계 실행 (Challenge 5 – Real-world implementation of EPAs)

프로그램 책임자와 전문 위원회가 EPA를 해당 분야의 핵심 과업을 반영하도록 설계하기 위해 모든 노력을 기울였지만, 실행 초기 단계에서 일부 EPA가 실질적인 일일 업무 흐름 (practical daily workflow)과 일치하지 않음 (not congruent)이 분명해졌습니다 (예: 재택 당직 [home-call] 중인 교수진에 의한 과업의 직접 관찰). 이해할 만하게도 (Understandably), 이는 그러한 EPA 관찰의 수용성 (acceptability), 인식된 타당도 (perceived validity), 그리고 교육적 영향력 (educational impact)에 영향을 미쳤습니다 (표 2, 원칙 2 및 5 참조) [54, 55, 56].

성찰과 교훈 (Reflections and lessons learned)

마거릿 애트우드 (Margaret Atwood)는 “만약 내가 완벽을 기다렸다면, 나는 한 글자도 쓰지 못했을 것이다 [57]”라고 말했습니다. 여느 주요한 변화 이니셔티브와 마찬가지로, Royal College는 지속적인 질 향상 (continuous quality improvement) 과정을 사용하여 전문 위원회 수준에서 국가적 EPA 세트를 반복하고 정제하는 것 (iterate and refine)을 목표로 했습니다. CBD를 가장 먼저 시작한 (first to launch) 일부 전문 분야들은 그들의 원래 EPA에 대한 정제 (refinements)를 수행했지만, 다른 분야들은 이제 막 개정 과정 (revision process)을 시작하고 있습니다. Royal College는 전문 위원회 수준에서 EPA 개정을 지원할 수 있는 역량 (capacity)이 자원 제약 (resource constraints)에 의해 영향을 받을 것임을 인식했습니다. 대규모 평가 프로그램을 실행하려는 교육자들은 전체 실행 (full implementation) 이전에 더 작은 규모로 파일럿 (piloting)을 수행하는 것을 고려해야 합니다. 파일럿은 예상치 못한 도전을 식별하고, 자원 필요가 증가하는 영역을 파악하며, 지속적인 개발을 위한 인프라를 구축하고, 지속적인 질 향상을 촉진하기 위한 충분한 역량 (sufficient capacity)을 보장하는 데 도움이 될 수 있습니다 [58].

결론 (Conclusion)

학습을 지도하도록 설계된 평가 프로그램 모델의 실행은, 동시에 다양한 전문 분야 (multiple disciplines)에 걸쳐 전국적 수준 (national level)에서 EPA 성취 및 훈련 진전에 대한 방어 가능한 결정을 지원하기 위한 견고한 데이터 수집을 보장해야 하며, 이는 복잡한 과정 (complex process)이자 주요한 변화 이니셔티브입니다. 우리는 EPA를 중심으로 한 WBA 시스템을 통합하는 CBD 프로그램 평가 모델을 기술하고 이 여정 (journey)에서 겪은 도전들에 대해 성찰했습니다. 이 논문이 평가 시스템의 대규모 변혁 (large-scale transformation)에 착수하려는 (intending to embark on) 다른 교육자들에게 가치 있는 통찰력 (valuable insights)을 제공하기를 희망합니다.

'논문 읽기 (with AI)' 카테고리의 다른 글

의학교육의 혁신을 가능하게 하는 전략: Competence By Design(CBD)에서의 교수 및 수련생 개발 (Perspect Med Educ. 2024) (0)	2025.12.13
성과 중심 인증평가 시스템을 통한 역량바탕의학교육(CBME) 구현 촉진 (Perspect Med Educ. 2024) (0)	2025.12.13
설계된 역량(CBD): 역량 중심 의학 교육 시스템에서 고부담 시험의 역할 (Perspect Med Educ. 2024) (0)	2025.12.13
설계에 의한 역량(CBD)에서의 코칭: 대규모 실행 지원을 위한 현장 코칭과 지속적인 코칭의 새로운 모델 (Perspect Med Educ. 2024) (0)	2025.12.13
대규모 역량 바탕 의학 교육(Competency-Based Medical Education at Scale): 국가 전공의 교육 시스템 변혁을 위한 로드맵 (Perspect Med Educ. 2024) (0)	2025.12.13

의대에서 교육하고 있습니다.

국가적 평가 프로그램 모델의 설계 및 실행 – 캐나다 전공의 의학 교육에 신뢰할 수 있는 전문 활동(EPA) 평가 통합 (Perspect Med Educ. 2024)

Design and Implementation of a National Program of Assessment Model - Integrating Entrustable Professional Activity Assessments in Canadian Specialist Postgraduate Medical Education

1. 왜 '프로그램 평가(Programmatic Assessment)'인가?

2. EPA는 '체크리스트'가 아니라 '데이터 포인트' 📊

3. 현장의 혼란과 교훈: "위임 가능성(Entrustability)"이라는 단어의 함정 ⚠️

4. EPA만 쳐다보지 마세요! (Tunnel Vision 주의) 🔭

5. 마치며: 완벽을 기다리지 말라 🚀

'논문 읽기 (with AI)' 카테고리의 다른 글

+ Recent posts

티스토리툴바