객관구조화진료시험(OSCE)이 임상 준비도에 대한 진정성 있는 평가로 경험되는 방식, 이유 및 시기에 대한 실재론적 평가 (Med Teach, 2025)

Meded 2026. 3. 4. 21:40

2026. 3. 4. 21:40

Med Teach. 2025 Mar;47(3):458-466. doi: 10.1080/0142159X.2024.2339413. Epub 2024 Apr 18.

A realist evaluation of how, why and when objective structured clinical exams (OSCEs) are experienced as an authentic assessment of clinical preparedness

Peter Yeates 1, Adriano Maluf 2, Ruth Kinston 1, Natalie Cope 1, Kathy Cullen 3, Aidan Cole 3, Vikki O'Neill 3, Ching-Wa Chung 4, Rhian Goodfellow 5, Rebecca Vallender 5, Sue Ensaff 5, Rikki Goddard-Fuller 6, Robert McKinley 1, Geoff Wong 7

[제목] 의대생 실기시험(OSCE), 어떻게 해야 '진짜' 진료 현장과 비슷해질까? 🩺

안녕하세요! 오늘은 의과대학이나 보건 의료 분야 교육에서 정말 중요하게 다루는 실기시험인 객관구조화진료시험(Objective structured clinical exams, OSCEs)에 대한 아주 흥미로운 논문을 하나 리뷰해 보려고 합니다.

OSCE를 준비하거나 치러보신 분들이라면 한 번쯤 이런 생각 해보셨을 거예요. "이거 실제 병원(real practice)에서는 이렇게 안 하는데?", "채점 기준 맞추느라 연기하는 기분이야..." 맞습니다. 기존의 OSCE는 종종 정해진 대본에 맞춘 연극처럼 느껴지거나, 파편화된 기술만 기계적으로 보여줘야 하는 한계가 있었죠.

오늘 소개할 논문은 어떻게 하면 OSCE를 진짜 의사들의 업무처럼 진정성(authenticity) 있게 만들 수 있는지, 그리고 그렇게 했을 때 학생과 평가자들에게 어떤 긍정적인 변화가 일어나는지를 파헤친 실재론적 평가(Realist evaluation) 연구입니다.

🤔 '진정성 있는 OSCE(Authentic OSCE)'란 무엇일까요?

연구진은 학생들이 억지로 불신을 유보하고 '허구적 계약(fiction contract)'에 억지로 짜 맞추는 대신, 스스로를 실제 의사라고 생각하고 몰입(immersion)할 수 있는 환경을 설계했습니다. 핵심 비결은 다음과 같습니다.

🧩 전체 과제 수행(Whole tasks): 단편적인 기술(예: 청진만 하기)만 끊어서 평가하는 게 아니라, 실제 환자를 만나 병력을 청취하고, 진찰하고, 향후 계획을 세우는 진료의 전체 흐름을 경험하게 합니다.
⏳ 충분한 시간(Sufficient time): 7분, 8분 타이머에 쫓겨 기계적으로 암기한 걸 쏟아내는 대신, 실제로 생각하고 임상적 추론(clinical reasoning)을 할 수 있는 넉넉한 시간을 줍니다.
🧭 자율성과 임상적 판단(Autonomy & Clinical judgement): 평가자가 "이거 하세요, 저거 하세요" 지시하는 것(prompting)을 최소화합니다. 학생 스스로 가이드라인 등 전형적인 자원(typical resources)을 찾아보고 실제 현장에서 할 법한 판단을 내리도록 유도하죠.

💡 진짜 진료 현장 같은 시험이 '진짜 실력'을 키운다

이러한 진정성 있는 환경이 주어지자 놀라운 결과가 나타났습니다. 학생들은 이 시험을 단순히 점수를 따기 위한 관문이 아니라, 자신의 임상 준비도(clinical preparedness)를 확인하는 공정한 기회로 받아들였습니다.

시험이 실제 실무를 반영한다고 느끼니, 학생들은 OSCE 준비를 위해 시험 족보만 외우는 대신 임상 학습(clinical learning) 현장(병동 등)에서 더 많은 시간을 보내며 진짜 실력을 키우려는 동기를 얻게 되었습니다.

연구진은 이 연구의 가장 핵심적인 의견과 시사점을 다음과 같이 강조하고 있습니다.

"OSCE가 학생들이 실무에 진입할 준비도에 관한 의사 결정에 정보를 제공할 수 있는 타당도(validity)는 (적어도 부분적으로는) 학생들이 나아갈 실무 환경을 OSCE가 얼마나 진정성 있게 시뮬레이션(authentically simulate)하는지에 달려 있습니다." (The validity with which OSCEs can inform decisions on students’ preparedness to enter practice is (at least partly) dependent on how authentically the OSCEs simulate the practice into which students will progress.)

"평가 과제의 진정성(Authenticity)은 현재의 관찰로부터 실제 실무에서의 예상되는 행동을 외삽(extrapolating)하는 데 핵심적입니다. 결과적으로, 우리는 제안한 원칙들을 신중하게 적용함으로써 교육자들이 OSCE로부터 실제 생활(real life)에서의 예상 수행 능력으로 외삽할 수 있는 능력(ability to extrapolate)을 증가시킬 수 있다고 주장합니다." (Authenticity of assessment tasks is key to extrapolating from the current observation to likely behaviour in practice. Consequently, we assert that by thoughtfully applying the principles we have proposed, educators may increase the ability to extrapolate from OSCEs to likely performance in real life.)

📝 마무리하며

결국 좋은 평가는 좋은 학습을 이끕니다. 평가자가 세세하게 지시하는 대신 학생의 주체성(agency)을 믿고 현실적인 맥락과 시간을 줄 때, 우리는 비로소 학생이 진짜 의사 가운을 입을 준비가 되었는지 정확히 확인할 수 있을 것입니다. 실기 평가를 설계하시거나 준비하시는 분들이라면, 오늘 알아본 '진정성(Authenticity)'의 요소를 꼭 한번 적용해 보시길 추천합니다! 👨‍⚕️👩‍⚕️

서론 (Introduction)

객관구조화진료시험(Objective structured clinical exams, OSCEs)은 국제적으로 보건 의료 전문가 교육 내의 많은 평가 프로그램(assessment programmes)의 핵심 구성 요소입니다. 이는 고부담 목적(high-stakes purposes)을 위해 비교 가능하고 청사진이 제시된 평가(blueprinted assessments)를 제공할 수 있는 능력 때문입니다 (Boursicot et al. 2021). 이러한 유익함에도 불구하고 한 가지 피할 수 없는 관찰 결과가 있습니다. OSCE는 실제 임상 실무(real practice)가 아닌 시뮬레이션 된 환경(simulated practice) 내에서 응시자의 수행 능력(performance)을 평가한다는 것입니다 (Adamo 2003). 시뮬레이션 평가(Simulated assessment)는 학생, 모의 환자(simulated patients), 그리고 평가자가 "허구적 계약(fiction contract)"에 참여할 것을 요구합니다 (Dieckmann et al. 2007). 즉, 시뮬레이션 된 시나리오가 그들의 이전 임상 경험(clinical experience)의 현실과 동떨어져 있을 경우, 그 시나리오에 몰입하기 위해 불신을 유보(suspend disbelief)해야 합니다. 학습자가 다음 단계의 훈련이나 실무로 나아갈 준비가 되었는지 결정하기 위해 OSCE가 사용될 때, 그 타당도(validity)는 응시자가 나아갈 실무에서의 전형적인 업무, 판단, 기술 및 행동을 얼마나 진정성 있게(authentically) 나타내는가에 (적어도 부분적으로는) 달려 있습니다 (Hodges 2003b). Lavoie et al. (2020)에 따라, 우리는 진정성(authenticity)이 충실도(fidelity)의 요소(시나리오가 실무를 얼마나 잘 복제하는지)를 포함하지만, 학습자가 시나리오와 상호 작용하는 방식 및 이에 대한 그들의 주관적인 반응도 포함한다고 주장합니다. 이를 Kane의 타당도 모델(Kane’s model of validity)과 연관 지어 볼 때 (Cook et al. 2015), 만약 OSCE가 응시자가 실제 실무에서 어떻게 생각하거나 행동할지를 제대로 이끌어내지 못한다면, 타당도 논증의 외삽 영역(extrapolation domain)이 도전을 받게 될 것입니다.

실무 적용점 (Practice points)

OSCE는 응시자의 임상 술기(clinical skills)에 대한 시뮬레이션 평가(simulated assessment)로 구성됩니다. OSCE가 실무를 시뮬레이션하는 진정성(authenticity)은 틀림없이 평가의 타당도(validity)에 기여합니다.
OSCE 내의 진정성은 단순히 가정될 수 없으며, 스테이션 설계(station design), 개인의 선호도, 그리고 평가에 대한 맥락적 기대(contextual expectations)의 상호 작용으로부터 나타나는 것으로 보입니다.
OSCE 진정성을 증진하기 위해 잠정적으로 몇 가지 조치들이 권장될 수 있지만, 그 영향은 맥락에 따라 달라지므로 실제 임상 실무(practice)에서는 신중한 적용이 요구됩니다.
응시자들이 OSCE 내에서 그들의 평소 임상 수행(clinical performance)을 진정성 있게 보여줄 수 있도록 하는 것은 공정성을 높이는 동시에 임상 학습(clinical learning)에 대한 더 큰 참여를 촉진할 수 있습니다.

OSCE의 타당도(validity)에 있어 진정성(authenticity)이 중요함에도 불구하고, 이 주제에 대한 연구는 거의 이루어지지 않았습니다. 대다수의 OSCE 문헌은 그들의 심리측정적 특성(psychometric properties)에 초점을 맞추고 있습니다 (Swanson and van der Vleuten 2013). 일반적으로, 내용 근거(content evidence)는 특정 목적을 위한 해석을 뒷받침하는 증거 사슬의 일환으로 모색되지만 (Downing 2003; Kane 2013), 이러한 근거는 대개 OSCE 내의 스테이션들이 청사진(blueprint)을 얼마나 포괄적으로 표집(sample)하는지를 확립하는 것을 포함합니다 (Kreptul and Thomas 2016). 내용 일치(content alignment)와 표집이 중요하긴 하지만, 이는 스테이션 설계(station design) 수준에서 '진정성을 평가'하는 데는 실패합니다.

OSCE 내의 진정성에 관한 소수의 문헌들은 몇 가지 주제들을 강조해 왔습니다.

임상 과제(clinical tasks)의 파편화 (Gupta et al. 2010; van der Vleuten et al. 2010; Nasir et al. 2014), 혹은 임상 실무를 제대로 반영하지 못하는 시나리오(비현실적인 환자 프레젠테이션 때문이거나, 응시자에게 기대되는 행동이 실제 임상 실무(clinical practice)에서의 일반적인 반응과 일치하지 않기 때문임 (Hyde et al. 2022))는 비진정성(inauthenticity)에 기여합니다.
열악한 '과제 시간 일치(task time agreement)'(즉, 시간적 압박)는 응시자를 서두르게 만들어 (모의) 환자와의 상호작용을 변화시키고 (Gormley et al. 2016), 단순히 많은 현실적인 시나리오를 테스트하는 것을 방해하기도 합니다 (Marwaha 2011).
모의 환자(Simulated patients, SP)의 사례 묘사가 비진정성적일 수 있는데, 이는 SP가 실제 환자의 전형적인 모습보다 시험 지시에 더 쉽게 순응하거나, 시나리오 스크립트가 환자에 대한 전문가적 고정관념을 반영하기 때문입니다 (Gormley et al. 2016; Hyde et al. 2022).
"OSCE" 자체는 연극으로 개념화되기도 하는데 (Hodges 2003a; Gormley et al. 2016), 여기서 응시자, 평가자, 그리고 모의 환자 간의 3자 상호작용은 의식화되고 리허설된 쇼를 만들어내어 응시자와 모의 환자 간의 더 진정성 있는 상호작용을 방해합니다.
더욱이 스테이션이 어떻게 '채점'되는지에 대한 응시자의 기대는 비진정성적인 행동에 대한 비정상적인 유인(perverse incentives)을 만들어낼 수 있습니다 (Gormley et al. 2016).
Harrison (2018)은 관찰된 시나리오 내에서 응시자의 주체성(agency) 부족이 그들이 기술의 숙련도를 보여주는 것을 억제한다고 설명합니다.
더 우려스러운 점은, OSCE를 앞두고 학습자들이 임상 학습(clinical learning)을 기피하는 현상(Rudland et al. 2008)이 실제 실무와 때로는 정형화된 그들의 OSCE에 대한 기대 사이의 불일치에서 비롯될 수 있다는 점입니다.

이러한 비판들이 OSCE의 효용성(utility)에 의문을 제기할 수 있지만, 우리는 다른 이들과 마찬가지로 (Chan and Rashid 2023) 이를 계속 유지해야 할 몇 가지 이유가 있다고 주장합니다.

첫째, 직장 기반 평가(workplace-based assessments) 역시 문제점이 없는 것은 아닙니다 (Watling et al. 2016, Schumacher et al. 2022, LaDonna et al. 2017, Phinney et al. 2022, Melvin et al. 2019, Yepes-Rios et al. 2016, Sebok-Syer et al. 2018).
둘째, 시뮬레이션 평가(simulated assessment)는 응시자가 실제 실무에서는 거의 또는 전혀 다루지 않을 시나리오에 대한 (특히 학부생의) 준비도를 테스트할 수 있게 해줍니다.
셋째, OSCE는 응시자에 대한 동등하고 비교 가능한 테스트를 향한 헌신을 보여줍니다. 그럼에도 불구하고, 만약 그 진정성(authenticity)이 향상될 수 있다면 평가 프로그램(programmes of assessment)에 대한 OSCE의 기여도는 더욱 높아질 것입니다.

OSCE의 진정성을 어떻게 향상시킬 수 있는지에 대해 고찰한 연구가 비교적 적다는 점을 감안하여, 우리는 학생과 평가자가 스테이션 설계(station design) 및 OSCE 진행 과정과 상호 작용하는 방식이 OSCE 내에서 진정성(또는 그 부재)을 어떻게 발생시키는지 탐구했습니다. 이를 위해 우리는 유사한 접근 방식이 많은 기관에서 다양한 방식으로 사용되고 있음을 인정하면서도, 참여 기관 중 한 곳에서 사용 중인 스테이션 설계에 대한 비교적 새로운 접근 방식에 초점을 맞췄습니다. 참고로, 이들은 "진정성 있는 OSCE 스테이션(authentic OSCE stations)"이라고 불렸습니다(방법 섹션 참조). 그런 다음 우리는 다음과 같은 질문을 던졌습니다.

"응시자와 평가자는 어떻게 진정성 있는 OSCE 스테이션을 사용하고 상호작용하며, 어떻게, 왜, 어떤 상황에서, 누구에게 이것이 OSCE가 응시자의 미래 역할에 대한 준비도를 평가하는 진정성 있는 테스트라는 인식에 영향을 미치는가?"

방법 (Methods)

데이터는 AD-Equiv 연구(Yeates et al. 2022) 내에서 수집되었으며, 이 연구는 분산된 졸업 수준 OSCE의 진정성(authenticity), 진단 정확도(diagnostic accuracy) 및 동등성(equivalence)을 향상시키는 것을 목표로 했습니다. 우리는 마음 독립적인 현실이 존재하지만 이러한 현실에 대한 지식은 다양한 맥락(contexts)이 특정 기제(mechanisms)와 어떻게 상호 작용하여 다양한 사람들에게 다양한 결과(outcomes)를 만들어내는지 관찰하고 연역함으로써 구성된다고 보는 실재론적 존재론 및 인식론(Realist ontology and epistemology)을 채택했습니다 (Pawson and Tilley 1997). 최근 진정성 있는 OSCE 스테이션(authentic OSCE stations)을 경험한 학생, 평가자, 모의 환자를 대상으로 실재론적 인터뷰(realist interviews) (Manzano 2016; Greenhalgh et al. 2017) 및 포커스 그룹(focus groups)을 통해 데이터를 수집하는 실재론적 평가 접근법(Realist evaluation approach) (Duddy and Wong 2022; Trisha Greenhalgh et al. 2017)을 채택했습니다. 포커스 그룹은 OSCE 직후에 사용되어 경험이 생생하게 남아있는 동안 학생들의 관점을 탐구했으며, 상호작용을 통해 서로 다른 학생들이 왜 다르게 반응했는지 탐구했습니다. 반대로 인터뷰는 수 시간에서 몇 주 후의 시점에서 더 심층적인 개인적 반응과 성찰을 가능하게 했습니다. 우리의 방법과 RAMESES II 체크리스트(RAMESES II checklist) (Wong et al. 2016)의 비교는 보충 부록 3에 제공됩니다.

중재: '진정성 있는' OSCE 스테이션의 도입 (The intervention: introducing ‘authentic’ OSCE stations)

진정성 있는 OSCE 스테이션(Authentic OSCE stations)은 다음과 같은 원칙에 따라 설계되었습니다:

스테이션은 영국 파운데이션 의사(PGY1-2)의 전형적인 업무 시나리오를 특징으로 해야 합니다.
(실현 가능한 한) 응시자는 환자와의 만남 전체를 완료해야 합니다.
스테이션 정보는 임상 맥락(clinical context)을 설명해야 하며, 학생들은 (특정 행동을 수행하도록 지시받는 대신) 임상적 판단(clinical judgement)을 사용하여 실제 실무에서 할 행동을 결정하고 수행해야 합니다.
학생들의 주체성(agency)을 장려하기 위해 평가자와의 상호 작용은 최소한으로 유지됩니다.
파일럿 연구를 통해 이러한 새로운 진정성 있는 스테이션들에 대한 과제 시간 일치(task-time agreement)를 확보했습니다. 보충 부록 2에 OSCE에 대한 추가 세부 정보가 포함되어 있습니다.

모집단, 표집 및 모집 (Population, sampling and recruitment)

우리의 연구 모집단(population)은 학부 교육 후반 단계의 학생들을 위한 영국 학부 OSCE의 참여자(응시자, 평가자, 모의 환자)였습니다. 우리는 4개의 영국 의과대학(영국 연방인 잉글랜드, 북아일랜드, 스코틀랜드, 웨일스에서 각각 한 곳씩)에서 지리적 및 학교의 다양성을 목표로 의도적 표집(purposive sampling)을 수행했으며, 여기에는 설립된 지 오래된 곳과 비교적 새로운 의과대학의 4학년(끝에서 두 번째) 및 5학년(마지막) 학생들이 포함되었습니다. 참여자는 이메일과 구두 초청을 통해 모집되었습니다.

초기 프로그램 이론 (Initial programme theory)

이론 기반 실재론적 조사의 핵심 측면은 초기 프로그램 이론(initial program theory, IPT)을 개발하는 것입니다. IPT는 중재가 어떻게, 누구를 위해, 왜, 그리고 어떤 맥락 하에서 작동할 것으로 기대되는지를 틀 짓고 이해하는 데 사용될 수 있습니다 (Duddy and Wong 2022).

우리의 IPT는 진정성 있는 OSCE 스테이션의 요소 조합이 일상적인 임상 실무(clinical practice)를 더 밀접하게 나타내는 방식으로 학생들이 임상 과제를 수행하는 능력을 입증할 수 있게 함으로써 응시자들에게 진정성을 총체적으로 증가시킬 것이라고 가정했습니다.
우리는 이것이 과제에 대한 응시자의 이해도와 스테이션이 제시하는 도전 수준에 의해 매개(mediated)될 것으로 예상했습니다.

데이터 수집 (Data collection)

인터뷰는 OSCE 후 3개월 이내에 Microsoft Teams를 통해 수행되었습니다. 학생 포커스 그룹은 OSCE 직후 대면으로 수행되었습니다. 모든 데이터는 오디오로 녹음되고 전사되었습니다. 연구원들은 참가자들이 인식하는 진정성 있는 OSCE 스테이션(authentic OSCE stations)과 일반적인 OSCE 스테이션 형식 간의 비교를 탐구하는 질문 템플릿을 사용했으며, 중재의 요소(내용, 타이밍, 자극 자료, 전체 과제 등)가 어떻게 그리고 왜 다른 스테이션, 다른 사람, 또는 다른 학교 내에서 다양한 반응을 이끌어내고 다양한 결과를 생성하는지에 초점을 맞추었습니다. 실재론적 인터뷰에 대한 권장 사항(Greenhalgh et al. 2017)과 일관되게, 연구원들은 떠오르는 이슈를 추적하고 최근 분석에서 얻은 인상을 바탕으로 진화하는 프로그램 이론의 요소를 테스트하기 위해 질문을 조정했습니다. 인터뷰 내내 연구원들은 안전하고 포용적이며 기밀이 유지되는 환경을 구축하기 위해 노력했습니다.

분석 (Analysis)

데이터는 분석의 실재론적 논리(realist logic)를 사용하여 분석되었습니다 (Pawson and Tilley 1997; The RAMESES II Project 2017). 데이터 분석은 데이터 수집과 병행하여 진행되었으며 후속 인터뷰 수행에 정보를 제공했습니다. 두 명의 연구원(PY와 AM)은 데이터의 일부를 읽고 익숙해지며 IPT와 관련된 민감화 개념(sensitising concepts)(예: 전체 과제, 시간, 파편화, 주체성 등)에 대해 논의했습니다. 그런 다음 한 명의 연구원(AM)이 모든 데이터를 코딩하여 IPT와 관련이 있어 보이는 개념을 귀납적(inductively)이고 이론적으로 명명했습니다. 보조 코딩은 민감화를 더욱 돕기 위해 PY에 의해 수행되었습니다. 코드들은 유사한 범주(categories)로 모아졌습니다. 연구원들은 관련된 맥락(contexts), 기제(mechanisms), 결과(outcomes)를 찾기 위해 이러한 범주들을 면밀히 조사했으며, 이는

병치(패턴을 찾기 위해 다른 출처의 데이터를 비교함),
조정(데이터 출처 간의 불일치를 해결함),
판정(가장 그럴듯한 설명을 결정하기 위해 증거의 무게를 잰다),
통합(결과를 일관된 전체로 통합함)

...의 분석적 과정을 사용하여 맥락-기제-결과 구성(context-mechanism-outcome configurations, CMOCs)으로 조직화되었습니다 (Papoutsi et al. 2018). CMOCs가 생성됨에 따라 연구원들은 진화하는 프로그램 이론과의 관련성을 고려했습니다. GW는 CMOCs가 정제될 때 추가적이고 데이터 주도적인 비평을 제공했습니다. 분석은 연구원들이 데이터 내의 반(半)규칙성(demi-regularities)(반복적으로 나타나는 결과 패턴)과 일치하고 성숙한 프로그램 이론이 도출된 그럴듯한 CMOCs가 개발되었다고 판단할 때까지 진행되었습니다.

성찰성 (Reflexivity)

우리 연구팀에는 Keele에서 진정성 있는 OSCE 형식을 개발한 사람(RK, NC)과 다른 OSCE 형식을 사용하는 의과대학 소속 사람(KC, AC, VON, CC, RG, RV, SE)을 포함하여 임상(PY, RK, KC, AC, CC, RG, SE, RF, RMK, GW) 및 비임상(NC, VON, RV) OSCE 전문가가 포함되었습니다. 또한 실재론적 평가 전문가(GW)와 OSCE 경험이 거의 없는 다른 연구원(AM)도 포함되었습니다. 결과적으로, 팀이 진정성 있는 OSCE(authentic OSCEs)의 잠재적 이점에 관심이 있었음에도 불구하고, 이러한 다양성은 중재 요소의 이점과 과제(예: 학생에게 지시를 내리는 것과 자율성을 부여하는 것의 균형), 그리고 CMOC 설명의 과제 및 개선에 대한 대조적인 견해를 생성했습니다.

윤리 (Ethics)

연구에 대한 모든 참여는 자발적이었으며, 참가자는 철회할 권리가 있었습니다. 사전 동의(Informed consent)는 전자 동의서를 통해 문서화되었습니다. 모든 데이터는 가명 처리(pseudonymised)되었으며 기밀로 취급되었습니다. 인터뷰 담당자(PY 또는 AM) 중 누구도 학생이나 그들의 진급에 대한 직접적인 과정 책임이 없었습니다. 이 연구에 대한 윤리적 승인은 Keele 연구 윤리 위원회(참조 MH-210209)에 의해 승인되었습니다.

결과 (Results)

총 15명의 응시자(candidates), 13명의 평가자(examiners), 7명의 모의 환자(simulated patients)로 구성된 35건의 인터뷰(interviews)와 3건의 포커스 그룹(focus groups)의 관련 부분이 포함되었습니다. 우리의 분석은 13개의 맥락-기제-결과 구성(CMOCs)을 도출했으며, 각각은 주어진 맥락에서 중재의 특정 측면이 어떻게 기계적으로(mechanistic) 작동하는지에 대한 데이터 기반의 이론적 주장(theoretical claim)을 제공합니다. 근거 자료를 포함한 개별 CMOC는 보충 부록 1에서 확인할 수 있으며, 표 1에 요약되어 있습니다. 여기에서는 텍스트 내에 관련 CMOC를 참조하고 요약된 예시 인용문을 함께 제시하여, 이들이 뒷받침하는 프로그램 이론(programme theory)에 대한 서술(narrative)을 제공합니다.

표 1. CMOC의 제목.

이 연구에서 우리가 만든 많은 시나리오들은 학생들이 실제 임상 실무(practice)에서 전형적으로 어떻게 행동할지를 그들 스스로 매우 진정성 있게 나타낸다(authentic representation)고 느끼게 해주었습니다. 따라서 이는 실무로 나아갈 준비가 되었는지를 평가하는 공정한 수단으로 여겨졌습니다. 그들에게 있어 이것은 기존의 평가(assessments)보다 개선된 것이었습니다. 하지만 이것이 모든 사람이나 모든 스테이션에서 효과가 있었던 것은 아닙니다.

학생과 평가자가 시나리오를 진정성(authentic) 있다고 경험하는 정도는 각 시나리오마다 서로 다르게 상호 작용하는 여러 요인의 영향을 받았습니다.

이 중 몇 가지는 스테이션 설계(station design)의 특성이었으며, 중재의 기반이 된 진정성 있는 OSCE 스테이션의 원칙에서 비롯되었습니다.
일부는 사람과 관련된 요인이었고, 다른 일부는 사람들의 규범(norms) 및 기대(expectations), 또는 더 넓게는 평가 내의 문화(culture)와 관련이 있었습니다.

진정성이 향상되었을 때 (When authenticity was enhanced)

시나리오가 F1(파운데이션 1년차) 의사의 전형적인 업무(typical work)를 효과적으로 나타낼 때, 이는 시나리오에 신뢰성(credibility)을 부여했고(CMOC_1a_TW), 학생들의 미래 역할에 대한 경험 및 기대와 일치했기 때문에 학생들의 사고를 임상 환경(clinical environment)에 위치시켰습니다(CMOC_1b_TW).

"또한 환자가 가진 프레젠테이션이 F1으로서 관리해야 할 것들이라는 점이 좋았습니다 [네]. 그것은 단지 어떤 징후를 발견하는 것이 아니라, 급성 프레젠테이션(acute presentation)에 가깝고, 환자를 관리하며, 다음 팀에 의뢰하기 전에 환자를 안정시키기 위해 하는 일들이었습니다. 그래서 저는 그것이 꽤 유용하다고 생각했습니다." (24th AD equiv, Focus Group Site4, Students)

이는 결과적으로 그들이 그 역할에 자신을 투영하게 만들었고, 실제 실무에서 할 것처럼 생각하고 행동할 수 있게 했습니다(CMOC_1c_TW). 이것은 그들이 자연스럽게 행동하는 데 도움이 되었습니다.

임상 문제(clinical problems)가 미리 연습하기 어려울 만큼 풍부하고 복잡하며, 미묘한 접근(nuanced approaches)을 요구할 때, 학생들은 표준화된 정답이 적절하지 않다는 것을 깨달았고 해결책을 제시하기 위해 자신의 경험을 이끌어내야 했습니다(CMOC_1b_TW 및 CMOC_2_WT).
반대로 덜 복잡하거나 예측 가능한 시나리오일수록 연습된 반응을 이끌어낼 가능성이 높았습니다.
학생들에게 전체 임상 과제(clinical task)를 완료하도록 요구하는 것은 그들이 수집하기로 선택한 정보를 통합(integrate)하고 끝까지 수행할 수 있는 공간을 제공했습니다. 이는 파편화(fragmentation)를 피하면서 그들의 발달 중인 임상적 통찰력(clinical acumen)을 활용하게 했고, 따라서 학생들이 실제 실무에서 할 행동을 더 잘 보여주었습니다(CMOC_2_WT).

"이것[진정성 있는 OSCE를 지칭함]은 제가 몇 달 후에 다 같이 할 수 있어야 하는 종류의 일입니다... 제 병동 실습(ward placements)에서도 그런 식으로 반영되어 있습니다. ... 저는 꽤 포괄적인 병력(comprehensive history)을 청취하는 방법을 알고 있습니다. 환자를 진찰하는 방법도 압니다. 하지만 그것은 모든 것을 하나로 모으는 것이고, 그 과정과 그 이후에 나오는 의사 결정(decision-making)입니다; ... 모든 것을 하나로 모으고 모든 정보를 합성(synthesising)하는 것입니다." (23rd AD-Equiv, interview, site3 Stud6).

이는 수행해야 할 행동에 대한 비교적 제한된 지시(limited direction)와 평가자의 개입(prompting)을 피함으로써 더욱 도움을 받았습니다. 학생들은 무엇을 해야 할지 스스로 알아내야 했고, 그들의 선택은 스테이션의 결과에 영향을 미쳤습니다. 이는 학생들이 무엇이 적절한지에 대해 스스로 판단(judgements)하도록 강제했고(CMOC_3a_LP), 이는 임상 환경에 더 많이 참여했던 학생들에게 유리하게 작용했는데, 그들은 자신의 경험을 바탕으로 정보를 통합하고 행동을 지시할 수 있었기 때문입니다(CMOC_3b_LP).

"스테이션을 더 실제 생활(real-life)과 같은 것으로 보는 데 도움이 되었습니다... 들어가서 제 나름의 계획을 세우고 제 방향대로 갈 수 있었습니다. 올바른 길로 가고 있는지 아닌지 모르기 때문에 약간의 불확실성이 더해진 것 같습니다. ... 제가 잘못된 것을 하고 있더라도, ... 아무도 제지하고 말해주지 않을 것이라는 것을 알기 때문에 ... 확실히 실제 생활과 훨씬 더 비슷했습니다." (23rd AD-Equiv, interview, Site3 Stud6)

충분한 시간을 제공하는 것은 학생들이 당황하거나 연습된 루틴으로 되돌아가지 않고 생각하고 통합할 수 있게 해주어 도움이 되었습니다(CMOC_4_Ti).

"이것은 제가 약간 더 현실적이 되게 만들었습니다. 왜냐하면 '좋아. 7분 타이머, 8분 타이머를 걱정할 필요가 없어'라는 식이었기 때문입니다. 그냥 기계적으로 반복(regurgitate)하는 것이 아니라 실제로 생각할 수 있었습니다." (16th AD-Equiv, interview, site 3 stud3)

관련 리소스(가이드라인 등)를 제공하는 것은 기억에 대한 인위적인 의존을 피하고 학생들이 정보 접근에 대한 친숙함을 보여줄 수 있게 했습니다. 이는 실무에서 할 일과 더욱 일치했습니다(CMOC_5_Tr). 간단한 소품(props)(예: 전화기)의 사용은 시나리오를 더 현실적으로 보이고 느껴지게 만들어 학생들의 몰입(immersion)을 돕고 따라서 자연스럽게 행동하도록 도왔습니다(CMOC_6_Pr). 시나리오가 학생들에게 특정 행동을 시연(demonstrate)하도록 요구할 때(예: 산소 포화도를 측정하겠다는 의도를 단순히 말하는 대신 프로브를 사용하여 측정하는 것), 이는 단지 지식(knowledge)이 아닌 관련 직장 기술(workplace skills)을 테스트하기 때문에 평가의 진정성을 더욱 높였습니다(CMOC_7_Dem). 이는 학생들이 미래의 역할에 자신을 투영하고 그들의 준비도(preparedness)를 보여주는 능력에 기여했습니다.

진정성이 도전받았을 때 (When authenticity was challenged)

이것이 모든 사람에게 효과가 있었던 것은 아닙니다. 예를 들어, 소수의 학생과 평가자들은 배우가 환자가 아니며 학생의 행동이 그들에게 아무런 영향을 미치지 않는다는 사실을 넘어서는 데 어려움을 겪었습니다. 실무와의 이러한 불가피한 차이점에 초점을 맞추는 것은 시나리오의 허구(fiction)에 대한 그들의 몰입을 감소시켰고, 따라서 평가가 학생들의 실무를 유용하게 보여주는 것이라기보다는 인위적인 테스트(artificial test)처럼 느껴지게 만들었습니다(CMOC_8_DFC).

"누군가 당신을 지켜보고 있다는 것을 알기 때문에, 문제의 원인을 정말로 찾기보다는 무언가를 하고 있는 것처럼 보이기 위해 행동하게 됩니다. 반면에 실제 환자의 경우, OSCE의 번거로움(faff)에 신경 쓰지 않습니다. 중요한 것만 바로 처리합니다." (11th AD-Equiv, interview Site3 st1)

시나리오가 실행되는 방식 또한 학생들의 몰입에 영향을 미쳤습니다. 어떤 요소가 실제 실무와 일치하지 않을 때(incongruous) (예: 심각하게 아파야 할 모의 환자가 편안해 보이는 경우), 이는 학생들이 잘못된 가정을 하거나 혼란을 느끼게 하여 수행(performance)에 영향을 미칠 수 있었지만(CMOC_9_Inc), 아마도 더 중요한 것은 실무에서 해야 할 일을 하는 것과 인위적인 방식으로 기술을 시연하는 것 사이의 경계가 어디인지에 대한 딜레마를 제시했다는 점입니다. 시나리오가 합리적으로 각기 다른 방식으로 접근될 수 있는 경우 (예: 집중적인 신체검사 대 보다 체계적인 신체검사; 다양한 합리적 관리 접근법), 학생과 평가자는 실무에서 허용될 수 있는 접근법과 공식 시험의 전형적인 기대치 사이의 차이를 조화(reconcile)시키는 데 어려움을 겪었기 때문에 무엇을 기대하거나 어떻게 행동해야 할지 확신하지 못했습니다(CMOC_10_LDP). 이는 학생들이 자신의 진정성 있는 임상 수행(authentic clinical performance)을 보여주려는 경향을 더욱 감소시켰습니다.

"환자와 자연스럽게 대화하고 인위적으로 그 시나리오에 놓이지 않은 채 자연스럽게 진찰로 이어지는 아이디어가 너무 좋습니다 ... [하지만] 정해진 채점 기준(marking scheme)이 있고, 우리가 해야 할 정해진 일들이 있습니다 ... 저는 생각하려고 노력했습니다. 좋아, 평가자들이 나에게 무엇을 원하지? [네] 만약 제가 곤봉지(clubbing) 검사를 하지 않으면 감점(marked down)을 받을까?" (24th AD Equiv focus group, site4 students).

일부 학생들은 수행해야 할 행동에 대한 정확한 지시(precise direction)가 부족하여 어려움을 겪었습니다. 그들은 명시된 기술을 보여주는 데 익숙해져 있었고, 판단(judgement)을 사용해야 한다는 점이 그들을 불안하게 만들었으며 진정성 있게 행동하기 어렵게 만들었습니다(CMOC_11a&b_Anx).

학생들은 의식적이고 비진정성적인 기대를 강요하는 OSCE가 그들의 임상 학습(clinical learning)이 OSCE에서 보상받지 못하기 때문에 임상 학습 환경에 대한 참여를 감소시킨다고 설명했습니다(CMOC_12_Rit). 반대로, 학생들은 OSCE가 진정성 있는 실무(authentic practice)를 보여주는 것에 더 많은 보상을 제공할수록, 그들이 임상 환경에서 시간을 보냄으로써 실무 준비도를 더 높이는 결과를 가져와 준비를 더 잘하게 될 것이라고 인식했습니다(CMOC_13a&b_IOL).

"그래서 어쩌면 OSCE를 조금 더 현실적으로 만들고 우리가 병동에 있으면서 배울 수 있는 것으로 만들면, 그것이 우리가 실무를 위해 조금 더 준비하도록 장려할 수도 있을 것입니다." (8th AD-Equiv, focus group, site2 students)

고찰 (Discussion)

프로그램 이론 요약 (Summary of programme theory)

대부분의 학생들은 "진정성 있는(authentic)" 시나리오에 반응하도록 요구받았을 때, 해당 시나리오가 자신의 미래 역할에 갖는 적용 가능성(applicability)을 인식했으며, 자연스럽게 행동하고 점차 발전하는 임상적 통찰력(clinical acumen)을 사용하여 실무에 대한 준비도(preparedness for practice)를 진정성 있게 보여줄(authentic representation) 수 있었습니다. 이러한 인식은 시나리오가

신입 의사들의 전형적인 업무(typical of the work)이고,
완전한 과제(complete tasks)로 제시되며,
학생들이 정보를 수집하고 통합하여 판단을 내린 다음 환자와 소통하고 관리하기 위해 자신의 판단력(judgement)을 사용해야 할 때

...촉진되었습니다. 학생들에게는 생각하고 서두르지 않을 충분한 시간(sufficient time)이 필요했습니다. 해당 상황의 전형적인 소품과 자원(Props and resources)은 몰입(immersion)을 도왔습니다. 임상 실무(clinical practice)에 더 많이 참여했던 학생들은 시나리오가 미래 역할에 적용될 수 있음을 더 잘 인식했고 더 자연스럽게 행동할 수 있었습니다.

일부 상황은 진정성(authenticity)에 도전이 되었습니다:

학생이나 평가자가 실무와의 불가피한 차이(unavoidable differences)에 초점을 맞추거나,
스테이션 실행 과정의 일치하지 않는 요소(incongruous elements)가 학생들에게 추측이나 혼란을 야기하거나,
학생들이 평가자의 기대(examiners’ expectations)에 사로잡혀 있을 때,

...이는 몰입을 방해(inhibit immersion)하는 경향이 있었습니다. 이러한 맥락(contexts)은 학생들로 하여금 얼마나 자연스럽게 행동해야 하는지에 대해 의문을 품게 만들었고, 이는 불안감(anxiety)을 유발하여 학생과 평가자 모두에게 평가의 진정성(authenticity of the assessment)을 떨어뜨렸습니다.

이론적 해석 (Theoretical interpretation)

우리의 연구 결과는 OSCE의 진정성이 응시자(그리고 정도는 덜하지만 여전히 중요한 평가자와 모의 환자)가 시나리오에서 요구하는 "허구적 계약(fiction contract)" (Dieckmann et al. 2007)에 불신을 유보(suspend their disbelief)하고 얼마나 효과적으로 몰입(immerse)하는지에 결정적으로 달려 있음을 시사합니다. 우리의 연구 결과 중 일부는 시뮬레이션의 충실도(fidelity)에 관한 문헌과 공명합니다:

실제 실무(real practice)에서 도출된 사례의 사용 (Maclean et al. 2019),
과제를 (말로 설명하기보다는) 실제로 수행(perform)해야 할 필요성 (Engström et al. 2016),
환경적 단서(environmental cues)(예: 소품)의 사용 (Nanji et al. 2013), 그리고
학생의 행동에 따라 시나리오가 발전(evolve)할 기회 (Marei et al. 2018)가 그것입니다.

우리 연구가 추가한 점은, 이러한 요소들이 OSCE 시나리오 내에서 결합되어 학생들이 미래의 역할에 자신을 투영(project)하고 다음 단계의 임상 실무(clinical practice)로 나아갈 준비도를 행동으로 보여줄(demonstrate) 수 있게 하는 방식을 관찰했다는 것입니다. 더욱이, 평가 맥락(assessment context)에서 좋은 성적을 얻고자 하는 학생들의 욕구는 때때로 그들의 몰입 능력과 충돌하는 것처럼 보였으며, 이는 시뮬레이션이 학습(learning)에 초점을 맞출 때보다 평가 시나리오(assessment scenarios)에서 몰입이 더 복잡하다는 것을 시사합니다. 이는 부분적으로 사람들이 관찰당하는 동안 자연스럽게 행동하기 어려워하기 때문일 수 있는데(즉, 호손 효과(Hawthorne Effect)) (Adair 1984), 이러한 현상은 직장 기반 평가(workplace-based assessment)에서도 발생합니다 (Watling et al. 2016). 또한 평가 맥락은 학생들로 하여금 불신을 어디까지 유보해야 할지(점수를 얻기 위해 "환자"에 대한 나의 시각적 형태(visual gestalt)를 믿어야 할까, 아니면 더 아픈 환자에게 취할 조치들을 시연해야 할까?) 판단하기 어렵게 만들 수 있습니다. 이것은 Dieckmann(2007)의 공유된 규칙(shared rules) 개념과 관련이 있으면서도, 평가 맥락에서는 진정성 있게 행동할 수 있는 충분한 자율성(autonomy)을 허용하는 것과 기대치(expectations)를 공정하게 전달하는 것 사이에 갈등(conflict)이 발생할 수 있음을 보여줍니다. 결과적으로, 시뮬레이션 충실도(simulation fidelity)의 많은 원칙이 잘 확립되어 있지만, 우리는 이러한 원칙을 평가에 적용하는 것이 훨씬 더 복잡해야 함을 보여주었습니다.

Dieckmann의 “공유된 규칙(shared rules)”은 여기서 왜 중요한가?

시뮬레이션은 사실 모두가 어떤 암묵적 합의 위에서 돌아갑니다.
예를 들면,

학생은 “이 배우를 환자로 받아들이겠다”
시뮬레이터의 한계를 어느 정도 감안하겠다
완벽히 현실과 같지 않아도 교육적 목적으로 참여하겠다

이런 것이 shared rules, 즉 공유된 규칙입니다.
그런데 평가 상황에서는 이 규칙이 더 복잡해집니다.
왜냐하면 학생은 이렇게 궁금해하기 때문입니다.

“이 상황에서 어느 정도까지 자유롭게 행동해도 되지?”
“평가자는 내가 창의적으로 대응하는 걸 좋아할까, 아니면 정해진 절차를 따르길 원할까?”
“환자 중심적으로 자연스럽게 해야 하나, 아니면 채점표 중심으로 해야 하나?”

즉, 평가에서는
시뮬레이션 참여 규칙과 시험 채점 규칙이 겹쳐지는데,
이 둘이 항상 잘 맞아떨어지지 않습니다.

연구자들이 말하는 “갈등(conflict)”은 정확히 무엇인가?

핵심 갈등은 이것입니다.

평가 설계자는 두 가지를 모두 원합니다.

학생이 진정성 있게(authentically) 행동하길 원함
동시에 평가의 공정성(fairness) 과 기대치의 명확성도 보장해야 함

그런데 이 둘은 긴장 관계에 있습니다.

너무 자유를 많이 주면

학생마다 다른 방식으로 행동
채점이 어려워짐
공정성 문제가 생길 수 있음

너무 기대치를 강하게 규정하면

학생이 자연스럽게 행동하지 못함
“정답 연기”만 하게 됨
진정성이 떨어짐

즉,
진정성(authenticity) 과 표준화(standardization) 사이의 긴장이라고 볼 수 있습니다.
이건 의학교육 평가에서 아주 중요한 주제입니다.
조금 더 넓은 개념으로는 assessment authenticity paradox 같은 문제와도 연결해서 생각할 수 있습니다.
즉, “진짜 같게 만들수록 좋은 평가인가?”라는 질문인데, 실제로는 진짜 같음과 채점 가능성이 항상 함께 가지 않습니다.

마지막 문장의 뜻: 왜 fidelity 원칙을 평가에 적용하는 것이 더 복잡한가?

시뮬레이션 교육에서는 흔히
“충실도(fidelity)가 높을수록 좋다”
는 식으로 생각하기 쉽습니다.
여기서 fidelity는 단순히 기계가 정교하다는 뜻만이 아니라,

상황이 얼마나 실제처럼 느껴지는지
학습자가 얼마나 몰입할 수 있는지
맥락이 얼마나 진정성 있게 구성되는지

를 포함하는 넓은 개념입니다.
그런데 연구자들은 말합니다.
학습용 시뮬레이션에서는 fidelity 원리가 비교적 잘 작동할 수 있지만, 평가용 시뮬레이션에서는 사정이 다르다.
왜냐하면 평가에서는 학생이

상황에 몰입해야 하고,
동시에 채점당하고 있으며,
점수에 대한 불안이 있고,
평가자의 기대를 추측해야 하고,
표준화된 행동도 요구받기 때문입니다.

그래서 평가 맥락의 fidelity는 단순히
“더 실제처럼 만들면 된다”
로 해결되지 않습니다.
오히려 이렇게 물어야 합니다.

학생이 실제로 몰입할 수 있는 평가인가?
학생이 무엇을 믿고 행동해야 하는지 명확한가?
진정성과 공정성 사이의 균형이 적절한가?
평가가 학생에게 ‘환자를 대하는 것’ 을 요구하는가, 아니면 ‘정답을 연기하는 것’ 을 요구하는가?

시나리오에 대한 몰입(Immersion)은 사람에 따라 그 효과가 다르게 나타났습니다. 우리의 데이터로는 이 관찰을 완전히 설명할 수 없으며 추가적인 조사(further investigation)가 필요합니다. 추상적 사고 능력(abstract thinking ability)이나 상상력(imagination)의 개인차(individual differences)에서 추가적인 설명이 나올 수 있습니다. 다른 문헌에서, 사람들이 가상 현실(virtual reality)에 몰입하는 능력의 차이는 공간 지각력(spatial awareness)의 차이에 기인하며 (Coxon et al. 2016), 이야기의 서사(narrative)에 참여하는 차이는 감정적 민감성(emotional sensitivity)의 차이에 기인한다고 보았습니다 (Samur et al. 2021). 결과적으로, 허구적 계약(fiction contract)에 참여하는 것이 단순히 더 어려운 개인이 있을 수 있습니다. 이는 그러한 사람들에게 OSCE가 갖는 타당도 함의(validity implications)에 대한 추가적인 탐색의 필요성을 시사합니다.

실무적 함의 (Practical implications)

우리의 연구 결과를 바탕으로, 총괄 평가 맥락(summative contexts)에서의 반복(replication) 필요성을 인정하면서, 우리는 OSCE에서 평가의 진정성을 향상하는 데 사용될 수 있는 몇 가지 원칙을 잠정적으로 제안합니다(상자 2 참조). 모든 복잡한 중재(complex interventions)와 마찬가지로, 이러한 원칙을 구현하려면 적용되는 맥락(context) 내에서 신중한 고려가 필요합니다.

충분한 시간을 허용하라는 제안은 스테이션의 수를 줄이고 길이를 늘리는 결과를 낳을 수 있습니다. 이는 그 자체로 주요한 타당도 근거(validity evidence)의 원천으로 제안되어 온 OSCE 청사진(blueprint)의 표집(sampling)을 감소시킬 수 있습니다 (Wass et al. 2001). 이러한 스테이션들의 상대적인 신뢰도(comparative reliability)는 아직 잘 확립되지 않았으며 예측하기 어렵습니다. 한편으로,
- 독립적인 관찰(independent observations) 횟수가 적어지면 신뢰도(reliability)가 떨어질 수 있지만 (Eva 2018),
- 임상의의 실무 경험과 더 일치하는 평가자의 판단(judgements)은 현대 학습 분류체계(contemporary taxonomies of learning)의 전형적인 특징인 복잡한 문제 해결 기술(problem solving skills)에 평가를 더 집중시킴으로써 신뢰도를 뒷받침할 수도 있습니다 (Crossley et al. 2010; Dubas and Toledo 2016).
이 논쟁은 새로운 것이 아닙니다. Cook et al. (2015)은 Kane (2013)이 묘사한 외삽(extrapolation)(점수를 실제 세계의 수행 능력을 반영하는 것으로 사용)과 일반화(generalisation)(점수를 모든 가능한 테스트 환경에서의 예상 수행 능력을 반영하는 것으로 사용) 사이의 긴장, 혹은 역사적으로 단순히 타당도 대 신뢰도(validity versus reliability)로 지칭되던 것들 사이의 긴장 관계를 언급합니다 (van der Vleuten 1996).
- 평가 과제의 진정성(Authenticity)은 현재의 관찰로부터 실제 실무에서의 예상되는 행동을 외삽(extrapolating)하는 데 핵심적입니다. 결과적으로, 우리는 제안한 원칙들을 신중하게 적용함으로써 교육자들이 OSCE로부터 실제 생활(real life)에서의 예상 수행 능력으로 외삽할 수 있는 능력(ability to extrapolate)을 증가시킬 수 있다고 주장합니다. 이를 일반화(generalisation)에 미치는 영향과 균형을 맞추기 위한 추가 작업이 필요할 것입니다.

이러한 질문들의 실무 중심적인(practice-focused) 특성을 고려할 때, 우리는 스테이션 작성(station writing)과 평가(examination) 모두 이상적으로는 신입 의사의 현재 업무와 그 역할에 대한 기대에 매우 익숙한 사람들에 의해 수행될 것을 권장합니다.

박스 2. OSCE의 진정성을 향상시키기 위한 요약 권장 사항
(Box 2. Summary recommendations to enhance authenticity in OSCEs)

신임 의사 업무의 전형적인 과제(typical tasks)를 선택하십시오.
학생들에게 가능한 한 전체 임상 만남(whole clinical encounter)을 완료하도록 요구하십시오.
학생들의 판단(judgement)을 장려하십시오: 평가자의 지시(prompting)와 개입(intervention)을 제한하십시오.
서두르지 않도록 충분한 시간(sufficient time)을 제공하십시오. 이는 임상 추론(clinical reasoning)을 가능하게 합니다.
가이드라인이나 처방 자원과 같은 현실적인 지식 자원(knowledge resources)에 대한 접근을 제공하십시오.
시나리오에 대한 몰입(immersion)을 돕기 위해 소품(props)을 사용하십시오.
학생들에게 기술을 단순히 말로 표현하는(verbalizing) 대신 시연(demonstrate)하도록 요구하십시오.
시나리오 몰입을 방해할 수 있는 일치하지 않는 요소(incongruent elements)를 피하십시오.
안전하고 효과적인 결과를 위한 다수의 합리적인 접근법(legitimate approaches)을 인정하면서, 학생과 평가자가 불확실성(uncertainty)에 대비하도록 하십시오.

강점 및 한계점 (Strengths and limitations)

우리의 연구 결과는 다양한 맥락(contexts)에서 이 스테이션 형식의 작동 방식을 연구하기 위해 실재론적 평가(Realist evaluation)를 사용하여, 4개의 다른 기관에서 표집되고 다수의 참가자가 포함된 데이터에 의해 뒷받침됩니다. 그럼에도 불구하고 이 연구에는 몇 가지 한계점이 있습니다.

첫째, 학생과 평가자의 참여가 자발적 성격(voluntary nature)을 띠었기 때문에, 이들의 관점이 전체 참가자들을 완전히 대변하지 못했을 수 있다는 한계가 있습니다. 평가는 형성 평가 맥락(formative context)에서 수행되었으며, 이는 총괄 평가 환경(summative setting)과 비교할 때 참가자들의 다른 행동이나 반응을 유도했을 수 있습니다. 결과적으로 우리의 연구 결과가 일상적인 총괄 평가 환경에서도 여전히 유효한지 확인하는 것이 유용할 것입니다.
우리의 연구 결과는 우리가 사용한 스테이션의 표본(sample of stations)에 의해 제한됩니다. 이들이 대표적인 과제 범위(representative range of tasks)를 포괄하긴 했지만, 동일한 원칙에 따라 설계된 추가적인 스테이션 표본은 잠재적으로 다른 결과를 도출할 수도 있습니다. 학생들은 학업 중 이전 시기에 모의 환자(simulated patients)가 다른 역할을 맡았을 때 본 연구의 모의 환자들을 만났을 가능성이 있습니다. 우리는 이에 대한 데이터를 수집하지 않았으므로, 이것이 진정성(authenticity)에 어느 정도 영향을 미쳤는지에 대해서는 언급할 수 없습니다. 이는 향후 연구에서 탐구할 가치가 있을 것입니다.

향후 연구 (Future research)

향후 연구는 이러한 원칙들이 총괄 평가(summative assessments) 및 졸업 후 평가(postgraduate assessments)를 포함한 다른 맥락(contexts) 전반에 걸쳐, 그리고 광범위한 다른 OSCE 스테이션 형식에 적용되었을 때 어떻게 작동하는지 조사해야 합니다. 추가 연구는 해당 원칙들이 다른 결과를 달성할 수 있는 추가적인 맥락을 모색하거나, 동일한 과제에 대한 합리적으로 다른 접근법(legitimately different approaches), 스테이션 지시(station instruction)의 다른 형식, 또는 스테이션 설계 시 일치하지 않는 요소(incongruous elements)를 피하는 방법과 같이 남아있는 몇 가지 과제에 대한 추가적인 통찰력을 제공해야 합니다. 이론적 연구(Theoretical work)는 응시자, 평가자, 모의 환자가 총괄 평가(summative assessment) 내에서 허구적 계약(fiction contract)에 어떻게 참여하는지, 그리고 이것이 평가 타당도(assessment validity) 및 개인의 결과(outcomes)에 미치는 함의를 탐구해야 합니다.

결론 (Conclusions)

학생들이 실무에 진입할 준비도에 관한 의사 결정에 OSCE가 정보를 제공할 수 있는 타당도(validity)는 (적어도 부분적으로는) 학생들이 나아갈 실무 환경을 OSCE가 얼마나 진정성 있게 시뮬레이션(authentically simulate)하는지에 달려 있습니다. OSCE 진정성에 대한 도전과제에 대응하여, 우리는 "진정성 있는 OSCE 스테이션(authentic OSCE stations)" 내에서 사용된 설계 특징들의 결합이 어떻게 다양한 시나리오 전반에서 대다수 학생들의 평가 진정성(assessment authenticity)을 높이는 데 작용했는지 보여주었습니다. 우리가 개발한 원칙들은 좋은 평가 설계(assessment design)에 대한 공유된 이해의 한 단계 더 나아간 진전을 나타내며, 우리는 OSCE 내에서 평가 진정성을 향상시키기 위해 이 원칙들을 사용할 것을 권장합니다.

표 1. CMOC(맥락-기제-결과 구성)의 제목. (Table 1. Titles of CMOCs)

CMOC 1a-c 신임 의사의 전형적인 업무 (Typical Work of new doctors, TW)

a/. 시나리오가 신임 의사의 전형적인 업무에서 도출되었을 때(C), 학생들은 이를 자신의 임상 술기(clinical skills)에 대한 더 신뢰할 수 있는 평가로 경험했는데(O), 이는 실제 실무에서 일했던 경험과 일치했기 때문이다(M).
b/. OSCE 스테이션이 신임 의사 업무의 전형적인 시나리오를 묘사할 때(C), 이는 학생들의 사고를 그들의 실무 경험에 위치시키는 경향이 있는데(O), 학생들은 신임 의사로서 해당 시나리오에서 어떻게 행동할지 보여주기 위해 임상 현장(clinical workplaces)에서 배우고 관찰한 경험을 이끌어내야 하기 때문이다(M).
c/. OSCE 스테이션이 신임 의사의 전형적인 업무에서 도출된 임상 시나리오를 묘사할 때(C), 학생들은 자신을 미래의 역할에 투영하는데(O), 이는 시나리오가 주니어 의사로서 일하는 느낌을 불러일으키기 때문이다. (원문 기재 유지)

CMOC 2 전체 과제의 사용 (Use of whole tasks, WT)

스테이션이 임상 과제의 파편이 아닌 전체 과제(whole-tasks)를 제시할 때(C), 이는 학생들의 실무 준비도(preparedness for practice)에 대한 더 도전적인 평가를 제공하는데(O), 학생들이 미래 역할의 요구사항과 더 밀접하게 일치하는 방식으로 정보를 수집하고 통합(integrate)하도록 요구하기 때문이다(M).

CMOC 3a&b 제한된 개입/지시 (Limited Prompting, LP)

a/. 신임 의사의 전형적인 업무에 기반한 전체 과제 OSCE 스테이션이 학생에 대한 지침(C)과 평가자 개입의 양(C)을 모두 제한할 때, 학생들은 임상 술기에 대한 도전적이고 진정성 있는 테스트(authentic test)를 경험하는데(O), 그들이 스테이션에 어떤 접근법과 문제 해결 기술(problem solving skills)이 필요한지 판단하도록 강제되기 때문이다(M).
b/. 경험이 풍부한 학생들에게 어떤 행동을 수행해야 할지에 대한 평가자의 개입(prompting) 없이 OSCE 시나리오가 주어졌을 때(C), 그들은 시나리오를 더 잘 탐색하고 관리할 수 있는데(O), 이는 임상 경험을 통해 정보를 통합하고 자신의 행동을 지시하는 방법을 배웠기 때문이다(M).

CMOC 4 충분한 시간 (Sufficient Time, Ti)

OSCE 스테이션이 요구되는 과제에 대해 학생들에게 충분한 시간(sufficient time)을 제시할 때(C), 그들은 연습된 루틴에 의존하기보다는 자신의 반응을 성찰하고 계획할 가능성이 더 높은데(O), 시간 압박으로 인해 당황하지 않기 때문이다(M).

CMOC 5 전형적인 자원의 사용 (Use of typical resources, TR)

OSCE 스테이션이 학생들이 일상적인 임상 실무를 반영하는 방식으로 전형적인 자원(예: 관련 가이드라인/처방 자원)을 사용할 수 있게 할 때(C), 이는 스테이션의 진정성(authenticity)을 돕는데(O), 학생들이 실무에서 직접 하거나 다른 사람들이 하는 것을 보는 것과 공명하며(M) 기억에 대한 인위적인 의존을 줄여주기 때문이다(M).

CMOC 6 소품의 사용 (Use of Props, Pr)

OSCE 스테이션이 임상 시나리오의 시뮬레이션 내에서 관련 소품(props)을 활용할 때(C), 이는 시나리오를 더 현실적으로 보이고 느껴지게 만들기 때문에(M) 학생들이 시나리오에 몰입(immersed)하는 데 도움을 준다(O).

CMOC 7 설명하기보다는 시연하기 (Demonstrate rather than describe, Dem)

환자를 관리할 때 OSCE 스테이션이 학생들에게 행동을 설명하기보다는 시연(demonstrate)하도록 요구할 때(C), 이는 임상 술기에 대한 더 진정성 있는 테스트를 만들어내는데(O), 해당 행동이 필요하다는 지식(knowledge)보다는 그 기술을 수행하는 능력을 테스트하기 때문이다(M).

CMOC 8 허구적 계약의 붕괴 (Disruption to Fiction Contract, DFC)

학생과 평가자가 실무와의 불가피한 차이에 초점을 맞출 때(C), 그들은 그 평가를 학생들의 임상 술기에 대한 인위적인 테스트(artificial test)로 경험하게 되는데(O), 이러한 초점이 허구적 계약(fiction contract)에 대한 그들의 참여를 감소시키기 때문이다(M).
이 시뮬레이션 된 맥락을 어렵게 만드는 요소들의 예: 시간, 관찰, 무언가를 하고 있는 것처럼 보이기 위해 행동하는 것, 환자에게 신체적 징후(physical signs)가 없는 것, 환자가 실제로 치료를 필요로 하지 않는 것.

CMOC 9 불일치의 영향 (Impact of incongruity, Inc)

시나리오의 특정 요소가 진정성 있는 실무(authentic practice)와 일치하지 않는 시뮬레이션 된 시나리오에서 학생들에게 수행하도록 요구될 때(C), 시나리오에 대한 학생들의 몰입감(sense of immersion) 붕괴(M) 또는 혼란이나 오해를 불러일으키는 가정(M) 때문에 그들의 수행(performance)에 해로운 영향을 미칠 수 있다(O).

CMOC 10 임상 실무에서의 합리적 차이 (Legitimate differences in clinical practice, LDP)

OSCE 스테이션이 임상 실무에 합리적인 변동성(legitimate variations)이 존재하는 시나리오를 묘사할 때(C), 학생과 평가자는 어떤 행동을 수행해야 하는지 확신하지 못하는데(O), 이는 임상 실무에서 허용될 수 있는 접근법과 공식 시험의 전형적인 기대 사이의 차이를 해결하는 방법을 모르기 때문이다(M).

CMOC 11a&b 학생의 불안 (Student anxiety, Ax)

a/. OSCE 스테이션이 시간과 활동을 어떻게 구성할지 학생의 결정에 의존할 때, 해당 형식에 덜 능숙하거나 덜 익숙한 학생들은(C) 자신이 무엇을 해야 하는지에 대한 불확실성을 경험할 수 있는데(O), 이는 자신이 예상되는 기술을 보여주고 있다는 외부의 안심(external reassurance)을 얻는 데 지나치게 의존하기 때문이다(M).
b/. OSCE 스테이션의 학생들이 자신이 무엇을 해야 할지 확신하지 못할 때(C), 그들은 불안해질 수 있는데(O), 이는 자신의 점수를 낮출 수 있는 행동을 선택하는 것을 두려워하기 때문이다(M).

CMOC 12 OSCE에서의 의식화된 행동 (Ritualised behaviours in OSCEs, Rit)

평가가 수행에 대해 의식적이고 비진정성적인 기대를 강요할 때(C), 이는 학생들의 실무 기반 학습(practice-based learning)에 대한 참여를 감소시키는데(O), 실무에서 배우는 기술이 시험에서 보상받지 못한다는 것을 깨닫기 때문이다(M).

CMOC 13a&b 진정성 있는 스테이션이 학생들의 학습에 미치는 영향 (Impact of authentic stations on students’ learning, IOL)

a/. 의과대학이 실제 임상 학습 기회를 밀접하게 복제하는 OSCE 스테이션을 사용하여 학생들을 평가할 때(C), 학생들은 임상적 만남(clinical encounters)을 적극적으로 모색하고 그로부터 배울 가능성이 높은데(O), 그렇게 하는 것이 그들의 평가에 도움이 될 것이라는 것을 알기 때문이다(M).
b. OSCE 평가의 형식이 학생들로 하여금 실무 기반 학습(practice-based learning)에 더 깊이 참여하도록 장려할 때(C), 학생들은 의사로 일하기 위한 전환을 더 잘 준비하게 될 것인데(O), 그들의 초점이 해당 역할에서 필요로 할 기술과 판단력(judgement)을 보여주는 데 맞춰져 있었기 때문이다(M).

박스 1. 실재론적 평가 용어집 (Box 1. Glossary of Realist Evaluation Terminology):

맥락 (Context): 기제의 행동을 촉발하거나 수정하는 모든 조건. 맥락은 중재가 '작동하는'(또는 현상이 발생하는) 상황의 중요한 특징(들)을 의미하며, 이는 결과를 생성하는 기제를 '촉발(trigger)'합니다.
기제 (Mechanism): 결과가 야기되는 근본적인 과정. 기제는 대개 과정에 관여하는 행위자나 중재 참여자의 성향, 추론 및 행동에 대한 설명이며, 그들이 존재하는 중요한 맥락(context)에 대한 반응입니다.
CMOC (맥락-기제-결과 구성, Context–mechanism–outcome configuration): 특정 맥락(들), 기제(들) 및 결과(들) 사이의 관계에 대한 설명을 제공하는 도식적 또는 서술적 설명. 단일 프로그램 이론(programme theory) 내에 여러 CMOC가 존재할 수 있습니다.
프로그램 이론 (Programme theory): 중재가 무엇으로 구성되어 있고 어떻게 작동할 것으로 기대되는지, 또는 관심 있는 결과가 어떻게 나타날 것으로 생각되는지에 대한 과정(서술적 설명이나 도식으로 표현됨)을 설명하는 이론. 실재론적 프로그램 이론은 관련된 맥락(들), 기제(들) 및 결과(들) 간의 관계(CMOCs)—그리고 CMOC들 간의 관계로 표현됩니다.
참고문헌은 (Duddy and Wong 2022)를 참조하십시오.

'논문 읽기 (with AI)' 카테고리의 다른 글

의학교육 교육과정 내 논쟁적 경합의 신화: 대화적 탐구 (Med Educ. 2025) (0)	2026.03.04
교육과정 연구의 해결책: "우리 기관에서 효과가 있었나?"에서 학술적 대화에 기여하기로의 전환 (Acad Med, 2025) (0)	2026.03.04
왜 바람직한 어려움은 '효과'가 있는가: 인지 및 교육 심리학의 증거 고찰과 보건 의료 직종 교육 분야를 위한 몇 가지 주의 사항 (J Eval Clin Pract. 2026) (0)	2026.03.04
정적이고 개인주의적인 주체성 접근을 넘어서: 의학 교육 연구자를 위한 주체성 이론 (AMEE Guide No. 177) (Med Teach, 2025) (0)	2026.02.12
Mixed up: 보건 전문직 교육 혼합 연구 방법 연구에서의 통합(Integration)에 대한 증거 (Adv Health Sci Educ Theory Pract. 2026) (0)	2026.02.05

의대에서 교육하고 있습니다.

객관구조화진료시험(OSCE)이 임상 준비도에 대한 진정성 있는 평가로 경험되는 방식, 이유 및 시기에 대한 실재론적 평가 (Med Teach, 2025)