[AHSE] 9 수행평가 / 퍼포먼스 테스트 (Performance Tests)

Meded 2025. 10. 4. 20:37

2025. 10. 4. 20:37

9 Performance Tests (수행평가 / 퍼포먼스 테스트)

Rachel Yudkowsky

Performance test(수행평가)는 실제 혹은 시뮬레이션된(real-life or simulated) 과제를 수행하도록 설계된 시험(examination)을 의미한다. 자연스럽게 발생하는 행동을 관찰하는 “in vivo” 방식과 달리, 이 경우 과제(task)는 평가 목적을 위해 인위적으로 구성(contrived)되며, 피험자(examinee)에게 평가 대상이 되는 행동을 명시적으로 수행하도록 요구한다.

따라서, performance test는 “in vitro” 평가(in vitro assessment)에 해당하며, Miller의 피라미드(Miller’s Pyramid) 중 “shows how” 수준(Miller, 1990)에 위치한다 (Figure 9.1 참조).
피험자들은 자신이 평가받고 있다는 것을 인식하므로, 그들의 수행은 일상적인(performance)보다는 최상의 수행(personal best or maximum performance)을 반영하는 경향이 있다.
Performance test의 예시로는 운전면허 취득을 위한 도로주행시험(road test), 수중잠수 시험(undersea diving test), 그리고 미국의사면허시험(USMLE) Step 2 Clinical Skills Assessment 등이 있다.

이 장에서는 performance test의 목적(purposes), 장점(advantages), 한계(limitations)를 검토하고, 표준화환자(standardized patients, SPs)를 활용한 실용적 가이드라인을 제시한다. SP는 보건의료전문직 교육(health professions education)에서 흔히 사용되는 시뮬레이션 기법(simulation modality) 중 하나이다.

이 장은 교육(instruction)이 아닌 평가(assessment) 목적으로 SP를 활용하는 것에 초점을 맞추며, 채점(scoring options), 다중 스테이션 객관적 구조화 임상시험(OSCE, multiple-station objective structured clinical exams), 기준 설정(standard setting), 타당도 위협(threats to validity) 등의 주제를 SP 시험의 맥락에서 다룬다. 이러한 원칙은 다른 형태의 performance test에도 동일하게 적용된다.

현재 사용 중인 시뮬레이션 유형에는 bench model(모형 실습), virtual model(컴퓨터 기반 가상모델), mannequin(마네킹 시뮬레이터) 등이 있으며, 여기서 다루는 여러 평가 이슈들은 이러한 시뮬레이션 형태에도 동일하게 적용된다. 보다 자세한 내용은 Chapter 14에서 다루어진다.

Strengths of Performance Tests (수행평가의 강점)

Performance tests는 학습자가 복잡한 문제 상황(complex challenges)에 대응하는 과정을 직접 관찰할 수 있는 기회(opportunity to observe learners in action)를 제공한다.
또한, 평가자는 언제(when), 어디서(where), 어떻게(how), 무엇을(what) 평가할지를 통제할 수 있다.

Performance tests는 특정 시점에 임상 환경에서 우연히 마주치는 환자나 문제에 한정되지 않는다.
Simulation(시뮬레이션)을 통해 평가 환경(examination setting)을 고도로 통제할 수 있으며, 이를 통해
- 피험자 간 표준화(standardization),
- 평가자 사전 훈련(advance training of examiners),
- 평가해야 할 영역(domain)에 대한 체계적 표집(systematic sampling)이 가능하다.
형성평가(formative use)로 활용될 경우, performance tests는 피드백(feedback), 코칭(coaching), 디브리핑(debriefing)을 제공할 수 있는 독특한 기회를 마련하여, 의도적 수련(deliberate practice)(Ericsson, Krampe, & Tesch-Römer, 1993; Ericsson, 2004)과 기술 및 전문성 개발(development of skills and expertise)을 촉진한다.
환자안전(patient safety) 관점에서 볼 때, performance tests는 학습자가 실제 환자에게 접근하기 전에 최소 수준의 역량(minimal level of competency and skill)을 갖추었는지를 확인할 수 있게 한다.

단점(Disadvantages)은 다음과 같다.

임상 과제를 현실적으로 모델링(modeling clinical tasks)하기 어렵고,
시뮬레이션(simulations) 자체가 비용이 많이 들며(expensive),
여러 스테이션(stations) 또는 사례(cases)를 필요로 하기 때문에 (이후 “Multiple-Station Performance Tests” 절 참고),
이는 금전적·시간적 자원(resource cost) 부담을 증가시킨다.

Defining the Purpose of the Test (시험의 목적 정의)

모든 평가와 마찬가지로, 교수자(faculty)는 시험의 목적을 명확히 해야 한다. 즉, 평가의 근본이 되는 구성개념(constructs) — 즉 역량(competencies) 또는 기술(skills) — 이 무엇인지 명확히 해야 한다. Performance tests는 시간과 비용이 많이 소요(time consuming and expensive)되기 때문에, 다른 방법으로는 효과적으로 관찰하거나 평가할 수 없는 기술 평가에 사용하는 것이 가장 적절하다. 특히 환자와의 상호작용(interactions with patients)이 포함된 기술은 performance test에 매우 적합하다.
예를 들어,

환자, 가족, 직원, 동료와의 의사소통 및 대인관계 기술(communication and interpersonal skills),
병력청취 및 신체진찰(history and physical exam)을 통한 정보 수집(data gathering),
임상 추론(clinical reasoning)과 의사결정(decision-making),
환자기록(chart)에 문서화(documentation),
윤리적·전문적 행동(ethical and professional behavior),
시술 절차 수행능력(procedural skills)
등은 모두 시뮬레이션된 환경(simulated settings)에서 효과적으로 유도하고 평가할 수 있다.

개별 기술(individual skills)을 평가할지, 혹은 완전한 임상상황(complete clinical encounter)을 평가할지는 학습자의 수준(level of the learner)에 따라 달라진다 (Petrusa, 2002).

초기 학습자(early learners)는 보통 “어깨를 진찰하기(examining the shoulder)”나 “성적 병력 청취(taking a sexual history)”와 같은 분리된 기술(discrete skills)을 학습한다.
- 이 경우, 5–7분 정도의 짧은 스테이션에서 “이 환자의 어깨를 진찰해 보세요(please examine the shoulder of this patient)”와 같이 특정 기술을 수행하도록 요청하여 평가할 수 있다.
중간 수준 학습자(intermediate learners)는 환자와의 만남에서 핵심 병력 및 신체진찰 항목을 스스로 선택(select salient history and physical exam items)해야 하며, 감별진단(differential diagnosis)과 치료계획(management plan)을 수립해야 한다.
- 이 수준의 학습자는 주어진 증상(complaint) 맥락에서 이러한 역량을 통합적으로 발휘할 수 있도록 하는 장시간의 통합 환자 사례(longer, integrated patient encounter) 평가가 적절하다.
고급 학습자(advanced learners)의 경우, 오류가 발생하기 쉬운(error-prone) 환경에서 복잡하고 위기적인 상황(complex critical situations)을 다루는 능력을 평가할 수 있다.
- 예를 들어, 직원 실수(staff blunders), 작동하지 않는 장비(non-functioning equipment), 방해하는 가족(distracting family members) 등이 포함된 시나리오가 될 수 있다.

실제(비시뮬레이션) 임상장면(observation of an actual clinical encounter)도 평가 목적(performance test)을 위해 관찰된다면 performance test의 일환이 될 수 있다. 예를 들어,

mini-CEX(Chapter 10),
미국 정신의학 보드(US Psychiatry Board) 시험의 실제 면담(live interview),
또는 전통적인 viva(구술시험)의 첫 번째 단계처럼, 지도교수(preceptor)가 익숙하지 않은 환자(unknown patient)에게서 수행된 병력청취와 신체진찰을 평가하는 경우가 이에 해당한다.

단, performance test는 반드시 그 이후에 구술시험(oral examination)이나 환자에 대한 토의(discussion)를 요구하지 않는다 — 그 자체로 수행(encounter itself)이 평가의 대상(object of the rating)이다.

이 장에서 다루는 청사진 작성(blueprinting), 수행 채점(scoring the encounter), 기준 설정(standard setting) 등 모든 원칙은 실제 환자(real patients)를 대상으로 한 평가와 시뮬레이션(simulations) 기반 평가 모두에 동일하게 적용된다.

Standardized Patients (표준화 환자, SPs)

Standardized patients (SPs)란 특정 환자의 임상 상태를 일관되고 믿을 수 있는 방식(consistently and believably)으로 재현하도록 훈련받은 사람을 의미한다. 이를 통해 환자와의 만남(patient encounters)을 현실적으로 시뮬레이션(realistic simulation)할 수 있다 (Barrows & Abrahamson, 1964; Barrows, 1993).

SP는 다양한 배경의 사람들로 구성될 수 있다. 예를 들어 전문 배우(professional actors), 퇴직 교사(retired teachers), 지역사회 자원봉사자(community volunteers), 안정된 신체 소견을 가진 환자(patients with stable findings), 간호사(nurses), 의학 전공의(medical residents), 학생(students) 등이 있다.
하이브리드 시뮬레이션(hybrid or multimodal simulations)은 SP를 모형 실습(bench models)이나 마네킹(mannequins)과 함께 사용하여, 환자 중심적 시술(patient-centered procedural skills)을 강조하고, 중환자 진료(critical care)나 팀 상황(team scenarios)에서의 현실감(realism)과 난이도(challenge)를 높인다 (Kneebone et al., 2005; Black et al., 2006; Nestel, Mobley, Hunt, & Eppich, 2014).
비공개 SP(unannounced SPs)는 신분을 숨긴 채(incognito) 임상 현장에 투입되어, 실제 진료 환경(actual practice)에서의 수행(performance)을 평가하는 데 활용될 수 있다 (Rethans et al., 1991; Rethans et al., 2007; Weiner et al., 2010; Schwartz, Weiner, & Binns-Calvey, 2013).

SP 방법론은 그 활용 범위가 확장되어,

교수개발(faculty development)을 위한 표준화 학생(standardized students)의 역할 (Gelula & Yudkowsky, 2003),
가족 구성원(standardized family members), 동료(colleagues), 직원(staff) 등의 역할 (Gangopadhyaya et al., 2013) 재현으로도 발전하였다.
표준화 환자(Standardized patients)는 의학(medicine), 간호(nursing), 약학(pharmacy), 치의학(dentistry), 물리치료(physiotherapy), 작업치료(occupational therapy), 영양학(dietetics), 수의학(veterinary medicine) 등 다양한 보건의료 직종 전반에 걸쳐 활용된다.

“Simulated Patient”와 “Standardized Patient”의 구분

“Simulated patient”는 작은 그룹 수업(small group instruction)처럼, 모든 만남에서 동일한 연기를 유지할 필요가 없는 포괄적 용어(generic term)이다. 반면, “standardized”라는 특성은 평가(assessment) 목적으로 SP를 사용할 때 핵심적 요소(crucial aspect)이다. 고위험 평가(high-stakes assessment) 상황에서는, SP가 수많은 피험자(examinees)를 대상으로 일관된 연기(consistency)를 유지해야 한다. 각 피험자는 저마다 독특한 질문(idiosyncratic questions)과 행동(behaviors)을 보이기 때문이다.

이러한 일관된 연기(consistent portrayal)를 위해서는 두 가지 요소가 필요하다:
1. 구체적이고 명확한 대본(highly specified script)
2. 엄격한 SP 훈련(rigorous SP training)

SP Script (SP 대본)

SP script(대본)은 SP가 수행할 연기의 세부사항을 포함한다.

대본에는 다음과 같은 요소들이 명시된다.

환자의 연령(age), 성별(gender), 그 외 주요 특성(salient characteristics)
환자의 의학적 병력(medical history)과 신체검진 소견(physical exam findings)
환자의 배경 이야기(backstory) — 가족, 직업, 생활환경 등
환자의 성격(personality)과 정서 상태(affect)

또한, 대본에는

개방형 질문(open-ended questions)에 대한 응답 정보,
피험자가 특정 질문으로만 유도해야만 제공될 정보(information provided only if elicited),
피험자에게 주는 SP의 대사(prompt) 예: “저 이제 집에 가도 될까요?(Can I go home now?)”,
그리고 피험자의 다양한 행동에 대한 SP의 반응(desired SP responses) 등이 포함된다.

대본의 깊이와 범위 (Extent and Richness of Script)

대본의 상세 수준(extent and richness)은 상호작용의 길이(length)와 성격(nature)에 따라 달라진다.

예를 들어, 학생이 병력청취 없이 SP의 어깨를 진찰만 하는 5분짜리 만남(five-minute encounter)이라면, 단순히 모의 신체진찰 소견만 기술된 간단한 대본으로 충분하다.
반면, 우울증을 겪는 노인 여성에게서 감별진단(differential diagnosis)과 치료계획(treatment plan)을 세우는 30분짜리 평가(30-minute encounter)의 경우, 훨씬 더 세밀하고 구체적인 대본(highly detailed and elaborated script)이 필요하다.

SP 대본은 경험 많은 임상의들(team of experienced clinicians)이 작성해야 하며,

가능하다면 실제 환자(actual patient)와의 경험을 바탕으로 해야 하고,
환자 비밀(patient confidentiality)을 지키기 위한 수정(modifications)이 필요하다.
실제 환자 사례(real patient)를 기반으로 대본을 작성하면, 풍부한 배경 이야기(rich backstory)와 검사 결과(laboratory results) 같은 세부 정보가 포함될 수 있으며, 대본이 일관되고 설득력 있는 환자상(plausible and realistic patient)을 형성할 수 있다.

Box 9.1에는 효과적인 SP 대본의 구성요소(suggested elements of an effective script)가 제시되어 있다.
SP 대본의 예시는 다음과 같은 자료에서 찾아볼 수 있다.

출판된 사례집(published casebooks) (예: Macy Initiative, 2003)
온라인 리소스 뱅크(online resource banks):
- MedEdPortal (www.aamc.org/mededportal)
- Association of Standardized Patient Educators (www.aspeducators.org)

SP Training (SP 훈련)

대본(script)이 준비되면, SP는 환자를 정확하게(accurately), 일관되게(consistently), 현실적으로(believably) 연기할 수 있도록 훈련받는다 (van der Vleuten & Swanson, 1990; Tamblyn et al., 1991; Colliver & Williams, 1993; Errichetti & Boulet, 2006; Wallace, 2007).

훈련 절차에는 다음의 단계가 포함된다.

사례 내용 검토(review), 내용 명확화(clarification), 암기(memorization)
훈련자(trainer) 및/또는 모의 피험자(simulated examinees)와 함께 시뮬레이션 리허설(rehearsal)

SP는 다음과 같은 역량을 가져야 한다.

피험자의 예상치 못한 질문(unexpected questions)에 직면했을 때, 상황에 맞게 즉흥적으로 대응(improvise appropriately)하되, 캐릭터를 유지(in character)해야 한다.
동일한 사례를 여러 명의 SP가 연기하는 경우, 공동 훈련(joint training)을 실시하면 SP 간의 일관성(consistency across SPs)을 높일 수 있다.
이전 시험에서 동일 사례를 연기한 SP의 비디오 녹화(video recordings)는 향후 시험 간의 일관성(consistency across administrations)을 유지하는 데 도움이 된다 (Schlegel et al., 2015).

또한,

SP가 피험자에게 구두 또는 서면 피드백(verbal or written feedback)을 제공해야 하는 경우, 효과적인 피드백 제공법에 대한 훈련이 필요하다 (예: Howley, 2007).
SP가 피험자를 평가(rating examinees)해야 하는 경우, 채점자 훈련(rater training) 역시 필요하다 (자세한 내용은 후술).

전체 SP 훈련 과정은 대본의 복잡성, SP의 역할, 표준화의 정도 등에 따라 30분에서 8시간 이상(30 minutes to eight hours and more) 소요될 수 있다. SP가 목표 수준(desired level)의 수행에 도달하면, 정기적인 평가(periodic assessment)와 피드백(feedback)을 통해 시험의 질을 지속적으로 유지할 수 있다 (Wind, Van Dalen, Muijtjens, & Rethans, 2004).

Scoring the Performance (수행의 채점)

SP(표준화 환자) 상황 또는 다른 관찰된 수행(observed performance)에서 나타난 피험자의 행동(examinee’s behavior)을 채점 가능한 수치(numeric score)로 전환하기 위해 체크리스트(checklists)와 평정척도(rating scales)가 사용된다.

Checklist items(체크리스트 항목)은 “수행함(done)” 또는 “수행하지 않음(not done)”과 같이 이분법적(dichotomous)으로 채점할 수 있는 진술문(statement) 또는 질문(question)이다.
예: “피험자는 폐 청진을 실시하였다(The examinee auscultated the lungs).”
Rating scales(평정척도)는 수행의 질(quality)을 평가하기 위한 다단계 반응 척도(range of response options)를 사용한다.
예: “피험자는 얼마나 공손했는가?(How respectful was the examinee?)” — “매우 공손함(extremely respectful)”에서 “전혀 공손하지 않음(not at all respectful)”까지의 4점 척도로 평가할 수 있다.

Case-Specific Checklists (사례별 체크리스트)

사례별 체크리스트(case-specific checklist)는 특정 임상 사례에서 필수적인 행동(actions essential to a case)을 식별하며, 일반적으로 전문가 패널(content experts)이나 교수진(local faculty)이 개발한다 (Gorter et al., 2000).

체크리스트 항목은 경험 많은 임상의(experienced clinicians)가 SP를 진료하는 장면을 관찰(observing the actions)함으로써 도출할 수도 있다 (Nendaz et al., 2004).
이상적으로는, 모든 항목이 근거 기반(evidence-based)이어야 하며, 최선의 진료지침(best-practice guidelines)을 반영해야 한다.

체크리스트의 목적은 단순히 상호작용에서 발생한 행동(record what took place)을 기록하는 것이므로,

전문가 판단(expert judgment)이 필수적이지는 않다.
그러나 채점자 간 불일치(disagreements between raters)를 최소화하려면,
- 체크리스트 항목이 매우 명확하게 정의(well specified)되어야 하며,
- 채점자는 각 행동이 “수행함(done)”으로 채점되기 위한 기준(parameters)을 인식하도록 훈련받아야 한다.

예를 들어, “피험자는 폐 청진을 하였다(The examinee auscultated the lungs)”라는 항목은
다음과 같이 보다 구체적으로 명시될 수 있다.

“피험자는 피부에(stethoscope on skin), 후방에서(posteriorly), 양측(bilaterally), 세 수준(three levels)에서, 환자에게 입으로 깊게 숨을 들이쉬라고 요청하면서(breathe deeply through the mouth) 청진하였다.”

이 중 한 가지라도 충족되지 않으면, 그 항목은 “수행하지 않음(not done)” 또는 “잘못 수행함(done incorrectly)”으로 채점된다.
또한, 보다 상세한 피드백을 제공하고자 할 경우, 각 조건(on skin, bilateral, three levels 등)을 별도의 항목으로 분리(split)할 수도 있다.

체크리스트는

관찰자(observer)가 상호작용 도중 작성하거나,
SP 자신이(SP) 만남 직후 작성할 수도 있다.

연구에 따르면,

12~15개 항목으로 구성된 체크리스트(checklists of 12–15 items)는 훈련된 SP(well-trained SP)가 정확하게(completed quite accurately) 작성할 수 있다 (Vu et al., 1992).
일부 고도로 훈련된 SP(extensively trained SPs)는 전신 신체진찰(full head-to-toe screening physical exam)과 같이 훨씬 더 긴 체크리스트도 완성할 수 있다 (Yudkowsky et al., 2004).
또한, 훈련된 비전문가(trained non-experts) — 즉 SP, 일반인(lay persons), 의대생(medical students) — 도 전문가(physicians)와 동등한 신뢰도(reliability)로 체크리스트 또는 체크리스트 기반 평정척도(checklist-calibrated rating scales)를 사용할 수 있다 (Swanson & van der Vleuten, 2013).

Checklists for Different Levels of Learners (학습 수준에 따른 체크리스트의 적절성)

체크리스트는 초보 학습자(beginning learners)에게 효과적으로 사용할 수 있다.
예를 들어,

의학적 시술(medical procedure)의 모든 단계를 따랐는지,
병력청취를 충분히 수행했는지 확인하는 데 유용하다.

그러나 포괄적 체크리스트(comprehensive checklists)는 숙련된 피험자(advanced examinees)에게는 적절하지 않을 수 있다 (Hodges et al., 1999; Swanson & van der Vleuten, 2013).

전문 임상의(expert clinicians)는 병력청취 및 신체진찰(H&P)에서 세세한 항목을 모두 수행하기보다, 패턴 매칭(pattern matching)과 같은 비분석적 사고(non-analytic processes)를 통해 빠르게 진단을 내리는 경향이 있다.
따라서, 철저함(thoroughness)을 보상하는 H&P 체크리스트에서는 오히려 낮은 점수(low scores)를 받을 수 있다.
이에 따라, 임상적으로 변별력 있는 항목(clinically discriminating items) — 즉 경쟁하는 진단 간을 구별하는 항목(items that discriminate between competing diagnoses) (Yudkowsky et al., 2014) — 또는 핵심 특징(key feature) 항목(see Chapter 13)을 포함하는 체크리스트가 고급 학습자(advanced learners)를 보다 잘 식별할 수 있다.
체크리스트 항목 가중치(weighting checklist items)를 부여하는 것은 일반적으로 유용하지 않다(not generally useful) (Sandilands et al., 2014).
보다 복합적인 수행(complex performance)이나 숙련된 임상의(advanced clinicians)를 평가할 때는, 전문가가 작성하는 평정척도(expert-completed rating scales)가 더 적절한 도구가 될 수 있다 (Swanson & van der Vleuten, 2013).

Rating Scales (평정척도)

평정척도(rating scales)는 관찰자(observer)가 전문적 판단(expert judgment)을 발휘하여 행동의 질(quality of an action)을 평가할 수 있도록 한다.

Global scale items(전반적 척도 항목)은 수행 전체(performance as an integrated whole)를 평가한다.
예: “전반적으로 이 수행은 다음과 같았다 — 탁월함(excellent) | 매우 좋음(very good) | 좋음(good) | 한계적(marginal) | 불만족스러움(unsatisfactory).”
Analytic scale items(분석적 척도 항목)은 특정 행동(specific behaviors)을 다단계(polytomous)로 평가하며, 체크리스트와 유사하게 구성된다.
예: “학생은 환자의 비언어적 신호(non-verbal cues)에 후속 질문을 하였는가? — 자주(frequently) | 때때로(sometimes) | 드물게(rarely) | 전혀 하지 않음(never).”
Primary trait scale items(핵심 특성 척도 항목)은 수행 전체에서 두드러지는 소수의 주요 특성(salient features)을 평가한다.
예를 들어, 의사소통 기술(communication skills)을 평가할 때, 언어적(verbal communication), 비언어적(non-verbal communication), 영어 능력(English language skills)을 각각 평가할 수 있다.

체크리스트가 보통 사례별(case-specific)로 설계되는 반면, 평정척도는 다양한 사례 간(cross-case)에 걸쳐 나타나는 행동이나 기술(behaviors or skills) — 예: 자료 수집(data gathering), 의사소통(communication), 전문직업성(professionalism) — 을 평가하는 데 사용할 수 있다.

의사소통 및 대인관계 기술(communication and interpersonal skills)을 평가하기 위한 다양한 도구들이 개발되어 있으며,
대표적인 예로 Stillman et al. (1977), Makoul (2001a, 2001b), Kurtz et al. (2003), Iramaneerat et al. (2009) 등이 있다.
또한, 평정척도 및 설문문항 개발 지침(guidelines for developing rating scales and survey items)은 Artino et al. (2014)에서 자세히 제시되어 있다.

Subjectivity and Anchors (주관성과 기준점)

평정척도는 판단(judgment)을 수반하므로, 본질적으로 체크리스트보다 주관적(subjective)이다.
이에 따라, 각 등급(level)의 기준점(anchor)을 제공하면 채점자 간의 일치도(inter-rater reliability)를 향상시킬 수 있다.
특히 행동 기반 기준점(behaviorally anchored anchors)을 사용할 때 그 효과가 크다 (Bernardin & Smith, 1981a).

ACGME Milestones (Holmboe, Edgar, & Hamstra, 2016)은 발달 중심(developmentally oriented)의 행동 기반 평정척도(BARS, Behaviorally Anchored Rating Scales)의 대표적인 예이다.

Box 9.2에는 다양한 유형의 평정척도 기준점(anchors) 예시가 제시되어 있다.
또한, 루브릭(rubrics)은 SP 만남 이후 작성된 기록(chart notes)과 같은 서면 산출물(written products)을 평가하는 데 사용될 수 있다.

루브릭(rubric)은 사실상 행동 기반 평정척도(behaviorally anchored rating scale)로, 각 점수 수준(score level)에서 기대되는 수행(performance expected at each level)을 구체적으로 기술한다.
서면시험(written tests)에서의 루브릭 활용에 대해서는 Chapter 7을 참조하라.
Box 9.3에는 차트 노트(chart note) 평가를 위한 예시 루브릭(sample rubric)이 제시되어 있다.

Training Raters (채점자 훈련)

채점자(raters)는 체크리스트(checklists)와 평정척도(rating scales)를 정확하고 일관되게(accurately and consistently) 사용할 수 있도록 훈련되어야 한다. 이러한 훈련은 모든 채점자를 한 그룹(one group)으로 모아 합의(consensus)와 상호 보정(cross-calibration)을 촉진하는 방식으로 진행하는 것이 가장 효과적이다.

시험의 목적과 각 항목을 검토한 뒤, 참조 틀 훈련(frame of reference training) (Bernardin & Buckley, 1981b; Newman et al., 2016)을 실시하면, 모든 채점자가 척도를 동일한 방식으로 사용(calibrated and using the scale in the same way)하도록 도울 수 있다.

채점자는 다음의 단계를 거친다:

실시간(live) 또는 녹화된(recorded) 수행(예: SP 만남 또는 차트 노트)을 관찰(observe)하고 개별적으로 채점(individually score)한다.
이후 함께 모여(discuss together) 채점 결과를 논의한다.
마지막으로, 각 체크리스트 항목 및 평정척도의 기준점(anchors)에 대응하는 행동(behaviors)에 대해 합의(consensus)를 도출한다.

이상적으로는, 채점자들이 높은 수준(high), 중간 수준(middle), 낮은 수준(low)의 숙련도(proficiency)를 지닌 수행 사례를 모두 관찰하고, 각 수준을 특징짓는 행동들을 식별해야 한다.

수행평가(performance tests)의 개발자와 채점자가 직면하는 많은 어려움은 서술형 문항(written constructed-response items)의 경우와 유사하다. 문항 개발(item development), 채점자 선정 및 훈련(rater selection and training)에 대한 추가적인 통찰은 Chapter 7을 참고하라.

Pilot Testing the Case (사례의 예비시험)

평가에서 사례(case)를 실제로 사용하기 전에, 스테이션(station)과 평가 도구(rating instruments)는 소수의 대표적 채점자와 피험자(a few representative raters and examinees)를 대상으로 파일럿 테스트(pilot test)를 수행해야 한다.
이를 통해 시험이 의도한 대로 작동(function as intended)하는지를 확인할 수 있다.

파일럿 테스트 결과, 다음과 같은 수정이 자주 이루어진다.

피험자 지침(examinee instructions)의 명확화,
SP 응답(SP responses)의 보완 — 이전에는 예상치 못했던 질문(unanticipated queries)에 대한 대응 포함,
체크리스트 항목(checklist items) 및 평정척도 기준점(rating anchors)의 구체화 등.

다중 스테이션 수행평가: 객관적 구조화 임상시험 (OSCE)
Multiple-Station Performance Tests: The Objective Structured Clinical Exam (OSCE)

하나의 임상 사례(clinical case)나 도전 과제(challenge)에서의 수행(performance)은 다른 사례에서의 수행을 잘 예측하지 못한다(not a good predictor). 이러한 현상을 “사례 특이성(case specificity)”이라고 한다 (Elstein, Shuman, & Sprafka, 1978).

예를 들어, 급성 충수염(acute appendicitis) 환자를 관리할 수 있는 능력은 우울증(depression)을 진단할 수 있는 능력을 예측하지 못한다.
만성 당뇨(chronic diabetes) 환자에게 적절한 병력청취와 신체진찰(history and physical exam, H&P)을 수행했다고 해서, 급성 흉통(acute chest pain) 환자에게도 동일한 수준의 수행을 보장하지 않는다.

즉, 학생의 지식을 단 한 개의 객관식 문항으로 평가할 수 없는 것처럼, 단 한 번의 관찰만으로 역량(competency)을 평가할 수도 없다. 이 문제의 해결책 중 하나가 바로 객관적 구조화 임상시험(Objective Structured Clinical Examination, OSCE)이다 (Harden, Stevenson, Downie, & Wilson, 1975). 이는 여러 개의 수행평가(performance tests)로 구성된 일련의 회로(series or circuit) 형태의 시험이다. OSCE에서는 각 수행평가를 “스테이션(station)”이라고 하며,

학생들은 회로 내의 서로 다른 지점에서 출발하여,
스테이션을 하나씩 차례로 이동하며 시험을 완수하게 된다.

구성 및 유형 (Structure and Types of OSCE Stations)

하나의 OSCE는 동일한 유형의 스테이션(예: SP 기반 환자 사례)만으로 구성될 수도 있고,
서로 다른 유형의 스테이션들을 조합하여 구성할 수도 있다.

예를 들어, 다음과 같은 유형이 있다.

SP 기반 환자 사례(SP-based patient encounters)
시술(procedures) — 예: 정맥주사 삽입(IV insertion)
서면 과제(written challenges) — 예: 처방전 작성(writing prescriptions), 차트 노트 작성(chart notes)
검사 결과 해석(interpretation of lab results)
심전도(EKG) 또는 영상의학(radiology) 판독
구술 발표(oral presentation) — 시험관에게 증례를 보고하는 형태 (Figure 9.2)

스테이션의 수가 많을수록 평가 영역(domain)의 표집 범위(sampling)가 넓어지고, 이는 시험의 신뢰도(reliability)와 타당도(validity)를 향상시킨다.(타당도 위협에 대한 자세한 논의는 후반부에서 다룸.)

OSCE 스테이션의 시간(Duration of OSCE Stations)

스테이션의 길이(duration)는 시험의 목적(purpose of the exam)에 따라 5분에서 30분 이상까지 다양하다 (Petrusa, 2002).

짧은 스테이션(shorter stations)은 개별 기술(discrete skills) 평가에 적합하다.
- 예: 반사(reflexes) 유도 능력.
긴 스테이션(longer stations)은 보다 복합적인 과제(complex tasks)를 현실적 맥락(realistic context)에서 평가할 수 있다.
- 예: 대장암 선별(colorectal screening)을 꺼리는 환자를 상담(counseling)하는 상황.

집중된 병력청취 및 신체진찰(focused H&P)에는 10~20분이 일반적으로 충분하다 (Petrusa, 2002). 운영상 편의(logistic convenience)를 위해, 하나의 OSCE 내에서는 모든 스테이션의 길이를 동일하게(equal duration) 설정하는 것이 좋다.

Couplet Stations (연동 스테이션)

“Couplet” 스테이션은 두 개의 연계된 과제로 구성된다.

예를 들어, 첫 번째 스테이션에서 본 환자에 대한 차트 노트(chart note)를 작성하는 것이 다음 스테이션의 과제가 될 수 있다.
이러한 경우, 총 소요 시간(total duration)은 두 스테이션의 시간을 합한 것과 같다.

고위험 OSCE (High-Stakes OSCEs)

고위험 자격시험(high-stakes licensure OSCEs)은 전 세계적으로 시행되고 있다.

Boulet, Smee, Dillon, & Gimpbel (2009)은 미국과 캐나다(US and Canada)에서의 표준화 환자 평가(standardized patient assessments)가 면허시험(licensure examinations)에서 어떻게 사용되는지 기술하였다.
Box 9.4에서는 미국의사면허시험(USMLE) Step 2 Clinical Skills Assessment (Step 2CS)를 대표적 고위험 OSCE 사례(high-stakes OSCE example)로 요약하여 제시한다.
이 프로그램에 대한 추가 정보는 USMLE 공식 웹사이트에서 확인할 수 있다.

Scoring an OSCE: Combining Scores Across Stations (OSCE의 채점: 스테이션 간 점수 통합)

OSCE(Objective Structured Clinical Examination)에서의 분석 단위(unit of analysis)는 체크리스트 항목(checklist item)이 아니라 스테이션(station) 또는 사례(case)이다. 그 이유는 다음과 같다.

사례 내의 항목들은 상호 의존적(mutually dependent)이다. 예를 들어, 전공의(resident)가 심장을 청진(examine the heart)했는지는, 그가 흉통(chest pain) 병력을 청취(elicited a history)했는지 여부에 따라 달라질 수 있다.
마찬가지로, 연동 스테이션(couplet station)은 하나의 분석 단위(single unit of analysis)로 간주된다.
따라서 체크리스트 항목(checklist items)이나 평정척도 항목(scale items)은 스테이션 단위의 점수(station score)로 통합(aggregated)되어야 한다.

체크리스트의 하위항목(subsets of checklist items)은 과제의 세부 영역(specific aspects of the task)—예를 들어, 병력청취(history taking)와 신체진찰(physical exam)—에 대한 정보를 제공할 수 있다.

그러나 이러한 하위척도(subscales)는 일반적으로 항목 수가 충분하지 않아 신뢰도 높은 독립적 척도(reliable standalone measures)로 사용되기 어렵다.

반면, 여러 사례에서 공통적으로 평가되는 기술 하위척도(skills subscales) 또는 핵심특성 평정(primary-trait ratings)은 사례 간 평균(averaged across cases)을 통해 시험 수준의 점수(exam-level score)를 도출할 수 있다.

예를 들어, 의사소통 및 대인관계 기술(communication and interpersonal skills, CIS) 점수는 사례 간 중간 수준의 상관관계(moderate correlations)를 보이므로, 여러 사례의 CIS 평정척도 점수(rating scale scores)를 평균하여 전체 시험의 점수를 산출하는 것이 타당하다.

Compensatory vs. Non-Compensatory (보상적 vs 비보상적 채점)

이 문제는 Chapter 6에서 다룬 바 있다. 즉, 한 사례에서의 우수한 수행(good performance)이 다른 사례에서의 미흡한 수행(poor performance)을 보상(compensate)할 수 있는가 하는 정책적 결정(policy-level decision)의 문제이다.

보상적 접근(compensatory approach)에서는, 한 사례에서의 우수한 의사소통(communication)이 다른 사례에서의 부족한 의사소통을 일정 부분 보완할 수 있다고 본다.
반면, 비보상적 접근(non-compensatory or conjunctive approach)을 채택하는 평가자는, 피험자가 흉통(chest pain), 복통(abdominal pain), 호흡곤란(shortness of breath) 등 핵심 임상 상황(critical clinical situations)의 일정 개수에서 절대적 역량(competency)을 입증해야 한다고 판단할 수 있다.
즉, 한 사례에서의 높은 점수가 다른 사례에서의 낮은 점수를 보상하지 못한다.

특히 임상술기(clinical procedures) 수행 능력은 일반적으로 결합적(conjunctive)이다 —
예: 정맥주사(IV insertion)를 잘했다고 해서 심전도(EKG) 수행이 부족한 것을 보완할 수는 없다.

Standard Setting (기준 설정)

Chapter 6에서 다룬 여러 기준 설정 방법(standard-setting methods)은 원래 필기시험(written tests)을 위해 개발된 것이지만, 이후 수행평가(performance tests)에도 적용되도록 수정되었다 (Downing, Tekian, & Yudkowsky, 2006).

문항 기반(item-based) 방법(예: Angoff 방법)은 체크리스트의 절단점(cut score)을 설정하는 데 일반적으로 사용되며, 비교적 간편하고 실용적(commonly and easily employed)이다. 그러나 수행평가에서는 이러한 접근이 다음과 같은 이유로 비판(challenged)을 받는다.

체크리스트의 항목들은 상호 독립적(mutually independent)이지 않다 (Ross et al., 1996; Boulet, de Champlain, & McKinley, 2003).
또한 모든 항목이 동일한 임상적 중요도(clinical valence)를 가지지 않는다 —
어떤 항목의 누락은 환자의 생명(patient’s life)을 위협할 수 있지만, 또 다른 항목의 누락은 사례 결과(outcome)에 거의 영향을 주지 않을 수도 있다.

이러한 문제를 피하기 위해, 피험자의 실제 수행(performance)을 직접 관찰하는 방식의 기준 설정 방법(direct observation-based methods)이 제안되었다.
그 대표적인 것이 경계집단법(Borderline Group, BG)과 대조집단법(Contrasting Groups, CG)이다.

전문가 평가자(expert examiners or faculty)가 SP 만남(SP encounters)을 직접 관찰하고 채점(observe and score)하는 프로그램에서는, 이러한 피험자 기반 방법(examinee-based methods)을 쉽게 적용할 수 있다.
이때 평가자는 각 피험자에 대해 체크리스트를 작성함과 동시에 전반적 등급(global rating) — 불합격(fail), 한계통과(marginal pass), 통과(pass) — 를 부여한다.
경계집단법(BG method)에서는 한계통과(marginal pass)로 평가된 피험자들의 평균 또는 중앙 체크리스트 점수(mean or median checklist score)를 절단점(cut score)으로 설정한다.
대조집단법(CG method)에서는 통과(pass) 및 불합격(fail) 집단의 점수 분포가 교차(intersection)하는 지점을 절단점으로 설정한다 (자세한 내용은 Chapter 6 참조).

한편, SP나 일반인(non-clinicians)이 체크리스트를 작성하는 경우, 다음과 같은 대안이 있다.

전문가 교수진(faculty experts)이 SP가 작성한 체크리스트를 대리 평가(proxies for examinee performance)로 검토하거나,
전체 시험 기반 접근(whole-test methods) — 예: Hofstee 방법 — 을 적용하거나,
Angoff 또는 Ebel 방법 같은 문항 기반(item-based) 접근을 한시적으로 사용할 수도 있다.
단, 이 경우 그 한계(limitations)를 명확히 인식해야 한다.

사례 단위(case-level)의 절단점은 여러 사례를 종합(aggregated across cases)하여 전체 시험에 대한 보상적 기준(compensatory-type standard)을 설정할 수 있다.
반면, 비보상적(conjunctive) 기준을 적용하려면, 피험자가

특정 개수의 사례를 통과(pass)해야 하거나,
두 개 이상의 하위척도(subscales) — 예: 자료수집(data gathering)과 의사소통 능력(communication skills) — 을 모두 통과해야(pass) 한다.

비보상적 기준은 일반적으로 보상적 기준(compensatory standard)보다 높은 불합격률(higher failure rate)을 초래한다.
이는 각 추가된 ‘장벽(hurdle)’이 독립적으로 실패 확률(probability of failure)을 높이기 때문이다.

Chapter 6에서는 이러한 기준 설정 방법들과 그 통계적 근거를 보다 상세히 다루고 있다.

Procedural Skills and Mastery Standard (시술술기와 숙련기준)

시술 수행능력(procedural skills testing)은 기준 설정(standard setting)에서 또 다른 도전을 제시한다. 특히 마스터리 접근(mastery approach)이 적합한 경우가 있다 — 즉, 체크리스트가 공개되어 있고(public), 잘못된 수행이 환자 안전(patient safety)이나 시술의 성공(successful outcome)에 직접적인 위협(threat)이 되는 경우이다.

이에 대한 구체적 논의는 Chapter 18 (Mastery Learning)과 Chapter 6 (Standard Setting)을 참조하라.

Logistics (운영 및 관리)

OSCE를 운영(conducting an OSCE)하는 일은 상당히 복잡하고 부담스러울 수 있다(daunting).

많은 의과대학에서는

전담 SP 훈련자(full-time SP trainers),
유급 전문 배우(paid professional actors) 혹은 기타 SP 역할자(SPs),
그리고 여러 개의 진료실 형태의 공간(clinic-type rooms)을 갖춘 전용 시설(dedicated facility)을 두고 있다.

이 시설들은 영상녹화 기능(audiovisual recording capability)을 갖추고 있어,

원격 관찰(remote observation)과
SP 만남의 원격 채점(remote scoring)이 가능하다.

또한, 온라인 데이터 관리 시스템(online data-management systems)은

체크리스트 데이터의 수집 및 보고(data capture and reporting)를 용이하게 하고,
학습자와 교수진 모두가 디지털 녹화 영상(digital recordings)을 원격으로 시청 및 논의(view and comment)할 수 있도록 지원한다.

반면, 보다 제한된 예산(limited budget)으로도 OSCE를 운영할 수 있다.

교수진(faculty)이 훈련자(trainers)와 채점자(raters) 역할을 겸하거나,
학생(students), 전공의(residents), 지역사회 자원봉사자(community volunteers)를 SP로 모집(recruit)할 수 있다.
또한, 기존 진료실 공간(existing clinic space)을 야간 또는 주말(evening or weekend)에 활용하는 것도 한 방법이다.

영상 녹화(video recording)는 유용하지만 필수적이지는 않다(helpful but not essential).

Threats to the Validity of Performance Tests (수행평가의 타당도 위협 요인)

수행평가(performance tests)의 타당도(validity)를 위협하는 요인들은 Table 9.1에 요약되어 있다. 이 절에서는 Chapter 2에서 논의된 두 가지 주요 위협, 즉 표집 부족(undersampling / construct underrepresentation)과 잡음(noise / construct-irrelevant variance)에 초점을 맞춘다.

Construct Underrepresentation (구성개념의 과소표집)

Construct underrepresentation 또는 undersampling은 수행평가의 타당도(validity)에 특히 큰 위협이 된다. 그 이유는 수행이 스테이션 간(case-to-case)에 따라 다르게 나타나는 사례 특이성(case specificity)을 보이기 때문이다. 그럼에도 불구하고 실제로는 관찰할 수 있는 스테이션이나 수행의 수(number of stations or performances)가 제한적이다. 따라서 다중 스테이션 수행평가(OSCE, Objective Structured Clinical Examination)는 다음의 중간 지점에 위치한다.

수백 개의 객관식 문항(multiple-choice questions)을 포함하는 필기시험(written test)과
단 하나의 환자나 사례에 대한 질문만 포함할 수 있는 전통적 구술시험(traditional viva/oral exam) 사이에 해당한다.

OSCE의 타당도(validity)는 무엇보다도 평가 대상 영역(domain)을 충분하고 체계적으로 표집(sufficiently and systematically sample)할 수 있는 능력에 달려 있다 (Figure 9.3).

이러한 체계적 표집(systematic sampling)은 청사진 작성(blueprinting)과 시험 명세표(table of test specifications)를 통해 뒷받침된다 (see Chapter 2).

SP 기반 OSCE의 경우, 청사진(blueprint)에는 다음의 세 가지 C(three Cs)가 포함되어야 한다.

Content subdomains (내용 하위영역)
Competencies to be assessed (평가할 역량)
Patient characteristics (환자 특성)

OSCE는 이 세 요소를 체계적으로 표집(systematic sampling)하도록 설계된 사례 집합(cases)을 포함해야 한다.

Blueprint Examples and Conceptual Frameworks (청사진 예시와 개념적 틀)

Box 9.5는 입원 재활(inpatient rehabilitation) 로테이션 중 작업치료사(occupational therapists)를 평가하기 위한 SP 기반 시험의 청사진 구성요소(blueprint elements) 예시를 제시한다.

개념적 틀(conceptual framework)은 평가해야 할 핵심 요소(salient elements)를 식별하고 체계적으로 표집하는 데 도움을 줄 수 있다. 그 예로는 다음과 같은 프레임워크들이 있다.

Interprofessional Collaborative Practice Competency Domains (Interprofessional Education Collaborative Expert Panel, 2011)
American College of Clinical Pharmacy Clinical Pharmacist Competencies (Saseen et al., 2017)
ACGME Competencies and Milestones for Residents in the US (Batalden, Leach, Swing, Dreyfus, & Dreyfus, 2002; Holmboe et al., 2016)
Kalamazoo Consensus Statement on Patient-Centered Communication (Makoul, 2001a) — Box 9.6 참조.

Multiple Mini-Interview (MMI)와 수행평가

Chapter 8에서 소개된 Multiple Mini-Interview (MMI) (see Case Example 8.1, Eva, Rosenfeld, Reiter, & Norman, 2004 및 후속 연구들)는 입학면접(admission interviews)에서 청사진(blueprinting)과 표집(sampling)의 원리를 적용한 대표적인 사례이다. 즉, MMI는 면접을 수행평가(performance test)의 일종으로 간주한 것이다.

Sampling Adequacy and Station Length (충분한 표집과 스테이션 길이)

유효한 타당도(valid inferences)를 확보하려면, OSCE의 스테이션은 관찰하려는 행동(behavior of interest)을 충분히 관찰할 수 있을 만큼 길어야 한다.

예를 들어, 평가 목표가 집중된 병력청취 및 신체진찰(focused history and physical exam)을 수행하고,
그 결과에 근거한 감별진단(differential diagnosis) 및 치료계획(treatment plan)을 수립하는 능력이라면,
10–20분 길이의 스테이션이 필요하며, 충분한 만남 수(sufficient number of encounters)를 확보하기 위해 시험 시간을 늘려야 한다.
일반적으로 최소한의 신뢰도(minimally reliable scores)를 확보하기 위해서는 4–8시간 정도의 시험 시간(testing time)이 필요하다 (van der Vleuten & Swanson, 1990).

또한, 시험과 임상 교육과정(clinical curriculum)의 단절(disjunction)은 내용 타당도(content validity)에 추가적인 위협이 되며, 사례 특이성(case specificity)을 심화시킬 수 있다 (Williams et al., 2014).

OSCE 청사진(blueprint)은 시험의 각 스테이션을 교육과정의 내용(curriculum content)과 학습목표(objectives)에 체계적으로 연결(mapping)**시킨다.
그러나 실제 임상 경험은 대개 우연적(opportunistic)이다.
즉, 학생이 접하는 환자군(patient problems)은 실습 기간 중 병원에 입원하거나 외래로 방문한 환자에 따라 달라진다.
따라서, 학생들이 “이번 OSCE에서 나온 사례를 실제로 접한 적이 없다”고 말하거나, 특정 스테이션에서 평균 점수가 비정상적으로 낮은 경우(unusually low mean scores), 이는 교육과정의 공백(curricular gaps)에 대한 중요한 정보를 제공할 수 있다.

Construct-Irrelevant Variance (구성개념과 무관한 분산)

타당도 위협의 또 다른 형태는 구성개념과 무관한 분산(construct-irrelevant variance)이다. 이는 학생 간 점수 분산(score variance)이 실제 능력 차이(student ability)가 아닌 기타 요인(other factors)을 반영할 때 발생한다.

즉, 학생 간 실제 능력 차이(actual differences of ability) 이외의 모든 분산은 오차 분산(error variance), 또는 잡음(noise)으로 간주된다.
SP 기반 수행평가(SP-based performance tests)에서는, 항목(items), 사례(cases), SP, 채점자(raters), 그리고 시험 시행 시점(occasion) 등이 모두 측정오차(measurement error)의 잠재적 원천이 될 수 있다.

Generalizability and Measurement Analysis (일반화 가능성과 측정 분석)

일반화 계수(generalizability coefficient, G)는 시험 전체의 신뢰도(reliability)를 나타내는 지표이다 (see Chapter 4). 일반화 분석(generalizability analysis)을 통해 특정 OSCE에서 주요 오차 요인(major sources of error)을 식별할 수 있다.

이를 보완하기 위해, 문항반응이론(Item Response Theory, IRT)과 다요인 라쉬 분석(Many-Facet Rasch Measurement, MFRM) (see Chapter 19)을 활용하면 개별 항목(items), 사례(cases), 채점자(raters)의 문제점을 식별하고, 어떤 유형의 오차가 발생하는지 구체적으로 규명할 수 있다 (Iramaneerat & Yudkowsky, 2007; Iramaneerat, Yudkowsky, Myford, & Downing, 2008; Pell, Fuller, Homer, & Roberts, 2010).

Case Specificity and Error Sources (사례 특이성과 오차 원천)

사례 특이성(case specificity) — 즉, 사례(case) 자체 및 사례와 개인 간 상호작용(case-person interaction)으로 인한 분산 — 은 일반적으로 수행평가에서 가장 큰 오차 요인(the greatest source of variance)이며, 채점자 간 차이(rater differences)보다 훨씬 큰 영향을 미친다.

따라서,

한 스테이션에 두 명 이상의 채점자(two or more raters)를 두는 것보다,
각 스테이션에 한 명의 채점자(one rater per station)만 두고 스테이션 수를 늘리는 것(increase the number of stations)이 훨씬 더 효율적이다 (van der Vleuten & Swanson, 1990; Swanson, Clauser, & Case, 1999).

적절한 훈련(proper training)을 거친 SP는 오차 분산에 거의 기여하지 않는다. 여러 연구에서 SP가 사례를 재현(portray cases)하고 체크리스트를 완성(complete checklists)하는 데 있어 높은 정확도와 일관성(high accuracy and consistency)을 달성할 수 있음이 입증되었다 (van der Vleuten & Swanson, 1990; Colliver & Williams, 1993).

일반적으로,

충분한 수의 사례나 스테이션을 통해 내용을 충분히 표집(sufficient sampling of content)하고,
스테이션 간에 서로 다른 채점자(raters)와 서로 다른 SPs를 사용한다면,
이들 간의 표집 또한 충분하여 재현 가능한 결과(reproducible results)를 확보할 수 있다.

Table 9.2는 일반적인 OSCE에서의 분산 원천(sources of variance)과 함께
각각의 대표적 오류(typical errors) 및 가능한 해결책(possible remedies)을 제시한다.

Table 9.2. Sources of Error in an OSCE (OSCE의 오류 요인)

1. Source of Variance: Person (개인 요인)

Reason (이유): 피험자(persons)는 평가 대상이 되는 행동(behavior to be assessed)을 수행할 수 있는 **능력(ability)**에서 서로 다르다.
Result (결과): 점수 차이는 실제로 존재하는 개인 간 능력 차이(true differences in ability between persons)에 의해 발생한다.
Remedy (해결책): 별도의 조치가 필요하지 않다(No remedy needed).
→ 이것이 바로 점수에서 **의도된 차이(the desired score information)**이다.

2. Source of Variance: Item (문항 요인)

Reason (이유):
① **체크리스트 또는 평정척도의 문항(items or anchors)**이 불명확할 수 있다.
② **문항 특이적 분산(item-specific variance)**이 발생할 수 있다.
Result (결과):
- 서로 다른 채점자(raters)는 문항을 다르게 해석하여 동일한 수행(the same performance)을 다르게 평가할 수 있다.
- 한 학생이 한 사례(case) 내의 일부 문항을 다른 문항보다 더 어렵게 느끼는 경우가 있다 → 즉, **사례 내에서 수행의 변동(performance is variable across items within a case)**이 발생한다.
Remedy (해결책):
- **문항을 명확히 서술(carefully word items)**한다.
- **파일럿 테스트(pilot the items)**를 실시한다.
- **채점자 훈련(train raters)**을 시행한다.
- **한 사례당 여러 문항(use several items per case)**을 포함하여 항목 간 변동성을 완화한다.

3. Source of Variance: Case (사례 요인)

Reason (이유):
① 사례 특이적 분산(case-specific variance)
② **사례 상황이나 과제(case situation or task)**가 불분명하거나 모호할 수 있다(unclear or ambiguous).
Result (결과):
- 학생들은 어떤 사례는 더 어렵고(challenging), 어떤 사례는 더 쉽다고 느낀다 → 즉, **시험 내 사례 간 수행의 변동(performance is variable across cases within an exam)**이 생긴다.
- 과제가 불분명한 경우, 학생들이 사례를 각기 다르게 해석하여 **서로 다른 방식으로 반응(respond differently)**하게 된다.
Remedy (해결책):
- **많은 사례(use many cases per exam)**를 포함하여 사례 특이성을 상쇄한다.
- **파일럿 테스트(pilot the case)**를 통해 사례가 **명확하고 일관된지(clear and unambiguous)**를 확인한다.

4. Source of Variance: SP (표준화 환자 요인)

Reason (이유):
① SP가 사례를 **잘못 재현(portrays the case incorrectly)**할 수 있다.
② SP마다 사례를 재현하는 방식이 다를 수 있다(vary in how they portray the case).
Result (결과):
- 학생들은 저자가 의도한(case authors intended) 것과는 다른 방식으로 재현된 사례에 반응하게 된다.
- 서로 다른 SP에게서 같은 사례를 경험할 때, 학생들의 반응이 달라진다(students respond differently to different SPs).
Remedy (해결책):
- **SP를 철저히 훈련(train SP)**시킨다.
- 품질 보증(quality assurance) 절차를 적용한다.

5. Source of Variance: Raters (채점자 요인)

Reason (이유):
① 체계적 채점자 오류(systematic rater error) — 즉, 후광 효과(halo effect), 엄격성(severity), 관대함(leniency), 중간경향성 오류(central tendency error) 등이 발생할 수 있다.
Result (결과):
- **체계적으로 편향된 점수(Systematically biased ratings)**가 나타난다.
- 예를 들어, 특정 채점자가 항상 높은 점수(high ratings) 또는 **낮은 점수(low ratings)**를 일관되게 부여하는 경향이 있다.
Remedy (해결책):
- **행동 기준 평정척도(behaviorally anchored scoring rubric)**를 제공한다.
- **참조 틀 훈련(frame of reference training for raters)**을 실시하여 채점자의 공통 이해를 형성한다.
- **스테이션마다 다른 채점자 사용(use different raters across stations)**을 권장한다.
- **통계적 보정(statistical corrections)**을 통해 체계적 오류를 수정한다.

Reason (이유):
② 채점자 편향(rater bias) — 성별(gender)이나 인종(race) 등 **무관한 특성(irrelevant characteristics)**이 점수에 영향을 미칠 수 있다.
Result (결과):
- 점수가 평가 대상의 실제 수행이 아닌, 성별·인종 등의 외적 요인에 따라 달라질 수 있다.
Remedy (해결책):
- **채점자 훈련(rater training)**을 강화한다.
- 편향이 지속되는 경우 **해당 채점자 배제(remove rater)**를 고려한다.

Reason (이유):
③ 비일관적 채점(inconsistent ratings) — 동일 채점자가 임의적이거나 불안정한 기준으로 점수를 주는 경우.
Result (결과):
- 주어진 채점자가 무작위적이고 불일관한(randomly inconsistent) 평가를 수행하면,
  전체 시스템에 **무작위 잡음(random noise)**이 추가된다.
Remedy (해결책):
- **채점자 훈련(rater training)**을 통해 일관성을 높인다.
- 개선되지 않을 경우, **채점자 교체(remove rater)**가 필요하다.

6. Source of Variance: Occasion (시행 시점 요인)

Reason (이유):
- 시점 특이적 요인(occasion-specific factors) — 즉,
  - 환경적 요인(environmental factors): 소음(noise), 온도(temperature) 등
  - 개인적 요인(individual factors): 질병(illness), 수면 부족(lack of sleep) 등
Result (결과):
- 수행(performance)이 해당 **시점 특이적 요인(occasion-specific factor)**의 영향을 받는다.
Remedy (해결책):
- 환경 요인 통제(control environmental factors) — 소음, 온도, 조명 등을 일정하게 유지한다.
- **여러 시점에서 시험 실시(test on several different occasions)**를 통해 시기적 편차를 완화한다.

Consequential Validity: Educational Impact (결과적 타당도: 교육적 영향)

평가(assessment)의 중요한 측면 중 하나는 학습에 미치는 영향(impact on learning)이다 (van der Vleuten & Schuwirth, 2005; Swanson & van der Vleuten, 2013; 또한 Chapter 17 참조).

표준화 환자 기반 OSCE(SP-based OSCE)를 기존의 객관식 필기시험(MCQ written tests) 체계에 추가하면, 학생들은 임상 경험(clinical experiences)에 더 많은 관심을 기울이고, 직접 관찰(direct observation)과 피드백(feedback)을 요청하는 빈도가 증가하는 것으로 나타났다 (Newble & Jaeger, 1983; Newble, 1988).
이와 마찬가지로, 시술술기(procedural skills)를 평가에 포함하면, 학생들은 해당 기술을 실습(practice)할 기회를 적극적으로 찾게 되며, 이는 긍정적인 교육적 결과(desirable educational outcome)로 이어진다.

그러나, SP 기반 평가에서 체크리스트(checklists)를 사용하는 경우 예기치 못한 부정적 결과(unintended consequences)가 발생할 수도 있다.

예를 들어, 체크리스트가 학생들에게 병력 항목(list of historical items)을 모두 질문하도록 요구하고, SP가 특정 질문을 받지 않으면 정보를 제공하지 않도록 훈련된 경우, 학생들은 환자 중심적(patient-centered) 접근 대신 닫힌 질문(closed-ended questions)을 무차별적으로 나열(shotgun fashion)하는 습관을 배우게 될 수 있다.
- 이 부정적 효과는, SP가 개방형 질문(open-ended questions)에 대해 보다 풍부하고 구체적인 답변(elaborated and informative responses)을 제공하도록 훈련함으로써 완화할 수 있다.
비슷하게, 전신 신체검사(head-to-toe screening exam)를 기반으로 신체진찰(physical exam)을 평가하면 (Yudkowsky et al., 2004), 학생들은 다양한 PE 동작(PE maneuvers)을 익히는 장점이 있다. 그러나 동시에, 이 과정에서 학생들이 진단 가설(diagnostic hypotheses)이나 신체소견의 의미(potential physical findings)를 고려하지 않고, 기계적으로 암기식 학습(rote learning)을 하게 되는 부작용이 나타날 수 있다.
- 이러한 문제는 가설 주도적 신체진찰(hypothesis-driven physical exam) 평가 방식을 사용함으로써 개선할 수 있다 (Yudkowsky et al., 2009; Nishigori et al., 2011). 이 접근은 단순 암기보다는 임상 추론(clinical reasoning) 능력의 발달을 촉진한다.

따라서, 교육자(educators)는 어떤 평가 방법을 사용하든, 그로 인한 긍정적·부정적 영향(both positive and negative consequences)의 가능성을 항상 인식해야 하며, 평가 경험이 건전한 학습 습관(good habits of learning)과 전문적 실천(practice)을 촉진하도록 설계되어야 한다.

Conclusion (결론)

수행평가(performance tests)는 피험자(examinee)가 특정 역량(competency) 또는 기술(skill)을 통제된 조건(controlled conditions) 하에서 직접 보여줄 기회(opportunity to demonstrate)를 제공한다. 표준화 환자(standardized patients)나 기타 시뮬레이션(simulations)을 활용하는 수행평가는, 실제 환자 상황에서 예측 불가능한 요소들을 통제(control)하거나 관리(manage)할 수 있게 한다. 사례(cases), 항목(items), 채점자(raters) 전반에 걸친 체계적 표집(systematic sampling)은

오차 요인(sources of error)을 최소화하고,
점수의 일반화 가능성(generalizability)과 타당도(validity)를 극대화하는 데 필수적이다.

이와 같은 체계적 표집(systematic sampling), 통제(control), 표준화(standardization)의 결합은, 수행평가(performance tests)를 임상기술(clinical skills)의 타당하고(valid), 공정하며(fair), 근거 있는(defensible) 평가 도구로 만들어준다.

[AHSE] 12 평가 포트폴리오 (Assessment Portfolios) (0)	2025.10.09
[AHSE] 10 직장 기반 평가 (WORKPLACE-BASED ASSESSMENT) (0)	2025.10.09
[AHSE] 8 구술시험 (Oral Examinations) (0)	2025.10.04
[AHPE] 7 서술형 및 선택형 문항의 고품질 작성법 (0)	2025.10.04
질적 연구 보고 지침: 가치 기반 접근법 (Qualitative Research in Psychology , 2025) (0)	2025.09.26

의대에서 교육하고 있습니다.