
8 구술시험 (Oral Examinations)
Dorthea Juul, Rachel Yudkowsky, and Ara Tekian
구술시험(oral examination), 혹은 비바 보체(viva voce)라고도 불리는 이 평가 방식은 응시자(examinee)와 한 명 이상의 평가자(examiner) 간의 대면(face-to-face) 상호작용을 특징으로 한다. 시험 문항은 환자 사례(patient case), 임상 차트(clinic chart), 또는 기타 임상 자료(clinical material)에 연계될 수 있으며, 시험 시간은 집중적인 5분간의 짧은 질의(focused five-minute probes)에서부터 최대 1시간에 이르는 포괄적인 ‘long case’까지 다양하다.
구술시험의 공식적인 목적(stated purpose)은 응시자의 사고 과정을 탐색(explore an examinee’s thinking)하여 비판적 추론(critical reasoning), 문제 해결(problem solving), 판단력(judgment), 윤리적 사고(ethics), 아이디어 표현 능력(ability to express ideas), 지식의 종합(synthesizing material), 그리고 즉흥적 사고력(thinking on one’s feet)과 같은 능력을 평가하는 것이다.
구술시험의 잠재적 장점(potential advantage)은 서술형 필기시험(constructed-response written examination)과 비교했을 때, 평가자가 응시자의 답변에 대해 추가 질문(follow-up probes)을 던질 수 있다는 점에 있다. 이를 통해 응시자의 사고를 더 깊이 탐색하거나(deepen), 도전을 확장(broaden the challenge)하여 응시자의 능력 한계(the limits of the examinee’s abilities)를 더 잘 파악할 수 있다.
반면 구술시험은 다음과 같은 목적으로는 사용해서는 안 된다.
- 지식(knowledge) 평가 — 이는 필기시험이 더 적합하다.
- 환자 접촉(patient encounter)의 요소 평가 — 이는 시뮬레이션(simulations), 수행평가(performance examinations), 혹은 직접 관찰(direct observational methods) 방식이 더 적합하다 (see Figure 8.1).

구술시험은 오랜 역사와 광범위한 사용에도 불구하고, 타당도(validity)를 위협하는 요소가 많고 비용(cost)이 상대적으로 높다는 문제가 있다. 이러한 이유로 구술시험의 유용성(usefulness)과 관련한 논란과 우려(controversy and concern)가 제기되어 왔다 (예: Hutchinson, Aitken, & Hayes, 2002; Yudkowsky, 2002; Wass, Wakeford, Neighbour, & van der Vleuten, 2003; Davis & Karunathilake, 2005; Burch, Norman, Schmidt, & van der Vleuten, 2008; Memon, Joughin, & Memon, 2010).
이 장에서는 이러한 위협 요인들을 검토하고, 구조화된 구술시험(structured oral examinations)을 통해 이를 해결할 수 있는 방안을 제시한다. 하지만 그 전에, 전 세계에서 구술시험이 어떻게 활용되고 있는지 몇 가지 예시를 살펴보겠다.
전 세계의 구술시험 (Oral Examinations Around the World)
구술시험은 학부(undergraduate)와 전공의(postgraduate) 수준 모두에서, 그리고 면허(licensure) 및 자격(certification) 시험에서도 활용되고 있다.
- 예를 들어, Hamdy, Prasad, Williams, and Salih (2003)은 직접 관찰 임상 접촉 시험(direct observation clinical encounter examination, DOCEE)이라는 방식을 소개하였다. 이는 아라비안 걸프 대학교(Arabian Gulf University)에서 의과대학생을 평가하는 데 사용된다.
실제 환자와의 접촉을 직접 관찰한 후, 평가자들은 응시자와 함께 사례를 논의하고 다음 네 가지 영역에서 평가를 수행한다:
- 자료 수집 능력(data-gathering skills)
- 추론 및 분석 능력(reasoning and analytical skills)
- 의사결정 능력(decision-making skills)
- 전문적 태도(professional attitude)
이 시험은 높은 신뢰도(reliability)와 평가자 간 일치도(inter-rater agreement)를 보여주었으며, 그 결과는 다른 임상 역량 지표들과 완전히 중복되지 않았다.
CanMEDS Assessment Tools Handbook에서도 구술시험을 현대적 평가 도구 중 하나로 포함하고 있으며, 이 형식이 의학 전문가(medical expert) 역할의 핵심 역량을 평가하는 데 적합하다고 밝히고 있다 (Bandiera, Sherbino, & Frank, 2006).
- Chou, Lockyer, Cole, and McLaughlin (2009)은 캐나다 전공의 프로그램 디렉터(Canadian residency program directors)를 대상으로 설문조사를 실시했는데, 86%가 구술시험을 활용한다고 응답했다. 또한, 구술시험은 In-Training Evaluation Report (ITER) 다음으로 가장 많이 사용되는 평가 형식이었다.
- Jefferies, Simmons, and Skidmore (2011)는 신생아/주산기 의학(neonatal/perinatal medicine) 세부 전공 교육과정에서 7가지 CanMEDS 역할(role) 모두를 평가하기 위한 구조화된 구술시험(structured oral examination)을 개발하였다. 이 시험은 7개 중 6개의 역할에서 적절한 심리측정학적 특성(reasonable psychometric properties)을 보였으며, 시행 가능성(feasibility)과 경제성(economical), 그리고 훈련생 및 교수진의 높은 수용도(acceptability)를 나타냈다.
Chart-stimulated recall (CSR)은 전통적 구술시험과 유사하게, 평가자와 응시자 간의 상호작용(interaction)을 포함하는 형식이다.
- 평가자는 응시자가 실제로 수행한 환자 진료 기록(documented patient encounter)을 바탕으로 질문을 제시하며, 이는 임상추론(clinical reasoning), 의사결정(decision-making), 기록능력(documentation skills), 환자 및 가족과의 의사소통(communication), 그리고 의료체계 이해(systems of care) 등 다양한 역량을 다룰 수 있다 (Philibert, 2018).
- 실질적으로, 평가자는 응시자에게 “생각을 소리 내어 말하게(thinking aloud)” 하여 자신의 행동의 근거(rationale for her actions)를 설명하도록 요구한다.
- CSR은 훈련생(trainees)뿐만 아니라 현직 의사(practicing physicians)의 평가와 피드백 제공에도 활용되어 왔다 (Al-Wassia et al., 2015; Goulet et al., 2007; Reddy et al., 2015).
미국에서는 1917년, 의료 전문의 자격위원회(medical specialty boards)가 설립되면서 구술시험이 도입되었다 (Mancall, 1995).
- 2018년 기준, 미국의 24개 전문의 자격위원회(American Board of Medical Specialties) 중 절반가량이 자격인증 과정에서 구술시험을 포함하고 있으며, 캐나다의 Royal College of Physicians and Surgeons, 미국과 캐나다의 치의학 자격위원회(dentistry boards), 영국의 Royal Colleges, 그리고 전 세계의 여러 인증기관에서도 유사한 방식이 사용된다.
- 미국의 보드 인증 과정에서 구술시험이 필수이기 때문에, 많은 전공의 과정(residency programs)에서는 모의 구술시험(mock oral examinations)을 시행한다. 이는 전공의의 학습 진전을 평가할 뿐 아니라, 실제 형식에 대한 노출을 제공함으로써 합격 가능성을 높이는 것(enhance the odds of passing)을 목표로 한다.
- 문헌에는 응급의학(emergency medicine, Schwaab et al., 2011), 안과(ophthalmology, Wiggins et al., 2008), 재활의학(physical medicine and rehabilitation, Engel et al., 2014), 영상의학(radiology, Strickland et al., 2017), 외과(surgery, Fingeret et al., 2016) 등의 사례가 보고되어 있다.
미국 마취과 전문의 자격위원회(American Board of Anesthesiology) 연구진은 구술시험이 자격인증 과정에 ‘부가적 가치(value added)’를 제공하는지를 직접적으로 검토하였다.
- 그 결과, 필기시험(MCQ)과 구술시험(oral examination)을 모두 통과한 의사는 오직 필기시험만 통과했거나 두 시험 모두 통과하지 못한 의사보다 의사 면허에 징계 조치(disciplinary action)가 취해질 위험이 낮았다(lower risk)는 사실을 발견하였다 (Zhou et al., 2017).
그들은 다음과 같은 결론을 내렸다.
“구술시험은 필기시험으로 완전히 평가되지 않는 영역(domains important to anesthesiologist performance that are not fully assessed in a written examination)을 평가한다는 가설을 지지한다.” (Zhou et al., 2017, p.1178)
구술시험의 타당도를 위협하는 요인들 (Threats to the Validity of Oral Examinations)
전통적인 비구조화 구술시험(traditional unstructured oral examinations)의 타당도(validity)에 대한 우려는 시간이 지나며 점차 필기시험(written tests), 시뮬레이션(simulations)과 표준화 환자(standardized patients)를 활용한 수행시험(performance tests), 그리고 구조화된 구술시험(structured oral examinations)으로 대체되는 흐름을 만들어냈다. 특히 중요 평가(high-stakes assessments)에서는 이러한 대체가 더욱 두드러진다.
이러한 변화의 이유를 이해하기 위해, 2장에서 논의된 두 가지 주요 타당도 위협 요소인 구성 개념의 과소 대표(construct underrepresentation, CU)와 구성 개념과 무관한 변산성(construct-irrelevant variance, CIV)에 대한 구술시험의 취약성을 살펴볼 필요가 있다.
구성 개념의 과소 대표 (Construct Underrepresentation, CU)
과소 대표(construct underrepresentation) 혹은 불충분 표집(undersampling)은 구술시험에서 매우 큰 도전 과제이다. 다른 어떤 평가와 마찬가지로, 구술시험도 평가 대상이 되는 영역(domain)을 체계적으로 표집(sampling)할 수 있도록 다양한 데이터 포인트(multiple data points)를 제공해야 한다.
임상 기술 평가에서 흔히 논의되는 내용 특이성(content specificity)(Elstein, Shulman, & Sprafka, 1978)은, 한 주제에서의 역량이 다른 주제에서의 역량으로 일반화(generalize)되기 어렵다는 것을 의미한다.
- 두세 개의 주제나 임상 시나리오(clinical scenarios)만으로 구성된 구술시험은 내용 영역(content domain)을 폭넓고 체계적으로 표집하기 어렵다 (Turnball, Danoff, & Norman, 1996; Norcini, 2002)
- 또한 한두 개의 시나리오만을 통해 문제 해결(problem solving)이나 임상 추론(clinical reasoning) 능력을 평가한다면, 그 능력을 충분히 표집했다고 보기 어렵다. 게다가,
- 구술시험이 실제 환자(real patients)와의 접촉(encounter)에 기반할 경우, 환자 가용성(patient availability), 협조 가능성(ability to cooperate), 시험에 대한 동의(consent) 등의 제약으로 평가 가능한 내용이 제한될 수 있다 (Yudkowsky, 2002).
- 학습자들이 서로 다른 환자를 대상으로 평가받는다면, 난이도(difficulty)나 내용(content) 면에서 시험이 동등하지 않아 공정성(fairness)과 응시자 간 비교 가능성(comparability)이 손상될 수 있다.
더 복잡하게 만드는 것은, 초기 연구들(Evans, Ingersoll, & Smith, 1966; McGuire, 1966)에서 구술시험의 질문이 필기시험 질문과 크게 다르지 않다는 점이 밝혀졌다는 것이다.
- Jayawickramarajah (1985)은 비구조화 구술시험(unstructured oral examination)의 질문 중 약 3분의 2(two-thirds)가 단순 기억 회상(simple recall) 문제였음을 발견했다.
- 이처럼 다루는 주제가 아무리 많더라도, 이러한 질문들은 구술시험이 초점을 맞춰야 할 고차원적 사고(higher-order thinking)를 충분히 유도하지 못한다.
구성 개념과 무관한 변산성 (Construct-Irrelevant Variance, CIV)
CIV(Construct-irrelevant variance)는 평가 대상 역량(competency)과 무관한 요인들로 인해 점수에 변동(score variance)이 생기는 현상을 말한다. 예를 들어, 공손함(politeness), 태도(demeanor), 복장(dress) 등과 같은 특성이 임상 추론(clinical reasoning) 평가에 영향을 미치는 경우가 있다 (Williams, Klamen, & McGaghie, 2003).
전통적인 구술시험에서는 한 학습자당 소수의 평가자(few examiners)가 참여하기 때문에, 평가자 간 엄격도 차이(hawk/dove effects)나 편향(bias effects)을 상쇄할 수 있는 인원이 부족하다. 그 결과 CIV는 매우 심각한 위협이 된다 (Linn & Zeppa, 1976; Schwiebert & Davis, 1993; Weingarten et al., 2000; Wass et al., 2003; Houston & Myford, 2009).
구술시험 점수에 영향을 미칠 수 있는 구성 개념과 무관한 요인들(construct-irrelevant variables)에는 다음과 같은 것들이 있다.
- 태도와 행동(mannerism and behavior)
- 언어와 유창성(language and fluency)
- 외모 및 매력(appearance and attractiveness) – 예: 복장이 전문적(professional)인지 여부
- 신체적 특이점(physical abnormalities or oddness)
- 불안/스트레스 수준(anxiety/stress level)
- 정서적 상태(emotional status) (Pokorny & Frazier, 1966; Yaphe & Street, 2003; Lunz & Bashook, 2008) 또한,
- 응시자의 자신감 수준(level of confidence)이 평가자가 부여하는 점수에 실제 답변 내용보다 더 큰 영향을 미칠 수 있다 (Thomas et al., 1993).
의사소통 스타일에 관한 흥미로운 실험 (Communication Style Experiment)
Rowland-Morin, Burchard, Garb, and Coe (1991)는 의사소통 스타일(communication style)이 미치는 영향을 실험적으로 탐구했다.
- 이들은 다섯 명의 배우(actors and actresses)를 훈련시켜, 동일한 학생(identical students)을 연기하되 직접적 vs. 간접적 시선 접촉(direct vs. indirect eye contact), 보통 vs. 느린 응답 속도(moderate vs. slower response rate) 등 몇 가지 변형을 주었다.
- 평가자들은 지식(knowledge of facts), 개념 이해(understands concepts), 문제 인식(identified problems), 관련 데이터 통합(integrates relevant data), 적절한 의사결정(makes proper decisions), 동기(motivation), 의사소통 능력(communicates effectively), 자원 활용 능력(resourcefulness), 진실성(integrity), 외모의 매력(attractive in appearance) 등 10개 항목으로 수행을 평가했다.
- 연구 결과, 평가자들은 학생들의 의사소통 기술(communication skills)에 강하게 영향을 받았다. 반대로, 평가자의 호의적/비호의적 표정(approving/disapproving facial expression) 또한 응시자의 반응을 촉진하거나 위축시켜(encourage or discourage responses) 추가적인 CIV를 야기할 수 있음이 밝혀졌다.
구조화된 구술시험 (Structured Oral Examinations)
위에서 제시한 CU와 CIV 문제들은 많은 교육자들로 하여금, 보다 객관적(objective)이고 통제 가능한(controllable) 평가 방법인 필기시험(written examinations)이나 시뮬레이션(simulations)을 사용하는 수행시험으로 구술시험을 대체하도록 이끌었다. 그러나, 아래에 기술된 것처럼 통제되고 표준화된 조건(controlled and standardized conditions)에서 시행될 경우, 구술시험은 종합적 평가 접근법(comprehensive assessment approach) 내에서 여전히 추가적 가치(added value)를 제공할 수 있다.
구조화된 구술시험(structured oral examination)은 CU와 CIV 문제를 완화하는 데 매우 효과적이다. 구조화된 구술시험에서는
- 모든 응시자가 동일하거나 동등한 과제(same or equivalent tasks)를 받고,
- 동일한 조건(same conditions)에서,
- 동일한 시간(same amount of time) 동안 평가받으며,
- 최대한 객관적(objective)으로 채점된다 (Guerin, 1995).
CU와 CIV 문제는 다음과 같은 방식으로 해결될 수 있다.
- 시험 블루프린트(blueprint)를 신중히 설계하여 여러 개의 구술시험 시리즈(series)를 구성한다.
- 질문(question)의 표준화(standardization)와 채점 루브릭(rubric)을 명확히 한다.
- 체계적인 훈련을 받은 다수의 평가자(multiple examiners with systematic training)를 활용한다.
- 공식적인 기준 설정(formal standard setting)과
- 체계적 품질 관리(systematic quality assurance)를 수행한다 (Table 8.1).

Table 8.1 구조화된 구술시험의 주요 특징 (Characteristics of a Structured Oral Examination)
• 복수의 시험 스테이션(Multiple examination “stations”)
→ 한 번의 시험이 여러 스테이션으로 구성되어, 다양한 상황과 내용을 폭넓게 표집함.
• 내용 블루프린트(Content blueprinting)
→ 평가 내용이 체계적이고 대표적으로 포함되도록 계획적 설계 수행.
• 초기 질문의 표준화(Standardization of initial questions)
→ 응시자 간 공정성을 위해 동일하거나 동등한 질문을 사용.
• 답변 채점을 위한 루브릭 활용(Rubrics to assist in scoring answers)
→ 객관적이고 일관된 채점을 위한 기준 제시.
• 복수의 평가자(Multiple examiners)
→ 평가자 편향을 줄이고 신뢰도를 높이기 위해 여러 명의 평가자를 배치.
• 평가자 훈련(Examiner training)
→ 평가자 간 일관성과 채점 정확도를 확보하기 위한 사전 교육 실시.
• 공식적 기준 설정(Formal standard setting)
→ 합격선(cut score)을 합의된 절차에 따라 객관적으로 결정.
• 품질 보증 활동(Quality assurance efforts)
→ 시험 전반의 신뢰도와 타당도를 지속적으로 점검하고 개선하는 활동 수행.
구조화된 구술시험(Structured oral examinations)은 표준화 환자시험(standardized patient examinations)이나 객관적 구조화 임상시험(OSCE)과 유사한 특성을 지닌다 (see Chapter 9). 이러한 수행시험과 마찬가지로, 시험 수나 스테이션 수(number of tests/stations)를 늘리면 신뢰도(reliability)/일반화 가능성(generalizability)이 크게 향상된다. 이는 내용 및 평가자 간 표집 확대(increased sampling)를 통해 CU를 감소시키고, 여러 시험과 평가자 간의 CIV를 상쇄(cancel out)하기 때문이다.
- Daelmans et al. (2001)은 내과(internal medicine) 실습(clerkship)에서 다중 구술시험(multiple oral examinations)의 효과를 연구했다. 이들은 하루 두 번의 30분 환자 기반 구술시험(patient-based oral)을 5일간 시행했으며, 10회(총 5시간) 정도의 시험이 일반화계수 0.80(generalizability of 0.80)을 달성하는 데 필요하다는 결과를 얻었다. 이는 신뢰도 높은 OSCE를 구성하는 데 필요한 사례 수 및 시간과 유사했다 (van der Vleuten & Swanson, 1990).
OSCE와 마찬가지로, 각 스테이션마다 한 명의 평가자(single examiner per station)를 배치하고 시험 수를 늘리는 것이, 평가자를 두 배로 늘리는 것보다 신뢰도 향상에 더 효과적이었다 (Swanson, Norman, & Linn, 1995; Norman, 2000; Wass et al., 2003).
다중 미니 인터뷰(Multiple Mini-Interview, MMI)는 Case Example 8.1에서 설명된 바와 같이, 의대 입시에서 사용되는 짧은 구조화 인터뷰 시리즈(short structured interviews)로서, 비구조화된 장시간 인터뷰(long unstructured interviews)를 대체하는 OSCE 유사 형식(OSCE-like format)이다.

연구에 따르면, MMI는 입학 결정(admissions decisions)을 내리는 데 있어 높은 타당도(validity)를 보였다 (Eva et al., 2009; Eva et al., 2012; Knorr & Hissbach, 2014). Eva et al. (2012)은 다음과 같이 보고했다.
“MMI 평가를 포함한 입시 과정에서 합격한 학생들은, 탈락한 학생들보다 캐나다 국가의사면허시험(Canadian national licensing examinations)에서 더 높은 점수를 받았다.” (p.2233)
시험 블루프린트(examination blueprint)는 평가 대상 영역(domain of interest)이 체계적이고 대표적으로 표집(systematically and representatively sampled)되도록 보장한다 (see Chapter 2; Haladyna, 2004; Lane, Raymond, & Haladyna, 2015).
명세표(specification table)를 사용하여
- 평가할 내용 영역(content area)과 기술(skills)을 식별하고,
- 해당 기술을 평가하기 위한 질문 예시(example questions)를 제공한다 (see Table 8.2).

Table 8.2 블루프린팅(Blueprinting) 및 운영(Logistical) 결정 요소
• 표집해야 할 내용 영역과 하위 영역(Content domain and subdomains to be sampled)
• 평가해야 할 기술 및 역량(Skills/competencies to be assessed)
• 의사결정(Decision-making)
• 환자 관리(Patient management)
• 진단적 해석(Diagnostic interpretations)
• 상황적 요인에 대한 민감성(Sensitivity to contextual issues)
• 의사소통 및 대인관계 기술(Communication and interpersonal skills)
• 기타(Other)
• 유발 자료(Trigger materials, 해당되는 경우)
• 실제 환자(Real patients)
• 시뮬레이션 환자(Simulated patients)
• 서면 시나리오(Written vignettes)
• 학습자의 실제 환자 차트(Learner’s own patient charts)
• 검사실 결과(Laboratory results)
• 평가자의 역할극(Examiner role play)
• 질문의 폭과 깊이(Breadth and depth of questions) 결정
운영상의 결정(Logistical Decisions):
• 구술시험 스테이션의 수(Number of oral examination stations)
• 각 스테이션의 시간/소요 기간(Time/duration of each station)
• 스테이션당 질문 또는 사례의 수(Number of questions/cases per station)
• 스테이션당 평가자 수(Number of examiners per station)
평가 목적에 따라, 다양한 유발 자료(trigger materials)를 활용해 임상적 맥락을 제공할 수 있다.
- 문서형/비디오형 사례(written/video cases) 외에도, 구술시험은 실제 혹은 시뮬레이션 환자(live or simulated patient)를 기반으로 할 수 있으며, OSCE 스테이션의 질문 탐침(probe)으로도 사용될 수 있다.
- 때로는 평가자(examiner)가 직접 환자 역할을 시뮬레이션(simulate a patient)하여 학습자의 자료 수집(data gathering) 또는 의사소통 능력(communication skills)을 평가할 수 있다.
- 미국 응급의학 전문의 위원회(American Board of Emergency Medicine)는 구술시험에 컴퓨터 기반 영상 및 자료(x-rays, ECGs 등)를 통합하여 활용한다 (Kowalenko et al., 2017).
- 미국 마취과 전문의 위원회(American Board of Anesthesiology)는 최근 일부 구술시험 스테이션을 표준화 환자(standardized patients) 기반으로 구성하기 시작했으며, 이는 미국 내 최초의 시도였다 (American Board of Anesthesiology, 2018).
- 또 다른 접근법으로는, 응시자의 실제 임상 사례(own cases)를 차트 자극 회상(chart-stimulated recall, CSR)의 유발 자료(trigger material)로 활용하는 것이다. 이를 통해 평가자는 학습자가 자신의 환자 진료 맥락에서 어떻게 임상 추론(clinical reasoning)과 의사결정 논리(decision-making rationale)를 수행했는지를 깊이 탐색할 수 있다 (Maatsch, 1981).
- 예를 들어, 미국 산부인과 전문의 위원회(American Board of Obstetrics and Gynecology, 2018)는 구술시험 여섯 섹션 중 세 섹션(three of six sections)을 응시자가 제출한 사례 목록(case list submitted by the candidate)에 기반해 구성한다.
Case Example 8.2에서는 CSR 기반 평가(CSR-based assessment)에 사용할 수 있는 초기 질문(initial questions)의 예시를 보여주며, 후속 질문(follow-up questions)은 평가자의 재량(discretion of the examiner)에 따라 조정될 수 있다.

채점과 기준 설정 (Scoring and Standard Setting)
구술시험(oral examinations)의 채점(scoring) 이슈는 수행시험(performance tests, Chapter 9)과 유사하다. 여기에는 수행을 포착·평정하기 위한 도구 설계(instrument design for capturing and rating a performance)와 점수 결합 절차(procedures for combining marks)가 포함된다.
- 체크리스트(checklists)와 평정척도(rating scales)는 평가자가 핵심 구성 요소(critical components)에 집중하도록 돕고,
- 행동지표 기반 채점 루브릭(behaviorally anchored scoring rubrics)은 평정의 표준화(standardize ratings)에 기여한다.
- 수행시험과 마찬가지로, 전반적 평정(global ratings)을 포함하면 전문가 평가자(expert examiners)의 고유한 판단과 경험(unique judgment and experience)을 반영하는 데 도움이 된다.
기준 설정(standard setting)은 구술시험에서 특히 어렵다. 개별 평가자(individual examiner)의 판단에만 맡기면 합격/불합격(pass/fail) 결정이 자의적(arbitrary)이고 변덕스러움(capricious)의 비판을 받기 쉽다. 여러 전문가(experts)의 판단을 공식적 기준 설정 절차(formal standard-setting exercise)를 통해 통합(pooling)하면 컷 점수(cut scores)의 방어 가능성(defensibility)과 공정성(fairness)을 확보할 수 있다.
- OSCE와 같은 수행시험에서 사용하는 어느 기준 설정 방법이든, 다수의 스테이션과 평가자(multiple stations and examiners)를 갖춘 구조화된 구술시험(structured oral examinations)에 응용(adapted)할 수 있다. 수험자 기반(examinee-based) 방법인 경계집단 방법(borderline group method)은 서로 다른 평가자가 서로 다른 수험자에게 질문하는 구술시험에서 특히 적합할 수 있다. 이 방법에서 평가자는 채점 루브릭(scoring rubric)에 따라 여러 관련 항목을 채점하거나 평정하고, 동시에 전반적 평정(global rating)(확실한 합격 definite pass—경계 합격 marginal pass—확실한 불합격 definite fail)을 부여한다. 최종 합격/불합격 컷 점수(final pass/fail cut score)는 “경계 합격(marginal pass)”으로 분류된 모든 수험자의 항목 평균 점수(mean item score)로 결정한다.
- Angoff 유형(Angoff-type) 방법에서는 개별 구술 스테이션 수준(station level) 또는 시험 전체 수준(test level)에서 기준을 설정할 수 있다. 엄선된 판단자(panel of carefully selected judges)가 각 문항 또는 스테이션을 검토하고, 경계 수험자(borderline examinee)—즉 실패의 문턱에 있는 수험자(on the cusp of failure)—가 해당 문항/스테이션을 성공적으로 수행할 확률(probability)을 표시한다. 스테이션 또는 시험의 최종 컷 점수(final cut score)는 문항/스테이션 전반의 확률 합(sum of the probabilities)이다. 기준 설정에 대한 보다 포괄적 논의는 6장(Chapter 6)을, 수행시험 맥락에서의 채점과 기준 설정 논의는 9장(Chapter 9)을 참고하라.
수험자 준비 (Preparation of the Examinee)
수험자(examinees)는 목표(objectives), 시험 환경(setting), 시험 시간(duration), 평가자 수(number of examiners), 그리고 전체 절차(overall procedures)에 대해 사전에 오리엔테이션(orientation)을 받아야 하며, 질문 유형(type of questions)과 합격 기준(criteria for passing)에 대해 안내받아야 한다. 가능하다면(특히 고부담(high-stakes) 시험의 경우) 연습 기회(opportunities to practice)를 제공하는 것이 바람직하다. 시험 주관 기관(testing organizations)은 이러한 정보를 자사 웹사이트(web sites)에 제공하는 경우가 많다. 예를 들어, 미국 응급의학 전문의 위원회(American Board of Emergency Medicine, 2018)는 상세한 서면 안내 외에 “Oral Examination Candidate Orientation” 비디오를 제공하고, 미국 외과 전문의 위원회(American Board of Surgery, 2018)는 “Your Guide to a Successful Oral Examination”이라는 제목의 영상을 제공한다.
평가자의 선발, 훈련, 평가 (Selection, Training, and Evaluation of the Examiners)
Wakeford, Southgate, and Wass (1995)는 평가자(examiners) 선발 기준으로 다음을 제시했다.
- 주제 분야의 적절한 지식과 기술(appropriate knowledge and skills in the subject matter), 그리고 “의학 실천과 보건의료 제공에 대한 접근이 전체 평가자 집단이 수용 가능한 범위 내에 있을 것(an approach to the practice of medicine and the delivery of health care that is within the limits of that acceptable to the examiners as a whole)”
- 효과적인 대인관계 기술(effective interpersonal skills)
- 우수한 팀 플레이어로서의 입증된 역량(demonstrated ability of a good team player)
- 일반진료(general practice)에의 현직 활동(being active in general practice)
적절한 평가자 선발은 어떤 구술시험에서도 핵심 단계(critical step)이지만, 구조화된 구술시험(structured oral examination)의 장점 중 하나는 체계적 훈련(systematic training)을 실시할 기회(opportunity)가 있다는 점이다. 평가자들은 자신이 시행할 사례(cases)를 검토하는 것 외에도, 상위 인지 분류(higher taxonomic levels)에서 개방형 질문(open-ended questions)을 제시하도록 훈련되어, 수험자의 문제 해결(problem-solving) 능력을 더 잘 평가할 수 있다 (Des Marchais & Jean, 1993).
- 준거 공유 훈련(frame-of-reference training)—평가자들이 수준별 모범 반응(exemplars of different levels of responses)을 가지고 평정 연습(practice rating)을 하는 방식—은 평가자를 평정척도(rating scale)에 정렬(calibrating examiners)하는 데 특히 효과적이다 (Bernardin & Buckley, 1981; 또한 Chapter 9).
- Newble, Hoare, and Sheldrake (1980)는 훈련이 일관성이 낮은(less-consistent) 평가자에게는 효과가 떨어지는 경향이 있음을 보였고, 비일관적(inconsistent) 평가자와 극단적으로 엄격하거나 관대한(extremely severe or lenient) 평정자를 평가자 풀에서 제외(remove)할 것을 제안했다. Jones (2016)는 미국 외과 전문의 위원회(American Board of Surgery)가 자사 평가자에게 제공하는 평정 행동에 대한 피드백(feedback on rating behavior)의 유형을 설명한다.
체계적 엄격성/관대성(systematic severity and leniency)(단, 비일관성 inconsistency 는 아님)은 통계적 조정(statistical adjustment)을 통해서도 보정할 수 있다.
- Raymond, Webb, and Houston (1991) 및 Raymond, Harik, and Clauser (2011)는 일반 최소제곱(ordinary least squares, OLS) 회귀에 기반한 비교적 단순한 통계 절차(simple statistical procedure)를 사용해 관대함/엄격함의 오류(errors in leniency and stringency)를 식별·보정했고, 그 결과 합격률(pass rate) 6% 변화가 나타났다.
- 고부담(high-stakes) 시험에서는 다면 라쉬 측정(many-facet Rasch measurement)과 같은 더 복잡한 통계 방법(more complex statistical methods)이 평정자 오류(rater errors)를 식별·보정하는 데 도움이 된다 (Myford & Wolfe, 2003; Jones, 2012; 19장(Chapter 19), 문항반응이론 Item Response Theory 참조).
평가자의 채점 행동(scoring behavior) 추적과 더불어, 선임 평가자(more senior examiners)가 동료를 멘토링(mentor)하고 평가(evaluate)하도록 배정하는 경우가 흔하다. Chiodo (2016)와 Harman (2016)은 각 위원회에서 평가자 모니터링(monitor examiners)에 사용하는 양식(forms)의 예시를 제공한다.
Case Example 8.3에서는 미국 응급의학 전문의 위원회(ABEM) 구술 자격시험(Oral Certification Examination)을 위한 평가자 훈련(examiner training)을 설명하며, Table 8.3에는 평가자 훈련 단계(examiner training steps)가 요약되어 있다.


Table 8.3 구조화된 구술시험(Structured Oral Examination)을 위한 평가자 훈련 단계 (Steps in Examiner Training for a Structured Oral Examination)
- 평가자 선발(Select examiners)
→ 평가 대상 영역(domain)에 대한 **전문지식(knowledge)을 갖추고, 평가받을 학습자 수준(level of learners)(예: 간호대학 2학년 학생 등)**에 익숙하며, **우수한 의사소통 능력(good communication skills)**을 가진 평가자를 선발한다. - 시험 오리엔테이션(Orient examiners)
→ 평가자에게 시험 목적(purpose), 절차(procedure), 그리고 **결과가 갖는 의미 및 중요성(consequences/stakes)**을 안내한다. - 평가 역량 및 질문 유형 설명(Explain competencies and question types)
→ 평가할 역량(competencies), 사용할 질문 유형(types of questions), 그리고 필요한 경우 **유발 자료(trigger material)**의 활용 방법을 설명한다.
→ 평가자들이 **고차 사고력(higher-order thinking)**을 평가할 수 있는 **질문 제시 연습(practice asking higher-order questions)**을 하도록 한다. - 평정 및 문서화 절차 검토(Review and rehearse rating/documentation)
→ **채점과 기록 절차(rating and documentation procedures)**를 함께 검토하고 리허설한다. - 준거 공유 훈련(Frame-of-reference training)
→ 가능하다면 **준거 공유 훈련(frame-of-reference training)**을 제공하여 평가자들이 **다양한 수준의 반응(different levels of responses)**에 대해 일관되게 **채점 기준을 보정(calibrate examiners to scoring)**하도록 한다. - 신규 평가자 관찰 및 실습(Observation and practice for new examiners)
→ 신규 평가자가 **경험 많은 평가자(experienced examiner)**를 **관찰(observe)**하거나, **모의 구술시험(simulated oral examination)**에 참여하여 실습하도록 한다. - 신규 평가자 피드백 및 승인(Feedback and selection)
→ 신규 평가자를 **관찰(observe)**한 후 **피드백(feedback)**을 제공하고, 평가 결과에 따라 승인(invited) 또는 **배제(rejected)**를 결정한다.
→ **비일관적(inconsistent)**이거나 **채점 경향이 극단적(very lenient or very severe)**인 평가자는 평가자로 참여할 수 없다(should not be allowed to serve as examiners). - 지속적 조정 및 정밀 보정(Ongoing calibration/fine-tuning)
→ 특히 **고위험 평가(high-stakes examinations)**의 경우, **평가자 간 채점의 일관성(consistency)**을 유지하기 위한 **지속적인 보정(calibration)**과 **정밀 조정(fine-tuning)**을 실시한다.
품질 보증 (Quality Assurance)
품질 보증(Quality assurance, QA) 활동은 다음 두 가지 초점에 맞출 수 있다.
- 시험의 타당도(validity)를 위협하는 요인을 예방(prevent), 점검(check), 개선(remedy)하는 것 (Table 8.4),
- 그리고 2장에서 설명한 다섯 가지 타당도 근거(five types of validity evidence)를 확보하는 것이다.
이를 위해 수행할 수 있는 구체적인 활동에는 다음이 포함된다.
- 내용 타당도(content validity) 확보를 위한 시험 블루프린트(blueprint) 검토,
- 평가자가 질문(question), 채점(scoring), 시험 운영(managing the examination)과 관련한 시행 지침(implementation guidelines)을 충실히 준수했는지 점검,
- 평가자 간 신뢰도(inter-rater reliability)나 일반화 계수(generalizability estimates) 등의 신뢰도 지표(reliability indicators) 확보,
- 구술시험 점수(scores on the oral examination)와 다른 평가 결과(other assessments) 간의 관계를 탐색,
- 그리고 시험에서 설정한 컷 점수 기준(cut score standards)이 어떠한 결과(consequences)를 초래하는지 평가하는 것이다.

Table 8.4 구술시험(Oral Examinations)의 타당도 위협 요인(Threats to Validity)과 대응 방안(Remedy)
1. 구성 개념의 과소 대표 (Construct Underrepresentation, CU)
문제(Problem):
- 평가 영역(domain)을 충분히 표집할 만큼 질문 수가 적음(Too few questions to sample domain adequately)
- 대표성 없는 표집(Unrepresentative sampling of domain)
- 저차원 질문(Lower order questions) — 질문이 평가하려는 역량(competencies)과 불일치(mismatch)
- 평가자 수 부족(Too few independent examiners)
해결 방안(Remedy):
- 복수의 사례 또는 스테이션 사용(Use multiple cases/stations)
- 시험이 영역을 체계적으로 표집하도록 블루프린트 설계(Blueprint to be sure examinations systematically sample the domain)
- 평가자 훈련(Train examiners) — 고차 사고를 유도하는 질문(higher order questions)을 사용하도록 훈련
- 질문 표준화(Standardize the questions)
- 복수의 평가자 배치(Use multiple examiners)
- 스테이션당 한 명의 평가자 지정(Use one examiner per station)
2. 구성 개념과 무관한 변산성 (Construct-Irrelevant Variance, CIV)
문제(Problem):
- 부적절하거나 잘못된 질문(Flawed or inappropriate questions)
- 부적절한 사례나 제시 자료(case scenarios or other prompts)
- 평가자 편향(Examiner bias)
- 체계적 평정자 오류(Systematic rater error)
→ 후광 효과(halo), 엄격성(severity), 관대성(leniency), 중앙 경향(central tendency) - 질문 난이도의 부적절성(Question difficulty inappropriate) — 너무 쉽거나(too easy) 너무 어려움(too hard)
- 응시자의 허세나 블러핑(Bluffing by examinees)
- 언어적/문화적 편향(Language/cultural bias)
- 방어 불가능한 합격 기준(Indefensible passing score methods)
해결 방안(Remedy):
- 평가자 훈련(Train examiners)
- 질문 표준화(Standardize questions)
- 사례 및 자극 문항의 사전 시험(Pilot test cases and prompts)
- 채점 루브릭 제공(Provide scoring rubric)
- 루브릭 사용 훈련(Train examiners to use rubric)
- 준거 공유 훈련(Frame-of-reference training for examiners)
- 질문 난이도 조정 및 검토(Train examiners / Standardize questions)
- 응시자 블러핑에 대비한 평가자 훈련(Train examiners to detect bluffing)
- 언어·문화적 편향 검토 및 수정(Review and revise questions for language/cultural bias)
- **공식적 기준 설정 절차(Formal standard-setting procedures)**를 활용해 합격 기준의 공정성과 타당성을 보장
3. 신뢰도 지표 (Reliability Indicators)
구술시험의 신뢰도를 확보하기 위해 다음의 지표를 활용한다.
- 일반화 가능성(Generalizability) — 시험 결과가 다양한 상황과 평가자에 걸쳐 일관되게 유지되는가
- 평가자 간 신뢰도(Inter-rater reliability) — 서로 다른 평가자 간 채점 일치 정도
- 평가자 일관성(Rater consistency) — 동일 평가자가 반복적으로 일관된 채점을 수행하는가
시험 이후 절차 (After the Examination)
구술시험(oral examination)을 설계할 때는, 다른 평가 방법들과 마찬가지로 시험 이후(post-examination) 절차를 함께 고려해야 한다. 여기에는 다음과 같은 사항이 포함된다.
- 시험 결과를 수험자 및 이해관계자(examinees and stakeholders)에게 공개·전달(disseminating results)하는 방식,
- 불합격자(failing candidates) 또는 경계 점수 수험자(marginal candidates)를 처리하는 절차,
- 그리고 이의 제기(dispute)가 있을 경우 점수를 재검토(review disputed scores)하기 위한 판정 절차(adjudication process)를 마련하는 것이다.
비용 (Cost)
구술시험에는 다양한 형태의 비용(expenses)이 수반된다. 예를 들어,
- 시험 준비 및 제작(examination preparation and production) — 문항/사례(item/case) 개발 및 채점 포함,
- 평가자 훈련(training) 및 출장비(travel),
- 표준화 환자(standardized patients) 또는 실제 환자(real patients)를 활용하는 경우의 추가 보상(reimbursements),
- 그리고 장소/시설 사용 비용(venue/site expenses) 등이 있다.
특히 구조화된 구술시험(structured oral examination)은 운영(logistics)이 복잡하고 비용이 많이 들지만, 다음과 같은 중요한 질문에 “그렇다(Yes)”라고 답할 수 있다면 그 비용과 노력을 들일 가치가 있다.
“우리는 측정하려던 것을 실제로 측정하고 있는가?(Are we measuring what we intended to measure?)”
“결과는 신뢰할 만한가?(Are the results reliable?)”
“시험은 시간과 비용을 투자할 가치가 있는가?(Is the examination worth the investment in time and money?)”
요약 (Summary)
구술시험(oral examinations)은 여전히 논쟁(debate)과 이견(dispute)의 대상이지만, 적절하게 설계·시행(properly implemented)될 경우, 평가 도구 상자(assessment toolbox) 내에서 신뢰할 수 있는 구성 요소(credible component)로 기능할 수 있다.
- 저위험·형성적 평가(low-stakes, formative assessment) 맥락에서, 비구조화 구술시험(unstructured oral examination)은 교수자가 학습자와 대화를 나누고(engage in a conversation), 그들의 사고 과정을 이해(understand their thinking)하며, 즉각적 피드백(immediate feedback)을 제공할 수 있는 소중한 기회(invaluable opportunity)를 제공한다.
- 반대로 고위험 평가(high-stakes settings)에서는, 구조화되고 구조화 임상시험(OSCE)-유사한 구술시험(structured, OSCE-like oral examination)이 의사결정(decision-making), 윤리적 추론(ethical reasoning), 기타 “숨은(hidden)” 역량(skills)을 심층적으로 탐색(in-depth probing)할 수 있는 독특한 기회(unique opportunity)를 제공한다.
구조화된 구술시험 설계 시, 다음의 근거 기반(evidence-based) 권고사항을 따를 것:
- • 여러 사례/스테이션(multiple cases/stations)과 여러 평가자(multiple examiners)를 사용할 것.
- • 질문 개발(question development)을 안내하기 위해 블루프린트(blueprint)를 활용할 것.
- • 구조화된 채점 체계(structured scoring system)를 사용할 것.
- • 일관성(consistency) 있고 훈련된 평가자(well-trained examiners)를 선발할 것.
- • 시험 과정의 모든 단계—준비(preparation), 제작(production), 훈련(training), 시행(implementation), 평가(evaluation), 피드백(feedback)—을 모니터링(monitor)할 것.
- • 구술시험을 종합적 평가체계(comprehensive assessment system)의 하나의 구성 요소(one component)로 활용할 것.
'논문 읽기 (with AI)' 카테고리의 다른 글
| [AHSE] 10 직장 기반 평가 (WORKPLACE-BASED ASSESSMENT) (0) | 2025.10.09 |
|---|---|
| [AHSE] 9 수행평가 / 퍼포먼스 테스트 (Performance Tests) (0) | 2025.10.04 |
| [AHPE] 7 서술형 및 선택형 문항의 고품질 작성법 (0) | 2025.10.04 |
| 질적 연구 보고 지침: 가치 기반 접근법 (Qualitative Research in Psychology , 2025) (0) | 2025.09.26 |
| 말이 통하지 않을 때: 질적 인터뷰를 위한 혁신적 유도 기법에 대한 통합적 검토 (Med Educ. 2025) (0) | 2025.09.26 |