[AHPE] 6 표준 설정 (STANDARD SETTING)

Meded 2025. 9. 16. 15:40

2025. 9. 16. 15:40

6 표준 설정 (STANDARD SETTING)
Rachel Yudkowsky, Steven M. Downing, and Ara Tekian

서론 (INTRODUCTION)

표준(standard)이란 특정 목적에 비추어 볼 때 특정 점수(score)나 성과(performance)가 충분히 좋은지 여부를 결정하는 잣대입니다(Norcini & Guille, 2002).
• "표준 설정(standard setting)"이라는 용어는 '통과(pass) | 불합격(fail)', '우수(honors) | 능숙(proficient) | 교정 필요(needs remediation)'와 같은 범주(categories) 간의 경계(boundaries)를 설정하는 데 사용되는 과정을 가리킵니다.
• 표준 설정은 "시험 결과에 의미를 부여하는 핵심 과제이며, 따라서 타당성 주장(validity argument)의 중심에 있습니다"(Dylan, 1996).

보건 전문직 교육(health professions education)에서 시험을 위한 신뢰할 수 있고(credible), 옹호 가능하며(defensible), 수용 가능한(acceptable) 합격 점수(passing score) 또는 합격선(cut off score)을 설정하는 것은 어려울 수 있습니다(Norcini & Shea, 1997; Norcini & Guille, 2002; Friedman, 2000; Chapman, 2014; Karam, Park, Tekian, & Youssef, 2018). 표준 설정에 대한 방대한 문헌이 존재하며, 그중 상당수는 초·중·고(K–12) 교육 환경에서 사용되는 선택형 문항 시험(selected-response tests)이나 수행 능력 시험(performance tests)에 적합한 경험적 합격 점수 연구(empirical passing score studies) 및 다양한 표준 설정 방법(standard-setting methods)의 비교에 집중되어 있습니다(Cizek, Bunch, & Koons, 2004; Cizek, 2006, 2012; Norcini, 2003; Livingston & Zieky, 1982).

본 장에서는 표준 설정과 관련된 주요 이슈와 결정 사항들을 논의하고, 결과로 도출된 표준의 질과 그 영향을 평가하는 방법들을 밝히며, 하위 시험 간의 표준 결합(combining standards across subtests), 수행 능력 시험을 위한 표준 설정(setting standards for performance tests), 복수 범주 합격선(multiple-category cut scores)과 같은 특별한 상황들을 다룰 것입니다. 장의 말미에는 보건 전문직 분야에서 흔히 사용되는 7가지 표준 설정 방법, 즉 Angoff, Ebel, Hofstee, Borderline group, Contrasting groups, Body of work, Patient safety methods를 수행하기 위한 상세한 지침을 제공합니다.

합격선(cut score)은 정책(policy)과 가치(values)에 대한 조작적 진술(operational statement)입니다.

모든 표준 설정 방법은 판단(judgment)을 필요로 합니다. 표준 설정 활동의 목적은 특정 목적에 대해 "얼마나 충분한가(how much is enough)"라는 정책적 결정을 내리는 데 정보를 제공하기 위해 전문가 심사위원(expert judges)의 의견을 포착하는 것입니다.
시험에 대한 표준을 설정하는 데 있어 단일한 '정답'이나 '최고의' 방법은 존재하지 않습니다.
마찬가지로 발견해야 할 단일한 '정답' 또는 '진정한(true)' 합격선도 없습니다.
모든 표준은 어느 정도 자의적(arbitrary)입니다. 따라서 표준 설정은 합격선이 변덕스럽지 않고(not capricious), 합리적이며(reasonable), 옹호 가능하고(defensible), 공정하도록(fair) 보장하기 위해 따라야 할 절차인 "적법 절차(due process)"로 보는 것이 가장 좋습니다.

표준은 상대적 표준(relative standards, norm-based)과 절대적 표준(absolute standards, criterion-based)으로 분류할 수 있습니다.

상대적 표준은 잘 정의된 특정 집단의 성과에 대비하여 통과 및 불합격 응시자 그룹을 식별합니다.
- 합격선 또는 표준은 시험을 치르는 특정 집단의 성과에 따라 달라집니다. 예를 들어, 학급의 하위 5%이거나, 초시 응시자 평균 점수에서 2표준편차(standard deviations) 아래에 해당하는 경우입니다.
- 상대적 표준은 제한된 자원(limited resources)을 배분하기 위해 학습자들을 순위별로 배열(rank ordering)할 필요가 있을 때 가장 적합합니다. 예를 들어,
  - 외과 임상 실습(surgery clerkship) 학생 중 상위 10%에게 "우수(honors)" 성적을 부여하거나,
  - 치과 대학 입학을 위해 최고 점수 응시자를 선발하거나,
  - 훈련의 다음 단계로 진급하기 전에 보충 지도(remedial tutoring)가 가장 필요한 약대 학생을 식별하는 경우입니다.
- 합격선의 위치는 사용 가능한 자원에 따라 달라집니다.
절대적 또는 준거 기반 표준(Absolute or criterion-based standards)은 집단의 성과에 의존하지 않는 사전 결정된 역량 수준(predetermined level of competency)을 기반으로 합니다.
- 예를 들어, 70%의 점수입니다. 절대적 표준은 바람직한 숙달 수준(desired level of mastery)을 반영합니다. 모든 학생이 통과하든 아무도 통과하지 못하든 기준(criterion)은 동일하게 유지됩니다.
- 보건 전문직 교육에서 대부분의 시험 목적은 지식이나 기술 영역의 숙달을 확인하는 것이므로, 지난 수십 년 동안 미국의 대부분의 전문 대학들은 절대적 표준의 사용으로 전환했습니다.

표준 설정을 위한 8단계 (EIGHT STEPS FOR STANDARD SETTING)

Hambleton과 Pitoniak(2006)은 절대적 또는 준거 기반 표준(absolute or criterion-based standards)을 설정하는 과정을 여섯 가지 중요한 단계로 나눕니다.

방법 선택(selecting a method)
성과 범주 기술서 준비(preparing performance category descriptions)
표준 설정 패널 구성(forming a standard-setting panel)
패널리스트 훈련(training panelists)
패널리스트에게 피드백 제공(providing feedback to panelists)
과정의 타당성 평가 및 문서화(evaluating and documenting the validity of the process)
본 장에서는 이들의 방식을 수정하여, 여덟 단계(Box 6.1 참고)를 포함하도록 약간 더 정교하게 다듬었습니다. 우리는 이들 각 단계에 관련된 주요 이슈들을 차례로 논의할 것입니다.

1단계: 표준 설정 방법 선택 (Step 1: Select a Standard-Setting Method)

합격 점수에는 "황금 표준(gold standard)"이란 없습니다. 발견되기를 기다리고 있는 완벽한 합격 점수는 "저 밖에" 존재하지 않습니다. 오히려, 합격 점수는 체계적이고(systematic), 재현 가능하며(reproducible), 절대적이고(absolute), 편향되지 않은(unbiased) 절차를 따른 내용 전문가 심사위원(content expert judges) 그룹이 결정하는 그 무엇이든 될 수 있습니다. 옹호 가능하고(defensible) 수용 가능한(acceptable) 표준의 핵심은 전문가의 판단(expert judgments)을 수집하기 위한 신중하고 체계적인 방법, 가급적이면 연구 증거(research evidence)에 기반한 방법을 실행하는 것입니다.

다른 표준 설정 방법들은 다른 합격 점수를 만들어냅니다.
동일한 절차를 정확히 따르더라도, 다른 심사위원 그룹은 동일한 평가에 대해 서로 다른 합격 점수를 도출할 수도 있습니다.

이러한 사실들은 완벽하거나 "황금 표준" 합격 점수를 발견하기를 기대하는 경우에만 문제가 됩니다. 과정(Process)이 핵심 개념이며, 모든 합격 점수는 본질적으로 주관적인(subjective) 정책 결정(policy decisions)임을 기억해야 합니다(Ebel, 1972; Norcini, 2003).

Box 6.1 표준 설정을 위한 8단계
• 1단계: 표준 설정 방법 선택
• 2단계: 심사위원 선택
• 3단계: 성과 범주 기술서 준비
• 4단계: 심사위원 훈련
• 5단계: 평점 또는 판단 수집
• 6단계: 피드백 제공 및 토론 촉진
• 7단계: 표준 설정 과정 평가
• 8단계: 최종 의사결정자에게 결과, 영향, 타당성 증거 제공
출처: Hambleton and Pitoniak (2006) 수정

표준 설정 방법은 크게 시험 기반(test-based) 또는 응시자 기반(examinee-based)으로 분류할 수 있습니다.

시험 기반 방법(test-based methods)은 본 장의 말미에서 설명하는 Angoff(Angoff, 1971) 및 Ebel(Ebel, 1972) 방법과 같이, 심사위원들이 시험 항목(test items)이나 과제(prompts)를 검토하고 경계선 응시자(borderline examinee)(두 범주 사이의 경계에 있는 응시자)가 특정 과제에서 보여줄 것으로 예상되는 성과 수준을 추정합니다.
- 환자 안전 방법(patient safety method)(Yudkowsky, Tumuluru, Casey, Herlich, & Ledonne, 2014)은 유사하게 수행 능력 시험 항목(performance test items) (예: 체크리스트 항목)을 검토하여 환자 안전 또는 기타 중요한 목표를 달성하기 위해 반드시 올바르게 수행되어야 하는 항목들을 결정합니다.
응시자 기반 방법(examinee-based methods)은 경계선 그룹(borderline group)(Livingston 1982), 대조 그룹(contrasting groups)(Livingston & Zieky, 1982; Burrows, Bingham, & Brailovsky, 1999; Clauser & Clyman, 1994), 그리고 작업물(body of work)(Kingston & Tiemann, 2012) 방법으로 대표되며, 심사위원들이 직접 관찰, 행동의 대리물(proxies)인 수행 능력 체크리스트(performance checklists) 검토, 또는 표준화된 환자(standardized patient) 응대 후 작성된 차트 노트(chart notes)와 같은 응시자 산출물(products) 검토를 통해 개별 응시자의 성과를 범주화합니다. 이 방법들은 최종 합격선을 생성하기 위해 서로 다른 성과 범주(performance categories)에 속한 응시자들의 점수를 활용합니다.
마지막으로, Hofstee 방법(Hofstee method)(Hofstee, 1983)과 같은 절충적 방법(compromise methods)은 절대적 표준과 상대적 표준의 특징을 결합하여, 심사위원들에게 수용 가능한 합격 점수(acceptable passing scores)와 수용 가능한 불합격률(acceptable fail rates)을 모두 추정하도록 요청합니다.

본 장의 말미에서 우리는 Angoff, Ebel, Hofstee, 경계선 그룹, 대조 그룹, 작업물, 환자 안전 등 이 7가지 방법을 설명할 것인데, 이들 모두는 보건 전문직 시험을 위한 옹호 가능하고(defensible) 실용적인(practical) 표준을 설정하는 데 잠재적으로 유용합니다.
방법의 선택은 다음 요소들에 달려 있습니다.

평가의 목적(the purpose of the assessment)
서로 다른 성과 범주에 속한 응시자들에 대한 원하는 추론(the desired inferences regarding examinees in different performance categories)
평가 자료의 유형(type of assessment data)
실현 가능성(feasibility)
사용 가능한 자원(resources available)
주어진 현장에서의 의사결정자 선호도(the preferences of decision makers at a given site)

2단계: 심사위원 선택 (Step 2: Select Judges)

여기서 논의되는 절대적 방법(absolute methods)의 경우, 내용 전문가 심사위원(content expert judges)의 선택이 매우 중요합니다. 설정된 합격 점수(passing scores)의 신뢰성(credibility)은 심사위원과 사용된 체계적인 방법의 건전성(soundness)에 달려있습니다(Norcini & Shea, 1997; Norcini, 2003).

내용 전문성(Content expertise)은 표준 설정 활동을 위해 선택된 심사위원의 가장 중요한 특징입니다.
또한 심사위원들은 대상 집단(target population)을 잘 알고, 심사위원으로서의 자신들의 과업과 성과 평가에 사용된 내용 자료(content materials)를 이해하며, 공정하고(fair), 열린 마음을 가지고(open-minded), 지시를 따를 의지가 있어야 하고, 가능한 한 편견 없이(unbiased) 임해야 하며, 과업에 온전히 집중할 의지와 능력이 있어야 합니다.
일부 환경에서는 인종, 성별, 지역, 하위 전문 분야(subspecialization)와 같은 인구통계학적 변수(demographic variables)와 관련하여 심사위원 패널의 균형을 맞추는 것이 중요할 수 있습니다.
대부분의 방법과 환경에서,
- 5~6명의 독립적인 심사위원(independent judges)이 최소 인원으로 고려될 수 있으며,
- 10~12명의 심사위원은 최대 인원입니다.

심사위원 선정, 사용되는 심사위원 수, 표준 설정 활동 장소, 그리고 절차가 실행되는 정확한 방식에는 실질적인 고려사항(practical considerations)이 중요한 역할을 하는 경우가 많습니다.

3단계: 성과 범주 기술서 준비 (Step 3: Prepare Descriptions of Performance Categories)

전공의(residents)로서 지도받는 수련(supervised practice)을 받을 준비가 된 졸업 예정 의대생들의 행동은 무엇으로 특징지어집니까?
소아과 순환 근무(pediatric rotation)의 맥락에서, "고급(advanced)" 수준의 간호 학생은 "능숙(proficient)" 학생과 어떻게 다릅니까?

성과 범주(Performance categories)는 주어진 범주에 포함되기 위해 요구되는 최소한으로 수용 가능한 행동(minimally acceptable behaviors)에 대한 서술적 기술(narrative descriptions)입니다. 합격선(cut points)은 시험 점수 분포에서 이들 성과 범주 간의 경계를 나타냅니다. 성과 범주 기술서는 합격선을 설정할 심사위원들과 동일한 사람들에 의해 작성될 수도 있고, 커리큘럼과 응시자들에게 익숙한 다른 그룹의 사람들에 의해 작성될 수도 있습니다.

4단계: 심사위원 훈련 (Step 4: Train Judges)

모든 표준 설정 심사위원이 합격 점수(passing scores)와 합격률(passing rates) 간의 관계를 완전히 이해하는 것이 필수적입니다.

합격 점수(passing score)는 성과 시험을 통과하는 데 필요한 점수로, 종종 정답률(percent-correct score)로 표현됩니다.
격률(passing rate)은 주어진 합격 점수에서 시험에 합격하는 학생의 백분율입니다 (때로는 불합격률(failure rate)로 표현되기도 합니다).

합격 점수가 높을수록 합격률은 낮아집니다. 만약 표준 설정 심사위원들이 이 두 통계치를 혼동한다면, 그들의 판단은 합격 점수를 혼란스럽게 만들고 표준의 타당성(validity)에 위협이 될 것입니다.

대부분의 절대적 표준 설정 방법은 경계선 학생 또는 응시자(borderline or minimally competent student or examinee)라는 개념을 중심으로 돌아갑니다. 이 개념은 절대적 합격 점수에 대한 Angoff의 초기 연구에서 비롯되었습니다(Angoff, 1971). 합격자(those who pass)와 불합격자(those who fail)를 구분하는 합격선은 정확히 다음 두 그룹을 분리하는 지점에 해당합니다.

합격하기에 딱 충분한 만큼 알고 있거나 (할 수 있는) 사람들
합격하기에 충분하지 않게 알고 있거나 (할 수 없는) 사람들

따라서 경계선 응시자(borderline examinee)는 두 성과 범주(performance categories) 사이의 경계 바로 위에 있는 사람입니다(그림 6.1 참조). 경계선 응시자의 정의는 간단하지만, 이 정의를 실질화하는 것(operationalizing)은 어려울 수 있습니다.

심사위원들에게 그들이 알고 있는 경계선 학생들을 묘사하고, 그들이 명확하게 합격하는 학생 또는 명확하게 불합격하는 학생(또는 경계의 양쪽에 있는 다른 범주)과 어떻게 다른지 설명하도록 요청하는 것은 "경계선"이라는 것이 무엇을 의미하는지에 대한 명확한 이해를 부여하고, 표준 설정 작업을 시작하기 전에 그룹 합의(group consensus)를 촉진합니다.

5단계: 평점 또는 판단 수집 (Step 5: Collect Ratings or Judgments)

각각의 표준 설정 방법은 요청하는 특정 판단과 이를 수집하는 방식이 다양합니다. 본 장의 말미에 제공된 각 방법에 대한 자세한 지침을 참고하십시오.

얻어진 표준의 타당성(validity)에 대한 "응답 과정(response process)" 유형의 증거를 제공하기 위해서는 수집 과정의 품질 관리(Quality control) 및 문서화(documentation)가 필수적입니다. 본 장에서 설명된 절차들은 각 방법을 실행하는 특정 방식의 예시일 뿐입니다.
모든 상황은 고유하며, 일부 환경에서는 이러한 표준 설정 절차에 사소하거나(minor) 중대한(major) 수정이 필요할 수 있습니다.

6단계: 피드백 제공 및 토론 촉진 (Step 6: Provide Feedback and Facilitate Discussion)

많은 시험 기반 방법(test-based methods)은 다음과 같은 반복적인 절차(iterative procedure)를 포함합니다.

극단적인 평점(outlier ratings)이 논의되고 정당화됩니다(justified).
성과 데이터(performance data)가 제공될 수 있습니다.
(해당 단계의 판단에 기반한) 불합격률(failure rates)과 같은 결과(consequences)가 공개될 수 있습니다.

그런 다음 항목 평점 절차(item rating procedure)가 반복되며, 심사위원들은 평점을 수정할 수 있지만 반드시 그렇게 해야 하는 것은 아닙니다. 이 주기는 한두 번 반복될 수 있습니다. 반복적인 절차는 심사위원들 간에 더 많은 합의(consensus)를 만드는 경향이 있지만, 반드시 결과적인 합격선을 실질적으로 변화시키지는 않습니다(Stern, Friedman Ben-David, Norcini, Wojtczak, & Schwarz, 2006). 일부 교육자들은 영향력이 낮거나 중간 정도인(low to medium stakes) 자체 시험의 경우 토론과 반복 절차를 생략하기도 합니다.

일부 심사위원 패널은 과정 중 수시로 그들이 지금까지 설정한 합격 점수 및/또는 합격률이 얼마인지 알고 싶어 합니다. 이는 다시금 전문가의 판단 문제이며, 우리는 모든 판단에 대해 데이터가 적은 것보다 많은 것이 일반적으로 낫다는 입장을 취합니다. 표준 설정에 대해 더 순수주의적인(purist) 철학을 가진 일부 시험 전문가들은 과정 중에 심사위원에게 피드백을 제공하는 것에 동의하지 않을 것입니다.

7단계: 표준 설정 절차 평가 (Step 7: Evaluate the Standard-Setting Procedure)

어떤 표준 설정 방법을 선택하든, 결과로 나온 표준에 대한 어느 정도의 평가는 적절합니다.

여러분의 합격선(cut score)이 이해관계자들(stakeholders)에게 수용 가능합니까?
그렇지 않다면, 이는 시험이 적절하게 구성되지 않았기 때문입니까, 커리큘럼이 학생들이 시험을 준비하도록 하지 못했기 때문입니까, 아니면 표준 설정 심사위원들이 실제 학생들의 성과에 대한 정보를 가지고 있지 않았거나(or use) 사용하지 않았기 때문입니까?

심사위원들은 자신들이 절차를 위해 충분히 훈련받았는지, 요청된 판단을 내릴 수 있는 능력은 있었는지, 그리고 결과적인 합격선에 대한 확신이 있었는지에 대해 정보를 제공할 수 있습니다. 내용 전문성(content expertise)을 위해 선택된 심사위원들이 이러한 질문에 긍정적으로 답하는 것은 표준에 대한 추가적인 신뢰성 척도(additional measure of credibility)를 제공합니다. 심사위원들은 두 시점, 즉 훈련 후와 전체 절차가 완료된 후에 설문 조사를 받을 수 있습니다. 샘플 설문 조사는 표 6.1에 나와 있습니다.

표준의 심리측정적 특성(psychometric characteristics)을 평가하는 공식적인 접근법(Formal approaches)은 표준 설정 결과를 평가하는 데 도움을 줄 수 있습니다. 일반화 가능도 계수(Generalizability coefficients)는 판단의 신뢰도(reliability)를 측정하는 척도를 제공할 수 있으며, D 연구(D studies)는 신뢰할 수 있는(reliable) 표준을 달성하는 데 필요한 심사위원의 수를 제안할 수 있습니다.

평균 합격 점수의 표준 오차(standard error of the mean, SE Mean)는 다음 방정식 (6.1)에 나타난 바와 같이, 전체 심사위원에 대한 합격 점수 판단의 표준 편차(standard deviation, SD)를 심사위원 수(n)의 제곱근으로 나눈 값입니다.

평균의 하한(lower bound)과 상한(upper bound)을 계산하면 합격선(cut score)을 중심으로 95% 신뢰 구간(confidence interval)을 구축할 수 있습니다 (합격선 ± [2 × SE Mean]). n에 대해 풀면 원하는 평균의 표준 오차(standard error of the mean)에 도달하는 데 필요한 심사위원의 수를 추정할 수 있습니다.

Jaeger(1991)는 합격선 평균의 표준 오차(standard error of the mean of the cut score)가 시험의 측정 표준 오차(standard error of measurement)의 4분의 1을 넘지 않아야 한다고 제안합니다.
Cohen, Kane, and Crooks(1999)는 더 현실적으로, 합격선의 SE(SE of the cut score)가 시험의 SE(SE of the test)의 절반 미만이라면 영향이 거의 없다고 제안합니다.
비슷한 맥락에서, Meskauskas(1986)는 판단의 표준 편차(standard deviation of the judgments)가 응시자 시험 점수의 표준 편차(standard deviation of examinee test scores) 크기에 비해 작아야 한다(4분의 1을 넘지 않아야 한다)고 제안합니다.

이러한 권장 사항들은 일반적으로 소수의 심사위원만 있는 지역 수준(local level)에서는 달성하기 어려울 수 있습니다(Yudkowsky, Downing, & Wirth, 2008).

Kane(1994)은 표준의 타당성(validity)을 뒷받침하기 위한 세 가지 주요 증거 출처를 제안합니다.

• 절차적 증거(Procedural evidence)는 다음을 포함합니다.
- o 명시성(explicitness)
- o 실용성(practicability)
- o 실행(implementation)
- o 심사위원의 피드백(feedback from the judges)
- o 문서화(documentation)
• 내부적 증거(Internal evidence)는 다음을 포함합니다.
- o (위의 SE Mean과 같은) 합격 점수 추정치의 정밀도(precision)
- o 패널 내 일관성(intra-panelist consistency) 및 패널 간 일관성(inter-panelist consistency)
- o 결정 일관성(decision consistency)
• 외부적 증거(External evidence)는 다음을 포함합니다.
- o 다른 표준 설정 방법과의 비교(comparison to other standard-setting methods)
- o 유사한 시험(similar tests)과 같은 다른 관련 기준과의 비교
- o 합격/불합격률(pass/fail rates) 측면에서 합격선의 합리성(reasonableness)

8단계: 최종 의사결정자에게 결과, 영향, 타당성 증거 제공 (Step 8: Provide Results, Consequences, and Validity Evidence to Final Decision Makers)

최종 분석에서, 표준은 내용 전문가(심사위원)가 아닌 정책 의사결정자(policy decision makers)에 의해 설정됩니다. 그들은 권장 사항을 수락할지 여부를 결정하기 전에 다음 사항들을 고려해야 합니다.

• 권장된 합격선(recommended cut scores)
• 합격/불합격률 측면에서 이 점수를 적용했을 때의 영향(consequences)
• 합격선의 신뢰성(credibility)에 대한 증거

특히 면허(licensing) 또는 자격증 시험(certification exams)과 같은 중요도가 높은 상황(high-stakes situations)에서는 다양한 유형의 분류 오류(classification errors)의 영향을 고려해야 합니다.

• 위음성(false negative) 결정은 자격이 있는 사람이 "불합격"으로 분류되는 경우입니다.
• 위양성(false positive) 결정은 자격이 없는 사람이 "합격"으로 분류되는 경우입니다.
• 자격이 없는 일부 의료 종사자에게 면허를 부여하는 위양성 오류(false positive error)는 환자 안전 위험(patient safety risks)을 초래할 수 있습니다.
• 위음성 결정(false negative decision)은 자격 있는 의료 종사자가 면허를 거부당하게 하고, 일부 환자들이 의료 서비스를 받지 못하게 될 수 있습니다.

이러한 오류를 최소화하는 한 가지 방법은 가장 두드러지는(salient) 오류 유형에 따라 시험의 측정 표준 오차(standard error of measurement)만큼 합격선을 높이거나 낮추는 것입니다(Clauser, Margolis, & Case, 2006). 실제로는 정책 결정자들에 의한 합격선 조정(adjustment of the cut score)이 종종 발생하지만, 순수주의자들(purists)은 이러한 관행이 합법적이고(legitimacy) 실용적임(practicality)에도 불구하고 불쾌하다고 생각할 수 있습니다.
때로는, 특히 심사위원들에게 성과 데이터(performance data)가 제공되지 않은 경우, 권장된 표준이 받아들이기 어려울 정도로 높을(unacceptably high) 수 있습니다. 이 경우의 선택지는 다음과 같습니다.

심사위원 패널을 다시 소집(reconvene)하고 성과 데이터를 가지고 활동을 반복하도록 요청합니다.
다른 심사위원 패널을 소집(convene)하고/하거나 다른 표준 설정 방법을 사용합니다.
그 밖의 방법으로 표준을 더 수용 가능하도록 조정(adjust)합니다.
서로 다른 표준 설정 방법은 서로 다른 합격선을 도출할 가능성이 높으므로, 일부 교육자들은 최종 합격점의 신뢰도를 높이기 위해 두 가지 이상의 방법을 사용하고 다양한 방법들의 평균을 취할 것을 권장합니다(Wayne, Barsuk, Cohen, & McGaghie, 2007).

표준 설정의 특별 주제 (SPECIAL TOPICS IN STANDARD SETTING)

시험 구성 요소 간의 표준 결합: 보상적 대 비보상적 표준 (Combining Standards Across Components of an Examination: Compensatory vs. Non-Compensatory Standards)

일부 평가는 여러 개의 별개의 구성 요소(distinct components) 또는 스테이션(stations)을 포함합니다. 예를 들어,

• 생리학, 약리학, 병리학에 대한 별도의 섹션이 있는 필기시험(written test), 일련의 표준화된 환자(standardized patient) 응대로 구성된 수행 능력 시험, 또는
• 필기시험, 회전 근무 종료 후 교수 평가(end-of-rotation faculty evaluations), 그리고 OSCE(객관 구조화 진료 시험)를 포함하는 임상 실습 성적(clerkship grade)이 있습니다.

한 구성 요소에서의 좋은 성과가 다른 구성 요소에서의 부족한 성과를 보상(compensate)할 수 있을까요?

만약 그렇다면, 전반적인 표준은 각 응대(encounters) 또는 구성 요소(components)에 걸친 표준의 단순 평균으로 구성될 수 있습니다(보상적 채점(compensatory scoring)).
- 원하는 경우 구성 요소 점수(component scores) (및 표준)에 차등적인 가중치(differentially weighted)를 부여할 수 있습니다. 예를 들어, 임상 실습 성적의 경우 필기시험이 최종 성적의 50%를 차지하고, 교수 평가와 OSCE가 각각 25%씩 기여할 수 있습니다.
- 구성 요소 점수는 가중치를 부여하기 전에 선형 표준 점수(linear standard scores)로 변환되어야 합니다(신뢰도에 대한 3장 및 시험 통계에 대한 5장 참고). 또는 Hofstee와 같은 전체 시험 방법(whole-test method)을 사용하여 전체 시험에 대한 단일 합격선을 설정할 수 있습니다(Schindler, Corcoran, & DaRosa, 2007).
그러나 어떤 경우에는 학습자가 몇 가지 중요하지만 서로 다른 영역(crucial but different domains)에서 최소 수준의 역량(minimum level of competence)에 도달하도록 보장하기 위해 비보상적 접근 방식(non-compensatory approach)이 더 적절할 수 있습니다. 이 경우, 각 영역에 대해 표준을 개별적으로 설정해야 하며, 응시자는 각 구성 요소를 따로 통과해야 합니다.
- 각 구성 요소는 신뢰할 수 있도록(reliable) 학생 행동에 대한 충분히 큰 표본을 포함해야 합니다. 항목의 매우 작은 표본(매우 큰 표본 오차(large sampling error)를 포함하는)은 부정확한 결정을 초래할 수 있기 때문입니다.
- 통과해야 할 다중 허들(multiple hurdles)을 설정하면 필연적으로 불합격률(failure rate)이 증가할 것입니다.
- 임상 사례에서, 교수진은 전체 점수에 관계없이 학생이 통과하기 위해 몇 가지 중요한 항목이 반드시 달성되어야 한다고 매우 강력하게 생각하는 경우가 많습니다. 이러한 항목들은 시험 계획의 채점 및 표준 설정 단계에서 모두 논의되어야 합니다.

수행 능력 시험을 위한 표준 설정 (Setting Standards for Performance Tests)

수행 능력 시험(Performance tests)은 인위적이거나(contrived) 시뮬레이션된(simulated) 환경에서 특정 역량(competency)을 직접 관찰할 수 있게 합니다(9장 수행 능력 시험 참고). 객관 구조화 진료 시험(Objective structured clinical examination, OSCE)은 수행 능력 시험의 일반적인 예시로, 응시자들이 각각 특정 과제를 제시하는 일련의 스테이션을 순환합니다.

교수진과 같은 내용 전문가(content experts)가 응시자의 성과를 관찰하고 평점을 매기는 경우, 경계선 그룹(borderline group) 또는 대조 그룹(contrasting groups) 방법과 같은 응시자 기반 방법(examinee-based methods)을 사용할 수 있습니다. 이 방법들은 편리하고 구현하기 간단합니다. 교수진은 개인의 성과에 대해 판단을 내리는 데 매우 익숙하며, 모든 판단이 시험 과정 중에 이루어지므로 추가적인 교수진 시간이 필요하지 않습니다.
전문가가 시험을 채점하지 않는 경우(예를 들어, 표준화된 환자가 체크리스트 점수를 제공할 때), 시험 항목(test items) 또는 시험 내용(test content)에 대한 판단을 포함하는 방법들(Angoff, Ebel, Hofstee)을 사용할 수 있습니다.

표준화된 환자 사례에 대한 표준을 설정하기 위해 Angoff와 같은 항목 기반 방법(item-based methods)을 사용하는 것은 매우 일반적이지만, 사례 내의 항목들이 상호 독립적이지 않다(not mutually independent)는 점 때문에 이의가 제기되어 왔습니다(Ross, Clauser, Margolis, Orr, & Klass, 1996; Boulet, de Champlain, & McKinley, 2003).

한 가지 해결책은 심사위원들이 항목 수준(item level) 대신 사례 수준(case level)에서 작업하도록 하여, 경계선 응시자가 해당 사례에서 획득할 총 항목 수를 추정하는 것입니다(Norcini, 2003, Stern et al., 2006).
추가적인 장점은 사례 기반 표준 설정 접근 방식(case-based standard-setting approach)이 권장되는 신뢰도 추정 방법(reliability estimation)과 일치한다는 것입니다.

수행 능력 시험의 맥락에서의 표준 설정에 대한 추가 논의는 9장을 참고하십시오.

임상 절차를 위한 표준 설정 (Setting Standards for Clinical Procedures)

채혈(phlebotomy) 또는 요추 천자(lumbar puncture)와 같은 절차적 기술(procedural skills)을 평가하는 데 사용되는 체크리스트(checklists)는 종종 다음과 같은 점에서 독특합니다.

이들은 (주요 항목들의 표본(a sampling of salient items)이 아닌) 절차를 수행하는 데 필요한 행동의 전체 집합(entire set of behaviors)을 다룹니다.
체크리스트는 공개적(public)입니다. 학생들은 효과적으로 숙달 학습(mastery learning) 환경을 구성하면서 절차를 배우고 연습하는 데 체크리스트를 사용할 것으로 예상됩니다.
체크리스트의 특정 항목은 환자 안전(patient safety)에 필수적일 수 있습니다. 채점자 오류(rater errors)의 가능성 때문에 일반적으로 합격/불합격 결정이 단일 항목(a single item)에만 근거해서는 안 되지만, 환자 안전을 위해 심사위원들은 이 핵심 항목 중 하나라도 오류가 발생하면 해당 절차에 대한 재시험(a retest)을 요구할 수 있습니다. 환자 안전 방법(patient safety method)과 숙달 시험 접근법(mastery testing approaches)(18장 참고)이 이 목적에 가장 적합합니다.

구술 시험, 에세이, 포트폴리오를 위한 표준 설정 (Setting Standards for Oral Exams, Essays, and Portfolios)

구술 시험(oral exams), 에세이(essay papers), 그리고 포트폴리오(portfolios)에 대한 표준은 전문가의 전반적(총체적) 판단(expert global (holistic) judgments)과 분석적 채점 방법(analytic scoring methods)(예: 경계선 그룹(borderline group) 또는 대조 그룹(contrasting groups))을 결합하거나, 항목 모음에 대해 전체 시험(whole test, Hofstee) 또는 작업물 방법(body of work methods)을 사용하여 설정할 수 있습니다. 명확하고 명시적인 성과 범주 기술서(performance category descriptors) 또는 평가 기준표(rubrics)는 초기 채점 목적은 물론, 추후의 표준 설정 노력에도 벤치마크(benchmarks)를 제공할 수 있습니다.

숙달 학습 환경에서의 표준 설정 (Setting Standards in Mastery Learning Settings)

숙달 시험(mastery tests)을 위한 표준은 일반적으로 최소 역량의 학생(minimally competent student)보다는 잘 준비된 학생(well-prepared student)을 기준으로 삼을 것입니다. 여기에 설명된 대부분의 방법은 숙달 환경(mastery set tings)에 맞게 조정될 수 있습니다(can be adapted). 숙달 학습 커리큘럼에서의 표준 설정에 대한 논의는 18장을 참고하십시오.

복수 범주 합격선 (Multiple Category Cut Scores)

복수 범주(multiple categories)(예: 우수(honors) | 합격(pass) | 불합격(fail) 또는 전문가(expert) | 능숙(proficient) | 초급자(beginner))에 대한 합격선 설정은 이분법적(dichotomous) 합격/불합격 표준에 사용되는 것과 동일한 방법을 사용하여 수행할 수 있습니다. 심사위원에게 제공되는 성과 범주 기술서는 각 수준에서 기대되는 행동을 명확하게 구분(clearly differentiate)해야 합니다. 합격-불합격 표준 설정 과정의 다른 특징들도 여러 결과 범주를 허용하도록 다소 수정(modified)해야 할 수 있습니다.

합격선 범주(cut score categories)를 구별하는 정확도(accuracy)(예: 합격 | 불합격; 최고 우수 | 우수; 전문가 | 능숙 | 교정 필요)는 평가 점수의 신뢰도(reliability) 및 다음을 포함한 데이터의 다른 특성과 관련이 있습니다.

점수 분포의 형태(the shape of the distribution of the scores)
합격선의 위치(the location of the cut score(s))
모집단의 실제 기저율(true base rates)(Clauser et al., 2006)

일반적으로, 평가 점수의 신뢰도가 높을수록(the higher the reliability of the assessment scores), 그리고 측정 표준 오차(standard errors of measurement)가 낮을수록 더 나은 분류 정확도(classification accuracy)를 기대할 수 있습니다. 예를 들어, Wainer와 Thissen(1996)은 신뢰도(reliability)가 0.50일 때, 시험 응시자의 약 3분의 1에 대해 점수가 최소 1 표준편차(SD) 단위로 변동될 것으로 합리적으로 예상할 수 있음을 보여줍니다. 상대적으로 높은 0.80의 신뢰도에서도 약 11%의 학생들은 1 SD 이상의 점수 변화를 보일 것입니다.

위양성(False positive) 및 위음성(false negative) 분류 오류는 복수 합격선(multiple cut points)이 사용될 때 더 자주 발생할 것입니다. 일반적으로 예상되는 바와 같이, 합격 점수가 높아지면 위음성이 증가하고 합격 점수가 높아지면 위양성이 감소합니다. 표준 설정 정책 및 절차가 선택되고 적용될 때 위양성 및 위음성의 비용(costs)이 고려되어야 합니다.

기관 간 표준 설정 (Setting Standards Across Institutions)

동일한 시험에 대해 동일한 표준 설정 방법을 사용하여 표준을 설정하는 서로 다른 학교의 교수진(faculty at different schools)은 매우 높은 확률로 다른 합격선을 도출하게 될 것입니다. 예를 들어, 영국 5개 의과대학의 교수진이 동일한 6개 OSCE 스테이션에 대한 합격 점수를 설정하기 위해 Angoff 방법을 사용했을 때 매우 다양한 합격선(widely varying cut scores)이 나왔습니다. 특정 역량 수준을 가진 학생이 한 학교에서는 통과하고 다른 학교에서는 불합격할 수도 있는 것입니다(Boursicot, Roberts, & Pell, 2006; 유사한 호주 사례는 Ward et al., 2018 참고). 만약 학교 간 균일한 표준(uniform standards)이 필요하다면, 표준 설정 팀은 참여 학교 구성원뿐만 아니라, 적절하다면 외부 전문가(external experts)도 포함해야 합니다. 그룹은 활동을 시작하기 전에 최소 역량 학생(minimally competent (borderline) students)의 특징에 대해 합의에 도달하도록 권장되어야 합니다. 여러 (혼합된) 그룹이 소집되면, 그룹 간의 평균을 취하여 단일 합격선을 얻을 수 있습니다. Stern 등(2006)은 중국 의과대학을 위한 국제 표준(international standards)을 설정하기 위해 시범 연구에서 Angoff 방법을 창의적으로 사용했습니다. 이 연구에서는 "경계선 학교(borderline school)"라는 개념이 학교 수준의 결과 표준(school-level outcome standards)을 정의하는 데 사용되었습니다.

성과 표준 설정을 위한 7가지 방법 (SEVEN METHODS FOR SETTING PERFORMANCE STANDARDS)

Angoff 방법 (The Angoff Method)

Angoff 방법(Angoff, 1971)은 절대적 방법(absolute methods) 중 첫 번째로, 고위험 시험(high-stakes testing) 상황에서도 가장 긴 성공적 사용 역사를 가지고 있습니다. 이 방법에서는 내용 전문가(content experts)가 모든 항목에 대해 판단을 내리기 때문에, 결과로 나온 합격 점수(passing scores)를 방어하기가 상당히 쉽습니다.

Angoff 표준 설정 절차 (Angoff Standard-Setting Procedures)

Angoff 표준 설정 활동(Angoff standard-setting exercise)을 실행하는 데는 다섯 가지 단계가 있습니다.

표준 설정 심사위원들이 경계선 응시자(borderline examinee)의 특징을 논의하고, 경계선 학생들의 구체적인 예시를 언급합니다.
심사위원들은 구체적인 예시를 염두에 두고 경계선 응시자의 자질에 대해 합의(consensus agreement)에 이릅니다.
각 심사위원은 각 성과 과제(performance prompt), 항목(item), 또는 평점(rating)에 대한 경계선 응시자의 성과를 추정합니다(0%에서 100%).
이러한 판단은 (보통 심사위원이 아닌 기록자(recorder) 또는 비서에 의해) 기록됩니다.
그런 다음 판단들은 체계적으로 결합(총합 및 평균)되어 성과 시험의 합격 점수(passing score)를 결정합니다.

항목 검토 및 평점 (Item Review and Rating)

판단은 항목 수준(item level)에서 이루어집니다. 항목 검토는 한 심사위원이 첫 번째 항목을 읽는 것으로 시작됩니다. 먼저, 읽는 사람과 다른 패널 심사위원들이 경계선 응시자가 그 항목에서 얼마나 잘 점수를 얻을 것인지 추정합니다. 심사위원들은 새로운 항목마다 시계 방향으로 돌아가며 진행합니다. 각 심사위원의 추정치(판단)는 기록지(recording sheet)나 컴퓨터 스프레드시트에 기록됩니다. 각 항목에 대해 심사위원들은 다음 두 가지 동등한 질문 중 하나에 답합니다.

경계선 응시자 100명으로 이루어진 그룹에서 몇 명이 이 항목을 올바르게 수행할 것인가? (0%~100%), 또는
한 명의 경계선 응시자가 이 항목을 올바르게 수행할 확률은 얼마인가? (0~1.0)
Angoff 질문은 심사위원들에게 학생들이 얼마나 잘 수행할 것인지(how well ... will perform)를 추정하도록 요청하며, 얼마나 잘 수행해야 하는지(how well ... should perform)를 묻는 것이 아님을 유념해야 합니다. "will"과 "should"의 차이는 강조할 필요가 있습니다.
• 한 항목에 대한 판단이 20% 이상 차이가 나는 경우, 높고 낮은 점수를 제공한 심사위원들이 해당 항목에 대한 자신들의 평점을 논의하도록 이끌 수 있습니다.
• 전체 과정 동안 심사위원들은 자신들의 평점이나 판단을 수정(modify)할 수 있습니다.
• 과제에 대한 검토와 평점은 전체 체크리스트가 완료될 때까지 계속됩니다.
길거나 중요도가 낮은(low-stakes) 시험의 표준을 설정할 때, 심사위원들은 작업과 경계선 응시자의 성과에 대한 공유된 정신적 모델(shared mental model)을 개발하기 위해 5~10개의 항목으로 이루어진 하위 집합을 함께 검토한 후 나머지 평점을 개별적으로 완료할 수 있습니다.
실제 응시자 성과에 대한 데이터가 없는 경우, 내용 전문가 심사위원들은 비현실적으로 높은(unrealistically high) 합격 점수를 설정하는 경우가 많습니다.
• 시험 점수 또는 표준화된 환자 사례의 평균 및 표준 편차와 같은 요약 데이터(Summary data)는 실제 학생들에게 시험의 난이도(difficulty)를 심사위원들이 가늠하는 데 도움이 될 것입니다.
• 또는, 각 항목을 올바르게 맞힌 전체 학생 그룹의 비율과 같은 더 구체적인 데이터가 제시될 수도 있습니다.

반복적인 절차(iterative procedures)의 지지자들은 두 번째 반복 때까지 항목 수준의 성과 데이터(item-level performance data)를 공개하지 않는 것이 일반적입니다. 이는 심사위원들이 평균 학생의 성과에 공식적으로 판단을 내리는 것을 막기 위함인데, 그렇게 되면 그들의 판단이 준거 기반(criterion-based)이 아닌 규준 기반(norm-based)으로 바뀌게 되기 때문입니다.

심사위원들이 난이도(difficulty) 외에 항목의 중요성(importance)에도 계속 초점을 맞추도록 돕는 한 가지 방법은 Angoff 판단을 내리기 전에 각 항목의 관련성(relevance)을 필수적(essential), 중요함(important), 수용 가능함(acceptable), 또는 중요하지 않음(unimportant)으로 평가하도록 요청하는 것입니다. 이는 사실상 Angoff와 Ebel 방법 사이의 교차점(cross)이 되는 방법을 만들어냅니다(아래 Ebel 방법 참고). 관련성 판단은 또한 내용 타당성 증거(content validity evidence)의 추가적인 층(layer)을 제공합니다.

표 6.2는 7명의 Angoff 심사위원에 의해 평점이 매겨진 10개 항목의 성과 시험에 대한 Angoff 평점을 보여줍니다. 사례 합격 점수(%)는 모든 항목에 대한 합격 점수의 단순 평균입니다.

Angoff 방법의 변형인 확장 Angoff 절차(extended Angoff procedure)는 이분법적 항목(dichotomous item) 대신 평가 척도(rating scale)와 함께 사용될 수 있습니다(Hambleton & Plake, 1995). 각 심사위원은 개별적으로 경계선 학생이 각 항목에서 받을 평점을 추정합니다. 예를 들어, 학생이 5점 척도로 평가되는 경우, 경계선 학생은 항목 1에서 "3", 항목 2에서 "4"의 평점을 받을 것으로 예상될 수 있습니다. 모든 심사위원에 대해 각 항목의 평균 평점을 계산하고 항목별로 평균을 내어 원점수 합격 평점(raw passing rating score)을 얻습니다.

Ebel 방법 (The Ebel Method)

Ebel 방법(Ebel, 1972)은 심사위원들이 항목의 난이도(difficulty)와 관련성(relevance)을 모두 고려하도록 요구합니다. 이 방법은 표준 설정 심사위원에게 시험 및 개별 항목에 대해 더 많은 정보를 제공하지만, 다른 일부 방법보다 심사위원에게 더 많은 작업과 시간을 요구합니다.

Ebel 표준 설정 절차 (Ebel Standard-Setting Procedures)

Ebel 표준 설정 절차를 실행하기 위해 필요한 두 가지 주요 작업이 있습니다.

관련성(relevance) 및 난이도(difficulty)별로 분류된 항목 번호 매트릭스(matrix of item numbers)를 준비합니다.
이 매트릭스의 각 셀(cell)에 있는 항목 유형에 대해 경계선 응시자(borderline examinees)가 성공할 비율(proportion)을 추정합니다.
1. 항목 난이도(Item difficulty)는 (대표적인) 응시자 그룹에게 시험을 실시한 실제 데이터에 기반하여 각 항목의 평균 난이도(정답률)를 계산함으로써 결정됩니다. 난이도 범위(쉬움, 중간, 어려움)는 임의로 결정되지만, 경험적 데이터(empirical data)에 합리적인 근거가 있어야 합니다.
2. 각 항목에 대한 관련성 평점(Relevance ratings)(필수적, 중요함, 수용 가능함)은 심사위원들로부터 얻어야 합니다(아래 6번 참고). 최종 Ebel 평점을 제공하는 데 사용되는 동일한 심사위원들이 관련성 평점을 수행하는 것이 관례이지만, 이는 필수적인 것은 아닙니다. 또한 관련성 평점이 얻어진 후에 다양한 계산을 수행하고 평점 양식을 만드는 데 약간의 시간이 필요하기 때문에, Ebel 표준 설정 활동을 두 개의 별도 세션으로 나누는 것이 필요할 수도 있습니다. 상황이 허락한다면 다른 심사위원 그룹이 관련성 평점을 수행할 수도 있습니다.
Ebel 표준 설정 활동을 완수하기 위한 단계는 다음과 같이 요약됩니다.
1. 심사위원들에게 시험 내용, 성과 사례 및/또는 체크리스트나 평점 척도에 익숙해지도록 합니다.
2. 사용되는 관련성 범주인 "필수적(essential), 중요함(important), 수용 가능함(acceptable)"에 대한 구체적인 정의를 논의합니다.
  1. o 예를 들어, "필수적"은 "좋은 환자 진료에 필수적이며, 이 항목이 수행되지 않으면 환자의 건강이 위험에 처할 수 있다"는 의미입니다.
각 심사위원에게 각 항목을 필수적, 중요함, 또는 수용 가능함으로 평가하도록 합니다.
각 항목의 관련성 평점에 대한 요약 통계(summary statistics)(심사위원 전체 평균)를 계산합니다.
실제 성과 데이터에 기반하여 각 사례 또는 스테이션의 각 항목 또는 과제에 대한 평균 항목 난이도(mean item difficulty)(정답률)를 계산합니다.
각 사례에 대해 관련성 및 난이도별로 분류된 항목들의 매트릭스(matrix)를 준비합니다(표 6.3 참고).
심사위원들에게 경계선 학생 성과에 대한 토론을 이끌도록 합니다.
경계선 응시자의 특성에 대한 공통된 이해(common understanding)에 도달합니다.
각 심사위원에게 매트릭스의 한 셀로 지정된 각 항목 세트에 대해 다음 질문에 대한 답을 제공하도록 요청합니다. "만약 경계선 학생이 이러한 항목이나 과제들을 다수 수행해야 한다면, 그 학생은 몇 퍼센트를 올바르게 수행할 것인가?(0%~100%)"
각 심사위원은 셀에 명시된 항목들을 올바르게 수행할 것으로 예상되는 학생의 백분율을 기록합니다.
표 6.3에 나타난 바와 같이, 모든 심사위원에 걸친 평균 판단(average judgments)을 계산하고 기록합니다.
가중 평균(weighted mean)은 매트릭스의 각 행에 대해 계산되는데, 이는 셀의 항목 수에 해당 셀의 평균 평점을 곱한 후 합산한 값으로 정의됩니다.
매트릭스의 각 행에 대한 총합을 더하면 Ebel 심사위원들이 결정한 원점수 합격 점수(raw passing score)가 나옵니다.

Hofstee 방법 (The Hofstee Method)

Hofstee 방법은 상대적 표준(relative standard)과 절대적 표준(absolute standard) 설정의 특징을 결합하기 때문에 때때로 "상대-절대 절충 방법(relative-absolute compromise method)"이라고 불립니다(Hofstee, 1983, De Gruijter, 1985). 심사위원들은 최소 및 최대 허용 가능한 합격 점수(minimum and maximum acceptable passing scores)와 불합격률(failure rates)을 정의하도록 요청받습니다. 표준은 이 제한하는 직사각형(bracketing rectangle)을 통과하는 시험 점수의 누적 빈도 곡선(cumulative frequency curve)의 중간점(midpoint)에 의해 결정됩니다(그림 6.2 참고). 전체 평가를 고려하기 때문에, 여러 개의 이질적인 요소들로 구성된 복합적인 평가(complex assessments)에 편리하게 사용될 수 있습니다(예를 들어, 필기시험, 교수 평점, 그리고 OSCE로 구성된 임상 실습 성적).

Ebel 방법과 마찬가지로, Hofstee 방법은 판단(judgments)을 수집하기 전에 성과 데이터(performance data)를 분석하고 요약할 것을 요구합니다. 또는, 대표적인 응시자들의 하위 그룹(subgroup)이나 이전 시험으로부터 성과 데이터를 얻을 수도 있습니다. 만약 심사위원들이 실제 성과 데이터를 면밀히 고려하지 않으면, 그들이 정의한 점수 경계 내에 누적 빈도 분포 곡선(cumulative frequency distribution curve)이 포함되지 않을 수도 있습니다. 그래픽 Hofstee(graphical Hofstee)(절차 6단계/대안 참고)는 이러한 문제를 피하고 표준 설정 활동이 특정 시험 그룹에 적용 가능한 판단을 낳도록 보장합니다.

규범적 고려사항 때문에, Hofstee 방법은 숙달 학습(mastery learning) 환경이나 환자 안전 문제가 있는 임상 환경에서는 사용하기에 적절하지 않습니다(Yudkowsky, Park, Lineberry, Knox, & Ritter, 2015).

일부 연구자들은 Hofstee 방법이 개별 항목에 기반하기보다는 전체적인(global) 판단에 기반하기 때문에 신뢰도가 낮다고 느끼며, 고위험 시험(high-stakes examinations)에 Hofstee 방법을 사용하는 것을 권장하지 않습니다(Norcini, 2003).

Hofstee 표준 설정 절차 (Hofstee Standard-Setting Procedures)

학생 및 고려 중인 성과 시험에 익숙한 내용 전문가 심사위원(content-expert judges) 그룹이 모여 Hofstee 방법에 대해 훈련받습니다.

활동 전 (Before the Exercise)

실제 성과 데이터에 기반하여 시험의 평균(mean)과 표준 편차(standard deviation) 및 학생들의 전반적인 시험 성과를 설명하는 데 도움이 될 다른 통계들(사분위수 합격선에서의 평균 점수 등)을 계산합니다.
전반적인 점수 분포를 보여주는 그래픽 데이터(graphical data)를 제시하는 것을 고려합니다.
선택적으로, 시간에 따른 동일하거나 유사한 시험에 대한 학생 성과에 대한 기존 데이터(historical data)와 같은 다른 시험 데이터를 계산하고 제시합니다.
각 사례에 대한 전체 성과 시험 점수의 누적 빈도 분포(cumulative frequency distribution)(누적 백분율로)를 계산하고 그래프로 그립니다. (SPSS와 같은 통계 소프트웨어는 누적 빈도 백분율을 플롯하는 데 사용될 수 있습니다.)

활동 중 (During the Exercise)

위에서 논의된 데이터를 표준 설정 심사위원들에게 제시하고 논의합니다.
사례 및 항목, 채점 방법, 그리고 시험의 기타 관련 세부 사항들을 검토합니다.
심사위원 그룹과 경계선 응시자(borderline examinee)에 대해 논의하며, 간신히 합격하거나 간신히 불합격하는 응시자의 특징에 대한 합의(consensus agreement)에 도달합니다.
각 심사위원이 각 질문과 그 함의를 완전히 이해했는지 확인하며 네 가지 Hofstee 질문을 제시하고 논의합니다(아래 6번 참고).
심사위원들이 Hofstee 절차를 완전히 이해했는지 확인하기 위해 연습 실행(practice run)을 하는 것을 고려합니다.
각 심사위원에게 다음 네 가지 질문에 답하여 수용 가능한 합격 점수(acceptable passing score)와 불합격률(failure rate)을 괄호로 묶도록(bracket) 합니다.
1. a. 시험에 불합격할(FAIL) 학생들의 가장 낮은 수용 가능한 비율은: __ 퍼센트 (최소 불합격률(minimum fail rate)).
2. b. 시험에 불합격할(FAIL) 학생들의 가장 높은 수용 가능한 비율은: __ 퍼센트 (최대 불합격률(maximum fail rate)).
3. c. 경계선 학생이 시험에 통과할 수 있도록 허용하는 가장 낮은 수용 가능한 정답 백분율 점수(percent-correct score)는: __ 퍼센트 (최소 합격 점수(minimum passing score)).
4. d. 경계선 학생이 시험에 통과하기 위해 요구되는 가장 높은 수용 가능한 정답 백분율 점수는: __ 퍼센트 (최소 합격 점수(minimum passing score)).
대안: 그래픽 Hofstee(Graphical Hofstee). 또는, 심사위원들이 누적 점수 그래프(cumulative score graph)에 가장 높고 낮은 수용 가능한 합격 점수와 불합격률을 나타내는 선을 직접 그리도록 하고, 그렇게 정의된 직사각형 안에 누적 점수 선이 반드시 포함되도록 지시합니다. 심사위원들에게 그들이 그린 선이 나타내는 정확한 수치를 명시하고 기록하도록 합니다.

※ 참고: 이 방법은 심사위원들이 그들의 표준의 영향에 대해 고심하고 높은 표준 대 수용 가능한 불합격률의 상대적 중요성에 대해 판단을 내리도록 요구합니다. 만약 여러분이 그 판단을 행정적 의사결정자(administrative decision makers)에게 남겨두고 싶다면, 표준적인 방법을 사용하십시오.

활동 후 (After the Exercise)

모든 심사위원에 걸쳐 네 가지 질문 각각에 대한 평균 백분율을 계산합니다.
네 가지 데이터 포인트(최소 및 최대 수용 가능한 불합격 백분율 및 합격 점수)의 평균을 누적 빈도 분포(cumulative frequency distribution)에 그립니다. 네 개의 선은 누적 빈도 선을 포함하는 직사각형을 정의해야 합니다.
이 직사각형 안에 대각선(a diagonal)을 그려서 빈도 선과 교차하게 합니다. 이 교차점에서 X축으로 수선(a perpendicular)을 내려 합격 점수를 찾습니다.
1. 자세한 예시는 표 6.4와 그림 6.3을 참고하십시오.
2. 전통적인 방법을 사용하는 경우, 누적 빈도 분포 곡선이 심사위원들이 정의한 점수 경계 내에 들어가지 않고 심사위원들을 다시 불러 활동을 다시 실행할 수 없는 경우, 표준은 심사위원들이 결정한 최소 수용 가능한 합격 점수(minimum acceptable passing score) 또는 최대 수용 가능한 불합격률(maximum acceptable failure rate)로 기본 설정될 수 있습니다. 그래픽 Hofstee 방법(위 #6/대안)을 사용하면 심사위원들이 그들의 판단 결과를 즉시 볼 수 있고 누적 점수 선이 정의된 경계 내에 들어가는지 여부를 확인할 수 있기 때문에 이러한 문제를 방지하는 데 도움이 될 것입니다.

경계선 그룹 방법 (Borderline Group Method)

경계선 그룹 방법(Borderline group method)(Livingston & Zieky, 1982)은 항목 중심(item-centered)이 아닌 응시자 중심(examinee-centered) 방법입니다.1 판단은 시험 항목이나 내용이 아니라 개별 응시자에 대해 이루어집니다. 이 방법은 표준 설정자 역할을 할 자격을 갖춘 내용 전문가(content experts)(예: 교수진)가 응시자에 대한 직접적인 지식을 가지고 있거나 수행 능력 시험을 직접 관찰할 때 사용될 수 있습니다. (적절하게 훈련된 표준화된 환자는 의사소통 및 대인 관계 기술에 대한 내용 전문가로 간주될 수 있습니다.) 심사위원의 전체적 평점(global ratings)은 합격 표준(passing standard)으로 사용될 체크리스트 점수를 결정하는 데 사용됩니다.2

• 수행 능력 시험(performance tests)에 대한 이 방법의 한 가지 장점은 학생 성과 평가에 익숙한 임상의 관찰자(clinician observers)에게 권한을 부여한다는 것입니다. 필요한 모든 정보는 수행 능력 시험 과정 중에 얻을 수 있으므로 별도의 표준 설정 회의를 소집할 필요가 없습니다.
• 이 방법의 단점은 소규모 시험의 경우, 경계선 그룹(borderline group)에 속하는 학생이 거의 없을 수 있어 결과가 왜곡될 가능성이 있다는 것입니다.

경계선 회귀 방법(borderline regression method)은 (체크리스트) 점수가 전체 평점에 대해 회귀되는(regressed on) 관련 방법으로, 경계선 그룹에 대한 평점뿐만 아니라 모든 평점(all of the ratings)을 사용한다는 장점이 있습니다(Kramer et al., 2003).3

경계선 그룹 표준 설정 절차 (Borderline Group Standard-Setting Procedures)

심사위원들에게 시험, 스테이션, 또는 사례 및 체크리스트 또는 다른 평점 도구에 대해 안내하여 준비시킵니다.
심사위원들은 사전에 교실이나 임상 환경에 대한 응시자 지식을 가지고 있거나, 혹은 각 응시자의 시험 성과를 직접 관찰할 수 있습니다. 각 심사위원은 여러 스테이션에 걸쳐 한 응시자를 따라가기보다는, 동일한 스테이션(same station)에서 여러 응시자를 관찰해야 합니다.
1. A. 관찰된 시험 성과는 적절한 훈련을 통해 개별 체크리스트 항목 점수(individual checklist item scores) 또는 응대 후 메모(post-encounter notes)와 같은 성과 산출물(performance products)로 구성될 수 있습니다(이 경우, 이 방법은 작업물 방법(body of work method)과 유사합니다).
심사위원은 각 응시자의 (전반적인 성과에 대한) 전체적 평점(global rating)을 3점 척도(three point scale): 불합격(fail), 경계선(borderline), 합격(pass)으로 제공합니다.
성과는 또한 다항목 체크리스트(multiple-item checklist) 또는 평점 척도를 사용하여 (심사위원이나 다른 평가자에 의해) 채점됩니다.
"경계선"으로 평점 매겨진 응시자들의 평균 또는 중앙값 체크리스트 점수(mean or median checklist score)가 시험의 합격 점수(passing score)가 됩니다(그림 6.4 참고). 또는, 체크리스트 점수를 전체 평점에 대해 회귀시켜(regress) 결과 방정식을 사용하여 합격선을 얻을 수 있습니다.

대조 그룹 방법 (Contrasting Groups Method)

대조 그룹 방법(Contrasting groups method)(Livingston & Zieky, 1982; Burrows et al., 1999; Clauser & Clyman, 1994)은 또 다른 응시자 중심(examinee-centered) 표준 설정 방법으로, 외부 기준(external criterion) 또는 다른 방법을 사용하여 응시자를 두 그룹으로 나누도록 요구합니다.

• 전문가 대 초심자(experts vs. novices)
• 합격자 대 불합격자(passers vs. failers)
• 유능한 사람 대 무능한 사람(competent vs. non-competent)

표준은 두 그룹을 가장 잘 구별하는(discriminates) 점수입니다.

이 방법의 장점 중 하나는 어느 방향의 오류도 최소화하기 위해 표준을 쉽게 조정할 수 있다는 것입니다. 따라서 가장 큰 관심사의 오류가 합격했어야 할 응시자를 "불합격"으로 잘못 분류하는 것(예를 들어, 자격증 시험에서)이라면, 표준을 오른쪽으로 이동할 수 있습니다(그림 6.5와 6.6 참고).

대조 그룹 표준 설정 절차 (Contrasting Groups Standard-Setting Procedures)

응시자 성과는 다항목 체크리스트(multiple-item checklist) 또는 평점 척도를 사용하여 심사위원 또는 다른 평가자(raters)에 의해 채점됩니다.
응시자들은 외부 기준(external criterion)에 기반하거나 전문가 관찰자가 학생의 전반적인 성과에 대한 전체적 합격/불합격 평점(global pass/fail rating)을 제공함으로써 전문가 및 비전문가 그룹으로 나뉩니다.
두 그룹의 체크리스트 점수 분포(checklist score distributions)를 그래프로 그립니다.
위양성(false-positive) 및 위음성(false-negative) 오류의 가중치가 동일하다면 합격선(passing score)은 두 분포의 교차점(intersection)에 설정되거나, 더 큰 관심사의 오류를 최소화하기 위해 오른쪽 또는 왼쪽으로 이동됩니다.

작업물 방법 (Body of Work Method)

Hofstee 방법과 마찬가지로, 작업물 방법(body of work method)(Kingston & Tiemann, 2012)은 여러 이질적인 구성 요소로 이루어진 평가의 표준을 설정하는 데 사용될 수 있습니다. 전반적인 접근 방식은 대조 그룹(contrasting groups)과 유사하지만, 판단은 응시자와 그들의 직접 관찰된 성과에 대해서가 아니라, 응시자의 영속적인 작업물(durable work) 표본(예: 에세이, 차트 노트, 포트폴리오)에 대해 이루어집니다. 작업물 표본은 일반적으로 표준 설정 활동이 시작되기 전에 심사위원이나 다른 사람들에 의해 채점됩니다.

작업물 표준 설정 절차 (Body of Work Standard-Setting Procedures)

작업물 표본은 다항목 체크리스트(multiple item checklist) 또는 평점 척도를 사용하여 심사위원 또는 다른 평가자(raters)에 의해 채점됩니다.
심사위원들에게 시험, 응시자, 그리고 모든 관련 범주의 정의에 대해 안내하여 준비시킵니다.
심사위원들에게 얻어진 점수 범위를 아우르는 다수의 실제, 완전한 응시자 작업물 표본(real, complete examinee work samples)을 제시합니다.
심사위원들은 각 표본을 필수 범주(합격/불합격, 기본/능숙/고급 등) 중 하나에 할당합니다. 이 첫 번째 범위-찾기(range-finding) 라운드는 두 범주의 점수가 겹치는 "경계선 영역(borderline region)"을 정의합니다.
경계선 영역에서만 점수를 얻은 추가 작업물 표본은 두 번째 정밀 지정(pinpointing) 라운드에서 범주화됩니다.
최종 합격선(cut score)은 경계선 영역의 점수 평균 또는 중앙값(mean or median), 인접한 분포의 교차점(intersection), 또는 로지스틱 회귀 절차(logistic regression procedure)를 사용하여 도출될 수 있습니다.

환자 안전 방법 (Patient Safety Method)

위에서 설명된 모든 방법은 원래 K–12를 위한 필기시험용으로 개발되었으며, 시험의 항목에 대해 보상적 접근 방식(compensatory approach)을 취합니다. 즉, 응시자는 어떤 항목을 수행하고 어떤 항목을 수행하지 않았는지에 관계없이 정해진 항목 백분율을 달성해야 합니다.

환자 안전 방법(patient safety method)(Yudkowsky et al., 2014; Barsuk, Cohen, Wayne, McGaghie, & Yudkowsky, 2018)은 특정 중요 항목(critical items)의 부정확한 수행 또는 누락이 심각한 환자 안전(patient safety) 결과를 초래할 수 있는 수행 능력 시험의 표준을 설정하기 위해 개발되었습니다.

• 예를 들어, 채혈(phlebotomy)과 같은 기본적인 절차적 기술(procedural skill)의 경우, 멸균 상태(sterility)를 유지하지 못하면 감염을 유발할 수 있습니다. 멸균 상태 유지는 중요 항목이 될 것입니다. 중요 항목의 미수행을 비중요 항목으로 보상하게 허용하면 절차를 안전하게 수행할 수 없는 응시자가 합격하게 될 수 있습니다.

환자 안전 접근 방식의 핵심 단계는 중요 항목에 대한 기준(criteria for critical items)을 식별하는 것입니다. 예를 들어, 환자 또는 제공자 안전, 환자 편안함, 그리고/또는 절차 결과에 영향을 미치는 항목들입니다. 그런 다음 표준은 중요 항목과 비중요 항목에 대해 별도로 그리고 연접하게(separately and conjunctively) 설정됩니다. 종종 중요 항목에 대해서는 100% 합격 점수가 예상됩니다. 즉, 통과하기 위해서는 모든 항목이 수행되어야 합니다.

환자 안전 방법은 기본적인 절차적 기술(procedural skills)과 숙달 학습 환경(mastery learning settings)에 특히 적합합니다(18장 참고). 또한 마네킹 기반(mannequin-based) 및 표준화된 환자 시뮬레이션(standardized patient simulations)과 같은 다른 임상 지향적 수행 능력 시험에서도 유용할 수 있습니다(9장 및 14장). 절차적 기술 체크리스트는 종종 전적으로 중요 항목으로 구성되지만, 더 복잡한 시뮬레이션이나 과제는 진정으로 중요한 행동의 비율이 더 작을 수 있습니다.

다른 숙달 평가와 마찬가지로, 이 방법의 목표 성과 범주는 일반적으로 "최소 역량의 학습자(minimally competent learner)"보다는 "잘 준비된 학습자(well-prepared learner)"입니다. 학습자에게 숙달 표준이 달성될 때까지 재시험(retest)할 기회가 주어지므로, 초시 응시자(first-time test-takers)의 이전 성과는 일반적으로 관련이 없습니다.

환자 안전 표준 설정 절차 (Patient Safety Standard-Setting Procedures)

심사위원 또는 기타 이해관계자들이 중요 항목에 대한 기준(criteria for critical items)을 결정합니다.
심사위원들은 개별적으로 기준을 적용하여 중요 및 비중요 항목(critical and non-critical items)을 식별합니다. 이 과정에 반복적인 토론(iterative discussion)이 포함될 수 있습니다. 최종 범주를 결정하기 위해 심사위원들의 평균을 냅니다.
심사위원들은 개별적으로 중요 및 비중요 항목에 대한 별도의 합격 점수(separate passing scores)를 결정합니다. 이는 다음과 같이 할 수 있습니다.
A. 항목별(on an item-by-item basis)로 ("잘 준비된 학습자가 이 항목을 수행할 것인가?") 또는
B. 항목 종류별(for the class of items)로 ("잘 준비된 학습자가 중요 항목의 몇 퍼센트를 수행할 것인가? 비중요 항목은 몇 퍼센트를?")
이 과정에 반복적인 토론이 포함될 수 있습니다.
중요 및 비중요 항목에 대한 최종 합격선을 결정하기 위해 심사위원들의 평균을 냅니다.
표준을 연접하게(conjunctively) 적용합니다. 즉, 통과하기 위해서는 응시자가 중요 항목의 x% AND 비중요 항목의 y%를 수행해야 합니다.

결론 (CONCLUSION)

이 장에서는 표준을 설정하는 7가지 다른 방법의 절차를 설명했습니다. 시험에 어떤 방법을 선택해야 할까요? 선택은 시험의 목적과 실질적인 현실에 따라 달라질 것입니다. 여러 중요한 차원에 걸쳐 7가지 방법을 비교한 내용은 표 6.5를 참고하십시오.

서로 다른 표준 설정 방법과 서로 다른 심사위원 그룹은 다른 합격 점수를 만들어냅니다. "황금 표준(gold standard)"은 없습니다. 옹호 가능한 표준(defensible standards)의 핵심은 신뢰할 수 있는 심사위원(credible judges)을 선택하고 그들의 판단을 수집하는 체계적인 접근 방식(systematic approach)을 사용하는 데 있습니다. 따라서 표준 설정 과정의 일부로 수집된 모든 정보를 문서화(document)하는 것이 중요합니다. 궁극적으로, 모든 표준은 해당 분야 전문가들의 집단적이고 주관적인 의견을 반영하는 정책 결정(policy decisions)입니다.

'논문 읽기 (with AI)' 카테고리의 다른 글

정서적으로 어려운 상황이 의대생의 전문적 정체성 형성에 미치는 영향 (Adv Health Sci Educ Theory Pract. 2023) (1)	2025.09.22
전문직업성을 위한 생산적 고투: 행동과 정체성 사이의 진자 운동 (Med Teach, 2025) (0)	2025.09.20
[AHPE] 5장 검사의 통계(STATISTICS OF TESTING) (0)	2025.09.16
[AHPE] 4 일반화가능도 이론 (Generalizability Theory) (0)	2025.09.15
[AHPE] 3 신뢰도 (Reliability) (0)	2025.09.15

의대에서 교육하고 있습니다.