[AHPE] 7 서술형 및 선택형 문항의 고품질 작성법

Meded 2025. 10. 4. 20:09

2025. 10. 4. 20:09

7 WRITTEN TESTS: WRITING HIGH-QUALITY CONSTRUCTED-RESPONSE AND SELECTED-RESPONSE ITEMS

서술형 및 선택형 문항의 고품질 작성법
Miguel Paniagua, Kimberly A. Swygert, and Steven M. Downing

INTRODUCTION

서론

이 장에서는 보건의료전문직 교육(health professions education)에서 평가(assessment)에 필수적인 두 가지 서면 시험 문항 형식(written test item formats)—

서술형 문항 형식(constructed-response; CR format) 과
선택형 문항 형식(selected-response; SR format), 그중에서도 가장 일반적인 형태인 단일 정답형 객관식 문항(one-best-answer multiple-choice question; MCQ)—에 대해 개괄한다.

이 두 가지 형식은 기초 및 임상 과학(foundational and clinical sciences)의 틀 안에서 다양한 인지적 지식과 기술(cognitive knowledge and skills)을 평가하는 데 사용될 수 있다. 또한, 이 장에서는 이러한 문항 형식의 개발과 활용을 뒷받침하는 핵심 개념(key concepts), 지침(guidelines), 그리고 관련 연구(relevant research)를 강조한다. 이 장은 완전한 문항 작성 가이드(item writing guide)나, 해당 형식에 대한 포괄적인 문헌 리뷰를 제시하려는 것은 아니다. 대신, 이 장의 전반적인 목적은 보건의료전문직 교육 프로그램에서 연수생(trainee)의 수행(performance)을 평가하기 위해 CR 및 SR 형식을 개발하고 효과적으로 사용하는 방법에 대한 실용적 요약(practical summary)을 제공하고, 그 적절한 활용 방안(suggestions for appropriate use)과 향후 연구 과제(areas for future research)를 논의하는 데 있다.

ASSESSMENT USING WRITTEN TESTS
서면 시험을 활용한 평가

평가를 만드는 주된 목적 중 하나는 교수자(instructor)이자 문항 작성자(item writer)로서 자신이 중요하다고 생각하는 것을 학습자에게 전달하는 것이다. 시험(tests)은 강력한 동기 부여 수단으로 작용하며, 시험을 치르는 학습자들은 교수자(또는 교육과정)가 중요하게 여긴다고 믿는 교육 개념(educational concepts)을 배우기 위해 노력하게 된다. 이러한 관점은 최근 보건의료전문직 교육의 평가 프로그램 설계에서 나타나는 변화와 맥을 같이한다. 즉,

학습의 결과를 평가(assessment of learning)하는 것에서
학습을 위한 평가(assessment for learning)로 이동하고 있으며(→ see Chapter 17),
형성적 피드백(formative feedback)과 통합적 평가(integrated assessments)에 중점을 두고 있다(Lockyer et al., 2017).

어떤 평가(assessment)이든, 그것이 총괄적(summative)이든 형성적(formative)이든, 그 기본 단위(building block)는 문항(test item)이다. 따라서, 교육적·전문적 목표(educational and professional goals)와 일치하는 문항과 시험을 개발하는 것이 중요하다. 이 장에서는 지식과 기술(knowledge and skills)을 측정하기 위한 서면 평가(written assessments)에 초점을 맞춘다. 여기서 written이란 용어는 오늘날의 맥락에서 컴퓨터 기반 평가(computer-based assessments)뿐 아니라 전통적인 필기 시험(handwritten assessments)도 포함한다.

어떤 문항 형식이나 시험 형식의 적절성을 판단하는 주요 기준(guiding factors)에는 다음이 포함된다.

점수의 목적 및 해석(purpose and desired interpretations of scores)
측정하고자 하는 구성 개념(construct hypothesized to be measured)
평가의 최종적 결과(ultimate consequences of the test)

이러한 요인은 종종 검사 타당도(test validity)의 언어로 요약된다. 즉,

검사 점수로부터 도출되는 추론(inferences to be made from the test scores)과
이 추론들이 관심 영역(domain of interest)에 일반화될 수 있는가(generalizable)이다.

(자세한 내용은 Chapter 2와 American Educational Research Association (AERA), American Psychological Association (APA), National Council on Measurement in Education (NCME)의 Standards for Educational and Psychological Testing (2014)을 참고하라.)

여기서 추론(inferences)이란, 특정 문항 집합(exam items set)을 넘어 그 문항들이 추출된 더 넓은 영역(domain)에 대해 일반화하거나 확장되는 판단(judgments), 결정(decisions), 또는 결론(conclusions)을 의미한다. 문항 집합에 대한 수행(performance)은 해당 분야에서의 성취도(achievement)를 추정할 수 있는 근거를 제공한다. 따라서, 문항 형식(item format)의 특성은 평가의 타당도 요구(validity needs of the assessment)와 일치해야 한다.

서면 시험 문항(written test items)은 보건의료 교육 과정에서 습득된 인지적 지식(cognitive knowledge)을 평가하는 데 매우 적합하며, 지식의 습득(knowledge acquisition), 추론 능력(reasoning skills), 기초 원리의 이해(understanding of basic principles) 등을 효과적으로 평가할 수 있다. 이러한 기술들은 일반적으로 Miller의 피라미드(Miller’s pyramid)에서 “knows”와 “knows how” 단계에 해당하지만(Figure 7.1), 이는 학생들이 구두시험(oral exams), 시뮬레이션 환자(simulated patients), 다원적 피드백(multi-source feedback), 직접 관찰(direct observation) 등의 평가를 경험하기 전에 반드시 숙달해야 할 기초적 기술(foundation skills)로 간주된다 (Miller, 1990; Nyquist, 2014).

서면 문항으로 고차원적 기술(higher-order skills)을 평가하는 것은 어려울 수 있다. 예를 들어,

만약 목표가 효과적인 환자 의사소통(patient communication)의 원리에 대한 기초 인지적 지식(baseline cognitive knowledge)—즉, “knows”와 “knows how”—을 평가하는 것이라면, 서면 문항(written test items)은 이러한 점수 추론(score inferences)을 뒷받침하기 위한 필요한 타당도 근거(validity evidence)를 충족할 수 있다.

그러나,

만약 목표가 환자와의 실제 의사소통 또는 신체진찰 기술(communication or physical examination skills), 즉 “does” 단계의 수행을 측정하는 것이라면,
→ 시뮬레이션(simulation), 표준화 구두시험(standardized oral exam), 또는
→ 실제 임상 현장에서의 관찰(structured observation)과 같은 수행 평가(performance test)가 더 적절할 수 있다 (Swygert & Williamson, 2015).

또한, 이러한 간극을 메우기 위해 상황판단검사(situational judgment tests; SJTs)와 같은 혁신적인 문항 유형(innovative written item types)이 개발되었다. 이러한 SJT는 사회적 단서(social cues)를 해석하는 능력과 같은 과제를 보다 효율적이고 비용 효율적인 방식으로(efficient and inexpensive manner) 측정할 수 있다.

이 장에서는 CR 및 SR 문항 형식을 통해 가장 잘 다룰 수 있는 인지적 지식(cognitive knowledge) 또는 수행(performance) 평가에만 초점을 맞춘다. 비인지적(non-cognitive) 평가에 더 적합한 SJT 및 기타 수행 문항(performance items)에 대해 더 알고 싶다면, Reiter와 Roberts의 15장(Chapter 15) 또는 Kyllonen의 Handbook of Test Development (2015, pp. 190–211)을 참고하라. 또한, 의과대학 입학의 질을 향상시키는 도구로서 SJT의 잠재력(potential of SJTs)에 관한 최신 논의는 Fitzpatrick & Dunleavy (2016) 및 15장을 참조하라.

CR AND SR ITEM FORMATS: DEFINITION
서술형(Constructed-Response; CR) 및 선택형(Selected-Response; SR) 문항 형식의 정의

서술형 문항(constructed-response items; CR items)은 여기서 비제시형(non-cued), 즉 단서가 주어지지 않은(open-ended) 질문으로 정의된다. 이러한 문항은 응시자(test-takers)가 서면으로 직접 답안을 작성(written responses or answers)하도록 요구한다.

CR 문항은 해당 분야의 전문 지식(content expertise)과 채점 훈련(training)을 갖춘 평가자(judges)가 읽고 채점하며, 오늘날에는 인간 평가자(human judges)가 거의 대부분이지만, 컴퓨터 기반 자동 채점 시스템(computer-based automated systems)의 활용도 점차 증가하고 있다. 이 장에서는 CR 문항의 두 가지 주요 예시인

단답형 문항(short-answer items) 또는 개방형 문항(open-ended items),
장문형 또는 서술형 문항(long-answer or essay questions)
에 초점을 맞춘다.

이러한 CR 형식(CR formats)은 다음과 같은 특징을 가진다.

문항 작성자(item writer)에게 유연성(flexibility)과 창의성(creativity)을 허용하면서도, 평가로서의 강점을 유지한다.
CR 문항은 응시자로부터 단서가 주어지지 않은(non-cued) 서면 답안을 요구하므로, 추측(guessing)의 영향이 감소하며, 응답 선택에 거의 영향을 미치지 않는다.
CR 형식은 소규모 학습자 그룹을 위한 시험을 작성할 때 시간 효율적(time efficient)일 수 있다. 즉, 다수의 고품질 SR 문항을 작성하는 것보다 짧은 서술형 질문(few short essay prompts)을 만드는 데 걸리는 시간이 적기 때문이다.
CR 문항 형식은 채점자가 학습자가 문제를 해결하는 과정에서 거친 단계별 사고 과정(steps in working through a problem)이나, 추론(reasoning) 혹은 문제 해결(problem solving) 과정에서 사용한 논리의 타당성을 채점할 수 있게 하며, 이를 통해 부분 점수(partial credit) 부여가 가능하다.
학습자가 일반적으로 자신의 풀이 과정을 “보여(show their work)”야 하기 때문에, 교수자는 학습자의 인지적 지식(cognitive knowledge)뿐 아니라 추론 능력(reasoning ability)과 논리적 사고(logical ability)에 대해서도 깊은 통찰을 얻을 수 있다. 이러한 특징은 채점 기준표(scoring rubrics) 설계 시 큰 장점으로 활용될 수 있다.

물론, CR 문항은 한계도 존재한다. 이 장의 후반부에서 더 다루겠지만, 대표적인 제약은 다음과 같다.

채점 기준표(scoring rubrics)를 개발하고 채점자(raters)를 훈련시키는 데 소요되는 시간,
평가 영역(domain of interest)을 충분히 포괄하기 위해 필요한 시험 시간 증가(increased testing time) 등이 있다.

이 장에서 사용된 CR 문항의 좁은 정의는, 의학교육 평가에서 흔히 사용되는 다른 형태의 CR 문항(예: 객관적 임상술기시험(Objective Structured Clinical Examination; OSCE)의 서면 의사소통 과제(written communication tasks)—예를 들어 환자 기록(patient notes) 등)을 배제하거나 폄하하려는 의도가 아니다. 이 장에서는 명확성(clarity)과 간결성(brevity)을 위해 단답형(short-answer)과 장문형(long-answer) 문항에만 초점을 맞춘다.

OSCE에서의 서술형 과제에 대한 더 자세한 내용은 9장(Chapter 9)을 참고하라.

반면, 선택형 문항(selected-response; SR items)—특히 그 대표적 형태인 객관식 문항(MCQs; multiple-choice questions)—은 오래전부터 다음과 같이 알려져 있다.

객관적으로 채점 가능한(Objectively scored) 시험을 대규모 응시자 집단(large classrooms)을 대상으로 효율적이고 비용 효율적으로(efficient and cost-effective) 개발할 수 있는 가장 효과적인 수단(Downing, 2002a; Downing & Haladyna, 1997; Haladyna, Downing, & Rodriguez, 2002)이다.
MCQ는 단순한 정보 회상(simple recall)뿐만 아니라, 보다 고차원적인 추론(reasoning) 수준을 평가하는 데에도 유용하다.
이 문항 유형은 대규모 응시자 집단에서도 채점이 쉽고 객관적(easily and objectively scored)이므로, 넓은 지식 영역(knowledge domains)을 포괄하는 평가에 특히 효율적이다.
이러한 특성은 중요도가 높은 평가(high-stakes assessments)나 총괄평가(summative assessments)에서 매우 중요하다.
시험이 넓은 영역(domain)을 포괄함으로써, 전체 내용 영역(content domain)의 대표 표본(representative sample)이 되어 내용 관련 타당도(content-related validity evidence)가 높아지고, 평가 결과로부터 더 나은 추론(inferences) 또는 일반화(generalizations)가 가능해진다.
MCQ는 CR 문항보다 변별도(discrimination)가 높은 경향이 있어, 전반적인 지식 숙달도를 보여주는 학습자와 그렇지 않은 학습자를 더 명확히 구분할 수 있다. (문항 난이도 및 변별도(item difficulty and discrimination)에 대한 자세한 논의는 5장(Chapter 5) 참고.)
유의미한 MCQ 점수 보고서(meaningful MCQ score reports)—즉, 학습자에게 강점(strengths)과 약점(weaknesses)을 구체적으로 피드백하는 보고서—를 컴퓨터를 통해 신속하고 비용 효율적으로 생성할 수 있다.
이를 통해 학습 환경(learning environment)이 개선될 수 있다.

그러나 SR 문항(selected-response items)에는 형식 자체에서 비롯되는 명백한 단점이 존재한다.

정답 선택지(answer options)가 제공되기 때문에, 응시자가 정답을 모르더라도 추측(guessing)을 통해 맞출 가능성이 CR 문항보다 높다.
SR 문항은 빠르고 객관적으로 채점이 가능하지만, 고품질(high-quality) SR 문항을 다수 작성하는 데 필요한 시간은 결코 적지 않다. 예를 들어, 완벽하고 적절한(perfect and relevant) SR 문항 하나를 작성하는 데 30분에서 60분(30–60 minutes)이 걸릴 수 있다 (Rush, Rankin, & White, 2016).

CR 및 SR 문항의 구체적 강점(strengths)과 한계(limitations)는 표 7.1(Table 7.1)에 요약되어 있으며,
일반적인 CR 및 SR 문항 형식의 예시는 표 7.2(Table 7.2)에 제시되어 있다.

표 7.1. 구성형 문항(Constructed-Response Format)과 선택형 문항(Selected-Response Format)의 강점과 한계

🟦 구성형 문항 형식 (Constructed-Response Format)

강점 (Strengths)

문항(item)과 측정하고자 하는 구성요소(construct of interest) 간의 연결(link)을 명확히 보여준다.
유도 반응(cueing responses)을 방지할 수 있다.
지식의 심층적 평가(in-depth assessment of knowledge)가 가능하며,
예를 들어 논리(logic), 추론(reasoning), 문제 해결의 단계(steps in problem solving) 등을 평가할 수 있다.
부분점수(partial credit scoring) 부여가 가능하다.

한계 (Limitations)

시험 시간(testing time)이 상당히 많이 소요되며,
이로 인해 내용 범위의 한정(limited breadth of content)이 발생하고
점수의 일반화 가능성(score generalizability)이 낮아질 수 있다.
채점 기준표(scoring rubrics), 품질관리 절차(quality control measures), 점수 피드백(score feedback) 개발에
많은 시간이 요구된다.
주관적 채점(subjective human scoring)과 채점자 편향(rater biases)으로 인해
구성과 무관한 변산(construct-irrelevant variance)이 유입될 가능성이 있다.

🟩 선택형 문항 형식 (Selected-Response Format)

강점 (Strengths)

넓고 대표성 있는 시험 내용(broad and representative set of test content)을 다룰 수 있다.
명확하고 방어 가능한 평가(clear and defensible assessment)를 제공한다.
정확하고 객관적이며 재현 가능한 점수와 피드백(accurate, objective, reproducible scores and feedback)을
빠르고 간단하게 계산할 수 있다.
평가 시간과 비용(time and cost of assessment)을 줄이면서,
측정 가능한 영역의 범위(scope of the domain)를 확장시킬 수 있다.
기억 용이성(memorability)이 낮기 때문에, 문항은행(item banking) 및 문항 재사용(re-use)의 기회가 많다.

한계 (Limitations)

좋은 문항(good items)을 작성하고 문항 결함(item flaws)을 피하기 위해
상당한 시간과 훈련(substantial time and training)이 필요하다.
응시자가 추측(guessing)을 통해 정답을 맞출 수 있기 때문에
구성과 무관한 변산(construct-irrelevant variance)이 유입될 수 있다.

요약하자면,

구성형 문항(CR)은 심층적 사고, 논리, 추론 과정을 파악할 수 있으나 시간과 채점의 주관성이 한계이고,
선택형 문항(SR)은 효율적이고 객관적이며 넓은 영역을 평가할 수 있지만, 문항 개발의 정교함과 추측 가능성이 주요 한계로 제시됩니다.

CONSTRUCTED-RESPONSE ITEMS: SHORT-ANSWER VS. LONG-ANSWER FORMATS
서술형 문항(Constructed-Response Items): 단답형(Short-Answer)과 장문형(Long-Answer) 형식

CR 문항을 구성하는 첫 단계는 평가하고자 하는 기술(skill) 또는 인지적 수행(cognitive performance)을 식별하고, 그러한 기술을 가장 잘 평가할 수 있는 CR 문항 유형(type of CR item)을 결정하는 것이다 (Lane & Iwatani, 2015).
이러한 선택은 형식 명세(format specification)라고 하며, 다음 요소들에 의해 결정된다.

평가의 목적(purpose of the assessment)
정의된 구성요소(defined constructs) 및 내용 타당도 근거(content-related validity evidence)
시험 플랫폼(test platform) (American Educational Research Association et al., 2014)

앞서 언급했듯이, 단서가 주어지지 않은(non-cued) 글쓰기 능력(writing skills)을 통해 지식의 숙련도(master of knowledge)와 역량(proficiency)을 보여줄 수 있는 시험 환경이 CR 문항 형식에 가장 이상적이다. 따라서 문항 작성자는 단답형(short-answer) 또는 장문형(long-answer) (보통 에세이형(essay items)) 중 어느 형식을 사용할지를 먼저 결정해야 한다.

CR 형식은 일반적으로 상당한 시험 시간(substantial testing time)이 필요하므로, 제한된 시간 안에 출제할 수 있는 문항 수가 상대적으로 적다. 따라서 시험 내용이 더 넓은 영역(domain)으로 일반화될 수 있는 정도가 제한되며, 이 점을 고려하여 형식을 선택해야 한다.
단답형 CR 문항(short-answer CR items)은 동일한 시간 내에 더 많은 문항을 제시할 수 있기 때문에 내용 표집(content sampling)의 폭이 넓어지고, 결과적으로 점수의 신뢰도(reliability of the test scores)가 향상된다.
반면, 시험의 목적이 좁은 영역의 지식(narrow domain of knowledge)을 깊이 있게(in great depth) 평가하는 것이라면, 장문형 에세이(long-answer essays)가 더 적절할 수 있다. 에세이 형식은 응시자에게 특정 주제(topic)나 내용 영역(content area)에 대해 세부적인 답변(detailed responses)을 작성하도록 하여, 지식의 깊이(depth of knowledge)를 평가할 수 있게 한다.

이러한 균형(trade-off)을 항상 염두에 두어야 한다.

즉, 장문형 에세이 문항이 아무리 잘 작성(well-written)되고 정확히 채점(accurately scored)되더라도, 시험 시간 내에 출제 가능한 문항 수가 줄어들면 평가 영역의 대표성(sample representativeness)이 좁아지고, 이는 결국 광범위한 교육 영역(broader educational domains)에서의 점수 일반화(score generalizability)를 약화시키는 부정적 영향을 미칠 수 있다.

CONSTRUCTED-RESPONSE ITEMS: SCORING
서술형 문항의 채점(Scoring)

CR 문항의 채점(scoring)은 여러 면에서 큰 도전이 된다. 이는 단순히 채점 방법의 구체화(operationalizing the scoring method)뿐 아니라, 의도된 추론(intended inferences)을 뒷받침하면서 동시에 유의미한 피드백(necessary feedback)을 제공할 수 있는 최종 점수(final scores)를 개발하고 제시하는 과정 전체를 포함한다.

에세이형 혹은 단답형 CR 문항 모두에서, 채점 절차(scoring procedures)는 인간 평가자(human raters)의 주관적 채점(subjective scoring)으로 인한 부정적 영향을 줄이기 위해 세심한 주의가 필요하다. 채점 절차의 선택(choice of scoring procedure), 평가자 훈련(training of raters), 그리고 채점 방법(scoring methods)은 반드시 해당 CR 과제(task)의 특성과 그 과제가 대표하는 영역(domain)에 적합해야 한다 (Chapter 2; Lane & Stone, 2006; Messick, 1994).

여기에서는 채점 절차(scoring procedures, 즉 채점 기준표 rubrics)와 채점 척도(scoring scales)의 일반적 유형, 그리고 인간 평가자 훈련(training human raters)의 핵심 요소를 논의한다. 이는 CR 문항의 채점 정확도(scoring accuracy)와 점수 해석의 타당도(validity of score interpretations)를 향상시키기 위한 권장사항의 일환이다. 또한, 컴퓨터 기반 채점 방식(computer-based methods of scoring)의 활용도 간략히 논의한다. 이러한 방식은 채점 시간을 줄이고 평가자의 지속적인 개입 필요성을 감소시킬 수 있으나, 여전히 전문가의 판단(human expertise)에 크게 의존한다.

SCORING RUBRICS
채점 기준표(Scoring Rubrics)

채점 기준표(scoring rubric)란,

평가자(raters)에게 CR 문항의 답변(responses)에 대해 숫자 점수(numeric scores)를 어떻게 부여할지를 보여주는 상세한 지침서(detailed guide)로서,
채점의 표준화(standardization)를 도모하고
인간 채점의 주관성(subjectivity)을 줄이는 것을 목표로 한다.

채점 기준표는 특정 과제의 기준점(anchors)과 세부 지침(specific details)을 제시하는 다양한 형태를 취할 수 있다. 그러나 단답형 또는 에세이 과제에 대한 대부분의 채점 기준표는 평정척도(rating scale)의 형태를 가진다. (이는 실제 수행 과제(performance tasks)에서 흔히 쓰이는 체크리스트(checklist)와는 구별된다.)

적절한 서면 CR 과제용 평정척도(rating scale for a written CR task)는 다음을 가능하게 해야 한다.

응답의 질적 수준(quality)을 세밀하게 구분할 수 있고,
평가자가 전문적 판단(expert judgment)이나 훈련된 판단(trained judgment)을 통해 보다 세분화된 평가(nuanced rating)를 할 수 있어야 한다.

평정척도는 하나(single) 또는 복수(multiple)의 점수를 하나의 CR 응답으로부터 산출할 수 있도록 설계될 수 있다 (Kobrin & Kimmel, 2006; Welch, 2006).

단일 총점 또는 총체적 점수(single global or holistic score)를 산출하는 경우, 문항 수행(performance)의 전체적인 질을 하나의 점수로 표현하며, 척도의 수준(levels of the scale)은 응답의 질이 높거나 낮음(increasing or decreasing levels of quality)을 나타낸다.
반면, 분석적 채점(analytic scoring)의 경우, CR 과제는 여러 범주(categories)나 특성(characteristics)에 따라 별도로 평가된다. 예를 들어, 하나의 에세이에 대해 다음과 같은 요소별 점수를 산출할 수 있다.
- 질문에 대한 정확성(accuracy)
- 답변의 구체성(specificity)
- 글의 조직력(organization)
- 철자(spelling)나 문법(grammar) 등 작성 품질(measures of writing quality)

가장 일반적인 평정척도의 유형으로는 리커트형 척도(Likert-type scales)와 행동기반 평정척도(behaviorally anchored rating scales; BARS)가 있다. (후자는 9장(Chapter 9)의 수행평가(performance assessment)에서 자세히 다뤄진다.)

리커트형 척도(Likert-type scale)는 단일 판단(single judgment)에 대한 총체적 인상(holistic impression)을 포착하며,
예를 들어 역량(competency) 측정을 위해 고전적으로 사용되는 “찬성–반대(Agree–Disagree)” 형태의 척도가 이에 해당한다.
행동기반 평정척도(behaviorally anchored rating scales)는 주로 서면 CR 과제(written CR tasks)에 활용되며, 각 척도에 대해 총체적 판단(holistic judgment)을 요구하지만, 척도의 각 수준(scale points)에 행동적 기준점(descriptive behavioral anchors)을 제시한다. 추가적으로, “most, sometimes, many, few”와 같은 용어의 상대적 의미(relative meaning)를 명확히 규정하여, 평가자의 판단을 더욱 일관되게 안내할 수 있다.

표 7.3(Table 7.3)에는 에세이 과제를 대상으로 한 분석적 채점(analytic scoring)을 위한 행동기반 평정척도(behaviorally anchored rating scale)의 단순화된 예시가 제시되어 있다.

What is the best scoring combination of score scale and scoring method to use?
가장 적합한 채점 척도(score scale)와 채점 방법(scoring method)의 조합은 무엇인가?

총체적 평가(holistic ratings), 즉 전문가의 전반적 판단(global judgment)을 기반으로 한 채점 방식은 보건의료전문직 교육(health professions education)의 여러 영역, 특히 면허(licensure)와 인증(certification) 평가에서 오랜 역사를 가지고 있다 (Holmboe & Hawkins, 2008; Yudkowsky, Downing, & Sandlow, 2006).

궁극적으로, 서술형 문항(CR; constructed-response)의 채점 데이터를 어떤 용도로 활용할 것인지(intended use)가 총체적(holistic) 또는 분석적(analytic) 방법 중 어느 것을 선택할지 결정하는 주요 요인이 된다.

총체적 판단(holistic judgment)을 사용하는 경우, 응시자(examinees)에게 세부적인 피드백(detailed feedback)을 제공하기는 어렵다.
분석적 채점 방법(analytic scoring methods)은
- 총체적 방법(global methods)보다 응시자의 수행(performance)에 대한 구체적인 측면(specific aspects)별 피드백을 제공할 수 있지만, 분석적 채점에서 별도로 평가되는 여러 특성(characteristics) 간의 상관(correlation)이 높을 수 있어, 이러한 방법의 장점이 감소될 수 있다.
- 또한 분석적 방법은 일반적으로 총체적 방법보다 더 많은 채점 시간(more scoring time)이 필요하므로, 실행 가능성(feasibility)과 실용성(practicality)도 방법 선택 시 고려해야 한다.
- 다만, 분석적 방법은 부분 점수(partial credit)를 가중치(weighting)나 차등 배분(differential allocation) 방식으로 부여하기에 더 쉽거나 논리적일 수 있다.
  - 예를 들어, 여러 에세이 특성(essay traits)을 평가하는 경우, 총점(total score)을 평가 항목별로 다르게 배분할 수 있다. 즉, 내용(content)과 구조(structure) 요소에는 높은 비중을 두고, 작성 품질(writing quality)이나 조직(organization)에는 상대적으로 낮은 비중을 두는 식이다.

어떤 채점 방법을 사용하든, 시험 개발자(test developer)는 각 에세이 문항에 대해 모범 답안(model answer)을 우선 작성해야 한다.

이 모범 답안(model answer)에는 정답에 포함되어야 할 모든 필수 구성 요소(required components)가 명시되어 있어야 하며, 이는 채점 기준표(scoring rubric)를 설계할 때 출발점으로 활용된다 (Lane & Iwatani, 2015).
모범 답안은 선택형 시험(SR test)에서의 정답표(scoring key)와 유사하므로, 전문가(content experts)가 그 정확성(accuracy)과 완전성(completeness)을 검토해야 한다.
또한, 객관성(objectivity)과 표준화(standardization)가 충분히 확보되어야 하며, 이를 통해 인간 평가자의 주관성(subjectivity)을 최소화해야 한다.

예를 들어, 행동기반 평정척도(behaviorally anchored rating scale)를 사용하는 경우, 모범 답안은 각 척도 수준(scale point)을 보여주는 유용한 예시(example)로 활용될 수 있다.
평정척도의 길이(length)와 각 단계의 설명(description)은 수행(performance)을 정확하게 측정하기 위해 매우 중요하다.

평가자(raters)를 안내하기 위한 명확한 설명(well-defined description)이 필요하며, 척도 수준의 개수는

수행의 의미 있는 차이(meaningful differences)를 구분할 수 있을 만큼 충분해야 하지만,
너무 많아서 평가자가 의미 없는 구분(non-meaningful distinctions)을 하게 되어서는 안 된다 (Lane & Stone, 2006; Shumate, Surles, Johnson, & Penny, 2007).

또한, 각 척도 수준별로 예시 응답(example responses)을 제시하여, 각 점수에 대응하는 수행 수준(level of performance)을 구체적으로 보여주는 것이 좋다. 이때에는 명확히 특정 점수에 부합하는 응답뿐 아니라, 두 점수 사이 경계(borderline)에 있는 응답도 포함해야 한다.

HUMAN RATERS OF CR TASKS
서술형 문항(CR tasks)의 인간 평가자(Human Raters)

CR 문항의 채점 품질(quality of scoring)과 정보 제공 가치(benefits of the information)는 전적으로 인간 평가자의 전문성(expertise)과 판단력(judgment)에 크게 의존한다. 그러나 앞서 언급했듯이, 인간의 개입(human input)은 동시에 관심 구성요소(construct of interest)와 무관한 주관성(subjectivity)이나 잡음(noise)을 점수에 유입시킬 수 있다. 따라서, 평정척도의 유형(type of rating scale)과 평정 지침의 명확성(clarity of rating guidelines)이 이러한 주관성을 줄이는 데 중요하며, 평가자 선발 및 훈련 과정(rater recruitment and training)의 철저함도 핵심적인 역할을 한다.

평가자 훈련의 모범 사례(best practices)는 다음 세 가지 원칙을 포함한다 (Educational Testing Service, 2009).

평가자는 반드시 해당 주제 전문성(subject expertise)을 기반으로 적절히 선발되어야 한다.
평가자의 자격(qualifications)은 평가할 CR 과제(task)와 명확히 연계되어야 한다.
명확하고 체계적인 훈련 절차(training process)가 마련되어야 한다.

훈련 과정(training process)은 다음을 포함해야 한다.

평가자에게 응시자가 실제로 보게 될 시험 과제(test tasks)를 소개하고,
채점 방법(scoring methods)을 충분히 설명하며, 평정척도를 사용할 연습 시간(practice time)을 제공한다.
품질관리용 과제 응답(quality control task responses)을 활용하여 채점 정확도(rater accuracy)에 대한 피드백을 제공하고,
예상치 못한 응시자 답변(unexpected genuine responses), 즉 평정척도에 포함되지 않은 사례들에 대해 토론한다.

단일 교수자(one educator)가 한 학급의 CR 과제를 채점하는 경우에는 위의 모든 절차를 엄격히 적용할 필요는 없지만, 그 기저 원리(rationale)는 여전히 고려해야 한다.

평가가 단일 교수자(single faculty member)에 의해 이루어지든, 훈련된 평가자 팀(team of trained raters)에 의해 이루어지든, 평가자 편향(rater bias)의 가능성은 항상 존재한다. 여기서 편향(bias)이란, 평가자가 채점 기준표(scoring rubric)나 평가 대상 구성요소(construct of interest)와 체계적으로 다르게(systematically different) 평가하는 경향을 의미한다 (Feldman, Lazzara, Vanderbilt, & DiazGranados, 2012).

모든 수행평가(performance tasks)에서 자주 발견되는 여러 형태의 평가자 편향이 존재하며, 이는 아무리 세심한 훈련을 거치더라도 완전히 사라지지 않는다. 따라서 평가자 교육은 이러한 편향 인식(awareness)과 교정(correction)에 초점을 맞춰야 한다. 모범 답안(model answers)과 서면 채점 기준표(written scoring rubrics)의 활용은 주관성을 줄이는 데 도움이 되지만, 훈련 이후에도 평가자 편향은 남을 수 있음을 명심해야 한다.

가장 흔한 평가자 편향 유형은 다음 네 가지이다 (Iramaneerat & Yudkowsky, 2007).

후광 효과(halo effect): 평가자가 목표로 한 능력이나 특성 이외의 요소를 기준으로 채점할 때 발생한다. 예를 들어, 평가자가 필체(handwriting)나 문법(grammar)이 뛰어난 응시자의 에세이에, 채점 기준표에 명시되지 않았음에도 불구하고 더 높은 점수를 주는 경우가 이에 해당한다.
관대함/엄격함 편향(severity or leniency bias): 평가자가 ‘매우 관대한(dove)’ 혹은 ‘매우 엄격한(hawk)’ 경향을 보이는 것이다. 따라서 평가자들은 허용 가능한 수준(acceptable levels)의 관대함 또는 엄격함에 대해 공통된 인식을 갖도록 훈련되어야 한다.
중앙 경향 편향(restriction of range or central tendency bias): 평가자가 모든 수행을 척도의 중간점(midpoint)에 몰아서 평가하는 경향이다. 예를 들어, 모든 응시자에게 “5점”을 주는 경우가 이에 해당한다.
초두 효과(primacy effect): 평가자가 이전에 본 응답들의 수준을 다음 응시자에게 비교 기준(reference)으로 삼는 것이다. 예를 들어, 훌륭한 에세이 여러 개를 본 직후, 보통 수준의 에세이를 채점할 때 채점 기준표보다 낮은 점수(lower score)를 주는 경우다. 즉, 채점자가 기준표가 아닌 이전 응시자들의 수행(peer performances)을 기준으로 삼게 되는 것이다.

이러한 편향이 매우 흔하기 때문에, 다음과 같은 전략이 권장된다.

평가자 성과(rater performance)를 지속적으로 추적(track)하고,
평가자에게 동료 평가자(rater peers)와 비교한 정기적 피드백(frequent feedback)을 제공한다.
이는 품질관리용 과제(quality control tasks)와 실제 과제(genuine task responses) 모두에 대해 적용되어야 한다.
또 다른 방법은, 각 CR 문항(prompt)당 복수의 독립적 평가자(multiple independent raters)를 두고
평균 점수(average rating)를 사용하는 것이다.
평가자들의 편향 방향이 다를 경우, 이 방식은 편향의 부정적 영향을 상쇄할 수 있다.
예를 들어, 한 평가자가 엄격(hawk)한 경향을, 다른 평가자가 관대한(dove) 경향을 보인다면,
그들의 평균 점수는 두 편향의 효과를 서로 상쇄(offset)하게 된다.
또한, 평가자들은 특정 문항(prompt)에 대해 훈련을 받아야 한다.
즉, 한 평가자가 모든 응시자의 동일 문항에 대한 답변을 평가하도록 하고,
한 응시자의 모든 답변을 평가하도록 하는 방식은 피하는 것이 좋다.
평가자에게 이미 알려진 모범 응답(known samples)을 보게 하고 채점하게 하는 것도
품질관리(quality control)에 유용하지만, 평가자는 이 응답이 모범 사례임을 알지 못한 상태(blinded)에서 채점해야 한다.
마지막으로, 평가자는 충분한 시간(time)과 피로 방지 보호(fatigue protection)가 보장된 환경에서 채점을 수행해야 한다.

COMPUTER-BASED RATINGS OF CR TASKS
서술형 문항(CR tasks)의 컴퓨터 기반 채점(Computer-Based Ratings)

CR 과제는 GRE®(Graduate Record Examination)나 AP®(Advanced Placement) 시험과 같은 대규모 시험(large-scale tests)에서도 사용되며, 이러한 시험의 대량 채점을 가능하게 하기 위해 컴퓨터 기반 서술형 채점 모델(computer-based CR task scoring models)과 소프트웨어(software)가 개발되어 왔다.

최초로 대규모 시험에 도입된 전자 채점 시스템은 Educational Testing Service (ETS)의 e-rater®였다. 이는 출시 당시 열정(enthusiasm)과 회의(skepticism)가 공존하는 반응을 불러일으켰으며 (Powers, Burstein, Chodorow, Fowles, & Kukich, 2001), 이후에도 정확도(accuracy)와 적절한 활용(best use)에 관한 연구가 지속되고 있다.
Haberman (2007)은 여러 전자 에세이 채점 시스템(electronic essay scoring systems)에 대한 유용한 개요를 제공하며,
일부 전자 채점 방식이 인간 채점 결과(human ratings)와 유사한 수준의 결과(on par)를 훨씬 빠른 속도로 도출할 수 있음을 보여준다.

전자 채점 시스템을 고려하는 교육자는 다음의 주의 사항(caveats)을 명심해야 한다.

첫째, 전자 채점 방법(electronic scoring methods)에는 여러 종류가 있으며, 이들은 학습자에게 설명하기 쉬운 정도(ease of explanation), 에세이 유형별 적합성(suitability for different essay types), 효율성 향상(contribution to efficiency) 측면에서 차이를 보인다.
둘째, 채점의 타당도(score validity)와 신뢰도(reliability)를 향상시키기 위해 컴퓨터 시스템을 도입하지 않고도 인간적 개입(human interventions)만으로도 효과를 낼 수 있다. 예를 들어, 평가자 훈련 개선(improvement of rater training), CR 과제의 평가자 배정 조정(more careful assignments), 평가자 효과 보정(adjustments for rater effects) 등이 있다.
셋째이자 가장 중요한 점은, 전자 채점 시스템(electronic CR task rating system)은 만능 도구(a magic wand)가 아니라는 것이다. 컴퓨터 기반 채점(computer scoring)이 도입되더라도 여전히 문항 설계(CR task prompt construction)와 채점 기준표 개발(scoring rubric development)에는 신중한 인간의 노력이 필요(careful human effort)하다. 또한, 학습자가 시스템을 악용하거나(game the system) 인위적으로 점수를 높이려는(attempt to inflate scores) 가능성을 완전히 막을 수도 없다. 오히려 이러한 점은 인간적 감독(human oversight)의 필요성을 더욱 강조한다. 왜냐하면 컴퓨터는 인간 채점자와 달리 사후적으로 이러한 문제를 인식하거나 조정할 수 없기 때문이다.

CONSTRUCTED-RESPONSE ITEMS: THREATS TO SCORE VALIDITY
서술형 문항(CR items)의 점수 타당도(score validity)에 대한 위협 요인

이 장에서는 이미 서술형 문항의 점수 추론(CR test score inferences)의 구성 타당도(construct validity evidence)를 위협하는 두 가지 주요 요인을 언급했다.

첫 번째는 구성요소의 과소대표(construct underrepresentation; CU)이다.
- 즉, 평가 영역(domain of interest)에 대한 문항 수가 줄어들어 평가 포인트(assessment points)가 부족한 경우, 아무리 완벽한 에세이 문항 집합이라도 점수의 구성 타당도 근거(validity evidence)가 약화된다. 문항이 너무 적으면 전체 영역으로의 일반화(generalization)가 불가능해지기 때문이다.
두 번째는 구성과 무관한 변산(introduction of construct-irrelevant variance; CIV)이다.
- 이는 평가 결과에 체계적(sytematic)이지만 관심 구성요소와 무관한(irrelevant) 변산이 포함되는 경우를 의미한다. CR 문항 형식에서 가장 명백한 CIV의 원인은 객관적 채점(objective scoring)의 부재이다. 즉, 평정척도의 주관성(subjectivity of rating scales)과 인간 평가자(human raters) (또는 인간 판단에 의존하는 컴퓨터 시스템)의 사용이
  점수의 일반화 가능성(generalizability)을 저해할 수 있다 (Downing, 2002b; Downing & Haladyna, 2004; Haladyna & Downing, 2004; Messick, 1989).

앞서 제시한 권고사항 외에도, CR 문항 개발자(task developer)는 시험 상황(testing scenario)과 응시자 집단(test-taker group)을 분석하여 추가적인 CIV의 원인(sources of CIV)을 평가해야 한다. 이러한 원인에는 다음과 같은 의도적(test-wise) 또는 비의도적(inadvertent) 응시자 행동이 포함될 수 있다.

시험 공간을 채우기 위한 의도적 질문 재진술(restating the question to fill space)
질문을 변형하여 다른 질문에 답하는 것처럼 보이게 하는 재진술(restating the question to answer a different one)
지문에 제시되지 않은 다른 질문의 정답을 작성(writing correct answers to different questions)
채점자의 편향(biases)에 호소하려는 답변 작성(writing answers appealing to rater bias) 등
(예: Linn & Miller, 2005)

응시자의 bluffing(허세형 답변)이 성공한다면, 이는 CIV를 유입(introduce)시켜 측정하려는 특성이 아닌(traits not intended to be measured) 요소에 의해 점수가 인위적으로 상승(artificially inflated)하게 만든다.

응답자의 작성 스타일(response style) 또한 CIV의 원인이 될 수 있다. 예를 들어, 필체(handwriting), 문법(grammar), 철자(spelling), 구두점(punctuation) 등의 요소가 평가하고자 하는 구성요소(construct of interest)와 무관함에도 불구하고 평가자의 긍정적 또는 부정적 판단을 유발하여 점수에 영향을 미치는 경우이다.

이러한 우려에도 불구하고, 서술형 문항 형식(CR item format)은 여전히 보건의료전문직 교육(health professions education)에서 유용하고 타당한 평가 도구(useful and defensible format)로 간주된다. 교수자로서 당신은 다음의 근거를 제시할 준비가 되어 있어야 한다.

CR 형식이 선택형 문항(SR items)으로는 쉽게 측정할 수 없는 기술(skills)을 평가하기 위해 사용되고 있음을 보여야 한다.
CR 문항의 프롬프트(prompts)가 관련 있는 내용(relevant content)에 명확히 연계되어 있음을 보여야 한다.
채점 기준표(scoring rubrics)가 포괄적(comprehensive)이며 문서화(well-documented)되어 있음을 입증해야 한다.
평가자 편향(rater bias)의 가능성에 대해 충분한 관심(attention)과 관리(measures)가 이루어지고 있음을 보여야 한다.

SELECTED-RESPONSE ITEMS
선택형 문항(Selected-Response Items)

선택형 문항의 가장 대표적인 형태는 객관식 문항(MCQ; multiple-choice question)이다. MCQ의 구조(structure)는 단순해 보이지만, 실제로는 정교하다. 기본적인 MCQ 형식은 다음 두 부분으로 구성된다.

문항의 본문(stem or lead-in): 응시자가 답변을 도출하는 데 필요한 모든 정보를 포함한 자극(stimulus)을 제시한다.
선택지(options): 제시된 질문에 대한 가능한 답변을 나열한다.
가장 일반적인 형식은 단일 정답형(single-best-answer)으로, 여러 선택지 중 가장 정확하거나 적절한(most correct or appropriate) 응답을 선택하도록 한다. 이러한 단순한 구조는 높은 유연성(flexibility)을 제공하는 동시에, 문항 작성자가 주의하지 않으면 문항 오류(item flaws)를 유발할 수 있는 여러 함정을 내포한다.
그 외에도 참/거짓(True/False; TF) 문항, 단순 회상(simple recall), 매칭(matching) 등 다양한 SR 형식이 있으며, 이는 과거에는 입학(admissions)이나 면허시험(licensure exams) 등 고위험 평가(high-stakes exams)에서도 사용되었으나, 현재는 주로 형성평가(formative assessment)나 수업 내 저위험 평가(lower-stakes classroom settings)에서 활용된다.

이 장에서는 주로 객관식 문항(MCQ)에 초점을 맞추되, 필요할 경우 다른 SR 형식도 함께 언급한다.

이 절에서는 다음 세 가지를 다룬다.

효과적인 MCQ 작성의 기본 원칙(basic principles for writing effective MCQs)
잘 알려진 MCQ 오류 탐지 및 제거 방법(methods to detect and remove known MCQ flaws)
SR 문항 사용 시 신뢰도(reliability)와 타당도(validity evidence)에 영향을 미치는 요인(factors impacting reliability and validity evidence)

SR ITEM FORMATS: GENERAL GUIDELINES FOR WRITING MCQS
선택형 문항(SR item formats): 객관식 문항(MCQs) 작성에 대한 일반 지침

수십 년간의 개발과 연구, 그리고 광범위한 활용을 거치면서, 효과적이고 타당한 선택형 문항 형식(effective and defensible SR item formats)을 만들기 위한 여러 원칙(principles)이 제시되어 왔다 (Haladyna & Downing, 1989a, 1989b; Haladyna et al., 2002). 사용자 친화적이고 세부적인 문항 작성 가이드(item writing guides)로는, Haladyna(1997)의 Writing Test Items to Evaluate Higher Order Thinking이 있으며, 보건의료 교육자를 위한 최신 버전으로는 Paniagua & Swygert (2017)의 Constructing Written Test Questions for the Basic and Clinical Sciences가 있다. 이들 자료에서 제시된 지침 중 일부를 발췌하여, 효과적인 객관식 문항(MCQs)을 작성하기 위한 모범 사례(best practices) 또는 핵심 원칙(principles)로 요약한 것이 표 7.4(Table 7.4)이다.

표 7.4. 고품질 객관식 문항(MCQs) 작성 지침
Table 7.4. Guidelines for Writing High-Quality MCQs

🟦 일반 지침 (General)

임상적(clinical) 또는 실험적(experimentally based) 비네트(vignettes)를 활용하여 고차 사고 능력(higher-order thinking skills)을 평가하도록 고려하라. 단순한 사실 회상(simple recall of isolated facts)에 그치지 않도록 한다.
불필요한 정보(window dressing, extraneous information)를 문항에 포함하지 말라. 이상적으로는, 문항에 제시된 모든 정보가 문제 해결에 필수적(all item content is necessary to answer the item)이어야 한다.
학습 내용을 직접 가르치는 문장(teaching statements)을 피하라. 즉, 핵심 개념(central idea)은 선택지(options)가 아니라 본문(stem)에 포함되어야 한다.
문항 전체에서 구문(parallel construction)과 언어 표현(language use)의 일관성(consistency)을 유지하라.
문법(grammar), 구두점(punctuation), 대문자(capitalization), 철자(spelling)를 정확히 사용하고, 모든 문항을 세심히 교정(proofread carefully)하라.

🟩 본문/리드인 (Stems / Lead-Ins)

긍정형 질문(positive lead-ins)을 사용하라.
예: “Which one of the following is correct?”
(다음 중 옳은 것은 어느 것입니까?)
⮕ “Which one of the following is not correct?”
(다음 중 옳지 않은 것은 어느 것입니까?)과 같은 부정형 질문(negative lead-ins)은 응시자를 혼란스럽게 할 수 있다.
본문(stem)이나 선택지(option)에 같은 단어를 반복(repeating words)하지 말라.
이는 정답 단서(cueing the correct answer)로 작용할 수 있다.
절대적 표현(absolute statements)을 피하라.
예: “Which one of the following is never the case?” (다음 중 결코 해당되지 않는 것은?) → 오해(misinterpretation)를 초래할 수 있다.
집중적이고 폐쇄형 리드인(focused, closed lead-ins)을 사용하라.
즉, 질문 부호(question mark)로 끝나는 명확한 질문 형태(create clear question-ending stems)를 사용해
문법적 단서(grammar cueing)를 방지하라.

🟨 선택지 (Options)

가능한 한 많은 그럴듯한 오답지(plausible distractors)를 개발하라.
문항당 총 3~5개의 선택지(three to five total options per MCQ)가 이상적이다.
단 하나의 정답(single correct answer)만 포함하라. (특히 단일정답형 one-best-answer items의 경우)
선택지 간의 중복(overlap)을 피하고, 모든 선택지가 비슷한 길이(length)와 문법적 형태(grammar style)를 가지도록 하라.
예: 모든 선택지가 진단명(diagnoses)이거나, 모든 선택지가 복수형(plural forms)일 것.
선택지들은 가능한 한 길이(length), 구조(structure), 문체(style) 면에서 균질하게(homogeneous) 구성하라.
특히 정답(correct answer)이 가장 길거나(longest) 가장 복잡한(most complex) 형태가 되지 않도록 한다.
“none of the above(이 중 해당 없음)”이나 “all of the above(이 중 모두 해당)”와 같은 선택지는
특정 행동(specific action)을 나타내는 문구로 바꾸라.
예: “no intervention needed(중재 필요 없음)” 또는 “reassurance only(안심 조치만 필요)”.
가능한 경우, 단일 선택(single options)만을 사용하여
응시자의 혼란(confusing test-takers)을 최소화하라.

객관식 문항(SR item)을 작성할 때 가장 우선적이고 중요한 목표(first and most important goal)는 문항의 내용(content)이 평가 목적(purpose of assessment)에 관련성(relevant), 중요성(important), 적절성(appropriate)을 지니도록 하는 것이다.

질문이 요구하는 인지적 수준(cognitive level)과
그 문항이 목표로 하는 수업 목표(instructional objective) 사이에는 반드시 적절한 일치(good match)가 있어야 한다.
본질적으로, 특정 내용 영역(content area)을 충분히 숙달한 응시자(examinee)는
거의 의식적 사고(conscious thought) 없이 답을 회상할 수 있는 반면,
그렇지 않은 응시자는 기초 원리(basic principles)로부터 추론(reason out)해야 할 수도 있다.
즉, 질문에 응답할 때 요구되는 인지적 과정(cognitive processes)은 학습자마다 다르기 때문에,
이를 위계적 분류체계(taxonomic approach)로 단순히 구분하기는 어렵다.

한 가지 유용한 접근법은 SR 문항을 다음 두 범주로 나누는 것이다.

지식의 적용(application of knowledge)
사실의 회상(recall of a fact) (자세한 내용은 표 7.5(Table 7.5) 참조)
- 응시자가 결론을 도출(reach a conclusion)하거나, 예측(make a prediction)하거나, 행동 방침(course of action)을 선택해야 하는 경우, 그 문항은 지식의 적용(application of knowledge) 문항으로 분류된다.
- 반대로, 사실(fact)을 단순히 기억(recall)하기만 하면 되는 문항은, 회상형 문항(recall question)으로 분류된다.

표 7.5. 형성평가(Formative Assessment)와 총괄평가(Summative Assessment)에서의 회상형 문항(Recall Items)과 적용형 문항(Application Items) 비교

🟦 회상형 문항 (Recall items: short item with no vignette)

형성평가에서 (Formative Assessment)

수업의 효과(efficacy of classroom instruction)를 평가하는 데 유용할 수 있다.
‘빠른 연속 자극(rapid-fire)’ 형태로 학습을 촉진할 수 있다.
응시자의 주의(attention)를 사실 학습(learning facts)에 집중시키는 데 도움이 될 수 있다.

총괄평가에서 (Summative Assessment)

문항을 더 많이 작성할 수 있다 (increased quantity of items) — 작성과 응답이 더 빠르다 (quicker to write and to answer).
단일 단계(single-step)의 질문이나 단일 개념(single concept/fact)을 평가하는 데 적합하다.

🟩 적용형 문항 (Application items: with use of clinical or experimental vignette)

형성평가에서 (Formative Assessment)

응시자가 환자 시나리오(patient scenario)에 익숙해지도록 학습시킨다.
문제 기반 학습(problem-based learning)의 평가에 더 적합하다.
팀 기반 학습(team-based learning)의 평가에 더 적합하다.
수업 중 임상적 또는 실험적 상황(clinical or experimental scenarios)과의 연계를 강화한다.

총괄평가에서 (Summative Assessment)

고차 사고 능력(higher-order thinking skills)을 평가할 수 있다.
실제 임상(real-world practice)을 더 잘 반영할 수 있다 (better approximation).
통합(integration)과 차별화(differentiation) 평가가 가능하다.
다단계 문항 형식(multi-step question formats) 적용이 용이하다 (amenable to multi-step formats).

✅ 요약 정리

회상형 문항(Recall type)은 짧고 간결하며, 빠른 학습 자극과 사실 중심 평가에 적합하다.
적용형 문항(Application type)은 임상적 맥락과 문제 해결력을 강조하며, 고차 사고와 실제 수행 역량 평가에 효과적이다.
따라서 형성평가에서는 학습 촉진, 총괄평가에서는 실제 수행 능력 평가의 목적에 각각 더 잘 부합한다.

보건의료전문직 교육(health professions education)에서는 SR 문항의 본문(stem)에 임상 시나리오(clinical vignette)를 포함하는 것이 지식의 적용(application of knowledge)을 평가하는 데 매우 권장된다 (Paniagua & Swygert, 2017).

임상 비네트(clinical vignette)란, 보통 가상의 환자(fictitious patient)에 대한 정보 모음(collection of information)으로, 응시자가 이를 평가(evaluate)해야 하는 형태를 말한다.
가능한 경우, 비네트를 포함함으로써
고차 사고 능력(higher-order thinking skills),
사실과 임상 추론의 통합(integration of facts with clinical reasoning),
그리고 고급 지식 및 기술(advanced knowledge and skills)을 평가할 수 있다.
또한, 비네트는 다단계 문항 형식(multi-step item formats)—즉, 하나의 비네트에 여러 SR 문항을 연결하는 방식—에도 적합하며, 응시자와 평가 결과 이용자 모두에게 현실성(authenticity)과 실제성(representativeness)이 높은 평가 방식으로 인식된다.
이미지(images), 사진(photos), 방사선 사진(radiographs) 등
다양한 미디어 자료(media objects)를 비네트에 포함시키는 것도 좋은 방법이다.
이러한 자료는 현실감(authenticity)과 정보량(information)을 높이면서도 읽기 부담(reading load)을 늘리지 않는다.

MCQ의 내용(content)이 적절히 다뤄졌다면, 이제 문항의 표현(style)과 형식(formatting)을 점검해야 한다.

형식이 잘못된 MCQ(badly formatted MCQ)는 비록 내용이 타당하더라도 CIV(construct-irrelevant variance; 구성과 무관한 변산)를 유발하여 점수의 신뢰도를 떨어뜨릴 수 있다.

MCQ의 문장 표현(wording)은 매우 명확해야 하며(extremely clear),
언어적 모호성(ambiguities of language)이 없어야 한다.
지식이 충분한 응시자(knowledgeable test-takers)를 의도적으로 함정(trick)에 빠뜨리는 문항을 만들어서는 안 된다.
문항의 본문(stem)은 선택지(option set)를 보기 전에도 정답을 유추할 수 있을 만큼 명확하고 완결성(complete)이 있어야 한다.
선택지 세트(set of options)는 동질적(homogeneous)이어야 하며,
모든 선택지가 동일한 범주(class)에 속하고, 모두 타당하게 보이는 정답(plausible correct answers)이어야 한다.
그래야 응시자가 정답을 단서(cue)로 유추하지 못한다.
단 하나(one and only one)의 선택지만이 정답(correct) 또는 가장 적절한 답(best answer)이어야 한다.
이상적으로는, MCQ 작성자는 해당 분야의 전문가(content expert)로서,
문항의 관련성(relevance)을 보장함과 동시에,
충분한 검토 시간(review time)을 갖고 문항을 재검토하여
기술적 오류(technical flaws)를 제거해야 한다.
이러한 오류의 구체적인 유형은 다음 절에서 자세히 다룬다.

SR ITEM FORMATS: AVOIDING KNOWN MCQ FLAWS
선택형 문항 형식(SR item formats): 알려진 객관식 문항 결함(MCQ flaws) 피하기

결함이 있는 시험 문항(flawed test items)은 여러 방향으로 점수를 편향(bias)시킬 수 있다.

어떤 결함은 응시자(test-taker)가 정답을 모르는 경우에도 맞출 확률을 높이는(easy to guess correctly) 반면,
다른 결함은 심지어 내용을 숙달한( mastered) 응시자조차 오답을 선택하도록 혼란(confuse)을 줄 수 있다.

교육자로서, 자신의 MCQ에 결함이 없다고 가정해서는 안 되며, 결함으로 인해 유입되는 구성과 무관한 변산(CIV; construct-irrelevant variance)이 한 방향으로만 점수에 영향을 준다고 가정해서도 안 된다. 결함의 존재는 점수 해석(score interpretations)의 타당도 근거(validity evidence)에 중대한 부정적 영향을 줄 잠재력이 있으며, 세심한 품질 관리 과정(quality process)에는 반드시 결함 가능성에 대한 면밀한 검토(close review)가 포함되어야 한다 (Baranowski, 2006). 가장 흔한 MCQ 결함은 다음 세 가지 영역으로 나눌 수 있다.

내용(content)의 결함
표현/문체(style)의 결함
서식/형식(formatting)의 결함

내용 결함(content flaw)은 앞서 언급했듯이 치명적(devastating)일 수 있다.

사소한 내용(trivial content)을 낮은 인지 수준(low level of the cognitive domain)에서 묻는 부실하거나 결함 있는 MCQ는 일반화 가능성(generalizability)이 제한적이며, 응시자 수행(performance)에 관한 중요한 정보를 제공하지 못할 수 있다.
내용 전문가(content expertise)인 문항 작성자(item writers)는 종종 응시자의 관점(test-taker mindset)에 자신을 놓기 어려워, 응시자가 알 것 같은 것(likely to know)을 과대평가하고 알아야 하는 것(should know)(혹은 전문가 수준이라면 알 법한 것)을 과소평가할 수 있다.
MCQ의 장점 중 하나는 짧은 시간에 다수 문항을 제시하여 넓은 영역(broader domain)을 평가할 수 있다는 점이지만, 사소하거나 중요 내용에 초점을 두지 않은 각 문항은 평가 기회 상실(missed assessment opportunity)을 의미한다.
문항 작성(item writing)에 착수하기 전에, 시험 개발자(test developers)는 시험 청사진(test blueprint)을 면밀히 검토하여, MCQ가 관심 구성요소(constructs of interest)를 원하는 수(desired numbers)만큼 정확히 반영하는지 확인하고, 각 문항이 평가할 정확한 포인트(exact testing points)를 명시적으로 목록화해야 한다.

표현(style)과 형식(formatting)의 결함은 상대적으로 발견과 수정이 쉬운 편이지만, 탐지되지 않으면 매우 심각한 문제를 야기할 수 있다.

흔한 스타일/형식 결함으로는 초점이 흐릿하거나 개방형인 본문(stem)(불완전 문장, unfocused or open-ended stems)이 있다. 질문이 무엇인지가 불명확하거나 모호하게(ambiguously) 서술되어 응시자가 무엇을 묻는지 혼란스러워한다.
부정어가 포함된 본문(negative stems)(예: “다음 중 옳지 않은 것(NOT correct)은?”)은, 강조하더라도 응시자가 오독(misread)하기 쉽다.
본문에 정답에 대한 비의도적 단서(inadvertent cues)가 들어가 시험 전략이 있는(testwise) 응시자가 내용 지식 없이도 맞출 수 있게 만들거나, 반대로 너무 모호하여 내용을 아는 응시자도 틀리게 만들 수 있다.
길이나 문체가 제각각인 선택지(option)는 피하는 것이 최선이다. 흔한 결과로, 문항 작성자가 정답(keyed correct answer)에 가장 많은 공을 들이기 때문에 정답이 가장 길어지는 경향이 생기고, 이는 시험 전략이 있는 응시자에게 가장 길거나 가장 복잡한 선택지를 고르는 단서(cue)가 된다.
비현실적인 오답지(implausible distractors)는 응시자가 일부 선택지를 쉽게 제거하게 하여 추측으로 정답을 맞출 가능성을 높인다.

스타일/형식 결함에 대한 보다 포괄적 설명은 Downing (2002a, 2002b, 2005), Rodriguez (2015), Paniagua & Swygert (2017)을 참조하라.

문항 결함(item flaws)은 교수나 교육자들이 인식하는 것보다 더 흔하며, 그 영향은 문제적(problematic)일 수 있다.

한 연구에서는, 결함 있는 문항(flawed items)이 의대생에게 인위적으로 더 어렵게 작용하여, 비결함 MCQ로 동일 내용을 평가했을 때 합격하는 학생의 14%를 오답으로 분류(misclassified)하는 결과가 나타났다 (Downing, 2005).
기초의학 연말 시험(33문항 MCQ) 분석에서 문항의 1/3이 결함으로 드러났고, 결함을 수정하자 합격률이 20% 이상 증가했다 (Downing, 2002b).
한 신설 의과대학 연구에서는, 문항 결함에 대한 교수들의 인지와 우려에도 불구하고, 다수의 교수 개발 평가 도구의 MCQ가 단순 회상(simple recall)만을 측정했고, 거의 절반의 MCQ에 비현실적 오답지(implausible distractors), 초점 불명확 본문(unfocused stems) 등 스타일/형식 결함이 포함되어 있었다 (Baig, Ali, Ali, & Huda, 2014).
다른 연구들 역시, 수업 문항은행(classroom item banks)을 일반적으로 검토하면 전체 MCQ의 1/4에서 3/4에 이르는 비율로 결함이 발견된다고 보고했다 (Ellsworth, Dunnel, & Duell, 1990; Tarrant, Knierim, Hayes, & Ware, 2006; Khan, Danish, Awan, & Anwar, 2013).

다행히, 문항 결함을 제거하는 교정 조치(corrective action)가 상당한 긍정적 효과를 낸다는 연구가 있다.

Downing (2005)은 다섯 가지 흔한 결함—초점 불명확 본문(unfocused stems), 부정 문항(negative stems), “모두 해당(all of the above)”, “해당 없음(none of the above)”, 부분 K형 문항(so-called partial-K type item)—을 제거하는 것만으로도 부실하게 작성된 MCQ의 부정적 효과를 크게 줄일 수 있음을 보여주었다.
수업용 MCQ의 선택지 옵션(item options)을 대상으로 한 연구에서는, 작동하지 않는 오답지(non-functioning distractors)(가장 흔한 이유는 비현실성 implausibility)를 제거하면 문항 난이도는 상승하지만 변별도(discrimination)도 높아져, 측정의 질(measurement quality)이 개선됨을 보였다 (Tarrant, Ware, & Mohammed, 2009).
여러 의과대학의 문항은행(item banks)을 비교한 연구에서는, 전문화된 문항 작성(training) 교육을 받은 교수의 문항이, 그렇지 않은 교수의 문항에 비해 결함이 없을 가능성이 훨씬 높았다 (Jozefowicz et al., 2002).
전문 교육은 비용/시간이 많이 든다고 느껴질 수 있으나, 단 1일(one day)의 문항 작성자 교육만으로도 문항의 질에 유의미한 긍정적 효과가 있다는 증거가 있다 (AlFaris et al., 2015).

MCQ 결함에 관한 문헌은 몇 가지 주목할 결론을 시사한다.

첫째, 목표 내용(targeted content)이 명확하더라도 MCQ에는 여러 유형의 결함이 발생할 수 있다.
다음으로, 보건의료분야 수업 성취도 시험(classroom achievement tests), 때로는 고위험(high-stakes) 시험에서도 다수의 결함 문항이 포함될 수 있으며, 이는 학습자 성취 측정에 부정적 영향을 주어 합격/불합격(pass-fail) 결정을 편향시킬 수 있다.
마지막으로, 전문화된 문항 작성자 교육(specialized item writer training)은 제한된 시간/자원으로 수행하더라도 결함 예방과 문항 생산의 질 향상에 도움이 될 가능성이 높다.

결론적으로, 효과적인 MCQ 작성은 예술(art)이자 과학(science)이다. 최종 산물의 질은 문항 작성자 교육(training), 효과적인 교육 자료(training materials)의 사용, 연습(practice), 피드백(feedback), 동기(motivation), 심지어 문장력(writing ability) 등 다수의 변인의 영향을 받는다. 내용 전문성(content expertise)은 효과적인 문항 작성자의 가장 핵심적 특성이지만, 이것만으로는 충분하지 않다. 내용을 훌륭히 이해하는 전문가라 하더라도, 문항 작성법(item writing)에 대한 학습이나 외부의 검토/편집 지원(external support for reviewing and editing)을 통해 결함 제거에서 도움을 받을 수 있다. 문항 작성(item writing)은 특수한 기술(specialized skill)이며, 다른 모든 기술과 마찬가지로 지도된 연습(guided practice)과 수행에 대한 피드백(feedback on performance)을 통해 숙달되어야 한다.

SR ITEM FORMATS: NUMBER OF MCQ OPTIONS
선택형 문항 형식(SR item formats): 객관식 문항(MCQs)의 선택지 수(number of options)

전통적으로 객관식 문항(MCQs)은 4개 또는 5개의 선택지(options)를 갖지만, 타당한 오답지(plausible distractors)를 만드는 것이 어렵다는 점에서, 최적의 선택지 수(optimal number of options)—즉, 4번째나 5번째 선택지가 실제로 필요한가—에 대한 논의는 여전히 열린 연구 주제(open research question)로 남아 있다.

Rodriguez (2005)는 여러 연구를 통합한 메타분석(meta-analysis)에서, 대부분의 MCQ에 대해 정답 1개 + 오답 2개, 총 3개 선택지(three options plus a correct answer)가 가장 적절(best)하다고 제안했다.
과거 연구들에 따르면, 4지 또는 5지 MCQ의 경우 실제로 기능적으로 작동하는 선택지는 대개 3개 정도에 불과하다.
여기서 기능적 오답지(functional distractors)란 전체 응시자의 5% 이상이 선택하며, 동시에 음의 변별도(negative discrimination index)를 갖는 선택지를 의미한다 (Haladyna & Downing, 1993).

일반적인 문항 작성 권장사항(item writing recommendation)은 다음과 같다.

“가능한 한 많은 타당한 선택지를 개발하라(develop as many effective choices as you can), 그러나 연구에 따르면 세 개면 충분하다(three is adequate).”
(Haladyna, Downing, & Rodriguez, 2002, p.312)

3개 이상 선택지를 사용하는 것이 시험에 치명적 해를 끼치지는 않지만(not do much harm), 문항 작성자(item writer)와 응시자(test-taker) 모두에게 비효율성(inefficiency)을 초래하며, 읽기 및 응답 시간(reading and response time)이 증가하여, 시간당 출제 가능한 총 문항 수(total number of MCQs per hour)를 줄일 수 있다 (Schneid, Armour, Park, Yudkowsky, & Bordage, 2014).

물론 선택지 수가 적을수록,

무작정 추측(uninformed guessing)으로 정답을 맞출 확률(probability of correct guess)은 높아진다.
예를 들어, 3지선다형에서는 0.33(33%), 5지선다형에서는 0.20(20%)이다.
만약 문항 결함(item flaws)이 존재하여 시험 전략이 있는(savvy) 응시자가 추론적 추측(educated guessing)을 할 수 있다면, 그 확률은 훨씬 더 높아질 수 있다. 또한 선택지 수를 줄이면 문항의 변별도(discrimination)가 다소 낮아져,
결과적으로 점수의 일반화 가능성(generalizability of the test scores)에 영향을 줄 수 있다 (Rodriguez, 2005).

그러나 적절한 난이도로 설계된(well-written and well-targeted) 충분한 수의 MCQ가 있다면, 이러한 추측 확률(guessing probability)과 변별도의 미세한 변화(slight shifts)가 실질적으로 점수에 유의미한 영향을 미치지 않는다. 그럼에도 불구하고, 이는 여전히 활발한 연구 영역(fertile area for research)이다. 예를 들어, 오답지 수를 줄인 시험(exams with fewer distractors)— 예를 들어 2016년 3월 개편된 SAT에서 모든 객관식 문항의 선택지가 5개에서 4개로 감소—에서 신뢰도(reliability) 변화가 관찰되는지 여부는 흥미로운 연구 주제가 될 것이다. 따라서 전문가(subject matter expert)에게 권장할 합리적 지침은 다음과 같다.

모든 오답지(distractors)가 비네트(vignette) 내용과 의미 있는 관련(plausibility and connection)을 갖도록 하여 모두 그럴듯해야 한다.

SR ITEM FORMATS: MCQ SCORING METHODS
선택형 문항 형식(SR item formats): 객관식 문항(MCQs)의 채점 방식(scoring methods)

선택형 문항(SR items), 특히 객관식 문항(MCQs)의 주요 강점 중 하나는 채점 방식의 명확성(clarity)과 객관성(objectivity)이다. 이는 정의하기 쉽고, 응시자(test-takers)에게 설명(explain)하거나 정당화(defend)하기도 간단하다. SR 시험(SR tests)을 채점하는 데에는 두 가지 기본적인 방식이 있다.

정답 문항 수 합산법(summing up the number of correct items) — 즉 단순정답채점(number-correct scoring)
추측 보정 공식(formula scoring) — 즉 추측으로 인한 점수 왜곡(correcting for presumed guessing)을 수정하려는 방식

정답 문항 수를 단순히 세는 방식(simple count of correct items)은 특히 교실 환경(classroom context)에서 가장 적합한 채점 방법(best score to use)으로 간주된다. 이러한 원점수(raw score)는 필요 시 정답 비율(percent-correct score), 파생 점수(derived score), 표준 점수(standard score), 혹은 선형 변환(linear transformation)된 다른 척도로 변환할 수 있다 (→ see Chapter 5).

반면, 추측 보정 공식(formula scoring)은 무작위 추측(random guessing)의 부정적 효과(ill effects)를 줄이거나 제거하려는 모든 시도를 포함한다. 이러한 공식들은 두 가지 방식으로 작동한다.

추측하지 않은 응시자에게 보상을 주는 방식(rewarding for not guessing)
추측한 응시자를 감점(penalizing for guessing)하는 방식 (Downing, 2003)

직관적으로는 이러한 보정이 타당해 보일 수 있으나, 연구 결과에 따르면 두 방식 모두 응시자들의 서열(rank order)에는 동일한 결과를 낸다. 즉, 점수의 절대값(absolute values)은 달라질 수 있지만, 상대적 순위는 동일하다.

또한, 시험에서 응시자에게 모든 문항에 답하라(answer all questions)거나 확실한 문항만 답하라(only those you know for certain)고 지시하더라도, 숙련된 응시자(savvy test-takers)는 모든 문항에 답변을 시도해야 점수를 극대화할 수 있다는 사실을 알고 있다. 즉, 시험 지시사항이나 채점 공식이 무엇이든, 응시자는 모든 문항에 답변하는 것이 최선의 전략이다.
결과적으로, 추측 보정(corrections for guessing)은 오히려 점수를 왜곡(bias scores)시킬 수 있으며, 구성과 무관한 변산(CIV)을 점수에 추가하여 점수 사용(score use)의 타당도 논거(validity argument)를 약화시킬 수 있다 (예: Muijtjens, van Mameren, Hoogenboom, Evers, & van der Vleuten, 1999).

MCQ 채점에서 자주 제기되는 또 다른 질문은, 내용에 따른 차등 가중치(differential weighting based on content)의 적용 여부이다. 즉, 문항 주제(topic)에 따라 1점 이상(more than one point per item)을 부여하면 더 높은 신뢰도(reliability)나 타당도(validity)를 얻을 수 있는지의 문제다.

이런 방식은 때때로 “킬러 문항(killer items)”을 낳는다. 즉, 중요한 내용(crucial content)과 관련된 문항이, 오답일 경우 최종 점수나 합격 여부에 불균형적인 영향(disproportionate impact)을 미치는 것이다.
그러나 심리측정학적 관점(psychometric perspective)에서 볼 때, 이러한 가중치 부여 방식은 교실 평가(classroom assessment)에서 권장되지 않는다(not recommended). 각 MCQ는 하나의 평가 포인트(single assessment point)에 불과하며, MCQ 기반 시험의 강점은 시험 청사진(test blueprint) 전체에 걸쳐 체계적으로 내용을 표집(systematically sampling content)한다는 데 있다.
만약 특정 주제(topic area)가 다른 영역보다 더 중요하다면, 가중치를 조정하는 것보다, 그 주제에 대한 문항 수를 늘리는 것이 가장 좋은 방법이다.
MCQ는 응시자의 추측(guessing)이나 실수(wrong selection) 가능성을 항상 포함하기 때문에, 가중치를 부여하는 것은 오히려 CIV(construct-irrelevant variance)를 총점(total score)에 더 크게 반영시킬 위험이 있다.

일부 문항반응이론(Item Response Theory; IRT) 모델(→ see Chapter 19)은 MCQ를 자동적으로 가중(weight)하지만, 그 가중치는 주관적(subjective)이 아니라 각 문항의 변별도(discrimination)에 기반하여 통계적으로 추정(estimation)된다.

즉, 중요한 주제 영역에 대한 문항 수를 늘리라(increase the number of MCQs on important content)는 조언은 고전적 채점(classical scoring)이든 IRT 기반 채점(item response theory scoring)이든 동일하게 적용된다. 결국, 교육자는 시험의 전반적인 내용 균형(content balance)과 청사진(blueprinting)을 고려하고, 시험 청사진을 충분히 대표할 수 있을 만큼 적절한 수의 MCQ를 개발(develop in sufficient numbers)해야 한다.

SR ITEM FORMATS: NON-MCQ FORMATS
선택형 문항 형식(SR item formats): 비-객관식 변형 문항(Non-MCQ formats)

많은 교육자들이 기본적으로 단일정답형(one-best-answer) 객관식 문항(MCQs)을 사용하여 각 문항별로 독립적인 내용(content)을 평가하지만, 교실 수업 상황에서는 다른 형태의 선택형 문항(SR item types)도 활용할 수 있다.

가장 일반적인 변형 중 하나는 진위형 문항(True–False; TF item format)이다. 이 형식은 단일정답형 MCQ와 유사하게 본문(stem)과 선택지(options) 목록으로 구성되지만, 응시자는 각 선택지를 참(true) 또는 거짓(false)으로 판단(evaluate)해야 한다 (Ebel & Frisbie, 1991).

TF 문항 작성의 주요 어려움 중 하나는, 선택지(option)가 연속선상(continuum)에 위치할 수 없다는 것이다. 즉, 단일정답형 문항처럼 “가장 적절한(best)” 선택을 고를 수 없으며, 각 선택지는 반드시 “참에 더 가깝다(more true than false)” 또는 “거짓에 더 가깝다(more false than true)”로 명확히 방어 가능(defensible)해야 한다 (Paniagua & Swygert, 2017).
이러한 이유로, 많은 교육자들은 TF 문항이 단순 사실의 회상(recall of direct facts)과 같은 낮은 수준의 인지적 지식(low-level cognitive knowledge)을 측정하거나, 형성평가(formative assessment)나 교실 내 학습 평가(classroom testing)에 적합하다고 본다.
또한, 무작위 추측(random guessing)으로 인한 측정오차(measurement error)가 TF 문항의 대표적 비판점이다.
그러나, TF 문항이 정교하게 작성(well written)되고 충분한 문항 수(in sufficient numbers)—예를 들어 50개 이상—가 포함된다면, 추측으로 인한 오차(error due to blind guessing)는 최소화(minimized)될 수 있다.
단일정답형 MCQ와 마찬가지로, TF 문항도 단순 정오 채점(right-or-wrong scoring)을 사용하는 것이 바람직하며,
추측 보정 공식(formula scoring)은 사용하지 않는다.

또 다른 변형은 테스트렛(testlet) 또는 맥락 의존형 문항 묶음(context-dependent item set)이다 (Wainer & Lewis, 1989; Haladyna, 1992). 테스트렛(testlet)은 하나의 자극 자료(stimulus material)에 기반하여, 두 개 이상의 독립된 문항(independent items)을 세트(set)로 제시하는 형태이다.
각 문항은 단일정답형, TF형 등 어떤 선택형 형식이라도 될 수 있다.

예를 들어, 하나의 테스트렛은 환자에 대한 상세한 임상 서술(clinical description)을 담은 한두 단락(paragraph or two)으로 구성될 수 있으며, 이 정보를 기반으로 여러 가지 질문을 제시하는 증례 기반 평가(case-based assessment) 형태를 띨 수 있다.
- 한 문항은 가장 가능성 높은 진단(most likely diagnosis)을 묻고,
- 또 다른 문항은 필요한 검사(laboratory investigations),
- 또 다른 문항은 치료법(therapies)이나 합병증(complications),
- 마지막 문항은 예상되는 결과(expected outcomes)를 묻는 식이다.

테스트렛의 주요 강점(main strength)은 효율성(efficiency)이다. 하나의 자극(stimulus)—즉 본문(stem)이나 리드인(lead-in)—이 여러 문항에 공통으로 적용되므로, 긴 비네트(long vignette)나 읽기 지문(reading passage)도 여러 문항에 활용 가능하다. 다만, 테스트렛 활용의 기본 원칙(basic principles)을 반드시 지켜야 한다.

동일한 본문(common stem)을 공유하는 문항들은 자극(stimulus) 외에는 상호 독립적(reasonably independent)이어야 한다. 즉, 하나의 문항을 틀렸다고 해서 다른 문항도 자동으로 틀릴 필요는 없다. 이상적으로는, 어떤 문항의 본문(stem)이나 선택지(options)가 다른 문항의 정답을 암시(cue)하지 않아야 한다.

컴퓨터 기반 시험(computer-based testing)에서는 후속 문항(later items)이 이전 문항(earlier items)의 정답을 암시(cue)할 수 있도록 구성할 수도 있지만, 이 경우 응시자가 이전 문항으로 돌아가(backtrack) 답을 수정(change answers)하지 못하도록 시험 시스템이 이를 제한(prevent navigation backward)해야 한다. 지필시험(paper-and-pencil testing)이나 기본형 CBT(컴퓨터 기반 시험)처럼 응시자가 자유롭게 이동할 수 있는 형식에서는 이런 제어가 불가능하므로, 해당 접근은 적절하지 않다.

각 문항은 독립적인 MCQ로 채점(scored as independent MCQ)할 수 있지만, 분석의 단위(unit of analysis)는 문항(item)이 아니라 테스트렛(testlet)이어야 한다. 특히 신뢰도 분석(reliability analysis)에서는 그렇다 (Thissen & Wainer, 2001; Wainer & Thissen, 1996). 이러한 조건이 모두 충족된다면, 테스트렛은 특정 유형의 인지적 지식(cognitive knowledge)을 평가하는 데 매우 유용할 수 있다. 단, 동일 주제의 문항을 여러 개 포함하면 특정 영역의 과잉 표집(oversampling of content areas)이 발생할 수 있으므로, 시험의 내용 균형(content balance)을 유지하는 데 주의해야 한다.

SUMMARY AND CONCLUSION 요약 및 결론(Summary and Conclusion)

구성형 문항(Constructed-Response; CR)과 선택형 문항(Selected-Response; SR) 형식은 보건의료전문직 교육(health professions education)에서 인지적 지식(cognitive knowledge)과 기술(skills)을 평가하는 데 폭넓게 사용되며, 교실 내 평가(classroom assessment)의 핵심 요소로 자리 잡고 있다. 각 문항 형식은 고유한 강점(strengths)과 한계(limits)를 가지고 있으며, 이 장에서 이를 요약하였다.

전반적으로, 선택형 문항(SR format)—특히 그 대표적 형태인 객관식 문항(MCQ)—은 보건의료교육에서의 대부분의 성취도 평가(achievement testing)에 가장 적합하다. 올바르게 구성될 경우, 이 형식은
- 높은 수준의 인지적 지식(higher-order cognitive knowledge) 평가에 매우 유연하고 다재다능(versatile)하며,
- 타당도(validity)를 뒷받침하는 탄탄한 연구 기반(deep research base)을 갖추고 있고,
- 효율적(efficient)이며,
- 지필시험(paper-based)과 컴퓨터 기반 평가(computer-based assessments) 모두에서
- 체계적인 품질 관리(quality control)가 가능하다.
반면, 구성형 문항(CR items)—특히 단답형 또는 서술형(short-answer/essay) 형식—은
- 비유도형(non-cued) 서면 응답을 평가하기에 적합하지만,
- 채점(scoring)이 본질적으로 주관적(subjective)이라는 점을 반드시 인식해야 한다.
- 따라서, 평가자는 채점자 편향(rater bias)을 통제하거나 최소화(control or reduce)할 수 있는 구체적인 절차(methods)를 적극적으로 활용해야 한다.

평가 방법론(assessment methodology)을 선택할 때의 궁극적 목표는, 각 문항 형식의 장점과 단점(advantages and disadvantages)을 신중히 비교하고, 관심 있는 인지적 지식과 기술(cognitive knowledge and skills of interest)을 가장 효과적으로 측정할 수 있는 문항 형식(item format)을 의도적으로 설계(thoughtfully develop)하는 것이다.

'논문 읽기 (with AI)' 카테고리의 다른 글

[AHSE] 9 수행평가 / 퍼포먼스 테스트 (Performance Tests) (0)	2025.10.04
[AHSE] 8 구술시험 (Oral Examinations) (0)	2025.10.04
질적 연구 보고 지침: 가치 기반 접근법 (Qualitative Research in Psychology , 2025) (0)	2025.09.26
말이 통하지 않을 때: 질적 인터뷰를 위한 혁신적 유도 기법에 대한 통합적 검토 (Med Educ. 2025) (0)	2025.09.26
의학 교육에서 전문직 정체성 형성을 위한 중재에 대한 비판적 검토 (Acad Med. 2022) (0)	2025.09.24

의대에서 교육하고 있습니다.