[AHPE] 5장 검사의 통계(STATISTICS OF TESTING)

Meded 2025. 9. 16. 09:45

2025. 9. 16. 09:45

5장 검사의 통계(STATISTICS OF TESTING)
Steven M. Downing, Dorthea Juul, and Yoon Soo Park

서론 (INTRODUCTION)

이 장에서는 검사(testing)에 흔히 사용되는 통계(statistics)에 대해 논합니다. 이 책은 주로 정량적 데이터(quantitative data)를 산출하는 검사(tests) 및 기타 유형의 측정(measures)에 초점을 맞추고 있기 때문에, 일부 통계는 필연적으로 다루어야 합니다. 보건 전문직 교육(health professions education)에 사용되는 검사 및 기타 측정을 평가하는 데 사용되는 많은 도구들은 검사에 적용되는 일부 기본적인 정량적 방법(basic quantitative methods) 또는 통계(statistics)의 적용을 필요로 합니다.

다른 장들과 마찬가지로, 이 장에서 다루는 검사 통계(statistics in testing)는 통계적 증명(statistical proofs), 이론적 설명 및 유도(theoretical explanations and derivations)를 피하고 일반적이고 응용적인 내용(general and applied)에 중점을 둡니다. 이 장에서 논의되는 모든 통계는 고전 검사 이론(classical measurement theory, CMT)에 기반을 두고 있습니다(3장과 4장 참조). 주로 문항 반응 이론(item response theory, IRT)인 또 다른 측정 이론(measurement theory)은 대규모 검사(large-scale testing)에 광범위하게 사용되지만, 이 장에서는 다루지 않습니다(IRT에 대한 소개는 19장 참조). 이 장의 목적은 독자에게 몇 가지 일반적으로 사용되는 통계 기법(statistical techniques)과 그 목적 및 근거(purpose and rationale), 그리고 계산 및 사용 사례(examples of their computation and use)에 대한 개요를 제공하는 것입니다.

검사 점수 활용하기 (USING TEST SCORES)

보건 전문직 교육에서의 평가(assessments)는 일반적으로 정량적 데이터(quantitative data)를 산출합니다. 따라서, 점수 유형(types of scores) 및 점수 척도 속성(score scale properties), 그리고 상관관계(correlation)와 평가에서의 일부 특수한 적용을 포함하여 이러한 데이터의 몇 가지 기본적인 활용법(basic uses)을 고려하는 것이 중요합니다. 이 장에서는 보건 전문직 교육 환경에서 유용한 기본적인 통계 공식(fundamental statistical formulas)을 제시합니다.

기본 점수 유형 (Basic Score Types)

검사 또는 평가 데이터는 다양한 유형의 점수(types of scores)나 점수 척도(score scales)로 표현될 수 있습니다. 각 점수 유형 또는 점수 척도에는 장점과 단점(advantages and disadvantages)이 있으며, 점수를 적절하고 타당하게 해석(properly and legitimately interpret)하기 위해서는 각각의 특정 속성(certain properties)을 이해해야 합니다. 이 섹션은 보건 전문직 교육에서 일반적으로 사용되는 다양한 유형의 점수와 점수 척도에 대한 몇 가지 기본 정보를 설명합니다. 표 5.1은 평가에 사용되는 다양한 유형의 점수와 그 특성을 요약합니다.

정답 개수 점수 또는 원점수 (Number Correct Scores or Raw Scores)

정답 또는 오답으로 이분법적으로 채점되는 모든 평가, 예를 들어 필기형 성취도 평가(written achievement tests)의 경우, 가장 기본적인 점수는 정답 개수 점수(number correct score)입니다. 정답 개수 점수 또는 원점수(raw score)는 단순히 응시자가 정답으로 맞힌 문항의 수를 센 것(the count of the number of test items the examinee answered correctly)입니다. 정답 개수 점수 또는 원점수는 거의 모든 유형의 통계적 분석(statistical analyses), 응시자에게 점수 보고(score reporting to examinees), 그리고 연구 분석(research analyses)에 유용합니다. 원점수는 기본적(basic)이고 근본적(fundamental)이므로 거의 모든 검사 적용에 유용합니다.

정답률 점수 (Percent-Correct Scores)

원점수(raw scores)는 보건 전문직 교육 환경에서 정답률 점수(percent-correct scores)로 자주 변환되거나 변형됩니다. 정답률 점수는 원점수 또는 정답 개수 점수를 백분율로 단순하게 선형 변환(a simple linear transformation)한 것으로, 식 (5.1)을 사용하여 계산합니다.

정답률 점수는 선형 변환(linear transformation)입니다. 이는 원점수(raw scores)와 정답률 점수(percent-correct scores)가 일대일(one-to-one)로 대응하고, 기본적인 분포의 형태(the basic shape of the underlying distribution)가 변하지 않음을 의미합니다. 일반적으로, 백분율 또는 정답률 점수가 보고되고 사용되는 경우, 정답률 점수의 기초가 된 원점수(the raw score upon which the percent-correct score is based)도 함께 보고되어야 합니다. (백분율 점수는 일부 적용에서 오용되거나 오해의 소지가(misused and can be misleading) 있을 수 있으며, 특히 유일한 데이터로 제시될 때 그렇습니다.) 또한, 정답률 점수는 검사 평가에 흔히 사용되는 모든 통계 공식(all statistical formulas)에 적절하게 작동하지 않습니다(예: 척도 신뢰도(scale reliability)를 추정하는 데 사용되는 Kuder-Richardson formula 21 [KR 21]). 따라서 대부분의 통계 계산에서는 원점수(raw scores) 또는 선형 표준 점수(linear standard scores)를 사용하는 것이 가장 좋습니다.

파생 점수 또는 표준 점수 (Derived Scores or Standard Scores)

몇 가지 유형의 파생 점수(derived scores) 또는 선형 표준 점수(linear standard scores)가 평가 적용에 사용됩니다. 선형 표준 점수 척도(linear standard score scale)는 원래 점수 분포의 표준편차(standard deviation, SD) 단위로 표현됩니다. 기본적인 선형 표준 점수인 z-점수(z-score)는 고정된 평균 0(mean of 0)과 SD 1(SD of 1)을 가지며, 다음 식 (5.2)로 계산됩니다.

• x = 원점수(raw score)
• mean = 원점수 분포의 평균(mean of the raw score distribution)
• SD = 원점수 분포의 표준편차(standard deviation of the raw score distribution)

표 5.2는 10개의 원점수(raw scores)와 이를 z-점수로 변환한 예시를 보여주며, 이어서 T-점수(T-scores)로 추가 변환한 것을 보여줍니다. T-점수는 고정된 평균 50(mean of 50)과 SD 10(SD of 10)을 가지도록 정의됩니다. 일부 연구자들은 T-점수가 음수 값(negative values)을 없애고 z-점수 변환이 산출하는 0과 동일한 평균 점수(mean score equal to zero)를 제거하기 때문에 선호합니다(예를 들어, 일부 학습자는 음수 점수를 받으면 의기소침해질 수 있습니다).

식 (5.3)에 나타난 바와 같이, T-점수 공식은 (z-점수)에 10을 곱하고 50을 더하는 것이지만, 어떤 평균과 SD를 가진 표준 점수(standard score)도 만들 수 있습니다. 단순히 z-점수에 원하는 SD를 곱하고 이 값에 원하는 평균 점수를 더하면 됩니다(SD × (z-score) + desired mean).

이러한 유형의 파생 점수(derived scores) 또는 표준 점수(standard scores)의 주요 장점은 점수 데이터를 원래 원점수의 표준편차 단위(metric of the standard deviation of the original raw scores)로 두면서 원래 점수 분포의 정확한 형태(exact shape of the original score distribution)를 유지한다는 것입니다. 예를 들어, 원래의 원점수가 오른쪽으로 편향(skewed to the right)되어 있다면(이는 평균의 낮은 쪽보다 높은 쪽에 점수를 얻는 학생이 더 많다는 것을 의미합니다), 표준 점수는 원래 점수와 정확히 동일한 형태(exactly the same shape)를 가질 것입니다. 이것은 평가 환경에서 계산되는 대부분의 점수에서 바람직한 특성(desirable characteristic)입니다. z-점수 및 T-점수와 같은 표준 점수의 또 다른 장점은 상관관계(correlations), t-검정(t-tests), ANOVA와 같은 모든 다른 통계 계산(all other statistical calculations)에 사용될 수 있으며, 쉽게 해석 가능한 절대적 및 상대적 점수 정보(easily interpretable absolute and relative score information)를 제공할 수 있다는 것입니다.

정규화된 표준 점수 (Normalized Standard Scores)

또 다른 유형의 점수 변환(score transformation)을 수행하여 변환된 점수 분포가 정규 분포(normally distributed)를 따르도록 정규화(normalizes)하거나 강제(forces)할 수 있습니다. 이러한 정규화된 표준 점수(normalized standard scores)는 대규모 검사 기관(large testing agencies)에서 연구 목적으로 가끔 사용되지만, 보건 전문직 교육 강의실에서는 거의 사용되지 않거나 지역 대학 수준에서 보고되지 않습니다. 이러한 일반적인 적용에서는 점수를 정규화하는 이점이 거의 없기 때문입니다. z-점수 및 T-점수와 같은 표준 점수(Standard scores)는 정규화된 점수(normalized scores)가 아닙니다. 이러한 파생 점수(derived scores)는 기저의 원점수 분포(the underlying raw score distribution)의 정확한 형태(exact shape)를 유지하기 때문입니다. 따라서 단순한 z-점수 및 T-점수를 정규화된 점수라고 불러서는 안 됩니다.

백분위수 (Percentiles)

백분위수(Percentiles) 또는 백분위 순위(percentile ranks)는 보건 전문직 교육에서 선호되는 표준 점수 유형(type of standard score)입니다. 백분위수는 약간씩 다른 여러 정의가 있지만, 일반적으로 백분위수란 그 점수 아래에 해당 백분율의 응시자(that percentage of examinees)가 분포하는 점수를 의미합니다.

백분위수는 본질적으로 상대적인 점수(relative score)이며, 몇 가지 장점과 많은 한계(many limitations)를 가집니다. 백분위수의 장점은 일반적으로 보고되고 쉽게 계산(commonly reported and easily computed)된다는 것입니다. 대부분의 사용자들은 백분위수 또는 백분위 순위의 적절한 해석을 이해한다고 생각하지만, 실제로는 자주 오해하거나 잘못 해석(frequently misunderstood or misinterpreted)됩니다.

백분위수는 일반적으로 간격이 매우 불균등(very unequal intervals)합니다. 예를 들어, 50번째에서 55번째 백분위수 사이의 5점 간격은 90번째에서 95번째 백분위수 사이의 5점 간격과 동일하지 않을 가능성이 높습니다. 예를 들어, 한 학생이 시험 점수를 90번째 백분위수에서 95번째 백분위수로 올리려면 50번째에서 55번째 백분위수로 이동하는 것보다 훨씬 더 많은 문항을 정답으로 맞춰야 합니다. 이는 백분위수 척도의 불균등한 간격(unequal intervals) 때문입니다. 또한, 백분위수의 기초가 되는 기저의 원점수 분포(underlying raw score distribution)가 정규 분포(normally distributed)인 경우, 백분위 순위는 "평균 점수보다 +1 SD 아래에 84%의 점수가 분포한다"와 같은 친숙한 표준 점수 유형의 해석(standard score-type of interpretations)을 하는 데 사용될 수 있습니다. 그러나 대부분의 강의실 시험 점수 분포와 같이 기저의 점수 분포가 비정규적(non-normal)이거나 왜곡(skewed)된 경우, 이러한 해석은 잘못될 수 있습니다(incorrect).

또한, 백분위수는 다른 통계 계산에서 유용성이 제한적(limited usefulness)입니다. 예를 들어, 백분위수로 상관관계(correlations)를 합법적으로 계산하거나, t-검정(t-tests)이나 ANOVA와 같은 추론 통계(inferential statistics)에 백분위수를 사용할 수 없습니다. 백분위수는 백분위수 계산에 사용된 기준 집단(reference group)에 대한 응시자의 순위(rank)를 보고하는 용도로만 사용될 수 있습니다. 백분위수는 일부 사용자에게 단순한 정답률 점수(percent-correct scores)로 오해될 수 있으며, 이는 잘못된 해석(incorrect interpretation)입니다.

이러한 모든 한계(limitations) 때문에 백분위수 또는 백분위 순위의 사용 및 보고에 주의(caution)가 요구됩니다. z-점수 또는 T-점수 또는 그 변형과 같은 선형 표준 점수(Linear standard scores)가 훨씬 적은 한계(many fewer limitations)가 있고, 오해, 오용, 잘못된 해석의 가능성(less potential for misinterpretation, misuse, or misunderstanding)이 적기 때문에 더 선호됩니다. 표준 점수는 상관관계, 추론 통계(inferential statistics) 등 거의 모든 통계 계산에 사용될 수 있습니다. 또한, 표준 점수는 기저의 분포의 표준편차 단위(standard deviation units)를 사용하여 상대적 위치(relative standing)를 나타냅니다. 일반적으로, z-점수 또는 T-점수와 같은 파생 점수(derived scores)는 등간격 속성(equal-interval properties)을 가지는 것으로 간주되어, 이 점수들의 절대적 해석(absolute interpretation)이 더 간단해집니다.

추측에 대한 보정 (Corrections for Guessing, Formula Scores)

교육 측정(educational measurement)에서 지속적인 논란 중 하나는 소위 "추측에 대한 보정(corrections for guessing)" 또는 "공식 점수(formula scores)"의 사용에 관한 것입니다(예: Downing, 2003a, 7장). 이러한 공식 점수(formula scores)는 선다형 문항(selected-response test items), 예를 들어 객관식 문항(multiple-choice items)에 대한 무작위 추측(random guessing)을 보상(compensate)하려는 시도입니다. 이는 시험에서 추측하지 않는 행동에 보상을 주거나, 추측하는 행동에 벌점을 부과함으로써 이루어집니다. 일반적으로 두 접근법 모두 잘 작동하지 않으며(neither approach works very well), 오히려 다소 해로울 수 있습니다(be somewhat harmful). 선다형 문항에 대한 추측 경향(tendency to guess)은 응시자 집단에 따라 달라지는 심리적 특성(psychological characteristic)이기 때문에, 추측이라고 가정되는 행동을 제어하거나 보상하려는 시도는 측정(measurement)에 오류(error)를 발생시킬 가능성이 높습니다. 실제로, 추측 경향은 일부 대담한 응시자들이 추측하지 말라고 지시받고 점수 손실로 위협받더라도 보일 수 있는 심리적 구성 개념(psychological construct)이므로, 소위 "추측에 대한 보정"은 구성 개념과 무관한 분산(construct-irrelevant variance, CIV)을 점수에 추가할 수 있습니다. 2장에서 언급했듯이, CIV는 평가가 측정하고자 하는 것 외의 다른 구성 개념(some construct other than that which is intended to be measured)을 측정하는 것입니다.

일반적으로 공식 채점(formula scoring) 또는 추측에 대한 보정은 권장되지 않습니다(are not recommended). 단순한 원점수(Simple raw scores) 또는 파생 점수(derived scores), 표준 점수(standard scores), 그리고 정답률 점수(percent-correct scores)가 일반적으로 충분합니다. 선다형 문항에서 무작위 추측에 대한 가장 좋은 방어책(best defense)은 잘 작성된 문항(well-written items)을 충분한 수(sufficient numbers)로 제시하여 일부 응시자들의 무작위 추측으로 인한 나쁜 영향(ill effect)을 줄이는 것입니다.

동등화된 점수 (Equated Scores)

대부분의 고위험 대규모 검사 프로그램(high-stakes large-scale testing programs)은 동등화된 표준 점수(equated standard score)를 사용하고 보고합니다. 이 점수는 z-점수 또는 z-점수의 변형과 유사하게 보일 수 있지만, 선형 표준 점수(linear standard scores)와는 다르게 해석될 수 있으며 단순한 선형 표준 점수보다 상당히 더 복잡합니다(considerably more complex). 동등화된 점수(Equated scores)는 시간에 따라(over time) 그리고 다양한 검사 시행(various administrations of the test)에 걸쳐 측정 척도(measuring scale)의 정확한 의미(exact meaning)를 일정하게 유지(hold constant)하기 위해 시험 점수의 평균 난이도(average difficulty)를 약간 통계적으로 조정(statistically adjust)합니다. 이 통계적 조정이 제대로 수행되면, 동등화된 점수는 시간과 시험 형식에 따라 동일한 의미(same meaning over time and test forms)를 유지하며, 서로 다른 시험 시행(different test administrations)과 다른 기간(different time periods)에 걸쳐 합법적으로 비교하고 해석(legitimately compared and interpreted)될 수 있습니다. 통계적 용어로, 시험 점수가 성공적으로 동등화되면, 응시자가 어떤 시험 형식(at which test administration)을 치르든 상관없습니다(it is a matter of indifference). 왜냐하면 결과 점수가 동일한 척도(on the same scale)에 있기 때문입니다(Kolen & Brennan, 2014). 시험 점수 동등화(Test score equating)는 이 장의 범위를 벗어납니다(IRT에 기반한 일부 개념적 설명은 19장 참조). 여기서 주목해야 할 주요 고려 사항은 National Board of Medical Examiners, Medical Council of Canada, Educational Testing Service와 같은 대규모 검사 기관(large-scale testing agencies)이 보고하는 것과 같은 동등화된 점수(equated scores)는 여기서 논의된 단순한 z-점수 및 T-점수보다 더 복잡한 점수 해석(more complex interpretations of scores)을 허용한다는 것입니다. 반대로, 단순한 z-점수 또는 T-점수는 시험을 치른 집단들의 능력이 대략적으로 동일할 때에만(only when the groups tested have approximately equal levels of ability), 동등화된 점수처럼 평균 난이도에 대해 불변(invariant with respect to mean difficulty)으로 해석될 수 있는데, 이는 실제로 거의 발생하지 않습니다(rarely occurs in practice).

종합 점수 (Composite Scores)

종합 점수(composite score)라는 용어는 여러 구성 요소 점수(multiple component scores)를 반영하는 요약 점수(summary score)를 말합니다. 일반적으로 종합 점수는 한 과정(course)에서 생성된 여러 점수를 더하여 형성되는 총점(total score) 또는 성적(grade)입니다. 예를 들어, 총 종합 점수(total composite score)는 한 학급 또는 임상 실습(clerkship)에 대한 다양한 개별 구성 요소 시험 또는 평가 점수들을 더하고 (그리고 아마도 차등적으로 가중치를 부여(differentially weighting)하여) 형성될 수 있습니다. 종합 점수의 간단한 예는 한 학기 동안 여러 번의 시험을 치르는 수업에서, 개별 시험 점수들에 강사가 차등 가중치를 부여한 것을 평균하여 형성되는 총점입니다. 강사들은 각 개별 시험 점수에 얼마나 가중치를 부여할지 결정(decide how much to weight each individual test score)하고 (이러한 가중치를 학생들에게 알린 후), 최종 성적을 결정하는 전체 종합 점수(overall composite score)를 형성하기 위해 합산하기 전에 이 정책 가중치를 시험 점수에 적용(apply these policy weights to test scores prior to summing)합니다.

각 개별 구성 요소 점수에 대한 가중치가 정확한지(ensure that the weights ... are exact) 확인하기 위해, 각 구성 요소 점수를 선형 표준 점수(linear standard score)로 변환한 다음, 할당된 정책 가중치를 곱하는 것이 가장 좋습니다. 이때, 각 점수 분포의 평균과 표준편차를 사용합니다. 점수가 표준화되지 않으면(If scores are not standardized), 실제 가중치(effective weighting)가 원점수(raw scores)에 적용된 가중치와 상당히 다를 수 있습니다(quite different). 왜냐하면 표준편차가 더 큰 시험 점수 분포(the test score distribution with the larger standard deviation)가 표준편차가 낮은 구성 요소 점수보다 최종 종합 점수에 더 많은 가중치를 기여(contribute more weight)하게 되기 때문입니다.

임상 실습(clerkships)이나 보건 전문직 교육의 다른 성과 평가 환경과 같이 더 복잡한 환경에서의 종합 점수의 경우, 점수들이 종종 매우 다른 척도(widely different scales)와 매우 다른 분산(widely different variances)을 보입니다. 따라서 가중치를 부여하고 종합 점수로 합산하기 전에 구성 요소 점수를 표준화(standardize)하는 것이 특히 중요합니다. 각 개별 구성 요소 점수는 먼저 표준 점수(standard score)로 변환되어야 하고, 그런 다음 원하는 가중치(weight)를 곱하고 (어떤 합리적, 판단적 또는 경험적 과정을 통해 결정된), 최종 종합 점수로 합산 또는 평균(summed or averaged)되어야 합니다(편의를 위해 다른 단위로 변환될 수도 있습니다). 보건 전문직 교육에서의 이전 연구(예: Corcoran, Downing, Tekian, & DaRosa, 2009; Nassar, Park, & Tekian, 2017; Park et al., 2016; and Park et al., 2017)는 보건 전문직 교육 환경에서 종합 점수를 사용하는 좋은 예시를 제공합니다(Kane의 방법[Kane & Case, 2004]에 기반한 종합 점수 계산에 대한 포괄적인 검토는 3장 부록 참조).

종합 점수의 신뢰도(reliability) 결정은 신뢰도 분야의 특별한 주제(special topic)입니다. 종합 점수의 신뢰도를 정확하게 추정하기 위해서는 각 개별 구성 요소 점수의 신뢰도와 그 구성 요소에 할당된 가중치를 고려(take into account)해야 합니다. 계층화된 알파 계수(stratified alpha coefficient)와 같은 여러 방법을 사용하여 종합 점수의 신뢰도를 적절하게 추정할 수 있습니다. 차등적인 정책 가중치가 고려되지 않으면 종합 점수의 신뢰도는 과소평가될 것입니다(underestimated).

상관관계와 비감쇠 상관관계 (CORRELATION AND DISATTENUATED CORRELATION)

상관 계수(Correlation coefficients)는 평가 연구에 사용되는 많은 통계 분석의 핵심(central)입니다. 예를 들어, 상관관계는 타당도(validity) 및 신뢰도(reliability) 분석과 시험 문항 분석(test item analysis)에 사용되는 주요 통계 방법입니다. 시험 분석 및 연구에는 다양한 특수 유형의 상관 계수(specialized types of correlation coefficients)가 사용되지만, 모두 Pearson 곱-모멘트 상관관계(Pearson product-moment correlation)를 기본으로 합니다. 모든 상관관계는 두 변수 간의 공동 관계(co-relationship between two variables)를 추적하여 관계의 강도(strength)와 방향(direction)을 모두 보여줍니다. 상관 계수는 -1.0에서 +1.0까지의 범위를 가지며, 양 극단은 변수 간의 완벽한 관계(perfect relationship)를 나타냅니다. 완벽한 음의 상관관계(perfect negative correlation)는 완벽한 양의 상관관계(perfect positive correlation)만큼 강력한 예측 변수(strong a predictor)입니다. 물론 음의 상관관계(negative correlation)에서는 한 변수가 증가함에 따라 다른 변수가 감소하는 식으로 변수들이 정확히 반대 방향으로 움직입니다(move in exactly opposite directions). 문항 분석에 사용되는 문항 변별 지수(item discrimination index)와 같은 일부 시험 분석에서는 문항 점수(0, 1)와 총 시험 점수의 상관관계가 ±1.0에 도달하는 경우는 드뭅니다(rare).

상관 계수는 측정 오류(measurement error)에 의해 감쇠되거나 감소(attenuated or decreased)됩니다. 예를 들어, 동일한 응시자들에게 치르게 한 두 개의 다른 시험 점수 간의 상관관계(correlation between test scores on two different tests)는 종종 시험 점수에 대한 타당도 증거(validity evidence)의 한 출처로 사용됩니다. 그러나 우리는 관찰된 상관관계(observed correlation)가 "진정한(true)" 상관관계보다 더 낮다는 것을 알고 있습니다. 왜냐하면 신뢰할 수 없는 측정(unreliable measures)이 변수들 간의 기저의 관계(underlying relationship)를 감소(attenuate)시키거나 위장(disguise)하기 때문입니다. 만약 우리가 한 시험 또는 두 시험 모두에서 완벽하게 신뢰할 수 있는 점수(perfectly reliable scores), 즉 진정한 점수(true scores)를 알 수 있다면, 이른바 진정한 점수들을 상관시켜(correlate) 두 시험이 측정하는 기저의 특성(underlying traits) 간의 진정한 관계(true relationship)를 이해할 수 있을 것입니다.

고전 검사 이론(Classical measurement theory)은 이러한 진정한 점수 상관관계(true score correlation), 또는 흔히 비감쇠 상관 계수(disattenuated correlation coefficient)라고 불리는 것을 추정할 수 있게 해줍니다. 비감쇠 상관관계 공식은 이 장의 부록에 더 자세히 제시되어 있습니다. 이 간단한 공식은 관찰된 상관관계(observed correlation)를 각 시험 신뢰도 곱의 제곱근(square root of the product of the reliability of each test)으로 나눈 값을 보여줍니다. 만약 두 시험 중 하나만 신뢰도를 알고 있다면, 일반적으로 알 수 없는 신뢰도 값에 1.0이 사용됩니다. 이는 가장 간결한(most parsimonious) 또는 보수적인 가정(conservative assumption)이 될 것이기 때문입니다. 당연히 측정의 신뢰도가 낮을수록(the lower the reliabilities), 비감쇠 상관 계수에서 더 많은 보정(more correction)이 관찰될 것입니다.

비감쇠 상관관계(The disattenuated correlation)는 시험 또는 평가 점수와 준거 점수(criterion scores) 간의 기저 또는 진정한 관계(underlying or true relationship)를 명확히 하는 데 도움이 되기 때문에, 연구 논문에서 자주 보고되는 유용한 이론적 도구(useful theoretical tool)입니다. 실제로는 측정 오류(errors of measurement), 예를 들어 예측 변수 시험 점수의 신뢰도 부족(unreliability of the predictor test scores) 및/또는 일부 준거 측정치의 신뢰도 부족이 타당도 계수(validity coefficients)에 포함되어야 함을 강조하는 것이 중요합니다. 왜냐하면 이는 자연의 상태와 현실 환경에서 두 변수의 실제 또는 관찰된 상관관계(actual or observed correlation)를 나타내기 때문입니다. 비감쇠 상관 계수는 분명히 그렇게 표기(clearly labeled as such)되어야 하며, 항상 기초가 되는 관찰된 상관관계(the observed correlations upon which they are based)와 함께 보고되어야 합니다.

문항 분석 (ITEM ANALYSIS)

문항 분석(Item analysis)은 검사를 위한 품질 관리 도구(quality control tool)로, 문항 수준(item level)의 정량적 데이터뿐만 아니라 전체 검사(total test)에 대한 몇 가지 중요한 요약 통계(summary statistics)를 제공합니다. 문항 분석은 객관식 시험(multiple-choice tests)과 같은 선다형 검사(selected-response tests)에 광범위하게 사용되어야 하며, 관찰 평정 척도 데이터(observational rating scale data), 수행 평가 시뮬레이션(performance assessment simulations)에 사용되는 평점 등에도 사용될 수 있고 사용되어야 합니다. 문항 분석 데이터를 신중하게 검토하면 도구(instruments)에 의해 생성된 점수의 신뢰도(reliability)와 그에 따른 타당도(validity)를 개선하는 데 도움이 될 수 있습니다.

문항 분석 데이터는 최종 채점 전에 주요 유효성 검사 단계(a key validation step)를 완료하는 데 자주 사용됩니다(Paniagua & Swygert, 2016; Lane, Raymond, Haladyna, & Downing, 2016; 7장도 참조). 잘못 채점된(keyed incorrectly) 문항은 다시 채점(rekeyed)될 수 있으며, 성능이 좋지 않은(poorly performing) 문항은 최종 채점에서 삭제(deleted)될 수 있습니다. 일부 채점 프로그램은 이러한 옵션이 없을 수 있으며, 이 경우 여러 정답, 가능하면 모든 정답이 정답으로 채점되지만, 이는 검사의 신뢰도 추정치(reliability estimate)를 약간 낮출 수 있습니다.

문항의 과거 성능 이력(history of past performance)을 나타내는 문항 분석 데이터는 문항 은행(item bank)이나 다른 보안 파일에 저장되어 향후 검사 개발에 사용되어야 합니다. 이 데이터는 나중에 다시 시행될 때 검사 문항 및 다른 유형의 평정 척도(rating scale) 문항의 품질과 명확성(quality and clarity)을 개선하는 데 사용될 수 있습니다.

가장 기본적인 형태로, 문항 분석은 선다형 문항을 구성하는 선택지(options)에 대한 응시자 응답의 개수(counts, 및 백분율)를 나타냅니다. 문항 또는 평정 척도 문항의 성능을 평가하기 위해, 이러한 개수는 보통 고득점 응시자(high-scoring examinees)와 저득점 응시자(low-scoring examinees) 그룹으로 분류되어, 문항 변별도(item discrimination, 시험 문항이 고득점 학생과 저득점 학생을 얼마나 잘 구별하는지)를 요약하는 다양한 통계와 함께 추가로 평가됩니다.

각 시험 문항에 대한 문항 분석 보고서 (Item Analysis Report for Each Test Item)

표 5.3은 단일 시험 문항에 대한 전형적인 문항 분석 데이터의 상세한 예시를 제시합니다. 표의 상단은 객관식 문항의 본문을 보여줍니다. 표의 중간 부분은 문항 분석 데이터를 제시하고, 이어서 각 문항 분석 항목에 대한 설명이 나옵니다. 문항 분석을 계산하는 데 사용되는 소프트웨어는 스타일, 형식, 그리고 계산되는 특정 통계가 다르지만, 모두 표 5.3에 표시된 것과 유사합니다. 대부분의 문항 분석에 대한 공통 데이터 항목은 시험 문항 번호 또는 기타 식별자, 문항 난이도 및 문항 변별도 지수, 응시자 능력별로 분류된 선택지 성능, 그리고 시험 문항의 각 선택지에 대한 변별도 지수입니다.

표 5.3의 세부 사항을 보면, "선택지 통계(Option Statistics)" 제목 아래에 응시자들이 각 객관식 선택지에 어떻게 응답했는지에 대한 분석이 나와 있습니다. 객관식 선택지는 A에서 E로 나열되어 있으며, "기타(Other)"는 이 문항을 누락(omitted)하거나 답하지 않은 사람들을 가리킵니다. "총합(Total)"이라는 열은 각 선택지를 선택한 전체 응시자의 비율입니다. 정답인 선택지 또는 정답은 표시되어 있으며, 그 총합은 이 시험 문항의 "정답 비율(Prop. Correct)"을 계산하는 데 사용됩니다. "저(Low)" 및 "고(High)" 그룹은 총점 기준으로 최저 27%와 최고 27%의 응시자를 의미하며, 열의 숫자는 각 그룹에서 각 선택지를 선택한 응시자의 비율을 나타냅니다. (최저 및 최고 27%의 응시자를 사용하는 것은 이 두 극단적인 점수 그룹 간의 신뢰할 수 있는 차이(reliable difference)를 극대화하는 데 필요한 최소 그룹 크기입니다. 이는 상위 및 하위 27% 능력 집단 간에 그룹 구성원 중복이 없다고 상당히 확신할 수 있기 때문입니다.)

1. '신뢰할 수 있는 차이 극대화'의 의미

'신뢰할 수 있는 차이'는 통계적인 용어입니다. 여기서 '차이(difference)'는 상위 그룹이 이 문항을 맞힌 비율과 하위 그룹이 이 문항을 맞힌 비율 사이의 간격()을 의미합니다.

극대화(Maximizing): 이 간격()이 클수록 문항의 변별력은 좋습니다. 즉, 상위 그룹과 하위 그룹을 나눌 때, 두 그룹의 실력 차이가 가장 크게 드러나도록 그룹을 정의해야 합니다.
신뢰할 수 있는(Reliable): 아무리 차이가 커 보여도, 그 차이가 단순히 **운(Chance)**이나 적은 표본 크기 때문에 발생한 것이 아니어야 합니다. 통계적으로 그 차이가 안정적이라는 것을 증명할 수 있어야 합니다.

만약 우리가 그룹을 상위 1%와 하위 1%로 나누면, 그룹 간의 실력 차이(순도)는 극대화되겠지만, 표본이 너무 적어 신뢰성(Reliability)이 낮아집니다.

2. '최소 그룹 크기'의 의미

이 문구의 핵심은 '최소'가 아니라 **'필요한 최소'**입니다.

우리는 상위 그룹과 하위 그룹의 실력 차이를 가장 크게(가장 극단적으로) 만들고 싶습니다. 가장 극단적인 그룹을 사용하려면 그룹 크기가 작아져야 합니다.
하지만 그룹 크기가 작아지면 통계적 신뢰도가 떨어지므로, 차이가 신뢰성을 잃지 않는 선까지는 그룹을 크게 유지해야 합니다.

결론: 통계학적으로 27%라는 비율은 **"이 이상 그룹 크기를 줄이면 (예: 26%, 25%...) 신뢰성(안정성)이 너무 떨어져 통계적 추정의 오차가 커지게 되지만, 이 이상 그룹 크기를 늘리면 (예: 28%, 30%...) 극단적인 차이(변별력)가 흐려져 효율성이 떨어지게 된다"**는 지점으로 입증된 것입니다.
따라서 27%는 신뢰성을 훼손하지 않는 범위 내에서 가장 극단적이고 변별력이 높은 그룹을 선택할 수 있는 최소한의 마지노선이자, 가장 효율적인 통계적 절충점인 것입니다.

문항 난이도 (Item Difficulty)

문항 난이도(Item difficulty)는 한 문항에 정답을 맞힌 응시자의 비율(proportion of examinees who answer an item correctly)을 의미하며 (또한 정답 비율(proportion correct) 또는 p-값[p-value]이라고도 불립니다; 통계적 유의성[statistical significance]과 혼동하지 말 것), 이는 시험 문항의 성능에 대해 평가해야 할 가장 기본적인 필수 정보(most basic essential information)입니다. 이 지수는 보통 0.60과 같은 비율 또는 퍼센트로 표현되는데, 이는 응시자의 60%가 그 문항에 정답을 맞혔다는 의미입니다. (이 지수는 정답 비율을 반영하므로 문항 쉬움 지수(item easiness index)라고 더 정확하게 불릴 수 있지만, 보통 문항 난이도 지수(item difficulty index)라고 불립니다.)

문항 변별도 (Item Discrimination)

효과적인 시험 문항(Effective test items)은 높은 능력의 응시자(high-ability examinees)를 낮은 능력의 응시자(low-ability examinees)와 구별합니다. (여기서 능력[Ability]은 성취 능력[achievement proficiency]을 의미합니다.) 이는 모든 교육 측정의 근본적인 원리(fundamental principle)이자 기본적인 타당도 원리(validity principle)입니다. 예를 들어, 두경부 해부학(head and neck anatomy)에 대한 성취도 시험은 이 성취 구성 개념을 통일된 방식으로 측정하려 합니다. 이론은 내용에 가장 능숙한 학생들이 덜 능숙하거나 테스트된 내용을 덜 배운 학생들보다 더 높은 점수를 받아야 한다고 가정합니다. 이 특정 구성 개념에 대해 사용 가능한 가장 좋은 준거 변수(best criterion variable)는 아마도 이 특정 두경부 해부학 시험의 총점(total score)일 것입니다. 따라서 매우 능숙한 학생들(highly proficient students)은 덜 능숙하거나 성취도가 낮은 학생들보다 개별 시험 문항에서 더 좋은 점수를 받아야 합니다. 이 논리가 문항 변별도(item discrimination)에 대한 기본적인 개념적 틀(basic conceptual framework)을 설명합니다.

문항 변별도(Item discrimination)는 시험 문항의 성능을 평가하는 가장 중요한 정보(most important information)입니다. 왜냐하면 변별도의 수준이 한 문항이 시험의 측정 목적에 얼마나 기여하는지(the degree to which an item contributes to the measurement objective of the test)를 반영하기 때문입니다.

변별도 지수 (Discrimination Indices)

시험의 변별도 지수로 여러 통계가 사용됩니다. 가장 기본적인 변별도 지수는 고득점 그룹의 응시자 중 정답을 맞힌 비율과 저득점 그룹의 응시자 중 정답을 맞힌 비율의 단순한 차이로 주어집니다. 이 지수(D)는 쉽게 계산할 수 있으며, 다른 모든 변별도 지수와 마찬가지로 높은 양의 값(high positive values)이 가장 좋고, 매우 낮은 값, 0, 또는 음의 값(negative values)은 항상 바람직하지 않다고 해석될 수 있습니다. D의 예는 표 5.3의 Note 2를 참조하세요.

예를 들어, 고득점 응시자 그룹의 77%가 한 문항에 정답을 맞혔지만, 저득점 응시자 그룹의 34%만이 정답을 맞혔다면, 단순 변별도 지수(D)는 77 - 34 = 43과 같습니다. D가 43 (보통 D = 0.43으로 표현됨)은 이 시험 문항에 대한 강력한 양의 변별도(strong positive discrimination)를 나타내며, 이 특정 문항이 이 시험의 고성취자와 저성취자를 명확하게 구별했음(sharply differentiated)을 보여줍니다. D 지수는 다른 모든 문항 변별도 지수와 마찬가지로 최소 허용 가능한 값(minimum acceptable value)이 약 +0.20 정도라고 해석되어야 합니다. D 지수는 문항 변별도에 대한 유용한 해석을 제공하지만, 더 이상 널리 사용되지는 않습니다. 다음 섹션에서 제시되는 점 이분 상관관계(point-biserial correlation)가 이제 문항 변별도의 새로운 표준(new standard)이 되었습니다.

변별도 지수로서의 점 이분 상관관계 (Point Biserial Correlation as Discrimination Index)

특별한 유형의 상관 계수(correlation coefficients)도 시험 문항 분석을 위한 문항 변별도 지수(item discrimination indices)로 사용됩니다. 변별도의 점 이분 상관관계(point biserial correlation, rpbis) 지수는 학생의 문항 수행(performance on the item) (즉, 문항을 맞혔는지 틀렸는지, 여기서 1=정답, 0=오답)과 전체 시험에서의 수행(performance on the entire test) 간의 상관관계(correlation)입니다. 모든 상관관계와 마찬가지로, 변별도의 점 이분 상관관계 지수의 (이론적) 값은 -1.0에서 +1.0까지 범위에 있을 수 있으며, 통계적 관계의 강도를 나타냅니다. (상관관계의 한 변수가 이분형(dichotomous)이기 때문에, 이러한 유형의 상관관계의 상한과 하한은 실제로는 보통 ±1.0이 아닙니다.) 실제로는 약 0.45에서 0.65 정도의 점 이분 상관관계가 매우 높은 것으로 간주됩니다. 예시는 표 5.3의 Note 3을 참조하세요.

'Point-Biserial'이라는 이름은 단순히 'Biserial Correlation'이라는 개념이 따로 존재하기 때문에 이를 구분하기 위해 사용됩니다.

단일 시험 문항에 대한 문항 변별도 계산의 간단한 정량적 예시는 표 5.4에 나와 있습니다. 이 예는 10명의 학생이 한 시험 문항에서 어떻게 점수를 받았는지 보여줍니다. 중간 열은 이 10명의 학생 각각이 이 특정 시험 문항에서 어떻게 점수를 받았는지 설명하며, 1은 학생이 문항에 정답을 맞혔음을 나타내고, 0은 학생이 문항에 정답을 맞히지 못했음을 나타냅니다. 세 번째 열은 이 시험의 총점(total score)을 제공합니다. 이 예에서 학생 1은 이 문항에 정답을 맞혔고 전체 시험에서 41점을 받았습니다. 이 문항에 대한 변별도 지수(riT)는 이 응시자 그룹에 대해 +0.14와 같습니다. 이는 이 문항이 고득점 및 저득점 응시자를 긍정적으로 변별했음(positively differentiated)을 나타냅니다.

좋은 문항 변별도란? (What Is Good Item Discrimination?)

높은 양의 변별도(High positive discrimination)는 낮거나 음의 변별도(low or negative discrimination)보다 항상 좋지만, 얼마나 높아야 좋은가요? 일반적으로, 대규모 표준화 시험 개발자들은 효과적인 문항이 최소 +0.30 이상의 점 이분 상관관계 변별도 지수를 가질 것으로 예상하지만, 로컬에서 개발된 강의실 시험의 경우, +0.20대 중반에서 높은 값의 변별도 지수가 예상됩니다. 최소한, 모든 변별도 지수는 양수(a positive number)여야 합니다. 특히 평가에 어떤 중요한 이해관계(stakes)가 관련되어 있는 경우에는 더욱 그렇습니다. (음의 변별력을 가진 시험 문항[Negatively discriminating test items]은 측정에 아무것도 추가하지 않으며, 전체 시험의 중요한 심리측정적 특성(psychometric characteristics)을 손상시키고 시험 점수의 타당도를 감소시킬 수 있습니다.)

문항 난이도 및 문항 변별도에 대한 일반적인 권장 사항 (General Recommendations for Item Difficulty and Item Discrimination)

표 5.5는 대부분의 강의실 성취도 시험에 대한 이상적인 문항 난이도와 변별도에 대한 일반적인 권장 사항의 개요를 제시합니다. 이러한 모든 권장 값은 시험의 목적(purpose), 교육 환경의 유형(types of instructional settings), 시험과 관련된 이해관계(stakes) 등을 고려하여 해석되어야 합니다. 문항 난이도와 변별도에 대한 이러한 권장 값은 이상적인 값(ideals)을 나타냅니다. 대부분의 강의실 환경, 특히 "숙달(mastery)"이라는 교육 철학을 가진 환경의 경우, 이러한 권장 사항은 너무 엄격(too stringent)할 수 있으며, 현실적으로 약간 하향 조정(downward)해야 할 수 있습니다.

이러한 권장 사항은 가장 유익한 시험 문항(the most informative test items)이 중간 난이도(middle difficulty)이면서 변별도가 높은(discriminate highly) 문항이라는 이론에 기반합니다. 대부분의 성취도 시험의 경우, 대부분의 문항이 높은 변별도를 가진 평균 문항 난이도의 중간 범위에 있기를 바랍니다. 이들이 표 5.5의 Level I 문항입니다. 다음으로 좋은 문항 통계적 특성은 Level II 문항으로, Level I보다 약간 더 쉬운 문항이지만 공정한 변별력(fair discrimination)을 가집니다. Level III 및 Level IV 문항은 변별도가 낮으면서 매우 쉽거나(very easy) 매우 어려운(hard) 문항입니다. 이들은 심리측정적으로 가장 효과가 떨어지는(least effective) 문항이지만, 그러한 문항들이 중요한 내용을 측정할 가능성이 확실히 있으므로 시험 점수의 내용 관련 타당도(content-related validity)를 향상시키기 위해 (절대적으로 필요한 경우) 사용될 수 있습니다.

표 5.5의 권장 사항을 해석할 때, 문항 변별도(item discrimination)가 난이도보다 더 중요할 수 있지만 (두 매개변수 중 하나를 선택해야 한다면), 문항 난이도와 문항 변별도를 모두 고려해야 합니다. 문항 난이도와 문항 변별도가 완전히 독립적이지 않다는 점에 유의해야 합니다. 중간 난이도 문항(Middle-difficulty items)은 더 높은 예상 분산(higher expected variance)으로 인해 변별이 잘 될 가능성(better chance of discriminating well)이 더 높지만, 매우 쉬운 문항과 매우 어려운 문항은 때때로 극단적인 난이도로 인해 높은 변별도 지수(high discrimination indices)를 가질 수 있습니다. 매우 어렵거나 매우 쉬운 문항의 범주 그룹에 속하는 응시자가 거의 없기 때문에, 소수의 응시자 변화가 변별도 지수를 크게 변화시킬 수 있지만, 이는 능력 그룹의 소수 응시자로 인한 인위적 결과(an artifact of the small numbers of examinees)일 수 있습니다.

문항 선택지 (Item Options)

이상적인 문항은 각 오답지(distractor) (틀린 선택지)가 문항이 테스트하는 내용을 알지 못하는 최소한 일부 학생들에 의해 선택되는(selected by at least some students) 문항입니다. 어떤 응시자도 유인하지 못하는 오답지(An incorrect option that fails to attract any examinees)는 기능 부전의 오답지(dysfunctional distracter)이며, 문항이나 시험에 (심리측정적으로) 아무것도 기여하지 않습니다. 정답 또는 가장 좋은 정답 선택지는 양의 변별도 지수(positive discrimination index)를 가져야 합니다 (높을수록 좋습니다). 물론 이것이 문항의 변별도 지수입니다. 오답 선택지(Incorrect options) (틀린 답)는 음의 변별도 지수(negative discrimination indices)를 가져야 합니다. 능력이 떨어지는 응시자들이 능력이 더 좋은 응시자들보다 더 높은 빈도로 오답을 선택해야 하기 때문입니다.

문항 분석에 필요한 응시자 수 (Number of Examinees Needed for Item Analysis)

통계가 약 100명 미만의 응시자를 대상으로 한 시험 시행을 기반으로 한다면 어떤 문항 난이도 또는 문항 변별도 지수도 신중하게 다루어야 합니다(cautiously). 안정적인 문항 분석 통계를 위해서는 약 200명의 응시자(200 examinees)가 필요합니다. 그러나 소규모 표본(n≤30)의 경우에도 결과는 문항 개선을 위한 일부 유용한 지침(some useful guidance)을 여전히 제공할 수 있습니다. 일반적으로 소수에 기반한 통계는 불안정(unstable)하고 다음 번 문항 시행 시 변경될 수 있음을 인식하면서, 시험을 개선하는 데 있어서 아무 정보가 없는 것보다 어떤 정보라도 있는 것이 낫습니다. (통계 용어로, 문항 분석의 기반이 되는 표본 크기(sample size)가 작을수록 표집 오차(sampling error)가 커지고 표본 통계 주변의 표준 오차(standard errors)가 커집니다.)

고전 검사 이론에 기반한 모든 문항 분석 데이터는 표본에 의존적(sample dependent)이라는 점에 유의하세요. 모든 문항 난이도와 변별도 통계는 특정 응시자 표본의 능력 또는 숙련도(ability or proficiency)와 혼재(confounded)되어 있습니다. 응시자 표본이 크고 학생 능력의 범위가 각 시험 시행마다 상당히 일관적이라면, 문항 난이도와 변별도 값은 시간에 따라 안정적(stable over time)일 가능성이 높습니다.

시험에 대한 요약 통계 (SUMMARY STATISTICS FOR A TEST)

표 5.6은 완전한 문항 분석의 일부로 계산된 요약 통계(summary statistics)의 예를 보여줍니다. 이 통계는 전체 시험에 대한 것이며, 모든 용어는 표의 마지막 열에 정의되어 있습니다.

이러한 통계는 시험의 전반적인 성능(overall performance)을 설명하고, 시험 점수 해석에 유용한 타당도 증거(validity evidence)를 제공합니다. 이는 응시자에 대한 판단을 내리기 위해 점수를 사용하는 데 지침을 제공하며, 시험의 성능에 대한 유용한 정보도 제공합니다. 이 요약(표 5.6)은 총 응시자 수(total number of examinees)와 총 시험 문항 수(total number of test items), 그리고 평균 원점수(mean raw score)(정답 개수 점수)와 그 표준편차(standard deviation) 및 분산(SD2)을 보여주며, 최소, 최대, 그리고 중앙값 원점수(median raw scores)도 함께 나타냅니다. 이 데이터는 점수 분포의 형태(shape of the score distribution)에 대한 개요를 제공하고, 대부분의 응시자가 분포의 어느 부분에 점수를 받았는지 전반적으로 설명합니다. 평균 문항 난이도(mean item difficulty)는 두 가지 평균 문항 변별도 지수(mean item discrimination indices)와 함께 문항들이 평균적으로 얼마나 어렵거나 쉬웠는지, 그리고 얼마나 잘 변별했는지에 대한 추가적인 정보를 제공합니다. 신뢰도 계수(reliability coefficient)는 Kuder-Richardson formula 20 (KR 20) 또는 Cronbach의 알파(Cronbach’s alpha)이며, 이는 측정 척도의 내적 일관성(internal consistency) 지수이자 측정의 정확도(precision)를 나타냅니다. 측정의 표준 오차(standard error of measurement)는 신뢰도 계수로부터 계산되며, 원점수 척도(raw score scale)에서의 측정 정확도를 보여줍니다.

유용한 공식 (USEFUL FORMULAS)

부록은 몇 가지 유용한 공식(useful formulas)과 함께 가상 데이터(synthetic data)를 사용한 예시를 제시합니다. 이 공식들은 Crocker와 Algina(2008), Thissen과 Wainer(2001)와 같은 모든 기본적인 교육 측정 서적에서 찾을 수 있습니다. 이 네 가지 공식은 평가 환경에서 자주 사용되며, 쉽게 구할 수 있는 데이터로 손으로 직접 계산(hand calculated)할 수 있습니다. 컴퓨터 소프트웨어를 사용할 수 없는 경우, 이 공식들은 평가에 대한 유용한 정보를 제공하고 보건 전문직 교육자가 평가 데이터를 평가하고 향후 평가를 계획하는 데 도움을 줄 수 있습니다.

시험 점수의 평균, 분산(SD2), 총 시험 문항 수만 알 때 시험의 내적 일관성 신뢰도를 추정하는 공식이 제공됩니다. Kuder-Richardson formula 21 (KR21)은 일반적으로 더 정밀한 Kuder-Richardson formula 20 (KR 20)을 약간 과소평가(underestimates)하지만, 제한된 가용 데이터로 손으로 계산할 수 있습니다. KR20은 계산이 복잡하고, 계산에 사용되는 분산을 추정하기 위해 문항 수준 데이터(item-level data)를 사용하기 때문에 보통 컴퓨터 소프트웨어(문항 분석 소프트웨어 내)로 생성됩니다.

측정의 표준 오차(standard error of measurement, SEM)는 신뢰도 계수와 점수의 표준편차로부터 계산되는 중요한 통계입니다. 대부분의 문항 분석 소프트웨어 애플리케이션은 SEM을 계산하지만, 소프트웨어를 사용할 수 없을 경우 손으로 쉽게 계산할 수 있습니다. SEM은 관찰된 시험 점수 주변의 신뢰 구간(confidence intervals)을 계산하는 데 사용될 수 있으며, 시험 점수의 표준편차 단위로 표현된 측정의 정확도(precision of measurement)와 점수 내 측정 오류의 양(amount of measurement error)을 나타냅니다.

Spearman-Brown (S-B) 예측 공식(prophecy formula)은 시험 문항 수를 늘리거나 줄일 때 예상되는 시험 신뢰도의 증가 또는 감소를 추정하는 데 사용됩니다. S-B 공식은 시험에 추가되거나 제거되는 문항들이 내용, 문항 난이도, 문항 변별도와 관련하여 원래 문항과 거의 동일하다(more or less identical)고 가정합니다.

비감쇠 상관 계수(disattenuated correlation coefficient) 또는 감쇠에 대한 보정(correction for attenuation) 공식도 부록에 제시되어 있으며, 위 본문에서 논의되었습니다. 위에서 언급된 사용상의 모든 주의사항과 함께, 비감쇠 상관 계수는 진정한 점수(true scores)의 상관관계(고전적 측정 이론에서)를 추정하고, "만약 점수나 평점이 완벽하게 신뢰할 수 있었다면(perfectly reliable), 두 변수(보통 시험 점수 또는 평가 평점) 간의 추정된 상관관계는 무엇인가?"라는 이론적인 질문에 답(answers the theoretical question)합니다. 비감쇠 상관 계수는 관찰된 또는 실제 상관 계수(observed or actual correlation coefficient)와 함께만 보고되어야 하며, 항상 비감쇠 상관 계수 또는 감쇠에 대한 보정으로 명확하게 표기(clearly labeled)되어야 합니다.

문항 반응 이론 (ITEM RESPONSE THEORY)

이 장에서 제시된 시험 데이터 분석 접근법들은 고전 검사 이론(classical test theory, CTT)에 기반을 두고 있습니다. 문항 반응 이론(Item response theory, IRT)은 응시자 능력(examinee ability)과 문항 난이도(item difficulty)의 혼재(confounding)를 다루는 대체 측정 모델(alternative measurement model)입니다. CTT에서는 개인 능력의 추정치가 접한 특정 문항의 난이도/쉬움에 의존하고, 문항 난이도는 응시자의 능력(또는 능력 부족)에 의존합니다. IRT는 능력과 난이도를 독립적으로 추정(estimating ability and difficulty independently)하기 위한 통계적 절차를 제공합니다. 그러나 IRT는 최소 100명 이상의 표본 크기(sample size of at least 100)를 요구하는 것이 주요 장애물로, 강의실 또는 학교 환경에서 적용하기에 어려움(challenging)이 있습니다. 이러한 제약 때문에, CTT 방법은 일반적으로 지역 시험(local tests)에 사용되고, IRT 방법은 종종 CTT 방법과 함께 대규모 응시자를 위한 여러 시험 형식(multiple test forms for large numbers of examinees)을 구성하고 컴퓨터 적응형 시험(computer adaptive testing)을 지원하는 상황에 사용됩니다.

IRT 접근법에 대한 확장된 개요는 19장을 참조하세요. Downing(2003b)과 De Champlain(2010)은 또한 IRT에 대한 유용한 소개를 제공하며, 고전 검사 이론과 접근법을 비교하고, Tavakol과 Dennick(2013)은 지식 기반 시험의 데이터를 분석하기 위한 Rasch 분석 사용에 대한 가이드를 제공합니다.

요약 (SUMMARY)

이 장에서는 평가에 사용되는 몇 가지 기본적인 통계(basic statistics)를 요약했습니다. 일반적으로 기본적인 채점 단위 역할을 하는 기본 정답 개수 점수인 원점수(Raw scores)가 논의되었습니다. 평가 점수를 원점수 척도의 표준편차 단위로 표현하는 표준 점수(Standard scores)는 일반적으로 백분위수보다 더 유용하다고 권장되었습니다. 고전적 문항 분석(classical item analysis)과 요약 시험 점수 분석(summary test score analysis)의 기본이 논의되었으며, 문항 분석은 평가를 개선하기 위한 기본적인 도구로서 보건 전문직 교육의 모든 평가에 대해 권장되었습니다. 마지막으로, 평가를 평가하는 데 자주 사용되는 여러 통계 공식이 제시되어 독자가 많은 기본적인 평가 시험 통계를 쉽게 계산할 수 있도록 했습니다.

부록: 유용한 공식과 예시 계산 (APPENDIX: Some Useful Formulas With Example Calculations)

KUDER-RICHARDSON FORMULA 21 신뢰도 추정치 (KUDER-RICHARDSON FORMULA 21 RELIABILITY ESTIMATE)

용도(Use): 총 시험 문항 수(total number of test items), 평균 점수(mean score), 그리고 표준편차(standard deviation, SD)만 알려져 있을 때 내적 일관성 신뢰도(internal consistency reliability)를 추정합니다. 이 계산에는 정답률 점수(percent-correct scores)가 아닌 원점수(raw scores)를 사용해야 합니다.

KR 21은 보통 더 정밀한 KR 20 신뢰도(reliability)를 약간 과소평가(underestimates)하지만, KR 20은 계산을 위해 컴퓨터 소프트웨어를 필요로 한다는 점에 유의하세요.
KR21Reliability=K−1K[1−K(Var)M(K−M)]
여기서(where):
• K = 시험 문항 수(number of test items) (원문항 수, raw number of items)
• M = 원점수 평균(raw score mean)
• Var = 원점수 분산(SD2)
예시(Example): 한 기초 과학 시험에 50개의 문항이 있고, 평균 점수는 36.5, 표준편차는 10입니다. 이 시험의 KR 21 신뢰도 추정치는 얼마입니까?
KR21Reliability=50−150[1−50(100)36.5(50−36.5)]
=4950[1−500036.5(13.5)]
=1.0204[1−5000492.75]
=(1.0204)×(1−0.09855)
=(1.0204)×(0.90145)
=0.92

측정의 표준 오차 (STANDARD ERROR OF MEASUREMENT, SEM)
용도(Use): "진정한 점수(true score)"가 포함될 확률이 알려진 관찰 점수(observed score) 주변의 신뢰 구간(confidence intervals, CIs)을 형성하여 점수 범위(range of scores)를 나타냅니다.
SEM=SD×1−Reliability
여기서(where):
• SD = 시험의 표준편차(standard deviation of the test)
• Reliability = 시험의 신뢰도 추정치(reliability estimate for the test)
예시(Example): 100문항 시험의 평균이 73이고 SD가 12, KR 20 신뢰도가 0.89일 때, 측정의 표준 오차는 얼마입니까?
SEM=12×1−0.89
=12×0.11
=12×0.33
=3.96
만약 이 시험에서 한 학생의 원점수(raw score)가 25라면, 그의 진정한 점수(true score)에 대한 95% 신뢰 구간은 얼마입니까?
95%CI=X±1.96(SEM)
=25±1.96(3.96)
=25±7.76
=17.24≤TrueScore≤32.76

SPEARMAN-BROWN 예측 공식 (SPEARMAN-BROWN PROPHECY FORMULA)
용도(Use): 알려진 신뢰도를 가진 시험보다 더 길거나(longer) 더 짧은(shorter) 시험의 신뢰도를 추정합니다.
SBreliabilityoflongertest=1+(K−1)rKr
여기서(where):
• K = 시험이 길어지거나(lengthened) 짧아지는(shortened) 배수(number of times)
• r = 원래 시험의 신뢰도(reliability of original test)
예시(Example): 30문항 시험의 신뢰도가 0.35입니다. 이 시험을 90문항으로 늘렸을 때 예상되는 신뢰도는 얼마입니까? (K = 90/30 = 3)
SBReliability=1+(3−1)0.353(0.35)
=1+2(0.35)1.05
=1+0.701.05
=1.701.05
=0.62

비감쇠 상관관계: 감쇠에 대한 보정 (DISATTENUATED CORRELATION: CORRECTION FOR ATTENUATION)
용도(Use): 두 변수 간의 "진정한 점수(true score)" 상관관계를 추정합니다. 하나 또는 두 변수 모두가 완벽하게 신뢰할 수 있었다면(were perfectly reliable) 두 변수 간의 (이론적) 상관관계를 추정하기 위한 것입니다. 비감쇠 상관관계는 무작위 측정 또는 신뢰도 부족으로 인해 상관 계수가 감쇠(attenuating)되는 것을 (이론적으로) 제거합니다.
DisattenuatedCorrelation=Rtt=Rxy/(Rxx⋅Ryy)
여기서(where):
• Rtt = 추정된 비감쇠 상관 계수(estimated disattenuated correlation coefficient)
• Rxy = 변수 X와 Y 간의 관찰된 상관 계수(observed correlation coefficient)
• Rxx = 변수(시험) X의 신뢰도(reliability of variable [test] X)
• Ryy = 변수(시험) Y의 신뢰도(reliability of variable [test] Y)
예시(Example): 시험 A와 B의 상관관계는 0.48이었습니다. 시험 A의 신뢰도는 0.70이고 시험 B의 신뢰도는 0.51입니다. 시험 A와 시험 B 사이의 비감쇠 상관관계는 얼마입니까?
Rtt=0.48/(0.70×0.51)
=0.48/0.357
=0.48/0.597
=0.80
만약 시험 A와 B가 모두 완벽하게 신뢰할 수 있었다면(perfectly reliable), 예상되는 진정한 점수 상관관계는 0.80입니다. 비감쇠 상관관계는 관찰된 상관관계(observed correlation) 및 두 측정에 대한 신뢰도 추정치(estimate of reliability)와 함께만 보고되어야 합니다.
유의 사항(Note): 두 측정 중 하나만 신뢰도를 알고 있는 경우, 이 계산을 위해 알 수 없는 신뢰도를 1.0으로 설정하세요.

'논문 읽기 (with AI)' 카테고리의 다른 글

전문직업성을 위한 생산적 고투: 행동과 정체성 사이의 진자 운동 (Med Teach, 2025) (0)	2025.09.20
[AHPE] 6 표준 설정 (STANDARD SETTING) (0)	2025.09.16
[AHPE] 4 일반화가능도 이론 (Generalizability Theory) (0)	2025.09.15
[AHPE] 3 신뢰도 (Reliability) (0)	2025.09.15
[AHPE] 2 타당도와 평가의 질 (VALIDITY AND QUALITY) (0)	2025.09.09

의대에서 교육하고 있습니다.