
4 일반화가능도 이론 (Generalizability Theory)
Clarence D. Kreiter, Nikki L. Zaidi, and Yoon Soo Park
서론 (Introductory Comments)
이 장에서는 일반화가능도(G theory) 의 여러 중요한 측면에 대한 간략한 소개를 제공합니다. 비록 간략한 범위이지만, 학습자가 단변량(univariate) 및 다변량(multivariate) G 이론에서 사용되는 기본 개념과 절차를 개괄적으로 이해할 수 있도록 하는 것을 목표로 합니다. 이 장의 주요 목적은 보건의료 전문가 교육(health professions education)에서 흔히 사용되는 G 이론의 응용을 이해하는 데 필요한 배경을 제공하는 것입니다. 이를 위해, 우리는 시뮬레이션 데이터(simulated data) 와 실제 평가 데이터(real assessment data) 를 사용하여 G 이론 개념을 시연합니다. 계산 방법과 방정식은 학습자의 개념적 이해(conceptual understanding) 를 증진시키는 경우에만 제시합니다. 이론의 기술적 측면을 심층적으로 학습하고자 하는 독자를 위해, 우리는 Brennan(2001)의 저서 Generalizability Theory 와 일관된 표기법과 용어를 사용하려 노력했습니다. 이 장을 통해 학습자는 G 이론의 가장 일반적인 응용을 적용하고 해석할 수 있게 됩니다.
이 장에서 다루는 모든 주제는 실용적 응용(practical applications perspective) 관점에서 제시됩니다. 이를 위해 수학적 기초에 대한 배경 설명은 제한적으로 포함했습니다. 다만, 장 말미에 있는 세 개의 부록에서는 분산분석(ANOVA)에 기초한 통계적 기반 및 기타 기술적 정보를 설명합니다.
배경과 개요 (Background and Overview)
고전검사이론(Classical Test Theory, CTT; 3장에서 다룸)에서는 신뢰도(reliability) —즉, 평가 점수의 일관성과 재현 가능성—를 다지선다형 시험이나 평가자의 전반적 평정(global ratings) 맥락에서 설명했습니다. 그러나 평가 점수의 변동성에 기여하는 요인이 여러 개(예: 문항 수, 평가자 수, 시험 스테이션 수 등) 존재하는 복합적인 평가를 상상해 보십시오. 평가가 복잡해질수록 기존의 CTT 틀은 한계를 가지며, 보다 포괄적인 접근이 필요합니다. 이를 가능하게 하는 것이 바로 G 이론으로, 객관적 구조화 임상시험(OSCE), 로테이션 평가(rotation evaluations), 그리고 보건의료 교육에서 흔히 사용되는 수행 기반 평가(performance-based assessments) 와 같은 복합적인 평가를 분석하고 신뢰도를 추정할 수 있게 해줍니다.
3장에서 논의했듯이, CTT는 관찰 점수(observed score)가 두 가지 요소로 구성된다고 가정합니다: 진점수(true score) 와 오차(error). 이 개념은 다음과 같이 간단히 표현할 수 있습니다:
(식 4.1)

CTT에서의 신뢰도 표현은 다음과 같습니다:
(식 4.2)

G 이론도 마찬가지로 관찰 점수의 분산을 진점수 분산(true score variance) 과 오차 분산(error variance) 으로 분할할 수 있다고 가정합니다. 그러나 G 이론은 여러 가지 오차 원천(sources of error) 을 동시에 다룰 수 있다는 점에서 CTT와 다릅니다. 즉, 다음과 같이 식이 확장됩니다:
(식 4.3)

그리고 신뢰도 표현도 확장됩니다:
(식 4.4)

즉, 점수 분산을 크게 두 범주(진점수와 오차)로 개념화한다는 점에서 G 이론은 CTT와 공통된 이론적 틀을 공유합니다. 그러나 진점수 및 오차와 관련된 분산 구성요소(variance components)의 추정 방식에서는 CTT와 크게 다릅니다.
G 이론의 특징
- G 이론은 분산 추정치(variance estimates) 를 사용하여 특정 측정 상황에서 여러 신뢰도 계수(reliability-like coefficients) 를 산출할 수 있다는 점에서 독특합니다.
- CTT는 매 분석에서 오직 하나의 오차 원천만 추정합니다. 따라서 여러 차원(facets) 을 평균한 점수를 생성하는 측정 과정에서는 G 이론보다 덜 유용한 정보를 제공합니다.
- CTT도 측정에서 오차의 여러 원천이 존재함을 인정하지만, 각각을 독립적으로 추정하기 위해서는 별도의 연구 설계(research designs) 가 필요합니다. 예를 들어, 평가자가 여러 임상 사례(clinical cases)에서 수험자의 수행을 평가하는 과정에서:
- 평가자 간 신뢰도(inter-rater reliability),
- 사례 간 신뢰도(inter-case reliability),
- 사례 내 체크리스트나 평정 항목에 대한 내적 합치도(internal consistency alpha)
등이 각각 다른 오차 원천을 반영합니다. 그러나 이들을 통합해 전체 신뢰도를 추정하거나, 각 오차 원천의 상대적 중요성을 산출·보고하기는 어렵습니다.
G 이론은 이러한 각각의 오차 원천을 단일 분석에서 동시에 추정할 수 있습니다. 이를 통해 연구자는 측정 조건을 변화시켰을 때 신뢰도가 어떻게 달라지는지 예측할 수 있습니다. 즉, 특정 조건에서 얻은 점수가 다차원적 측정 과정을 여러 번 반복했을 때 얻을 수 있는 평균 점수(hypothetical average score) 를 얼마나 정확하게 반영하는지 평가할 수 있습니다.
이 평균 점수는 G 이론에서 우주 점수(universe score) 라고 불리며, CTT의 진점수와 유사합니다. 다만, G 이론에서는 이를 측정 과정의 모든 요인(facets) 과 관련해 정의합니다. 따라서 일반화가능성(generalizability) 혹은 신뢰성(dependability) 은 CTT에서의 신뢰도와 매우 유사한 개념입니다. 그러나 G 이론에서는 보다 구체적으로, 다음을 의미합니다:
- 수험자가 특정 평가에서 획득한 단일 점수(single score) 를, 동일 수험자가 모든 측정 조건에서 반복적으로 평가받았을 때 얻을 수 있는 평균 점수(average score) 로 일반화하는 정확도(accuracy of generalizing).
예시 데이터 소개
이제 가상 수행평가(hypothetical performance assessment) 와 합성 데이터(synthetic data) 를 통해 G 이론의 개념과 절차를 설명하겠습니다. 여기서 사용되는 데이터 세트는 교수용 교육 목적(instructional purpose) 으로 소규모 컴퓨터 시뮬레이션으로 생성된 것입니다. 실제 연구에서 측정 절차의 효과성을 안정적이고 의미 있게 통계적으로 추정하기 위해서는 훨씬 더 큰 데이터 세트가 필요합니다.
가상의 측정 문제—예시 (The Hypothetical Measurement Problem—An Example)
이 예시에서 사용된 데이터는 가상의 측정 문제(hypothetical measurement problem) 의 결과를 나타냅니다. 한 의학교육 연구자가 객관적 구조화 임상시험(OSCE; Objective Structured Clinical Examination, 9장 참조) 의 파일럿 버전으로부터 얻은 평가 점수의 신뢰도(reliability) 를 보고하고, 더 큰 규모의 운영 버전(operational version) 평가를 어떻게 설계해야 하는지 권고하도록 요청받은 상황입니다.
이를 위해, 10명의 수험자(examinees) 가 5개 스테이션(five-station OSCE) 에서 수행한 장면을 비디오로 녹화하고, 이를 두 명의 전문 의사 평가자(expert physician raters)가 독립적으로 5점 척도(five-point scale)로 평가한 전반적 평정(global ratings) 이 제공되었습니다. 이 (시뮬레이션된) 점수는 표 4.1에 제시되어 있습니다.

CTT 방법을 사용하면 평가자 간 신뢰도(inter-rater reliability) 나 스테이션 간 신뢰도(inter-station reliability) 계수를 계산할 수는 있습니다. 그러나 진점수 변동성(true score variability) 과 각 오차 원천(source of error)에 해당하는 분산을 동시에 추정하기는 어렵습니다. CTT는 최적의 측정 설계(optimal measurement design)에 대해 충분히 정보에 근거한 권고를 내릴 수 있는 추정치를 제공하지 못하므로, 연구자는 이 측정 문제를 해결하기 위해 G 이론(G theory) 을 사용합니다.
G 연구 모형 정의하기 (Defining the G Study Model)
표 4.1에 제시된 데이터를 분석하기 전에, 연구자는 먼저 G 연구(G study) 측정 모형(measurement model) 을 정의해야 합니다. 이를 위해, 먼저 측정 조건(conditions of measurement)—즉 데이터가 어떻게 수집되었는지—에 대한 공식적 정의와, 모형 사양을 표현할 때 사용하는 표기 규칙(notational conventions)을 제시할 필요가 있습니다.
- 먼저, 측정 대상(object of measurement) 이 무엇인지 정의해야 합니다. 측정 대상(object of measurement) 은 시험이 평가하도록 설계된 표본의 요소를 의미합니다. 대부분의 평가 상황에서 측정 대상은 수험자(examinee) 이며, 일반적으로 사람(person, p) 이라고 합니다.
- 측정 대상을 확인한 후에는, G 연구에서의 나머지 변동 원천(sources of variation)이 요인(facets) 으로 정의됩니다. Facet 은 연구자가 일반화를 하고자 하는 변동의 차원(dimension) 혹은 원천(source)을 의미합니다.
이 OSCE의 측정 조건을 고려했을 때, 연구자는 같은 두 명의 전문 평가자(raters) 가 10명의 수험자 모두를 5개 스테이션에서 평가했으며, 시험은 학생들의 임상 기술(clinical skills)을 평가하도록 설계되었다는 것을 확인할 수 있습니다.
따라서 연구자는 다음과 같이 G 연구 모형의 핵심 측면을 정의할 수 있습니다:
- 시험이 수험자의 수행(performance) 을 측정하도록 설계되었으므로, 평가자(rater)나 스테이션(station)의 수행이 아니라 수험자(person, p) 가 측정 대상(object of measurement)입니다.
- 대부분의 G 연구에서는 측정 대상인 사람(person)을 소문자 p 로 표기하는 것이 관례입니다.
측정 대상이 식별되면, 나머지 측정 조건인 평가자(raters, r) 와 스테이션(stations, s) 은 요인(facets) 으로 간주됩니다.
이 예시 문제에서는 두 개의 요인이 있습니다: 평가자(r) 와 스테이션(s). 표기로는 각각 “r”과 “s”를 사용합니다. 표 4.1에 제시된 점수에 영향을 미칠 수 있는 다른 요인들이 있을 수도 있지만, 연구자는 그것들을 특성화할 수 있는 추가 정보를 가지고 있지 않습니다.
다시 이 예시 문제를 살펴보면, 모든 수험자(p)는 모든 스테이션(s)을 경험했고, 각 스테이션에서 동일한 두 평가자(r)에 의해 평가되었습니다. G 이론 용어로 이를 모든 측정 조건이 완전히 교차(completely crossed) 되어 있다고 표현합니다. 교차를 나타내는 표기는 기호 “×” 입니다. 따라서 이 간단한 표기 규칙으로 우리의 G 연구 모형은 다음과 같이 표현할 수 있습니다:
[p × s × r]
즉, 이 G 연구 모형은 “수험자-교차-스테이션-교차-평가자(persons-crossed-with-stations-crossed-with-raters)” 설계입니다.
모든 G 연구 모형이 완전히 교차하는 것은 아닙니다. 예를 들어, 이와 유사한 OSCE를 설계하면서 각 스테이션마다 서로 다른 두 평가자를 배정할 수도 있습니다. G 이론 용어로 이것은 포함(nested) 설계(nested design) 라고 하며, 기호 “:” 로 나타냅니다. 예컨대, 만약 각 스테이션마다 서로 다른 두 평가자가 평가를 했다면, 이 G 연구 설계는 [p × (r : s)] 로 표현됩니다. 이는 곧 “수험자-교차-평가자-스테이션 내 포함(persons-crossed-with-raters-nested-within-stations)” 설계입니다. 이 장에서는 설계 변형(design variations)에 대한 추가 논의가 이어질 것입니다.
무작위 요인(random facets)과 고정 요인(fixed facets)
모든 G 연구 모형은 요인(facets)이 무작위(random) 인지 고정(fixed) 인지를 정의해야 합니다.
- 무작위 요인(Random facet):
- 특정 요인의 관찰 값이 더 큰 모집단(population)의 표본(sample)으로 간주될 때. G 이론에서는 이 더 큰 모집단을 허용 가능한 관찰의 우주(universe of admissible observations) 라고 하며, 표본에서 나온 관찰값들은 서로 교환 가능(interchangeable) 하다고 간주합니다.
- 스테이션이 무작위로 간주되는 이유: 우리의 관심은 특정 5개의 스테이션만이 아니라, 그 5개가 추출된 더 큰 스테이션 모집단(universe of similar stations) 으로 일반화하는 데 있기 때문입니다. 즉, 5개의 스테이션에서의 수행을 근거로, 더 넓은 우주의 유사한 스테이션에서의 수행으로 일반화하려는 것입니다.
- 평가자도 같은 논리 적용: 파일럿 시험에 참여한 두 명의 전문의 평가자는, 우리가 사용할 수 있거나 적합하다고 여기는 잠재적 평가자 모집단(population of potential expert physician raters) 중 하나의 표본으로 간주됩니다.
- 만약 평가자들에게 특별한 평가자 훈련(rater training) 이 제공되지 않았다면, 허용 가능한 평가자 모집단은 미국 의과대학의 학문적 의사들(academic physicians at US medical schools) 로 정의될 수 있습니다.
- 반대로, 연구에서 두 평가자가 특별한 훈련을 받았다면, 평가자 우주는 그 특별한 훈련을 받은 학문적 의사들로 더 제한적으로 정의해야 합니다.
- → 이 예시 문제에서 평가자(raters) 와 스테이션(stations) 은 모두 무작위 요인(random variables) 입니다. 따라서 이 예시의 G 연구 모형은 무작위 모형(random model) 으로 정의됩니다.
- 특정 요인의 관찰 값이 더 큰 모집단(population)의 표본(sample)으로 간주될 때. G 이론에서는 이 더 큰 모집단을 허용 가능한 관찰의 우주(universe of admissible observations) 라고 하며, 표본에서 나온 관찰값들은 서로 교환 가능(interchangeable) 하다고 간주합니다.
- 고정 요인(Fixed facet):
- 어떤 요인의 모든 조건이 G 연구에서 관찰되었거나, 연구자가 그 요인의 수준을 넘어 일반화할 의도가 없을 때. 고정 요인의 예시는 이 장의 뒷부분에서 제시될 것입니다.
G 연구 결과 도출하기 (Obtaining G Study Results)
이제 기본적인 G 연구 모형(G study model) 이 제시되었으므로, 다음 단계는 G 연구 결과를 도출하는 것입니다.
분산 구성요소(Variance Components, VCs) 는 G 연구 분석의 주요 결과물입니다. VC는 G 연구 모형에서 각 효과(effect)가 기여하는 변동성의 크기를 추정한 값입니다.
예시 문제의 모형에는 세 가지 주요 효과(main effects)가 있습니다:
- 측정 대상(object of measurement) — 수험자(persons, p)
- 두 가지 요인(facets) — 스테이션(stations, s)과 평가자(raters, r)
또한 ANOVA와 마찬가지로 상호작용(interactions) 도 존재합니다. 따라서 p, s, r 외에도 네 가지 상호작용 효과가 있습니다:
- ps, pr, sr, psr/e (여기서 "e"는 다음 절에서 설명됩니다).
따라서 예시 문제에서 G 연구는 총 일곱 가지 VC(p, s, r, ps, pr, sr, psr/e)를 추정합니다. 이러한 효과들의 의미와 해석 방법은 곧 설명됩니다. VC 추정에 사용되는 통계적 절차는 부록 4.1(Appendix 4.1) 에 제시되어 있습니다.
표 4.2(Table 4.2)는 표 4.1의 데이터를 기반으로 한 G 연구의 결과를 보여줍니다.

APPENDIX 4.1 G 연구의 통계적 기초 (Statistical Foundations of a Generalizability Study)


VC(분산 구성요소, Variance Components)의 유도를 이해하기 위해서는 ANOVA에서 사용되는 방법을 간단히 검토할 필요가 있습니다. ANOVA에서 제곱합(sums of squares, SS) 은 평균 주위의 점수 분포를 특징짓습니다.
예를 들어, 예시 문제에서의 총 제곱합(total SS)은 다음과 같이 계산됩니다:
따라서 예시 문제의 총 SS는 각 평정 점수에서 전체 평균을 뺀 제곱값의 합입니다. 식 (4.9)의 세 합산 기호(Σ)는 이 합이 모든 수험자(p), 스테이션(s), 평가자(r)에 대해 수행됨을 나타냅니다.
이를 이어서, 스테이션(s)에 대한 제곱합(SS)은 다음 식으로 계산할 수 있습니다:
이 식에는 합산 기호가 하나만 포함되며, 이는 합이 스테이션에 대해 이루어짐을 의미합니다. 따라서 식 (4.10)은 각 스테이션 평균과 전체 평균의 차이 제곱에 수험자 수(npn_p)와 평가자 수(nrn_r)를 곱한 값이 스테이션의 SS임을 나타냅니다.
각 SS에 대한 유도는 유사한 표기법과 기법을 따릅니다. SS 전체의 유도는 이 장의 범위를 벗어나므로 제공하지 않지만, 보다 심층적인 설명은 Kirk의 Experimental Design (1982) 에 제시되어 있습니다.
제곱합(SS)을 자유도(df)로 나누면 평균제곱(mean squares, MS) 이 되며, 이는 표 4.7의 네 번째 열에 제시됩니다.
다섯 번째 열에는 EMS(기대 평균제곱, Expected Mean Squares)가 분산 구성요소(σ²)와 표본 수(np,ns,nrn_p, n_s, n_r)로 표현되어 있습니다. EMS는 샘플에서 얻은 MS가 어떤 분산 요소들로 구성되는지를 나타냅니다.
중요한 점은, MS가 표본에 기초해 계산되었기 때문에, psr 상호작용의 경우에만 샘플 MS가 모집단 VC(σ^2\hat{\sigma}^2)의 추정량으로 작용한다는 것입니다. (여기서 “^”는 추정치를 의미합니다).
예를 들어, 표 4.7 마지막 행에서, psr의 MS는 표본으로부터 직접 모집단 VC를 추정합니다. 따라서 psr의 MS를 이중 상호작용(ps, pr, sr)의 EMS 식에 대입하면, 대수적 계산을 통해 각 이중 상호작용의 모집단 VC를 분리하여 추정할 수 있습니다.
예시:
세 가지 주효과(σ²(p), σ²(s), σ²(r))의 모집단 VC를 구하는 과정은 약간 더 복잡하지만, 표 4.7의 MS를 식에 대입하여 추정할 수 있습니다. 예를 들어, 수험자(persons)의 VC는 다음과 같은 식으로 계산됩니다:
===
G 연구 결과 해석하기 (Interpreting G Study Results)
- 표 4.2(Table 4.2)의 첫 번째 열 은 G 연구에서 추정된 각 효과(effect)를 나열합니다. 여기에는 주요 효과(main effects: p, s, r)와 상호작용 효과(interaction effects: ps, pr, sr, psr/e)가 포함됩니다.
- 두 번째 열 은 자유도(degrees of freedom, df)를 보여줍니다.
- 세 번째 열 은 일곱 가지 효과 각각에 대해 추정된 분산 구성요소(Variance Components, VCs) 값을 보여줍니다.
- 네 번째 열 은 각 VC가 차지하는 분산의 비율(percentage of variance)을 제공합니다.
주요 효과 (Main Effects)
- 첫 번째 행(p):
단일 평가자(rater)가 단일 OSCE 스테이션에서 부여한 점수에서 15.6%의 분산은 수험자(persons, p) 간의 체계적 차이(systematic differences) 에 기인합니다.
이는 측정 대상(object of measurement) 분산이며, CTT에서의 진점수 분산(true score variance) 과 유사합니다. 식 (4.4)의 신뢰도 정의에 따르면, 수험자(p)에 의해 설명되는 분산 비율이 클수록 신뢰도는 높아집니다. - 두 번째 행(s):
스테이션(stations)에 기인하는 체계적 분산(systematic variance)을 나타내며, 스테이션의 평균이 얼마나 다른지를 반영합니다. 스테이션 효과(s)는 전체 관찰 분산의 6% 를 설명합니다. 이는 표본 내 스테이션 간 난이도 차이가 작거나 중간 정도임을 시사합니다. - 세 번째 행(r):
평가자(raters)에 기인하는 체계적 효과를 나타내며, 평가자 전체 평균 점수 차이를 반영합니다. 이 효과는 6.5% 의 분산을 차지합니다. 이는 평가자 간 평균 차이가 크지 않음을 의미하며, 다시 말해 두 평가자의 전반적 엄격성 수준(stringency level)이 유사했음을 보여줍니다.
상호작용 효과 (Interaction Effects, Rows 4–7)
- 네 번째 행(ps):
수험자 × 스테이션(person × station) 상호작용입니다. 이는 스테이션이 수험자들을 서로 다른 방식으로 서열화(rank order)하는 정도를 의미합니다. 이는 전체 분산의 30.5% 로 가장 큰 비중을 차지하며, 수험자의 서열이 어떤 스테이션을 경험했느냐에 따라 상당히 달라질 수 있음을 보여줍니다. 이러한 스테이션 간 변동성은 흔히 사례 특이성(case specificity) 으로 불립니다. 이는 특정 스테이션과 관련된 지식이나 기술 수준에서 개인 간 차이가 발생했기 때문일 수 있습니다. - 다섯 번째 행(pr):
수험자 × 평가자(person × rater) 상호작용으로, 전체 분산의 13.4% 를 설명합니다. 이는 특정 스테이션에서 수험자에게 점수를 부여할 때 평가자 간의 일치도가 중간 정도였음을 의미합니다. - 여섯 번째 행(sr):
스테이션 × 평가자(station × rater) 상호작용입니다. 이는 전체 분산의 3.9% 로 가장 작은 비율을 차지하며, 특정 스테이션에서 평가자가 누구냐에 따라 난이도가 크게 달라지지 않았음을 보여줍니다. - 일곱 번째 행(psr/e):
잔차(residual)로, 이는 수험자 × 스테이션 × 평가자(person × station × rater) 의 삼중 상호작용(triple interaction)과, [p × s × r] 설계에 포함되지 않은 오차(error, e) 를 함께 포함한 값입니다. 전체 분산의 24.1% 로, 상당히 큰 비중을 차지합니다.
Table 4.3 (효과의 의미 요약)
표 4.3은 각 VC가 의미하는 효과를 언어적으로 설명한 것입니다.

포함 설계 [p × (r:s)] 에서의 G 연구 결과 (Nested Design)
많은 OSCE 시험에서 흔히 볼 수 있는 포함 설계(nested design), 즉 [p × (r:s)] 설계를 분석하는 경우 어떤 VC가 추정되는지 고려해보겠습니다.
- 교차 설계(crossed design) 와 마찬가지로, 포함 설계에서도 세 가지 주요 효과를 추정할 수 있습니다: p, s, r:s.
- 여기서 rater 효과는 스테이션 내에 포함된 평가자(rater-nested-within-station, r:s) 로 정의됩니다. 그러나 그 해석은 교차 설계에서의 rater 효과와 동일합니다.
- 상호작용 효과(interaction effects)의 경우, 포함 설계에서는 두 가지만 추정할 수 있습니다: ps, pr:s.
- ps VC 는 완전히 교차된 설계에서와 동일하게 해석됩니다.
- 그러나 pr:s VC 는 교차 설계에서의 pr VC와는 다릅니다. pr:s 상호작용은 가장 높은 수준의 상호작용(highest-order interaction)에 해당하므로, 잔차 오차(residual error) 를 포함하게 되어 교차 설계에서의 pr VC와 동일하게 해석할 수 없습니다.
- 또한, [p × (r:s)] 설계에서는 평가자가 오직 하나의 스테이션만 평가하기 때문에, 스테이션 × 평가자(sr) VC는 별도로 추정될 수 없으며, 잔차 오차(residual error) 에 포함됩니다.
|
D 연구 수행하기 (Conducting the D Study)
예시 문제 설명에서 언급했듯이, 연구자는 파일럿 시험 점수의 신뢰도를 산출하는 것뿐만 아니라, 운영 버전(operational version) 의 시험을 어떻게 설계해야 하는지에 대한 권고도 요청받았습니다.
D 연구(Decision study, D study) 는 실제 G 연구에서 수집된 점수의 신뢰도뿐만 아니라, 다른 설계와 표본 크기를 적용했을 경우의 평가 신뢰도 도 추정할 수 있습니다. 따라서 D 연구는 최적의 시험 설계(optimal test design) 와 관련된 질문을 다룰 수 있습니다.
- G 연구의 구조는 D 연구가 다룰 수 있는 설계 범위를 결정합니다.
- 완전히 교차된 G 연구 설계(completely crossed design)는 추정 가능한 VC 효과의 수를 최대화하며, 동시에 고려 가능한 D 연구 설계의 수 또한 극대화합니다.
- 이는 D 연구가 다양한 설계의 추정 신뢰도를 계산하기 위해 G 연구에서 얻은 VC를 필요로 하기 때문입니다.
예시 문제에서 D 연구는:
- 실제 측정 조건(즉, 두 명의 평가자와 다섯 개의 스테이션으로 이루어진 완전히 교차된 무작위 모형)의 신뢰도를 추정할 수 있을 뿐만 아니라,
- 평가자 수, 스테이션 수, 설계 변형이 다른 OSCE 설계의 신뢰도도 추정할 수 있습니다.
예를 들어, 교차된 무작위 모형에서 얻은 추정치는 부분적으로 포함된 설계(partially nested design)의 신뢰도를 추정하는 데 사용할 수 있습니다. 예시 문제에서 다섯 개 스테이션이 각각 다른 두 평가자 쌍에 의해 채점되었다면, 이는 수험자 × 스테이션 내 포함된 평가자(p × r:s) 설계가 됩니다. 이러한 설계는 실제 OSCE나 MMI(Multiple Mini-Interview) 같은 반복 측정 과정에서 흔히 사용됩니다. 동일한 평가자를 모든 스테이션에 배정하는 것이 현실적으로 불가능한 경우가 많기 때문입니다.
따라서 연구자는 여러 D 연구를 수행하여 다양한 설계를 비교하고, 운영 버전 시험을 어떻게 구성할지 결정할 수 있습니다.
D 연구 표기법 (D Study Notation)
- 예시 문제의 G 연구 모형에서는 요인(facets)을 소문자 표기로 나타냈습니다. 이는 G 연구 분석에서 추정된 효과가 단일 스테이션에서의 단일 채점(one rating on a single station) 에 해당함을 의미합니다.
- 그러나 D 연구에서는 여러 조건에 걸친 평균 평정값(average ratings across conditions) 을 나타내야 하므로, 대문자 표기를 사용합니다.
- 따라서 D 연구 모형은 대문자를 사용하여 설계를 표현합니다. 예를 들어, 예시 문제의 설계와 유사하되 평가자 수나 스테이션 수가 다른 경우, D 연구 모형은 [p × S × R] 로 표시됩니다.
D 연구에서 산출되는 신뢰도 계수 (Reliability-like Coefficients in D Study)
D 연구는 두 가지 형태의 신뢰도 계수를 생성합니다:
- 일반화 계수 (Generalizability coefficient, G or Eρ²)
- 의존성 계수 (Measure of dependability, Phi or Φ)
- G 계수(G coefficient, Eρ²): 상대적 오차(relative error)에 민감하며, 수험자 서열(examinee rankings)의 재현성을 나타내는 데 유용합니다.
- Phi 계수(Phi, Φ): 절대적 오차(absolute error)를 반영하며, 점수 자체의 절대적 재현성(absolute reproducibility of a score) 을 의미합니다. 즉, 동일한 측정 과정을 반복했을 때 수험자가 얻는 점수가 얼마나 안정적인지를 보여줍니다.
예시 문제에서 OSCE 측정 절차(5개 스테이션, 2명의 평가자)를 완전히 반복한다고 가정할 경우:
- Phi(Φ): 수험자의 최종 점수가 얼마나 유사하게 재현될지를 나타냅니다.
- G 계수(Eρ²): 수험자들을 얼마나 일관되게 서열화할 수 있는지를 추정합니다.
따라서,
- Phi 계수는 준거지향 검사(criterion-referenced testing) 와 관련된 질문에 유용하며,
- G 계수는 규준지향 검사(norm-referenced testing) 에 더 적합한 정보를 제공합니다.
| 구분 | G 계수 (Eρ²) | Phi 계수 (Φ) |
| 고려하는 오차 | 상대적 오차 (다른 사람과의 비교) |
절대적 오차 (자신의 점수 변동)
|
| 주요 질문 | "서열이 얼마나 일관되게 유지되는가?" |
"점수가 얼마나 안정적으로 재현되는가?"
|
| 적합한 평가 | 규준지향 검사 (상대적 순위) |
준거지향 검사 (절대적 기준)
|
| 의사결정 | 장학금 수여, 등급 배정 등 |
합격/불합격, 면허 발급 등
|
절대 오차와 상대적 오차
- 절대 오차 분산(absolute error variance, Δ): 측정 대상(object of measurement)을 제외한 모든 오차 원천을 포함합니다.
- 상대적 오차 분산(relative error variance, δ): 수험자의 서열(ranking)에 영향을 주는 오차 원천만 포함하며, 예시 문제에서는 r, sr VC가 분모에 포함되지 않습니다.
따라서,
- 스테이션 난이도 차이(총 분산의 6%),
- 평가자 엄격성 차이(6.5%),
- 스테이션 × 평가자 상호작용(3.9%)
이 세 요소가 Phi와 G 계수의 차이를 결정합니다. (식 4.5, 식 4.6 참조)
1. 절대 오차(Absolute Error) 📏
2. 상대적 오차(Relative Error) ⚖️
|

즉, 모든 D 연구 설계에서 절대 오차(Δ) ≥ 상대적 오차(δ) 이므로, Phi(Φ) ≤ G(Eρ²) 가 항상 성립합니다.
부록 4.2(Appendix 4.2)에서는 절대 및 상대 오차 계산에 포함되는 VC와 오차 원천에 대해 더 자세히 설명합니다.
부록 4.2 (APPENDIX 4.2)
의사결정 연구(D Study)의 통계적 기초 (Statistical Foundations of a Decision Study)

이 부록에서는 G 계수(G coefficient) 와 Phi 계수(Phi coefficient) 를 계산하기 위해 사용되는 비율을 이해하는 데 필요한 논리적·기술적 배경을 설명합니다.
예시 문제에서 사용된 설계를 다시 활용하여, 평가자(raters)와 스테이션(stations)의 수가 달라질 때 G 계수의 비율이 어떻게 달라지는지를 고려해봅시다.
- 식 (4.12)는 D 연구에서의 G 계수(G coefficient) 를 분산 구성요소(VCs)의 비율로 표현한 것입니다.
- 식 (4.13)은 D 연구에서의 Phi 계수(Phi coefficient) 를 분산 구성요소의 비율로 표현한 것입니다.
추정된 VC는 식 (4.12)와 (4.13)에 사용되어 D 연구 신뢰도 추정치(D study reliability estimates) 를 제공합니다. 독자는 표 4.4(Table 4.4)에 보고된 결과를, 적절한 표본 크기(sample sizes)와 표 4.2에서의 VC 추정치를 식 (4.12)와 (4.13)에 대입하여 검증할 수 있습니다.
주의할 점은:
- Phi(식 4.13)의 분모에는 모든 오차 원천(all sources of error) 이 포함됩니다.
- 반면, G(식 4.12)의 분모에는 수험자의 서열(examinee rankings)에 영향을 미치는 오차 원천만 포함됩니다.
또한 식 (4.12)와 (4.13)은 각각 식 (4.5)와 (4.6)의 보다 구체화된 버전(more detailed version) 임을 인식할 필요가 있습니다.
각각의 D 연구 설계마다 식 (4.12)와 (4.13)과 유사하지만 설계에 따라 고유한 G 및 Phi 방정식이 존재합니다. 평가자 수(n_r)와 스테이션 수(n_s)에 적절한 값을 대입하면, 이 두 식은 모든 [p × S × R] 설계(임의의 스테이션과 평가자 수를 가진 설계)에 적용할 수 있습니다.
그러나 만약 연구자가 [p × (R:S)] 설계처럼 다른 설계를 검토한다면, 그에 따른 또 다른 D 연구 방정식을 적용해야 합니다. 이러한 방정식에 대한 보다 자세한 설명은 Brennan(2001), Shavelson & Webb(1991)의 G 이론 교재에서 확인할 수 있습니다.
G 이론의 주요 강점 중 하나는 G 연구 결과를 사용하여 G와 Phi 계수를 현재의 설계와는 다른 다양한 설계에도 적용할 수 있다는 점입니다.
D 연구 해석하기 (Interpreting the D Study)
표 4.4(Table 4.4)는 예시 OSCE 평가 데이터에 대한 D 연구 결과를 나타내며, 평가자(raters)와 스테이션(stations)의 수를 변화시켜 G와 Phi를 추정한 것입니다.


D 연구를 해석할 때는 그 결과를 그래프로 시각화하는 것이 도움이 됩니다(그림 4.1 참조). 표 4.4의 G 계수를 두 요인(facets: 평가자, 스테이션) 수준별로 그래프에 나타내면 몇 가지 중요한 결과가 드러납니다.
- 첫째, 평가자를 2명 이상 사용하면 신뢰도는 소폭 증가합니다.
- 둘째, 스테이션 수를 늘리면 신뢰도가 크게 증가합니다.
- 예를 들어, 평가자가 2명일 때 스테이션 수를 1개에서 5개로 늘리면, G 계수는 0.266만큼 증가합니다.
또한 이 D 연구는 스테이션 수가 5개를 초과하더라도, 추정 신뢰도에서 실질적으로 중요한 증가(practically important gains) 가 계속 나타난다는 점을 보여줍니다. 평가자 수와 스테이션 수가 점수의 의존성(dependability) 에 미치는 영향은 Phi(Φ) 값으로 요약되어 표 4.4의 마지막 열에 제시되어 있습니다.
비록 그림 4.1에는 Phi가 그래프로 제시되지 않았지만, 예시 문제에서는 Phi와 G의 패턴이 거의 동일합니다. 다만 Phi 값은 분모에 s, r, sr 등 추가적인 오차 원천(error sources)을 포함하기 때문에 G 계수보다 다소 작습니다.
측정에서의 오차와 SEM
모든 측정 과정에는 원하지 않는 오차가 포함됩니다. 따라서 개인의 점수는 결코 그 사람의 속성, 기술, 지식의 “진정한(true)” 반영이 될 수 없습니다.
- G나 Phi 계산에 사용되는 오차항(error terms) 은 여러 오차 원천으로부터 발생할 수 있는 상대적(relative) 또는 절대적(absolute) 오차의 크기를 추정한 값입니다.
- 이러한 오차 추정치를 사용하면, 측정 표준오차(SEM, Standard Error of Measurement) 를 계산할 수도 있습니다. SEM은 측정 과정을 반복했을 때 관찰 점수가 얼마나 변동할 수 있는지를 보여줍니다.
SEM의 장점은 G나 Phi와 달리, 점수 척도와 동일한 단위(metric) 로 표현된다는 점입니다. 즉, 측정 과정을 반복했을 때 기대되는 점수 결과의 표준편차를 의미합니다.
CTT와 마찬가지로, SEM은 획득 점수 주위에 신뢰구간(confidence intervals) 을 설정하는 데 사용할 수 있습니다(3장 참조).
표준화 환자(SP) 기반 OSCE 연구
표준화 환자(Standardized Patient, SP) 기반 OSCE와, OSCE 유사 입학 평가(MMI 포함)에 대한 G 연구 문헌은 매우 방대합니다.
- Van der Vleuten & Swanson (1990) 은 SP 문헌에서의 주요 발견을 잘 요약했습니다. 이들은 대부분의 SP 연구에서, 측정 오차의 주요 원천은 스테이션 간 수험자 수행 차이(ps 분산) 라고 보고했습니다.
- Eva, Rosenfeld, Reiter, Norman (2004) 도 MMI에 대해 유사한 결론을 보고했습니다. 이들은 후보자-스테이션(ps) 상호작용에 기인하는 분산이 다른 오차 원천에 비해 훨씬 크다고 밝혔습니다. 이러한 ps 분산은 흔히 “내용 특이성(content specificity)” 또는 “사례 특이성(case specificity)” 분산이라고 불립니다. 즉, 한 맥락(context)에서의 수행은 다른 맥락에서의 수행을 잘 예측하지 못한다는 의미입니다.
G 및 D 연구 모형의 변형 (G and D Study Model Variations)
의미 있는 결과를 얻으려면 연구자가 G 연구(G study)와 D 연구(D study) 모형을 정확하게 규정하는 것이 필수적입니다. 이 절에서는 두 가지 추가적인 측정 예를 간단히 소개하고, 흔히 마주치는 G 및 D 연구 모형 변형을 다룹니다. 우리의 예시 OSCE 문제는 두 요인(two-facet) [p × s × r] 무작위 모형(random model) 설계였습니다.
그러나 실제로는 하나의 요인만을 사용하는 모형이 자주 사용됩니다.
- 예를 들어, 전형적인 객관식 시험(multiple-choice test) 은 수험자(persons, p) × 문항(items, i) 으로 교차된 단일 요인 무작위 모형(one-faceted random model)으로 설계될 수 있습니다 [p × i].
- [p × i] G 연구 설계는 세 가지 효과를 추정합니다: p, i, pi. 이 설계의 G 계수(G coefficient)는 다음과 같이 계산됩니다:

G 계수 (G or Eρ²) 공식
Phi 계수 (Phi or Φ) 공식
G와 Phi의 차이점 요약두 공식의 가장 큰 차이는 Phi 계수의 분모에 항이 추가되어 있다는 점입니다.
|
여기서 n_i는 문항 수(number of items)를 의미합니다. n_i가 G 연구에 사용된 문항 수와 동일하다면, 이 설계의 G 계수는 Cronbach의 알파 계수(Cronbach’s coefficient alpha) (또는 KR-20)와 동일합니다. 이 객관식 시험 예시의 Phi는 식 (4.8)에 제시되어 있습니다.
포함된 G 연구에서의 고정 요인(fixed facet) 예시
포함 설계(nested design)에서 고정 요인(fixed facet) 을 보여주기 위해, 두 가지 형식(format, f)—객관식(MC) 과 참/거짓(TF)—을 사용하는 필기시험을 생각해봅시다.
- 문항이 동시에 두 형식(MC와 TF)에 속할 수는 없으므로, 문항(items)은 형식 내에 포함(nested within format) 되어야 합니다 (i:f).
- 두 형식(MC와 TF)은 무한히 큰 형식 모집단에서 추출된 표본이 아니라, 이 연구에서 관심 있는 유일한 두 형식입니다. 따라서 이 형식(f)은 무작위 요인(random facet) 이 아니라 고정 요인(fixed facet) 으로 간주됩니다.
즉, 이 모형은 무작위 요인(문항) 과 고정 요인(형식) 을 동시에 포함하므로 혼합 모형(mixed model) 이 됩니다. 따라서 G 연구 설계는 수험자(p) × 문항(i) : 형식(f) 내 포함 혼합 모형으로 표현되며, 이는 [p × (i:f)] 설계입니다.
교란(confounding)
임상 평가(clinical assessment) 자료를 사용하는 연구자들이 흔히 직면하는 문제 중 하나는 교란(confounding) 입니다. 교란은 각 요인의 단일 조건이 다른 요인과 결합될 때 발생합니다.
- 그림 4.2는 교차(crossed), 포함(nested), 교란(confounded) 데이터 수집 설계의 예시를 보여줍니다.

1. Crossed (교차 설계)
2. Nested (포함 설계)
3. Confounded (혼입/교란 설계)
|
예시에서 교란 설계(confounded design)는 각 OSCE 스테이션마다 단일 평가자가 배정되는 경우를 보여줍니다. 이 경우, 스테이션당 평가자가 오직 한 명이므로, 일반화가능도 분석(generalizability analysis)은 평가자와 스테이션의 독립적 효과를 추정할 수 없습니다. 대신, 평가자와 스테이션 오차가 결합된 효과만을 추정할 수 있습니다.
불균형 설계 (Unbalanced Designs)
불균형 설계(unbalanced designs) 는 자연주의적 임상 평가 상황에서 흔히 발견되는 또 다른 조건입니다.
- 예를 들어, 수험자마다 평가자 수나 임상 수행 관찰 수가 다를 수 있습니다.
- 또한, 포함된 요인(nested facet)의 수준(level) 수가 불균등할 때도 불균형 데이터가 발생합니다.
데이터가 충분히 많다면, 한 가지 접근 방식은 층화 임의표집(stratified random sampling) 을 통해 각 수험자가 동일한 수의 관찰치를 갖도록 균형 데이터(balanced data) 를 만드는 것입니다. 그러나 이 경우 일부 데이터를 버리게 됩니다.
다른 방법으로는, 불균형 데이터를 이용해 VC를 추정할 수 있는 다양한 통계적 접근법이 있습니다. 하지만 어느 접근법이 더 합리적인지에 대한 명확한 논리적 근거는 없으며, 각각은 다소 다른 추정치를 산출합니다.
불균형 데이터가 고정 요인(fixed facet) 내에 포함되어 있다면, 다변량 일반화가능도(multivariate generalizability) 가 효율적이고 직접적인 기법이 될 수 있습니다. 다음 절에서는 불균형 설계 내에서 다변량 접근법을 소개합니다.
요약 (Summary)
이 절에서는 네 가지 G 연구 설계만 간단히 논의했습니다:
- [p × i]
- [p × (i:f)]
- [p × s × r]
- [p × (r:s)]
비록 요인(facets), 포함(nesting), 혼합 모형 조건(mixed models)이 추가되면 G 연구 모형의 변형은 빠르게 늘어나지만, 이 네 가지 모형은 보건과학 교육 연구(health science education research)에서 가장 흔히 사용되는 G 이론 응용을 이해하기 위한 기본 틀과 핵심 개념을 제공합니다.
이 장에서 가능한 모든 모형을 포괄적으로 다루는 것은 범위를 벗어나므로, 독자는 보다 폭넓은 모형과 설계 고려사항을 제시하는 문헌(Brennan, 2001; Shavelson & Webb, 1991; Norman, 2003)을 참고하기 바랍니다.
다변량 일반화가능도 (Multivariate Generalizability, MVG)
여기까지는 단변량 일반화가능도 이론(univariate G theory)에만 집중했습니다. 단변량 G 연구에서는 각 수험자(examinee)에 대해 단일 요약 점수(single summary score) 를 산출하는 측정 절차에 대해, 신뢰도 계수를 계산하는 데 사용할 수 있는 분산 구성요소(variance components, VCs) 를 추정하는 방법을 다뤘습니다.
이 절에서는 범위를 넓혀, 수험자에게 여러 개의 요약 점수(multiple summary scores) 가 부여되는 경우 적용할 수 있는 다변량 일반화가능도(MVG) 절차를 소개합니다.
MVG가 유용한 상황
MVG는 평가가 수험자의 수행을 서로 다른 측면에서 측정하는 여러 개의 점수를 산출할 때 적용할 수 있습니다.
- 예: SP 기반 OSCE에서 각 스테이션이 의사소통(communication) 과 임상 추론(clinical reasoning) 문항을 포함하는 경우, 각각의 수행 차원을 요약 점수로 산출할 수 있습니다.
- 또 다른 예: 보건과학 교육과정(health science professions education program) 에서 학생들이 두 개 이상의 뚜렷한 단계(phase)에서 성적을 받는 경우, 각 교육 경험에 대해 GPA(grade point average)를 산출하는 것이 유용할 수 있습니다.
MVG의 특징
- 단변량 G 이론은 오직 분산 구성요소(VCs)에만 초점을 둡니다.
- MVG는 여기에 더해, 공분산(covariance) 과 우주 점수 상관(universe score correlations) 을 산출하여 여러 측정치 간의 관계를 보여줍니다.
교육적 예시: Kreiter & Ferguson (2016) 연구
Kreiter와 Ferguson(2016)의 연구는 강의(didactic) 와 임상(clinical) 수업 성적을 분석한 MVG 사례입니다.
- 학생들은 의학교육의 첫 2년 동안 강의 수업을 받고, 3학년 때 임상 수업을 경험했습니다.
- 각 수업마다 성적이 부여되었고, 수업은 강의 단계(didactic) 또는 임상 단계(clinical)에 속했습니다.
- 연구자들은 강의 GPA 와 임상 GPA, 그리고 두 GPA 간의 관계를 분석하고자 했습니다.
연구자들은 먼저 단변량 혼합 모형 G 연구(univariate mixed model G study) 를 수행했습니다. 여기서 수업 성적(grades, g) 은 고정 요인(fixed facet)인 수업 유형(type, t) 내에 포함(nested)되어 있었습니다: [p × g:t].
- 표 4.5(Table 4.5)는 1,101명의 학생의 20개 성적(강의 14개, 임상 6개)을 분석한 단변량 G 연구 결과를 보여줍니다.
- 이 단변량 연구는 의미 있는 정보를 제공했지만, 각 GPA의 신뢰도를 비교·계산하거나 두 GPA 간의 관계를 이해하기에는 충분하지 않았습니다.
- 또한 데이터가 불균형(unbalanced)했는데, 강의 성적이 14개, 임상 성적이 6개로 서로 달랐기 때문입니다. 단변량 모형에서는 불균형 데이터를 처리하기 위해 여러 통계적 접근 중 하나를 선택해야 했습니다.
- 그러나 MVG는 불균형 설계를 다루고 데이터에 대한 더 완전한 시각을 제공하는 또 다른 전략입니다.

다변량 개념과 표기법
MVG 예시를 살펴보기 전에, 다변량 개념과 표기법을 소개합니다.
- MVG 설계는 항상 단변량 대응(univariate counterpart) 을 가지며, 이는 고정 요인을 포함한 혼합 모형입니다.
- 교육적 예시에서는 유형(type, t)이 두 수준(강의와 임상)을 가지므로, MVG 분석은 학생마다 두 개의 요약 점수를 산출하게 됩니다.
특수 표기법:
- 수험자(person, p)가 유형(type, t)의 각 수준에 대해 점수를 가진다는 사실을 표시하기 위해 “•” 기호를 사용합니다. 즉, “p•”는 수험자가 다변량 변수의 각 수준에 대해 점수를 가진다는 의미입니다.
- 성적(grades, g)은 유형(type, t) 내에 포함되므로, “°” 기호로 표시합니다.
- 따라서 이 연구의 MVG 모형은 [p• × g°] 로 표현됩니다.
이는 곧, 두 수준의 고정 요인(type, t)을 가진 단변량 모형이 각각 존재하며, 학생들이 두 유형의 수업 모두에서 점수를 받았기 때문에 이 두 단변량 모형이 연결(•) 된 형태가 됩니다.
MVG 결과는 표 4.6(Table 4.6)에 제시되어 있습니다.

MVG 결과 해석
MVG 결과 해석은 단변량과 다른데, 그 이유는 MVG 결과에 우주 점수 상관(universe score correlations) 과 공분산(covariances) 이 포함되기 때문입니다.
- 표 4.6은 행렬(matrix) 형식으로 MVG 성적 연구 결과를 보여줍니다.
- 각 행렬(p, g, pg)의 대각선(diagonal) 에는 VCs가 보고되며, 이는 두 개의 단변량 [p × g] 연구 결과와 동일한 방식으로 해석됩니다.
분석 결과:
- 학생(p) 요인 분산 비율은 강의 수업(전체 분산의 43%)에서 임상 수업(25%)보다 훨씬 높았습니다.
- 두 유형의 수업 간 공분산(cov)은 p 행렬의 하단 비대각 항(off-diagonal cell) 에 보고되었으며, 값은 0.16625였습니다.
- 해석하기에는 우주 점수 상관(universe score correlation)이 더 직관적입니다. p 행렬의 상단 비대각 항 에 나타난 상관 계수는 r = 0.798로, 강의 성적과 임상 성적 간에 강한 정적 관계(strong positive relationship) 가 있음을 보여줍니다.
한편, 성적은 다변량 변수(type)의 수준 간에 연결되지 않았으므로, 표 4.6의 g 및 pg 행렬에는 공분산 정보가 포함되지 않습니다. 이 행렬의 VC는 단변량 [p × g] 분석과 동일하게 해석됩니다.
2×2 행렬 구조는 고정 요인(type, t)이 두 수준을 가지고 있었음을 반영합니다. 일반적으로, MVG 행렬의 크기는 측정 대상(p)에 대해 산출된 점수(즉, 고정 요인의 수준) 수와 동일합니다.
2. p(학생 효과)와 g/pg의 차이
3. 비유로 쉽게 이해하기
|
MVG의 활용
MVG 결과(예: 표 4.6)는 보건의료 전문가 교육 평가에서 여러 가지 유용한 기능을 합니다.
- D 연구에서는 VCs를 사용하여 부분 점수(subscores) 의 신뢰도를 다양한 조건에서 추정할 수 있습니다.
- 여러 문항, 평정, 가중치를 조합했을 때 합성 점수(composite scores) 의 신뢰도를 추정할 수도 있으며, 어떤 합성이 적절한 일반화가능성을 제공하는지 판단할 수 있습니다.
- 더 나아가, MVG 분석 결과는 우주 점수와 오차 분산 간의 관계를 드러냄으로써 중요한 타당도(validity) 증거를 제공합니다.
추가 고려사항 (Additional Considerations)
이 장은 짧은 소개이므로 G 이론(G theory)을 완전하게 다루지는 못했습니다. 여기서는 G 이론을 사용하는 연구자가 고려해야 할 몇 가지 추가 주제와 유의점을 간략히 정리합니다.
G 이론은 매우 유연하지만 몇 가지 중요한 가정에 의존합니다.
- 첫째, 자료는 구간척도(interval) 혹은 명확히 서열척도(ordinal) 이어야 합니다. 이렇게 해야 분산 구성요소(variance components, VCs)의 해석이 명확해집니다.
- 둘째, G 연구 모형의 모든 효과(effect)는 상호 독립(uncorrelated) 이라고 가정됩니다. 그러나 동일한 과제나 평가를 짧은 시간 안에 반복 측정할 경우, 이 가정이 종종 위배됩니다.
|
- 셋째, G 이론에는 두 가지 주요 통계적 접근법이 있습니다: 분산분석(ANOVA) 과 최대우도법(maximum likelihood, ML). ANOVA는 분포 가정을 요구하지 않지만, ML은 점수 효과(score effects)의 정규성을 가정합니다.
G 이론 분석을 적용하고 해석할 때의 고려사항
- 첫째, VC의 표집 변동성(sampling variability).
VC는 표본 크기와 표본 변동성에 따라 정확도와 안정성이 달라집니다. 추정치의 표준오차(standard error, SE) 는 이를 판단하는 데 도움을 줄 수 있습니다. 그러나 연구자는 사용된 요인(facet)과 수험자(person) 표본의 특성과 크기 자체를 반드시 고려해야 합니다. 실제 연구에서는 진정한 무작위 표집이 아닌, 특정 요인에 대해 매우 작은 표본을 사용하는 경우가 드물지 않습니다. 일반적으로 G 연구는 30명 이상의 수험자(p) 가 있어야 안정적인 추정치를 제공합니다. 결국, 결론의 신뢰성은 VC를 추정하는 데 사용된 표본에 달려 있으므로, 표본은 연구자가 일반화하려는 모집단(universe)을 충실히 반영해야 합니다. - 둘째, 음의 오차 분산(negative error variances).
개념적으로 불가능하지만, 실제 G 이론 적용에서는 음의 분산 추정치가 발생할 수 있습니다. 이는 보통 표본 오차(예: 큰 모집단에서 작은 표본) 또는 잘못 지정된 모형(misspecified model) (예: 중요한 요인이 모형에 포함되지 않음)의 결과입니다. 이러한 경우, 음의 분산 구성요소는 보통 0으로 처리합니다 (Shavelson & Webb, 1991). 반면, ML 방법은 음의 분산 추정치를 산출하지 않는 장점이 있습니다 (Shavelson & Webb, 1991). - 셋째, 오차 원천(error sources)에 대한 불완전한 이해.
오차 원천을 충분히 이해하지 못하면 잘못된 해석을 내릴 수 있습니다. 실제 연구에서는 흔히 숨겨진 요인(hidden facets) 이 존재하는데, 이는 G 연구에서 요인의 단 하나의 조건만 표집될 때 발생합니다 (Brennan, 2001).- 예: 모든 OSCE 평가가 단일 평가자(single rater)에 의해 채점되었다면, “평가자(rater)”는 숨겨진 요인이 됩니다. 이 경우 평가자와 관련된 모든 분산은 스테이션 분산 구성요소와 혼합(confounded) 되어 버립니다. 연구자들은 이러한 숨겨진 요인을 종종 무시하지만, 이는 오해를 불러올 수 있습니다.
- 넷째, 측정 대상(object of measurement)의 다양성.
이 장에서는 개인(person, p)을 측정 대상으로 한 예시만 다뤘습니다. 그러나 G 이론은 개인의 평균이 아닌 집단 평균(e.g., 학급 평균 class means) 을 분석할 때도 적절하게 사용할 수 있으며, 이 경우 개인(p)은 요인(facet)으로 다뤄집니다.
최종 고려사항 (Final Considerations)
G 이론은 단순한 측정(simple measures) 과 복잡한 측정(complex measures) 을 모두 분석할 수 있는 방법을 제공합니다. G 연구(G study)와 D 연구(D study) 결과를 면밀히 검토하면, 측정 과정 자체와 그 개선 방법을 더 잘 이해할 수 있습니다.
타당도(validity)와 신뢰도(reliability)에 대한 통찰을 제공함으로써, G 이론은 사회과학자들에게 매우 강력한 연구 도구가 됩니다.
따라서 독자들은 보건과학 교육에서의 다양한 응용과 타당도에 대한 함의를 이해하기 위해, G 이론의 더 발전된 적용 사례(advanced demonstrations) 를 탐구해볼 것을 권장합니다.
'논문 읽기 (with AI)' 카테고리의 다른 글
| [AHPE] 6 표준 설정 (STANDARD SETTING) (0) | 2025.09.16 |
|---|---|
| [AHPE] 5장 검사의 통계(STATISTICS OF TESTING) (0) | 2025.09.16 |
| [AHPE] 3 신뢰도 (Reliability) (0) | 2025.09.15 |
| [AHPE] 2 타당도와 평가의 질 (VALIDITY AND QUALITY) (0) | 2025.09.09 |
| [AHPE] 1 의학교육에서의 평가 소개 (INTRODUCTION TO ASSESSMENT IN THE HEALTH PROFESSIONS) (0) | 2025.09.09 |