[AHPE] 4 일반화가능도 이론 (Generalizability Theory)

Meded 2025. 9. 15. 12:57

2025. 9. 15. 12:57

4 일반화가능도 이론 (Generalizability Theory)

Clarence D. Kreiter, Nikki L. Zaidi, and Yoon Soo Park

서론 (Introductory Comments)

이 장에서는 일반화가능도(G theory) 의 여러 중요한 측면에 대한 간략한 소개를 제공합니다. 비록 간략한 범위이지만, 학습자가 단변량(univariate) 및 다변량(multivariate) G 이론에서 사용되는 기본 개념과 절차를 개괄적으로 이해할 수 있도록 하는 것을 목표로 합니다. 이 장의 주요 목적은 보건의료 전문가 교육(health professions education)에서 흔히 사용되는 G 이론의 응용을 이해하는 데 필요한 배경을 제공하는 것입니다. 이를 위해, 우리는 시뮬레이션 데이터(simulated data) 와 실제 평가 데이터(real assessment data) 를 사용하여 G 이론 개념을 시연합니다. 계산 방법과 방정식은 학습자의 개념적 이해(conceptual understanding) 를 증진시키는 경우에만 제시합니다. 이론의 기술적 측면을 심층적으로 학습하고자 하는 독자를 위해, 우리는 Brennan(2001)의 저서 Generalizability Theory 와 일관된 표기법과 용어를 사용하려 노력했습니다. 이 장을 통해 학습자는 G 이론의 가장 일반적인 응용을 적용하고 해석할 수 있게 됩니다.

이 장에서 다루는 모든 주제는 실용적 응용(practical applications perspective) 관점에서 제시됩니다. 이를 위해 수학적 기초에 대한 배경 설명은 제한적으로 포함했습니다. 다만, 장 말미에 있는 세 개의 부록에서는 분산분석(ANOVA)에 기초한 통계적 기반 및 기타 기술적 정보를 설명합니다.

배경과 개요 (Background and Overview)

고전검사이론(Classical Test Theory, CTT; 3장에서 다룸)에서는 신뢰도(reliability) —즉, 평가 점수의 일관성과 재현 가능성—를 다지선다형 시험이나 평가자의 전반적 평정(global ratings) 맥락에서 설명했습니다. 그러나 평가 점수의 변동성에 기여하는 요인이 여러 개(예: 문항 수, 평가자 수, 시험 스테이션 수 등) 존재하는 복합적인 평가를 상상해 보십시오. 평가가 복잡해질수록 기존의 CTT 틀은 한계를 가지며, 보다 포괄적인 접근이 필요합니다. 이를 가능하게 하는 것이 바로 G 이론으로, 객관적 구조화 임상시험(OSCE), 로테이션 평가(rotation evaluations), 그리고 보건의료 교육에서 흔히 사용되는 수행 기반 평가(performance-based assessments) 와 같은 복합적인 평가를 분석하고 신뢰도를 추정할 수 있게 해줍니다.

3장에서 논의했듯이, CTT는 관찰 점수(observed score)가 두 가지 요소로 구성된다고 가정합니다: 진점수(true score) 와 오차(error). 이 개념은 다음과 같이 간단히 표현할 수 있습니다:

(식 4.1)

CTT에서의 신뢰도 표현은 다음과 같습니다:

(식 4.2)

G 이론도 마찬가지로 관찰 점수의 분산을 진점수 분산(true score variance) 과 오차 분산(error variance) 으로 분할할 수 있다고 가정합니다. 그러나 G 이론은 여러 가지 오차 원천(sources of error) 을 동시에 다룰 수 있다는 점에서 CTT와 다릅니다. 즉, 다음과 같이 식이 확장됩니다:

(식 4.3)

그리고 신뢰도 표현도 확장됩니다:

(식 4.4)

즉, 점수 분산을 크게 두 범주(진점수와 오차)로 개념화한다는 점에서 G 이론은 CTT와 공통된 이론적 틀을 공유합니다. 그러나 진점수 및 오차와 관련된 분산 구성요소(variance components)의 추정 방식에서는 CTT와 크게 다릅니다.

G 이론의 특징

G 이론은 분산 추정치(variance estimates) 를 사용하여 특정 측정 상황에서 여러 신뢰도 계수(reliability-like coefficients) 를 산출할 수 있다는 점에서 독특합니다.
CTT는 매 분석에서 오직 하나의 오차 원천만 추정합니다. 따라서 여러 차원(facets) 을 평균한 점수를 생성하는 측정 과정에서는 G 이론보다 덜 유용한 정보를 제공합니다.
CTT도 측정에서 오차의 여러 원천이 존재함을 인정하지만, 각각을 독립적으로 추정하기 위해서는 별도의 연구 설계(research designs) 가 필요합니다. 예를 들어, 평가자가 여러 임상 사례(clinical cases)에서 수험자의 수행을 평가하는 과정에서:
- 평가자 간 신뢰도(inter-rater reliability),
- 사례 간 신뢰도(inter-case reliability),
- 사례 내 체크리스트나 평정 항목에 대한 내적 합치도(internal consistency alpha)
  등이 각각 다른 오차 원천을 반영합니다. 그러나 이들을 통합해 전체 신뢰도를 추정하거나, 각 오차 원천의 상대적 중요성을 산출·보고하기는 어렵습니다.

G 이론은 이러한 각각의 오차 원천을 단일 분석에서 동시에 추정할 수 있습니다. 이를 통해 연구자는 측정 조건을 변화시켰을 때 신뢰도가 어떻게 달라지는지 예측할 수 있습니다. 즉, 특정 조건에서 얻은 점수가 다차원적 측정 과정을 여러 번 반복했을 때 얻을 수 있는 평균 점수(hypothetical average score) 를 얼마나 정확하게 반영하는지 평가할 수 있습니다.

이 평균 점수는 G 이론에서 우주 점수(universe score) 라고 불리며, CTT의 진점수와 유사합니다. 다만, G 이론에서는 이를 측정 과정의 모든 요인(facets) 과 관련해 정의합니다. 따라서 일반화가능성(generalizability) 혹은 신뢰성(dependability) 은 CTT에서의 신뢰도와 매우 유사한 개념입니다. 그러나 G 이론에서는 보다 구체적으로, 다음을 의미합니다:

수험자가 특정 평가에서 획득한 단일 점수(single score) 를, 동일 수험자가 모든 측정 조건에서 반복적으로 평가받았을 때 얻을 수 있는 평균 점수(average score) 로 일반화하는 정확도(accuracy of generalizing).

예시 데이터 소개

이제 가상 수행평가(hypothetical performance assessment) 와 합성 데이터(synthetic data) 를 통해 G 이론의 개념과 절차를 설명하겠습니다. 여기서 사용되는 데이터 세트는 교수용 교육 목적(instructional purpose) 으로 소규모 컴퓨터 시뮬레이션으로 생성된 것입니다. 실제 연구에서 측정 절차의 효과성을 안정적이고 의미 있게 통계적으로 추정하기 위해서는 훨씬 더 큰 데이터 세트가 필요합니다.

가상의 측정 문제—예시 (The Hypothetical Measurement Problem—An Example)

이 예시에서 사용된 데이터는 가상의 측정 문제(hypothetical measurement problem) 의 결과를 나타냅니다. 한 의학교육 연구자가 객관적 구조화 임상시험(OSCE; Objective Structured Clinical Examination, 9장 참조) 의 파일럿 버전으로부터 얻은 평가 점수의 신뢰도(reliability) 를 보고하고, 더 큰 규모의 운영 버전(operational version) 평가를 어떻게 설계해야 하는지 권고하도록 요청받은 상황입니다.

이를 위해, 10명의 수험자(examinees) 가 5개 스테이션(five-station OSCE) 에서 수행한 장면을 비디오로 녹화하고, 이를 두 명의 전문 의사 평가자(expert physician raters)가 독립적으로 5점 척도(five-point scale)로 평가한 전반적 평정(global ratings) 이 제공되었습니다. 이 (시뮬레이션된) 점수는 표 4.1에 제시되어 있습니다.

CTT 방법을 사용하면 평가자 간 신뢰도(inter-rater reliability) 나 스테이션 간 신뢰도(inter-station reliability) 계수를 계산할 수는 있습니다. 그러나 진점수 변동성(true score variability) 과 각 오차 원천(source of error)에 해당하는 분산을 동시에 추정하기는 어렵습니다. CTT는 최적의 측정 설계(optimal measurement design)에 대해 충분히 정보에 근거한 권고를 내릴 수 있는 추정치를 제공하지 못하므로, 연구자는 이 측정 문제를 해결하기 위해 G 이론(G theory) 을 사용합니다.

G 연구 모형 정의하기 (Defining the G Study Model)

표 4.1에 제시된 데이터를 분석하기 전에, 연구자는 먼저 G 연구(G study) 측정 모형(measurement model) 을 정의해야 합니다. 이를 위해, 먼저 측정 조건(conditions of measurement)—즉 데이터가 어떻게 수집되었는지—에 대한 공식적 정의와, 모형 사양을 표현할 때 사용하는 표기 규칙(notational conventions)을 제시할 필요가 있습니다.

먼저, 측정 대상(object of measurement) 이 무엇인지 정의해야 합니다. 측정 대상(object of measurement) 은 시험이 평가하도록 설계된 표본의 요소를 의미합니다. 대부분의 평가 상황에서 측정 대상은 수험자(examinee) 이며, 일반적으로 사람(person, p) 이라고 합니다.
측정 대상을 확인한 후에는, G 연구에서의 나머지 변동 원천(sources of variation)이 요인(facets) 으로 정의됩니다. Facet 은 연구자가 일반화를 하고자 하는 변동의 차원(dimension) 혹은 원천(source)을 의미합니다.

이 OSCE의 측정 조건을 고려했을 때, 연구자는 같은 두 명의 전문 평가자(raters) 가 10명의 수험자 모두를 5개 스테이션에서 평가했으며, 시험은 학생들의 임상 기술(clinical skills)을 평가하도록 설계되었다는 것을 확인할 수 있습니다.

따라서 연구자는 다음과 같이 G 연구 모형의 핵심 측면을 정의할 수 있습니다:

시험이 수험자의 수행(performance) 을 측정하도록 설계되었으므로, 평가자(rater)나 스테이션(station)의 수행이 아니라 수험자(person, p) 가 측정 대상(object of measurement)입니다.
대부분의 G 연구에서는 측정 대상인 사람(person)을 소문자 p 로 표기하는 것이 관례입니다.

측정 대상이 식별되면, 나머지 측정 조건인 평가자(raters, r) 와 스테이션(stations, s) 은 요인(facets) 으로 간주됩니다.

이 예시 문제에서는 두 개의 요인이 있습니다: 평가자(r) 와 스테이션(s). 표기로는 각각 “r”과 “s”를 사용합니다. 표 4.1에 제시된 점수에 영향을 미칠 수 있는 다른 요인들이 있을 수도 있지만, 연구자는 그것들을 특성화할 수 있는 추가 정보를 가지고 있지 않습니다.

다시 이 예시 문제를 살펴보면, 모든 수험자(p)는 모든 스테이션(s)을 경험했고, 각 스테이션에서 동일한 두 평가자(r)에 의해 평가되었습니다. G 이론 용어로 이를 모든 측정 조건이 완전히 교차(completely crossed) 되어 있다고 표현합니다. 교차를 나타내는 표기는 기호 “×” 입니다. 따라서 이 간단한 표기 규칙으로 우리의 G 연구 모형은 다음과 같이 표현할 수 있습니다:

[p × s × r]

즉, 이 G 연구 모형은 “수험자-교차-스테이션-교차-평가자(persons-crossed-with-stations-crossed-with-raters)” 설계입니다.

모든 G 연구 모형이 완전히 교차하는 것은 아닙니다. 예를 들어, 이와 유사한 OSCE를 설계하면서 각 스테이션마다 서로 다른 두 평가자를 배정할 수도 있습니다. G 이론 용어로 이것은 포함(nested) 설계(nested design) 라고 하며, 기호 “:” 로 나타냅니다. 예컨대, 만약 각 스테이션마다 서로 다른 두 평가자가 평가를 했다면, 이 G 연구 설계는 [p × (r : s)] 로 표현됩니다. 이는 곧 “수험자-교차-평가자-스테이션 내 포함(persons-crossed-with-raters-nested-within-stations)” 설계입니다. 이 장에서는 설계 변형(design variations)에 대한 추가 논의가 이어질 것입니다.

무작위 요인(random facets)과 고정 요인(fixed facets)

모든 G 연구 모형은 요인(facets)이 무작위(random) 인지 고정(fixed) 인지를 정의해야 합니다.

무작위 요인(Random facet):
- 특정 요인의 관찰 값이 더 큰 모집단(population)의 표본(sample)으로 간주될 때. G 이론에서는 이 더 큰 모집단을 허용 가능한 관찰의 우주(universe of admissible observations) 라고 하며, 표본에서 나온 관찰값들은 서로 교환 가능(interchangeable) 하다고 간주합니다.
  - 스테이션이 무작위로 간주되는 이유: 우리의 관심은 특정 5개의 스테이션만이 아니라, 그 5개가 추출된 더 큰 스테이션 모집단(universe of similar stations) 으로 일반화하는 데 있기 때문입니다. 즉, 5개의 스테이션에서의 수행을 근거로, 더 넓은 우주의 유사한 스테이션에서의 수행으로 일반화하려는 것입니다.
  - 평가자도 같은 논리 적용: 파일럿 시험에 참여한 두 명의 전문의 평가자는, 우리가 사용할 수 있거나 적합하다고 여기는 잠재적 평가자 모집단(population of potential expert physician raters) 중 하나의 표본으로 간주됩니다.
    - 만약 평가자들에게 특별한 평가자 훈련(rater training) 이 제공되지 않았다면, 허용 가능한 평가자 모집단은 미국 의과대학의 학문적 의사들(academic physicians at US medical schools) 로 정의될 수 있습니다.
    - 반대로, 연구에서 두 평가자가 특별한 훈련을 받았다면, 평가자 우주는 그 특별한 훈련을 받은 학문적 의사들로 더 제한적으로 정의해야 합니다.
  - → 이 예시 문제에서 평가자(raters) 와 스테이션(stations) 은 모두 무작위 요인(random variables) 입니다. 따라서 이 예시의 G 연구 모형은 무작위 모형(random model) 으로 정의됩니다.
고정 요인(Fixed facet):
- 어떤 요인의 모든 조건이 G 연구에서 관찰되었거나, 연구자가 그 요인의 수준을 넘어 일반화할 의도가 없을 때. 고정 요인의 예시는 이 장의 뒷부분에서 제시될 것입니다.

G 연구 결과 도출하기 (Obtaining G Study Results)

이제 기본적인 G 연구 모형(G study model) 이 제시되었으므로, 다음 단계는 G 연구 결과를 도출하는 것입니다.

분산 구성요소(Variance Components, VCs) 는 G 연구 분석의 주요 결과물입니다. VC는 G 연구 모형에서 각 효과(effect)가 기여하는 변동성의 크기를 추정한 값입니다.

예시 문제의 모형에는 세 가지 주요 효과(main effects)가 있습니다:

측정 대상(object of measurement) — 수험자(persons, p)
두 가지 요인(facets) — 스테이션(stations, s)과 평가자(raters, r)

또한 ANOVA와 마찬가지로 상호작용(interactions) 도 존재합니다. 따라서 p, s, r 외에도 네 가지 상호작용 효과가 있습니다:

ps, pr, sr, psr/e (여기서 "e"는 다음 절에서 설명됩니다).

따라서 예시 문제에서 G 연구는 총 일곱 가지 VC(p, s, r, ps, pr, sr, psr/e)를 추정합니다. 이러한 효과들의 의미와 해석 방법은 곧 설명됩니다. VC 추정에 사용되는 통계적 절차는 부록 4.1(Appendix 4.1) 에 제시되어 있습니다.

표 4.2(Table 4.2)는 표 4.1의 데이터를 기반으로 한 G 연구의 결과를 보여줍니다.

APPENDIX 4.1 G 연구의 통계적 기초 (Statistical Foundations of a Generalizability Study)

VC(분산 구성요소, Variance Components)의 유도를 이해하기 위해서는 ANOVA에서 사용되는 방법을 간단히 검토할 필요가 있습니다. ANOVA에서 제곱합(sums of squares, SS) 은 평균 주위의 점수 분포를 특징짓습니다.

예를 들어, 예시 문제에서의 총 제곱합(total SS)은 다음과 같이 계산됩니다:

따라서 예시 문제의 총 SS는 각 평정 점수에서 전체 평균을 뺀 제곱값의 합입니다. 식 (4.9)의 세 합산 기호(Σ)는 이 합이 모든 수험자(p), 스테이션(s), 평가자(r)에 대해 수행됨을 나타냅니다.

이를 이어서, 스테이션(s)에 대한 제곱합(SS)은 다음 식으로 계산할 수 있습니다:

이 식에는 합산 기호가 하나만 포함되며, 이는 합이 스테이션에 대해 이루어짐을 의미합니다. 따라서 식 (4.10)은 각 스테이션 평균과 전체 평균의 차이 제곱에 수험자 수(npn_p)와 평가자 수(nrn_r)를 곱한 값이 스테이션의 SS임을 나타냅니다.

각 SS에 대한 유도는 유사한 표기법과 기법을 따릅니다. SS 전체의 유도는 이 장의 범위를 벗어나므로 제공하지 않지만, 보다 심층적인 설명은 Kirk의 Experimental Design (1982) 에 제시되어 있습니다.

제곱합(SS)을 자유도(df)로 나누면 평균제곱(mean squares, MS) 이 되며, 이는 표 4.7의 네 번째 열에 제시됩니다.

다섯 번째 열에는 EMS(기대 평균제곱, Expected Mean Squares)가 분산 구성요소(σ²)와 표본 수(np,ns,nrn_p, n_s, n_r)로 표현되어 있습니다. EMS는 샘플에서 얻은 MS가 어떤 분산 요소들로 구성되는지를 나타냅니다.

중요한 점은, MS가 표본에 기초해 계산되었기 때문에, psr 상호작용의 경우에만 샘플 MS가 모집단 VC(σ^2\hat{\sigma}^2)의 추정량으로 작용한다는 것입니다. (여기서 “^”는 추정치를 의미합니다).

예를 들어, 표 4.7 마지막 행에서, psr의 MS는 표본으로부터 직접 모집단 VC를 추정합니다. 따라서 psr의 MS를 이중 상호작용(ps, pr, sr)의 EMS 식에 대입하면, 대수적 계산을 통해 각 이중 상호작용의 모집단 VC를 분리하여 추정할 수 있습니다.

예시:

세 가지 주효과(σ²(p), σ²(s), σ²(r))의 모집단 VC를 구하는 과정은 약간 더 복잡하지만, 표 4.7의 MS를 식에 대입하여 추정할 수 있습니다. 예를 들어, 수험자(persons)의 VC는 다음과 같은 식으로 계산됩니다:

===

G 연구 결과 해석하기 (Interpreting G Study Results)

표 4.2(Table 4.2)의 첫 번째 열 은 G 연구에서 추정된 각 효과(effect)를 나열합니다. 여기에는 주요 효과(main effects: p, s, r)와 상호작용 효과(interaction effects: ps, pr, sr, psr/e)가 포함됩니다.
두 번째 열 은 자유도(degrees of freedom, df)를 보여줍니다.
세 번째 열 은 일곱 가지 효과 각각에 대해 추정된 분산 구성요소(Variance Components, VCs) 값을 보여줍니다.
네 번째 열 은 각 VC가 차지하는 분산의 비율(percentage of variance)을 제공합니다.

주요 효과 (Main Effects)

첫 번째 행(p):
단일 평가자(rater)가 단일 OSCE 스테이션에서 부여한 점수에서 15.6%의 분산은 수험자(persons, p) 간의 체계적 차이(systematic differences) 에 기인합니다.
이는 측정 대상(object of measurement) 분산이며, CTT에서의 진점수 분산(true score variance) 과 유사합니다. 식 (4.4)의 신뢰도 정의에 따르면, 수험자(p)에 의해 설명되는 분산 비율이 클수록 신뢰도는 높아집니다.
두 번째 행(s):
스테이션(stations)에 기인하는 체계적 분산(systematic variance)을 나타내며, 스테이션의 평균이 얼마나 다른지를 반영합니다. 스테이션 효과(s)는 전체 관찰 분산의 6% 를 설명합니다. 이는 표본 내 스테이션 간 난이도 차이가 작거나 중간 정도임을 시사합니다.
세 번째 행(r):
평가자(raters)에 기인하는 체계적 효과를 나타내며, 평가자 전체 평균 점수 차이를 반영합니다. 이 효과는 6.5% 의 분산을 차지합니다. 이는 평가자 간 평균 차이가 크지 않음을 의미하며, 다시 말해 두 평가자의 전반적 엄격성 수준(stringency level)이 유사했음을 보여줍니다.

상호작용 효과 (Interaction Effects, Rows 4–7)

네 번째 행(ps):
수험자 × 스테이션(person × station) 상호작용입니다. 이는 스테이션이 수험자들을 서로 다른 방식으로 서열화(rank order)하는 정도를 의미합니다. 이는 전체 분산의 30.5% 로 가장 큰 비중을 차지하며, 수험자의 서열이 어떤 스테이션을 경험했느냐에 따라 상당히 달라질 수 있음을 보여줍니다. 이러한 스테이션 간 변동성은 흔히 사례 특이성(case specificity) 으로 불립니다. 이는 특정 스테이션과 관련된 지식이나 기술 수준에서 개인 간 차이가 발생했기 때문일 수 있습니다.
다섯 번째 행(pr):
수험자 × 평가자(person × rater) 상호작용으로, 전체 분산의 13.4% 를 설명합니다. 이는 특정 스테이션에서 수험자에게 점수를 부여할 때 평가자 간의 일치도가 중간 정도였음을 의미합니다.
여섯 번째 행(sr):
스테이션 × 평가자(station × rater) 상호작용입니다. 이는 전체 분산의 3.9% 로 가장 작은 비율을 차지하며, 특정 스테이션에서 평가자가 누구냐에 따라 난이도가 크게 달라지지 않았음을 보여줍니다.
일곱 번째 행(psr/e):
잔차(residual)로, 이는 수험자 × 스테이션 × 평가자(person × station × rater) 의 삼중 상호작용(triple interaction)과, [p × s × r] 설계에 포함되지 않은 오차(error, e) 를 함께 포함한 값입니다. 전체 분산의 24.1% 로, 상당히 큰 비중을 차지합니다.

Table 4.3 (효과의 의미 요약)

표 4.3은 각 VC가 의미하는 효과를 언어적으로 설명한 것입니다.

포함 설계 [p × (r:s)] 에서의 G 연구 결과 (Nested Design)

많은 OSCE 시험에서 흔히 볼 수 있는 포함 설계(nested design), 즉 [p × (r:s)] 설계를 분석하는 경우 어떤 VC가 추정되는지 고려해보겠습니다.

교차 설계(crossed design) 와 마찬가지로, 포함 설계에서도 세 가지 주요 효과를 추정할 수 있습니다: p, s, r:s.
- 여기서 rater 효과는 스테이션 내에 포함된 평가자(rater-nested-within-station, r:s) 로 정의됩니다. 그러나 그 해석은 교차 설계에서의 rater 효과와 동일합니다.
상호작용 효과(interaction effects)의 경우, 포함 설계에서는 두 가지만 추정할 수 있습니다: ps, pr:s.
- ps VC 는 완전히 교차된 설계에서와 동일하게 해석됩니다.
- 그러나 pr:s VC 는 교차 설계에서의 pr VC와는 다릅니다. pr:s 상호작용은 가장 높은 수준의 상호작용(highest-order interaction)에 해당하므로, 잔차 오차(residual error) 를 포함하게 되어 교차 설계에서의 pr VC와 동일하게 해석할 수 없습니다.
또한, [p × (r:s)] 설계에서는 평가자가 오직 하나의 스테이션만 평가하기 때문에, 스테이션 × 평가자(sr) VC는 별도로 추정될 수 없으며, 잔차 오차(residual error) 에 포함됩니다.

1. r:s (평가자:스테이션) 효과
- 이것은 스테이션 내에서 평가자마다 점수 주는 방식이 다른 효과를 나타냅니다. 예를 들어, 스테이션 1의 평가자 A와 B가 점수를 다르게 준다면 이 효과가 나타납니다.
- 이 효과의 해석은 교차 설계와 동일합니다. 왜냐하면 교차 설계에서도 평가자 간의 차이를 분석할 수 있기 때문입니다.
2. ps (학생 × 스테이션) 효과
- 특정 학생이 특정 스테이션에서 유독 높은/낮은 점수를 받는 효과를 나타냅니다.
- 이 효과 역시 교차 설계와 동일하게 해석됩니다. 학생이 모든 스테이션을 돌기 때문에 학생-스테이션 간의 상호작용은 명확히 분석할 수 있습니다.
3. pr:s (학생 × 평가자:스테이션) 효과
- 이것이 바로 포함 설계에서만 나타나는 독특한 효과입니다.
- 설명: pr (학생 × 평가자) 효과는 특정 학생이 특정 평가자에게만 유독 높은/낮은 점수를 받는 효과입니다. 그런데 포함 설계에서는 한 평가자가 오직 한 스테이션에만 있으므로, 이 효과는 스테이션 효과(s)와 분리될 수 없습니다. 따라서 pr:s는 학생이 특정 스테이션에 있는 특정 평가자에게서 받는 점수의 변동을 의미하며, 이는 가장 높은 수준의 상호작용이 됩니다.
- 중요 포인트: 이 pr:s에는 잔차 오차(residual error)가 포함되어 있습니다. 잔차 오차는 우리가 분석하는 요인들(p, r, s)로 설명되지 않는 모든 알 수 없는 점수 변동을 의미합니다. 예를 들어, 학생의 그날 컨디션이나 시험장의 사소한 소음 같은 것들이죠. 교차 설계에서는 잔차 오차가 psr (학생 × 스테이션 × 평가자)에 포함되지만, 포함 설계에서는 pr:s에 포함됩니다. 따라서 이 pr:s 분산 성분은 순수한 pr 상호작용만을 나타내지 않고, 알 수 없는 오차까지 함께 포함하게 됩니다.
4. sr (스테이션 × 평가자) 효과
- 설명: 이 효과는 특정 스테이션에 특정 평가자가 배정되었을 때만 나타나는 특별한 효과입니다.
- 포함 설계에서 사라지는 이유: 포함 설계에서는 모든 평가자가 오직 한 스테이션만 담당하므로, sr 효과는 존재하지 않습니다. 예를 들어, 스테이션 1의 평가자 A가 스테이션 2로 가지 않으므로, 스테이션 1과 평가자 A 사이의 상호작용을 다른 스테이션과 평가자 조합과 비교할 수 없습니다. 이 때문에 sr 효과는 잔차 오차에 포함되어 추정될 수 없게 됩니다.

D 연구 수행하기 (Conducting the D Study)

예시 문제 설명에서 언급했듯이, 연구자는 파일럿 시험 점수의 신뢰도를 산출하는 것뿐만 아니라, 운영 버전(operational version) 의 시험을 어떻게 설계해야 하는지에 대한 권고도 요청받았습니다.

D 연구(Decision study, D study) 는 실제 G 연구에서 수집된 점수의 신뢰도뿐만 아니라, 다른 설계와 표본 크기를 적용했을 경우의 평가 신뢰도 도 추정할 수 있습니다. 따라서 D 연구는 최적의 시험 설계(optimal test design) 와 관련된 질문을 다룰 수 있습니다.

G 연구의 구조는 D 연구가 다룰 수 있는 설계 범위를 결정합니다.
완전히 교차된 G 연구 설계(completely crossed design)는 추정 가능한 VC 효과의 수를 최대화하며, 동시에 고려 가능한 D 연구 설계의 수 또한 극대화합니다.
이는 D 연구가 다양한 설계의 추정 신뢰도를 계산하기 위해 G 연구에서 얻은 VC를 필요로 하기 때문입니다.

예시 문제에서 D 연구는:

실제 측정 조건(즉, 두 명의 평가자와 다섯 개의 스테이션으로 이루어진 완전히 교차된 무작위 모형)의 신뢰도를 추정할 수 있을 뿐만 아니라,
평가자 수, 스테이션 수, 설계 변형이 다른 OSCE 설계의 신뢰도도 추정할 수 있습니다.

예를 들어, 교차된 무작위 모형에서 얻은 추정치는 부분적으로 포함된 설계(partially nested design)의 신뢰도를 추정하는 데 사용할 수 있습니다. 예시 문제에서 다섯 개 스테이션이 각각 다른 두 평가자 쌍에 의해 채점되었다면, 이는 수험자 × 스테이션 내 포함된 평가자(p × r:s) 설계가 됩니다. 이러한 설계는 실제 OSCE나 MMI(Multiple Mini-Interview) 같은 반복 측정 과정에서 흔히 사용됩니다. 동일한 평가자를 모든 스테이션에 배정하는 것이 현실적으로 불가능한 경우가 많기 때문입니다.

따라서 연구자는 여러 D 연구를 수행하여 다양한 설계를 비교하고, 운영 버전 시험을 어떻게 구성할지 결정할 수 있습니다.

D 연구 표기법 (D Study Notation)

예시 문제의 G 연구 모형에서는 요인(facets)을 소문자 표기로 나타냈습니다. 이는 G 연구 분석에서 추정된 효과가 단일 스테이션에서의 단일 채점(one rating on a single station) 에 해당함을 의미합니다.
그러나 D 연구에서는 여러 조건에 걸친 평균 평정값(average ratings across conditions) 을 나타내야 하므로, 대문자 표기를 사용합니다.
따라서 D 연구 모형은 대문자를 사용하여 설계를 표현합니다. 예를 들어, 예시 문제의 설계와 유사하되 평가자 수나 스테이션 수가 다른 경우, D 연구 모형은 [p × S × R] 로 표시됩니다.

D 연구에서 산출되는 신뢰도 계수 (Reliability-like Coefficients in D Study)

D 연구는 두 가지 형태의 신뢰도 계수를 생성합니다:

일반화 계수 (Generalizability coefficient, G or Eρ²)
의존성 계수 (Measure of dependability, Phi or Φ)
- G 계수(G coefficient, Eρ²): 상대적 오차(relative error)에 민감하며, 수험자 서열(examinee rankings)의 재현성을 나타내는 데 유용합니다.
- Phi 계수(Phi, Φ): 절대적 오차(absolute error)를 반영하며, 점수 자체의 절대적 재현성(absolute reproducibility of a score) 을 의미합니다. 즉, 동일한 측정 과정을 반복했을 때 수험자가 얻는 점수가 얼마나 안정적인지를 보여줍니다.

예시 문제에서 OSCE 측정 절차(5개 스테이션, 2명의 평가자)를 완전히 반복한다고 가정할 경우:

Phi(Φ): 수험자의 최종 점수가 얼마나 유사하게 재현될지를 나타냅니다.
G 계수(Eρ²): 수험자들을 얼마나 일관되게 서열화할 수 있는지를 추정합니다.

따라서,

Phi 계수는 준거지향 검사(criterion-referenced testing) 와 관련된 질문에 유용하며,
G 계수는 규준지향 검사(norm-referenced testing) 에 더 적합한 정보를 제공합니다.

구분	G 계수 (Eρ²)	Phi 계수 (Φ)
고려하는 오차	상대적 오차 (다른 사람과의 비교)	절대적 오차 (자신의 점수 변동)
주요 질문	"서열이 얼마나 일관되게 유지되는가?"	"점수가 얼마나 안정적으로 재현되는가?"
적합한 평가	규준지향 검사 (상대적 순위)	준거지향 검사 (절대적 기준)
의사결정	장학금 수여, 등급 배정 등	합격/불합격, 면허 발급 등

절대 오차와 상대적 오차

절대 오차 분산(absolute error variance, Δ): 측정 대상(object of measurement)을 제외한 모든 오차 원천을 포함합니다.
상대적 오차 분산(relative error variance, δ): 수험자의 서열(ranking)에 영향을 주는 오차 원천만 포함하며, 예시 문제에서는 r, sr VC가 분모에 포함되지 않습니다.

따라서,

스테이션 난이도 차이(총 분산의 6%),
평가자 엄격성 차이(6.5%),
스테이션 × 평가자 상호작용(3.9%)

이 세 요소가 Phi와 G 계수의 차이를 결정합니다. (식 4.5, 식 4.6 참조)

1. 절대 오차(Absolute Error) 📏

개념: 측정 대상(예: 학생)의 점수에 영향을 미치는 모든 종류의 오차를 포함합니다. 이 오차는 점수 자체의 변동성에 초점을 맞춥니다.
포함되는 오차:
- 상대적 오차: 학생 간의 순위에 영향을 주는 오차 (예: 학생마다 특정 스테이션에서 점수를 다르게 받는 효과 ps, 특정 평가자에게서 점수를 다르게 받는 효과 pr 등).
- 학생 순위에 영향을 주지 않는 오차:
  - 스테이션 난이도 차이 (s): 모든 학생에게 동일하게 적용되는 스테이션 자체의 난이도 차이. 모든 학생의 점수를 일률적으로 올리거나 내리므로, 학생 간의 순위는 변하지 않지만, 점수 자체는 변동시킵니다.
  - 평가자 엄격성 차이 (r): 모든 학생을 동일하게 평가하는 평가자들의 점수 주는 기준 차이.
  - 스테이션 × 평가자 상호작용 (sr): 특정 스테이션에 배정된 특정 평가자의 엄격성 차이.
관련 계수: **Phi 계수(Φ)**는 이 절대 오차를 기반으로 계산됩니다. 따라서 Phi 계수는 점수 자체의 재현성, 즉 **"만약 시험을 다시 본다면, 원래 점수와 얼마나 비슷하게 나올까?"**라는 질문에 답하는 데 사용됩니다.

2. 상대적 오차(Relative Error) ⚖️

개념: 수험자의 서열(ranking)에만 영향을 주는 오차를 포함합니다.
포함되는 오차: 학생과 평가자, 학생과 스테이션 간의 상호작용처럼 개인마다 다르게 작용하여 순위를 뒤바꿀 수 있는 오차만 포함됩니다.
제외되는 오차: 스테이션 난이도 (s)나 평가자 엄격성 (r)처럼 모든 학생에게 동일하게 적용되어 순위에 영향을 주지 않는 오차는 포함되지 않습니다.
관련 계수: **G 계수(Eρ²)**는 이 상대적 오차를 기반으로 계산됩니다. 따라서 G 계수는 수험자들의 서열 재현성, 즉 **"만약 시험을 다시 본다면, 학생들의 등수가 크게 변하지 않을까?"**라는 질문에 답하는 데 사용됩니다.

즉, 모든 D 연구 설계에서 절대 오차(Δ) ≥ 상대적 오차(δ) 이므로, Phi(Φ) ≤ G(Eρ²) 가 항상 성립합니다.

부록 4.2(Appendix 4.2)에서는 절대 및 상대 오차 계산에 포함되는 VC와 오차 원천에 대해 더 자세히 설명합니다.

부록 4.2 (APPENDIX 4.2)

의사결정 연구(D Study)의 통계적 기초 (Statistical Foundations of a Decision Study)

이 부록에서는 G 계수(G coefficient) 와 Phi 계수(Phi coefficient) 를 계산하기 위해 사용되는 비율을 이해하는 데 필요한 논리적·기술적 배경을 설명합니다.

예시 문제에서 사용된 설계를 다시 활용하여, 평가자(raters)와 스테이션(stations)의 수가 달라질 때 G 계수의 비율이 어떻게 달라지는지를 고려해봅시다.

식 (4.12)는 D 연구에서의 G 계수(G coefficient) 를 분산 구성요소(VCs)의 비율로 표현한 것입니다.
식 (4.13)은 D 연구에서의 Phi 계수(Phi coefficient) 를 분산 구성요소의 비율로 표현한 것입니다.

추정된 VC는 식 (4.12)와 (4.13)에 사용되어 D 연구 신뢰도 추정치(D study reliability estimates) 를 제공합니다. 독자는 표 4.4(Table 4.4)에 보고된 결과를, 적절한 표본 크기(sample sizes)와 표 4.2에서의 VC 추정치를 식 (4.12)와 (4.13)에 대입하여 검증할 수 있습니다.

주의할 점은:

Phi(식 4.13)의 분모에는 모든 오차 원천(all sources of error) 이 포함됩니다.
반면, G(식 4.12)의 분모에는 수험자의 서열(examinee rankings)에 영향을 미치는 오차 원천만 포함됩니다.

또한 식 (4.12)와 (4.13)은 각각 식 (4.5)와 (4.6)의 보다 구체화된 버전(more detailed version) 임을 인식할 필요가 있습니다.

각각의 D 연구 설계마다 식 (4.12)와 (4.13)과 유사하지만 설계에 따라 고유한 G 및 Phi 방정식이 존재합니다. 평가자 수(n_r)와 스테이션 수(n_s)에 적절한 값을 대입하면, 이 두 식은 모든 [p × S × R] 설계(임의의 스테이션과 평가자 수를 가진 설계)에 적용할 수 있습니다.

그러나 만약 연구자가 [p × (R:S)] 설계처럼 다른 설계를 검토한다면, 그에 따른 또 다른 D 연구 방정식을 적용해야 합니다. 이러한 방정식에 대한 보다 자세한 설명은 Brennan(2001), Shavelson & Webb(1991)의 G 이론 교재에서 확인할 수 있습니다.

G 이론의 주요 강점 중 하나는 G 연구 결과를 사용하여 G와 Phi 계수를 현재의 설계와는 다른 다양한 설계에도 적용할 수 있다는 점입니다.

D 연구 해석하기 (Interpreting the D Study)

표 4.4(Table 4.4)는 예시 OSCE 평가 데이터에 대한 D 연구 결과를 나타내며, 평가자(raters)와 스테이션(stations)의 수를 변화시켜 G와 Phi를 추정한 것입니다.

D 연구를 해석할 때는 그 결과를 그래프로 시각화하는 것이 도움이 됩니다(그림 4.1 참조). 표 4.4의 G 계수를 두 요인(facets: 평가자, 스테이션) 수준별로 그래프에 나타내면 몇 가지 중요한 결과가 드러납니다.

첫째, 평가자를 2명 이상 사용하면 신뢰도는 소폭 증가합니다.
둘째, 스테이션 수를 늘리면 신뢰도가 크게 증가합니다.
예를 들어, 평가자가 2명일 때 스테이션 수를 1개에서 5개로 늘리면, G 계수는 0.266만큼 증가합니다.

또한 이 D 연구는 스테이션 수가 5개를 초과하더라도, 추정 신뢰도에서 실질적으로 중요한 증가(practically important gains) 가 계속 나타난다는 점을 보여줍니다. 평가자 수와 스테이션 수가 점수의 의존성(dependability) 에 미치는 영향은 Phi(Φ) 값으로 요약되어 표 4.4의 마지막 열에 제시되어 있습니다.

비록 그림 4.1에는 Phi가 그래프로 제시되지 않았지만, 예시 문제에서는 Phi와 G의 패턴이 거의 동일합니다. 다만 Phi 값은 분모에 s, r, sr 등 추가적인 오차 원천(error sources)을 포함하기 때문에 G 계수보다 다소 작습니다.

측정에서의 오차와 SEM

모든 측정 과정에는 원하지 않는 오차가 포함됩니다. 따라서 개인의 점수는 결코 그 사람의 속성, 기술, 지식의 “진정한(true)” 반영이 될 수 없습니다.

G나 Phi 계산에 사용되는 오차항(error terms) 은 여러 오차 원천으로부터 발생할 수 있는 상대적(relative) 또는 절대적(absolute) 오차의 크기를 추정한 값입니다.
이러한 오차 추정치를 사용하면, 측정 표준오차(SEM, Standard Error of Measurement) 를 계산할 수도 있습니다. SEM은 측정 과정을 반복했을 때 관찰 점수가 얼마나 변동할 수 있는지를 보여줍니다.

SEM의 장점은 G나 Phi와 달리, 점수 척도와 동일한 단위(metric) 로 표현된다는 점입니다. 즉, 측정 과정을 반복했을 때 기대되는 점수 결과의 표준편차를 의미합니다.

CTT와 마찬가지로, SEM은 획득 점수 주위에 신뢰구간(confidence intervals) 을 설정하는 데 사용할 수 있습니다(3장 참조).

표준화 환자(SP) 기반 OSCE 연구

표준화 환자(Standardized Patient, SP) 기반 OSCE와, OSCE 유사 입학 평가(MMI 포함)에 대한 G 연구 문헌은 매우 방대합니다.

Van der Vleuten & Swanson (1990) 은 SP 문헌에서의 주요 발견을 잘 요약했습니다. 이들은 대부분의 SP 연구에서, 측정 오차의 주요 원천은 스테이션 간 수험자 수행 차이(ps 분산) 라고 보고했습니다.
Eva, Rosenfeld, Reiter, Norman (2004) 도 MMI에 대해 유사한 결론을 보고했습니다. 이들은 후보자-스테이션(ps) 상호작용에 기인하는 분산이 다른 오차 원천에 비해 훨씬 크다고 밝혔습니다. 이러한 ps 분산은 흔히 “내용 특이성(content specificity)” 또는 “사례 특이성(case specificity)” 분산이라고 불립니다. 즉, 한 맥락(context)에서의 수행은 다른 맥락에서의 수행을 잘 예측하지 못한다는 의미입니다.

G 및 D 연구 모형의 변형 (G and D Study Model Variations)

의미 있는 결과를 얻으려면 연구자가 G 연구(G study)와 D 연구(D study) 모형을 정확하게 규정하는 것이 필수적입니다. 이 절에서는 두 가지 추가적인 측정 예를 간단히 소개하고, 흔히 마주치는 G 및 D 연구 모형 변형을 다룹니다. 우리의 예시 OSCE 문제는 두 요인(two-facet) [p × s × r] 무작위 모형(random model) 설계였습니다.

그러나 실제로는 하나의 요인만을 사용하는 모형이 자주 사용됩니다.

예를 들어, 전형적인 객관식 시험(multiple-choice test) 은 수험자(persons, p) × 문항(items, i) 으로 교차된 단일 요인 무작위 모형(one-faceted random model)으로 설계될 수 있습니다 [p × i].
[p × i] G 연구 설계는 세 가지 효과를 추정합니다: p, i, pi. 이 설계의 G 계수(G coefficient)는 다음과 같이 계산됩니다:

G 계수 (G or Eρ²) 공식

의미: 이 항은 학생-문항 상호작용()으로 인한 오차를 문항 수()로 나눈 값입니다. 이것이 바로 상대적 오차 분산()입니다.
해석: G 계수는 **학생들의 순위(서열)**에 영향을 미치는 오차만을 고려합니다. 즉, 특정 학생이 특정 문항에서만 유독 점수가 달라지는 것과 같은 오차를 반영합니다. 따라서 G 계수가 높을수록 학생들의 순위가 얼마나 안정적으로 재현되는지를 나타냅니다.

Phi 계수 (Phi or Φ) 공식

의미: 이 항은 상대적 오차()에 문항 난이도()로 인한 오차를 더한 값입니다. 이것이 바로 절대 오차 분산()입니다.
해석: Phi 계수는 점수 자체에 영향을 미치는 모든 오차를 고려합니다. 문항 난이도는 모든 학생에게 동일하게 적용되므로 순위에는 영향을 주지 않지만, 점수 자체는 변동시킵니다. Phi 계수는 이러한 오차까지 반영하여 점수가 얼마나 절대적으로 재현되는지를 나타냅니다.

G와 Phi의 차이점 요약

두 공식의 가장 큰 차이는 Phi 계수의 분모에 항이 추가되어 있다는 점입니다.

G 계수는 순위에만 영향을 주는 오차를 다루기 때문에 문항 난이도 차이를 오차로 보지 않습니다.
Phi 계수는 점수 자체의 재현성을 다루기 때문에 문항 난이도 차이까지 오차로 간주합니다.

여기서 n_i는 문항 수(number of items)를 의미합니다. n_i가 G 연구에 사용된 문항 수와 동일하다면, 이 설계의 G 계수는 Cronbach의 알파 계수(Cronbach’s coefficient alpha) (또는 KR-20)와 동일합니다. 이 객관식 시험 예시의 Phi는 식 (4.8)에 제시되어 있습니다.

포함된 G 연구에서의 고정 요인(fixed facet) 예시

포함 설계(nested design)에서 고정 요인(fixed facet) 을 보여주기 위해, 두 가지 형식(format, f)—객관식(MC) 과 참/거짓(TF)—을 사용하는 필기시험을 생각해봅시다.

문항이 동시에 두 형식(MC와 TF)에 속할 수는 없으므로, 문항(items)은 형식 내에 포함(nested within format) 되어야 합니다 (i:f).
두 형식(MC와 TF)은 무한히 큰 형식 모집단에서 추출된 표본이 아니라, 이 연구에서 관심 있는 유일한 두 형식입니다. 따라서 이 형식(f)은 무작위 요인(random facet) 이 아니라 고정 요인(fixed facet) 으로 간주됩니다.

즉, 이 모형은 무작위 요인(문항) 과 고정 요인(형식) 을 동시에 포함하므로 혼합 모형(mixed model) 이 됩니다. 따라서 G 연구 설계는 수험자(p) × 문항(i) : 형식(f) 내 포함 혼합 모형으로 표현되며, 이는 [p × (i:f)] 설계입니다.

교란(confounding)

임상 평가(clinical assessment) 자료를 사용하는 연구자들이 흔히 직면하는 문제 중 하나는 교란(confounding) 입니다. 교란은 각 요인의 단일 조건이 다른 요인과 결합될 때 발생합니다.

그림 4.2는 교차(crossed), 포함(nested), 교란(confounded) 데이터 수집 설계의 예시를 보여줍니다.

1. Crossed (교차 설계)

설명: **모든 평가자(Rater)**가 **모든 스테이션(Station)**을 평가합니다.
예시: 평가자 A와 B가 스테이션 1과 2를 모두 평가합니다.
특징: 이 설계는 모든 요인(평가자, 스테이션)의 효과와 이들 간의 모든 상호작용을 분리하여 분석할 수 있습니다. 가장 많은 정보를 얻을 수 있지만, 실제로는 모든 평가자가 모든 스테이션을 평가하기 어렵기 때문에 현실적으로 적용하기 어려운 경우가 많습니다.

2. Nested (포함 설계)

설명: 평가자가 특정 **스테이션에 종속(nested)**되어 있습니다. 즉, 각 스테이션에는 고유한 평가자 집단이 배정됩니다.
예시: 평가자 A와 B가 스테이션 1과 2를 평가하고, 평가자 C와 D는 스테이션 3과 4를 평가합니다. 평가자 A와 B는 스테이션 3과 4를 평가하지 않습니다.
특징: 교차 설계보다 효율적입니다. 모든 평가자가 모든 스테이션을 돌 필요가 없으므로 시간과 자원을 절약할 수 있습니다. 하지만, 이 설계에서는 평가자와 스테이션 간의 모든 상호작용을 분리하여 분석할 수 없고, 일부 오차는 잔차 오차에 포함됩니다.

3. Confounded (혼입/교란 설계)

설명: 평가자와 스테이션의 효과가 서로 분리될 수 없이 묶여(confounded) 있습니다. 한 평가자가 오직 한 스테이션만 담당하고, 그 스테이션을 담당하는 다른 평가자는 없습니다.
예시: 평가자 A는 스테이션 1만, 평가자 B는 스테이션 2만, 평가자 C는 스테이션 3만, 평가자 D는 스테이션 4만 평가합니다.
특징: 이 설계는 평가자의 엄격성 차이와 스테이션의 난이도 차이를 서로 분리하여 분석할 수 없습니다. 예를 들어, 스테이션 1의 점수가 높게 나왔을 때, 그것이 스테이션 1이 쉬워서인지 아니면 평가자 A가 점수를 후하게 주어서인지 알 수 없습니다.
유의점: 이 설계는 분석이 매우 제한적이므로 G-이론에서는 가급적 피해야 하는 설계입니다.

예시에서 교란 설계(confounded design)는 각 OSCE 스테이션마다 단일 평가자가 배정되는 경우를 보여줍니다. 이 경우, 스테이션당 평가자가 오직 한 명이므로, 일반화가능도 분석(generalizability analysis)은 평가자와 스테이션의 독립적 효과를 추정할 수 없습니다. 대신, 평가자와 스테이션 오차가 결합된 효과만을 추정할 수 있습니다.

불균형 설계 (Unbalanced Designs)

불균형 설계(unbalanced designs) 는 자연주의적 임상 평가 상황에서 흔히 발견되는 또 다른 조건입니다.

예를 들어, 수험자마다 평가자 수나 임상 수행 관찰 수가 다를 수 있습니다.
또한, 포함된 요인(nested facet)의 수준(level) 수가 불균등할 때도 불균형 데이터가 발생합니다.

데이터가 충분히 많다면, 한 가지 접근 방식은 층화 임의표집(stratified random sampling) 을 통해 각 수험자가 동일한 수의 관찰치를 갖도록 균형 데이터(balanced data) 를 만드는 것입니다. 그러나 이 경우 일부 데이터를 버리게 됩니다.

다른 방법으로는, 불균형 데이터를 이용해 VC를 추정할 수 있는 다양한 통계적 접근법이 있습니다. 하지만 어느 접근법이 더 합리적인지에 대한 명확한 논리적 근거는 없으며, 각각은 다소 다른 추정치를 산출합니다.

불균형 데이터가 고정 요인(fixed facet) 내에 포함되어 있다면, 다변량 일반화가능도(multivariate generalizability) 가 효율적이고 직접적인 기법이 될 수 있습니다. 다음 절에서는 불균형 설계 내에서 다변량 접근법을 소개합니다.

요약 (Summary)

이 절에서는 네 가지 G 연구 설계만 간단히 논의했습니다:

[p × i]
[p × (i:f)]
[p × s × r]
[p × (r:s)]

비록 요인(facets), 포함(nesting), 혼합 모형 조건(mixed models)이 추가되면 G 연구 모형의 변형은 빠르게 늘어나지만, 이 네 가지 모형은 보건과학 교육 연구(health science education research)에서 가장 흔히 사용되는 G 이론 응용을 이해하기 위한 기본 틀과 핵심 개념을 제공합니다.

이 장에서 가능한 모든 모형을 포괄적으로 다루는 것은 범위를 벗어나므로, 독자는 보다 폭넓은 모형과 설계 고려사항을 제시하는 문헌(Brennan, 2001; Shavelson & Webb, 1991; Norman, 2003)을 참고하기 바랍니다.

다변량 일반화가능도 (Multivariate Generalizability, MVG)

여기까지는 단변량 일반화가능도 이론(univariate G theory)에만 집중했습니다. 단변량 G 연구에서는 각 수험자(examinee)에 대해 단일 요약 점수(single summary score) 를 산출하는 측정 절차에 대해, 신뢰도 계수를 계산하는 데 사용할 수 있는 분산 구성요소(variance components, VCs) 를 추정하는 방법을 다뤘습니다.

이 절에서는 범위를 넓혀, 수험자에게 여러 개의 요약 점수(multiple summary scores) 가 부여되는 경우 적용할 수 있는 다변량 일반화가능도(MVG) 절차를 소개합니다.

MVG가 유용한 상황

MVG는 평가가 수험자의 수행을 서로 다른 측면에서 측정하는 여러 개의 점수를 산출할 때 적용할 수 있습니다.

예: SP 기반 OSCE에서 각 스테이션이 의사소통(communication) 과 임상 추론(clinical reasoning) 문항을 포함하는 경우, 각각의 수행 차원을 요약 점수로 산출할 수 있습니다.
또 다른 예: 보건과학 교육과정(health science professions education program) 에서 학생들이 두 개 이상의 뚜렷한 단계(phase)에서 성적을 받는 경우, 각 교육 경험에 대해 GPA(grade point average)를 산출하는 것이 유용할 수 있습니다.

MVG의 특징

단변량 G 이론은 오직 분산 구성요소(VCs)에만 초점을 둡니다.
MVG는 여기에 더해, 공분산(covariance) 과 우주 점수 상관(universe score correlations) 을 산출하여 여러 측정치 간의 관계를 보여줍니다.

교육적 예시: Kreiter & Ferguson (2016) 연구

Kreiter와 Ferguson(2016)의 연구는 강의(didactic) 와 임상(clinical) 수업 성적을 분석한 MVG 사례입니다.

학생들은 의학교육의 첫 2년 동안 강의 수업을 받고, 3학년 때 임상 수업을 경험했습니다.
각 수업마다 성적이 부여되었고, 수업은 강의 단계(didactic) 또는 임상 단계(clinical)에 속했습니다.
연구자들은 강의 GPA 와 임상 GPA, 그리고 두 GPA 간의 관계를 분석하고자 했습니다.

연구자들은 먼저 단변량 혼합 모형 G 연구(univariate mixed model G study) 를 수행했습니다. 여기서 수업 성적(grades, g) 은 고정 요인(fixed facet)인 수업 유형(type, t) 내에 포함(nested)되어 있었습니다: [p × g:t].

표 4.5(Table 4.5)는 1,101명의 학생의 20개 성적(강의 14개, 임상 6개)을 분석한 단변량 G 연구 결과를 보여줍니다.
이 단변량 연구는 의미 있는 정보를 제공했지만, 각 GPA의 신뢰도를 비교·계산하거나 두 GPA 간의 관계를 이해하기에는 충분하지 않았습니다.
또한 데이터가 불균형(unbalanced)했는데, 강의 성적이 14개, 임상 성적이 6개로 서로 달랐기 때문입니다. 단변량 모형에서는 불균형 데이터를 처리하기 위해 여러 통계적 접근 중 하나를 선택해야 했습니다.
그러나 MVG는 불균형 설계를 다루고 데이터에 대한 더 완전한 시각을 제공하는 또 다른 전략입니다.

다변량 개념과 표기법

MVG 예시를 살펴보기 전에, 다변량 개념과 표기법을 소개합니다.

MVG 설계는 항상 단변량 대응(univariate counterpart) 을 가지며, 이는 고정 요인을 포함한 혼합 모형입니다.
교육적 예시에서는 유형(type, t)이 두 수준(강의와 임상)을 가지므로, MVG 분석은 학생마다 두 개의 요약 점수를 산출하게 됩니다.

특수 표기법:

수험자(person, p)가 유형(type, t)의 각 수준에 대해 점수를 가진다는 사실을 표시하기 위해 “•” 기호를 사용합니다. 즉, “p•”는 수험자가 다변량 변수의 각 수준에 대해 점수를 가진다는 의미입니다.
성적(grades, g)은 유형(type, t) 내에 포함되므로, “°” 기호로 표시합니다.
따라서 이 연구의 MVG 모형은 [p• × g°] 로 표현됩니다.

이는 곧, 두 수준의 고정 요인(type, t)을 가진 단변량 모형이 각각 존재하며, 학생들이 두 유형의 수업 모두에서 점수를 받았기 때문에 이 두 단변량 모형이 연결(•) 된 형태가 됩니다.

MVG 결과는 표 4.6(Table 4.6)에 제시되어 있습니다.

MVG 결과 해석

MVG 결과 해석은 단변량과 다른데, 그 이유는 MVG 결과에 우주 점수 상관(universe score correlations) 과 공분산(covariances) 이 포함되기 때문입니다.

표 4.6은 행렬(matrix) 형식으로 MVG 성적 연구 결과를 보여줍니다.
각 행렬(p, g, pg)의 대각선(diagonal) 에는 VCs가 보고되며, 이는 두 개의 단변량 [p × g] 연구 결과와 동일한 방식으로 해석됩니다.

분석 결과:

학생(p) 요인 분산 비율은 강의 수업(전체 분산의 43%)에서 임상 수업(25%)보다 훨씬 높았습니다.
두 유형의 수업 간 공분산(cov)은 p 행렬의 하단 비대각 항(off-diagonal cell) 에 보고되었으며, 값은 0.16625였습니다.
해석하기에는 우주 점수 상관(universe score correlation)이 더 직관적입니다. p 행렬의 상단 비대각 항 에 나타난 상관 계수는 r = 0.798로, 강의 성적과 임상 성적 간에 강한 정적 관계(strong positive relationship) 가 있음을 보여줍니다.

한편, 성적은 다변량 변수(type)의 수준 간에 연결되지 않았으므로, 표 4.6의 g 및 pg 행렬에는 공분산 정보가 포함되지 않습니다. 이 행렬의 VC는 단변량 [p × g] 분석과 동일하게 해석됩니다.

2×2 행렬 구조는 고정 요인(type, t)이 두 수준을 가지고 있었음을 반영합니다. 일반적으로, MVG 행렬의 크기는 측정 대상(p)에 대해 산출된 점수(즉, 고정 요인의 수준) 수와 동일합니다.

2. p(학생 효과)와 g/pg의 차이

p (학생 효과)
모든 학생은 강의 점수도 있고, 임상 점수도 있어요.
→ 그래서 두 점수를 서로 비교(상관, 공분산) 할 수 있음.
→ 그래서 p 행렬에는 비대각 칸이 채워짐 (예: Didactic vs Clinical 상관 r = .798).
g (과목 효과)
강의 과목과 임상 과목은 서로 다른 집합이에요.
- 강의 과목은 “생리학, 해부학, 생화학” 같은 이론 과목
- 임상 과목은 “소아과, 내과, 외과 로테이션” 같은 임상 과목
  → 즉, 강의 과목과 임상 과목은 직접 짝지을 수 없음.
  → 그러니 두 집단의 평균 난이도 차이를 연결해서 공분산을 구할 수가 없음.
  → 그래서 비대각 칸이 “비어 있는 것처럼 표시”됨.
pg (학생×과목 상호작용 효과)
여기서도 마찬가지.
- 강의에서 “학생 A는 생리학은 잘했는데 해부학은 약하다” 같은 들쭉날쭉함
- 임상에서 “학생 A는 내과는 강하지만 소아과는 약하다” 같은 들쭉날쭉함
  → 이 두 들쭉날쭉함을 직접 1:1로 연결할 수 없음 (생리학 점수 변동과 소아과 점수 변동은 본질적으로 다른 요인).
  → 그래서 pg 행렬에서도 비대각 칸이 없음.

3. 비유로 쉽게 이해하기

학생(p) 효과:
학생마다 국어 성적과 수학 성적이 있으면 → 두 과목 성적 간 상관을 계산할 수 있음.
과목(g) 효과:
국어 시험은 국어 과목 집합, 수학 시험은 수학 과목 집합.
국어 과목 평균 난이도와 수학 과목 평균 난이도를 직접 연결할 수 없음.
학생×과목(pg) 효과:
“학생이 국어 과목마다 들쭉날쭉한 정도”와 “학생이 수학 과목마다 들쭉날쭉한 정도”를 직접 비교할 수 없음.

MVG의 활용

MVG 결과(예: 표 4.6)는 보건의료 전문가 교육 평가에서 여러 가지 유용한 기능을 합니다.

D 연구에서는 VCs를 사용하여 부분 점수(subscores) 의 신뢰도를 다양한 조건에서 추정할 수 있습니다.
여러 문항, 평정, 가중치를 조합했을 때 합성 점수(composite scores) 의 신뢰도를 추정할 수도 있으며, 어떤 합성이 적절한 일반화가능성을 제공하는지 판단할 수 있습니다.
더 나아가, MVG 분석 결과는 우주 점수와 오차 분산 간의 관계를 드러냄으로써 중요한 타당도(validity) 증거를 제공합니다.

추가 고려사항 (Additional Considerations)

이 장은 짧은 소개이므로 G 이론(G theory)을 완전하게 다루지는 못했습니다. 여기서는 G 이론을 사용하는 연구자가 고려해야 할 몇 가지 추가 주제와 유의점을 간략히 정리합니다.

G 이론은 매우 유연하지만 몇 가지 중요한 가정에 의존합니다.

첫째, 자료는 구간척도(interval) 혹은 명확히 서열척도(ordinal) 이어야 합니다. 이렇게 해야 분산 구성요소(variance components, VCs)의 해석이 명확해집니다.
둘째, G 연구 모형의 모든 효과(effect)는 상호 독립(uncorrelated) 이라고 가정됩니다. 그러나 동일한 과제나 평가를 짧은 시간 안에 반복 측정할 경우, 이 가정이 종종 위배됩니다.

학생이 같은 과제를 짧은 시간 안에 두 번 본다면 → 두 점수 사이에 상관(relatedness)이 생김.
특정 평가자가 특정 스테이션에서는 더 엄격하다면 → 평가자 효과와 스테이션 효과가 얽힐 수 있음.

즉, 실제 평가 상황에서는 독립성 가정이 자주 위배될 수 있다는 점을 주의해야 해요.

유의점: 이 가정은 반복 측정에서 종종 깨집니다. 예를 들어, 한 학생이 같은 과제를 짧은 시간 안에 여러 번 수행할 경우, 이전 평가의 경험이 다음 평가에 영향을 미칠 수 있습니다. 이를 '연속 효과(carry-over effect)'라고 하는데, 이럴 경우 각 평가가 독립적이라는 가정이 위배되어 분석 결과가 왜곡될 수 있습니다.

셋째, G 이론에는 두 가지 주요 통계적 접근법이 있습니다: 분산분석(ANOVA) 과 최대우도법(maximum likelihood, ML). ANOVA는 분포 가정을 요구하지 않지만, ML은 점수 효과(score effects)의 정규성을 가정합니다.

G 이론 분석을 적용하고 해석할 때의 고려사항

첫째, VC의 표집 변동성(sampling variability).
VC는 표본 크기와 표본 변동성에 따라 정확도와 안정성이 달라집니다. 추정치의 표준오차(standard error, SE) 는 이를 판단하는 데 도움을 줄 수 있습니다. 그러나 연구자는 사용된 요인(facet)과 수험자(person) 표본의 특성과 크기 자체를 반드시 고려해야 합니다. 실제 연구에서는 진정한 무작위 표집이 아닌, 특정 요인에 대해 매우 작은 표본을 사용하는 경우가 드물지 않습니다. 일반적으로 G 연구는 30명 이상의 수험자(p) 가 있어야 안정적인 추정치를 제공합니다. 결국, 결론의 신뢰성은 VC를 추정하는 데 사용된 표본에 달려 있으므로, 표본은 연구자가 일반화하려는 모집단(universe)을 충실히 반영해야 합니다.
둘째, 음의 오차 분산(negative error variances).
개념적으로 불가능하지만, 실제 G 이론 적용에서는 음의 분산 추정치가 발생할 수 있습니다. 이는 보통 표본 오차(예: 큰 모집단에서 작은 표본) 또는 잘못 지정된 모형(misspecified model) (예: 중요한 요인이 모형에 포함되지 않음)의 결과입니다. 이러한 경우, 음의 분산 구성요소는 보통 0으로 처리합니다 (Shavelson & Webb, 1991). 반면, ML 방법은 음의 분산 추정치를 산출하지 않는 장점이 있습니다 (Shavelson & Webb, 1991).
셋째, 오차 원천(error sources)에 대한 불완전한 이해.
오차 원천을 충분히 이해하지 못하면 잘못된 해석을 내릴 수 있습니다. 실제 연구에서는 흔히 숨겨진 요인(hidden facets) 이 존재하는데, 이는 G 연구에서 요인의 단 하나의 조건만 표집될 때 발생합니다 (Brennan, 2001).
- 예: 모든 OSCE 평가가 단일 평가자(single rater)에 의해 채점되었다면, “평가자(rater)”는 숨겨진 요인이 됩니다. 이 경우 평가자와 관련된 모든 분산은 스테이션 분산 구성요소와 혼합(confounded) 되어 버립니다. 연구자들은 이러한 숨겨진 요인을 종종 무시하지만, 이는 오해를 불러올 수 있습니다.
넷째, 측정 대상(object of measurement)의 다양성.
이 장에서는 개인(person, p)을 측정 대상으로 한 예시만 다뤘습니다. 그러나 G 이론은 개인의 평균이 아닌 집단 평균(e.g., 학급 평균 class means) 을 분석할 때도 적절하게 사용할 수 있으며, 이 경우 개인(p)은 요인(facet)으로 다뤄집니다.

최종 고려사항 (Final Considerations)

G 이론은 단순한 측정(simple measures) 과 복잡한 측정(complex measures) 을 모두 분석할 수 있는 방법을 제공합니다. G 연구(G study)와 D 연구(D study) 결과를 면밀히 검토하면, 측정 과정 자체와 그 개선 방법을 더 잘 이해할 수 있습니다.

타당도(validity)와 신뢰도(reliability)에 대한 통찰을 제공함으로써, G 이론은 사회과학자들에게 매우 강력한 연구 도구가 됩니다.

따라서 독자들은 보건과학 교육에서의 다양한 응용과 타당도에 대한 함의를 이해하기 위해, G 이론의 더 발전된 적용 사례(advanced demonstrations) 를 탐구해볼 것을 권장합니다.

'논문 읽기 (with AI)' 카테고리의 다른 글

[AHPE] 6 표준 설정 (STANDARD SETTING) (0)	2025.09.16
[AHPE] 5장 검사의 통계(STATISTICS OF TESTING) (0)	2025.09.16
[AHPE] 3 신뢰도 (Reliability) (0)	2025.09.15
[AHPE] 2 타당도와 평가의 질 (VALIDITY AND QUALITY) (0)	2025.09.09
[AHPE] 1 의학교육에서의 평가 소개 (INTRODUCTION TO ASSESSMENT IN THE HEALTH PROFESSIONS) (0)	2025.09.09

의대에서 교육하고 있습니다.