논문을 읽고 씁니다.

타당도 추론: 채점 → 일반화 → 외삽 → 함의

Meded. 2022. 1. 2. 06:59

1

Scoring inference: 평가는 몇 개의 수행능력을 관찰하는 것으로부터 시작하며, 이로부터 공정/정확/재생산가능한 양적 점수를 생성해내야 한다.

 

2

Generalisation inference: 일반화를 이해하기 위해서 우리는 '시험 상황'에서의 수행능력과 '실제 상황'에서의 것을 구분할 필요가 있다. 일반화는 '시험 상황'의 수행능력에 대한 것이다. 이론적으로 시험 상황universe of assessment에서 만들 수 있는 문항의 숫자는 거의 무한하다. 따라서 '일반화' '얼마나 문항들을 잘 선택했는가'의 문제이다. 이에 대한 답은 크게 두 가지인데, 하나는 test domain 내에서 적절한 표본 선정을 했는지에 관한 것이다(블루프린트 사용, 포화 등). 질적 자료에서 TriangulationSaturation일반화 추론을 도와준다. 두 번째는, 완전히 새로운 표본에서 비슷한 점수를 얻을 가능성(재생산가능성, 신뢰도 등)이다. 후자는 CTT나 일반화가능도이론을 이용해서 결정할 수 있다.

 

3

Extrapolation inference: '외삽'은 시험 상황에서 실제 상황으로 나아가는 것이다. 이를 위해서는 (1) 시험 영역에서의 점수가 실제 수행능력의 핵심 특성을 반영하게끔 해야 하며, (2) 시험 수행능력과 실제상황의 수행능력 간 관계 분석해볼 수 있다. 질적 연구라면, 외삽은 이해관계자들이 해석에 동의하거나 새로운 훈련이나 수행의 맥락에서 적용될 것이라는 기대를 보여주는 근거에 의해서 얻어질 수 있다. 다만, 일반화와 외삽 추론은 서로 반대 방향으로 작용할 수 있다. Kane '우리는 일반화를 희생하여 외삽을 강화시킬 수 있다(평가 과제가 평가 대상 영역을 반영하도록 함), 또는 우리는 외삽을 희생하여 일반화를 강화시킬 수 있다(다수의 고도로 표준화된 과제를 사용)'라고 지적했다.

 

4

Implication inference: Kane '시험 점수를 해석하는 특정한 방식이 타당하다고 해서, 자동적으로 그 점수를 활용하는 방식까지 정당화되지는 않는다' 라고 말했다. 또한 '완벽하게 정확한 정보를 바탕으로 하더라도, 이에 기반한 의사결정은 목적을 달성하지 못할 수 있다. 설령 목적을 달성하더라도 비용이 너무 많이 들어갈 수도 있으며, 심지어는 그냥 폐기되어야 할 수도 있다' 라고 했다. 다르게 말하면, 비록 정확한 측정을 했더라도, 측정에서 얻어진 정보가 유용할 것인지(혹은 적절하게 활용될 것인지)는 또 다른 문제라는 것이다. 따라서 타당도 주장의 최종 단계는 이 평가가 학습자/이해관계자/사회에 미칠 여파를 평가하는 것이다.

 

5

함의 추론을 위한 방법으로는, standard setting 연구, 의도하거나 의도하지 않은 결과를 탐색하는 연구, 남성-여성 등 세부그룹 간 차이 비교 연구 등이 있다. 예를 들자면, ‘시험에서 떨어진 학생들과 통과한 학생들에게는 어떤 일이 생기는가?’ ‘재교육remediation이 후속 평가에서 수행능력의 향상을 가져왔는가?’ 등의 질문에 답하는 것이다.

 

6

타당도 주장이 일관성을 갖도록 근거 수집을 계획하고 제시해야 한다. 타당도 주장을 뒷받침하기 위한 모든 추론은 가치가 있지만, 중요도가 동일하지는 않다. '일반화 추론'은 형성평가를 강조하는 상황에서는 덜 중요하고, '외삽 추론'은 실제 상황에서의 수행을 직접 관찰하는 상황에서는 덜 중요하다. 따라서 근거를 수집하기 전에 '가설을 명확히 설정하는 것(IUA)'이 중요하다. 또한, 흔히 한 목적이나 맥락에서 validate된 검사는 다른 목적이나 맥락에서도 그러할 것이라고 가정하는 실수를 범하곤 하나, 사실은 모든 평가는 새로운 interpretation and use마다 validation되어야 한다.

 

7

최종적으로 다음과 같이 요약할 수 있다.

첫째, validation은 끝이 아니라 과정이다. 검사가 'validate'되었다고 말하는 것은, 그 과정을 수행했다는 것을 의미할 뿐, 의도한 해석, validation의 과정, 그 과정이 이뤄진 맥락 등을 지칭하는게 아니다.

둘째, 바람직한 validation은 점수의 해석과 사용을 명확히 기술에서 시작해야 한다. 그 다음으로 핵심 주장과 근거를 정의하는 IUA를 세심하게 계획하고, 마지막으로 타당도주장을 위한 논리적, 실용적 근거를 수집하고 종합한다.

셋째, 가장 취약한 고리에 초점을 둬야 한다.

넷째, 많은 임상, 교육 사례에서 점수/일반화/외삽 근거는 상당히 강력하다. 결국은, 실제 행동을 위한 함의implication에 이르러서야 부족한 것이 드러난다. 이러한 이유로, implication validity argument에서 궁극적으로 가장 중요하다.

 

 

 

 

 

 

출처: 

Cook, D. A., Brydges, R., Ginsburg, S., & Hatala, R. (2015). A contemporary approach to validity arguments: a practical guide to K ane's framework. Medical education, 49(6), 560-575.