1

Scoring inference: 평가는 몇 개의 수행능력을 관찰하는 것으로부터 시작하며, 이로부터 공정/정확/재생산가능한 양적 점수를 생성해내야 한다.

 

2

Generalisation inference: 일반화를 이해하기 위해서 우리는 '시험 상황'에서의 수행능력과 '실제 상황'에서의 것을 구분할 필요가 있다. 일반화는 '시험 상황'의 수행능력에 대한 것이다. 이론적으로 시험 상황universe of assessment에서 만들 수 있는 문항의 숫자는 거의 무한하다. 따라서 '일반화' '얼마나 문항들을 잘 선택했는가'의 문제이다. 이에 대한 답은 크게 두 가지인데, 하나는 test domain 내에서 적절한 표본 선정을 했는지에 관한 것이다(블루프린트 사용, 포화 등). 질적 자료에서 TriangulationSaturation일반화 추론을 도와준다. 두 번째는, 완전히 새로운 표본에서 비슷한 점수를 얻을 가능성(재생산가능성, 신뢰도 등)이다. 후자는 CTT나 일반화가능도이론을 이용해서 결정할 수 있다.

 

3

Extrapolation inference: '외삽'은 시험 상황에서 실제 상황으로 나아가는 것이다. 이를 위해서는 (1) 시험 영역에서의 점수가 실제 수행능력의 핵심 특성을 반영하게끔 해야 하며, (2) 시험 수행능력과 실제상황의 수행능력 간 관계 분석해볼 수 있다. 질적 연구라면, 외삽은 이해관계자들이 해석에 동의하거나 새로운 훈련이나 수행의 맥락에서 적용될 것이라는 기대를 보여주는 근거에 의해서 얻어질 수 있다. 다만, 일반화와 외삽 추론은 서로 반대 방향으로 작용할 수 있다. Kane '우리는 일반화를 희생하여 외삽을 강화시킬 수 있다(평가 과제가 평가 대상 영역을 반영하도록 함), 또는 우리는 외삽을 희생하여 일반화를 강화시킬 수 있다(다수의 고도로 표준화된 과제를 사용)'라고 지적했다.

 

4

Implication inference: Kane '시험 점수를 해석하는 특정한 방식이 타당하다고 해서, 자동적으로 그 점수를 활용하는 방식까지 정당화되지는 않는다' 라고 말했다. 또한 '완벽하게 정확한 정보를 바탕으로 하더라도, 이에 기반한 의사결정은 목적을 달성하지 못할 수 있다. 설령 목적을 달성하더라도 비용이 너무 많이 들어갈 수도 있으며, 심지어는 그냥 폐기되어야 할 수도 있다' 라고 했다. 다르게 말하면, 비록 정확한 측정을 했더라도, 측정에서 얻어진 정보가 유용할 것인지(혹은 적절하게 활용될 것인지)는 또 다른 문제라는 것이다. 따라서 타당도 주장의 최종 단계는 이 평가가 학습자/이해관계자/사회에 미칠 여파를 평가하는 것이다.

 

5

함의 추론을 위한 방법으로는, standard setting 연구, 의도하거나 의도하지 않은 결과를 탐색하는 연구, 남성-여성 등 세부그룹 간 차이 비교 연구 등이 있다. 예를 들자면, ‘시험에서 떨어진 학생들과 통과한 학생들에게는 어떤 일이 생기는가?’ ‘재교육remediation이 후속 평가에서 수행능력의 향상을 가져왔는가?’ 등의 질문에 답하는 것이다.

 

6

타당도 주장이 일관성을 갖도록 근거 수집을 계획하고 제시해야 한다. 타당도 주장을 뒷받침하기 위한 모든 추론은 가치가 있지만, 중요도가 동일하지는 않다. '일반화 추론'은 형성평가를 강조하는 상황에서는 덜 중요하고, '외삽 추론'은 실제 상황에서의 수행을 직접 관찰하는 상황에서는 덜 중요하다. 따라서 근거를 수집하기 전에 '가설을 명확히 설정하는 것(IUA)'이 중요하다. 또한, 흔히 한 목적이나 맥락에서 validate된 검사는 다른 목적이나 맥락에서도 그러할 것이라고 가정하는 실수를 범하곤 하나, 사실은 모든 평가는 새로운 interpretation and use마다 validation되어야 한다.

 

7

최종적으로 다음과 같이 요약할 수 있다.

첫째, validation은 끝이 아니라 과정이다. 검사가 'validate'되었다고 말하는 것은, 그 과정을 수행했다는 것을 의미할 뿐, 의도한 해석, validation의 과정, 그 과정이 이뤄진 맥락 등을 지칭하는게 아니다.

둘째, 바람직한 validation은 점수의 해석과 사용을 명확히 기술에서 시작해야 한다. 그 다음으로 핵심 주장과 근거를 정의하는 IUA를 세심하게 계획하고, 마지막으로 타당도주장을 위한 논리적, 실용적 근거를 수집하고 종합한다.

셋째, 가장 취약한 고리에 초점을 둬야 한다.

넷째, 많은 임상, 교육 사례에서 점수/일반화/외삽 근거는 상당히 강력하다. 결국은, 실제 행동을 위한 함의implication에 이르러서야 부족한 것이 드러난다. 이러한 이유로, implication validity argument에서 궁극적으로 가장 중요하다.

 

 

 

 

 

 

출처: 

Cook, D. A., Brydges, R., Ginsburg, S., & Hatala, R. (2015). A contemporary approach to validity arguments: a practical guide to K ane's framework. Medical education, 49(6), 560-575.

1

우리가 학습자를 평가할 때, 우리는 주로 '숫자'를 생성한다. 그러나 숫자는 중간과정일 뿐이다. 우리가 진짜로 원하는 것은 그 학습자에 대한 '판단decision'이며, 예컨대 '합격인가?' 하는 것이다. 따라서 궁극적으로 보았을 때, 타당화validation라는 것은 결국 '최종 판단의 방어가능성defensibility를 지지하는 근거'를 수집하는 것이다.

 

2

임상적 예시를 들어볼 수 있다. PSA검사가 전립선암 진단에 유용한가? 근거를 살펴보면, 재검사에 대한 결과가 reproducible하고 매년 측정한 결과도 그렇다. 그러나 이러한 긍정적 결과에도 불구하고 대부분의 남성에 대해서는 검사를 권고하지 않는다. 불일치의 원인은 PSA에 뒤따르는 추가 검사에서 발생할 수 있는 의도하지 않은 부정적 결과 때문이며, 더 중요하게는 대규모 무작위연구의 결과가 상충했기 때문이다

 

3

이 예시의 교훈은 다음과 같다.

첫째, 모든 평가가 다 도움이 되는 것은 아니다. (: 낮은 점수가 불필요한 재교육활동으로 이어질 수 있다)

둘째, 사람들은 동일한 근거를 두고도 서로 다른 결론에 이를 수 있다.

셋째, 어떤 맥락에서는 유용한 평가가 다른 맥락에서는 그렇지 않을 수 있다 (: PSA검사의 특성은 연령에 따라 다르다. 교육 시에 체크리스트는 절차적 기술의 평가에는 적합하나, 임상현상의 미묘한 차이를 잡아내지는 못한다.)

넷째, 시험(검사)의 유용성은 목적에 따라 다르다 (: PSA검사는 일반적으로 암의 재발을 보는데 좋다. mini-CEX는 총괄적 목적보다 형성적 피드백 제공에 유용하다)

다섯째, 평가 행위 자체가 개입intervention이다. 시험-강화 학습Test-enhanced learning이 그 예시이다.

 

4

평가에 관하여 어떤 근거를 수집하고 어떻게 해석할 것인지는 타당도 주장validity argument에 따라 달라진다. 다만 오직 조각의 근거만으로 결론을 내릴 수 있을 정도로 명백한 경우는 거의 없다. 보통, 타당도 주장에는 각각의 근거는 불완전하더라도, 종합적으로 판단을 내리기에는 충분한 다수의 근거가 필요하다. 법정에 비유하자면, 얼마나 많은 근거가 필요할지는 그 결정의 무게에 달렸다. Kane은 validation의 과정을 첫째, 의도나 해석에 관한 주장을 기술한다(interpretation/use argument, IUA). 둘째, 이 주장을 평가한다(validity argument)’라고 요약했다. 이와 같은 두 단계 접근법은 일상적으로 연구에서 가설을 검증하는 것과 다르지 않다.

 

5

가설의 가장 취약한 고리를 찾아내고, 그것을 평가할 검사를 계획해야 한다. 가장 취약한 고리를 찾아내려고 할 때 참고할 수 있는 Kane은 타당도주장에 대한 프레임워크는 다음의 네 단계로 나눠져있다.

(1) 단일한 관찰결과(객관식 문항, OSCE, 포트폴리오)에서 점수를 얻는 과정 (Scoring)

(2) 관찰에 대한 점수를 시험 상황에서의 일반적 수행능력을 대표하는 점수로 일반화 (Generalisation),

(3) 시험 상황에서의 점수를 실제 상황에서의 수행능력으로 추론하는 외삽 (Extrapolation)

(3) 정보를 해석하고, 해석한 의미를 바탕으로 결정을 내리는 것 (Implications)

 

6

타당도 주장에서 중요한 것은, 여러 단계에 필요한 여러 추론inference을 포괄할 수 있도록 다양한 출처의 근거를 포함하는 것이다. 또한 가장 취약한 고리에 초점을 맞추는 것도 중요하다. 이런 점에서 Kane의 프레임워크가 가지는 장점 중 하나는 심리측정자료psychometric data에 지나치게 의존하지 않기에, 비정량적 평가에도 적용가능하다는 점이다.

 

출처:

Cook, D. A., Brydges, R., Ginsburg, S., & Hatala, R. (2015). A contemporary approach to validity arguments: a practical guide to K ane's framework. Medical education, 49(6), 560-575.

 

 

 

+ Recent posts