잘 가르치게 돕습니다.

밀러의 피라미드에서 처음 세 층의 평가

Meded. 2022. 1. 8. 07:56

1

밀러의 피라미드에서 처음 세 층의 평가를 보자. 이 때 고려해야 할 것은 다음과 같다.

 

2

역량은 구체적이며, 제네릭하지 않다(Competence is specific, not generic): 한 케이스에 대한 성과는, 심지어 동일한 영역 내의 다른 케이스에 대해서조차, 성과를 예측하는 지표로 좋지 않다. 이를 (임상) 능력의 '내용-특이성'문제라고 부른다. 인지심리학에서 오래전부터 학습의 전이transfer가 중요한 문제였다는 것도 내용특이성을 시사한다. 하나의 측정은 측정이 아니며, 단일single-point 평가는 신뢰할 수 없다. 가장 현명한 전략은 오랜 시간에 걸쳐 다양한 평가로부터 얻어진 정보를 결합하는 것이다.

 

3

객관성은 신뢰성과 동일하지 않다(Objectivity does not equal reliability): 주관적 평가도 신뢰도가 높을 수있으며, 객관적 평가도 샘플링에 따라 신뢰도가 낮을 수 있다. 폭넓은 표본추출을 해야 하는 이유이다. 평가의 주관성을 극복하기 위해 개발되었던 OSCE조차, 신뢰도는 표본 추출에 달려 있었다. 또한 전문성을 Global rating으로 더 잘 구분할 수 있었으며, 이는 전문가 판단은 그저 '잡음'에 불과하지 않으며, 의미있는 '신호'를 잡아낼 수 있음을 보여준다. 이렇듯, 객관성과 신뢰성이 동의어가 아니기에, 인간(전문가) 판단에 의존하는 것이 정당화된다.

 

4

(응답 형식이 아니라) 자극 형식이 측정되는 것을 좌우한다(What is being measured is determined more by the format of the stimulus than by the format of the response): 평가 방법은 대개 응답 형식(MCQ, Essays, Orals )에 따라 구분한다. 그런데 놀랍게도, 무엇을 측정하는가, 즉 타당도는 응답 형식과 별로 관련이 없음이 드러났다. 이것이 직관에 반하는 것처럼 느껴질 수 있다. 예를 들면, 우리는 객관식 문항이 지식을 평가한다고 생각하기 때문이다. 하지만 무엇을 측정하는지는 자극의 형식에 달려있다. 같은 객관식 문항이라도, 사실적 지식의 기억을 요구하는 문항과 케이스를 제시해서 유발되는 사고 과정은 서로 다르다.

 

이것의 첫 번째 함의는 적절한 응답 형식이 아니라, 적절한 자극 형식을 고안해야 한다는 것이다. 자극 형식은 실제성authenticity을 필수적으로 갖추어야 하며, 적절한 수준의 복잡성complexity이 요구된다. 의사면허시험은 짧은 임상 시나리오를 사용함으로써 Knows에서 Knows how 수준의 측정으로 변모하였으며, OSCE역시 임상 기술을 조각조각 해체하여 단편적으로 평가하는 짧은 스테이션으로 구성된다. , 이러한 방식이 훈련 초기 단계에서는 타당할지 모라도, 상위 단계에서는 통합적으로 평가하는 것이 더 실제 임상상황에 가까울 것이다.

 

두 번째 함의는, 평가방법의 유사성은 점수합산의 정당성을 보장해주지 않는다는 것이다. 여러 평가에서 얻어진 정보를 결합aggregate할 때, ‘유의미한 실체meaningful entity’를 사용해야 한다. 어떤 정보가 어디에 유의미한지는 자극형식의 내용이 결정한다. , 특정 방법-특정 특질 매칭(single method-to-trait match)은 타당하지 않다

 

5

타당성은 '내장'될 수 있다(Validity can be ‘built-in’): 평가는 개발하기 쉽지 않으며, 평가에 투입된 시간과 에너지만큼만 좋다. 좋은 평가는 개발 과정과 운영 과정에서 모두 퀄리티를 유지해야 한다. 개발 과정에서는 평가에 대한 동료 검토가 필요하고, 운영 과정에서는 SP와 평가자에 대한 훈련이 필요하다. 밀러의 피라미드에서 Knows, Knows how, Shows how 단계에는 평가의 통제와 최적화가 가능하다. 이 과정을 얼마나 잘 했느냐가 평가 결과에 기반한 추론의 타당성을 결정한다. , 리소스가 허용하는 한 시험의 구축test construction 및 운영 프로세스에 많은 시간과 노력을 투입해야 한다.

 

6

평가는 학습을 유도한다 (Assessment drives learning): 이미 진부해진 말이다. 좋은 쪽으로든, 나쁜 쪽으로든 평가가 학습에 미치는다는 것을 ‘consequential validity’라고 부른다. 학습자가 나쁜 쪽으로 행동한다고 학습자를 비난할 수는 없다. 그보다 중요한 것은, 평가를 모니터링하고, 학습자에게 미치는 영향을 평가해야 한다는 점이다. 종종 평가는 의도와 다른 효과를 내기 때문이다.

 

7

완벽한 단 하나의 방법은 없다 (No single method can do it all): 평가 프로그램이 필요한 이유이다. 각각의 단일 평가는 일종의 생검biopsy이며, 일련의 생검이 보다 완전하고 정확한 그림을 보여줄 것이다. 교육을 위한 프로그램이 그렇듯, 평가를 위한 프로그램(assessment program)도 계획/준비/구현/조정/평가/개선의 단계를 밟아야 한다. 평가 프로그램에 포함되는 방법이 무엇이든, 그 효용성utility는 합목적성에 달려있다. 따라서 효용성을 위한 신중한 타협이 가능하다. 예를 들어, 평가의 신뢰도가 조금 낮더라도, 학습에 좋은 영향beneficial effect을 가져온다면, 포함할 수 있다는 것이다.

 

 

출처:

Van der Vleuten, C. P. M., Schuwirth, L. W. T., Scheele, F., Driessen, E. W., & Hodges, B. (2010). The assessment of professional competence: building blocks for theory development. Best practice & research Clinical obstetrics & gynaecology, 24(6), 703-719.