1
의학교육은 지난 30년 동안 '측정 가능한 것'을 평가하는 것에서, '중요한 것'을 평가하려는 방향으로 많은 노력을 기울여왔다. 피상적인 [지식의 테스트]에서 [이해, 구성, 해석 테스트]로 바뀌어왔고, Bloom의 분류법과 같이 기술과 태도과 지식만큼 중요하다는 인식을 얻었으며, 심리측정학적으로 평가자 주관성과 사례 특수성을 알게 되었다.
2
하지만 이러한 발전이 [평가를 해체deconstructed]했으며, 일부는 결과적으로 [학습이 해체]되었다는 주장도 있다. 평가할 행동을 하위 구성 요소로 나누거나, 이렇게 나눠진 하위 구성 요소를 샘플링하는 것은 학습자들이 [큰 그림]에 덜 집중하고 ['역량'을 뒷받침하는 (세부)요소]에 집중하게 강제mandated했다는 지적이다.
3
반면, 역량 운동competency movement에는 완전히 대조적인 것도 있었다. 실제 업무의 문제를 해결하려면 역량의 모든 요소들이 통합되어야 한다는 것이다. Miller의 피라미드는 이를 잘 보여준다. [지식]은 [이해]에 필요하지만 충분하지 않으며, [이해]는 [능력(또는 역량)]에 필요하지만 충분하지 않고, [능력]은 [실제 일상적 업무성과]에 필요하지만 충분하지 않다.
4
피라미드의 상위 수준으로 갈 수록, 평가자는 동일한 내용을 관찰하고도, 응답 척도에 대해서는 다르게 해석할 수 있다. 그래서 흔히 평가자를 훈련하고, 차이를 논의하는 보정 단계를 사용한다. 하지만 비록 평가자마다 척도를 해석하는 방식이 달라도, 수행능력에는 동의할 수 있다. 그렇다면 work-based assessment(WBA)는 어떻게 개선해야 좋을까?
5
평가 척도(Scale)의 관점에서, 척도를 임상 평가자의 우선순위에 맞춰 조정하는 것 만으로도 평가자의 변별력은 더 개선될 수 있으며, 평가자 간 불일치는 줄일 수 있다. 즉, 불만족-만족-우수 같은 척도나, 기대 이하-기대 이상과 같은 척도보다, 위임가능성(감독하에서도 수행불가 – 감독하에서 수행가능 – 최소한의 감독으로 수행가능 – 감독 없이 수행가능) 기준의 척도가 더 낫다.
6
이는 평가자의 인지 구조를 반영한 척도라 볼 수 있다. 평가 양식(rating form)을 개선하려는 노력보다, 어떻게 하면 평가자의 인지적 스키마를 이해하고, 적절히 활용할 수 있을지를 고민해야 한다. 핵심은, 평가자의 현실 지도reality map에 응답 척도(response scale)을 맞추는align 것이다. 그러려면 척도의 앵커anchor로 사용되는 문구가 그 자체로 평가자의 경험에 공명resonate해야 한다. ‘기대 수준임’, ‘만족스러움’ 과 같은 추상적인 문구는 그러지 못한다.
7
평가자에게 ‘객관적인 관찰’보다 ‘판단’을 요구하는 편이 낫다. 하지만 지난 수십 년 동안, 주관성에 대한 우려로 인해 [평가자 간 일치도]를 높이기 위해, 평가도구는 [프로세스 수준]에 초점을 뒀다. 예를 들면, 악수하기, 눈맞춤 하기 등이다. 그리고 수행능력performance 점수는 개별 프로세스 항목 점수를 합산하였다. 하지만 ‘수행능력’이란 단순히 부분의 합보다 크다.
8
이처럼 [수행능력performance이 부분parts의 합sum보다 더 복잡]하고, [적절한 경험이 있는 관찰자]는 [좋은 수행능력이란 무엇인지에 동의할 수 있다]면, 직관에 반하는 결론을 내릴 수 있다. [실제로 무슨 일이 발생했는지에 대한 객관적인 응답]보다 [성과 수준의 수행능력에 대한 주관적인 판단]이 평가자 간 일치와 피평가자 간 수행능력 변별에 더 유리할 수 있다.
9
즉, 어떤 과제를 잘 수행했는지를 평가하고자 [하위 구성요소의 무수한 세부사항]을 긁어모으는 것은 [뒤로 물러서서 전체를 고려하는 것]보다 더 나은 그림을 보여주지 못한다. 이는 도구적 인상주의instrumental impressionism이라 할 수 있다. 전반적global 판단을 내리면서도, 동시에 세부사항을 인식하는 것이다. 적절한 경험이 있고 교육을 받은 평가자라면, 행동을 맥락 속에서, 서로 조합하여 해석한다. 그 결과, [단순한 행동의 총합을 측정]하기보다는 [행동의 기저에 있는 비교적 안정적인 속성]을 판단할 수 있을 것이다.
10
그렇다면 평가도구는 어떠해야 할까? 흥미롭게도 대부분의 WBA 평가도구는 매우 광범위한 맥락에서 사용되게 만들었으면서, 거의 동일한 수행능력 영역에 대해 묻고 있다. 하지만 평가도구를 설계할 때 어떤 이유로 [모든 컨텍스트]에서 [모든 도메인]을 잘 평가할 수 있다고 간주했는지는 명확하지 않다. 과연 [모든 컨텍스트]는 [모든 도메인]에 대해서 타당하고 신뢰할 수 있는 데이터를 제공할 수 있는가?
11
평가 결과의 신뢰도는 [어떤 도메인에서 어떤 도구를 사용하느냐]에 따라서 달라진다. 이는 특정한 수행능력 도메인은 특정한 상황이나 활동에서 더 잘 입증demonstrated되기 때문이다. 특정한 도메인이 더 효과적으로 샘플링되는 맥락이 존재한다. 따라서 특정 수행능력 도메인에 대해서도, 평가자는 그 도메인을 명확히 보여줄 수 있는 상황이나 활동으로부터 더 신뢰도와 타당도가 높은 판단을 내릴 수 있을 것이다.
12
그렇다면 모든 평가자는 동등한가? 우선 평가자 개인 간 차이varation도 있지만, 어떤 그룹에 속해있느냐에 따라서도 관점이 달라진다. 즉, 서로 다른 평가자 집단은 서로 다른 관점을 제공한다. 따라서 단일한 그룹에서 여러 명이 동료평가를 하는 것에 비해서, 서로 다른 그룹에서 Multi-source feedback을 하는 것은 단순히 평가자의 숫자 외에도 추가적인 가치add value가 있다.
13
또한 누구의 관점이 가장 타당한지를 생각해보아야 한다. 평가할 수 있는 능력이라는 관점에서는 상당히 자명하다. 예를 들어, 일반 사무직이나 환자가 의사의 임상적 판단의 적절성을 평가하는 것은 거의 불가능할 것이다. 하지만 이에 더하여 평가자가 평가대상의 수행능력을 정기적으로 관찰할 수 있는지도 중요하다. 예를 들어, 수술방 간호사는 의사가 병동에서 어떻게 하는지는 거의 못 보았을 수 있다. 즉, 하나의 평가방법으로 모든 임상 역량을 평가할 수 없는 것처럼, 하나의 전문직 집단도 모든 임상 역량을 평가할 수 없다. 종합하자면, [수행능력에 대한 판단 능력]이 있는 사람이, 수행능력을 [관찰할 기회]가 있을 때 보다 신뢰할 수 있는 평가 결과를 내놓을 것이다.
14
복잡한 역량에 대한 평가는 '판단의 문제'이다. 따라서 [올바른 질문]을, [올바른 방식]으로, [올바른 것]에 대해, [올바른 사람]에게 해야만이 효과적이다.
출처:
Crossley, J., & Jolly, B. (2012). Making sense of work‐based assessment: ask the right questions, in the right way, about the right things, of the right people. Medical education, 46(1), 28-37.
'논문을 읽고 씁니다.' 카테고리의 다른 글
질적 연구를 읽을 때 생각해야 할 핵심 질문 (0) | 2021.12.29 |
---|---|
의학교육에서 예술의 힘을 최대화하기 (0) | 2021.12.28 |
전공의는 근무 중 시간을 어떻게 사용하는가? (0) | 2021.12.27 |
교육은 복합(complicated), 복잡(complex), 혼돈(chaos) 중 무엇일까? (0) | 2021.12.26 |
임상교육에서 피드백 (0) | 2021.12.25 |