논문을 읽고 씁니다.

수행 평가: 2020 오타와 컨퍼런스의 합의 및 권고

Meded. 2022. 1. 4. 06:12

1

수행평가(Performance assessment)는 학업 또는 직무 상황에서의 기술과 행동에 관한 평가(the assessment of skills and behaviours, both in academic and workplace settings)로 정의하고자 한다.

 

2

2011년 이후 평가와 관련하여 다음과 같은 변화가 있었다.

첫째, 단순히 개별 도구에만 초점을 맞추는 것이 아니라 평가 시스템을 설계한다는 개념으로 변화하였다.

둘째, 평가의 타당성 기준의 측면에서 OSCE를 넘어 WBA에도 KaneValidity framework이 영향력을 주기 시작했다.

셋째, 평가자 인식(rater cognition)의 측면에서, 평가자 분산rater variance은 의미가 있으며, 평가자 간 차이점을 통제하기 보다는 수용해야 한다고 제안하고 있다.

넷째, 피드백은 이제 상호작용적 과정이자 학습을 위한 대화라고 보는 것이 일반적이다. 일방적인 피드백 제공에서 벗어나, 관계에 중점을 두게 되었으며, 피드백을 활용한 학습의 촉진을 강조한다.

 

3

OSCE는 시험 세팅에서 임상적 스킬 및 의사소통 스킬을 평가하기 위한 방법으로 자리잡았다. OSCE 기반의 평가에 대하여 크게 세 가지를 고려해볼 수 있다.

첫째, OSCE의 의도된 용도 또는 목적에 대한 설명이 명확해야 한다.

둘째, OSCE의 결과에 기초하여 이루어진 추론과 결정을 뒷받침하고 정당화할 수 있도록 의미 있는 증거를 수집해야 한다.

셋째, 이렇게 모든 타당성 증거를 취합하여, OSCE 점수에 기반한 의사결정을 정당화할 수 있어야 한다.

 

4

OSCE에 대한 권고사항은 다음과 같다.

OSCE가 평가 시스템의 한 부분으로서 설계되어야 한다.

• 타당성 프레임워크 기준을 준수하고 OSCE 점수 해석을 위한 증거를 수집해야 한다.

OSCE의 목적을 정의하고, 그 목적을 이해관계자들에게 명확하게 밝혀야 한다.

• 학습 목표/성과에 따라 블루프린팅하고, OSCE를 임상적 상호작용을 평가하는데 사용한다.

OSCE의 내용이 충분한 수의 스테이션과 테스트 시간을 통해 적절하게 샘플링되도록 한다.

• 임상적 과제(clinical task)와 임상적 사고방식(clinical thinking)맞추어 채점 방식을 설계한다. 채점 방식을 임상의의 언어(language of clinicians)에 맞게 조정한다.

• 준거-참조criterion referenced 방식으로 합격선을 설정한다 (Borderline Regression Method)

OSCE에서 신뢰도와 스테이션 수준의 이슈를 다루기 위한 metrics를 설계한다. OSCE MCQ와 같은 다른 평가 방법과는 다른 접근 방식을 요구하기 때문이다.

• 평가자 다양성의 가치를 인정한다. 판단을 표준화하기보다는 평가자의 수를 충분히 보장함으로써 평가자의 가변성을 수용한다.

• 과제 설계 및 서킷 설계를 통해 테스트 보안 문제를 관리한다.

(고부담) 의사 결정에 정보를 제공하기 위하여 OSCE 데이터를 다른 평가와 삼각측량한다

 

5

WBA와 관련한 첫 번째 이슈는 어떤 WBA 도구를 사용하는지이다. 하지만 타당성이 도구 자체의 특성이 아니라는 점을 고려한다면, 어떤 WBA 도구가 보이는 variation을 비교하기보다는, 어떻게 도구를 사용하는지가 더 중요하다. 좋은 평가 시스템의 기준에 주의를 기울이고, 여러 WBA를 평가 시스템으로 사용하여야 한다. 이는 종단적인 학습, 평가 도구의 세심한 조합, 수련 단계에 맞춘 조정으로 이어질 것이다.

 

6

두 번째 이슈는 WBA의 목적에 관한 것이다. 일군의 WBA를 시스템으로, 또는 평가 시스템의 일부분으로 설계해야 목적과 잘 정렬된 평가를 시행할 수 있다. 그리고 이 목적은 평가의 단계에 따라 형성적 목적, 총괄적 목적 등으로 달라질 것이다.

 

7

세 번째 이슈는 WBA의 영향에 관한 것이다. WBA trainee에게 여러 긍정적인 영향을 미치는데, 여기에는 슈퍼바이저와의 contact time 증가, 피드백의 빈도나 품질의 개선, 학습자의 agency나 소속감, 자존감에 긍정적인 학습 분위기 등이 중요하다. 하지만 WBA가 바람직하지 않은 학습 효과를 유발하기도 한다. 그저 하나의 tick-box 행위로 보거나, 관대한 평가자에게만 평가를 받으려고 하는 경우가 있다. 또한 평가자와의 권력 관계로 인하여, 좋은 인상을 남기고 약점을 감추기 위하여 '수행능력을 연기하는staging a performance’ 현상이 발견되기도 한다.

 

8

네 번째 이슈는 WBA에 기반한 평가/진급 결정에 대한 것이다. 다양한 WBA 도구는 평가 맥락에 따라 다음과 같이 나눠질 수 있다.

1. 단일 환자 접점(a single patient encounter): 학습자와 환자 간의 임상적 상호작용이 관찰되는 경우(: Mini-CEX 또는 DOP)

2. 다중 환자 접촉(multiple patient encounters): 리더십 또는 복잡성 관리에 초점을 맞춘 경우(: OCAT(Ottawa Clinic Assessment Tool))

3. 간접 환자 접점(an indirect patient encounter): 환자와 관련된 임상 활동에 초점을 맞추고 있지만, 환자 상호작용이 관찰되지 않는 경우(: 사례 기반 토론(CBD) 또는 환자인계 도구(HAT)

 

어떤 유형의 WBA를 사용하든, 개별 데이터 포인트는 고부담 의사결정에 적합하지 않다. 방어가능한 판단을뒷받침 하기 위해서는 서술적 데이터의 취합 및 해석이나, 의사결정을 위한 위원회가 필요할 수 있다.

 

9

WBA를 고부담 의사결정에 사용하는 경우에, 다양한 임상 현장에서, 다양한 WBA 도구, 다양한 평가자를 사용한 판단의 신뢰성 또는 재현성에 대한 논쟁이 있다. WBA의 타당도 분석에서 시간에 따른 성장 가능성(trainee의 성장과 발전)을 고려해야 한다. 그렇지 않으면 일반화가능도 분석에서 측정 오차의 원인이 된다. 또한 OSCE와 마찬가지로, WBA에서도 서로 다른 사이트의 데이터를 결합할 때 '연결성connectedness'을 간과하면 심각한 심리측정적 문제가 발생할 수 있다.

 

10

WBA의 과제 중 하나는, 평가자들이 underperformance를 지칭하는 정보를 제공하기를 꺼려하는 failure to fail 현상이다. 일반적으로 평가자는 WBA에서 피평가자의 수행능력이 불확실할 때, 이러한 의심을 핑계로 '통과pass'로 결정하는 경향이 있다. 훈련 초기에는 아직 개선할 시간이 있다고 여기기 때문에, 훈련 종반에는 학습자에게 연민을 느껴서 그렇게 판단하기도 한다.

 

11

WBA에 대한 권고사항은 다음과 같다.

• 복수의 WBA를 평가 시스템 또는 평가 시스템의 일부분으로 설계하며, WBA와 학습이 통합되도록 한다.

• 타당도 프레임워크의 준거를 따른다. 판단의 방어가능성을 뒷받침할 수 있는 타당성 증거를 확보해야 한다. 다음 단계의 훈련으로 진행하기 위한 판단일 수도 있고, 단일 기술의 숙달 여부에 대한 판단일 수도 있다.

WBA의 목적을 정의하고, 그 목적을 이해관계자들에게 명확하게 알린다.

WBA를 통합된, 응집력있는 평가 세트로 설계하여, 다수의 환자/평가자/도구 전반에 걸쳐 광범위하게 샘플링한다.

• 서술적 피드백을 활용한다.

• 채점 기준을 실제 임상 현장에서의 수행능력을 잘 반영하는 언어나 표현으로 설계한다.

WBA가 바람직한 학습 행동과 효과를 이끌어내도록 설계한다. 피드백에 초점을 맞추고, 학습의 프로세스를 강조한다.

WBA를 전체론적으로 해석하고 판단한다. 종단적, 장기적으로 활용(engagement)하여, 직무현장에서의 다수 관찰로부터 데이터를 해석한다.

WBA를 바탕으로 고부담 판단을 내릴 때에는 심리측정적 특성을 유의한다.

WBA에서 ‘failure to fail’이 일어나지 않도록 한다.

 

 

출처:

Boursicot, K., Kemp, S., Wilkinson, T., Findyartini, A., Canning, C., Cilliers, F., & Fuller, R. (2021). Performance assessment: Consensus statement and recommendations from the 2020 Ottawa Conference. Medical Teacher, 43(1), 58-67.