1

평가자기반평가(Rater-based assessments, RBA)는 평가자가 피험자의 수행을 직접 관찰하고 평가한다는점에서 역량의 단계 중 더 높은 단계를 확인할 수 있다는 장점이 있다. 반면, RBA는 일반적으로 심리측정상의psychometric 약점이 있다. 동일한 수행능력을 관찰하고도, 평정rating의 재생산가능성이나 평가자간 신뢰도가 낮은 문제가 발견된 바 있다.

 

2

평가자가 심리측정적 문제의 원인이라면, 가장 꾸준히 시도된 해결책은 평가자 훈련이다. 그러나 평가자 훈련으로 얻어진 개선은 미미한 수준이었으며, 일부 연구자들은 애초에 평가자라는 사람이 훈련으로 바뀌기는 하는 것인지에 대한 의구심을 드러냈다. "일부 평가자는 태생적으로 일관성이 있고, 어떤 평가자는 좀 덜 하다. 이 중 전자는 훈련으로 개선되지 않는다."

 

3

표준화된 평가 프레임워크도 RBA의 문제를 해결해주지 못했기에, 어떤 연구자들은 평가자의 사회적-인지적 프로세스social cognitive process에 관심을 두었다. 평가자는 능동적 정보 처리자active information processors’이며, 나름의 판단/추론/의사결정 전략으로 피평가자를 평가한다. 이러한 접근법은 사람은 사회적 상황에서 어떻게 타인에 대한 판단을 내리는지를 다루는 '인상형성(impression formation)' 연구와도 비슷하다. 인상상대방에 대한 사실적 정보, 추론, 평가적 반응evaluative reactions으로 구성되며, 상대와의 상호작용에 필요한 정보를 기존의 지식구조에 조직화하는 데 사용된다.

 

인상형성 연구에서 흥미로운 점은 실제로, 한 평가자가 다수의 피평가자에 대해서 가지는 인상()간의 유사성다수의 평가자가 하나의 피평가자에게 가지는 인상()간의 유사성보다 높다는 것이다. 비슷한 맥락에서, 성격특성personality trait을 평가할 때, 분산의 가장 큰 부분을 차지하는 것은 여러 피평가자ratee 간의 차이가 아니라, ‘피평가자와 평가자의 관계에 고유하게uniquely 담겨있는 차이이다

 

4

인상형성이란 흔히 카테고리화 작업으로 묘사되곤 하는데, 몇 가지 유형의 프로세스로 구분할 수 있다.

 

5

첫째, 독특하지만 유사한(idiosyncratic yet convergent) 인간모델(Person Model)에 기반한 인상형성이다. 이는 평가자의 판단이 독특idiosyncratic함을 인정하면서도, 무한정 그렇지는 않음을 의미한다. 평가에 다른 변수와 맥락적 요소가 작동함으로써 평가는 독특해질 수 있다. 예를 들어, 평가자가 피평가자를 보고 다른 중요한 어떤 사람을 떠올렸다거나, 근래에 다른 사람으로부터 피평가자에 대해 기억에 남는 어떤 말을 들었을 수 있다. 한편, 이러한 독특함에도 불구하고, 평가자는 사람을 크게 세 가지 대표적 스토리(인간모델)로 그룹지었다는 연구도 있다(세 가지 모델은 아래에 있다). 이러한 사실은, RBA에서 평가자 간 응집력과 일관성이 있으면서도, 동시에 평가자간 신뢰도가 낮은 이유를 설명할 수 있다.

 

Model 1 (67.6% of descriptions): 에너지 넘치고, 친화적이며, 다른 사람에게 말하기를 좋아하고, 많이 웃으며, 아이디어가 많고, 자기 표현을 잘 하는 사람.
Model 2 (15.5% of descriptions): 자신감이 없고, 긴장되어 보이며, 우유부단하며, 집중하지 못하고, 지나간 일에 자꾸 신경쓰는 사람.
Model 3 (16.9% of descriptions): 쉬지 않고 말하면서, 다른 사람에게는 말할 기회를 주지 않고, 무례하고, 타인을 신경쓰지 않으며, 자기중심적인 사람

6

둘째, 명목 카테고리화 과정nominal categorization process에 기반한 인상형성이다. 이것은 피평가자의 행동에 대해서 '즉석에서ad hoc' 네러티브를 구성하는 것이 아니라, '기존의 스키마'에 피평가자를 묶어내는 경향에 초점을 둔다. 기존 카테고리를 사용한다면 피평가자가 카테고리-일치 행동을 관찰할 때에는 인지적 리소스를 사용할 필요가 없고, 카테고리-불일치 행동만 관찰하면 된다는 장점이 있다. 또한 기존의 카테고리 구성원과 일치하는 디테일까지 예상(추론)할 수 있다.

 

사회적 카테고리화는 한 사람이 다양한 카테고리에 속할 수 있기 때문이 flexible한 측면이 있다. 예컨대, 아이를 안고 있는 남자는 마트에서는 아빠일 수 있지만, 병원에서는 간호사일 수 있다. 한편, 카테고리 활성화를 조절할 수 있는지에 대한 연구도 있는데, 의도적으로 카테고리적 사고를 억제하려는 시도는 오히려 카테고리화를 유발하여 더 안 좋은 영향을 미칠 수 있음을 보여준다. , 카테고리화를 극복하고자 하는 좋은 의도와 동기는 어쩌면 아예 불가능하거나, 적어도 결과를 향상시키지 못할 수 있다.

 

카테고리화가 RBA에 갖는 중요한 함의는 카테고리가 순위/간격 자료가 아니라 명목자료라는 사실에 있다. 왜냐하면 카테고리에는 본질적으로 위계도, 0점도, 카테고리 간 간격이 균일하지 않기 때문이다. 그러나 평가를 하려면 순위를 매기거나 숫자를 선택해야 한다(Behaviorally anchored scale, 리커트 척도 등). 그렇다면 평가자는 카테고리를 어떻게 scale로 변환하는걸까?

 

7

셋째, 다차원적 카테고리화에 기반한 인상형성이다. 두 개의 직교하는 차원에 대한 이분법적 판단으로 사람을 분류할 수 있는데, 이것이 인상형성의 분산variance에서 상당부분을 설명할 수 있다. 보통 하나의 차원은 사회적인 것이고 다른 하나의 차원은 개인의 성공 관한 것이다. 예를 들면 다음의 조합이 있다.

warmth/competence

communion/ agency

social/intellectual

other- profitability/self-profitability

morality/ competence

social desirability/ social utility.

 

흥미로운 점은, 두 개의 차원이 모두 연속성이 있는 것임에도, 사회적 판단을 내릴 때, 사람들은 이분법적으로 구분한다는 것이다. , 네 가지의 조합을 만들어서 그 중 하나로 카테고리화한다. (High warmth-High competence, High warmth-Low competence, Low warmth-High competence, Low warmth-Low competence). 

 

HW-HC: such as the middle class, invoke the emotions of pride and admiration and lead to behaviors of wanting to help and associate with them.

LW-HC: such as the stereotypically gluttonous rich, elicit envy and willingness to associate but also to attack under certain conditions.

HW-LC: including stereotypes for the elderly and disabled, elicit pity and willingness to help but also to avoid.

LW-LWC: including stereotypes for the homeless and drug-addicted, invoke the emotions of disgust and contempt and lead to behaviors of wanting to attack and to avoid.

 

이러한 분류는 진화론적 관점으로 설명하곤 한다예를 들면, ‘냉정하고 비도덕적 의도를 가진 사람’이 ‘의도를 달성할 능력’까지 갖추었다면, ‘비도덕적 의도를 가졌지만 실행할 능력이 없는 사람’보다 더 위험하게 인식된다는 것이다. 임상역량 평가 서식의 요인분석으로부터 두 개의 요인이 도출된 바 있는데, 하나는 지식이고, 다른 하나는 대인관계기술이다.이 때 사회적판단에서 '지식' '역량'에 해당하며, 대인관계기술은 '온정warmth'에 해당한다.

 

8

인상형성에 관하여, 앞서 말한 세 가지 카테고리화는 공통적으로 일반적인 기존 구성원에 정보를 새로운 구성원에게 적용하게 해준다. 이는 인지적 자원의 절약, 행동 방식에 대한 예측, 최적 상호작용 방식의 선택에 도움을 준다. 이러한 카테고리화의 함의는 다음과 같다.

 

첫째, 카테고리화는 무의식중에, 자연적으로 일어난다. 따라서 어떤 식으로든 이 프로세스를 통제하는 것은 매우 어렵고, 평가자 훈련을 통해서 카테고리화의 영향을 변화시키려는 직접적 노력도 마찬가지이다. 평가자들은 피평가자를 서로 다른 스케일에 두는 것이 아니라 서로 다른 명목 카테고리로 분류하는 것이다.

 

둘째, 의학교육에서 사용하는 대부분의 RBA는 표준화된 형식을 바탕으로, 사전에 정해진 수행능력 영역/역할/역량 등을 평가한다. 하지만 이론적으로 구성된 평가 영역내재적 인지프로세스가 만들어내는 카테고리화와 잘 부합하지 않을 수 있고, 모든 피평가자에게 적용되지 않을 수도 있다. , ‘평가자 에러rater error’는 우리가 사용하는 평가체계인간의 인지 프로세스와 잘 맞지 않아서 생기는 것일 수 있다. 만약 평가자는 명목적nominal 판단을 내리는데, 서식은 위계적ordinal/interval 평가를 요구한다면, 이것을 어떻게 변환할 것인가?

 

출처:

Gingerich, A., Regehr, G., & Eva, K. W. (2011). Rater-based assessments as social judgments: rethinking the etiology of rater errors. Academic Medicine, 86(10), S1-S7.

1

수행평가(Performance assessment)는 학업 또는 직무 상황에서의 기술과 행동에 관한 평가(the assessment of skills and behaviours, both in academic and workplace settings)로 정의하고자 한다.

 

2

2011년 이후 평가와 관련하여 다음과 같은 변화가 있었다.

첫째, 단순히 개별 도구에만 초점을 맞추는 것이 아니라 평가 시스템을 설계한다는 개념으로 변화하였다.

둘째, 평가의 타당성 기준의 측면에서 OSCE를 넘어 WBA에도 KaneValidity framework이 영향력을 주기 시작했다.

셋째, 평가자 인식(rater cognition)의 측면에서, 평가자 분산rater variance은 의미가 있으며, 평가자 간 차이점을 통제하기 보다는 수용해야 한다고 제안하고 있다.

넷째, 피드백은 이제 상호작용적 과정이자 학습을 위한 대화라고 보는 것이 일반적이다. 일방적인 피드백 제공에서 벗어나, 관계에 중점을 두게 되었으며, 피드백을 활용한 학습의 촉진을 강조한다.

 

3

OSCE는 시험 세팅에서 임상적 스킬 및 의사소통 스킬을 평가하기 위한 방법으로 자리잡았다. OSCE 기반의 평가에 대하여 크게 세 가지를 고려해볼 수 있다.

첫째, OSCE의 의도된 용도 또는 목적에 대한 설명이 명확해야 한다.

둘째, OSCE의 결과에 기초하여 이루어진 추론과 결정을 뒷받침하고 정당화할 수 있도록 의미 있는 증거를 수집해야 한다.

셋째, 이렇게 모든 타당성 증거를 취합하여, OSCE 점수에 기반한 의사결정을 정당화할 수 있어야 한다.

 

4

OSCE에 대한 권고사항은 다음과 같다.

OSCE가 평가 시스템의 한 부분으로서 설계되어야 한다.

• 타당성 프레임워크 기준을 준수하고 OSCE 점수 해석을 위한 증거를 수집해야 한다.

OSCE의 목적을 정의하고, 그 목적을 이해관계자들에게 명확하게 밝혀야 한다.

• 학습 목표/성과에 따라 블루프린팅하고, OSCE를 임상적 상호작용을 평가하는데 사용한다.

OSCE의 내용이 충분한 수의 스테이션과 테스트 시간을 통해 적절하게 샘플링되도록 한다.

• 임상적 과제(clinical task)와 임상적 사고방식(clinical thinking)맞추어 채점 방식을 설계한다. 채점 방식을 임상의의 언어(language of clinicians)에 맞게 조정한다.

• 준거-참조criterion referenced 방식으로 합격선을 설정한다 (Borderline Regression Method)

OSCE에서 신뢰도와 스테이션 수준의 이슈를 다루기 위한 metrics를 설계한다. OSCE MCQ와 같은 다른 평가 방법과는 다른 접근 방식을 요구하기 때문이다.

• 평가자 다양성의 가치를 인정한다. 판단을 표준화하기보다는 평가자의 수를 충분히 보장함으로써 평가자의 가변성을 수용한다.

• 과제 설계 및 서킷 설계를 통해 테스트 보안 문제를 관리한다.

(고부담) 의사 결정에 정보를 제공하기 위하여 OSCE 데이터를 다른 평가와 삼각측량한다

 

5

WBA와 관련한 첫 번째 이슈는 어떤 WBA 도구를 사용하는지이다. 하지만 타당성이 도구 자체의 특성이 아니라는 점을 고려한다면, 어떤 WBA 도구가 보이는 variation을 비교하기보다는, 어떻게 도구를 사용하는지가 더 중요하다. 좋은 평가 시스템의 기준에 주의를 기울이고, 여러 WBA를 평가 시스템으로 사용하여야 한다. 이는 종단적인 학습, 평가 도구의 세심한 조합, 수련 단계에 맞춘 조정으로 이어질 것이다.

 

6

두 번째 이슈는 WBA의 목적에 관한 것이다. 일군의 WBA를 시스템으로, 또는 평가 시스템의 일부분으로 설계해야 목적과 잘 정렬된 평가를 시행할 수 있다. 그리고 이 목적은 평가의 단계에 따라 형성적 목적, 총괄적 목적 등으로 달라질 것이다.

 

7

세 번째 이슈는 WBA의 영향에 관한 것이다. WBA trainee에게 여러 긍정적인 영향을 미치는데, 여기에는 슈퍼바이저와의 contact time 증가, 피드백의 빈도나 품질의 개선, 학습자의 agency나 소속감, 자존감에 긍정적인 학습 분위기 등이 중요하다. 하지만 WBA가 바람직하지 않은 학습 효과를 유발하기도 한다. 그저 하나의 tick-box 행위로 보거나, 관대한 평가자에게만 평가를 받으려고 하는 경우가 있다. 또한 평가자와의 권력 관계로 인하여, 좋은 인상을 남기고 약점을 감추기 위하여 '수행능력을 연기하는staging a performance’ 현상이 발견되기도 한다.

 

8

네 번째 이슈는 WBA에 기반한 평가/진급 결정에 대한 것이다. 다양한 WBA 도구는 평가 맥락에 따라 다음과 같이 나눠질 수 있다.

1. 단일 환자 접점(a single patient encounter): 학습자와 환자 간의 임상적 상호작용이 관찰되는 경우(: Mini-CEX 또는 DOP)

2. 다중 환자 접촉(multiple patient encounters): 리더십 또는 복잡성 관리에 초점을 맞춘 경우(: OCAT(Ottawa Clinic Assessment Tool))

3. 간접 환자 접점(an indirect patient encounter): 환자와 관련된 임상 활동에 초점을 맞추고 있지만, 환자 상호작용이 관찰되지 않는 경우(: 사례 기반 토론(CBD) 또는 환자인계 도구(HAT)

 

어떤 유형의 WBA를 사용하든, 개별 데이터 포인트는 고부담 의사결정에 적합하지 않다. 방어가능한 판단을뒷받침 하기 위해서는 서술적 데이터의 취합 및 해석이나, 의사결정을 위한 위원회가 필요할 수 있다.

 

9

WBA를 고부담 의사결정에 사용하는 경우에, 다양한 임상 현장에서, 다양한 WBA 도구, 다양한 평가자를 사용한 판단의 신뢰성 또는 재현성에 대한 논쟁이 있다. WBA의 타당도 분석에서 시간에 따른 성장 가능성(trainee의 성장과 발전)을 고려해야 한다. 그렇지 않으면 일반화가능도 분석에서 측정 오차의 원인이 된다. 또한 OSCE와 마찬가지로, WBA에서도 서로 다른 사이트의 데이터를 결합할 때 '연결성connectedness'을 간과하면 심각한 심리측정적 문제가 발생할 수 있다.

 

10

WBA의 과제 중 하나는, 평가자들이 underperformance를 지칭하는 정보를 제공하기를 꺼려하는 failure to fail 현상이다. 일반적으로 평가자는 WBA에서 피평가자의 수행능력이 불확실할 때, 이러한 의심을 핑계로 '통과pass'로 결정하는 경향이 있다. 훈련 초기에는 아직 개선할 시간이 있다고 여기기 때문에, 훈련 종반에는 학습자에게 연민을 느껴서 그렇게 판단하기도 한다.

 

11

WBA에 대한 권고사항은 다음과 같다.

• 복수의 WBA를 평가 시스템 또는 평가 시스템의 일부분으로 설계하며, WBA와 학습이 통합되도록 한다.

• 타당도 프레임워크의 준거를 따른다. 판단의 방어가능성을 뒷받침할 수 있는 타당성 증거를 확보해야 한다. 다음 단계의 훈련으로 진행하기 위한 판단일 수도 있고, 단일 기술의 숙달 여부에 대한 판단일 수도 있다.

WBA의 목적을 정의하고, 그 목적을 이해관계자들에게 명확하게 알린다.

WBA를 통합된, 응집력있는 평가 세트로 설계하여, 다수의 환자/평가자/도구 전반에 걸쳐 광범위하게 샘플링한다.

• 서술적 피드백을 활용한다.

• 채점 기준을 실제 임상 현장에서의 수행능력을 잘 반영하는 언어나 표현으로 설계한다.

WBA가 바람직한 학습 행동과 효과를 이끌어내도록 설계한다. 피드백에 초점을 맞추고, 학습의 프로세스를 강조한다.

WBA를 전체론적으로 해석하고 판단한다. 종단적, 장기적으로 활용(engagement)하여, 직무현장에서의 다수 관찰로부터 데이터를 해석한다.

WBA를 바탕으로 고부담 판단을 내릴 때에는 심리측정적 특성을 유의한다.

WBA에서 ‘failure to fail’이 일어나지 않도록 한다.

 

 

출처:

Boursicot, K., Kemp, S., Wilkinson, T., Findyartini, A., Canning, C., Cilliers, F., & Fuller, R. (2021). Performance assessment: Consensus statement and recommendations from the 2020 Ottawa Conference. Medical Teacher, 43(1), 58-67.

1

의학교육은 지난 30년 동안 '측정 가능한 것'을 평가하는 것에서, '중요한 것'을 평가하려는 방향으로 많은 노력을 기울여왔다. 피상적인 [지식의 테스트]에서 [이해, 구성, 해석 테스트]로 바뀌어왔고, Bloom의 분류법과 같이 기술과 태도과 지식만큼 중요하다는 인식을 얻었으며, 심리측정학적으로 평가자 주관성과 사례 특수성을 알게 되었다.

 

2

하지만 이러한 발전이 [평가를 해체deconstructed]했으며, 일부는 결과적으로 [학습이 해체]되었다는 주장도 있다. 평가할 행동을 하위 구성 요소로 나누거나, 이렇게 나눠진 하위 구성 요소를 샘플링하는 것은 학습자들이 [큰 그림]에 덜 집중하고 ['역량'을 뒷받침하는 (세부)요소]에 집중하게 강제mandated했다는 지적이다.

 

3

반면, 역량 운동competency movement에는 완전히 대조적인 것도 있었다. 실제 업무의 문제를 해결하려면 역량의 모든 요소들이 통합되어야 한다는 것이다. Miller의 피라미드는 이를 잘 보여준다. [지식][이해]에 필요하지만 충분하지 않으며, [이해][능력(또는 역량)]에 필요하지만 충분하지 않고, [능력][실제 일상적 업무성과]에 필요하지만 충분하지 않다.

 

4

피라미드의 상위 수준으로 갈 수록, 평가자는 동일한 내용을 관찰하고도, 응답 척도에 대해서는 다르게 해석할 수 있다. 그래서 흔히 평가자를 훈련하고, 차이를 논의하는 보정 단계를 사용한다. 하지만 비록 평가자마다 척도를 해석하는 방식이 달라도, 수행능력에는 동의할 수 있다. 그렇다면 work-based assessment(WBA)는 어떻게 개선해야 좋을까?

 

5

평가 척도(Scale)의 관점에서, 척도를 임상 평가자의 우선순위에 맞춰 조정하는 것 만으로도 평가자의 변별력은 더 개선될 수 있으며, 평가자 간 불일치는 줄일 수 있다. , 불만족-만족-우수 같은 척도나, 기대 이하-기대 이상과 같은 척도보다, 위임가능성(감독하에서도 수행불가 감독하에서 수행가능 최소한의 감독으로 수행가능 감독 없이 수행가능) 기준의 척도가 더 낫다.

 

6

이는 평가자의 인지 구조를 반영한 척도라 볼 수 있다. 평가 양식(rating form)을 개선하려는 노력보다, 어떻게 하면 평가자의 인지적 스키마를 이해하고, 적절히 활용할 수 있을지를 고민해야 한다. 핵심은, 평가자의 현실 지도reality map에 응답 척도(response scale)을 맞추는align 것이다. 그러려면 척도의 앵커anchor로 사용되는 문구가 그 자체로 평가자의 경험에 공명resonate해야 한다. ‘기대 수준임’, ‘만족스러움과 같은 추상적인 문구는 그러지 못한다.

 

7

평가자에게 객관적인 관찰보다 판단을 요구하는 편이 낫다. 하지만 지난 수십 년 동안, 주관성에 대한 우려로 인해 [평가자 간 일치도]를 높이기 위해, 평가도구는 [프로세스 수준]에 초점을 뒀다. 예를 들면, 악수하기, 눈맞춤 하기 등이다. 그리고 수행능력performance 점수는 개별 프로세스 항목 점수를 합산하였다. 하지만 수행능력이란 단순히 부분의 합보다 크다.

 

8

이처럼 [수행능력performance이 부분parts의 합sum보다 더 복잡]하고, [적절한 경험이 있는 관찰자][좋은 수행능력이란 무엇인지에 동의할 수 있다], 직관에 반하는 결론을 내릴 수 있다. [실제로 무슨 일이 발생했는지에 대한 객관적인 응답]보다 [성과 수준의 수행능력에 대한 주관적인 판단]이 평가자 간 일치와 피평가자 간 수행능력 변별에 더 유리할 수 있다.

 

9

즉, 어떤 과제를 잘 수행했는지를 평가하고자 [하위 구성요소의 무수한 세부사항]을 긁어모으는 것은 [뒤로 물러서서 전체를 고려하는 것]보다 더 나은 그림을 보여주지 못한다. 이는 도구적 인상주의instrumental impressionism이라 할 수 있다. 전반적global 판단을 내리면서도, 동시에 세부사항을 인식하는 것이다. 적절한 경험이 있고 교육을 받은 평가자라면, 행동을 맥락 속에서, 서로 조합하여 해석한다. 그 결과, [단순한 행동의 총합을 측정]하기보다는 [행동의 기저에 있는 비교적 안정적인 속성]을 판단할 수 있을 것이다.

 

10

그렇다면 평가도구는 어떠해야 할까? 흥미롭게도 대부분의 WBA 평가도구는 매우 광범위한 맥락에서 사용되게 만들었으면서, 거의 동일한 수행능력 영역에 대해 묻고 있다. 하지만 평가도구를 설계할 때 어떤 이유로 [모든 컨텍스트]에서 [모든 도메인]을 잘 평가할 수 있다고 간주했는지는 명확하지 않다. 과연 [모든 컨텍스트][모든 도메인]에 대해서 타당하고 신뢰할 수 있는 데이터를 제공할 수 있는가?

 

11

평가 결과의 신뢰도는 [어떤 도메인에서 어떤 도구를 사용하느냐]에 따라서 달라진다. 이는 특정한 수행능력 도메인은 특정한 상황이나 활동에서 더 잘 입증demonstrated되기 때문이다. 특정한 도메인이 더 효과적으로 샘플링되는 맥락이 존재한다. 따라서 특정 수행능력 도메인에 대해서도, 평가자는 그 도메인을 명확히 보여줄 수 있는 상황이나 활동으로부터 더 신뢰도와 타당도가 높은 판단을 내릴 수 있을 것이다.

 

12

그렇다면 모든 평가자는 동등한가? 우선 평가자 개인 간 차이varation도 있지만, 어떤 그룹에 속해있느냐에 따라서도 관점이 달라진다. , 서로 다른 평가자 집단은 서로 다른 관점을 제공한다. 따라서 단일한 그룹에서 여러 명이 동료평가를 하는 것에 비해서, 서로 다른 그룹에서 Multi-source feedback을 하는 것은 단순히 평가자의 숫자 외에도 추가적인 가치add value가 있다.

 

13

또한 누구의 관점이 가장 타당한지를 생각해보아야 한다. 평가할 수 있는 능력이라는 관점에서는 상당히 자명하다. 예를 들어, 일반 사무직이나 환자가 의사의 임상적 판단의 적절성을 평가하는 것은 거의 불가능할 것이다. 하지만 이에 더하여 평가자가 평가대상의 수행능력을 정기적으로 관찰할 수 있는지도 중요하다. 예를 들어, 수술방 간호사는 의사가 병동에서 어떻게 하는지는 거의 못 보았을 수 있다. , 하나의 평가방법으로 모든 임상 역량을 평가할 수 없는 것처럼, 하나의 전문직 집단도 모든 임상 역량을 평가할 수 없다. 종합하자면, [수행능력에 대한 판단 능력]이 있는 사람이, 수행능력을 [관찰할 기회]가 있을 때 보다 신뢰할 수 있는 평가 결과를 내놓을 것이다.

 

14

복잡한 역량에 대한 평가는 '판단의 문제'이다. 따라서 [올바른 질문], [올바른 방식]으로, [올바른 것]에 대해, [올바른 사람]에게 해야만이 효과적이다.

 

출처:

Crossley, J., & Jolly, B. (2012). Making sense of work‐based assessment: ask the right questions, in the right way, about the right things, of the right people. Medical education, 46(1), 28-37.

+ Recent posts