논문을 읽고 씁니다.

평가자 오차(Rater Errors)는 왜 생기는가?

Meded. 2022. 2. 20. 07:02

1

평가자기반평가(Rater-based assessments, RBA)는 평가자가 피험자의 수행을 직접 관찰하고 평가한다는점에서 역량의 단계 중 더 높은 단계를 확인할 수 있다는 장점이 있다. 반면, RBA는 일반적으로 심리측정상의psychometric 약점이 있다. 동일한 수행능력을 관찰하고도, 평정rating의 재생산가능성이나 평가자간 신뢰도가 낮은 문제가 발견된 바 있다.

 

2

평가자가 심리측정적 문제의 원인이라면, 가장 꾸준히 시도된 해결책은 평가자 훈련이다. 그러나 평가자 훈련으로 얻어진 개선은 미미한 수준이었으며, 일부 연구자들은 애초에 평가자라는 사람이 훈련으로 바뀌기는 하는 것인지에 대한 의구심을 드러냈다. "일부 평가자는 태생적으로 일관성이 있고, 어떤 평가자는 좀 덜 하다. 이 중 전자는 훈련으로 개선되지 않는다."

 

3

표준화된 평가 프레임워크도 RBA의 문제를 해결해주지 못했기에, 어떤 연구자들은 평가자의 사회적-인지적 프로세스social cognitive process에 관심을 두었다. 평가자는 능동적 정보 처리자active information processors’이며, 나름의 판단/추론/의사결정 전략으로 피평가자를 평가한다. 이러한 접근법은 사람은 사회적 상황에서 어떻게 타인에 대한 판단을 내리는지를 다루는 '인상형성(impression formation)' 연구와도 비슷하다. 인상상대방에 대한 사실적 정보, 추론, 평가적 반응evaluative reactions으로 구성되며, 상대와의 상호작용에 필요한 정보를 기존의 지식구조에 조직화하는 데 사용된다.

 

인상형성 연구에서 흥미로운 점은 실제로, 한 평가자가 다수의 피평가자에 대해서 가지는 인상()간의 유사성다수의 평가자가 하나의 피평가자에게 가지는 인상()간의 유사성보다 높다는 것이다. 비슷한 맥락에서, 성격특성personality trait을 평가할 때, 분산의 가장 큰 부분을 차지하는 것은 여러 피평가자ratee 간의 차이가 아니라, ‘피평가자와 평가자의 관계에 고유하게uniquely 담겨있는 차이이다

 

4

인상형성이란 흔히 카테고리화 작업으로 묘사되곤 하는데, 몇 가지 유형의 프로세스로 구분할 수 있다.

 

5

첫째, 독특하지만 유사한(idiosyncratic yet convergent) 인간모델(Person Model)에 기반한 인상형성이다. 이는 평가자의 판단이 독특idiosyncratic함을 인정하면서도, 무한정 그렇지는 않음을 의미한다. 평가에 다른 변수와 맥락적 요소가 작동함으로써 평가는 독특해질 수 있다. 예를 들어, 평가자가 피평가자를 보고 다른 중요한 어떤 사람을 떠올렸다거나, 근래에 다른 사람으로부터 피평가자에 대해 기억에 남는 어떤 말을 들었을 수 있다. 한편, 이러한 독특함에도 불구하고, 평가자는 사람을 크게 세 가지 대표적 스토리(인간모델)로 그룹지었다는 연구도 있다(세 가지 모델은 아래에 있다). 이러한 사실은, RBA에서 평가자 간 응집력과 일관성이 있으면서도, 동시에 평가자간 신뢰도가 낮은 이유를 설명할 수 있다.

 

Model 1 (67.6% of descriptions): 에너지 넘치고, 친화적이며, 다른 사람에게 말하기를 좋아하고, 많이 웃으며, 아이디어가 많고, 자기 표현을 잘 하는 사람.
Model 2 (15.5% of descriptions): 자신감이 없고, 긴장되어 보이며, 우유부단하며, 집중하지 못하고, 지나간 일에 자꾸 신경쓰는 사람.
Model 3 (16.9% of descriptions): 쉬지 않고 말하면서, 다른 사람에게는 말할 기회를 주지 않고, 무례하고, 타인을 신경쓰지 않으며, 자기중심적인 사람

6

둘째, 명목 카테고리화 과정nominal categorization process에 기반한 인상형성이다. 이것은 피평가자의 행동에 대해서 '즉석에서ad hoc' 네러티브를 구성하는 것이 아니라, '기존의 스키마'에 피평가자를 묶어내는 경향에 초점을 둔다. 기존 카테고리를 사용한다면 피평가자가 카테고리-일치 행동을 관찰할 때에는 인지적 리소스를 사용할 필요가 없고, 카테고리-불일치 행동만 관찰하면 된다는 장점이 있다. 또한 기존의 카테고리 구성원과 일치하는 디테일까지 예상(추론)할 수 있다.

 

사회적 카테고리화는 한 사람이 다양한 카테고리에 속할 수 있기 때문이 flexible한 측면이 있다. 예컨대, 아이를 안고 있는 남자는 마트에서는 아빠일 수 있지만, 병원에서는 간호사일 수 있다. 한편, 카테고리 활성화를 조절할 수 있는지에 대한 연구도 있는데, 의도적으로 카테고리적 사고를 억제하려는 시도는 오히려 카테고리화를 유발하여 더 안 좋은 영향을 미칠 수 있음을 보여준다. , 카테고리화를 극복하고자 하는 좋은 의도와 동기는 어쩌면 아예 불가능하거나, 적어도 결과를 향상시키지 못할 수 있다.

 

카테고리화가 RBA에 갖는 중요한 함의는 카테고리가 순위/간격 자료가 아니라 명목자료라는 사실에 있다. 왜냐하면 카테고리에는 본질적으로 위계도, 0점도, 카테고리 간 간격이 균일하지 않기 때문이다. 그러나 평가를 하려면 순위를 매기거나 숫자를 선택해야 한다(Behaviorally anchored scale, 리커트 척도 등). 그렇다면 평가자는 카테고리를 어떻게 scale로 변환하는걸까?

 

7

셋째, 다차원적 카테고리화에 기반한 인상형성이다. 두 개의 직교하는 차원에 대한 이분법적 판단으로 사람을 분류할 수 있는데, 이것이 인상형성의 분산variance에서 상당부분을 설명할 수 있다. 보통 하나의 차원은 사회적인 것이고 다른 하나의 차원은 개인의 성공 관한 것이다. 예를 들면 다음의 조합이 있다.

warmth/competence

communion/ agency

social/intellectual

other- profitability/self-profitability

morality/ competence

social desirability/ social utility.

 

흥미로운 점은, 두 개의 차원이 모두 연속성이 있는 것임에도, 사회적 판단을 내릴 때, 사람들은 이분법적으로 구분한다는 것이다. , 네 가지의 조합을 만들어서 그 중 하나로 카테고리화한다. (High warmth-High competence, High warmth-Low competence, Low warmth-High competence, Low warmth-Low competence). 

 

HW-HC: such as the middle class, invoke the emotions of pride and admiration and lead to behaviors of wanting to help and associate with them.

LW-HC: such as the stereotypically gluttonous rich, elicit envy and willingness to associate but also to attack under certain conditions.

HW-LC: including stereotypes for the elderly and disabled, elicit pity and willingness to help but also to avoid.

LW-LWC: including stereotypes for the homeless and drug-addicted, invoke the emotions of disgust and contempt and lead to behaviors of wanting to attack and to avoid.

 

이러한 분류는 진화론적 관점으로 설명하곤 한다예를 들면, ‘냉정하고 비도덕적 의도를 가진 사람’이 ‘의도를 달성할 능력’까지 갖추었다면, ‘비도덕적 의도를 가졌지만 실행할 능력이 없는 사람’보다 더 위험하게 인식된다는 것이다. 임상역량 평가 서식의 요인분석으로부터 두 개의 요인이 도출된 바 있는데, 하나는 지식이고, 다른 하나는 대인관계기술이다.이 때 사회적판단에서 '지식' '역량'에 해당하며, 대인관계기술은 '온정warmth'에 해당한다.

 

8

인상형성에 관하여, 앞서 말한 세 가지 카테고리화는 공통적으로 일반적인 기존 구성원에 정보를 새로운 구성원에게 적용하게 해준다. 이는 인지적 자원의 절약, 행동 방식에 대한 예측, 최적 상호작용 방식의 선택에 도움을 준다. 이러한 카테고리화의 함의는 다음과 같다.

 

첫째, 카테고리화는 무의식중에, 자연적으로 일어난다. 따라서 어떤 식으로든 이 프로세스를 통제하는 것은 매우 어렵고, 평가자 훈련을 통해서 카테고리화의 영향을 변화시키려는 직접적 노력도 마찬가지이다. 평가자들은 피평가자를 서로 다른 스케일에 두는 것이 아니라 서로 다른 명목 카테고리로 분류하는 것이다.

 

둘째, 의학교육에서 사용하는 대부분의 RBA는 표준화된 형식을 바탕으로, 사전에 정해진 수행능력 영역/역할/역량 등을 평가한다. 하지만 이론적으로 구성된 평가 영역내재적 인지프로세스가 만들어내는 카테고리화와 잘 부합하지 않을 수 있고, 모든 피평가자에게 적용되지 않을 수도 있다. , ‘평가자 에러rater error’는 우리가 사용하는 평가체계인간의 인지 프로세스와 잘 맞지 않아서 생기는 것일 수 있다. 만약 평가자는 명목적nominal 판단을 내리는데, 서식은 위계적ordinal/interval 평가를 요구한다면, 이것을 어떻게 변환할 것인가?

 

출처:

Gingerich, A., Regehr, G., & Eva, K. W. (2011). Rater-based assessments as social judgments: rethinking the etiology of rater errors. Academic Medicine, 86(10), S1-S7.