잘 가르치게 돕습니다.

밀러의 피라미드에서 제일 윗 층(Does level)의 평가

Meded. 2022. 1. 9. 07:43

1

밀러의 피라미드에서 마지막 한 층(Does)의 평가를 보자. 'Does' 수준의 평가는 본질적으로 전문가가 정보에 의존하여 성과를 판단하는 방식이다. 이 때 전문가란, 동기 및 선후배, 동료직원, 상급자, 교수자 등을 비롯하여 피평가자의 업무 또는 교육성과에 대해 잘 아는 사람을 광범위하게 포함하는 단어로 해석해야 한다.

 

2

Does 평가의 자극 형식은 실제적 맥락Authentic context이며, 비표준화, 비구조화 되어있다. Does 평가의 응답 형식은 다소 일반적generic이며, 특정한 맥락에 따라 재단tailored되어있지 않다. 예를 들어 CanMEDSCollaborator Communicator 역량이 있다. 이런 역량이 어느 정도 generic할지 몰라도, 평가를 할 때는 맥락-특이적이 된다. Generic skill을 평가하는 것은 필수적이지만, 정의하기 어렵다는 문제도 있다.

 

결국 이러한 영역-독립적(domain-independent) 역량을 평가하려면, 전문가 판단에 의존할 수 밖에 없다. , Does 수준에서 효과적인 평가의 핵심은 전문가의 판단expert judgement이며, 내용특이성의 문제를 해결하려면 표본 추출이 중요하다. 합산 정보aggregate information가 개별 평가의 주관성을 극복하기 위해서는 두 가지가 필요한데, 다양한 교육적/임상적 맥락에 걸친 표본추출과 다양한 평가자로부터의 표본추출이다.

 

그렇다면 Does 수준의 평가에서 고려해야 할 것은 무엇일까?

 

3

신뢰할 수 있는 추론을 위해서는 일정 수의 표본이 필요하다(A feasible sample is required to achieve reliable inferences): 현실적으로 가능한 표본수(very feasible sample)로도 신뢰할 수 있는 추론이 가능하며, 대체로 어떤 평가도구를 사용하든, 무엇을 측정하든 8 ~ 10 사이의 어딘가에 있는 듯 하다. 이는 신뢰도는 평가의 표준화나 구조화의 문제가 아니라, 표본 추출의 문제임을 다시 한번 확인시켜준다.

 

4

편견은 전문가 판단의 본질적인 특성이다 (Bias is an inherent characteristic of expert judgement): 평가 점수의 인플레이션이 생기기도 하고, 평가자가 어떤 배경을 가지고 있는지에 따라서도 영향을 받는다. 평가자가 학습자와의 관계를 지나치게 신경쓰거나, 귀찮은 일을 피하려고 할 때에도 편향이 생긴다.

 

평가자의 역할이 무엇인지 다시 한 번 생각해봐야 한다. 평가자의 임무는 학습자가 훌륭한 의사인지 판단하는 것이 아니다. 특정 사건에서 어떤 일이 발생했는지 판단하고, 학습자의 수행능력 향상에 도움이 되는 피드백을 주고, 차후에 유의미한 검토에 사용될 수 있도록 적절히 문서화하는 것이다. 고부담 의사결정은 여러 방법으로부터, 여러 출처의 평가를 기반으로 내려져야 견고robust해지기 때문이다.

 

같은 맥락에서 자기평가를 생각해볼 수 있다. 연구에서 명백하게 확인되는 것은 우리는 (과대평가든, 과소평가든) 자기평가를 매우 못한다는 것이다. 샘플링 관점에서 볼 때 이것은 전혀 놀랍지 않다. 자기평가의 N1이기 때문이다. 다른 평가도 N1이라면 자기평가보다 딱히 낫지는 않을 것이다. 문제는, 다른 평가와 달리, 자기평가에서는 표본 크기를 늘릴 수 없다는 것이다. , 자기평가는 결코 독자적으로 의미를 지닐 수 없으며, 반드시 다른 정보와 삼각검증triangulation 되어야한다.

 

5

타당도는 어떤 도구를 사용하느냐보다, 누가 사용하느냐에 달려있다 (Validity resides more in the users of the instruments than in the instruments that are used): 밀러의 피라미드의 아래 단계에서는 평가도구를 더 날카롭게(sharpen)하는 것이 가능하지만, Does 수준에서 평가의 퀄리티는 딱 평가자의 퀄리티 만큼만 우수하다. 지저분한 현실세계를 표준화/구조화/객관화를 통해 통제하려는 것은 답이 되지 못한다. 이는 평가의 질을 떨어뜨릴 뿐만 아니라, 평가를 경시하게 만든다trivialize. 더 바람직한 전략은 평가도구가 아니라 평가자를 더 날카롭게 하는 것이다. 평가에 필요한 기술, 피드백을 주고 받는 기술은 의사-환자 사이에 필요한 기술과 유사한데, 그럼에도 불구하고 모든 교수자가 이걸 갖추고 있지는 않다. 이런 기술은 육성되어야 하며, 육성될 수 있다.

 

6

평가는 일반적으로 형성적 기능과 총괄적 기능을 모두 갖는다(Formative and summative functions are typically combined): 학습자가 평가에서 학습적 가치를 얻지 못하는 한, 평가는 사소한 것 취급된다(trivialize). 예를 들어, 포트폴리오에 포함되는 성찰글쓰기의 목적이 평가자의 기분 맞추기가 되면, 포트폴리오는 의미를 상실한다. 평가의 유용성utility을 확보하려면, 학습을 유도할 수 있어야 하며, 궁극적으로 학습에 필수불가결한 것으로 여겨져야 한다. 평가가 효과적이려면, 피드백이나 학습환경과 같은 조건이 갖춰져야 하며, 이 중 피드백에는 특히 사회적 상호작용(코칭/멘토링/토론)이 중요하다.

 

7

질적, 서사적 정보가 중요하다 (Qualitative, narrative information carries a lot of weight): 평가의 중심에 피드백이 있고, 효과적인 피드백에 사회적 상호작용이 중요하다면, 숫자와 정량 정보는 한계가 명확하다. 의사소통에서 5점 중 2점을 받았다는 것 만으로는, 학습자에 대해 우려를 자아냄에도, 실제로 무엇을 했는지, 개선을 위해서는 무엇을 해야 하는지를 알려주지 않는다. 점수는 그 자체만으로는 저질의poor 피드백일 뿐이며, 학습자에게 거의 영향을 미치지 못한다. 언어를 활용하여 평가를 더 풍부하게 해야 한다. 질적으로 풍부한 정보가 뒷받침되어야 형성평가가 효과적으로 기능한다. 따라서 모든 평가도구에 정성 정보를 포함시킬 수 있는지 확인하고(: 주관식 코멘트 기입 공간), 평가자가 이러한 정보를 정기적으로 제공하고 문서화하도록 유도해야 한다.

 

8

총괄적 결정이 질적 연구 절차로 더욱 견고해질 수 있다(Summative decisions can be rigorous with non-psychometric qualitative research procedures): 우리는 일반적으로 무언가를 정량화한다. 그리고 계산하고, 평균을 내고, 학점을 준다. 하지만 이것 만으로 충분한 경우는 거의 없다. 견고함(rigour)trustworthiness 전략에 달려있다. internal validitycredibility, external validitytransferability, reliabilitydependability, objectivityconformability로 대체하는 것이다. 다음과 같은 전략이 가능하다. 다만 합격선 결정과 마찬가지로 ‘gold standard’란 존재하지 않으며, 모든 기준standard과 그에 따른 결정에는 일정정도의 추상성이 존재한다. 결국 얼마나 기준을 신뢰할 수 있느냐credible, 얼마나 절차에 충실했느냐에 달려있다. Trustrowthiness를 높이기 위한 전략으로는 아래와 같은 것들이 있다. 

 

To achieve rigour in the judgement of a learner’s portfolio in a work-based setting, it is wise to have a committee judge the portfolio (structural coherence and peer examination).

The committee receives input froma mentor who is familiar with the learner and his or her portfolio (prolonged engagement).

Depending on how much one wants to protect the learner–mentor relationship this input may be limited, for example, to a declaration of the mentor that the portfolio provides authentic evidence of the learner’s progress.

The committee uses predefined criteria to make their judgement more transparent, for example, in the form of rubrics describing decision categories (audit).

The committee deliberates and justifies its decisions in a written motivation (audit).

If the decision is difficult to make, the committee deliberates more and justifies more and perhaps even invites additional committee members or consults relevant parties (triangulation).

In preparing the portfolio for submission, the learner is aware of the criteria and will have had feedback on earlier drafts of the portfolio with some form of social interaction (i.e., with peers or a mentor) so that the committee’s judgement will only rarely come as a complete surprise to the learner (and mentor) (member checking).

Both learner and mentor are trained for their tasks; committee members are (re)trained (periodically) and use benchmark portfolios to calibrate their decision making (prolonged engagement and member checking).

Committee decisions are documented (audit), and appeal procedures for learners are in place (audit).

The more procedures and measures, the more trustworthy the resulting decision will be.

 

9

Does 수준에서는 평가는 전문가의 판단에 의존하게 된다. 그리고 이처럼 평가가 전문가의 판단에 의존할 경우, 개별 평가자의 독특하고 고유한 판단이 중요해진다. 평가자마다 각자 구성한 실제constructed realities가 다르며, 이는 서로 일치하지 않을 수 있다. 그렇다고 이것이 도움이 되지 않는 것은 아니다. 오히려 학습자가 서로 다른 여러가지 관점에 노출되는 것은 고도로 relevant하며, beneficial 할 수 있다. 따라서 합산 의사 결정aggregate decision making을 가이드하기 위하여 삼각측량과 정보포화가 필요하다. 새로운 정보를 찾을 가능성이 매우 낮아졌을 때, 포화가 달성되었다고 볼 수 있고, 이는 추가적인 근거의 수집 노력의 중단을 정당화해줄 것이다.

 

 

 

출처: 

Van der Vleuten, C. P. M., Schuwirth, L. W. T., Scheele, F., Driessen, E. W., & Hodges, B. (2010). The assessment of professional competence: building blocks for theory development. Best practice & research Clinical obstetrics & gynaecology, 24(6), 703-719.