1
CBME가 세계를 정복할 기세지만, 이 개념에 완벽히 부합하는 평가 프로세스를 개발하는 것은 결코 쉽지 않다.
2
해체 또는 환원주의가 고부담 시험에서 역량을 확인하는 유일한 방법이 아니다(Deconstruction/reductionism is not the only way to capture competence in high-stakes assessment): 일단 분해한 요소를 다시 조립하면 원래 평가하려했던 '역량'이 되리라 가정하지만, 늘 그럴까? 만약 자전거를 분해하고 적절히 재조립한다면 결과는 다시 자전거가 되겠지만, 개구리는 그렇지 않다.
그렇다면 역량을 분해하지 않고 평가할 수 있을까? WHO에서 건강을 “단순히 질병이나 질병이 없는 것이 아니라, 완전한 신체적, 정신적, 사회적 웰빙”이라고 했지만, 이는 건강을 어떻게 진단(또는 assess)할지를 이해하는데는 도움이 되지 않는다. 그보다는 건강이라는 개념을 global phenomenon인 게스탈트로 간주할 수 있으며, 역량도 마찬가지이다. 평가 모먼트와 결정 모먼트를 서로 단절시킬 필요가 있다. 정보를 지속적으로, 목적에 따라 수집하다가, 정보가 충분히 풍부할 때만 결정 모먼트를 가지면 된다. 이 순간이 올 때까지 데이터의 풍부함이 유지되어야 한다. 마치 진료가 이뤄지는 기간 동안 모든 진단 정보가 누적되는 환자 차트와 유사하다.
본질적으로 우월하거나 열등한 평가 도구는 없다. 모든 도구는 강점, 약점, 적응증, 부작용이 있다. 또한 모든 도구는 특정 목적에 대해서만 타당하거나 타당하지 않으며, 도구 자체로 타당하거나 타당하지 않은 것이 아니다. 따라서 설령 평가도구의 퀄리티가 높더라도 무작위적으로 조합하는 것은 좋은 평가 프로그램이 될 수 없다. 좋은 평가 프로그램은 의도를 가지고 만들어진 도구의 조합이 되어야 하며, 각 도구는 최적의optimal 퀄리티를 갖추면 된다.
3
평가 결과를 서로 합할 때 내용이 비슷한 것끼리 합해야지, 형식이 비슷한 것끼리 합해서는 안된다. (When combining the results of assessment elements content-similar combinations are more helpfull than format-similar ones): 우리는 나트륨 수치와 포도당 수치가 모두 lab results라는 이유로 둘을 더하는 것을 결코 상상도 못할 것이다. 하지만 학생을 평가할 때는 유사한 행위를 반복하고 있다. 이것이 함의하는 것은 모든 평가 요소가 유의미한 것으로 취급되어야 한다는 것이다. 예를 들어, 흔히 시험에서 특정 문항이 통계적으로 아주 안 좋을 경우, 문항이 비록 sound하고 내용과 워딩이 적절해도 그 문항을 제거할지에 대한 딜레마를 겪는다. 문항 통계는 총점에 대한 power를 보여줄 것이며, 문항 내용은 내적인 의미를 보여줄 것이다.
4
숫자가 곧바로 실세계로 연결되지 않는다.(Manipulating numbers does not automatically mean manipulating the real world): 술취한 사람이 전등 밑에서 열쇠를 찾는 것처럼 통계를 사용할 때가 있다. 조명illumination이 아니라 지지support 목적으로 쓰는 것이다. 그러나 숫자든 문자든 그 자체만으로는 충분하지 않다. 숫자는 혹자의 생각처럼 완전히 객관적이거나 완전히 모호성이 없지 않다. 만약 그렇다면, 정량 연구에 고찰 섹션이 왜 필요하겠는가?
Number manipulation이 발생하는 문제도 있다. 만약 A~E 다섯 명의 평가자 중, E만 자꾸 다른 평가자와 다른 결과를 내놓는다고 하자. 시험의 신뢰성을 위해서는 E를 제거해야한다. 하지만 만약 E만이 유일하게 학생들을 자세히 관찰한 경험이 많은 전문가라면 어떨까? Number manipulation이 일어나는 또 다른 상황이 있다. 평가지에서 ‘좋음’은 8점, ‘양호’는 6점이라고 하자. 이 둘을 평균내서 7점이라고 하더라도, ‘좋음’과 ‘양호’의 평균을 계산할 수 있다는 의미는 아니다.
5
모든 평가 순간이 결정 순간은 아니다.(Not every assessment moment needs to be a decision moment): 형성평가와 총괄평가를 완전히 분리한다는 것은 사실상 불가능하다. 장기적으로 어떤 평가도 모든 이해당사자들에게 온전히 형성적인 의미만 있거나 또는 완전히 총괄적이기만 할 수 없기 때문이다. 또한 평가가 유용하고 유의미하고 학습에 영향을 주려면 약간의 “이빨teeth”가 필요하다. 이 두 가지를 결합하는 것이 불가능하지도 않다. 만약 평가가 지속적으로 이뤄지면서, 동시에 학습자에게 피드백과 정보가 제공된다면, 일정 기간의 데이터 수집 후에는 중부담 또는 고부담 결정 모먼트를 갖는다면, 평가가 '이빨'를 가지면서도, 형성적일 수 있다.
6
표준화가 공정한 평가의 유일한 길은 아니다.(Standardisation is not the only road to equitable assessment): 표준화된 시험으로 달성할 수 있는 것에는 한계가 있다. 1970년대 일류 대학의 남성 합창단에 대한 농담이 있다. 당시 남녀평등의 운동의 흐름에 따라 여성 회원을 받아야 했다. 이에 대한 해결책은 간단했다; 모든 여성들이 합창단이 될 수 있었지만 자격 요건(베이스, 바리톤 또는 테너)은 그대로 남겨둔 것이다. 인구집단에 대한 스크리닝 프로그램과 개별 환자에 대한 진단 프로그램이 다르듯, 평가도 구조화되고 표준화된 요소와, 유연하고 개별화된 요소를 모두 포함해야 한다.
7
평가는 부족한 역량을 탐지하는 목적만 가진 것은 아니다: 사실은 그러면 안된다.(Assessment is not solely about detecting deficiencies; in fact it should not be): 평가가 학생의 부족한 영역에 초점을 두면 본질적으로 징벌적 성격을 갖게 된다.
첫째, 이러한 방식의 평가는 항상 교사/평가자와 학생 사이에 긴장을 유발하며, 서로를 적대적 상황에 놓이게 한다. 이러한 긴장감은 (비밀 문제은행, 방어적인 학생-교사 관계, 멘토링 역할의 훼손, 학생들의 전략적 시험 행동, 사기 등과 같이) 학습에 반하는 전략과 행동들로 이어진다. 즉, 전문성을 지속적으로 확장하기 위해 한발 더 나아가는 것을 편안하게 느끼지 못하게 만들기에, 학생들은 [지식과 이해의 한계를 탐험하는 것에 편안함을 느끼는 성인 학습자]가 되지 못함을 의미한다.
둘째, 역량이 현저하게 낮거나 재교육도 불가한 학생의 비율이 낮음을 고려하지 않은 조치이다. 의과대학에는 특히 이런 학생이 적다. 따라서 이런 학생만 발견하려고 하다보면 다수의 이미 훌륭한 학생들까지 시험을 받아야 하고, 각각의 시험은 (한 명의 부족한 학생을 잡아내기 위해서) 역량을 갖춘 학생을 부당하게 낙제시킬 가능성이 있다.
셋째, 교육적 담론을 소비자-제공자의 관계로 만들어, 학교를 역량 교육을 하는 조직이 아니라 졸업장을 판매하는 기관으로 보게 만든다. 평가는 교육의 한 부분으로 여겨져야 하며, 그래야 의과대학이 ‘판매’하는 ‘물건’이 ‘빠른 졸업증’이 아니라 ‘최적의 역량’이 될 것이다.
출처:
Schuwirth, L., & Ash, J. (2013). Assessing tomorrow's learners: in competency-based education only a radically different holistic method of assessment will work. Six things we could forget. Medical teacher, 35(7), 555-559.
'논문을 읽고 씁니다.' 카테고리의 다른 글
의학교육에서 감정(emotion)에 관한 담론 (0) | 2022.01.18 |
---|---|
보건의료전문직교육에서 근거란 무엇인가? (0) | 2022.01.17 |
의과대학 학습환경 평가: 학습(learning)지향 vs 성과(performance)지향 (0) | 2022.01.15 |
질적연구를 위한 인터뷰 준비하기 (0) | 2022.01.15 |
교육과정 변화에 대한 의과대학생의 관점 (0) | 2022.01.15 |