형성평가(formative assessment)라는 귤이 바다를 건너와 우리나라에 도입되자 탱자가 되었다. Formative assessment에 대한 가장 흔한 번역이 '형성평가'이니 딱히 ASK2019를 탓할 것도 없다. 다만 아쉬운 것은,

 

(의대에서) #형성평가 라는 단어가 떠올리게 하는 이미지와
(영어로) #Formative_assessment 라는 단어가 함축하는 바가

 

과연 동일한가?
====
(1) 원문(=귤)

The medical school must provide an appropriate balance of formative and summative assessment to guide both learning and decisions about academic progress. (B 3.2.4) (출처: WFME GLOBAL STANDARDS FOR QUALITY IMPROVEMENT)  

 

(2) 번역된 결과(=탱자)
K.3.2.4 의과대학은 형성평가와 총괄평가를 균형 있게 실시하고 있다.(출처: ASK2019 의학교육 평가인증 기준)

 

(3) 원문 해석에 참고할 수 있는 자료(=귤의 유전자 분석)
일반적으로 (하나의 평가에는) 형성적 기능과 총괄적 기능이 결합되어 있다(원문: Formative and summative functions are typically combined, 출처: https://pubmed.ncbi.nlm.nih.gov/20510653/)

형성평가(FORMative assessment)는 평가가 갖는 "목적"에 따른 구분이자, 목적을 드러내는 단어이다. 그리고 그 목적은 미완성인 무언가의 형태(form)를 보다 완성품에 가까운 모습으로 형성(form)하는 것이다. 형성평가가 표면적으로 지니는 흔한 특징은 바로 이러한 "목적"에서 기인한다. 예를 들어,

 

- (시기) 미완성의 무언가를 대상으로 하기에 과정의 말기보다는 초기와 중기에 하게 되고

- (부담) 최종적인 판단이 아니기 때문에 평가자의 부담이 낮고(성적에 반영되는 비율이 작음)

- (문항) 부담이 낮기 때문에 반드시 문항의 퀄리티가 높아야만 하는 것이 아니고(높아서 나쁠건 없지만)

- (평가자) 위의 연장선상에서, 다양한 평가자를 평가에 활용할 수 있고(자기평가, 동료평가, 환자평가 등)

- (피드백) 완성된 형태로 만드는 목적이 있으므로 개선을 위한 구체적 코멘트와 행동이 뒤따라야 한다.

 

즉, 이런 형성평가의 겉보기 특징은 결국 FORMative라는 목적을 위한 "수단"에 불과하다. 그러나 수단은 목적의 달성을 담보하지 않는다. 좋은 음식을 만들려면 좋은 재료를 갖추는 것이 중요하지만, 좋은 재료가 무조건 좋은 음식을 보장하지 않는 것처럼, 형성평가의 외피만 갖춘다고 형성(FORM)이라는 목적이 달성되지 않는다.

 

그럼에도 "형성평가가 뭔가요?"라는 질문을 받으면 "과목 중간에(시기), 성적에 반영비율이 작은(부담), 퀴즈 등을 가지고(문항), 학생 스스로 혹은 교수자가(평가자), 달성도를 판단하고 부족한 부분을 찾아 개선하는(피드백) 평가"라고 설명할 수 밖에 없다.

 

하지만, 이것은 "OOO는 누군가요?"라는 질문에 "A에서 태어나 B학교를 졸업하고 C를 전공한 뒤 D에 취직해서 E에서 사는 사람"이란 대답이 OOO를 설명해주는 만큼만 충분하다. 물론 OOO를 전혀 모르는 사람에게는 이 정도 소개로 시작해볼 수 있고, 통찰력이 뛰어난 사람은 저 문장으로 OOO를 꿰뚫어 볼지도 모른다. 하지만 적어도 수단 그 자체가 마치 목표인 것 마냥, 혹은 한두개의 외피만 걸치면 충분한 것 마냥 본말을 전도하지는 않아야 한다. 

 

한 사람을 충분히 이해하고, 그 사람과 잘 지내기 위해서는 단순히 A B C D E보다 더 많은 것을 알아야 하고, 거기엔 그 만큼의 시간과 노력이 필요하다. 형성평가도 마찬가지다.

영화 기생충의 아카데미 수상 소식이 핫하니, 여기에 편승하여 의학교육에서 '평가'에 대한 생각을 조금 풀어보면 이렇다.

 

1.

아카데미 수상작을 결정하는 과정도 일종의 '평가'이다. 그리고 이 평가는 매우 "고부담(high-stake)"평가이고, '고부담' '여기에 걸려있는 것이 크다', 또는 '불합격했을 때 잃는 것이 크다'의 의미라고 이해할 수 있다. CJ ENM 100억원대 자금을 썼을 것이라는 기사들이 있는데, 만약 이러고도 수상하지 못했을 경우를 상상해보면 "고부담"이란 단어가 쉽게 이해될 것이다.

 

대부분의 고부담 평가는 "피드백이 없는" 평가이다. , 왜 합격/불합격했는지(아카데미 시상식이라면 왜 수상하거나 수상하지 못했는지)에 대해서 이유와 개선점을 알려주지 않는다. 대부분의 채용, 선발, 입학시험도 마찬가지이고, 의사국가시험등의 면허시험도 마찬가지이다. (물론 최근에 의사국가시험은 실기시험에서 스테이션별 합격/불합격 정보를 추가로 알려준다고 하니 완전히 피드백이 없는 것은 아니라고 볼 수도 있다).

 

이런 관점에서 보자면, 의학교육평가원(KIMEE)에서 시행하는 의학교육 평가인증은 조금 특이한데, 상당한 고부담평가인데, 또 제법 자세한 피드백을 주기 때문이다(물론, 각 의과대학이 평가 후 운영에 지적받은 사항과 개선방향을 제대로 반영하는지는 또 다른 이야기이다). 의학교육 평가인증이 단순히 등급을 나누는 것에 목적이 있는 것이 아니라, 의과대학과 의학교육의 지속적인 발전을 위한 것이라 한다면, 이렇게 해석할 명분은 여기 있다.

 

2.

한편, 고부담평가의 반대편에는 저부담(low-stake)평가가 있다.

 

의과대학에서 교수님들과 '형성평가'에 대하여 이야기를 나누다보면 "성적에 들어가면 형성평가가 아니라면서요?"라는 질문을 되게 자주 받는다. 결론부터 말하면, 그럴 수도 있고 아닐 수도 있다. 왜냐하면, 형성평가, 영어로 formative assessment는 형성적 목적을 가지고, 형성적 목적을 달성할 때 그렇게 부를 수 있는 것이고, 이것은 "성적에 들어가느냐 안 들어가느냐"보다 "피드백을 주느냐 마느냐", 더 나아가서는 그 평가의 결과로 학생이 발전(학습)하느냐 마느냐에 달려있기 때문이다.

 

물론, 피드백을 "주는 것"만으로 개선이 될 것이란 기대는 다소 비현실적이지만, 피드백을 "주지도 않는 것"이 일반적인  상황임을 고려하면, 우선 "주는 것"이라도 해야 한다는 의미이다.

 

좋은 평가의 일곱 가지 기준을 형성평가와 총괄평가로 나누어서 적용시켜보면 다음과 같다.

 

1

효과적인 형성평가는 일반적으로 저부담 평가이며, 주로 비공식적/기회적opportunistic이고, 학습을 촉진하는 의도를 가지고 있다. 형성평가의 정의상, 형성평가를 특징짓는 좋은 평가의 기준은 촉매 효과catalytic effect이다. 형성평가는 다음의 경우에 가장 잘 작동한다.

(1) 교육 과정 또는 작업 흐름work flow에 내포되어 있다embed.

(2) 구체적이고 실행 가능한 피드백을 제공한다.

(3) 지속적ongoing이다.

(4) 시기 적절timely하다.

 

따라서 덜 중요해지는 기준에는 동등성equivalence, 재현성-일관성reproducibility-consistency이 있다.

반면 더 중요해지는 기준에는 타당성-일관성validity-coherence, 교육 효과educational effect, 구현가능성feasibility (지속적, 시의적절성, 학습자 수준에 적절성이 필요하므로), 수용가능성acceptability (교수와 학생이 형성평가에 헌신commit하는 데 필요하고, 피드백에 대한 신뢰성을 부여함)이 있다.

 

2

효과적인 총괄평가는 일반적으로 중부담이거나 고부담이며, 기본적으로 (의과대학 또는 의과대학생에게 기대되는) 책무에 대한 요구에 응하려는 의도를 가지고 있다. 총괄평가는 일관된 고품질의 시험 자료, 높은 수준의 내용전문성, 체계적인 합격선 설정 프로세스, 시험 보안 관리가 필요하다.

 

따라서 가장 중요한 기준은 타당성-일관성, 재현성-일관성, 동등성과 같은 기준이다.

반면, 구현가능성, 수용 가능성, 교육적 효과 등은 중요하긴 하나 심리측정적 준거만큼 중요하지는 않다. 또한 총괄평가에도 촉매 효과가 있으면 좋긴 하겠지만, 덜 강조되는 편이다.

 

 

출처:

Norcini, J., Anderson, B., Bollela, V., Burch, V., Costa, M. J., Duvivier, R., ... & Roberts, T. (2011). Criteria for good assessment: consensus statement and recommendations from the Ottawa 2010 Conference. Medical teacher, 33(3), 206-214.

1

Epstein은 평가assessment에 대해서 다양한 방법을 사용하여, 자주 건설적인 피드백을 제공함으로써, 다양한 역량의 영역을 통합적이고, 일관성있고, 종단적으로 평가해야 한다고 권고했다.

Ericsson은 교수자가 학생을 자기주도적인 학습자가 되도록 도와주는 방법에 대해서 설명했다. 이 때 수행능력에 대한 피드백을 줌으로써 전문성 개발을 위한 의도적 연습deliberate practice으로 이어지게 만드는 것을 강조했다.

 

2

Van der Vleuten은 평가를 세 가지로 분류했다:

> assessment for learning (AfL)

> assessment of learning (AoL)

> assessment as learning (AaL)

 

2-1

AfL은 종종 형성평가라고도 불린다. AfL에서 학생은 메타인지 전략에 초점을 둔 과정에 몰입한다. 학생들이자신의 생각에 대해서 생각해보려는 노력을 지지해줘야 한다. 자신의 수행능력과, 자신의 현재 이해상태와, 명확히 정의된 성공의 준거 사이의 관계를 이해하는 것이다. , 자신의 학습을 개선하고 시작하는 주체가 되는 것이다. 형성성(the formative)을 강조하는 평가 시스템은 개선(improvement)를 포용하고 지지하는 문화 속에서만 성장할 수 있다.

 

2-2

AoL은 종종 총괄평가라고도 불린다. 역량을 기준으로 현재 진행상태가 어느 정도인지에 대한 판단을 강조한다. 형성평가와 총괄평가는 별개의 목표로 간주되는 경우가 많지만, 두 가지가 중복되는 영역도 많다. 예를 들어, 형성 평가에서 중대한 결함이 발견된 학생에게는 재교육remediation이 필요할 수 있지만, 어떤 경우에는 완전히 퇴출dismiss해야 할 수도 있다.

 

2-3

AaL에는 평가 프로세스가 전체 프로그램 및 교육과정에 지니는 함의programmatic and curricular implication가 담겨 있다. , 평가 시스템의 관점에서 교육과정상의 학습경험과 교육 프로그램의 목적을 돌아보는 것이다. 또한 AaL은 평가자와 학생 사이의 영향도 고려해볼 수 있다.

 

3

평가에 대해 다섯 가지를 권고한다.

 

3-1

첫째, 의학 교육의 목적은 충분히 명확하게 표현되어 학습의 평가assessment of learning와 일치해야한다. 단순히 후속 단계(전공의 수련)를 위한 준비라고만 하는 것은 불충분하다. 교육의 후속 단계의 준비는 물론 중요하지만, 그 자체가 목표가 될 수는 없다. 각 교육 단계 이후 학생들이 취할 수 있는 방향성이 다양하기 때문이다. 의학교육의 목적이 명확하게 합의되지 않으면 점점 늘어나는 의료지식의 우선 순위를 정하는 것이 어려워진다. 환자안전은 하나의 목적이 될 수 있다. 의학 교육의 목적을 무엇으로 합의하든지, 교육의 목표는 평가의 목표와 대체로 일치할 수 있도록 조정이 필요하다.

 

3-2

둘째, 총괄평가(AoL)가 미치는 효과(선발, 고용, 면허, 증명에)를 인정하고 관리해야 한다. 특히 형성평가(AfL)가 매우 중요하다는 것을 고려한다면, 총괄평가가 형성평가에 부정적인 영향을 미치지 않아야 한다말은 간단하지만, 실천은 그렇지 않다. 

 

3-3

셋째, AfL은 평가 프로그램의 근간이 되어야 한다. 평가 프로그램의 근간이 되기 위해서는 여러 출처의 피드백이 포함되어야 하고, 자기주도학습을 강조해야 하며, 교수와 학생 간 신뢰와 장기적인 관계가 만들어질 수 있도록 해야하고, 언제 형성 평가가 사용될 것인지(특히 진급 등의 결정과 관련하여)에 대한 명확한 가이드라인이 있어야 한다. 평가 프로세스의 신뢰가 쌓이면, 학생이 건설적인 피드백을 잘못 해석할 가능성이 낮아진다. 반대로, 학생 입장에서 비판적인 코멘트가 미래에 악영향을 미칠 수 있다고 느껴진다면, 학생은 그런 코멘트는 포트폴리오에 표시하지 않으려고 할 것이다.

 

3-4

넷째, 교육 프로그램의 개발 전반에 걸쳐서 평가가 결정적 역할을 함을 인식해야 한다. 평가는 학습 환경, 교육과정 개발, 학습자와 교사와의 관계, 기관 문화에 큰 영향을 미친다. 평가에 대한 전문성은 중요하지만, 평가는 고립되어 존재하는 것이 아니다. 평가는 반드시 프로그램의 목표 및 목적과 통합integrate되고, 정렬align되어야 한다.

 

3-5

다섯째, 평가에 관한 교수개발은 교수의 핵심 역량이 되어야 한다. 교수개발이 필요한 영역에는 다음이 있다.

(1) 관찰 기술(training in observation skills in authentic settings (workplace-based assessments))

(2) 피드백과 코칭 기술 (feedback and coaching skills),

(3) 자기평가와 성찰 기술 (self-assessment and reflection skills)

(4) 실천공동체를 통한 동료 지도 기술 (peer guidance skills developed through a community of practice.)

 

출처:

Sklar, D. P. (2017). Assessment reconsidered: Finding the balance between patient safety, student ranking, and feedback for improved learning. Academic Medicine, 92(6), 721-724.

1

밀러의 피라미드에서 마지막 한 층(Does)의 평가를 보자. 'Does' 수준의 평가는 본질적으로 전문가가 정보에 의존하여 성과를 판단하는 방식이다. 이 때 전문가란, 동기 및 선후배, 동료직원, 상급자, 교수자 등을 비롯하여 피평가자의 업무 또는 교육성과에 대해 잘 아는 사람을 광범위하게 포함하는 단어로 해석해야 한다.

 

2

Does 평가의 자극 형식은 실제적 맥락Authentic context이며, 비표준화, 비구조화 되어있다. Does 평가의 응답 형식은 다소 일반적generic이며, 특정한 맥락에 따라 재단tailored되어있지 않다. 예를 들어 CanMEDSCollaborator Communicator 역량이 있다. 이런 역량이 어느 정도 generic할지 몰라도, 평가를 할 때는 맥락-특이적이 된다. Generic skill을 평가하는 것은 필수적이지만, 정의하기 어렵다는 문제도 있다.

 

결국 이러한 영역-독립적(domain-independent) 역량을 평가하려면, 전문가 판단에 의존할 수 밖에 없다. , Does 수준에서 효과적인 평가의 핵심은 전문가의 판단expert judgement이며, 내용특이성의 문제를 해결하려면 표본 추출이 중요하다. 합산 정보aggregate information가 개별 평가의 주관성을 극복하기 위해서는 두 가지가 필요한데, 다양한 교육적/임상적 맥락에 걸친 표본추출과 다양한 평가자로부터의 표본추출이다.

 

그렇다면 Does 수준의 평가에서 고려해야 할 것은 무엇일까?

 

3

신뢰할 수 있는 추론을 위해서는 일정 수의 표본이 필요하다(A feasible sample is required to achieve reliable inferences): 현실적으로 가능한 표본수(very feasible sample)로도 신뢰할 수 있는 추론이 가능하며, 대체로 어떤 평가도구를 사용하든, 무엇을 측정하든 8 ~ 10 사이의 어딘가에 있는 듯 하다. 이는 신뢰도는 평가의 표준화나 구조화의 문제가 아니라, 표본 추출의 문제임을 다시 한번 확인시켜준다.

 

4

편견은 전문가 판단의 본질적인 특성이다 (Bias is an inherent characteristic of expert judgement): 평가 점수의 인플레이션이 생기기도 하고, 평가자가 어떤 배경을 가지고 있는지에 따라서도 영향을 받는다. 평가자가 학습자와의 관계를 지나치게 신경쓰거나, 귀찮은 일을 피하려고 할 때에도 편향이 생긴다.

 

평가자의 역할이 무엇인지 다시 한 번 생각해봐야 한다. 평가자의 임무는 학습자가 훌륭한 의사인지 판단하는 것이 아니다. 특정 사건에서 어떤 일이 발생했는지 판단하고, 학습자의 수행능력 향상에 도움이 되는 피드백을 주고, 차후에 유의미한 검토에 사용될 수 있도록 적절히 문서화하는 것이다. 고부담 의사결정은 여러 방법으로부터, 여러 출처의 평가를 기반으로 내려져야 견고robust해지기 때문이다.

 

같은 맥락에서 자기평가를 생각해볼 수 있다. 연구에서 명백하게 확인되는 것은 우리는 (과대평가든, 과소평가든) 자기평가를 매우 못한다는 것이다. 샘플링 관점에서 볼 때 이것은 전혀 놀랍지 않다. 자기평가의 N1이기 때문이다. 다른 평가도 N1이라면 자기평가보다 딱히 낫지는 않을 것이다. 문제는, 다른 평가와 달리, 자기평가에서는 표본 크기를 늘릴 수 없다는 것이다. , 자기평가는 결코 독자적으로 의미를 지닐 수 없으며, 반드시 다른 정보와 삼각검증triangulation 되어야한다.

 

5

타당도는 어떤 도구를 사용하느냐보다, 누가 사용하느냐에 달려있다 (Validity resides more in the users of the instruments than in the instruments that are used): 밀러의 피라미드의 아래 단계에서는 평가도구를 더 날카롭게(sharpen)하는 것이 가능하지만, Does 수준에서 평가의 퀄리티는 딱 평가자의 퀄리티 만큼만 우수하다. 지저분한 현실세계를 표준화/구조화/객관화를 통해 통제하려는 것은 답이 되지 못한다. 이는 평가의 질을 떨어뜨릴 뿐만 아니라, 평가를 경시하게 만든다trivialize. 더 바람직한 전략은 평가도구가 아니라 평가자를 더 날카롭게 하는 것이다. 평가에 필요한 기술, 피드백을 주고 받는 기술은 의사-환자 사이에 필요한 기술과 유사한데, 그럼에도 불구하고 모든 교수자가 이걸 갖추고 있지는 않다. 이런 기술은 육성되어야 하며, 육성될 수 있다.

 

6

평가는 일반적으로 형성적 기능과 총괄적 기능을 모두 갖는다(Formative and summative functions are typically combined): 학습자가 평가에서 학습적 가치를 얻지 못하는 한, 평가는 사소한 것 취급된다(trivialize). 예를 들어, 포트폴리오에 포함되는 성찰글쓰기의 목적이 평가자의 기분 맞추기가 되면, 포트폴리오는 의미를 상실한다. 평가의 유용성utility을 확보하려면, 학습을 유도할 수 있어야 하며, 궁극적으로 학습에 필수불가결한 것으로 여겨져야 한다. 평가가 효과적이려면, 피드백이나 학습환경과 같은 조건이 갖춰져야 하며, 이 중 피드백에는 특히 사회적 상호작용(코칭/멘토링/토론)이 중요하다.

 

7

질적, 서사적 정보가 중요하다 (Qualitative, narrative information carries a lot of weight): 평가의 중심에 피드백이 있고, 효과적인 피드백에 사회적 상호작용이 중요하다면, 숫자와 정량 정보는 한계가 명확하다. 의사소통에서 5점 중 2점을 받았다는 것 만으로는, 학습자에 대해 우려를 자아냄에도, 실제로 무엇을 했는지, 개선을 위해서는 무엇을 해야 하는지를 알려주지 않는다. 점수는 그 자체만으로는 저질의poor 피드백일 뿐이며, 학습자에게 거의 영향을 미치지 못한다. 언어를 활용하여 평가를 더 풍부하게 해야 한다. 질적으로 풍부한 정보가 뒷받침되어야 형성평가가 효과적으로 기능한다. 따라서 모든 평가도구에 정성 정보를 포함시킬 수 있는지 확인하고(: 주관식 코멘트 기입 공간), 평가자가 이러한 정보를 정기적으로 제공하고 문서화하도록 유도해야 한다.

 

8

총괄적 결정이 질적 연구 절차로 더욱 견고해질 수 있다(Summative decisions can be rigorous with non-psychometric qualitative research procedures): 우리는 일반적으로 무언가를 정량화한다. 그리고 계산하고, 평균을 내고, 학점을 준다. 하지만 이것 만으로 충분한 경우는 거의 없다. 견고함(rigour)trustworthiness 전략에 달려있다. internal validitycredibility, external validitytransferability, reliabilitydependability, objectivityconformability로 대체하는 것이다. 다음과 같은 전략이 가능하다. 다만 합격선 결정과 마찬가지로 ‘gold standard’란 존재하지 않으며, 모든 기준standard과 그에 따른 결정에는 일정정도의 추상성이 존재한다. 결국 얼마나 기준을 신뢰할 수 있느냐credible, 얼마나 절차에 충실했느냐에 달려있다. Trustrowthiness를 높이기 위한 전략으로는 아래와 같은 것들이 있다. 

 

To achieve rigour in the judgement of a learner’s portfolio in a work-based setting, it is wise to have a committee judge the portfolio (structural coherence and peer examination).

The committee receives input froma mentor who is familiar with the learner and his or her portfolio (prolonged engagement).

Depending on how much one wants to protect the learner–mentor relationship this input may be limited, for example, to a declaration of the mentor that the portfolio provides authentic evidence of the learner’s progress.

The committee uses predefined criteria to make their judgement more transparent, for example, in the form of rubrics describing decision categories (audit).

The committee deliberates and justifies its decisions in a written motivation (audit).

If the decision is difficult to make, the committee deliberates more and justifies more and perhaps even invites additional committee members or consults relevant parties (triangulation).

In preparing the portfolio for submission, the learner is aware of the criteria and will have had feedback on earlier drafts of the portfolio with some form of social interaction (i.e., with peers or a mentor) so that the committee’s judgement will only rarely come as a complete surprise to the learner (and mentor) (member checking).

Both learner and mentor are trained for their tasks; committee members are (re)trained (periodically) and use benchmark portfolios to calibrate their decision making (prolonged engagement and member checking).

Committee decisions are documented (audit), and appeal procedures for learners are in place (audit).

The more procedures and measures, the more trustworthy the resulting decision will be.

 

9

Does 수준에서는 평가는 전문가의 판단에 의존하게 된다. 그리고 이처럼 평가가 전문가의 판단에 의존할 경우, 개별 평가자의 독특하고 고유한 판단이 중요해진다. 평가자마다 각자 구성한 실제constructed realities가 다르며, 이는 서로 일치하지 않을 수 있다. 그렇다고 이것이 도움이 되지 않는 것은 아니다. 오히려 학습자가 서로 다른 여러가지 관점에 노출되는 것은 고도로 relevant하며, beneficial 할 수 있다. 따라서 합산 의사 결정aggregate decision making을 가이드하기 위하여 삼각측량과 정보포화가 필요하다. 새로운 정보를 찾을 가능성이 매우 낮아졌을 때, 포화가 달성되었다고 볼 수 있고, 이는 추가적인 근거의 수집 노력의 중단을 정당화해줄 것이다.

 

 

 

출처: 

Van der Vleuten, C. P. M., Schuwirth, L. W. T., Scheele, F., Driessen, E. W., & Hodges, B. (2010). The assessment of professional competence: building blocks for theory development. Best practice & research Clinical obstetrics & gynaecology, 24(6), 703-719.

+ Recent posts