[AHSE] 17 학습에 영향을 미치는 평가(ASSESSMENT AFFECTING LEARNING)

Meded 2025. 11. 2. 22:02

2025. 11. 2. 22:02

17 학습에 영향을 미치는 평가(ASSESSMENT AFFECTING LEARNING)

Matthew Lineberry

이 장(This chapter)은 평가가 학습 과정(learning processes)과 결과(outcomes)를 어떻게 측정하는지(measures)가 아니라, 평가가 그것들에 어떻게 영향을 미치는지(affects)에 초점을 맞추며, 매우 다른 관점(a quite different perspective)에서 평가에 접근한다. 그러한 관점은 흥미롭기는 하지만 측정 목표(measurement goals)에 부차적(secondary)인, 적절한 사후 고려(suitable afterthought)처럼 보일 수 있다. 그러나 여기에 요약된 이론과 증거(theory and evidence)는 평가의 효과(effects)가 평가의 측정 속성(measurement properties)만큼 중요하거나 그 이상일 수 있음을 시사한다. 평가는 또한 많은 정교한 교육 방법(sophisticated educational methods)보다도 우수할 수 있는, 학습을 촉진하기 위한(for fostering learning) 가장 강력한 방법(most powerful methods) 중 하나일 수 있다.

이 글은 학습에 영향을 미치는 평가(assessment affecting learning, AAL)가 학습에 대한 평가(assessment of learning, AOL)에 대한 우리의 사고만큼이나 잘 연구되고 정제된(well studied and refined) 관점(perspective)이 되는 미래를 내다보며(with an eye to a future) 작성되었다.

첫째, 나는 현재의 평가 용어(assessment terminology)를 탐색하고 AAL 관점이 어떻게 우리가 그러한 용어들에 대해 다르게 생각하도록(think differently) 이끌 수 있는지 제안할 것이다.
둘째, 나는 교육의 네 단계(four phases of education), 즉 과정 개발(course development), 평가 이벤트의 예상(anticipation of an assessment event), 평가 이벤트 자체(the assessment event itself), 그리고 평가 후 성찰 및 개선(post-assessment reflection and improvement) 동안 평가가 학습에 어떻게 영향을 미칠 수 있는지에 대한 연구를 종합할 것이다.
이 장의 끝에서, 우리는 아직 AAL 설계를 위한 처방적인(prescriptive) 가이드라인(design guidelines) 세트에 도달하지는 못할 것이다; 오히려, 나는 이것이 이 분야(the field)가 탐색(exploration)과 조기 적용(early application)의 기회를 볼 수 있도록 하는, 지형도(a map of the terrain)로서의 역할을 하기를 희망한다.

계속하기 전에, "쪽지 시험(pop quiz)"에 참여해 보시기를 권한다! 이것은 여러분에게 이 장의 개념들에 대한 직접적인 경험(direct experience)을 제공해야 하며, 평가에 대해 여러분이 배운 것을 강화(reinforce)할 수 있을 것이다. 나는 챕터 2, "타당도와 질(Validity and Quality)"의 내용에 대한 두 가지 질문을 공유할 것이다. 괜찮다면, 답을 물리적으로(physically) 적어(write down) 주시길 바란다—아마도 이 책에 표시하고 싶지 않다면, 종이 한 장에라도 말이다. 답하는 동안, 여러분에게 떠오르는 생각(thoughts)이나 감정(emotions)에 주의를 기울여(pay attention) 주시길 바란다. 완료되면, 이 장의 끝에 있는 답안(answer key)을 사용하여 답을 확인할 수 있다.

질문 1: Michael Kane의 평가 타당도(assessment validity) 프레임워크는 우리가 평가 점수를 해석(interpret)하고 사용할(use) 때 관련된 네 가지 주요 추론(inferences) (또는 "가정(assumptions)")을 나열한다. 그것들은 무엇인가? 각각에 대한 한 단어 용어(one-word term)와 짧은 정의(short definition)를 모두 제시하라.

Kane 추론 (한 단어)	짧은 정의
1
2
3
4

질문 2: 병태생리학(pathophysiology) 지식(또는 여러분이 선호하는 다른 어떤 내용 영역이든)에 대한 선다형 시험(multiple-choice test) 동안 구인 무관 변량(construct-irrelevant variance)으로 이어질 수 있는 타당도 위협(validity threats) 두 가지는 무엇인가?

완료되었으면: 참여해 주셔서 감사하다! 이제, 그 질문들에 답하고 답안을 검토하면서 가졌던 생각과 감정(thoughts and emotions)을 성찰(reflect)해 보시길 바란다:

이 과정에서 가졌던 가장 두드러진(salient) 생각은 무엇인가? 가장 눈에 띄는(noticeable) 감정은 무엇이었는가?
만약 내가 자유 응답(free response)이 아닌 선다형(multiple choice)과 같은 다른 응답 형식(different response format)을 사용했다면, 여러분의 생각과 감정이 어떻게 달랐을 것이라고 생각하는가?
그러한 질문에 답하는 것이 자연스럽게(natural) 느껴지는가—아마도 여러분은 보통 독서 후에 스스로 시험을(test yourself) 보는가—아니면, 질문에 답하는 것이 이와 같은 자료(material)에 여러분이 참여하는(engage with) 일반적인 방식(normal way)이 아닌가?

이 장을 읽어 내려가는 동안(이 장에는 더 이상의 쪽지 시험이 없음을 약속한다!) 그러한 자기 성찰(self-reflections)을 잘 간직하고(Hold on to), 그것들 중 AAL에 대한 핵심 이론(key theories)과 연구 결과(findings)에 반영된(reflected) 것이 있는지 확인해 보시길 바란다.

핵심 개념과 용어 재고하기(RECONSIDERING KEY CONCEPTS AND TERMS)

이 장에서 내가 "평가(assessment)"라고 말할 때, 나는 한 사람 또는 여러 사람에게 과제 수행을 요구하고(challenges... to perform a task), 그들의 수행(performance)이 채점 기준(scoring key)에 비추어 관심 있는 지식, 기술, 능력 또는 기타 특성(knowledge, skill, ability, or other characteristics, KSAOs)을 입증하는지(demonstrates)에 대한 데이터를 수집하고 해석하는(collects and interprets data) 하나의 전체적인 사회적, 기술적 시스템(a whole social and technical system)을 의미한다. 평가는 단지 우리의 시험 형식(test formats)이나 그 내용(content)에 관한 것만이 아니다; 자격 시험(certification examination)은 단지 "종이 다발에 적힌 많은 질문(a lot of questions on a sheaf of papers)"이 아니다. 오히려, 평가는

학습자, 교육자, 행정가, 시험 개발자(learners, educators, administrators, and test developers)와 같이 참여하는 사람들(people participating);
학습자와 교육자 간 및 그들 사이의 권력 역학(power dynamics) 및 대인 관계(interpersonal relationships)와 같은 사회적 구조(social structures);
평가 개발하기, 그것을 준비하기, 이벤트 실행하기(running the event) (그리고 관련된 의사소통, 물류(logistics) 등), 평가 완료하기, 그리고 그것에 대해 성찰하고 행동하기(reflecting and acting on it)와 같은 과업(tasks); 그리고
평가 방법(assessment methods), 데이터 수집 장비(data collection equipment), 채점 과정(scoring processes), 보고서 형식(report formats)과 같은 물리적(physical) 및 개념적(conceptual) 기술(technologies)의 시스템(system)으로 기능한다 (그림 17.1).

평가의 "시스템성(system-ness)"은 평가가 학습에 영향을 미칠 수 있는 방식을 탐색할 때 핵심 고려사항(a key consideration)이 될 것이다—예를 들어, 평가 기법(assessment techniques)도 중요하지만, 피험자(examinees)와 교육자(educators) 간 및 그들 사이의 사회적 역동(social dynamics) 또한 그러하다는 것을 인식하는 것이다.

또한, 위 정의에 따라, 나는 "교육자에 의해 시행되는 공식적인 시험(formal examinations administered by educators)"뿐만 아니라 많은 활동들(many activities)이 평가로 간주된다(count as assessments)고 생각한다. 예를 들어, 여러 학습자가 모의 환자 사례(simulated patient case)를 완료한 다음, 그들이 취한 조치가 핵심 임상 진료 지침(key clinical practice guidelines)을 준수했는지(adhered to) 교육자와 함께 검토한다면(review), 비록 "성적(grade)"이 기록되지 않더라도, 적어도 현재 목적(present purposes)상 그것은 평가이다.

보건 전문직 교육(HPE)에서, 우리는 종종 두 가지 유형의 평가를 언급한다.

"총괄적(Summative)" 평가는 성적(grades)이나 다음 기회로의 진입 허가(admission to a subsequent opportunity)와 같은 중요한 레이블(labels)이나 결과(outcomes)의 배정(assignment) 및 의사결정(decision-making)을 포함한다. 반면, "형성적(formative)" 평가는 그러한 의사결정이 없으며(lack such decision-making) 학습을 지원하기(support learning) 위한 것이다.
이 용어들은 또한 "중대성(stakes)" 개념과 밀접하게 관련되게 되었는데, 총괄 평가는 종종 피험자에게 주요한 결과(major consequences)에 영향을 미친다는 의미에서 "높은 중대성(high-stakes)"으로 기술되는 반면, 형성 평가는 "낮은 중대성(low-stakes)"으로 분류된다.

이러한 용어들은 합리적(reasonable)이지만 제한적(limiting)일 수 있다.

첫째, 그 용어들의 사용은 판단 대 학습(judgment versus learning)의 이분법(dichotomy)을 암시하는데, 실제로는(in fact) 모든 평가가 어느 정도의 판단(some judgment)을 포함하며, 모든 평가는 인지할 수 있는 방식(appreciable ways)으로 학습에 영향을 미칠(affect learning) 가능성이 높다.
둘째, 그 용어들은 교육자가 의도하는 것(what educators intend)에 초점을 맞추지만, 평가가 어떻게 경험되는지(how assessments are experienced)를 반영하지 못할 수 있다. 교육자들이 평가가 낮은 중대성(low-stakes)이라고 생각할 때조차, 학습자들은 그것을 높은 중대성(high-stakes)으로 간주할 수 있으며(Bok et al., 2013; Heeneman, Oudkerk Pool, Schuwirth, van der Vleuten, & Driessen, 2015; Schut, Driessen, van Tartwijk, van der Vleuten, & Heeneman, 2018; Watling & Ginsburg, 2019), 국가 면허 시험(national licensing examinations)과 같은 총괄 평가(summative assessments)조차도 학습 행동(learning behaviors)에 극적인 효과(dramatic effects)를 미칠 수 있다(London et al., 2016; Mehta, Hull, & Young, 2016; Prober, Kolars, First, & Melnick, 2016).

최근 문헌은 두 가지 새로운 용어인 "학습에 대한 평가(assessment of learning, AOL)"와 "학습을 위한 평가(assessment for learning, AFL)"를 장려해왔다(Dannefer, 2013). 그러나, 이러한 용어들은 어떤 것이 어떤 목적을 "위한(for)" 것이라고 말하는 것이 의도(intent)를 암시하는 것만큼이나, 의도와 효과의 혼동(conflation of intents with effects)을 영속시킬(perpetuate) 수 있다. 이러한 용어들은 또한, "우리 3학년 학생들은 최종적인 '학습에 대한 평가'를 완료하기 전에 두 번의 '학습을 위한 평가'를 완료한다"고 말하는 것과 같이, 서로 다른 평가 활동을 명명하는 데(label) 사용될 경우 특히, 잘못된 이분법(false dichotomy)을 계속 암시할 수 있다.

나는 모든 평가가 두 가지 중요한 차원(two important dimensions)을 가지고 있음을 우리가 인식할(recognize) 것을 제안한다: 즉, 학습에 대한 평가(assessments of learning)로서의 질(quality)과 학습 과정 및 결과에 미치는 영향(effects on learning processes and outcomes), 즉 AOL과 AAL이다. 교육자들은 일부 평가 사례들을 주로 학습을 위한 것(for learning, AFL)으로 생각하는 경향이 있을 수 있고, 다른 평가 사례들은 주로 측정을 위한 평가(assessments for measurement, AFM)로 시행된다고 생각할 수 있지만, AOL과 AAL 현상(phenomena) 및 평가적 고려사항(evaluative considerations)은 교육자의 의도(educator intent)와 관계없이(regardless of) 작용할 것이다.

AOL 프레임(frame)은 공식적인 평가 이론(formal assessment theory) 및 설계 지침(design guidance)에서 "평가"가 고려되는 주된 방식(main way)임은 이해할 수 있다(Harrison, Könings, Schuwirth, Wass, & van der Vleuten, 2017). 예를 들어, '교육 및 심리 검사를 위한 표준(Standards for Educational and Psychological Testing)'은 AAL을 고려하지 않은 채, 타당도(validity), 신뢰도(reliability), 공정성(fairness)을 평가의 "토대(foundations)"로 다룬다(American Educational Research Association, American Psychological Association, & National Council on Measurement in Education, 2014). 마찬가지로, 여러분이 읽고 있는 이 책의 초판(first edition)에는 이 장이 포함되지 않았다. 이와 일관되게(Consistent with this), 시뮬레이션 기반 평가(simulation-based assessment) 보고서들에 대한 한 리뷰(review)에 따르면, 217개 보고서 중 20개(9%)만이 해당 평가의 적용 결과(consequences)를 고려했으며, 평가가 학습을 촉진했는지(fostered) 또는 저해했는지(inhibited) 조사한 보고서는 없는 것으로 보였다(Cook, Zendejas, Hamstra, Hatala, & Brydges, 2014). 나는 위의 저작들을 비난하기(indict) 위해 이것들을 지적하는 것이 전혀 아니다—단지 우리가 "평가"라고 광범위하게(broadly) 말해왔을 때, 이 분야(the field)는 거의 항상 "AOL"을 구체적으로(specifically) 의미해왔음을 인정하기(recognize) 위함이다.

그렇긴 하지만, AAL 사고의 프레임(AAL frame of thinking)은 보건 전문직 교육(HPE)에서 부상하고(on the rise) 있으며, 비록 그렇게 명명되지는(named as such) 않았지만 수십 년 동안 AAL 이론, 연구, 실천이 존재해왔다. 예를 들어, 성장 참조 평가(progress testing)는 주로 학습을 향상시키기(enhance learning) 위해 1970년대에 개발되었다—구체적으로는, 의과대학(medical school) 내내 포괄적인 시험(comprehensive examinations)을 반복적으로 제공함으로써 학습자들이 "벼락치기(cramming)"하는 것을 막기(discourage) 위함이었다(Albanese & Case, 2015; Norman, Neville, Blake, & Mueller, 2010). 유사하게, 완전 학습(mastery learning)은 주로 평가를 통해 효과적인 학습 궤도(effective learning trajectories)를 지원하는 것과 관련된(concerned with) 교수 설계 접근법(instructional design approach)이다(Lineberry, Park, Cook, & Yudkowsky, 2015; McGaghie, 2015). 현재 많은 국가에서 역량 기반 의학 교육(competency-based medical education)을 향한 더 광범위한 추진(broader push) 또한 학습과 발달(learning and development)을 더 잘 지원하기 위해 평가를 사용하려는 노력(effort)으로 표현된다(couched as)(Holmboe et al., 2017; Holmboe et al., 2015; Nasca, Philibert, Brigham, & Flynn, 2012).

AAL 개념들은 또한 공식적인 평가 이론(formal assessment theory)과 표준(standards)에 등장하기(appear) 시작했다. Cees van der Vleuten에 의한 영향력 있는(influential) 평가 모델은 평가를 적용하는 방법을 결정하는 데 있어 관심의 핵심 기준(key criterion of interest)으로 평가 유용성(assessment utility)을 지목했는데, 이는 타당도(validity), 신뢰도(reliability), 교육적 영향(educational impact), 수용성(acceptability), 비용(cost)이라는 다섯 가지 측면(five facets) 간의 절충(trade-off)을 포함한다고 언급했다(van der Vleuten, 1996). 효과적인 평가를 위해 모든 측면이 중요하지만, van der Vleuten은 특히 교육적 영향을 거의 타협되어서는 안 되는(rarely be compromised) 것으로 특별히 언급했다(called out). 유사하게, 2018년 '좋은 평가를 위한 오타와 합의 프레임워크(Ottawa Consensus Framework for Good Assessment)'는 여전히 "타당도(Validity)"와 "신뢰도(Reliability)"를 첫 번째 기준으로 나열하지만, 그 후에 개별 평가(individual assessments)를 위한 다섯 가지 다른 기준을 포함한다. 여기에는

"교육적 효과(Educational Effect): 평가가 평가를 치르는 이들(those who take it)로 하여금 교육적 이익(educational benefit)이 있는 방식으로 준비하도록 동기를 부여한다(motivates)"와
"촉매 효과(Catalytic Effect): 평가가 모든 이해관계자(all stakeholders)가 교육을 창출(create), 향상(enhance), 지원(support)하도록 동기를 부여하는 방식으로 결과와 피드백을 제공한다; 그것은 미래의 학습을 이끌고(drives future learning forward) 전반적인 프로그램의 질(overall program quality)을 향상시킨다"가 포함된다(Norcini et al., 2018).

따라서, 평가가 학습에 중요한 영향을 미친다(important effects on learning)고 보는 방향으로 이 분야(the field)에 상당한 움직임(significant movement)이 있다.

학습을 위한 평가의 작용 기전(MECHANISMS OF ACTION IN ASSESSMENT FOR LEARNING)

평가가 학습에 어떻게 영향을 미치는지(how assessments affect learning) 이해하는 것은 우리가 평가를 더 잘 설계하고, 사용하며, 평가하는 데 도움이 될 수 있다. 나는 AAL의 네 가지 주요 기전(four main mechanisms of AAL)을 평가 개발 및 사용의 "단계(phases)" 순서로 본다 (박스 17.1).

박스 17.1: 학습에 영향을 미치는 평가(Assessment Affecting Learning): 평가 설계 및 사용의 각 단계(Each Stage)에서의 작용 기전(Mechanisms of Action)

단계: 과정 개발(Course Development)
- 작용 기전 (이상적인 설계 및 사용 하에서):
  - 과정 목표(course objectives)의 더 큰 명확화(Greater clarification),
  - 이는 다음을 촉진해야(promote) 함: 학습 활동(learning activities)과 목표 달성(achievement of objectives) 간의 더 긴밀한(tighter) 연결(linking)
단계: 평가 전 예상 및 준비(Pre-Assessment Anticipation and Preparation)
- 작용 기전 (이상적인 설계 및 사용 하에서):
  - 학습 목표(learning objectives)에 대한 명확하고(Clear) 설득력 있는(compelling) 의사소통(communication),
  - 이는 다음을 촉진해야 함: 목표 달성(achievement of objectives)을 지원하는(support) 방향(directions)으로, 학습자와 교육자가 충분한(sufficient) 노력(effort)과 지속성(persistence)을 쏟음(devoting)
단계: 평가 완료(Assessment Completion)
- 작용 기전 (이상적인 설계 및 사용 하에서):
  - 목표로 하는 학습자 속성(targeted learner attributes) (예: 지식(knowledge) 또는 기술(skill))에 대한 도전적이고(Challenging) 실제 적용 가능한(real-world-applicable) 연습(exercise),
  - 이는 다음을 촉진해야 함: 깊이 부호화되고(deeply encoded), 전이 준비가 된(transfer-ready) 학습
단계: 평가 후 성찰 및 교정(Post-Assessment Reflection and Correction)
- 작용 기전 (이상적인 설계 및 사용 하에서):
- 수행 격차(performance gaps)와 기저의 원인(underlying reasons)에 대한 명확한(Clear) 식별(identification),
- 이는 다음을 촉진해야 함: 향상된(improved) 학습과 수행(performance)을 향한 효과적인(effective) 조정(adjustments)

작용 기전 #1: 과정 개발(COURSE DEVELOPMENT)

좋은 교육 프로그램은 교육 경험의 효과적인 설계(effective design)에서 시작되며, 커리큘럼 설계(curriculum design)를 위한 어떤 합리적인(sensible) 프레임워크(framework)라도 학습 목표(learning objectives)를 설정한 다음, 이를 사용하여 교육 활동 설계(educational activity design)를 안내할 것을 권장할 것이다. 그러나 잘 작성된 학습 목표조차도 완전히 상세한 명세서(not fully detailed specifications)가 아니라, 오히려 목표가 되는 KSAO(지식, 기술, 능력, 기타 특성)들의 상당히 광범위한 집합(moderately broad collections of targeted KSAOs)이다.

예를 들어, 미국 생리학회(American Physiology Society)의 '의학 커리큘럼 목표 프로젝트(Medical Curriculum Objectives Project)' (Carroll, Navar, & Blaustein, 2012)에 정의된 학습 목표, 가령 학생들은 "순환계의 조직(organization of the circulatory system)을 설명하고 전신 순환(systemic circulations)과 폐 순환(pulmonary circulations)이 물리적, 생리학적으로 어떻게 연결(linked)되어 있는지 설명할 수 있어야 한다"는 것을 생각해보자.
이는 해석의 여지(room for interpretation)를 남긴다: 예를 들어, 순환계 조직의 어떤 측면(aspects)이 설명되어야 하는가? 만약 학생들이 그 조직을 추상적으로(in the abstract) 설명할 수는 있지만, 심장 병리(cardiac pathology)를 진단할 때 그 이해를 적용하는 데(apply understanding) 실패한다면 그것은 수용 가능한가?

몇몇 커리큘럼 설계 프레임워크는, 학습 목표를 정의하는 것을 넘어, 교육자들이 학습의 바람직한 최종 상태(desired end state for learning)에 민감한(sensitive) 평가를 선택하거나 개발하고, 그런 다음 그 최종 상태의 달성을 촉진하는(foster achievement) 학습 활동을 개발하기 위해 역으로 작업(work backwards)할 것을 옹호한다(advocate). 그러한 프레임워크에는 역방향 설계(backwards design) (Wiggins & McTighe, 2005), 완전 학습(mastery learning) (McGaghie, 2015), 그리고 4요소 교수 설계(four-component instructional design) (van Merriënboer & Kirschner, 2012)가 포함된다. 학습 목표를 평가로 보강하는(Augmenting) 것은 바람직한 KSAO에 대한 추상적인 아이디어(abstract ideas)를 구체적이고 관찰 가능한 학습자 행동(concrete, observable learner behaviors)으로 조작화(operationalize)하는 데 도움을 준다. 이는 교육 개발자들이 그들의 초점(focus)을 명확히 하고(clarify) 학습 활동을 그 의도(intent)와 연계시키는(align) 데 도움이 되는 신중한 대화(deliberative conversations)를 촉발할(prompt) 가능성이 높다. 평가 개발 과정(Assessment development processes)은, 학습 목표의 중요한 측면을 "자연스럽게(naturally)" 알고 동의할 것으로 예상될 수 있는 전문가들조차도 그 목표가 수반하는(entails) 것에 대해 말로 표현되지 않은, 서로 다른(unstated, divergent) 개념들을 많이 가질 수 있음을 드러내왔다.

예를 들어, 한 연구는 관상 동맥 우회술(coronary artery bypass anastomosis) (기본적인 수술 기법(a basic surgical technique))을 위한 필수 행동(mandatory behaviors)에 대한 전문 흉부외과 의사(expert cardiothoracic surgeons)들의 의견이 매우 이질적(widely divergent)임을 발견했다; 각 전문가의 초기 "필수" 단계(initial “mandatory” steps) 중 단지 25%만이 평가 개발 연습(assessment development exercise) 후에 필수로 동의되었다(Vaporciyan, Fikfak, Lineberry, Park, & Tekian, 2017).
또 다른 연구는 전문가들이 윤상갑상막 절개술(cricothyrotomy) 수행의 핵심 측면(key aspects)이라고 믿는 것을 가르치는 것을 관찰했다; 저자들은 황금 표준 평가(gold-standard assessment) 내에 정의된 바에 따르면, 전문가들이 절차(procedure)의 핵심 측면 중 51%에서 73% 사이를 누락했음(omitted)을 발견했다(Sullivan, Yates, Inaba, Lam, & Clark, 2014).

물론, 평가되는 구인(construct)을 철저하게 표집해야(thoroughly sample) 한다는 핵심적인 AOL 원칙은 상당한 구인 축소 대표(construct underrepresentation)를 가진 어떤 평가를 중심으로 과정을 설계하는 것에 대해 우리에게 경고한다. 예를 들어, 만약 상당히 넓은 구인을 평가하기 위해 제한된 수의 선다형 문항(multiple-choice questions)만이 사용된다면, 그것은 문제의 소지가 있는(problematic) "시험에 맞춰 가르치기(teaching to the test)"로 이어질 수 있다.

작용 기전 #2: 평가 이벤트의 예상(ANTICIPATION OF AN ASSESSMENT EVENT)

평가 문항이 커리큘럼 설계자들에게 학습 목표를 조작화(operationalize)하는 것과 마찬가지로, 그것들은 학습자와 교육자에게도 유사하게 명확하고(clear) 유용해야(useful) 한다. 이상적으로, 평가는 또한 학습자와 교육자가 목표로 하는 학습(targeted learning)을 향해 노력하도록(strive toward) 동기를 부여한다(motivate). 동기(Motivation)에는 세 가지 요소(three components)가 있다:

(1) 강도(intensity), 예: 교육자가 학습자의 기저에 있는 사고의 틀(underlying frame of thinking)에 대한 힌트(hints)를 얼마나 열심히(intently) 듣는가;
(2) 지속성(persistence), 예: 학습자가 일부 내용을 공부하는 데 얼마나 오래(how long) 시간을 보내는가; 그리고
(3) 노력의 방향(direction of effort), 예: 교육자가 자신의 교수를 어떤 내용(which content)에 집중(focuses)하는가.

최적의 학습(Optimal learning)은 학습자와 교육자가 충분한 시간(sufficient amounts of time) 동안, 고품질의 학습 내용 및 접근 방식(high-quality learning content and approaches)에 열심히(effortfully) 참여할(engage) 때 발생해야 한다.

평가는 목표 설정(goal setting)과 노력(striving)에 대해 널리 알려진 바를 전형적으로 보여준다(exemplify): 즉, 목표(goals)는 행동(behavior)에 대한 강력한 동기(powerful motivation)를 생성할 수 있다는 것이다(Austin & Vancouver, 1996; Locke & Latham, 2002). 평가에서 아주 작은(miniscule) 공식 성적의 배정(assignment of formal grades)조차 중요한(matter) 것으로 보인다.

한 연구에서는, 학습 모듈(learning module)에 과정 성적의 단 1%만을 연관시킨(associating) 것이 학습자들이 거기에 추가 학습 시간(extra study time)을 할애할(devote) 가능성을 4배 더 높이게(four times more likely) 만들었다(Raupach, Brown, Anders, Hasenfuss, & Harendza, 2013).

성적 배정과 학습자 동기 간의 유사한 긴밀한 "연결(tight "coupling")"이 다른 연구들에서도 발견되었다(Buss et al., 2012; Wormald, Schoeman, Somasunderam, & Penn, 2009). 평가가 면허(licensing), 선발(selection), 또는 자격 부여(credentialing)에 사용될 때, 그것들은 특히 강한 동기(strong motivation)를 이끌어낼(elicit) 수 있다.

예를 들어, 미국 의학 교육(US medical education)에서, 의대생들은 미국 의사 면허 시험(United States Medical Licensing Examination, USMLE) Step 1 시험에서 좋은 점수를 받는 것에 매우 관심이 많아서, 학교의 공식 커리큘럼(schools’ formal curricula)의 많은 부분을 건너뛰면서(skipping) 그것을 위해 우선적으로(preferentially) 공부한다(Burk-Rafel, Santen, & Purkiss, 2017; Chen et al., 2019; Schwartz, Lineberry, Park, Kamin, & Hyderi, 2018).

따라서 특정 평가는 엄청난 강도(great intensity)와 지속성(persistence)의 노력을 이끌어낼 수 있지만, 아마도 교육자나 학습자가 원하는 방향(direction desired)은 아닐 수 있다. 따라서 USMLE Step 1과 같은 시험이 동기와 학습에 적절하게(appropriately) 영향을 미치고 있는지에 대한 논란(controversy)이 있다(Katsufrakis & Chaudhry, 2019; London et al., 2016; Mehta et al., 2016; Prober et al., 2016).

학습자들은 평가를 위한 자신의 공부를 계획하는 데(planning their studying) 매우 정교할(sophisticated) 수 있다. Cilliers, Schuwirth, Herman, Adendorff, and van der Vleuten (2012)은 의대생들에게 과정 종료 모듈(end-of-course modules)의 평가를 어떻게 준비하는지 인터뷰했으며, 평가가 임박함(imminent)에 따라 준비에 대한 인지된 작업부하(perceived workload)가 압도적(overwhelming)이 된다는 것을 발견했다. 그렇기 때문에, 자료를 깊이 있게 숙달하기(deeply master)를 선호했던 학생들조차 피상적인(superficial) "기계적(rote)" 암기로 전환했다. 학생들은 또한 이전 평가(prior assessments), 동료의 조언(peer guidance), 과거 교육자 행동(past educator behavior) 및 특정 평가의 실질적인 한계(practical limits)에 대한 정교한 추론(sophisticated reasoning)을 바탕으로, 평가가 어떤 유형의 질문(types of questions)을 특징으로 할지 예측했다(predicted). 예를 들어, 한 학습자는 깨달았다,

그들은 단지 한 질병의 병태생리학(pathophysiology)에 대해 20점[에 해당하는 질문]을 물을 수는 없어요 . . . [그들은] 가능한 한 넓게(widely) 내용을 다룰(cover) 거예요 . . . 그래서, 결국에는, 당신은 우스꽝스러운(ridiculous) 것들의 목록(lists)을 배우기 위해 지금 당장은 꽤 중요한(pretty important) 것들을 빼놓게(leave... out) 되죠. (Cilliers et al., 2012, p. 49)

저자들은 평가가 학습에 상당히(substantially) 영향을 미치지만—교육자들이 의도한 대로(as educators intended)는 아니라고 결론지었으며, 이는 평가의 교육적 효과(educational effects)가 종종 교육자들이 예측하는(predict) 것과 다르다는(van der Vleuten, 1996) 가정(supposition)과 일치한다.

무엇보다도, 평가는 학습자들을 목표(goal)를 향해 활력(energizing)을 불어넣을 뿐만 아니라, 그들이 채택하는 목표 지향성(goal orientations), 즉 그들이 추구하는(seeking) 학습 목표의 유형(types of learning goals)에도 영향을 미칠(influencing) 가능성이 높다(DeShon & Gillespie, 2005; Dweck, 1986). 학습자들이 다양한 정도로 채택하는 세 가지 주요 지향성(three main orientations)이 있다:

숙달(mastery) 또는 학습 지향성(learning orientation), 이는 그것 자체를 위한(for its own sake) 깊은 이해(deep understanding)를 추구하는(seeking) 것으로 특징지어진다;
수행-증명 지향성(performance-prove orientation), 이는 자신의 숙련도(proficiency)를 입증하려는(demonstrate) 시도로 특징지어진다; 그리고 이와 관련하여,
수행-회피 지향성(performance-avoid orientation), 이는 숙련도의 부족(lack of proficiency)을 보이지 않으려는(not show) 시도를 반영한다.

교육자들이 평생 학습자(life-long learners)를 육성하기를 희망하며(hopefully) 숙달 지향성(mastery orientation)을 가능한 한 장려하는(encourage) 것이 적절해(suitable) 보인다; 추가적으로, 일부 수행-증명 지향성(performance-prove orientation) 또한 학습과 수행에 기능적(functional)일 수 있다(Harackiewicz, Barron, Carter, Lehto, & Elliot, 1997; Payne, Youngcourt, & Beaubien, 2007).

목표 지향성은 학습자들이 평가를 예상(anticipate)하면서 가지는 감정(emotions)을 예측하는(predict) 것으로 밝혀졌다. 예를 들어,

숙달 지향성(mastery orientations)이 우세한(dominant) 사람들은 시험 직전(just prior to a test)에 더 많은 즐거움(enjoyment), 자부심(pride), 희망(hope)을 보고하는 반면,
수행-회피 지향성(performance-avoid orientations)이 우세한 사람들은 분노(anger), 불안(anxiety), 절망(hopelessness), 수치심(shame)을 보고한다(Pekrun, Elliot, & Maier, 2009).

이러한 목표 지향성과 감정적 반응(emotional responses)은 평가가 영향을 미칠 수 있는 중요한 학습 과정(important learning processes)을 나타내므로, 다른 모든 조건이 같다면(all else being equal), 우리는 깊고 탐구적인(deep, inquisitive) 학습 행동과 건강한 감정 조절(healthy emotion regulation)을 촉진하는(foster) 평가 설계를 선호해야 할 것이다.

학습자들이 교육자가 평가에 점수를 어떻게 배정하고(schedule and assign grades) 일정화하는지(schedule)에 따라 그들의 학습 및 공부 행동을 계획하고(schedule and orient) 방향을 정할(orient) 것임을 인식하면서, 보건 전문직 교육(health professions education)의 한 중요한 움직임(significant movement)은 프로그램 기반 평가(programmatic assessment)를 추진하고(pushing for) 있다. 이는 무엇보다도 더 빈번하고(more frequent), 간략하며(brief), "낮은 중대성(low-stakes)"의 평가를 요구하고(calls for) 크고(large) "높은 중대성(high-stakes)" 평가의 비중 축소(de-emphasis)를 요구한다(Schuwirth & van der Vleuten, 2011) (챕터 16 참조).

원칙적으로(On principle), 이 접근법은 학습자들 사이에서 더 많은 숙달 지향성(mastery orientation)과 더 고르게 분배된(evenly spaced) 공부 행동을 장려하는(encourage) 것처럼 보일 것이다. 그러나, 빈번하고(frequent) 소위(supposedly) 낮은 중대성(low-stakes)인 평가는 중대성이 없는(zero stakes) 것이 아니다; 사실, 그것들은 결정을 용이하게(facilitate decisions) 하고 중요한 결과(important consequences)로 이어지기 위해 시간이 지남에 따라 합산된다(summed over time). 따라서, 학습자들은 빈번한 작은 평가들을 더 전통적인 "총괄적(summative)" 평가와 거의 동일하게(much the same as) 보고 반응한다(Bok et al., 2013; Heeneman et al., 2015; Schut et al., 2018; Watling & Ginsburg, 2019). 그럼에도 불구하고(All the same), 여러 시점(multiple time points)에 걸쳐 평가를 분배하는(distributing assessments) 것은 학습자들이 자신의 공부를 더 넓게(more broadly) 분산하도록(space out) 이끄는(lead) 것으로 보인다(Kerdijk, Cohen-Schotanus, Mulder, Muntinghe, & Tio, 2015); 시간에 걸쳐 학습을 분산하는 것(spacing out learning over time)이 학습에 강력한 긍정적 효과(powerful positive effects)를 가지기 때문에(Cepeda, Pashler, Vul, Wixted, & Rohrer, 2006), 이것은 매우 바람직한(very desirable) 결과로 보인다.

학습자들이 평가에 의해 동기를 부여받는(motivated) 것과 마찬가지로, 교육자들(educators) 또한 자신의 학습자들의 평가 수행(assessment performance)에 대해 적어도 부분적으로 책임감(responsible)을 느낄 수 있다. 이는 잠재적으로 친숙한(familiar) 현상인 "시험에 맞춰 가르치기(teaching to the test)"로 이어진다. 이는 종종, 예를 들어, 비판적 사고(critical thinking)의 발달을 촉진하기보다는 기계적 암기(rote memorization)를 강조하는 교육자들을 비난하는(decry) 경멸적인 용어(pejorative)이다. 그러나, 그러한 경우의 근본적인 문제(root problem)는 시험에 맞춰 가르치는 것이 아니라, 오히려 교육 목표와 어긋나(misaligned) 있을 수 있는 시험 그 자체(the test itself)이다. 고차원적 인지 처리(higher-order cognitive processing)를 요구하는(requiring) 평가가 시행될 때, 학습자들은 필수적인(requisite) 사고 과정(thinking processes)을 더 잘 개발하는(develop) 경향이 있다(Jensen, McDaniel, Woodard, & Kummer, 2014).

이와 관련하여, van der Vleuten은 우리가 정말로 우려해야(concerned with) 하는 것은 자극 형식(stimulus formats), 즉 문항의 내용(content of items)임에도 불구하고, 선다형 문항 기반 시험(multiple-choice question-based tests)과 같은 특정 응답 형식(response formats)에 대해 부당하게 편향(unduly biased)되어 있을 수 있다고 제안한다.

즉, 훌륭한(excellent) 선다형 시험은, 마치 에세이 형식(essay-format) 시험이 단지 간단한 개념(simple concepts)의 기계적 암송(rote recitation)만을 요구할 수 있는 것처럼, 풍부한 비판적 사고(rich critical thinking)를 자극하는(stimulate) 사례(cases)와 선택지(choices)를 특징으로 할 수 있다(van der Vleuten, 1996).

평가 내용(assessment content) 선택에 대한 AAL 관점의 한 예는 가설 중심 신체 진찰(hypothesis-driven physical examination) 교육의 연구 및 실천이다. 학습자들이 "머리부터 발끝까지(head to toe)"의 광범위한(exhaustive) 신체 진찰 수기(physical examination maneuvers) 세트를 비교적 생각 없이(unthinking) 수행하는 것을 평가(하고 따라서 조장)하는 대신, 주어진 환자 사례(given patient case)의 맥락(context)에서 어떤 수기가 임상적으로 감별(clinically discriminating)하는 데 도움이 될지 학습자들이 예상(anticipate)할 수 있는지를 평가할 수 있다(Yudkowsky et al., 2009). 신체 진찰과 병력 청취(history taking) 모두에서 학습자의 비판적 사고에 대한 유사한 초점(Similar focus) 또한, 전략(strategy)이나 성찰(reflection) 없는 철저한 "반추(regurgitation)" (기계적 암기)보다는 사려 깊고(thoughtful) 효율적인(efficient) 데이터 수집을 촉진하기 위한(promote) 노력의 일환으로 탐색(explored)되어 왔다(Yudkowsky, Park, Riddle, Palladino, & Bordage, 2014). "시험에 맞춰 가르치기(teaching to the test)"에 대한 불편함(Discomfort)은 종종 정당화될(warranted) 수 있지만, 이는 틀림없이(arguably) 평가를 완전히 포기하는(abandonment of assessment entirely) 것이 아니라, 평가 실천(assessment practices)을 바람직한 학습 과정 및 결과와 더 잘 연계(better alignment)하도록 동기를 부여해야 한다.

작용 기전 #3: 평가 이벤트 자체(THE ASSESSMENT EVENT ITSELF)

평가를 완료하는 것(completing an assessment)의 직접적인 학습 이점(direct learning benefit)—우리가 학습으로서의 평가(assessment as learning)라고 부를 수 있는—는 시험 효과(testing effect) 또는 시험 강화 학습(test-enhanced learning)이라고 불리는 현상(phenomenon)으로, 놀랍도록 강력하고(remarkably strong) 견고하다(robust)고 입증되었다. 일반적인 학습 전략(common learning strategies)에 대한 대규모 검토(large-scale review)에 따르면, '학습으로서의 평가'는 장기 학습(long-term learning)을 촉진하기 위한(for fostering) 가장 유용성이 높은(highest-utility) 두 가지 전략 중 하나이며, 두 번째 전략은 분산 효과(spacing effect)로 알려진, 학습된 자료를 시간 간격(time in between)을 두고 반복적으로(repeatedly) 공부하거나 연습하는(study or practice) 것이다(Dunlosky, Rawson, Marsh, Nathan, & Willingham, 2013).

여러 연구(Several studies)가 시험 효과(testing effect)가 얼마나 강력하고(strong) 일반화 가능한지(generalizable)를 보여준다. 예를 들어,

Karpicke와 Blunt (2011)는, 개념 매핑(concept mapping)이 일반적으로 매우 능동적이고(highly active) 효과적인(effective) 전략으로 생각되고(thought to be) 최종 평가(final assessment)가 상대적으로 복잡한 추론(complex reasoning)을 요구했다는 사실(in spite of the fact)에도 불구하고, 지연된(delayed) 과학 평가(science assessment)에서 수행(performance)을 촉진하는(facilitate) 전략으로서 시험(testing)이 콘텐츠 매핑(content mapping)보다 극적으로(dramatically) 더 효과적(d = 1.50)임을 발견했다.
Raupach와 동료들은(Raupach et al., 2016) 4학년 의대생들의 임상 추론(clinical reasoning) 학습(learning clinical reasoning)에서, 간략한 핵심 특징 스타일(key-features-style)의 연습 문제(practice questions)가 6개월의 지연(six-month delay) 후에도 사례 기반 학습(case-based learning) 접근법(d = .29)보다 더 큰 학습(greater learning)으로 이어졌음을 발견했다.
한편, Larsen, Butler, Lawson, Roediger (2012)는 1학년 의대생들에게 표준화 환자 기반(standardized patient-based) 연습 시험을 사용하여 병력(history) 및 신체 진찰(physical examination) 기술을 평가한 것이, 필기 연습 시험(written practice testing) (d = .55)과 일반적인 공부(typical studying) (d = .84)보다 더 큰 학습으로 이어졌음을 발견했다.
유사하게, 생리학(physiology) 내용의 시험(testing) 대 일반적인 공부(typical study)를 비교한 연구에서는, 시험이 지연 후(after a delay) 학습의 더 나은 인출(better recall) (d = .62–.82)과 학습된 내용과 관련된 과학 기사(scientific articles)를 비평하는(critique) 더 큰 능력(greater ability) (d = .65–.81)을 지원했음을(supported) 발견했다(Dobson, Linderholm, & Perez, 2018).
최근 메타 분석(meta-analysis)은 시험이 미래에(in the future) 학습하지 않은 관련 자료(unstudied related material)의 학습(g = .75)도 향상시킨다(enhances)는 것을 보여주었으며(Chan, Meissner, & Davis, 2018), 이는 학습자들이 미래 학습을 위한 준비(preparation for future learning)를 하도록 촉진하라는(foster) 최근의 요구(recent call)와 유사하다(Mylopoulos, Brydges, Woods, Manzone, & Schwartz, 2016).

이러한 미래 학습 향상(enhancement of future learning)의 기전(mechanisms)은 조사 중(under investigation)에 있다; 한 가지 이론은 시험이 학습자들로 하여금 단지 학습된 내용(learned content)뿐만 아니라 일반적으로(in general) 더 효과적인(more effective) 기억 부호화 전략(memory encoding strategies)으로 전환(shift)하도록 유발한다는(causes) 것이다(Wissman, Rawson, & Pyc, 2011).

'학습으로서의 평가(assessment as learning)'가 왜 그렇게 강력한 효과를 갖는지에 대해 여러 기전(several mechanisms)이 조사되고 있지만, 두 가지 간단한 기전(two simple mechanisms)이 그 현상(phenomenon)의 많은 부분을 설명할 수 있다.

첫째, '학습으로서의 평가'는 어렵다(hard)—그것은 힘든 정신적 처리(effortful mental processing)를 요구한다—이는 뇌(brain)가 새롭거나 더 강력한 연결(new or stronger connections)을 형성하도록 신호(signals)를 보내며, 교육학자 Robert Bjork가 "바람직한 어려움(desirable difficulty)"이라고 부른(calls) 것을 만든다(Bjork, 1994). 이것이 시험 효과(testing effect)의 "고통 없이는 얻는 것도 없다(no pain, no gain)" 이론이다.
둘째, 잘 설계되었을 때(when designed well), '학습으로서의 평가'는 학습자들이 미래에(in the future) 학습을 적용하려(apply learning) 할 때 도전받을(challenged) 방식과 유사한(similar) 방식으로 학습자들에게 도전한다. 즉, 그것은 "전이 적합 처리(transfer-appropriate processing)"를 요구한다(Kulasegaram & McConnell, 2016).

이 두 가지 기전은 왜 특정 평가 설계 특징(assessment design features)이 시험 효과(testing effect)를 특히(especially) 강력하게 만들 수 있는지 설명하는 데 도움이 된다. 예를 들어, 단답형(short answer) 또는 에세이 기반(essay-based) 시험과 같은 구성형 응답(constructed-response) 평가는 선다형 시험(multiple-choice tests)과 같은 선택형 응답(selected-response) 평가보다 더 큰 학습(greater learning)으로 이어진다(Kang, McDermott, & Roediger, 2007; McDaniel, Roediger, & McDermott, 2007).

전자의 응답 형식(former response format)은 피험자(examinees)가 기억(memory)에서 시험된 개념을 인출(retrieve)한 다음 응답을 생성(produce a response)할 것을 요구하는 반면,
후자(latter)는 단지 선택지 목록(list of options)에서 정답을 인식(recognizing)하는 것만을 요구한다.
전자가 더 도전적인 정신적 과제(more challenging mental task)이며 또한 실제 삶과 더 비슷하다(more like real life).

실제 삶에서는 학습이 보통 정답(correct responses)에 대한 강력한 상기(strong reminders)의 도움 없이 적용되어야 하기 때문이다. (이 장의 쪽지 시험(pop quiz)에 대한 당신의 경험을 되돌아보면(Reflecting on): 나는 당신이 단답형 형식(short-answer format)의 질문을 완료하는 것이 어렵다(difficult)고 느꼈는지 궁금하다! 나는 또한 궁금하다: 그 질문들에 답하는 것이 당신이 그 내용을 얼마나 잘 배웠다고 믿는지(believed you had learned)를 변화시켰는가? 나 자신도(I myself) 내가 비교적(relatively) 전문가인(expert in) 내용에 대해서조차, 그런 질문들에 답하는 데 적어도 약간은—때로는 많이—고군분투한다(struggle). 그 고군분투는 유익하다(That struggle is beneficial)!)

구성형 응답(constructed-response) 문항 형식의 한 가지 단점(drawback)은 채점(scoring)이 시간이 많이 걸릴(time-consuming) 수 있다는 것이다. 교육적 효과(educational effect)와 채점의 용이성(ease of scoring) 사이의 균형을 맞추는(balance) 한 가지 방법은 선다형 시험(multiple-choice testing)에서 순차적으로 제시되는(sequentially-presented) 답안 선택지를 사용하는 것이다: 피험자들이 모든 선택지(all options)를 보고 정답(correct one)을 선택하도록(choose) 요청받는 대신, 그들은 한 번에 하나의 선택지(one option at a time)를 보게 되며 각각이 옳은지(correct) 아닌지(not) 결정해야(decide) 한다(Willing, Ostapczuk, & Musch, 2014). 단답형 응답(short answer responses)의 더 많은 컴퓨터 자동 채점(computer-automated scoring)을 가능하게 하려는 연구와 개발(Research and development) 또한 진행 중이다(Waters, Grimaldi, Lan, & Baraniuk, 2017).

그 강력함(its strength)에도 불구하고, '학습으로서의 평가'는 학습자들과 교육자들에 의해 깊이 오해받고(deeply misunderstood) 활용도가 낮은(underutilized) 것으로 보인다. 학습자들은 공부(study) 중에 '학습으로서의 평가'를 드물게(infrequently) 사용하고, 그것이 얼마나 효과적인지 과소평가하며(underestimate), 그것을 의도적 연습(deliberate practice)이나 공부의 한 형태(form)라기보다는 주로 진단 도구(diagnostic tool)로 생각하는(think of) 경향이 있다(Karpicke, Butler, & Roediger, 2009; Karpicke & Roediger, 2008; Kornell & Bjork, 2007, 2008; McCabe, 2011; Wissman, Rawson, & Pyc, 2012). 이는 부분적으로 '학습으로서의 평가'에 필요한 높은 수준의 정신적 노력(high level of mental exertion) 때문일 수 있다; 여분의 에너지(spare energy)가 제한된 학습자들은 더 수동적인(more passive) 형태의 공부를 선택할(opt for) 수 있다. '학습으로서의 평가'는 또한 단기적으로는(in the short-term) 비효율적(ineffective)으로 느껴진다—그리고 사실(in fact), 그것은 더 수동적인(more passive) 공부 활동(study activities)에 비해, 매우 단기적인(very short-term) 학습을 자극하는 데는 덜 효과적이다(Mulligan & Peterson, 2014). 이는 우리 자신의 학습(our own learning)에 대한 이해(understanding)에 있어 "맹점(blind spot)"을 시사한다: 비효율적인(ineffective) 전략이 그 순간에는(in the moment) 효과적(effective)으로 느껴지고, 우리가 유능하다고(competent) 느끼도록(feel) 도와주며, 적은 에너지(little energy)를 요구하기 때문에, 비록 그것들이 장기적으로는(in the long run) 비효율적일지라도, 우리는 그것들을 사용한다. Kornell과 Bjork (2007)는 "메타인지적(meta-cognitively)으로 정교한(sophisticated) 학습자가 되는 것은 결코 간단하지(simple) 않다; 그것은 특정 직관(intuitions)과 표준적인 관행(standard practices)에 반(against)하고, 학습이 어떻게 작동하는지에 대한 합리적으로 정확한 모델(reasonably accurate model)을 가지며, 단기적 수행(short-term performance)에 오도되지(misled) 않는 것을 요구한다"라고 잘 표현했다. 그러니, 만약 당신이 이 장의 시작 부분에서 퀴즈 질문(quiz questions)에 답하는 것을 이상하게(strange) 느꼈다면, 그것이 정상(normal)임을 알라—하지만 당신은 그것을 더 자주(more often) 할 것을 고려할(consider) 수도 있다! 나는 좋은 연습 문제(good practice questions)가 학습 자료(learning materials)에 동반되는(accompanied) 것이 흔하지는(uncommon) 않지만, 가능할(available) 때 그러한 질문들이 고맙다(appreciate)는 것을 발견한다.

작용 기전 #4: 평가 후 성찰 및 개선(POST-ASSESSMENT REFLECTION AND IMPROVEMENT)

평가 데이터(Assessment data)는 미래의 학습(future learning)을 안내하기(guide) 위해 분석되고(analyzed) 학습자 및 교육자와 공유될(shared) 수 있다. 그러나, 일반적인(typical) 평가 관행이 피드백으로부터의 학습(learning from feedback)을 촉진하기(facilitate)에 잘 설계되었는지(well designed)에 대해서는 회의론(skepticism)이 필요하다(in order). 예를 들어,

Humphrey-Murto 등(Humphrey-Murto et al., 2016)은 OSCE를 완료한 레지던트(residents)들이 OSCE 직후(immediately after)나 한 달 뒤(one month later)에 각 스테이션(station) 이후에 그들이 받았던(had been given) 피드백을 거의 기억하지 못했음(remembered very little)을 발견했다.
Harrison 등(Harrison et al., 2013)은 온라인에서 볼 수 있는(available online) OSCE 후(post-OSCE) 피드백에 대해, 높은 성과를 낸(high-performing) 학생들이 피드백을 가장 많이(the most) 본 반면; OSCE를 간신히 통과했고(just barely passed) 아마도 상당한 개선(considerable improvement)이 필요했던(needed) 학생들은 피드백을 가장 적게(the least) 보았음을 발견했다.
피드백 연구(feedback research)에 대한 고전적인(classic) 종합(synthesis) 연구에서 Kluger와 DeNisi (1996)는 놀라운 비율(surprising proportion)의 피드백 중재(feedback interventions)가 사실상 비효과적(ineffective)이었으며, 피드백 중재의 약 3분의 1(one-third)은 실제로 수행을 감소(performance to decrease)시켰음을 발견했다.
피드백으로부터의 학습은 교육에서 매우 큰 주제(very large topic)이므로, 여기서는 그 과정(process)에 대한 넓은 모델(broad model)과 AAL 관점(AAL perspective)에서의 몇 가지 주요 고려사항(key considerations)만을 공유할 것이다.

수행 격차 파악하기(Identifying Performance Gaps)

피드백으로부터의 학습(Learning from feedback)은 만약 학습자가 피드백 속의 중요한 정보(important information)를 알아차리거나(notice) 그것에 인지적, 정서적으로 관여(engage with it cognitively and emotionally)할 수 없거나(unable) 그러길 원치 않는다면(unwilling), 학습 주기(learning cycle)의 바로 맨 처음에 붕괴될(break down) 수 있다. 따라서 교육자들은 이렇게 질문해야 한다. 나의 평가 피드백은 학습을 향해 의미 있게 해석하기(meaningfully interpret) 쉽도록 설계되었는가, 그리고 학습자들은 그것을 받아들일 정서적 준비(emotionally prepared)가 되어 있는가? 인지 부하 이론(Cognitive load theory) (Van Merrienboer & Sweller, 2010) 및 멀티미디어(multimedia) 학습 관련 이론(Mayer, 2014)은 피드백의 인지적 해석 가능성(cognitive interpretability)을 향상시키기 위한 많은 원칙(principles)을 제공한다. 예를 들어, 피드백을 학습자의 응답과 인접하게(contiguous) 만드는 것—가령 온라인 평가에서 별도의 피드백 보고서(separate feedback report)가 아닌 각 질문 바로 옆(right next to)에 피드백을 제시(presenting)하는 것—은 학습자들이 자신들의 주의를 분산(split their attention)시킬 필요 없이 피드백을 처리하도록(process feedback) 돕는다.

평가가 채점(scoring)을 위해 전문가의 판단(expert judgment)을 요구할 때, 피드백을 즉각적으로(promptly) 제공하는 것은 어려운 과제(challenge)가 될 수 있으며, 이는 AOL(학습에 대한 평가)과 AAL(학습에 영향을 미치는 평가)의 우선순위(priorities)가 때때로 절충(trade-offs)을 요구할 수 있음을 보여준다. 예를 들어,

숙련된 임상의(experienced clinicians)의 전문성(expertise)은 종종 그들을 바람직한(desirable) 평정자(raters)로 만들지만, 그러한 임상의들은 종종 극도로 바빠서(profoundly busy), 평정(ratings)을 즉각적으로 수집하기(collect ratings promptly) 어렵게 만든다.
- 학생들의 OSCE 비디오를 평정하기 위해 의대 교수진(medical faculty)을 활용하는 과정을 시뮬레이션한 한 연구(Grichanik, 2017)에 따르면, 단 6명(six learners)의 학습자들에 대한 평정을 4명(four)의 교수진으로부터 수집하는 데 최장 16일(as long as 16 days)이 걸렸다.
- 같은 연구에서, 비전문가(laypersons)를 평정자로 모집한(recruiting) 결과 유사한 타당도(similar validity)와 신뢰도(reliability)를 보이면서도 훨씬 더 빨랐다; 20명의 비전문가 평정은 단 5시간(just over five hours) 만에 수집될 수 있었다. 비전문가와 교수진 간의 유사한 속도 차이(Similar speed differences)는 환자 노트 채점(patient note scoring) 연구에서도 발견되었다(Yudkowsky et al., 2019).

그러한 상황에서, 교육자들은 피드백의 속도(speed of feedback)와 그로 인한 학습을 향상시키기 위해 약간의 타당도(some validity)를 희생(trade)할 수 있다.

학습자들이 피드백에 대해 정서적으로 준비되도록(emotionally prepared for feedback) 돕는 것은 어려울 수 있으며, 특히 많은 학습자들이 강한 정서적 반응(strong emotional reactions)을 보이는 경향이 있는 평가에서는 더욱 그렇다. Kluger와 DeNisi (1996) 연구의 핵심 발견(core finding)은 피드백이 학습자의 주의(attention)를 과제(task) 또는 과제 전략(task strategies)으로 이끌(draws... to) 때 그것이 효과적일(effective) 가능성이 더 높은 반면, 그것이 학습자의 주의를 그들의 자아 개념(self-concept)이나 자존감(sense of self-worth)으로 이끌 때에는 비효율적이거나(ineffective) 심지어 해롭다(harmful)는 것이었다.

우리는 인지(cognitions)와 감정(emotions)을 별개의(separate) 과정(processes)으로 생각하는 경향이 있지만, 그것들은 둘 다 제한된 주의(limited attention)와 에너지(energy)를 두고 경쟁한다(compete).

만약 피드백이 학습자의 자아(learners’ self)를 겨냥하여(targets) (우리가 "와, 당신은 놀랍도록 뛰어나군요(remarkably skilled)!"라고 말할 경우 발생할 수 있는) 강렬한 자부심(intense pride)이나 ("흠... 당신은 정말로 동료들의 수준(level of your peers)에 미치지 못하는군요") 수치심(shame), 또는 다른 어떤 강한 자아-관련 감정(strong self-relevant emotions)을 유발한다면(triggers), 인지 부하 이론은 학습자가 학습에 초점을 맞춘 처리(learning-focused processing)가 일어나는 데 필요한 여분의 주의력(spare attentional capacity)이 더 적을 것이라고 예측한다.

이를 염두에 두고, 학습 이론가들은 몇 가지 관련된 원칙들을 강조해왔다: 학습자를 위한 심리적 안전(psychological safety)의 환경(environment)을 만드는 것(Edmondson, 1999; Rudolph, Raemer, & Simon, 2014)과 학습자와 교육자 간의 교육적 동맹(educational alliance)을 확립하는(establishing) 것의 중요성이다(Telio, Ajjawi, & Regehr, 2015). 즉, 피드백을 둘러싼(around feedback) 대중적인 지침(popular guidance)의 상당 부분은 그것을 학습자에게 "전달되는(delivered)" 어떤 것(a thing)처럼 취급하지만, 피드백은 신뢰(trust), 긍정적인 기대(positive expectations), 평온한 감정(calm emotions)에 더 도움이 될(conducive) 수도 덜 될 수도 있는 관계(relationship)의 일부이다.

새로운 접근법 생성하기(Generating New Approaches)

만약 학습자가 수행의 격차(a gap in performance)에 대한 중요한 피드백에 성공적으로 주의를 기울인다면(successfully attends to), 그들은 이어서 개선(improve)을 위한 적절한 전략(appropriate strategy)을 생성(generate)해야 한다. 교육자들은 학습자들이 수행 격차의 기저 원인(underlying causes)을 이해하도록 도움으로써(helping learners understand) 보조할(assist) 수 있다. 예를 들어, 학습자들은 단순히 어떤 답이 옳은지(which answers are correct) 듣는 것보다, 선다형 답안(multiple-choice answers)이 왜 맞고(correct) 틀리는지(incorrect)에 대한 이론적 근거(rationales)를 보는 것(seeing)으로부터 이익을 얻는다(benefit)(Levant, Zückert, & Paolo, 2018; Wojcikowski & Kirk, 2013). 모의 또는 실제 환자 진료(simulated or actual patient care episodes) 후 수행에 대한 디브리핑(debriefing)에서, Rudolph, Simon, Raemer, Eppich (2008)는 디브리핑 촉진자(debrief facilitators)가 "인지 탐정(cognitive detectives)"처럼 행동해야 한다고 제안한다. 즉, 학습자의 현재 수행(learners’ current performance)을 설명할(explain) 수 있는 기저의 사고의 틀(underlying frames of thinking)을 발견하기(discover) 위해 학습자의 생각(learners’ thoughts)을 이끌어내고(eliciting), 그런 다음 그들이 미래 수행(future performance)을 위한 새로운 전략(new strategies)을 생성하도록 돕는 것이다.

AAL 관점은 평가 형식(assessment formats)이 피드백과 학습에 어떻게 영향을 미칠 수 있는지에 대해 우리가 다르게 생각하도록(think differently) 도울 수 있다. 관찰 평가(observational assessments)를 위해 체크리스트(checklist) 대 총괄 평정 척도(global rating scale) 형식이 얼마나 유용한지에 대해 논쟁(debate)이 있어왔는데, 이 논쟁은 역사적으로(historically) 각 형식의 측정 속성(measurement properties)에 초점을 맞춰왔다(Ilgen, Ma, Hatala, & Cook, 2015). 어떤 형식이든, 우리는 점수(scores)가 타당하고(valid) 신뢰할 수(reliable) 있는지 뿐만 아니라, 수행 격차(performance gaps)가 확인되었을 때 교정 조치(corrective actions)가 쉽게 명백한지(readily apparent)도 궁금해해야 한다. 예를 들어, 특정 학습자의 총괄적인 "전문직업성(Professionalism)" 평정(rating)은 5점 척도(five-point scale)에서 "3점", 아마도 "수용 가능함(Acceptable)"으로 기준(anchored)되어, 신뢰할 수 있고 타당하게(reliably and validly) 채점될 수 있다. 그러나 학습자가 그것을 어떻게 받아들여야(make of that) 하는지는 명확하지(clear) 않다; 그들은 다르게 행동해야 하는가, 만약 그렇다면, 어떻게(how)? 행동 기준 평정 척도(Behaviorally anchored rating scales, BARS) (챕터 9 참조)와 체크리스트는, 본질적으로(inherently) 더 구체적(concrete)이기 때문에, 많은 경우 학습에 대해 더 명확한(clearer) 함의(implications)를 가질(likely to have) 가능성이 높아 보인다. 그렇긴 하지만, 체크리스트와 BARS조차도, 맞거나(correct) 틀린(incorrect) 점수가 개선될(improved) 수 있는 명확한 행동(clear behaviors)과 연결되도록(tied to) 보장하기 위한(ensure) 세심한 주의(careful attention)로부터 이익을 얻을 것이다. 예를 들어,

자신이 수행한 절차(procedure)에 대해 피드백을 받는 학습자가, "환자의 사전 동의(informed consent) 확보하기"와 같은 절차의 어떤 단계(step)에 대해 자신의 기법(technique)이 "부정확했다(incorrect)"고 간주되었음을(deemed) 아는 것은 유용할 것이다.
그러나, 그들의 사전 동의가 구체적으로(specifically) "절차를 명확하고 비전문적인(clear, non-technical) 언어로 설명하는(explain)" 데 실패했기(failure) 때문에 부정확했다는 것, 즉 그들이 쉽게 개선할(readily improve) 수 있는 무언가를 아는 것이 훨씬 더 유용할(even more useful) 것이다.

새로운 접근법 적용 및 강화하기(Applying and Reinforcing New Approaches)

마지막으로, 학습자들은 나중에(later) 자신의 학습을 적용할(apply their learning) 기회(opportunities)를 인식하고(recognize) 활용할(take advantage of) 수 있을 만큼 충분히 강력하게(strongly enough) 새로운 사고와 행동 방식(new ways of thinking and behaving)을 강화(reinforce)해야 한다. 만약 학습자들이 평가 후 피드백(post-assessment feedback)과 수행 향상(performance improvement)에 종종 무관심(disinterested)하더라도, 그것은 아마도 그렇게 놀라운 일이 아닐 것이다. 왜냐하면 특히 도전적인(challenging) 평가 후에, 그들은 종종 오랜 시간(a long time) 동안 그런 방식(that way)으로 수행해야 할(need to perform) 유일한(only) 시간처럼 보일 수 있는 것에서 방금 "생존했기(survived)" 때문이다. 마라톤 선수(marathon runner)가 결승선(finish line)을 통과하자마자 달리기를 멈추는(stop running) 것과 마찬가지로, 학습의 관여(engagement in learning)는 주요 평가(major assessment) 후에 급락할(plummet) 수 있다(Pugh & Regehr, 2016). 학습자들이 평가 후에 성찰하고(reflect), 연습하며(practice), 수행 향상(performance improvements)을 공고히(solidify) 하도록 보장할(ensure) 만큼 충분히 학습자들의 동기(motivation)를 강화하는(reinforce) 한 가지 방법은 "일회성(one-off)" 평가의 시행을 중단하고, 대신 학습자들이 수행할 여러 기회(multiple opportunities)를 제공하는(providing) 것이다 (챕터 16 참조). 예를 들어,

완전 학습(mastery learning) 기반 교수 설계는 평가를 두 번 이상(two or more times) 시행함으로써(administering) 이를 달성한다: 만약 학습자들이 교육 모듈(educational module) 전에 평가에서 충분히 잘 수행할(perform well enough) 수 있다면, 그들은 그 모듈을 완전히 건너뛸(skip the module entirely) 수 있다;
반대로, 만약 그들이 모듈 후에도 평가에서 여전히 수행에 어려움을 겪는다면(struggle to perform), 그들은 충분히 강력한 수행(sufficiently strong performance)을 입증할(demonstrate) 수 있을 때까지 필요한 만큼(as many times as needed) 재학습하고 재시험을 치러야(restudy and retake) 한다(Lineberry et al., 2015).

유사하게, 평가 경험(assessment experiences)은 그것들이 실제(real-life) 연습 및 평가 기회에 의해 즉각적으로 뒤따르도록(promptly followed) 커리큘럼 내에서 시기가 조절되어야(timed) 한다; 예를 들어,

학습자들이 임상 환경(clinical environment)에서 카테터(catheters) 삽입을 관찰하거나(observing) 직접 삽입하기(placing) 시작할 것 같기(likely to begin) 바로 직전(just before)에 카테터 삽입(catheter insertion)을 평가하는 것이다.

요약 및 다음 단계(SUMMARY AND NEXT STEPS)

위의 이론과 연구 결과(theory and findings)를 고려할 때, 나는 학습에 영향을 미치는 평가(assessment affecting learning, AAL) 사고 및 설계의 틀(frame of thinking and design)과 더불어 전통적인 학습에 대한 평가(assessment of learning, AOL) 사고 및 설계의 틀로 접근하는 평가(assessments)가, 교육(education)에서 학습과 수행(learning and performance)을 촉진하는(fostering) 주요한 방법(primary method)이 되어야 한다고 제안한다(posit). AAL 프레임은

과정 설계(course design)에서 집중적이고 통찰력 있는 숙의(focused and insightful deliberation),
학습과 교수를 위한 명료성(clarity)과 동기(motivation),
목표로 하는 학습자 KSAO의 바람직하게 어려운 연습(desirably difficult exercise), 그리고
성찰과 성장(reflection and growth)의 촉진을 증진할(promote) 수 있다.

그렇긴 하지만, 우리는 또한 AAL을 적용하는 데(applying AAL) 따르는 어려움(challenges)이 많고(many) 다양하다(varied)는 점에 주목한다. AFL(학습을 위한 평가)의 교육 프로그램 수준(educational program-level)의 잠재력(potential)을 실현하는(realize) 것은 주요한 과업(major undertaking)이 될 것이며, 우리는 그것을 채택하기(adopt) 위해 교육 시스템(educational system)과 문화(culture)를 바꾸는(change) 것이 얼마나 어려울지(difficult) 과소평가하는(underestimate) 경향이 있을 수 있다(Harrison et al., 2017). AAL이 보건 전문직 교육(HPE)에서 더 대중화되고(more popular) 있지만, 그것은 교수 개발(faculty development)과 정규 교육 학위 프로그램(formal education degree programs)에서는 여전히 드문(uncommon) 영역이다. 교육 평가(educational assessment) 분야의 상급 학위(advanced degrees)를 가진 전문가들조차도 그것에 대해 거의 또는 전혀(little to no) 훈련(training)을 받지 않았을(likely to have) 가능성이 높은데, 왜냐하면 그 학위들은 일반적으로 AOL에만 초점(focused only on AOL)이 맞춰져 있기 때문이다. 그리고 이전에 언급했듯이, AOL 사고의 틀은 확고하게(well established) 자리 잡은 경향이 있으며, 일부 AAL 원칙들은 완전히 직관에 반한다(outright counterintuitive).

그러나, AAL "미시적 중재(micro-interventions)"는 상당히 실행 가능하다(quite feasible). 현재 평가를 포함하고(features) 있는 어떤 과정(Any course)이라도 AAL 렌즈(AAL lens)로 그 평가를 평가하고(evaluate) 학습을 향상시키기(enhance learning) 위해 그것을 점진적으로(incrementally) 재설계(redesign)할 수 있다. 유사하게, 현재 평가가 거의 또는 전혀(little or no) 없는 어떤 과정이라도, 비록 기존 학습 활동(existing learning activities) 내에 산재된(interspersed) 연습 문제(practice questions)로서일 뿐일지라도, 적절한(suitable) 평가를 개발하거나(develop) 빌려와서(borrow) 그것들을 통합할(incorporate) 수 있다. AAL을 위한 역량(capacity for AAL)을 개발하고자 하는 학교들은 또한 저널 클럽(journal clubs), 짧은 워크숍(short workshops), 개발 연구비(developmental grants) 등을 통해 기존의 교수 개발 프로그램(existing faculty development offerings)을 그 방향으로(in that direction) 겨냥하는(aim) 것을 모색할(look to) 수 있다. 우리는 앞으로(in the years to come) 이 분야가 교육에서 AAL 고려사항(AAL considerations)을 계속해서 연구하고(study), 혁신하며(innovate), 통합하기를(incorporate) 기대한다(look forward to).

쪽지 시험 답안(POP QUIZ ANSWERS)

질문 1: 한 단어 용어(one-word terms)의 경우, 정확한 용어(exact terms)를 아는 것이 유용할 수 있지만, 가까운 동의어(close synonyms)로도 아마 충분할(suffice) 것이다. 짧은 정의(short definitions)의 경우, 당신의 답이 개념적으로(conceptually equivalent) 다음과 같다면, 특정한 표현(specific phrasing)은 물론 중요하지 않다:

채점(Scoring): 평가 점수(assessment scores)가 평가 환경(assessment environment)의 "소우주(microcosm)"에서 일어난 일(what happened)을 반영한다(reflect)는 추론(inference) (또는 가정(assumption)).
일반화(Generalization): 평가 점수가 피험자들이 만약 그 평가를 여러 번(many times), 그리고 평가의 세부 사항(assessment details)들이 사소하게(trivially) 달랐을 수 있는(might have... differed) 모든 다른 방식(all the different ways)으로 (예: 다른 요일(different days of the week), 동등하게 적절한 문항(equally suitable items), 다른 평정자(different raters) 등) 치렀다면 그들이 받았을(would have gotten) 점수(scores)를 반영한다는 추론 (또는 가정).
외삽(Extrapolation): 평가 점수가 피험자들의 관심 대상인 실제(real-world) 수행을 반영한다는, 즉 그것들이 "대우주(macrocosm)"에 해당한다(correspond to)는 추론 (또는 가정).
결정(Decisions) (또는 "결과(Consequences)" 또는 "함의(Implications)"): 평가 점수 해석(assessment score interpretations)과 사용(uses)이 영향을 받는(affected) 모든 사람들에게 적절한(appropriate) 결정(decisions)과 결과(consequences)로 이어진다(lead to)는 것.

질문 2: 여기에는, 구인 무관 변량(construct-irrelevant variance)의 많은 가능한 예(many possible examples)가 있다; 약어 "CIV"로 표시된(denoted) 몇 가지 예를 보려면 챕터 2, 표 2.3(Chapter 2, Table 2.3)을 참조하라. 구인 무관 변량으로 간주되려면(To count as...), 각 타당도 위협(validity threat)은 그 시험(test)이 무언가를 측정하고(measuring something)는 있지만, 당신이 측정하려고 의도했던 것(what you meant to measure)이 아닌 것이어야 한다. 예를 들어, 만약 일부 학생들이 답안(answer key)을 훔쳤기(stole) 때문에 더 좋은 점수(score better)를 받았다면, 그 시험은 "답안 절도(answer key theft) (예 vs. 아니오)"를 측정하고 있는 것이며, 그것은 당신이 그 점수가 측정하기를 바랐던(hoped... measuring) 것이 아니다. 유사하게, 만약 정답(correct answers)이 오답인(incorrect) 오답지(distractor) 답안들보다 더 짧은(shorter) 경향이 있도록 선다형 선택지(multiple choices)가 만들어졌다면, 당신은 그 시험이 부주의하게(inadvertently) "피험자들의 시험 요령(examinees’ test-wiseness)"을 측정하고 있다고 말할 수 있으며—이 또한, 아마도 당신이 측정하려 의도했던 것(meant to be measuring)이 아닐 것이다.

만약 당신의 답 중 어느 하나라도 그 시험이 중요한 무언가를 측정하는 데 실패(failing to measure something important)하는 것을 언급했다면, 그것은 구인 무관 변량이 아니라 구인 축소 대표(construct underrepresentation)이다. 예를 들어, 만약 그 시험이 (당신이 둘 다 다루려고(cover) 의도했음에도 불구하고) 심장(cardiac) 질환이 아닌 호흡기(respiratory) 질환의 병태생리학(pathophysiology)을 다룬다면(covers), 더 넓은 구인(broader construct)이 당신의 시험에 의해 축소 대표(under-represented)된 것이다.

참고(Note): 추가 자료(Additional material) 및 자원(resources)은 UIC AHPE 웹사이트(website)에서 이용 가능할 수 있음: https://go.uic.edu/AHPE

'논문 읽기 (with AI)' 카테고리의 다른 글

의학 교육의 불연속성 위기 헤쳐나가기 (N Engl J Med. 2025) (0)	2025.11.12
21세기 의학을 위한 비판적 사고—질병 스크립트를 넘어서 (JAMA, 2025) (0)	2025.11.12
[AHSE] 16 프로그램 기반 평가(PROGRAMMATIC ASSESSMENT) (0)	2025.11.02
[AHSE] 14 평가에서의 시뮬레이션 (SIMULATIONS IN ASSESSMENT) (0)	2025.10.09
[AHSE] 11 서술형 평가 (Narrative Assessment) (0)	2025.10.09

의대에서 교육하고 있습니다.