[AHSE] 16 프로그램 기반 평가(PROGRAMMATIC ASSESSMENT)

Meded 2025. 11. 2. 21:37

2025. 11. 2. 21:37

16 프로그램 기반 평가(PROGRAMMATIC ASSESSMENT): 다른 평가 문화로 가는 길(AN AVENUE TO A DIFFERENT ASSESSMENT CULTURE)

Cees van der Vleuten, Sylvia Heeneman, and Suzanne Schut

1996년, van der Vleuten은 모든 평가의 유용성(utility)을 신뢰도(reliability), 타당도(validity), 교육적 결과(educational consequences), 비용(cost)과 같은 질적 특성(quality characteristics) 간의 절충(compromise)으로 표현한 논문을 발표했다(van der Vleuten, 1996). 이러한 질적 특성 목록은 문헌에서 이미 이루어진 바와 같이 쉽게 확장될 수 있다(Baartman, Bastiaens, Kirschner, & van der Vleuten, 2006; Norcini et al., 2011); 평가는 항상 그러한 기준들 간의 절충이다. 평가의 맥락(context)과 목적(purpose)에 따라 서로 다른 절충이 이루어져야 할 것이다.

예를 들어, 면허 시험(licensing exam)의 맥락에서는 수련 중 평가(in-training assessment)와 비교할 때 매우 다른 절충이 이루어질 것이다. 면허 시험에서는 평가의 신뢰도(reliability)에 대해 타협하지 않겠지만, 수련 중 평가에서는 신뢰도가 덜 중요하며(less critical) 평가의 교육적 가치(educational value)에 더 많은 주의를 기울일 수 있다.

따라서 평가는 또한 최적화 문제(optimization problem)이다—그리고 문제는 언제 무엇을 최적화할 것인가이다.

van der Vleuten과 Schuwirth (2005)의 연구에서는, 전체 커리큘럼(whole curriculum) 수준에서 평가들을 평가 프로그램(program of assessment)으로 결합함으로써 질적 특성들이 향상될 수 있다고 보았다.
프로그램 수준(program level)에서 질(quality)을 다루기 위한 프레임워크(framework)가 개발되었고(Dijkstra, van der Vleuten, & Schuwirth, 2010),
이어서 평가 프로그램을 설정하기 위한 일련의 일반적인 가이드라인(generic guidelines)이 나왔다(Dijkstra et al., 2012).
평가 연구(assessment research)의 모범 사례(best practices)를 따라(van der Vleuten, Schuwirth, Scheele, Driessen, & Hodges, 2010) 프로그램 기반 평가(programmatic assessment)라고 명명된 모델이 제안되었다(van der Vleuten et al., 2012; Schuwirth & van der Vleuten, 2011).

이 장은 프로그램 기반 평가가 무엇을 수반하는지 설명하고, 실제(in practice) 프로그램 기반 평가의 경험을 제시하며, 지금까지 이 주제에 대한 문헌 속의 연구들을 논의할 것이다.

평가에 대한 전통적인 접근법(THE TRADITIONAL APPROACH TO ASSESSMENT)

대부분의 평가 관행은 모듈식 접근(modular approach)을 특징으로 한다. 하나의 교육 모듈(세션, 과목, 학기, 임상실습)은 최종 평가(final assessment)로 마무리된다; 평가를 통과한 후, 학습자는 다음 교육 모듈로 이동한다. 모든 모듈이 완료되면, 학습자는 과정을 마치고 '역량 있음(competent)'으로 자격이 부여된다. 어떤 경우에는 추가적인 학년 말 평가(end-of-year assessments)나 최종 평가(final assessments)가 수행되기도 한다. 이는 학습에 대한 전통적인 관점(traditional view on learning)과 일치한다: 구성 요소의 숙달(mastery of the components)이 입증되면, 학습자는 역량이 있는 것이다. 학습자들은 허들에서 허들로(from hurdle to hurdle) 이동하며, 그 순간에 평가받는 특정 영역이나 주제에 대한 단기적 숙달(short-term mastery)을 입증한다. 현대 교육은 이러한 학습 모델에서 벗어나 보다 구성주의적 접근(constructivist approach)으로 이동하고 있으며, 이 접근법에서 학습자들은 도전적이고 실제적인 과제(challenging, authentic tasks)를 수행하거나 직장(workplace)에서 학습하면서 자신의 지식과 역량을 구성해나간다.

학습에 대한 구성주의 이론(Constructivist theories on learning)은 학습이, 주변 환경 및 물리적, 사회적 세계와 상호작용하는 능동적인 학습자(active learners)에 의한 해석적(interpretive), 재귀적(recursive), 비선형적인(nonlinear) 구축 과정(building process)이라고 제안한다. 이는 단순히 사고의 구조와 단계를 특징짓거나 강화(reinforcement)를 통해 학습된 행동을 분리해내는 것이 아니라, 구조, 언어, 활동, 그리고 의미 만들기(meaning-making)가 어떻게 일어나는지를 설명한다. (Berkhout, Helmich, Teunissen, van der Vleuten, & Jaarsma, 2018, p. 37)

교육 프로그램은 시간 기반(time-based) 모델에서 성과 기반(outcome-based) 모델로 이동하고 있다. 역량 기반 교육(Competency-based education)은 이러한 패러다임 전환(paradigm shift)에 대한 해답이다; 전 세계 많은 국가에서 역량 프레임워크(competency frameworks)가 개발되어 왔다. 이러한 역량 프레임워크는 의학적 지식과 전문성(medical knowledge and expertise)에 대한 초점 외에도 전문직업성(professionalism), 협력(collaboration), 의사소통(communication)과 같은 복잡한 행동 기술(complex behavioural skills)의 숙달(mastery)에 초점을 맞춘다. 원하는 성과(desired outcomes)는 커리큘럼에서 명시적인 주의(explicit attention)를 기울이고, 시간의 흐름에 따라 다루어지는 종단적 가닥(longitudinal strands)으로서, 안전한 학습 환경(safe learning environments)에서 적절한 피드백(appropriate feedback)과 함께 개발된다(van den Eertwegh, van Dalen, van Dulmen, van der Vleuten, & Scherpbier, 2014). 이러한 복잡한 기술은 일반적으로 맥락 속에서의 행동에 대한 직접 관찰(direct observation)을 통해 평가된다(Kogan, Hatala, Hauer, & Holmboe, 2017). 이러한 목적을 위해, 현장 기반 평가(workplace-based assessments)를 위한 비표준화된(non-standardized) 평가 기술이 빠르게 부상하고 있다(Kogan, Holmboe, & Hauer, 2009) (챕터 10 참조). 교육은 또한 교사 통제 교육(teacher-controlled education)에서 학습자 통제 교육(learner-controlled education)으로 이동하고 있으며, 여기서는 학습자가 학습과 발전에 있어 능동적인 자기 주도적 역할(active self-directed role)을 갖는다. 이러한 교육의 경향(trends)은 학부 의학 교육(undergraduate medical training)뿐만 아니라 대학원 교육(postgraduate training)에서도 나타나고 있다. 프로그램 기반 평가(Programmatic assessment)는 이러한 유형의 역량 기반 교육을 목표로 한다.

전통적인 평가 프로그램은 종종 빈약한 학습 전략(poor learning strategies)(Cilliers, Schuwirth, Adendorff, Herman, & van der Vleuten, 2010)과 환원주의(reductionism)(Harrison, Könings, Schuwirth, Wass, & van der Vleuten, 2017)로 이어진다.

전통적인 총괄적(summative) 접근 방식에서는 학습자를 위한 정보가 거의 제공되지 않는다. 학습자에 대한 정보는 주로 성적(grades)의 형태로 표현된다; 하지만 성적은 상대적으로 빈약한 피드백의 원천(poor source of feedback)을 이룬다(Shute, 2008). 특히 복잡한 기술을 평가할 때, 서술적 정보(narrative information)가 숫자 점수(numeric scores)보다 훨씬 더 많은 의미를 전달한다(Govaerts & van der Vleuten, 2013; Ginsburg, Eva, & Regehr, 2013; Ginsburg, van der Vleuten, & Eva, 2017).
전통적인 총괄 평가 시스템(traditional summative assessment systems)에서 피드백이 제공될 때, 학습자들은 피드백에 참여하거나 이를 활용하지 않는 경우가 많다(Harrison, Könings, Schuwirth, Wass, & van derVleuten, 2015)—시험 통과(passing the test)가 피드백 사용 동기(motivation for feedback use)를 낮추기 때문이다. 총괄적 초점(summative focus)이 평가의 형성적 기능(formative function)을 방해한다. 프로그램 기반 평가는 이러한 문제들을 해결하려 시도하며 평가에 대한 다른 관점을 제안한다.

프로그램 기반 평가(PROGRAMMATIC ASSESSMENT)

프로그램 기반 평가(programmatic assessment)에서는, 캐나다의 CanMEDS 역할(Canadian CanMEDS roles) (Frank & Danoff, 2007), 미국의 대학원 의학 교육 인증 위원회(Accreditation Council for Graduate Medical Education, ACGME)의 역량 프레임워크(competencies framework) (Batalden, Leach, Swing, Dreyfus, & Dreyfus, 2002), 또는 영국의 일반 의료 위원회(General Medical Council)의 '좋은 의료 행위'(Good Medical Practice) 영역(domains) (General Medical Council, 2013)과 같은 포괄적인(overarching) 역량 프레임워크가 선택된다. 모든 개별 평가는 이 포괄적인 프레임워크와 관련하여 정보를 제공하며, 평가 방법과 포괄적인 프레임워크 간에 연계(alignment)가 있도록 평가 활동이 계획된다. 프로그램 기반 평가는 여러 규칙(rules)을 갖는다 (Box 16.1).

합격/불합격(Pass/Fail) 결정이 단일 데이터 포인트(Single Data Point)에 기반하지 않는다
1. 선다형 문항 시험(multiple-choice question test)이나 관찰된 환자 진료(observed patient encounter)와 같은 개별 평가 이벤트(individual assessment event)는 프로그램 기반 평가에서 하나의 데이터 포인트(one data point)로 간주된다. 단일 데이터 포인트(single data point)에 대해서는 학습 목표(learning goals)에 대한 타협이 이루어지지 않는다. 단일 데이터 포인트는 학습자에게 의미 있는 정보(meaningful information)를 제공해야 한다. 이는 결정 지향적(decision oriented)이 아니라 피드백 지향적(feedback oriented)이다. 왜냐하면 단일 데이터 포인트에는 중대한(high-stakes) 결정을 내리기에 너무 적은 정보가 담겨 있기 때문이다. 비유적으로, 개별 데이터 포인트는 사진 속의 픽셀(pixel) 하나에 비유될 수 있다. 픽셀 하나만으로는 사진 속 이미지를 볼 수 없다.
2. 단일 데이터 포인트로부터의 피드백은 양적(quantitative) 또는 질적(qualitative) 성격을 가질 수 있다. 표준화된 시험(Standardized tests)은 보통 학습자가 동료(peers)들과 비교하여 어디에 위치하는지에 대한 양적 정보와 비교 정보(comparative information)를 제공한다. 비표준화된(non-standardized) (예: 현장 기반(workplace-based)) 평가 역시 점수를 보고할 수 있지만, 풍부한 서술적 정보(rich narrative information)도 포함해야 한다. 평가로부터의 정보는 포괄적인 프레임워크(overarching framework)에 정보를 제공해야 한다; 이는 평가 도구(instruments)가 포괄적인 프레임워크와 일치하도록(consistent) 구조화된다는 것을 의미한다. 예를 들어, mini-CEX 양식(form) (챕터 10 참조)은 의사소통(communication)과 같은 모든 (관련된) 역량에 대한 평점(ratings)과 서술적 정보를 제공한다. 다중 출처 피드백(Multi-source feedback) 양식도 동일한 방식으로 구조화되어, 여러 도구에 걸쳐(across instruments) 의사소통 기술에 대한 정보가 수합(aggregated)될 수 있도록 한다. 요약하자면, 단일 데이터 포인트는 합격 또는 불합격에 대한 의사결정(decision-making on passing or failing)이 아니라 학습을 위해 최적화(optimized for learning)된다.
프로그램은 의도적으로 혼합된(Deliberate Mix) 다양한 평가 방법을 포함한다
1. 평가 방법(Methods of assessment)은 교육 목표(educational objectives)와의 연계(alignment)에 기반하여 선택된다. 선택은 의도적으로(deliberately) 이루어진다. 예를 들어, 비판적 평가 기술(critical appraisal skills)을 평가하고자 한다면, 일련의 평가는 학습자가 글을 쓰고(write), 말로 표현하고(verbalize), 종합하고(synthesize), 행동하며 직접 관찰(directly observed)되도록 요구할 수 있다. 객관적이든(objective) 주관적이든(subjective), 양적이든(quantitative) 질적이든(qualitative) 어떤 방법이든 유용할 수 있다.
2. 단일 방법(single method)이 고도로 신뢰할 수 있어야(highly reliable) 할 특별한 필요는 없다. 단일 데이터 포인트를 구성하는 방법의 유용성(utility)은 전적으로 학습 프로그램 내의 그 시점(that moment in time)에서 그 방법을 사용하는 것에 대한 교육적 정당성(educational justification)에 있다. 전통적으로, 대부분의 평가는 모듈식(modular)이다. 그러나 학습자의 발달(development)을 모니터링하기 위해, 일부 평가는 종단적(longitudinal) 성격을 가져야 하며, 학습의 종점(endpoint of learning)과 관련하여 학습자를 평가해야 한다. 이는 ACGME 마일스톤(milestones)이 그러하듯이(Holmboe, Edgar, & Hamstra, 2016), 기준(standards)을 종단적이거나 발달적인(longitudinal or developmental) 방식으로 공식화함으로써 이루어질 수 있다. 인지 영역(cognitive domain)에서의 종단적 평가의 예는 성장 참조 평가(progress testing)이다(Wrigley, van der Vleuten, Freeman, & Muijtjens, 2012; Heeneman, Schut, Donkers, van der Vleuten, & Muijtjens, 2017). 성장 참조 평가는 훈련 프로그램의 최종 목표(end objectives)를 나타내는 선다형 문항들로 구성된 포괄적인 시험(comprehensive test)이다. 성장 참조 평가는 프로그램 내 모든 학생들에게 매년 여러 번 시행되며, 지식의 발달(development of knowledge)이 모니터링된다. 훈련 프로그램 목표와의 최대치의 연계(Maximum alignment)는 다양한 평가 방법의 혼합(mix of assessment methods)을 통해 달성된다. 평가 최적화(Assessment optimization)는 교육 목표에 의해 강하게 영향을 받으며, 평가가 원하는 방식(desired way)으로 학습을 이끌도록(drive learning) 하려는 의도적인 의도(deliberate intent)를 갖는다.
학습자와의 지속적인 대화(Continuous Dialogue)를 통해 피드백 사용(Feedback Use)과 자기 주도 학습(Self-Directed Learning)이 촉진된다
1. 피드백의 제공(provision of feedback)이 피드백의 사용(use of feedback)을 보장하지는 않는다(Hattie & Timperley, 2007). 이는 특히 총괄 평가(summative assessment) 프로그램에서 그러한데, 학습자들은 피드백을 무시하는(ignore feedback) 경향이 있으며(Harrison et al., 2015), 피드백이 가장 필요한 학습자들에게서 특히 그렇다(Harrison et al., 2016). 총괄적 접근(summative approach)은 평가의 형성적 사용(formative use)을 방해하는 것으로 보인다. 따라서 피드백 사용은 피드백을 둘러싼 대화(dialogue)를 생성함으로써 교육적으로 발판이 마련되어야(educationally scaffolded) 한다.
2. 한 가지 접근법은 멘토링 프로그램(mentoring program)을 통해 학생들을 코칭하는(coach) 것이다(Driessen & Overeem, 2013); 신뢰할 수 있는 사람(trusted person)과의 관계를 형성함으로써 성찰(reflection)과 피드백 사용이 촉진된다(Watling, Driessen, van der Vleuten, Vanstone, & Lingard, 2013; Telio, Ajjawi, & Regehr, 2015). 멘토(mentor)는 모든 평가 정보(assessment information) (및 기타 학습 데이터)에 접근할 수 있으며, 주기적으로(periodically) 학습자와 이에 대해 논의한다. 학습자는 평가 피드백에 대해 성찰(reflect)하고 그에 따라 학습 활동을 계획하도록(plan study actions) 자극받는다(stimulated).
필요한 데이터 포인트의 수는(Number of Data Points Needed) 평가 결정의 중대성(Stakes)과 비례 관계에 있다
1. 어느 시점이 되면, 합격/불합격(pass/fail) 또는 진급(promotion) 결정이 내려져야 한다. 프로그램 기반 평가에서는, 전통적인 총괄적(summative) 평가와 형성적(formative) 평가의 구분(distinction) (Lau, 2016)이 중대성의 연속체(continuum of stakes)로 대체된다. 개별 데이터 포인트는 합격/불합격 결과가 연결되지 않기 때문에 낮은 중대성(low stakes)을 갖는다. 그것이 '중대성이 없는(no stakes)' 것은 아닌데, 왜냐하면 그 평가 정보가 나중 시점에 더 높은 중대성(higher-stakes)의 결정에 반영될(feed into) 수 있기 때문이다.
2. 일반적으로, 관련된 의사결정의 중대성이 높을수록(the higher the stakes of the decision-making), 더 많은 데이터 포인트가 필요하다. 픽셀(pixel)의 비유에서, 이미지를 보려면 많은 픽셀이 필요하다. 대부분의 훈련 프로그램에서, 높은 중대성의 결정은 종종 다음 학년으로의 진급(promotion to the next year)이나 졸업(graduation)과 연결된다. 연중(throughout the year)에 하나 이상의 중간 결정(intermediate decisions)을 두는 것도 현명하다.
3. 높은 중대성 결정의 결과가 학습자에게 절대 놀라움으로(never come as a surprise) 다가와서는 안 된다. 중간 결정은 피드백(feedback)과 피드포워드(feedforward) 정보를 모두 제공하며, 멘토링 프로그램에서 개선 활동(remediation activities)을 맞춤화하는 데 사용될 수 있다. 일반적으로, 프로그램 기반 평가에서의 의사결정은 그러한 결정을 내리기에 충분한 데이터(sufficient data)를 사용함으로써 최적화된다.
높은 중대성의 결정은(High-Stakes Decisions) 평가자 위원회(Committee of Assessors)가 내리는 전문적인 판단(Professional Judgments)이다
1. 평가 정보의 양적(quantitative) 및 질적(qualitative) 성격을 감안할 때, 합격 또는 불합격에 관한 높거나 더 높은 중대성(high(er)-stakes)의 의사결정은 통계적 알고리즘(statistical algorithm)이 될 수 없다. 그 결정은 전문적인 판단(professional judgement)을 요구하며, 이는 보통 임상 역량 위원회(clinical competency committee)와 같은 집단(group) 내에서 이루어진다(Hauer et al., 2016). 일반적으로 전자 포트폴리오(electronic portfolio) 형태의 모든 평가 (및 기타 학습) 정보는 해당 훈련 단계(phase of training)와 관련된 수행 기준(performance standards)에 비추어 검토되고 결정이 내려진다. 결정은 합격(pass) 또는 불합격(fail)일 수 있으며 '우수(honors)'와 같은 구분을 포함할 수 있다. 때때로 문자 등급(letter grade)이 주어진다(Bok et al., 2013).
2. 결정은 보통 포괄적인 프레임워크(overarching framework)의 각 요소(element)에 대해 개별적으로 내려진 후, 최종적인 전반적인(overall) 결정이 이루어진다. 위원회는 또한 개선 활동(remediation activities)을 권고(recommend)할 수 있다. 의사소통(communication)의 예로 돌아가 보면, 이 역량에 정보를 제공한 모든 도구(instruments)에 대한 모든 양적 및 질적 (서술적) 정보가 함께 고려되고(taken together), 그 수행이 합격인지 불합격인지 (또는 우수인지)에 대한 판단(judgment)이 내려진다. 포트폴리오(portfolio) 내의 모든 정보는 포괄적인 프레임워크를 사용하여 수합(aggregated)된다. 이는 평가에서의 전통적인 접근법, 즉 우리가 결정을 내리기 위해 단일 방법 내에서(within a method) 정보를 수합하는 방식과는 근본적으로 다르다(fundamentally different). 프로그램 기반 평가에서는, 정보가 여러 도구에 걸쳐(across instruments) 그리고 시간에 걸쳐(across time) 포괄적인 프레임워크에서 비롯된 의미 있는 구성 개념(meaningful constructs)을 향해 수합된다.

결정의 신뢰성(trustworthiness)을 더욱 향상시키기 위해 여러 조치(measures)를 취할 수 있다(Driessen, van der Vleuten, Schuwirth, Van Tartwijk, & Vermunt, 2005):

학습자와 관련하여 위원회의 독립성(Independence)은 직접적인 사회적 관계(direct social relationships)로 인한 편향(bias)이 도입되지 않기 때문에 판단의 신뢰성(credibility)을 높인다. 그러나 이는 또한 딜레마(dilemma)를 가져온다. 멘토(mentor)는 학습자를 가장 잘 아는 사람이다; 따라서 멘토는 판단을 내리기에 가장 좋은 위치에 있어야 한다. 그러나 멘토가 합격/불합격 판단을 내리도록 허용하면 학습자와 멘토 간의 신뢰 관계(trusting relationship)를 위태롭게(jeopardize) 할 수 있다. 실제로는 절충적인 해결책(compromise solutions)이 만들어질 수 있다. 예를 들어, 멘토가 권고(recommendation)를 제공하되, 최종 결정(final decisions)은 다른 사람들이 내릴 수 있다.
위원회의 규모(size)와 평가자들의 준비 수준(level of preparation)은 판단의 신뢰성에 기여하며, 더 큰 위원회(larger committees)가 더 나은 판단을 내린다(Bok et al., 2013).
위원회 내에서의 심의(deliberation)의 양과 판단의 정당화(justification)는 결정의 신뢰성에 기여한다.
마지막으로, 이전의 중간 결정들(prior intermediate decisions)은 최종 결정의 신뢰성을 높일 것이다.

이러한 모든 적법 절차(due process) 조치들은 역량 위원회(competency committees)에서의 의사결정의 신뢰성(trustworthiness)을 높일 것이다.

위원회 회의(Committee meetings)는 시간과 자원(resources)을 절약하기 위해 효율적으로 계획될 수 있다. 대부분의 학습자에게는 의사결정이 매우 간단명료할(straightforward) 것이며 위원회 전체의 주의(full committee’s attention)를 요구하지 않을 것이다. 위원회 회의는 논의가 필요한(need discussion) 학습자들에 대해서만 논의가 이루어지도록 계획될 수 있다; 기본적으로, 학습자에 대한 정보의 명확성(clarity)에 기반하여 위원회나 평가자의 관여(involvement) 정도를 조절(titrates)하는 것이다.

평가에서의 높은 중대성의 결정은 집단 내 전문가들(experts in groups)에 의해 판단되는 많은 데이터 포인트(many data points)를 가짐으로써 최적화된다. 판단 과정(judgment process)은 결정의 신뢰성을 지원하는 적법 절차적 조치(due process procedural measures)에 의해 고정된다(anchored). 신뢰성(trustworthiness)은 질적 연구 방법론(qualitative research methodology)에서 사용되는 용어임에 주목해야 한다. 의사결정의 엄격성(rigor)을 구축하기 위한 위의 조치들은 질적 연구 전략(qualitative research strategies)에서 영감을 받았다(van der Vleuten et al., 2010; Frambach, van der Vleuten, & Durning, 2013). 표 16.1(Table 16.1)은 질적 엄격성(qualitative rigor)과 관련된 일련의 평가 전략을 제공한다.

프로그램 기반 평가는 평가에 대한 전통적인 접근법(traditional approach)과 강력하게 대조(contrasts)되는 평가에 대한 통합적인 접근법(integral approach)이다. 표 16.2(Table 16.2)는 두 접근법의 몇 가지 대조적인 특성(contrasting characteristics)을 제공한다. 박스 16.2(Box 16.2)는 프로그램 기반 평가 실행(implementation)의 예를 설명한다.

표 16.1: 평가 결정의 엄격성(Rigor) 구축을 위한 질적 연구 방법론(Qualitative Research Methodologies)과 관련된 평가 전략(Assessment Strategies)

신뢰성(Trustworthiness)을 확립하기 위한 전략: 신빙성(Credibility)

기준: 지속적인 참여(Prolonged engagement)
- 평가 전략:
  - 평가자 훈련(Training of assessors).
  - 학생을 가장 잘 아는 사람들(코치(a coach), 동료(peers))이 평가를 위한 정보를 제공한다.
  - 절차(procedure) 내에 간헐적인 피드백 주기(intermittent feedback cycles)를 통합한다.
기준: 삼각측량(Triangulation)
- 평가 전략:
  - 많은 평가자(Many assessors)가 참여해야 하며 다양한 신뢰할 수 있는 집단(different credible groups)이 포함되어야 한다.
  - 방법 내(within) 또는 방법 간(across methods)에 다양한 평가 출처(multiple sources of assessment)를 사용한다.
  - 상충하는 정보(conflicting information)가 더 많은 정보의 수집(gathering of more information)을 필요로 하는 순차적 판단 절차(sequential judgment procedure)를 조직한다.
기준: 동료 검토(Peer examination) (때로는 동료 디브리핑(peer debriefing)이라 불림)
- 평가 전략:
  - 기준 설정(benchmarking) 및 과정(process) 논의를 위해 평가자들 간의 논의(discussion) (사전(before) 및 중간(intermediate))를 조직한다.
  - 코칭 역할(coaching role)에서 총괄 평가 결정(summative assessment decisions)을 제거하여 평가자의 다양한 역할(multiple roles)을 분리한다.
기준: 구성원 확인(Member checking)
- 평가 전략:
  - 평가 절차(assessment procedure)에 학습자의 관점(learner's point of view)을 통합한다.
  - 절차 내에 간헐적인 피드백 주기(intermittent feedback cycles)를 통합한다.

기준: 구조적 일관성(Structural coherence)
- 평가 전략:
  - 평가 데이터(assessment data) 내의 불일치(inconsistencies)를 논의하기 위해 평가 위원회(assessment committee)를 조직한다.

신뢰성(Trustworthiness)을 확립하기 위한 전략: 전이가능성(Transferability)

기준: 시간 표집(Time sampling)
- 평가 전략:
  - 다양한 맥락(contexts)과 환자(patients)에 걸쳐 광범위하게(broadly) 표집(Sample)한다.
기준: 심층 기술(Thick description) (또는 밀도 높은 기술(dense description))
- 평가 전략:
  - 평가 도구(assessment instruments)에 질적, 서술적 정보(qualitative, narrative information)를 제공할 가능성을 통합한다.
  - 평가 절차(assessment procedure)에서 서술적 정보에 많은 비중(a lot of weight)을 둔다.

신뢰성(Trustworthiness)을 확립하기 위한 전략: 의존가능성(Dependability)

기준: 단계적 반복(Stepwise replication)
- 평가 전략:
  - 다양한 평가자들(different assessors)에 걸쳐 광범위하게 표집(Sample)한다.

신뢰성(Trustworthiness)을 확립하기 위한 전략: 의존가능성/확증가능성(Dependability/Confirmability)

기준: 감사(Audit)
- 평가 전략:
  - 평가 과정(assessment process)의 다양한 단계를 문서화(Document)한다 (시험 위원회(examination board)에서 승인한 공식적인 평가 계획(formal assessment plan); 단계별 결과 개요(overviews of the results per phase)).
  - 외부 감사자(external auditor)와 함께 질 관리 절차(quality assessment procedures)를 조직한다.
  - 학습자에게 평가 결정(assessment decision)에 이의를 제기할(appeal) 가능성을 부여한다.

출처(Source): van der Vleuten, C., Schuwirth, L., Scheele, F., Driessen, E., & Hodges, B. (2010). The Assessment of Professional Competence: Building Blocks for Theory Development. Best Practice & Research Clinical Obstetrics & Gynaecology, 24(6), 703–719에서 재인쇄; Elsevier의 허가를 받아 사용, www.journals.elsevier.com/best-practice-and-research-clinical-obstetrics-and-gynaecology

표 16.2: 역량 평가에 대한 전통적 접근법과 프로그램 기반 접근법 간의 두드러진 차이(Salient Differences) 개요

특징(Feature): 교육 철학(Education philosophy)
- 전통적 총괄 평가 접근법(Traditional Summative Assessment Approach): 행동주의적(Behaviouristic)
- 프로그램 기반 평가 접근법(Programmatic Assessment Approach): 구성주의적(Constructivist)
특징: 단일 데이터 포인트의 사용(Use of single data points)
- 전통적 총괄 평가 접근법: 합격/불합격 결정 지향적(Pass/fail decision oriented)
- 프로그램 기반 평가 접근법: 피드백 지향적(Feedback oriented)
특징: 수행 정보(Performance information)
- 전통적 총괄 평가 접근법: 성적(Grades)
- 프로그램 기반 평가 접근법: 프로파일 점수(Profile scores), 서술적 정보(narrative information), 정보가 풍부한 데이터(information-rich data)
특징: 수행 지향성(Performance orientation)
- 전통적 총괄 평가 접근법: 모듈식(Modular)
- 프로그램 기반 평가 접근법: 종단적(Longitudinal), 발달적(developmental)
특징: 개선(Remediation)
- 전통적 총괄 평가 접근법: 재시험(Resits)
- 프로그램 기반 평가 접근법: 개인 맞춤형의 지속적인 개선 활동(Personalized ongoing remediation activities)
특징: 방법의 사용(Use of methods)
- 전통적 총괄 평가 접근법: 신뢰할 수 있는 방법(reliable methods)으로 제한됨
- 프로그램 기반 평가 접근법: 교육적 정당성(educational justification)에 따라 절충적(Eclectic)
특징: 정보의 수합(Aggregation of information)
- 전통적 총괄 평가 접근법: 방법 내(within methods)에서 기술/내용 영역(skills/content areas)을 가로지름
- 프로그램 기반 평가 접근법: 여러 방법에 걸쳐(Across methods) 기술/내용 영역으로 수합됨
특징: 학습자 지원(Learner support)
- 전통적 총괄 평가 접근법: 비구조화됨(Unstructured)
- 프로그램 기반 평가 접근법: 멘토링(Mentoring)
특징: 진전 결정(Progress decisions)
- 전통적 총괄 평가 접근법: 알고리즘적(Algorithmic)
- 프로그램 기반 평가 접근법: (위원회 내에서의) 전문가적 판단(Professional judgment)

프로그램 기반 평가의 평가(EVALUATION OF PROGRAMMATIC ASSESSMENT)

비록 프로그램 기반 평가는 평가 연구 통찰(assessment research insights) (van der Vleuten, 2016)에 기반하고 프로그램 수준(program level)에서의 평가를 요구하는 유사한 주장들 (Knight, 2000; Fielding & Regehr, 2017; Eva et al., 2016; Bowe & Armstrong, 2017; Gibbs & Dunbar-Goddet, 2009; Harris et al., 2017; Konopasek, Norcini, & Krupat, 2016)과 공명(resonates)하지만, 프로그램 기반 평가에 대한 연구는 초기 단계(in its infancy)이다. 프로그램 기반 평가 실행(programmatic assessment implementations)에 대한 문헌은 학부(undergraduate) (Dannefer & Henson, 2007; Bok et al., 2013; Heeneman, Oudkerk Pool, Schuwirth, van der Vleuten, & Driessen, 2015; Jamieson, Jenkins, Beatty, & Palermo, 2017; Schut, Driessen, van Tartwijk, van der Vleuten, & Heeneman, 2018)와 대학원(postgraduate) 수준 (Chan & Sherbino, 2015; Li, Sherbino, & Chan, 2017; Schuwirth, Valentine, & Dilena, 2017; McEwen, Griffiths, & Schultz, 2015; Perry et al., 2018) 모두에서 빠르게 증가하고 있다. 이러한 기술(descriptions)들은 일반적으로 개념 증명(proof of concept)으로서 성공적이고 만족스러운 실행(successful and satisfying implementations)을 보고한다. 그러나, 훨씬 더 많은 후속 연구(further research)가 이루어져야 한다. 우리는 지금까지 수행된 일부 연구와 프로그램 기반 평가 실행에 대한 우리의 경험 중 일부를 요약할 것이다.

프로그램 기반 평가의 결정적인 특징(critical features) 중 하나는 평가의 형성적(formative) 요소와 총괄적(summative) 요소 간의 모호해진 경계(blurred distinction)이다. 몇몇 연구는 낮은 중대성(low-stakes) 평가가 학생들에 의해 높은 중대성(high-stakes) 평가로 인식될(perceived) 수 있음을 보여주었다(Bok et al., 2013; Heeneman et al., 2015). 최근 연구는 학습자가 중대성(stakes)을 어떻게 인식하는지, 그리고 무엇이 이러한 인식(perceptions)에 영향을 미치는지를 조사했다(Schut et al., 2018).

핵심적인 발견(central finding)은 중대성이 인식된 학습자 주도성(perceived learner agency)에 의해 매개(mediated)된다는 것이었다: 학습자에 의해 더 많은 학습자 통제(learner control)가 인식될 때, 중대성은 더 낮게 인식되었다.
몇몇 설계 요인(design factors)과 문화적/관계적 요인(cultural/relational factors)이 인식된 주도성(perceived agency)과 중대성을 매개하고 있었다. 여기에는
- 평가 결과에 영향을 미칠 기회(opportunity to influence assessment outcomes) (예를 들어, 구술 평가(oral assessment)에서 평가자와 상호작용(interact)할 수 있는 능력),
- 수행 모니터링(performance monitoring)을 위한 증거(evidence)를 수집하고 선택할 수 있는 학습자의 자유(freedom),
- 그리고 프로그램 내에서의 개선(remediation) 기회가 포함되었다.
중대성은 또한 학습자와 평가자 간의 관계(relationship)에 의해서도 강하게 매개되었다. 이 관계가 안전하고(safe) 학습자들이 지지받는다(supported)고 느낄 때, 중대성은 낮게 인식되었다.

평가 문화(assessment culture)의 중요성은 (총괄적 평가 대 프로그램 기반 평가(summative vs. programmatic)) 다른 평가 접근법에 대한 연구에서도 발견되었다(Harrison et al., 2017).

피드백 수용성(Receptivity to feedback)은
- 학생들이 평가에 대한 통제권(control)을 가질 때,
- 평가가 실제적이고(authentic) 관련성(relevant)이 있을 때, 그리고
- 피드백 해석(interpretation of feedback)에 지원(support)이 제공될 때 증가했다.
성적(grades) 또는 순위 정보(ranking information)의 제공은 유용한 외적 참조 정보(external reference information)를 제공했지만 탁월성(excellence)의 증진을 방해(hindered)했다.
성적을 제공하지 않는 것(Not providing grades)은 초기에는 불확실성(uncertainty)을 야기했지만 나중에는 탁월성에 대한 열망(aspiration to excellence)을 촉진했다.
또 다른 연구(Perry et al., 2018)는 프로그램 기반 평가 시스템의 학습자들이 총괄적 시스템(summative system)의 학습자들보다 피드백에 더 많이 관여(engaged more with feedback)한다는 것을 확인했다.

뉴질랜드의 한 학부 의학 교육 프로그램(undergraduate medical training program)에 프로그램 기반 평가를 도입한 후, "낙제시키지 못하는 실패(failures to fail)"가 더 적어지면서 낙제하는 학생들(failing students)의 조기 발견(earlier detection)이 보고되었다(Wilkinson et al., 2011). 이 시스템은 또한 전문직업성(professionalism)과 같이 평가하기 어려운(challenging-to-assess) 영역에서 어려움을 겪는(in difficulty) 학습자들을 발견하는 데 도움을 주었다.

마지막으로, 프로그램 기반 평가 접근법에서의 멘토링(mentoring)에 대한 한 연구는 멘토(mentor)의 자질(quality)과 기술(skills)이 자기 주도 학습(self-directed learning)의 질에 영향을 미친다는 것을 보여주었다(Heeneman & de Grave, 2017). 더 종단적인 멘토링(longitudinal mentoring)은 멘토의 전문성(expertise)을 구축하는 데 도움을 주며, 경험이 공유될 수 있는 멘토링 커뮤니티(mentoring community)의 생성을 촉진한다.

우리 훈련 프로그램 중 몇몇 곳에 도입되었던 프로그램 기반 평가에 대한 우리 자신의 경험(our own experience)과, 여러 다른 실행(implementations)에 대한 우리의 참여(involvement)로부터, 우리는 몇 가지 결론을 내릴 수 있다.

첫째, 실행의 질(quality of implementation)이 프로그램 기반 평가의 성공(success)을 결정한다.

전통적인 총괄적 접근(traditional summative-approach) 프로그램에서 프로그램 기반 평가로 이동하는 것은 변화 관리(change management)를 필요로 하는 주요 작업(major operation)이다. 프로그램 기반 평가는 학습 및 피드백 문화(learning and feedback culture)를 달성하기 위해 교사와 학습자에게 다른 사고방식(different mind-set)을 요구한다. 교수 개발(staff development)과 프로그램 설계(design of the program)가 함께 진행된(went hand in hand) 성공적인 참여적 설계(participatory design)가 보고된 바 있으나(Jamieson et al., 2017), 교사와 학습자가 총괄적 패러다임(summative paradigm) 밖에서 생각하기는 매우 어려울 수 있다(Harrison et al., 2017).
필요한 변화의 규모(magnitude)는 학교를 강의식 학습 접근(didactic learning approach)에서 문제 중심 학습(problem-based learning, PBL)으로 옮기는 것에 비유될 수 있다. PBL과 유사하게, 교수진(teaching faculty)으로부터의 불충분한 동의(insufficient buy-in)로 인해 실행이 실패할(fail) 수 있다. PBL에서와 마찬가지로, 원래 의도된 모델(original intended model)에 대한 절충(compromises)의 결과로 '하이브리드(hybrid)' 프로그램 기반 평가 접근법이 나타날 것이지만, PBL에서와 마찬가지로(Frambach, Driessen, Chan, & van der Vleuten, 2012), 아마도 '하이브리드' 성공('hybrid' success)만을 달성할 것이다.

두 번째 교훈은 평가로부터 고품질의 피드백(high-quality feedback)을 얻는 것이 어려운 과제(challenge)라는 것이다.

좋은 피드백을 주는 것은 교수진의 시간(time)과 노력(effort)을 요구한다. 서술적 피드백(Narrative feedback)은 특히 복잡하고 행동적인 기술(complex and behavioural skills)에 대해 양적 피드백(quantitative feedback)보다 더 많은 정보를 제공할(more informative) 수 있지만, 더 많은 시간이 소요되어(more time consuming) 얻기 더 어렵다.
프로그램 기반 평가는 진전(progress)을 모니터링하고 신뢰할 수 있는 결정(trustworthy decisions)에 도달하기 위해 평가 데이터의 풍부함(richness of assessment data)에 의존한다. 피드백에 관한 교수 개발(Faculty development)이 중요하며, 좋은 피드백을 이끌어내는(eliciting) 학습자의 역할(role of the learner)을 명확히 하는 것(articulation)도 중요하다.

세 번째 교훈은 멘토링에 대한 위 연구(Heeneman & de Grave, 2017)와 공명한다. 고품질의 멘토링(High-quality mentoring)은 성찰(reflection)과 피드백 활용(feedback utilization)에 매우 중요하다.

자기 주도 학습(Self-directed learning)은 신뢰할 수 있는 사람(trusted person)과의 관계를 통해 안내받을(guided) 때 강력하게 촉진된다. 멘토들은 학습자들과의 개인적인 접촉(personal contact)으로 인해 멘토링 역할(mentoring role)을 매력적(engaging)이라고 생각한다.

네 번째 교훈은 학습자 진전(learner progress)에 관한 의사결정이 일반적으로 순조로운 과정(smooth process)이며, 학습자에 의한 복잡한 문제(complications)나 이의 제기(appeals)로 이어지는 경우가 거의 없다는(rarely) 것이다.

잘 조직되었을 때(organized well), 평가자들 간의 차이(differences between assessors)에도 불구하고 합의(consensus)가 비교적 쉽게 도달된다(Pool, Govaerts, Jaarsma, & Driessen, 2018).

마지막 교훈은 전자 포트폴리오(electronic portfolio)가 그 과정을 크게 촉진한다(facilitates)는 것이다.

전자 포트폴리오의 필수 기능(Essential features)에는 평가 데이터(예: 다중 출처 피드백(multisource feedback))를 수집(collect)하는 능력, 정보를 양적 또는 질적 개요(overviews)와 요약(summaries)으로 수합(aggregate)하는 역량, 그리고 쉬운 접근(ease of access) 및 탐색(navigation)이 포함된다.

프로그램 기반 평가는 내용 영역 내(within) 그리고 내용 영역을 가로질러(across) 많은 데이터 포인트(many data points)를 확보함으로써 내용 타당도(content validity)를 향상시킬 수 있다. 그러나 청사진(blueprint)은 검사 수준(test level)에서 프로그램 수준(program level)으로 이동했으며, 내용 타당도는 포괄적인 역량 프레임워크(overarching competency framework)와 관련하여 데이터 포인트를 매핑(mapping)하는 데 달려있을 것이다. 구인 무관 변량(Construct-irrelevant variance)은 시간(time), 방법(methods), 평정자(raters)에 걸쳐(across) 평가함으로써 감소된다. 적절하게 실행될 때(properly implemented), 프로그램 기반 평가는 피드백 제공(providing feedback), 피드백의 교육적 발판(educational scaffolding), 그리고 안전한 피드백 및 성찰 문화(safe culture of feedback and reflection)를 만드는 데 강력한 초점을 맞추기 때문에 결과 타당도(consequential validity)를 향상시킬 수 있다. 당연하게도, 타당도 증거(validity evidence)로부터의 이러한 모든 이점들은 추가적인 경험적 검증(empirical verification)을 필요로 한다.

결론(CONCLUSION)

프로그램 기반 평가는 평가를 위한 새로운 프레임워크(new framework)를 제공한다. 이 접근법은 평가의 목적(purpose of the assessment)에 기초하여 평가 설계 선택(assessment design choices)을 신중하게 최적화(optimizes)하고 의사결정 과정(decision-making process)을 개선한다. 상당 부분(To a large extent), 이는 평가에서의 데이터 수집(data gathering)을 평가에서의 의사결정(decision-making)으로부터 분리(disconnects)시키는데, 이 두 기능(two functions)은 전통적으로 완전히 혼합(fully mixed)되어 있었다. 프로그램 기반 평가는 학부 및 대학원 수준 모두에서, 보건 전문직 교육(health professions education)에서 더 구성주의적인 교육(constructivist education)을 촉진할 잠재력(potential)을 가지고 있다. 더 많은 프로그램이 프로그램 기반 평가를 채택하고(adopting) 더 많은 연구를 통해, 우리는 그것이 교육 실제(educational practice)를 변혁(transform)시킬 수 있는지 그리고 어떻게 변혁시킬 수 있는지를 배우게 될 것이다.

'논문 읽기 (with AI)' 카테고리의 다른 글

21세기 의학을 위한 비판적 사고—질병 스크립트를 넘어서 (JAMA, 2025) (0)	2025.11.12
[AHSE] 17 학습에 영향을 미치는 평가(ASSESSMENT AFFECTING LEARNING) (0)	2025.11.02
[AHSE] 14 평가에서의 시뮬레이션 (SIMULATIONS IN ASSESSMENT) (0)	2025.10.09
[AHSE] 11 서술형 평가 (Narrative Assessment) (0)	2025.10.09
[AHSE] 12 평가 포트폴리오 (Assessment Portfolios) (0)	2025.10.09

의대에서 교육하고 있습니다.