[AHSE] 10 직장 기반 평가 (WORKPLACE-BASED ASSESSMENT)

Meded 2025. 10. 9. 21:26

2025. 10. 9. 21:26

10 WORKPLACE-BASED ASSESSMENT (직장 기반 평가)
Mary E. McBride, Mark D. Adler, and William C. McGaghie

이 장(chapter)은 일곱 개의 섹션으로 구성되어 있다.

첫 번째 섹션에서는 직장 기반 평가(Workplace-Based Assessment, WBA)의 개념을 소개한다.
두 번째 섹션에서는 WBA를 역량 기반 의학교육(Competency-Based Medical Education, CBME)의 더 큰 맥락 속에 위치시킨다.
세 번째 섹션에서는 역량과 교육과정 목표를 연결하는 청사진(blueprinting)의 중요성을 논의한다.
네 번째 섹션에서는 WBA를 보다 구체적으로 다루고, 기존의 WBA 도구들을 검토한다.
다섯 번째 섹션에서는 평가의 운영(assessment administration)과 WBA 프로그램이 성공하기 위해 따라야 할 전술(tactics)을 다룬다.
여섯 번째 섹션에서는 심리측정학적(psychometric) 및 사회문화적(socio-cultural) 두 관점에서 데이터를 이해하고 활용하는 방법을 논의한다.
마지막으로 요약(summary)과 함께 미래 전망을 제시한다.

WORKPLACE-BASED ASSESSMENT (직장 기반 평가)

Singh와 Norcini(2013)는 WBA(Workplace-Based Assessment)가 역량 기반 의학교육 모델 안에서, 형성적 피드백(formative feedback) 또는 총괄적 평가(summative assessment)의 목적으로 학습자를 실제 직장(workplace) 환경에서 직접 관찰(direct observation)하는 것을 포함한다고 주장한다.

지식(knowledge), 행동(behavior), 태도(conduct), 기술(skills), 자기성찰(self-reflection) 등이 모두 평가 대상이다(Govaerts & van der Vleuten, 2013).
WBA는 학습자 평가의 유일한 근거가 아니다. 즉, WBA는 서면 평가(written evaluations), 표준화 시험(standardized tests), 객관적 구조화 임상시험(Objective Structured Clinical Examinations, OSCEs), 시뮬레이션 기반 평가(simulation-based assessment) 등을 포함한, 신중하게 설계되고 폭넓게 표본화된 평가 프로그램(program of assessment)의 일부로 활용되어야 한다(van der Vleuten, 2016; van der Vleuten & Schuwirth, 2005).
WBA의 목적은 잘 훈련된 평가자(well-trained raters)가 신중히 설계된 평가도구(well-considered assessments)를 활용해 학습자의 기술, 태도, 행동의 발전(improvement in skills, attitudes, and behaviors)을 직접 관찰(direct observation)을 통해 확인하는 것이다. Miller의 평가 분류체계(Miller’s taxonomy)에 따르면, WBA의 목표는 학습자가 실제로 ‘할 수 있는 것(can do)’ 또는 ‘하고 있는 것(does)’을 평가하는 것이며(Figure 10.1), 이는 학습자가 실제 임상에서 ‘할 것(will do)’을 대리 측정(proxy)하는 방식이다(Govaerts, 2015; Miller, 1990).
교육의 최종적인 품질 평가지표(final measure of education quality)는 학습자 자신만이 아니라, 고품질 진료(high-quality care)를 통해 혜택을 받는 환자(patient)와 사회(society)이다(Kogan & Holmboe, 2013).

WBA의 개념적 모델(conceptual model)은 시간의 흐름에 따라 발전해왔다. 다양한 평가 도구(rating instruments), 환자 기록(patient logs), 포트폴리오(portfolios) 및 기타 관찰 기반 측정(observational measures)에서 파생된 데이터 기반 결과(data-driven outcomes)는 학습 결과 중심의 ‘학습의 평가(assessment-of-learning)’ 시스템을 형성한다.

이 시스템에서 평가자(rater)는 학습자를 평가하고, 개별적인 데이터(discrete data)가 평가 체계(evaluation chain)를 따라 상위 수준으로 전달되어 큰 데이터 축적(data compilation)을 이룬다. 학습자 피드백(learner feedback)은 이 과정의 핵심 요소로 간주되지만, 학습자들은 관찰 기반 평가(observational assessment)를 학습 중심의 경험(learning experience)으로 잘 인식하지 못하는 경우가 많다.

이러한 WBA가 형성적(formative)이라기보다 총괄적(summative)이라는 인식에 대응하여, 학습자들은 곧 ‘시스템을 공략하는(game the system)’ 다양한 인상 관리 전략(impression management strategies)을 사용하게 된다(McGaghie, 2018).

WBA 프로그램은 ‘이상적인 임상 수행(ideal clinical performance)’이 존재하며, 평가자들이 동일한 수행 기준(performance standard)에 대한 정신적 모델(mental model)을 공유하고, 오류 없이 평가할 수 있다는 전제를 기반으로 한다(Govaerts, 2015).

수십 년간 발표된 연구의 대부분은 다양한 학습자 그룹과 상황에서 사용되는 WBA 도구에 대한 타당도 근거(validity evidence)를 기술하고 보고하는 데 초점을 맞추었다(Kogan, Holmboe, & Hauer, 2009). 그러나, 기존 평가 도구들은 단일 평가만으로는 강력한 타당도 근거를 산출하지 못한다. 충분한 재현성(reproducibility)을 확보하기 위해서는 시간(time), 환경(settings), 평가자(raters)에 걸친 광범위한 표본화(broad sampling)가 필요하다(Crossley & Jolly, 2012).

사회문화적 관점(socio-cultural perspective)에서 WBA는 학습자 중심(learner-centric) 평가 프로그램의 핵심적 토대(cornerstone)로 여겨지며, 탁월한 의료 전문가(excellent healthcare providers)를 양성하기 위한 학습 맥락(context for learning)**을 제공한다. 이 관점에서 WBA는 ‘학습을 위한 평가(assessment-for-learning)’ 모델을 지향하며, 숫자 점수(numerical scores)보다 서술적 피드백(narrative feedback)을 중시한다. 즉, 임상 적합성(clinical fitness)을 완전히 포착할 수 있는 단 하나의 ‘진실된 점수(true score)’는 존재하지 않는다. 따라서, 훈련된 교수 평가자(faculty raters)가 서로 다르게 평가하더라도, 이러한 차이는 평가자 오류(rater error)로 보아서는 안 되며, 수행 기준에 대한 다양한 시각(different views about performance standards)으로 이해해야 한다(Govaerts & van der Vleuten, 2013).

이는 대부분의 임상 문제(clinical problems)에 대해 하나 이상의 정답(more than one correct answer)이 존재하며, 전문가 간 의견 불일치(disagreement among experts)가 있을 수 있음을 반영한다.

이러한 인식이 현실화되기 위해서는 여러 장애요인(barriers)이 존재한다. 즉, 학습자와 교수진에게 요구되는 임상적 업무(clinical demands), 의학교육의 재정적 제약(financial drivers), 그리고 정성적 평가(qualitative WBA)를 지원할 수 있는 학습 문화(learning culture)를 조성하는 어려움 등이 그것이다.

COMPETENCY-BASED MEDICAL EDUCATION (역량 기반 의학교육)

McGaghie, Miller, Sajid, 그리고 Telder(1978)는 역량 기반 의학교육(Competency-Based Medical Education, CBME) 프로그램의 목표 산출물(intended output)은 다음과 같다고 밝혔다.

“지역적 여건(local conditions)에 부합하고, 지역 사회의 필요(local needs)를 충족시키기 위해, 정의된 숙련 수준(defined level of proficiency)에서 의학을 실천할 수 있는 보건의료 전문가(a health professional)”

McGaghie 등(1978)이 언급한 숙련(proficiency) 또는 역량(competency) 기준(standards)은 각국의 국가 수준 기관(national-level entities)에 의해 공표된다. 예를 들어,

미국에서는 Accreditation Council for Graduate Medical Education (ACGME) 및 Association of American Medical Colleges (AAMC),
캐나다에서는 Royal College of Physicians and Surgeons of Canada의 CanMEDS,
영국에서는 General Medical Council (GMC),
그리고 전 세계적으로 다양한 기관들이 있다.

이러한 표준들은 의과대학생(undergraduate learners)과 전공의(graduate learners)를 위한 광범위한 교육 목표(broad education targets)를 형성한다.

이 장(chapter)은 직장 기반 평가(Workplace-Based Assessments, WBA)를 다루지만, 평가 자료의 다른 원천(sources of assessment data)은 서면 시험(written tests), 구술 시험(oral tests), 수행 평가(performance tests), 서술형 평가(narrative assessment), 그리고 포트폴리오(portfolios)를 다루는 장에서 설명된다. 이 모든 평가 요소들의 집합(aggregate)은 학습자의 활동(activity), 평가자(assessor), 시간(time)을 아우르는 포괄적 평가(learner assessment)를 가능하게 한다. 이렇게 통합된 데이터(aggregated data)는 학습자가 다음 교육 단계(next stage of education) 또는 임상적 책임 수준(clinical graduated responsibility)으로 나아갈 준비가 되었는지를 보여주는 전반적 그림을 제공한다.

교육자들은 학습자가 환자 안전(patient safety)과 고품질 진료(high-quality care)의 목표를 유지하면서도 감독(supervision)을 덜 받으며 학습할 수 있도록 신뢰할 수 있는지 여부를 판단해야 한다고 주장한다. Ten Cate와 Scheele(2007)은 이러한 판단을 신뢰 결정(entrustment decisions)이라 부른다.

이후, 신뢰(entrustment)와 신뢰할 수 있는 전문활동(Entrustable Professional Activities, EPAs)은 보건의료 평가(healthcare assessment)의 언어 속으로 들어왔다. EPA는 ‘신뢰의 기준(entrustment criteria)’을 구체화한 개념이다. EPA는 단순히 직관적 판단(gestalt)이나 이분법적 신뢰 결정(binary trust decision)이 아니라, 앵커(anchor)가 설정된 평정 척도(anchored rating scale)의 형태를 취한다. 이 척도는 학습자의 발전 단계를 다음과 같이 제시한다.

A. 임상 업무를 관찰만 함(observing a clinical task)
B. 직접 감독(direct supervision) 하에 수행
C. 간접 감독(indirect supervision) 하에 수행
D. 거리 감독(distant clinical supervision) 하에 수행
E. 다른 사람을 감독함(supervising others)

이러한 앵커(anchor)는 신뢰의 진행 정도(trust progression)에 따라 세부적으로 달라질 수 있다. Figure 10.2는 CanMEDS 프로그램(Gofton, Dudek, Wood, Balaa, & Hamstra, 2012)에서 제시된 보완적 앵커 구조(complementary anchoring structure)를 보여준다.

Figure 10.2. The O-SCORE Entrustment Scale (오타와 외과 역량 평가 척도)

Level 1 – “I had to do” (내가 직접 해야 했다)
→ 완전한 손잡이식 지도(complete hands-on guidance)가 필요함.
→ 스스로 수행하지 못했거나, 수행 기회를 받지 못함.

Level 2 – “I had to talk them through” (내가 말로 이끌어줘야 했다)
→ 과제를 수행할 수는 있으나, 지속적인 지시(constant direction)가 필요함.

Level 3 – “I had to prompt them from time to time” (때때로 내가 힌트를 줘야 했다)
→ 어느 정도의 독립성(some independence)을 보이지만, 간헐적인 지시(intermittent direction)가 필요함.

Level 4 – “I needed to be in the room just in case” (혹시 몰라서 내가 방 안에 있어야 했다)
→ 독립적으로 수행할 수 있으나, 위험에 대한 인식이 부족하여 안전한 수행을 위해 감독(supervision)이 여전히 필요함.

Level 5 – “I did not need to be there” (내가 있을 필요가 없었다)
→ 완전한 독립성(complete independence)을 보이며, 위험을 이해하고 안전하게 수행함. 즉, 실제 임상(practice)에 투입할 준비가 된 상태(practice ready).

출처:
Gofton, W.T., Dudek, N.L., Wood, T.J., Balaa, F., & Hamstra, S.J. (2012). The Ottawa Surgical Competency Operating Room Evaluation (O-SCORE): A Tool to Assess Surgical Competence. Academic Medicine, 87(10), 1401–1407.
(Academic Medicine은 Association of American Medical Colleges의 학술지임.)

Figure 10.3은 역량(competencies), 신뢰(entrustment), WBA, 그리고 수행(performance) 결정 간의 관계를 시각적으로 나타낸다(Gofton, Dudek, Barton, & Bhanji, 2017). 여기서 개별 역량(specific competencies)이나 EPA는 순간적인 ‘스냅샷(in-the-moment snapshot)’ 평가를 위한 것이 아니다. 이러한 역할은 여러 개별 평가(discrete evaluations)를 통합하여(aggregated) 수행할 때 비로소 가능하다(Holmboe, 2015).

WBA는 상호 피드백(bidirectional feedback)을 위한 중요한 데이터 원천(data source)을 제공하며, 이러한 데이터 흐름(data flow)은 신뢰 결정(entrustment decisions)을 가능하게 하고, 학습자의 발달 이정표(developmental milestones)를 향한 진전(progress)을 추적할 수 있게 한다.

BLUEPRINTING (청사진 설계)

WBA를 더 깊이 탐구하기에 앞서, 광범위한 교육 목표(broad educational objectives)를 평가(assessment)와 연결하는 과정을 살펴볼 필요가 있다. 청사진 설계(blueprinting) 또는 내용 매핑(content mapping)은 평가를 학습 목표(learning objectives)에 명시적으로 연결(explicitly link)하는 메커니즘이다(Coderre, Woloschuk, & McLaughlin, 2009; Swanwick & Chana, 2009).

그 목표(goal)는 평가 방법(assessment methods), 도구(tools), 환경(settings)과 교육과정 목표(curriculum objectives) 간의 정렬(alignment)을 보장하는 것이다.
그 의도(intent)는 특정 내용을 과대표집(over-representing)하거나 과소대표집(under-representing)하지 않으면서, 임상 영역(clinical domains) 전반에서 균형 잡힌 평가(balanced evaluation)를 수행하는 것이다.

Figure 10.4는 특정 EPA가 교육과정 이정표(curriculum milestones)에 어떻게 매핑(mapping)될 수 있는지를 보여주며, 이를 통해 역량 영역(competency domains) 전반에서 충분한 표집(adequate sampling)**이 이루어지도록 한다(ten Cate, 2014).

청사진 설계(blueprinting)는 교육과정 설계의 상위 수준(high-level curricular design stage)에서도, 개별 WBA 평가(individual WBA assessments)를 설계할 때도 적용 가능하다. 이는 흔히 임시적 임상 경험(ad hoc clinical encounters)에 의존하는 평가 프로그램들에서 자주 제기되는 내용 표집의 목적성(purposeful content sampling) 문제를 해결하는 데 중요한 역할을 한다.

WORKPLACE-BASED ASSESSMENT (직장 기반 평가)

학습자를 직접 임상 현장에서 관찰(direct clinical observation)하고, 의미 있는 피드백(meaningful feedback)과 점진적 향상(incremental improvement)의 기회를 제공하는 것은 WBA의 핵심 원리(key tenet)이다. Watling과 Ginsburg(2019)는 다음과 같이 언급했다.

“효과적인 피드백이 되기 위해서는, 시의적절하고(timely), 구체적이며(specific), 실행 가능하고(actionable), 사람 중심(person-oriented)이 아니라 과제 중심(task-oriented)이어야 한다.”

시간에 걸쳐 이러한 피드백이 지속적으로 제공된다면, 이는 의도적 연습(deliberate practice)의 개념적 모델에 부합한다.
이 모델에서는 학습자가 전문가의 피드백(expert feedback)을 받으며 지속적이고 목적 있는 연습(sustained, purposeful practice)에 참여한다. 의도적 연습(deliberate practice)은 보건의료 교육(healthcare education)에서 학습자의 기술 향상(skill improvement)에 효과적임이 입증되었다(Ericsson, 2004, 2015).

WBA 프로그램은 학습의 평가(assessment of learning)에 초점을 맞추어 평가 데이터를 수집하고 활용(collect and use assessment data)하려 한다. 이 접근은 심리측정학적 근거(psychometric evidence)를 통해 다양한 평가 도구의 사용 타당성을 확보하려는 연구로 이어졌다. 그러나 Schuwirth와 van der Vleuten(2006)은 “심리측정학에 기반한 접근(psychometrically driven approach)”은 현재의 WBA 방법과 일치하지 않는다고 주장하였다. 그들은 WBA 결과를 양적 지표(quantitative measures)로 평가하려는 접근이 몇 가지 잘못된 전제(assumptions)에 기초하고 있다고 지적한다.

A. 숫자 점수(numerical scores)로 측정된 학습(learning)은, 그 점수가 얻어진 맥락(context)과 무관하게 의미를 가진다.
B. 역량(competence)은 숫자 점수로 판단될 수 있으며, 이는 안정된 특성(stable trait)이다.
C. 평가자들이 더 잘 수행한다면, ‘진정한 수행 수준(true level of performance)’을 점수로 나타낼 수 있다.

이러한 전제들은 정당화될 수 없다(cannot be justified)고 그들은 결론짓는다(Govaerts & van der Vleuten, 2013). 즉, 맥락(context)이 중요하다. Figure 10.5 (Durning et al., 2012)는 WBA의 핵심 요인(key factors) 간의 상호작용(interplay)을 보여주는 모델을 제시한다.

비록 WBA 프로그램이 평가 데이터(data for assessment)를 제공하지만, 실제로는 WBA 사건(event)이 피드백의 기회(opportunities for feedback)로서 의도적으로 사용되어야 함을 명확히 강조해야 한다. 교수와 학습자 간의 일대일(one-on-one) 상호작용(interaction)은 학습의 주요 동력(primary driver)으로 간주된다. 그러나 이 모델에는 긴장 관계(tension)가 존재한다.
현대 CBME 모델에서는 체계적 수준(system-level)에서 데이터를 필요로 하며, 그 데이터의 주요 부분이 교수와 학습자 간의 실제 직장 상호작용(workplace interactions)에서 비롯된다.

이러한 이중적 사용(dual uses)으로 인해, WBA는 학습자와 평가자 모두에게서 형성평가(formative assessment)와 총괄평가(summative assessment)의 경계를 모호하게 만든다(blur the lines) (Govaerts, 2015).
Bok은 이렇게 지적한다.

“형성평가와 총괄평가를 결합하는 것은 매우 어렵다. 어떤 사람은 그것이 거의 불가능(almost impossible)하다고 말할 것이다.”

Bok 등(2013)은, 형성평가(formative assessment)가 성적(grading)에 사용되는 데이터로도 수집될 경우, 학습자들이 이를 ‘고위험(high-stakes)’ 평가로 인식하게 된다고 설명했다. 즉, 평가의 목적(assessment purpose)이 명확하지 않다면, 기본적으로 학습에 불리하게 작용한다. 따라서,

학습자들은 모든 WBA의 절차(process)와 목표(objectives), 그리고 이 과정이 전체 평가 프로그램(overall assessment program) 안에서 어떻게 맞물리는지를 충분히 안내받아야 한다.
무엇이 평가될지(what will be assessed), 어떤 도구(instruments)를 사용할지, 어떤 조건(conditions)—예를 들어 의료 팀(medical team)과의 관찰인지, 환자(patient)와의 상호작용인지—를 명확히 고지해야 한다.

WBA가 전체 평가 프로그램의 핵심적 구성 요소(cornerstone)라면, 평가는 정기적이고 목적성 있게(regularly and with purpose) 수행되어야 한다. 이를 위해서는 다음이 필요하다.

적절한 평가 도구(appropriate assessment tools)
자격을 갖춘 평가자(qualified raters)
학습 의지가 있는 학습자(learners open to learning)
학습에 적합한 환경(conducive environment)

이제 이러한 요소들을 차례로 다룬다.

Assessment Tools (평가 도구)

공식적으로 발표된 WBA 도구들은 체크리스트(checklists)에서부터 앵커드 및 전반적 수행 평가(anchored and global performance ratings), 서술적 피드백(narrative feedback), 포트폴리오(portfolio) 기여(contributions)에 이르기까지 다양하다. 평가 도구의 선택은 종종 측정이 쉬운 기술(skills)이나 행동(behaviors), 그리고 사용이 간편한 도구(tools that are easiest to use)에 의해 결정된다. Crossley는 이를 다음과 같이 비판했다.

“중요한 것을 측정하기보다(measuring what is important), 측정 가능한 것을 측정한다(measuring what is measurable).”
그리고 이렇게 덧붙였다.
“평가는 올바른 사람에게(the right people), 올바른 방식으로(in the right way), 올바른 질문을(the right questions), 올바른 주제에 대해(about the right things) 해야 효과적이다.” (Crossley & Jolly, 2012)

출판된 WBA 도구들은 매우 많으며, Swanwick의 분류(Swanwick & Chana, 2009)는 이를 이해하기 위한 유용한 구조를 제공한다.

1. 수행 데이터 분석 (Analysis of Performance Data)

이 데이터에는 다음이 포함될 수 있다.

임상 결과(clinical outcomes) — 예: 시술 성공률(procedural success rates)
과정 지표(process metrics) — 예: 특정 처치까지의 소요 시간(time to intervention)
환자 수(patients volume data) — 예: 증례 기록(case logs), 전자의무기록(EHR) 데이터

이 데이터는 원래 학습자 피드백(learner feedback)을 제공하기 위한 목적에서 사용되었다. 하지만 동시에, 이는 안전(safety)과 품질(quality) 측면에서 환자에게 제공되는 가치(value to patients)를 입증하는 자료로도 활용될 수 있다. 따라서 수행 데이터는 피드백 제공뿐 아니라, 프로그램 성과(program outcomes) 평가에도 사용될 수 있다. 두 편의 연구에서 환자 결과 데이터(patient outcome data)가 교육 프로그램 평가(training program evaluation)에 활용된 바 있다.

Smirnova 등(2019)은 산과 수련 프로그램(obstetrical training program) 내에서 역설적인 관계(counterintuitive association)를 발견했다. 즉, 학습 문화(learning culture)가 더 좋다고 인식된 프로그램에서 주산기 합병증률(perinatal complication rates)이 더 높았다.
또 다른 연구에서 Asch, Nicholson, Srinivas, Herrin, & Epstein(2009)은 산부인과 의사의 주산기 합병증률이 그들이 훈련받은 기관(where they trained)과 관련이 있음을 보고했다.
Smirnova 등은 임상 데이터(clinical data)의 활용이 개인(individual), 교육 프로그램(training program), 시스템(system), 그리고 전공의 교육 집합체(GME collective) 수준에서 이루어져야 하며, 교육 평가와 환자 진료 결과의 정렬(alignment)을 개선해야 한다고 주장했다.

2. 임상 활동의 관찰 (Observation of Clinical Activities)

아래에서 논의되는 관찰 도구(observation instruments)의 예시는 Norcini & Burch(2007)에서 확인할 수 있다. 이 목록은 대표적인 예시(representative)이며, 포괄적(exhaustive)이지 않다.

a. Mini-CEX (Clinical Evaluation Exercise)

학습자가 환자 진료 중에 평가자(rater)에 의해 직접 관찰(observed and assessed)된다.
각 학습자는 여러 평가자(multiple raters)에 의해 다양한 사례(multiple cases)에서 평가받는 것이 이상적이다(Norcini, 2003).
Mini-CEX의 타당도 근거(validity evidence)는 여러 연구에서 제시되었다(Durning et al., 2002; Holmboe et al., 2004; Kogan et al., 2003).
- Al Ansari, Ali, & Donnon(2013)의 메타분석(meta-analysis)에서는 11개 연구를 기반으로, 학습자 성취(trainee achievement)와 수행(performance) 간의 효과 크기가 “작음에서 큼(small-to-large)” 범위로 나타났다.
- 대부분의 근거는 내과(internal medicine) 프로그램에서 도출되었다.
- Humphrey-Murto 등(2018)은 다학제적(mini-CEX)에서 OSCE와의 상관관계는 나타났으나 서면 시험(written test)과는 상관이 없었다고 보고했다.

b. MiniCard

Donato et al.(2015)의 단일 연구에서, 의대생(medical students)을 대상으로 한 MiniCard 평가 도구가 타당성을 입증(validity evidence)받았다.

c. DOPS (Direct Observation of Procedural Skills)

Mini-CEX의 변형으로, 수술 수련의(surgical trainees) 평가에서 그 유효성(evidence)이 입증되었다(Goff et al., 2002; Larson et al., 2005).
SIMPL (System for Improving and Measuring Procedural Learning)은 DOPS 모델과 일치하는 수술 WBA 도구(surgical WBA tool)로, 스마트폰 기반 데이터 수집(smartphone-based data collection)을 사용한다(Bohnen et al., 2016).
OSATS (Objective Structured Assessment of Technical Skills)(Martin et al., 1997)와 NOTECHS (Non-Technical Skills)(Flin, 2004)는 임상 기술(clinical skills)을 직접 관찰하는 추가적 예시이다.
두 도구 모두 다양한 용도에 맞게 수정되어 사용되고 있다.

3. 증례 기반 토론 (Discussion via Cases)

사례 기반 토론(Case-Based Discussion, CbD) 또는 기록 유도 회상(chart-stimulated recall)은 학습자가 실제로 다룬 사례(existing case)를 기반으로 한 집중 토론(focused discussion)이다. 논의의 초점은 학습자가 그 임상 사례에서 무엇을 했는가(what the learner did)에 맞춰진다.

4. 다원적 피드백 (Multi-Source Feedback)

a. Mini-PAT (Mini–Peer Assessment Tool) — 동료 학습자(peer learners)로부터 익명 피드백(anonymous feedback)을 받는 과정이다(Abdulla, 2008).
b. 포트폴리오(Portfolios) — 학습자의 다양한 출처(multiple sources)로부터 평가를 시간에 걸쳐(over time) 수집(collection)하는 형태이다.

출처에는 자기 평가(self), 동료(peer), 지도교수(supervisor) 등이 포함되며, 다양한 방식(modalities)으로 이루어진다.
포트폴리오의 유효성은 여러 국가에서 보고되었다:
- 미국(O’Brien et al., 2016),
- 스코틀랜드(Davis et al., 2001),
- 네덜란드(Driessen et al., 2003),
- 호주(O’Sullivan et al., 2012),
- 캐나다(Hall et al., 2012).
포트폴리오는 다양한 평가 자료를 통합하여, 학습자의 수행(performance)을 장기적(longitudinal)이고 포괄적(broad)으로 보여준다.
포트폴리오에 대한 자세한 논의는 제12장(Chapter 12)에서 다룬다.

Kogan과 Holmboe(2013)는 이미 존재하는 WBA 도구들이 풍부하기 때문에 새로운 평가 도구를 개발할 필요는 거의 없다고 지적했다. 대신, 평가자 교육(rater training)을 강화하고, 기존 도구(existing tools)를 활용해 보다 질 높은 피드백(provide better feedback)을 제공하는 데 초점을 맞춰야 한다고 강조했다.

The Rater and Learner Dyad (평가자–학습자 이원 관계)

잘 훈련된 교수 평가자(well-trained faculty raters)는 학습자와 상호작용하여, 종단적 향상(longitudinal improvement)을 목표로 확인된 격차(identified gaps)를 겨냥한 교육 기회(education opportunities)를 만들어낸다. 이 노력의 성공은 이원 관계(dyad)의 각 구성원과 그들 사이의 관계에 의해 영향을 받는다. 고려해야 할 요인은 다음과 같다.

학습자 중심성(Learner-Centeredness)—학습자는 어떤 격차를 메우고 싶은지, 누구에게 배우고 싶은지, 어떤 장소에서, 어떤 임상적 조건(clinical conditions) 하에서 배우고 싶은지에 대한 기대(expectations)를 가지고 온다. 평가에 대한 기대는 표집 계획(sampling plan)을 따르면서도 학습자 중심(learner focused)이어야 한다.
평가자의 신뢰성(Credibility of Assessors)—학습자는 신뢰할 수 있다고 판단하는 평가자(credible raters)의 피드백을 수용한다. 신뢰할 수 있는 피드백(credible feedback)은 행동을 직접 관찰(directly observed the behavior)한 신뢰 가능한 원천(trusted source)으로부터 오며, 변화를 위한 실행 가능한 권고(actionable recommendations for change)를 제공한다. 변경 불가능한 고유 특성(intrinsic traits not amenable to change)에 대한 비판은 피드백 수용을 저해한다(Watling & Ginsburg, 2019). Veloski, Boex, Grasberger, Evans, and Wolfson(2006)은 체계적 문헌고찰에서 권위 있는(authoritative), 종단적(longitudinal), 임상 피드백(clinical feedback)이 단기간의 노력(shorter efforts)보다 우수함을 확인했다.
- 피드백은 관찰된 행동(observed behavior)에 근거해야 신뢰할 수 있다. 로테이션 종료 평가(end-of-rotation assessment)는 회상 편향(recall bias)에 취약하다(Govaerts, 2015). 출간된 근거는 병력 청취(taking patient histories)와 신체진찰(performing physical examinations)과 같은 과업이 자주 관찰되지 않는다고 시사한다(Holmboe et al., 2004). 다만 AAMC 학생 연례 설문(Association of American Medical Colleges’ Annual Survey)의 새로운 데이터는 학생 보고 임상 관찰(student-reported clinical observation)이 꾸준히 증가했음을 보여주며, 점진적 변화의 증거를 제공한다. 문항에 따라 80% 이상 학생이 병력 청취와 신체진찰을 관찰받았다고 응답했으며, 외과 실습(surgical clerkships)의 학생은 병력 관찰(history observation)을 70% 이상 보고했다.
- 신뢰성은 평가자의 임상 역량(clinical competence of the assessor)에서도 비롯된다. 졸업생(현재는 평가자)에게도 자신의 기술과 지식의 격차(gaps)가 존재할 수 있다는 근거가 있다. 일부 결함(deficiencies)은 수련(training)과 연관되어 임상으로 이어지며, 다른 결함은 시스템 및 전문성 역량(systems and professional competencies) 범주에 속하는 기술 관련( skill-related ) 결함으로서 훈련되지 않았을 가능성이 있다(Holmboe et al., 2011).
오늘날 임상의(clinicians)는 증가하는 시간 요구(increasing time demands)에 직면해 있고, 더 많은 문서 작업(documentation)을 해야 하며, 학습자 관찰에 할애할 시간은 줄어들고 있다. 어떤 평가 방법이든 성공하려면 시간과 인적 자원(human resources)에 대한 투자가 필요하다. 평가자는 평가 도구(assessment tools)를 포함한 평가 방법(assessment methods)에 대해 훈련(training)되어야 한다. 평가자–학습자 연속성(continuity of learner–faculty dyads)은 그 관계가 발전할 충분한 시간이 허용될 때에만 가능하다.
학습자와 평가자는 평가 목적(assessment purpose)과 작동 기준 및 목표(operative criteria and objectives)에 대해 공통의 기대(common expectations)를 가져야 한다. 즉, 형성 목적의 피드백 제공(formative feedback)인가, 아니면 총괄 목적(summative purposes)의 데이터 수집도 병행하는가에 대해 합의(consensual understanding)가 필요하다. Bok는 학생들이 형성평가와 총괄평가를 구분하기 어렵다고 보고했다(Bok et al., 2013).
- 평가가 총괄적(summative)으로 인식되면, 학습자는 관찰을 피하려는 행동 변화를 보일 수 있으며, “쉬운(easier)” 증례만 선택하거나 덜 비판적인(less judgmental) 평가자를 고를 수 있다(Roberts, 2013).
- Haas와 Shaffir(1982)는 이를 “인상 관리(impression management)”라 부른다.
- McGaghie는 “좋아 보이기(look good)” 위해 학습자가 타인의 지각(perception)에 초점을 맞추고, 모든 상황에서 자신감 있어 보이려 하며, 도움을 요청하는 것을 피하고 그 결과 면밀한 관찰(scrutiny)을 회피한다고 지적한다(McGaghie, 2018).
- Patel은 외과 전공의(surgical residents)가 감독자(supervisors)에게 어떻게 보이는지에 주의를 집중하는 양상을 조사했다(Patel et al., 2018). 한 연수의는 인상 관리의 동기를 다음과 같이 설명한다. “이 프로그램에서는, 네가 멍청이로 낙인찍히면(brand you an idiot)… 끝장이다(you’re done)”(Patel et al., 2018).
WBA는 훈련되었고( trained ), 동기가 있으며(motivated), 가용한(available) 평가자를 필요로 한다. 경력 연수(years of experience), 교수 직급(faculty rank), 임상 수완(clinical acumen)이 있다고 해서 자동으로 “좋은(good)” 평가자가 되는 것은 아니다(Herbers et al., 1989; Noel et al., 1992). 평가자 개발(rater development)과 기술 유지(skill maintenance)가 이루어져야 신뢰할 수 있는(reliable) 평가 데이터를 얻을 수 있다. 목표는 잠재적 편향(bias)의 원천을 줄여, WBA 프로그램이 신뢰도 있는 데이터(reliable data)를 산출하여 타당한 결정(valid decisions)과 유용한 피드백(useful feedback)으로 이어지게 하는 것이다.
평가자의 배경(rater background)은 그들이 제공하는 데이터에 별개의 요인(distinct factor)으로 작용한다. 의사 평가자(physician raters)는 경력의 진전에 따라 엄격성(stringency)이 증가하는 등 상당히 다양하게(with variability) 나타난다.

Holmboe et al.(2011)은 교수 및 프로그램 평가(faculty and program assessments)를 개선하기 위한 다섯 가지 핵심 방법(five key methods)을 제시한다.

준거틀 훈련(Frame-of-Reference Training)—수행 기준(performance standards) 영역에서 평가자를 훈련한다. 보통 서로 다른 수행 수준의 예시(examples of different levels of performance)를 활용하며, 예컨대 비디오 비네트(video-recorded vignettes)로 실시한다. 이 훈련은 프로그램 리더십(program leadership)까지 확장되어야 한다.
평가자에 대한 직접 피드백(Provide Direct Feedback to Raters)—그들의 채점 범위(scoring range)가 다른 평가자들과 어떻게 관련되는지에 관해 피드백을 제공한다. 프로그램은 이 데이터를 활용해 평가자 피드백을 체계적으로 제공해야 한다.
도구 사용 훈련(Training in Use of Tools)—특정 도구(specific to a tool)와 일반 심리측정 원리(general psychometric principles) 모두에 대한 훈련.
공통 자원(Common Resources)—국가 단위 웹 기반 자원(national web-based resources)을 통해 지역 기관(local institutions)에 교육과 자원을 제공한다.
학습자 중심(Learner-Centered)—학습자가 자신의 평가에 능동적으로 참여(active involvement)하고, 자기주도적 개선(self-directed improvement) 과제를 수행하도록 한다.

그럼에도 불구하고, 관찰(observation)을 통해 생산되는 평가자와 평가 데이터(raters and rating data)는 편향(bias)으로부터 완전히 자유로울 수 없다(never be fully free of bias).

Tonesk & Buchanan(1987)은 임상 교수(clinical faculty)와 클럭십 코디네이터(clerkship coordinators)를 인터뷰하여, 다수의 교수들이 부정적 평가(negative evaluations)를 기록하길 꺼린다고 인정했음을 발견했다.
Yepes-Rio et al.(2016)는 연수의에게 낙제(failing a trainee)를 부여하는 데 있어 어떤 요인이 촉진(enablers) 또는 장벽(barriers)으로 작용하는지에 관한 문헌을 검토했다.
- 장벽(barriers)에는
  - 전문적 고려(professional considerations)(누군가를 낙제시키는 데 더 많은 시간과 일이 든다는 점),
  - 개인적 고려(personal considerations)(자신의 실패감),
  - 연수의 관련 고려(trainee-related considerations)(연수의의 목표에 미치는 영향),
  - 불충분한 평가자 개발 및 평가 도구(unsatisfactory evaluator development and evaluation tools)(자신의 판단에 대한 의심) 등이 포함되었다.
- 촉진 요인(enablers)에는
  - 환자, 사회, 전문직에 대한 의무감(sense of duty),
  - 제도적 지원(institutional support)(예: 낙제 평가를 지지),
  - 동료의 지원(support from colleagues),
  - 평가자 개발(evaluator development),
  - 강력한 평가 시스템(strong assessment systems),
  - 낙제 후 학생을 위한 기회(opportunities for students after failing) 등이 포함되었다.

Environment (환경)

관찰(observation)을 학습을 위한 피드백(feedback for learning) 수단으로 임상 맥락(clinical context)에서 사용할 때에는 특정 고려사항(specific considerations)이 적용된다. 임상 환경(clinical settings)은 진짜 상황(authentic environment)에서 업무 과업(work tasks)을 수행하는 학습자에 대한 직접 평가(direct assessment)를 가능하게 한다. 그러나 산만 요소(distractions)와 경합하는 진료 요구(competing care demands)가 만들어내는 현실 세계의 환경(real-world milieu)은 평가 기회(assessment opportunities)를 방해한다. 그중에서도 시간(time)이 가장 흔하고 광범위한(pervasive) WBA의 장벽(barrier)이다. 환자(patient), 평가자(assessor), 학습자(learner)의 가용성(availability)은 제각기 다르고, 대개 서로 맞지 않는다(do not align).

ASSESSMENT ADMINISTRATION (평가의 운영)

직장 기반 평가(workplace assessment)의 맥락에서 우리는 일관성(consistency)과 공정성(fairness)의 균형을 추구하면서, 동시에 환경이 만들어내는 제약(constraints)을 인식해야 한다.
고품질 평가 구현(high-quality implementation)의 핵심 요소는 다음과 같은 측면에서의 일관성이다.

학습자가 어떻게 평가되는가(how learners are rated)
어떤 도구가 사용되는가(what instruments are used)
어떤 영역이 평가되는가(what domains are evaluated)
평가자가 어떻게 훈련되는가(how raters are trained)

이러한 조건들이 표준 조건(standard conditions)으로부터 벗어날수록, 평가의 의미는 감소한다(the less meaningful the assessment will become). 이를 방지하기 위해서는 설계 단계(design phase)에서부터 평가 일정(scheduling)과 평가 장소(assessment venues) 설정까지 체계적 노력이 필요하다.

또한, 데이터 품질 보증(data quality assurance) 역시 동일한 주의와 노력을 필요로 한다. 데이터 수집 계획(data collection plans)은 종이 기반(paper-based)이든 전자적 매체(electronic media)이든 철저히 사전 검증(rigorously tested)되어야 한다. 단순한 텍스트 오류(simple text error) 하나가 파일럿 테스트(pilot testing)가 이루어졌다면 발생하지 않았을 데이터 손실(data loss)을 초래할 수도 있다. 또한, 즉각적 피드백(immediate feedback)을 제공하기 위한 데이터 수집 설계라면 사전 테스트(pilot testing)는 더욱 필수적이다.

이 과정에서 반드시 고려해야 할 질문은 다음과 같다.

학습자들은 평가 과정과 데이터 표시(data display)에 대해 어떻게 느끼는가?
평가자들은 평가 과정이 효과적이며 형성적 피드백(formative feedback) 실천과 일치한다고 느끼는가?

MAKING SENSE OF ASSESSMENT DATA (평가 데이터의 해석)

WBA 프로그램의 최종 산출물(end product)은 해석이 필요한 데이터 풀(pool of data)이다. 이 데이터를 어떻게 수집, 활용, 이해해야 하는지, 그리고 WBA의 주된 목적(primary purpose)이 무엇인지를 둘러싼 두 가지 관점이 존재한다.

1. Psychometric Perspective (심리측정학적 관점)

이 관점에서는 숫자 기반 점수 데이터(numeric score-based data)가 의사결정의 주요 근거(primary basis for decisions)로 사용된다.

이 견해는 앞서 언급한 대로, ‘진정한 객관적 기준(true, objective standard)’이 존재하며, 숫자 데이터(numeric data)는 그 구성 개념(construct)의 근접한 측정(proximal measure)이라고 본다.
또한, 측정된 구성 개념이 시간에 따라 안정적(stable over time)이며 맥락(context)과 독립적으로 관찰될 수 있다는 전제도 포함한다(Govaerts & van der Vleuten, 2013).

이 전제는 다양한 출처에서 나온 데이터를 하나의 종합 점수(composite)로 묶기 위해 필수적이다.

즉, 교육자는 평가 데이터가 신뢰할 만하고(reliable) 학습자에 대한 타당하고 정확한(valid and accurate) 결정을 가능하게 하는 증거(evidence)를 필요로 한다. 이러한 근거가 없다면, 평가 결정의 정확성(decision accuracy)은 의심받아야 한다. 데이터의 의미(data meaning)는 다음과 같은 요인들에 의해 좌우된다.

평가 방법(assessment methods)이 과거 유사한 환경(similar settings)과 유사한 학습자(similar learners)에서 성공적으로 활용된 근거(evidence)가 있는가?
평가 도구가 어떻게 사용되었는지, 평가가 의도대로 시행되고 데이터가 일관되게 수집되었음을 보장하기 위한 품질관리(quality control measures)는 존재했는가?
평가자 훈련(rater training)은 어떻게 이루어졌는가? 실제로 참석(attendance)했는가?
- 훈련이 비대면(passive), 예컨대 웹 기반(web-based)이었다면, 훈련 완료의 근거(evidence of completion)가 있는가?
평가자 간 점수 일치도(rater agreement)는 어느 정도였는가? 시간에 따른 보정(calibration over time)이 이루어졌는가?
수집된 데이터는 의도한 목표 구성(target construct)을 실제로 측정하고 있는가?

2. Socio-Cultural Perspective (사회문화적 관점)

사회문화적 이론(socio-cultural theories)은 다음과 같이 주장한다.

“학습 결과(learning outcomes)는 공동체의 활동(activities of community)에 적극적으로 참여하고, 복잡하고 역동적인 작업 환경의 시스템(complex and dynamic systems of the work environment)과의 상호작용을 통해 나타난다.”
(Govaerts & van der Vleuten, 2013)

이 관점에서 WBA의 초점은 점수(score)-중심 접근에서 벗어나, 학습자의 성장과정(progression of learners)을 이해하는 쪽으로 이동한다. 이는 심리측정학적 접근(psychometric view)과는 뚜렷한 대조를 이룬다.

WBA 데이터는 주로 과정 지표(process measures)에 초점을 둔다. 그러나 Crossley와 Jolly(2012)는 이러한 지표가 전반적 평가(global assessments)보다 판별력(discriminating power)이 낮다고 주장한다. 즉, 과정(process)보다는 수행(performance) 자체가 더 중요하며, 평가자는 과정보다 수행에서 더 일관적(consistency)이고 판별 능력이 높다(better discrimination)고 본다.

이 관점은 숫자 점수(numeric scores)보다 서술형 피드백(narrative feedback)을 지지한다(Govaerts & van der Vleuten, 2013; Hanson, Rosenberg, & Lane, 2013).

숫자(scores)는 본질적 의미(intrinsic meaning)가 없으며,
서술(narratives)은 행동 가능한 피드백(actionable feedback)의 근거가 된다는 것이다(Govaerts & van der Vleuten, 2013).

“수행(performance)은 결코 ‘객관적(objective)’일 수 없으며, 항상 평가자 개인의 관점과 가치관(perspectives and values)에 따라 개념화(conceptualized)되고 구성(constructed)된다. 이러한 평가는 평가자의 **고유한 경험(unique experiences)과 사회적 구조(social structures)에 의해 영향을 받는다.”
(Gipps, 1999; Govaerts & van der Vleuten, 2013)

학습자의 수행(learner performance)은 고정적이거나 안정적인 것이 아니다.

시간에 따른 변화(change over time)는 학습의 당연한 결과로 기대된다(expected outcome).
그러나 학습자 내 변동성(intra-person variability)도 크다.
- 다른 수행 영역(performance domains) 간 — 예: 한 과업에는 뛰어나지만 다른 과업에는 약함
- 다른 시점(occasions) 간 — 예: 같은 과업에서도 어느 날은 잘하고 다른 날은 덜함

이러한 사회문화적 관점(socio-cultural view)은 평가와 평가 데이터의 본질(the nature of assessment and assessment data) 자체를 다시 묻는다. 목적적 표집(purposeful sampling)은 모든 학습 기회를 포함하지 못한다. 즉,

“아직 존재하지 않는 학습(learning things ‘that aren’t there yet’)”은 표집될 수 없다.
(Govaerts & van der Vleuten, 2013)

심리측정학적 모델(psychometric model)에서는 평가자가 측정 오차의 원천(source of measurement error)이다(Downing, 2005).
반면, 사회문화적 접근(socio-cultural approach)에서는 평가자 간 점수 차이(score variation across raters)가 의미를 지닌다.
이러한 차이는 ‘오류(error)’가 아니라, 수행 기준(performance standards)에 대한 다른 관점의 반영(legitimate differences in rater’s conceptions)이다(Govaerts & van der Vleuten, 2013).

이러한 관점의 근저에는 ‘학습을 위한 평가(assessment for learning)’로의 중요한 전환(marked shift)이 자리한다.
즉, 평가는 학습의 종착점(endpoint)이 아니라 학습을 촉진하는 촉매(catalyst for learning)가 되어야 한다.
이 주제는 17장(Chapter 17: Assessment Affecting Learning)에서 자세히 다루어진다.

SUMMARY AND LOOK AHEAD (요약 및 전망)

이 장(chapter)의 앞부분에서 우리는 WBA의 정의(one definition of WBA)를 제시했으며, 이제 다른 버전의 정의(a different version)로 마무리하고자 한다. 2010년의 체계적 문헌고찰(systematic review)은 다음과 같은 종합 정의를 제시했다.

“역량 기반 교육(Competency-Based Education, CBE)은 사회적(societal) 및 환자(patient)의 요구(needs)를 분석하여 도출된 역량(competencies)을 중심으로 조직된, 졸업 후 수행 능력(outcome abilities)을 핵심으로 하는 의사 양성 접근법이다. CBE는 시간 기반 훈련(time-based training)의 비중을 줄이고, 책임성(accountability), 유연성(flexibility), 그리고 학습자 중심성(learner-centredness)을 강화한다.”
(Frank et al., 2010)

이 진술은 우리가 이 장을 시작하며 제시한 관점과, 마무리하며 제시하는 관점의 대조(contrast)를 잘 요약한다.

한편에서는, WBA를 데이터 중심(data-driven), 심리측정학적 근거(psychometrically informed)를 바탕으로 한 ‘학습의 평가(assessment of learning)’ 모델로 본다.
다른 한편에서는, WBA를 학습자(learner), 평가자(assessor), 그리고 학습 문화(learning culture) 속에 위치한 사회적 경험(social experience)으로 본다.

전자의 관점은 평가자와 학습자의 특성이 시간과 맥락에 따라 고정되어 있다(fixed over time and across context)고 보지만, 후자는 이러한 가정을 문제시(questions such assumptions)한다. 실제로는 두 개념 모두 현실에서 병존(coexist in practice)한다. 두 모델 모두 지속적인 실행(sustained implementation)과 유지(maintenance)를 위해 상당한 노력이 필요하며, 평가자 지원(rater support)과 제도적 자원(institutional resources)이 뒷받침되어야 한다.

결국 WBA는 학습(learning), 발달 이정표(developmental milestones), 그리고 역량 기반 의학교육(CBME)이 환자와 사회(patients and society)에 미치는 영향을 논의하는 더 큰 담론(broader discussion) 속에 확고히 자리하고 있다.

'논문 읽기 (with AI)' 카테고리의 다른 글

[AHSE] 11 서술형 평가 (Narrative Assessment) (0)	2025.10.09
[AHSE] 12 평가 포트폴리오 (Assessment Portfolios) (0)	2025.10.09
[AHSE] 9 수행평가 / 퍼포먼스 테스트 (Performance Tests) (0)	2025.10.04
[AHSE] 8 구술시험 (Oral Examinations) (0)	2025.10.04
[AHPE] 7 서술형 및 선택형 문항의 고품질 작성법 (0)	2025.10.04

의대에서 교육하고 있습니다.