[AHPE] 1 의학교육에서의 평가 소개 (INTRODUCTION TO ASSESSMENT IN THE HEALTH PROFESSIONS)

Meded 2025. 9. 9. 20:32

2025. 9. 9. 20:32

1 의학교육에서의 평가 소개 (INTRODUCTION TO ASSESSMENT IN THE HEALTH PROFESSIONS)

Rachel Yudkowsky, Yoon Soo Park, and Steven M. Downing

평가(Assessment)는 Standards for Educational and Psychological Testing (미국교육연구학회 American Educational Research Association, 미국심리학회 American Psychological Association, 교육측정위원회 National Council on Measurement in Education, 2014, p.216)에서 다음과 같이 정의된다.

“개인, 프로그램, 혹은 기타 실체(entity)의 특성이나 수행(performance)을 측정하거나 평가하기 위한 체계적 과정(a systematic process), 그리고 이를 통해 추론을 도출하는 것.”

이 정의는 매우 포괄적이지만, 본 교재의 범위를 요약한다. 이 책은 평가 이론(assessment theory)과 그것의 보건의료인 교육(health professions education)에서의 실제(practice)에 관한 최신 정보를 다룬다. 책의 초점은 다양한 방법을 사용하여 학습과 기술 습득(learning and skill acquisition)을 평가하는 데 있으며, 광범위하게 정의된 성취도 검사(achievement testing)를 핵심으로 삼는다.

보건의료인 교육(Health professions education)은 다양한 직종의 전문가들로 구성된 특수한 학문 분야이다. 이들은 여러 환경에서 매우 폭넓은 보건의료 서비스를 제공한다. 보건의료인에는 의사(physicians), 간호사(nurses), 약사(pharmacists), 물리치료사(physical therapists), 치과의사(dentists), 검안사(optometrists), 발치의사(podiatrists)뿐 아니라, 핵의학 및 방사선 기술자(nuclear and radiological technicians)와 같은 고도로 전문화된 기술직, 그리고 환자나 의뢰인에게 의료 또는 건강 관련 서비스를 제공하는 다양한 전문가들이 포함된다.

보건의료인을 하나로 묶는 가장 공통적인 특징은, 이들 모두가 매우 선발적인 교육 과정(highly selective educational courses of study)을 반드시 이수해야 한다는 점이다. 이러한 과정은 일반적으로 강의 기반 교육(classroom instruction)뿐 아니라 실습 교육(practical training)을 포함한다. 이 까다로운 과정을 성공적으로 마친 사람들은 환자를 돌보는 중대한 책임(serious responsibility of taking care of patients)을 맡게 되며, 경우에 따라서는 생사를 가르는 상황에 직면한다. 따라서 보건의료인은 대부분 전문 면허(specialized license)나 자격증(certificate)을 취득해야만 실제 진료에 참여할 수 있다.

이 때문에, 보건의료인 교육에서의 평가 관행과 방법은 반드시 최선의 연구 근거(best research evidence)에 기반해야 하며, 엄격하고 책임성 있는 기준(rigorous and accountable standards)을 충족해야 한다. 왜냐하면 학습자에 대해 내려지는 수많은 결정이 궁극적으로는 환자 치료 성과(patient care outcomes)와 더 나아가 공중 보건(public health)에 영향을 미치기 때문이다.

The Standards (AERA, APA, & NCME, 2014)는 평가와 관련된 주요 정책, 관행, 쟁점에 관한 합의된 견해(consensus opinion)를 나타낸다. 이 문서는 약 10년 주기로 개정되며, 평가의 이론과 실제 적용에 관심을 두는 세 주요 전문학회, 즉 미국교육연구학회(AERA), 미국심리학회(APA), 교육측정위원회(NCME)가 공동으로 후원한다. 이 책에서도 Standards를 자주 인용하게 될 것인데, 이는 최신 연구 근거(contemporary research evidence)와 교육 연구자 및 전문가들의 합의된 견해를 바탕으로 탁월한 지침을 제공하기 때문이다.

이 책은 다음 세 가지 영역으로 나뉜 장들로 구성되어 있다.

보건의료인 교육에서의 현대적 평가 이론(contemporary theory of assessment in the health professions)
(Part I: Fundamentals of Assessment; Chapter 1–6)
학습자의 지식 습득 및 임상 수행 능력을 측정하기 위해 흔히 사용되는 실제적 방법(practical methods)
(Part II: Assessment Methods; Chapter 7–12)
보건의료인 교육 평가에서의 혁신적 접근(innovative approaches)을 다루는 특수 주제(special topics)
(Part III: Special Topics; Chapter 13–20)

이론 부분(Theory sections)은 거의 모든 평가 상황에 적용되며, 보건의료인 학습자에 대해 타당하고(valid), 방어 가능하며(defensible), 의미 있는(meaningful) 평가를 하고자 하는 사람이라면 반드시 숙지해야 한다. 이 책 전체를 관통하는 핵심은 바로 타당성(validity)과 건전한 평가 실천(sound assessment practices)이며, 이는 이 책의 통합적 틀(unifying framework)을 형성한다.
방법 부분(Methods section)은 보건의료인 교육에서 일반적으로 사용되는 절차와 기법에 초점을 맞춘다. 예를 들어 필기시험(written tests), 구술시험(oral examinations), 수행시험(performance tests), 현장기반 평가(workplace-based assessments), 서술형 평가(narrative assessment), 포트폴리오(portfolios) 등이 있다. 이들은 인지적 성취(cognitive achievement), 임상 수행(clinical performance), 임상 현장에서의 역량(competence)을 평가하는 데 활용되는, 점점 더 다양해지고 복잡해지는 방법을 대표한다.
특수 주제 부분(Special topics section)은 보건의료인 교육 평가에서의 최신 혁신(cutting-edge innovations)과 실용적 팁(tips)을 다룬다. 여기에는 핵심특징 접근(key features approach), 기술 기반 시뮬레이션(technology-based simulations), 상황판단검사(situational judgment tests), 프로그램 기반 평가(programmatic assessment), 학습에 영향을 주는 평가(assessment affecting learning), 숙달학습(mastery learning) 맥락에서의 평가, 문항반응이론(item response theory, IRT), 통계전문가와 함께 수행하는 평가 연구 지침(guidelines for conducting assessment research with statisticians) 등이 포함된다.

조지 밀러의 피라미드 (GEORGE MILLER’S PYRAMID)

밀러의 피라미드(Miller’s pyramid)(Miller, 1990)는 보건의료인 교육에서 지식과 기술의 수준(levels of knowledge and skills)을 어떻게 평가하는지에 관한 유용한 모형/분류 체계(model/taxonomy)로 자주 인용된다.

그림 1.1(Figure 1.1)에서 밀러의 피라미드는 인지적 지식(cognitive knowledge)이 기반부에 놓여 있으며, 이는 보건의료 분야에서의 학습의 다른 모든 중요한 측면/특성의 토대임을 보여준다. 이것이 곧 “knows” 수준으로, 대부분의 복잡한 학습이 의존하는 생물학적 과정과 과학적 원리에 관한 필수 사실 지식(essential factual knowledge of biological processes and scientific principles)을 의미한다. 지식(knowledge)은 학습자에게 기대되는 다른 거의 모든 유형의 학습의 필수 전제조건이다. 밀러는 이 “knows” 수준이 선다 및 서답형 검사(selected- and constructed-response tests)와 같은 객관식 필기시험(written objective tests)으로 가장 잘 측정된다는 데 동의할 것이다.

“knows how” 수준은 인지적 틀에 복잡성을 더하는데, 단순 회상(recall)이나 재인(recognition)을 넘어선 무언가를 가리킨다. 즉 지식을 유용한 방식으로 조작(manipulate)하고 적용(apply)하며, 개념과 원리 간의 관계를 이해했다는 점을 보여주고, 때로는 새로운 유형의 문제(novel problems)에 대한 해법을 설명(describe)할 수 있는 능력을 의미한다. 이 수준 역시 정교하게 설계된 필기시험(carefully crafted written tests)으로 충분히 평가 가능하지만, 일부 보건의료인 교육자들은 구술시험(oral exams)이나 그 밖의 보다 주관적이고 관찰 중심의 절차(subjective, observational procedures)를 선호하기도 한다. “knows how” 수준은 여전히 인지적 지식(cognitive knowledge)을 다루지만 “knows” 수준보다 더 복잡하고 높은 수준에 해당한다. 밀러 피라미드의 첫 두 수준은 언어적으로 매개되는(verbally mediated) 지식에 초점을 두며, “행하는 것(doing)”보다는 언어적 유형의 지식(verbal-type knowledge)과 이를 언어로 설명하는 능력에 더 큰 비중을 둔다.

“shows how” 수준은 평가 방법을 수행시험(performance tests)으로 이동시키며, 여기서는 학습자가 지식을 실제 실행(practice)으로 전환하는 능력을 직접 관찰(directly observes)한다. 모든 수행시험은 어느 정도 인위적(artificial)인데, 이는 표준화된 시험 형식(standard testing format)과 대체로 통제된 조건(controlled conditions) 하에서 제시되는 구성된 상황(contrived situations)이기 때문이다. 예를 들어 시뮬레이션 기반 평가(simulation-based assessments)—의사소통 기술(communication skills)을 평가하기 위한 표준화 환자(simulated/standardized patient) 접촉—는 “shows how” 수준 평가의 좋은 사례다. 특정 증례나 문제(cases or problems)가 시험을 위해 사전에 선정(pre-selected)되고, 특별히 선발·훈련된 표준화 환자(standardized patients)가 해당 증례를 연기한다; 수행은 보통 체크리스트(checklists) 및/또는 평정척도(rating scales)로 채점된다. 이와 유사하게 표준화된 구술시험(standardized oral examinations)은 학습자에게 임상추론(clinical reasoning), 의사결정(decision-making), 발표 역량(presentation skills) 등을 보여줄 기회를 제공할 수 있다. 이러한 표준화 절차(standardization procedures)는 평가의 측정 특성(measurement qualities)을 향상시키지만, 진정성(authenticity)을 다소 감소시킬 수 있다.

마지막으로 밀러의 “does” 수준은 실제 환자/임상 현장(actual patient or clinical settings)에서 학습자의 수행을 보다 독립적이고 자유로운 방식으로 관찰(independent and free-range observations)하는, 이른바 현장기반 평가(work-based assessment)와 연관된다. 여기서는 평가 환경과 상황에 대한 표준화·통제의 일부를 포기하는 대신, 사전 단서가 없는(uncued) 완전한 진정성(complete authenticity)을 확보한다. 학습자는 지식(knowledge), 기술(skills), 능력(abilities), 경험(experience)을 모두 통합하여 현실 세계(real world)에서의 수행으로 드러내고, 이는 전문적이고 경험 많은 임상 교사와 채점자(expert and experienced clinical teachers and raters)에 의해 관찰된다.

밀러의 피라미드는 보건의료 분야의 가르침(teaching)과 평가(assessment)를 사고하는 데 유용한 틀(framework)이 될 수 있다. 문헌에는 이 밖에도 다양한 지식 구조 분류 체계(systems or taxonomies of knowledge structure)가 논의된다. 예컨대, 가장 오래되고 빈번히 사용되는 인지적 지식 분류(cognitive taxonomy) 가운데 하나(밀러의 “knows/knows how” 수준에 해당)는 블룸의 인지적 분류(Bloom’s cognitive taxonomy)이다(Bloom, Engelhart, Furst, Hill, & Krathwohl, 1956). 블룸의 분류는 사실의 단순 회상/재인(simple recall/recognition)에서부터 사실 지식의 종합(synthesizing)과 평가(evaluating), 그리고 새로운 문제 해결(solving novel problems)에 이르기까지 지식을 단계적으로 배열한다. 블룸의 인지적 분류는 필기평가 설계(written testing)(7장)에서 자주 활용된다. 요컨대 의미 있고 성공적인 평가를 위해서는 시험하는 내용(test content)을 우리가 학습에 중요하다고 여기는 지식·기술·능력(knowledge, skills, and abilities)과 연결해 주는 근거 있는 체계나 계획(a rational/rationale system or plan)이 반드시 필요하다.

네 가지 주요 평가 방법 (FOUR MAJOR ASSESSMENT METHODS)

보건의료인 교육(Health professions education)에서 우리가 학습자에게 구성하고(construct), 선택하고(select), 시행하는(administer) 거의 모든 평가는 다음 네 가지 범주 중 하나(혹은 그 이상)에 분류될 수 있다.

필기시험(written tests)
구술시험(oral examinations)
수행시험(performance tests)
임상(현장 기반) 관찰 방법(clinical/workplace-based observational methods)

이 절에서는 각 방법에 대한 개요를 제시하며, 세부적인 논의는 다른 장에서 다루어진다.

필기시험 (Written Tests)

보건의료인 교육에서 대부분의 공식적 평가(formal assessment)는 어떤 형태든 필기시험(written testing)을 포함한다. 이는 단순히 문항이나 자극(question or stimuli)이 글로 제시(written)되고, 학습자나 수련생이 이에 응답해야 함을 의미한다.

필기시험에는 두 가지 주요 형태가 있다.

구성반응형(constructed-response, CR) 시험
선다반응형(selected-response, SR) 시험

이 두 가지 모두 전통적 지필 형식(paper-and-pencil format)이나 컴퓨터 기반 형식(computer-based format, CBT)으로 시행될 수 있다. 컴퓨터 기반 시험에서는 컴퓨터가 시험 자극을 제시하고 응답을 기록한다.

구성반응형(CR) 시험에서는 문항이나 자극이 제시되고, 응시자는 직접 답을 작성하거나 입력(writing or typing responses)한다. 형태에는 빈칸 채우기(fill-in-the-blanks), 단답형/장문형 서술(short- and long-answer essays) 등이 포함된다.
선다반응형(SR) 시험은 하나의 문항 또는 자극(stem) 뒤에 여러 개의 선택지가 주어진다. 대표적인 형식은 객관식 문항(multiple-choice, MC item)이지만, 이 외에도 진위형(true-false), 대안 선택(alternate-choice), 짝짓기(matching items), 확장형 짝짓기(extended matching items) 등 다양한 변형이 있다(Sireci & Zenisky, 2006; Lane, Raymond, & Haladyna, 2015). 이러한 형식은 주로 컴퓨터 기반 시험(CBTs)에서 활용된다.

구성반응형 형식은 세계적으로 가장 널리 사용되는 유형이지만, 실제로 선다반응형 형식이야말로 시험 세계의 “일꾼(workhorse)”이라 불린다. 이 형식은 많은 실용적 장점이 있으며, 100년 이상의 연구가 그 타당성을 뒷받침(Downing, 2002; Welch, 2006)하고 있다.

7장(Chapter 7): CR과 SR 필기시험을 다룸
13장(Chapter 13): 핵심특징 접근(key features approach)이라는 특수한 필기시험 형식을 다룸 (CR과 SR 모두 포함)

구술시험 (Oral Examinations)

구술시험 방법에는 공식적 구술시험(formal oral exam), 비공식적 병상 구술(bedside oral), 비바(vivas: 장기/단기 증례 평가 long/short case assessments), 차트 자극 회상(chart-stimulated recall) 등이 있다(8장, Oral Examinations).

구술시험은 인지적 지식(cognitive knowledge) 평가보다는, 학습자의 사고나 추론(thinking or reasoning)을 드러내고 탐색(probing)하는 데 적합하다. 인지 지식은 필기시험(written tests)이 더 효율적이고 효과적으로 평가할 수 있기 때문이다.

그러나 전통적인 비표준화(unstandardized) 형식으로 시행될 경우, 주관성(subjectivity)으로 인한 타당성 위협(threats to validity)이 매우 강하다. 특히 고위험(high-stakes) 평가에서는 그 결과가 학습자에게 심각한 영향을 미칠 수 있다.

그럼에도 불구하고, 많은 보건의료 분야에서 구술시험은 오랜 전통을 가지고 있다. 최근에는 표준화된 구술시험(standardized oral examinations) 형식이 개발되었는데, 대표적으로 다중 미니 면접(multiple mini-interview, MMI)이 있다. 이는 체계적으로 내용(content)을 표집(sample)하고, 평가자의 주관성에 따른 위협을 완화(mitigate rater subjectivity)하는 방법을 제공한다.

수행시험 (Performance Tests)

수행시험(performance test)은 학습자가 “무엇을 아는지(what they know)”보다는 “무엇을 할 수 있는지(what they can do)”를 측정하는 데 목적을 둔 공식 평가(formal testing)의 총칭이다.

체계적이고 공식적인 수행시험은 비교적 최근에 시작되었으며, 1970년대 후반 Hart와 Harden이 객관적 구조화 임상시험(Objective Structured Clinical Examination, OSCE)을 도입하면서 본격화되었다(Harden, Stevenson, Downie, & Wilson, 1975). 특히 의학교육에서 수행시험은 의과대학 초기 교육부터 대학원/전공의 수련 과정에 이르기까지 모든 수준에서 채택되었으며, 미국 의사면허시험(United States Medical Licensure Examination, USMLE)이나 캐나다의 전문의 시험(post-graduate licensure examinations in Canada)에서도 중요한 요소로 사용된다.

시뮬레이션 기반 평가 (Simulation-Based Assessments)

시뮬레이션(simulation)은 현실 과제(real-world task)의 재현을 의미한다. 방법은 다양하다:

구조화된 구술시험(structured oral exams)
화면 기반 시뮬레이션(screen-based simulations, 가상 환자 virtual patients)
시술 절차용 파트 태스크 트레이너(table-top part-task trainers)
가상현실 시뮬레이터(virtual reality simulators)
고충실도 마네킹(high fidelity mannequins)
인간 시뮬레이션(human simulation, 즉 표준화 환자 standardized patients)

표준화 환자 시험(standardized patient exams)은 교육과 평가 모두에 활용되며, 현재 보건의료인 교육에서 수행시험의 주요 범주를 형성한다.

최초의 표준화 환자 시험은 1960년대 초 Howard Barrows와 Stephen Abrahamson에 의해 시작되었다(Barrows & Abrahamson, 1964).
“표준화 환자(standardized patient)”라는 용어는 캐나다 맥매스터 대학교의 Geoff Norman에게서 유래했다(Wallace, 1997).
약 40년 이상의 연구가 표준화 환자 방법의 타당성(validity)과 다양한 측면을 입증한다(Swanson & van der Vleuten, 2013).
9장(Chapter 9): 수행시험(performance tests), 특히 인간 시뮬레이션(standardized patients)의 측정 이슈 다룸
14장(Chapter 14): 시뮬레이션 기반 평가(simulation-based assessment)를 더 넓게 다룸

현장 기반 평가 (Workplace-Based Assessment, Clinical Observational Methods)

임상 수련(clinical training) 중 수행(performance)을 평가하는 것은 보건의료인 교육에서 매우 흔한 평가 형태이다. 이러한 평가는 비공식적 관찰(informal observations)부터, 다수 평가자(multiple raters)의 장기간 실제 환자 진료 상황에서의 수행을 수집하는 체계적 시스템(formal/complex systems, “360도 평가”)까지 매우 다양하다.

이러한 관찰 기반 평가(observational assessment)는 보통 체크리스트(checklists), 평정 양식(rating forms), 서술형 평가(narrative assessments) 등을 활용하며, 임상 현장의 교수, 지도자, 이해관계자들이 작성한다.

많은 관찰 기반 평가들은 학습자의 총괄 성적(composite grading schemes)에서 큰 비중을 차지하며, 따라서 학습자에게 높은 위험(high-stakes)을 가진다. 보건의료인 교육자들은 이 방법을 중시하고 널리 사용하지만, 한계와 타당성 위협(threats to validity)이 잘 알려져 있으며, 개선이 어렵다(Williams, Klaman, & McGaghie, 2003).

10장(Chapter 10)은 실제 임상 수행(observation of clinical performance in real-life settings)을 기반으로 하는 평가(현장 기반 평가)의 쟁점과, 이러한 위협을 완화할 수 있는 모범 사례(best practices)를 다룬다.

서술형 평가와 포트폴리오 (NARRATIVE ASSESSMENTS AND PORTFOLIOS)

앞서 제시한 네 가지 방법 외에도, 서술형 평가(narrative assessments)와 포트폴리오(portfolios)는 평가 방법을 가로지르며(cut across assessment methods) 널리 사용되는 두 가지 접근법이다. 이 역시 이 책의 해당 부분에서 설명된다.

서술형 평가(narrative assessments)는 보통 평가자의 언어(words of the assessor)로 기술되는 학습자의 능력에 대한 질적 서술(qualitative descriptions)이다. 이는 자체적으로 풍부한 정보원이 될 수 있으며, 필기·구술·수행·현장기반 평가 네 가지 방법에서 얻은 양적 점수(quantitative assessment scores)를 보완(supplement)·보충(complement)할 수 있다. 서술형 평가의 개발과 활용, 그리고 양적 평가 점수와의 정렬(alignment)은 11장(Chapter 11)에서 다루어진다.

평가 포트폴리오(assessment portfolios) 역시 다양한 방법을 넘나들며 사용된다. 예를 들어:

성찰적 과제(reflective exercise)의 촉발 (필기시험)
토론의 초점(focus for discussion) (구술시험)
문서화 기술(documentation skills)의 시연 (수행시험)
시술 기록(procedure log) (현장기반 평가)

또한, 포트폴리오는 다양한 평가 방법에서 수집된 데이터를 조직화하여 학습자의 발달과 성장(progress and development)을 증명하는 증거(evidence)를 구성하는 데 사용될 수 있다. 12장(Chapter 12)에서는 성찰적(reflective) 요소와 포괄적(comprehensive) 요소를 모두 포함하는 평가 포트폴리오를 제시한다.

기본 용어와 정의 (SOME BASIC TERMS AND DEFINITIONS)

이제 본격적인 여정을 시작하기 전에, 몇 가지 기본 용어와 정의를 정리하는 것이 도움이 될 것이다. 이 장에서 다루는 개념과 용어는 책 전체에 걸쳐 반복적으로 사용되며, 이후 여러 주제를 이해하는 데 중요하다.

역량 기반 교육 (Competency-Based Education, CBE)

보건의료인 교육에서 역량 기반 교육(competency-based education, CBE)은 모든 학습자가 안전하고 효과적인 진료(safe and effective care)를 제공할 수 있도록 명확히 정의된 성취 수준(defined level of achievement)에 도달하는 것을 목표로 한다.

이는 전통적 시간 기반 교육(time-based education) 모델과 자주 대비된다. 후자의 경우, 학습자의 진급 결정은 역량 달성(achieving competencies)보다는 시간 단위(units of time)에 의해 결정된다(Park, Hodges, & Tekian, 2016). 잘 설계되고 효과적으로 시행된 평가(well-designed and effectively implemented assessments)는 이러한 접근의 핵심 구성 요소이다.

세계적으로 다양한 조직과 직종에서 많은 훌륭한 역량과 역할의 분류체계(taxonomies of competencies and roles)가 개발되어 왔다. 이 책에서는 그중 하나로 널리 쓰이는 ACGME(Accreditation Council for Graduate Medical Education) 역량과 마일스톤(competencies and milestones) 모델을 간단히 설명한다. 이는 미국뿐 아니라 국제적으로도 널리 활용되며, 본 책의 여러 장에서 재인용된다.

ACGME 역량 (ACGME Competencies)

미국에서 ACGME와 ABMS(American Board of Medical Specialties)는 광범위한 평가 프로젝트인 Outcomes Project를 공동으로 수행했다. 그 결과물이 바로 ACGME 일반 역량(General Competencies)이며, 이는 전공의 수련 프로그램이 다음 여섯 영역에서 전공의의 역량을 평가·문서화하도록 의무화한다(ACGME, 2000).

환자 진료 (patient care)
의학 지식 (medical knowledge)
근거 기반 학습과 개선 (practice-based learning and improvement)
대인관계 및 의사소통 기술 (interpersonal and communication skills)
전문직업성 (professionalism)
체계 기반 진료 (systems-based practice)

이 역량들은 매우 일반적(general)으로 정의되어 있어, 보건의료인 교육의 여러 영역과 모든 훈련 단계에서 유용하게 적용될 수 있다.

차세대 인증 시스템 (Next Accreditation System, NAS)

2012년, ACGME는 차세대 인증 시스템(Next Accreditation System, NAS)을 개발·도입했다(Nasca, Philibert, Brigham, & Flynn, 2012). NAS에서는 학습자가 역량을 달성하는 발달적 진전(developmental progress)을 마일스톤(milestones)으로 측정한다.

마일스톤은 특정 전문과에 맞는 행동 기술(behavioral descriptors)로, 역량 하위영역에서 기대되는 발달 수준을 반영한다.
예를 들어, 내과 전공의의 마일스톤 하위 역량(sub-competencies)은 표 1.1(Table 1.1)에 제시되며, 마일스톤 척도(scale)의 예시는 그림 1.2(Figure 1.2)에 제시된다(ACGME & American Board of Internal Medicine, 2015).

위임 가능한 전문 활동 (Entrustable Professional Activities, EPAs)

역량 기반 평가 체계(competency-based assessment framework) 안에서 최근 주목을 끌고 있는 개념이 바로 위임 가능한 전문 활동(Entrustable Professional Activities, EPAs)이다(ten Cate, 2013).

EPA란 학습자가 감독 없이(unsupervised) 수행할 수 있도록 위임(entrust)받는 전문 업무 단위(unit of professional work, tasks, or responsibilities)이다.
예: 졸업을 앞두고 전공의 과정을 시작하려는 의대생에게 해당하는 EPA → “병력 청취와 신체검진 수행(Gather a history and perform a physical exam)”
EPA는 보통 복수의 역량을 통합(integration of multiple competencies)해야 하며, 위의 예시는 환자 진료(patient care), 의학 지식(medical knowledge), 전문직업성(professionalism), 의사소통 기술(communication skills)의 적용을 요구할 수 있다.

EPA 평가는 학습자의 신뢰 수준(trustworthiness) 및 필요한 감독 수준(levels of supervision)에 대한 결정을 내리기 위한 데이터를 수집하는 데 사용된다. 예를 들어, 자신의 한계를 인식(know one’s own limitations)하고 도움을 요청해야 할 때(call for help)를 아는 것도 포함된다.

AAMC(Association of American Medical Colleges, 2014)가 제시한 Core Entrustable Professional Activities for Entering Residency는 졸업 의대생을 위한 EPA의 대표 사례다.
EPA는 10장(Chapter 10)에서 추가 논의되며, 널리 쓰이는 위임 척도(entrustment scale)의 예시인 O-SCORE가 그림 10.2(Figure 10.2)에 제시된다.

역량(competencies), 마일스톤(milestones), 그리고 위임 가능한 전문 활동(entrustable professional activities, EPAs)은 평가의 “방법(how)”보다는 “무엇을(what)” 평가할 것인지에 초점을 둔다. 이러한 틀(frameworks)은 학습자의 지식(knowledge), 기술(skills), 태도(attitudes) 및 그 밖의 특성들을 체계적으로 청사진화(blueprinting)하거나 표집(sampling)하는 근거를 제공한다. 이들이 곧 우리의 평가 대상(object of assessment)이다.

수업과 평가 (Instruction and Assessment)

이 책의 주요 초점은 평가(assessment)이지만, 평가와 수업(instruction)은 밀접하게 연관(intimately related)되어 있음을 기억하는 것이 중요하다. 16–18장(Chapters 16–18)은 평가가 학습에 긍정적 영향을 주도록 하는 전략과 원치 않는 부정적 효과를 피하는 전략을 다룬다.

가르침(teaching), 학습(learning), 평가(assessment)는 닫힌 순환(closed circle)을 형성하며, 각 요소는 긴밀히 연결되어 있다. 지역적으로 개발된 평가(locally developed assessments)는 대규모 표준화 시험(large-scale standardized testing)과 달리 반드시 수업과 긴밀히 정렬(alignment)되어야 하며, 가능하다면 학습자에게 적절하고, 시의적절하며, 의미 있는 피드백(adequate, timely, and meaningful feedback)이 제공되어야 한다.

우리가 교실(classroom)에서 임상(clinic)에 이르기까지 다양한 학습 경험을 제공하듯이, 평가도 “knows”에서 “does”까지 역량 전반을 평가할 수 있도록 다양한 방법(multiple methods)을 활용해야 한다. 필기시험(written tests)과 같은 단일 방법이나, 단일 고위험 총괄 평가(single, high-stakes summative assessment)에만 의존한다면 학습자에 대한 왜곡된(skewed) 시각을 제공할 수밖에 없다.

프로그램 기반 평가(programmatic assessment, Chapter 16)에서는 다양한 평가 방법을 활용한 저위험(low-stakes) 평가들을 다수 시행하여, 학습자에 대한 총체적이고 장기적(holistic and longitudinal) 관점을 제공한다.

궁극적으로 “평가는 학습을 이끈다(assessment drives learning)”. 따라서 밀러 피라미드(Miller’s pyramid)의 각 수준에 적절히 평가 방법을 배치하면, 학습자가 미래의 실제 진료에 가장 가치 있는 방식으로 학습에 집중하도록 도울 수 있다.

또한 구체적인 평가 실천은 학습의 여러 단계에 영향을 준다. 예를 들어, 시험 준비를 위한 전략(suggesting strategies for preparing for the exam)에서부터, 시험 후 피드백(post-examination feedback)을 학습자와 교수가 활용하는 방식까지 포함된다. 17장(Chapter 17)은 이러한 효과와 그 기저 작용 메커니즘(mechanisms of action)을 심층 분석한다.

평가, 측정, 그리고 시험 (Assessment, Measurement, and Tests)

Standards (AERA, APA, & NCME, 2014)는 “평가(assessment)”를 매우 포괄적으로 정의한다. 즉, 사람, 대상(object), 혹은 프로그램에 대해 추론(inferences)을 내리기 위해, 어떤 형태의 정보나 데이터를 수집하기 위해 사용되는 모든 방법, 과정, 절차(any method, process, or procedure)를 포함한다.

이 책의 초점은 학습자(learners) 평가에 있으며, 교육 프로그램이나 교육 산출물의 평가(evaluation of educational programs or products)에는 있지 않다. 따라서 우리는 평가(assessment)라는 용어를 학생이나 연수생의 학습(educational learning)이나 발달(progress)을 측정하는 거의 모든 활동을 포괄하는 의미로 사용한다.

이 정의 안에는 세 가지 중요한 특성이 포함된다(Thissen & Wainer, 2001).

평가란:
1. 체계적 과정(systematic process)으로,
2. 구조화된 조건(structured conditions)하에서 행동이나 특성의 표본(sample of behaviors or characteristics)을 수집하고,
3. 이를 통해 비평가 상황(non-assessment settings)에서 개인에 대해 추론(inferences)을 도출하는 것이다.

즉, 어떤 형태의 평가가 시행되든, 문항(questions), 증례(cases), 혹은 관찰된 접촉(encounters)은 모두 학습자의 지식·기술·태도의 표본(samples of knowledge, skills, attitudes)이다. 따라서 체계적 표집(careful sampling)은 건전한 평가의 중요한 속성이다.

또한, 평가에는 다양한 구조(structure)가 존재한다. 고도로 표준화된 시험(multiple-choice tests)처럼 형식과 규정이 고정된 상황에서부터, 현장 기반 평가(workplace-based assessments)처럼 덜 구조화된 상황까지 다양하다.

마지막으로, 평가는 일반적으로 학습자에 대한 추론 도출(inferences about learners)을 목적으로 한다. 즉, “시험 상황(testing situations)”에서 수집한 데이터를 사용하여 “비시험 상황(non-testing situations)”에서의 수행을 추론한다. 예컨대, 면허/자격 시험(licensure or certification examinations) 성과는 보건의료인의 실제 업무에서의 미래 수행(future performance)을 추론하는 근거가 된다. 개정된 Standards에 따르면, assessment는 test(시험)와 동의어로도 사용된다.

측정 (Measurement)

“측정(measurement)”이란 평가 과정에서 사용되는 어떤 형태의 수량화(quantification)를 의미한다. 즉, 일정한 규칙(systematic rules)과 특정 평가 절차(specific assessment process)에 따라 숫자를 부여(assigning numbers)하는 것을 뜻한다. 측정 과정은 때때로 질적 평가(qualitative assessment)를 포함할 수도 있지만(예: 11장에서 다루는 서술형 평가(narrative assessment)), 이 책에서의 주요 강조점은 양적 측정(quantitative measurement)이다.

직접 계수(counting)할 수 있는 대상(예: 주차장의 자동차 대수)은 명시적 변수(manifest variables)라 불린다. 그러나 교육적·심리적 구성 개념(educational and psychological constructs)은 잠재적 변수(latent variables)로서 직접 측정할 수 없다.

잠재 변수 평가와 관련된 측정 이슈는 2장(Validity and Quality)과 3장(Reliability)에서 더 자세히 논의된다.

수의 종류 (Types of Numbers)

보건의료인 교육에서의 평가는 수량적(quantitative) 문제와 수(number)를 다루기 때문에, 흔히 사용되는 수 척도(number scales)의 유형을 간단히 개관하는 것이 적절하다. 널리 알려진 네 가지 기본 유형이 있다(Howell, 2002).

1. 명목척도 (Nominal Scale)

명목척도(nominal scale)는 숫자를 단순히 자의적 기호(arbitrary symbols)로 사용하는 경우이다. 예를 들어, 설문조사에서 성별을 1 = 여성(Female), 2 = 남성(Male)으로 코딩하는 경우가 이에 해당한다.

이러한 숫자는 고유한 의미를 가지지 않고, 연구자가 부여한 자의적 의미만을 지닌다.
따라서 명목척도로 할 수 있는 수학적 절차는 계수(counting) 정도에 국한된다.
평균(average)을 계산하는 것은 적절하지 않은데, 명목값의 평균 점수는 의미나 해석이 불가능하기 때문이다.

2. 서열척도 (Ordinal Scale)

서열척도(ordinal numbers)는 일정한 의미를 가지며, 주로 순서(order)나 서열(rank order)을 나타낸다. 예를 들어, 약학 신입생의 키를 순서대로 배열하여 1 = 가장 큰 학생, 마지막 순위 = 가장 작은 학생으로 표시할 수 있다.

하지만 4위와 5위 사이의 간격은 6위와 7위 사이의 간격과 동일하지 않을 수 있다.
서열척도에서는 평균 순위(mean ranks), 표준편차(standard deviation of ranks distribution) 등을 계산할 수 있다.
즉, 서열척도는 일정한 해석이 가능하며, 요약 통계(summary statistics)가 유용하다.

3. 등간척도 (Interval Scale)

등간척도(interval numbers)는 서열척도보다 발전된 형태로, 숫자 간 간격(distance between numbers)이 의미 있고 동일(equal)하다고 간주된다.

예: 점수 50-60(10점 간격)은 점수 30-40 사이의 10점 간격과 동일한 의미를 갖는다.
등간척도의 가장 중요한 특징은 모든 형태의 통계분석(statistical analyses), 즉 모수통계(parametric statistics)를 가능하게 한다는 점이다.

4. 비율척도 (Ratio Scale)

비율척도(ratio scale)는 가장 정교한 척도이지만, 교육 측정이나 사회과학에서는 거의 불가능하다.

진정한 비율척도는 의미 있는 영점(true zero point)을 가진다. 즉, 0은 완전한 부재(nothingness)를 의미한다.
예: 생화학 성취를 측정하는 시험에서 점수 0이 “전혀 지식 없음”을 의미하려면 비율척도가 필요하다. 그러나 실제 교육평가에서는 가장 능력이 부족한 학생조차 최소한의 지식을 가지고 있으므로, 진정한 비율척도는 불가능하다.
물리과학(physical sciences)에서는 비율척도를 자주 사용하지만, 사회과학(social sciences)에서는 거의 사용되지 않는다.

핵심 요점은, 보건의료인 교육에서 얻는 대부분의 평가 데이터는 등간척도(interval data)로 간주된다는 것이다.

예: 약리학 다지선다 성취도 검사 점수는 등간척도로 가정된다. 따라서 평균(mean), 표준편차(standard deviation), 상관관계(correlations), 대응표본 t-검정(paired t-test) 등을 적용할 수 있다.
만약 데이터가 서열척도였다면, 스피어만 서열상관계수(Spearman rank-order correlation)와 같은 제한적 분석만 가능했을 것이다.
모든 심리측정 모형(psychometric models)은 데이터가 등간척도라는 가정 하에 개발되며, 점수의 재현성(reproducibility)과 신뢰도(reliability)를 추정하는 방법들도 이 전제를 기반으로 한다.

준거에 대한 충실성 (Fidelity to the Criterion)

보건의료인 교육 평가에서 또 하나의 중요한 개념은 “충실성(fidelity)”, 정확히는 “준거에 대한 충실성(fidelity to the criterion)”이다. 이는 평가 점수/평정과 실제 삶에서의 준거 변수(criterion variable) 간의 일종의 타당성(validity) 관계를 의미한다. 실무에서는 흔히 “fidelity”로 줄여 부른다.

예시: 고도로 훈련된 배우가 실제 임상 문제를 연기하는 시뮬레이션은 “고충실성(high fidelity)” 평가로 간주된다. 이는 미래의 약사가 실제 환자와 마주할 수 있는 상황을 매우 사실적으로 재현하기 때문이다.
반면, 화학 기본 지식을 묻는 객관식 시험은 동일 학습자에게 있어 “저충실성(low fidelity)” 평가라 볼 수 있다.

고충실성 평가는 준거에 더 근접(proximate to the criterion)해 보이며, 보다 현실적이고 진정성(authenticity)이 있다. 반대로 저충실성 평가는 준거로부터 멀리 떨어져 있는 것처럼 보인다(Haladyna, 1999).

대부분의 구조화된 수행시험(performance exams), 복잡한 시뮬레이션(complex simulations), 비구조화된 관찰 평가(observational methods)는 필기시험보다 더 높은 충실성을 가지며, 학습의 다양한 측면을 측정하도록 설계된다.

그러나 충실성(fidelity)은 평가의 표면적 특성(superficial characteristic)에 불과하다.

충실성이 반드시 타당도 근거(validity evidence)와 관련 있는 것은 아니다. 오히려 측정의 객관성(objectivity of measurement)을 방해하여 타당성을 감소시킬 수 있다(Downing, 2003).
학습자와 교수들은 현실적인 상황처럼 보이는 고충실성 평가를 더 선호한다고 생각할 수 있으나, 이는 실제 타당성 보장과는 별개의 문제다.

확실한 사실은, 충실성이 높아질수록 평가의 비용(cost)은 더 커지고, 측정의 복잡성(complexity of measurement issues)도 증가한다는 점이다.

형성평가와 총괄평가 (Formative and Summative Assessment)

형성평가(formative assessment)와 총괄평가(summative assessment)라는 개념은 평가 문헌에서 매우 널리 쓰이며, 그 기원은 지난 세기 중반 프로그램 평가 문헌(program evaluation literature)으로 거슬러 올라간다(Scriven, 1967). 이후 이 개념은 모든 영역의 평가에 적용되었다.

형성평가(formative testing)
- 주된 목적은 학습자가 학습 목표에 비추어 강점(strengths)과 약점(weaknesses)을 파악할 수 있도록 유용한 피드백(useful feedback)을 제공하는 것이다.
- 전형적인 형성평가는 학습 과정 중에 이루어진다. 학생들은 이미 숙달한 내용과 더 학습이 필요한 내용을 확인할 수 있고, 교수자는 어떤 부분이 더 가르쳐야 할지 알 수 있다.
- 예: 미생물학 수업에서의 주간 퀴즈(weekly short quizzes), 2학기 약리학 과정에서 일정 간격으로 시행되는 단답형 필기시험(short written tests).
총괄평가(summative assessment)는
- 말 그대로 학습 과정의 성취를 종합(sum up)하는 평가이다. 보통 한 과정(course of study)의 끝이나 근접 시점에서 시행된다. 예: 해부학(Anatomy) 학기말 시험(end-of-semester exam)처럼 학기 전체 내용을 포괄하는 평가.
- 총괄평가는 성취의 최종 측정에 중점을 두며, 성적 체계(grading scheme)에서 높은 비중을 차지한다.
- 학습자에게 피드백을 줄 수도 있지만, 1차 목적은 성취 측정(measurement of achievement)이다.
- 대표적인 사례: 간호학 면허시험(licensure test in nursing) → 교육과정 마지막에 시행되며, 합격해야만 전문직 실무를 시작할 수 있다.

규준참조와 준거참조 측정 (Norm- and Criterion-Referenced Measurement)

규준참조(norm-referenced)와 준거참조(criterion-referenced) 측정은 기본 개념이 단순하다.

규준참조 점수(norm-referenced test scores): 잘 정의된 규준집단(normative group, 예: 시험 응시자 전체)에 상대적으로 해석된다. 핵심은 “상대적(relative)”이다. 즉, 학습자가 다른 학습자들과 비교해 얼마나 잘했는지는 알 수 있지만, 실제로 어떤 내용을 아는지/할 수 있는지는 상대적으로 덜 알려준다.
준거참조 점수(criterion-referenced scores): 학습자가 특정 내용(specific content)을 얼마나 알고, 무엇을 할 수 있는지를 알려준다. 1970년대 이후 북미에서는 준거참조 검사가 널리 사용되었다(Popham & Husek, 1969).
- 준거참조 검사는 보통 역량 기반(competency-based) 혹은 내용 기반(content-based) 수업·평가와 밀접하게 연결된다.
- 유사 용어: 영역참조(domain-referenced), 목표참조(objectives-referenced), 내용참조(content-referenced), 구성개념참조(construct-referenced). 저자마다 약간 차이는 있지만, 공통적으로 학습자가 실제로 습득한 내용에 관심이 있고, 학습자를 점수로 서열화(rank ordering)하는 데는 관심이 없다.

숙달평가 (Mastery Testing)

숙달평가(mastery testing)는 준거참조 평가의 특별한 형태이다.

최소 역량자(minimally competent learner)를 변별하는 것이 아니라, 충분히 준비된 학습자(well-prepared learners)를 확인하도록 설계된다.
숙달학습(mastery learning) 접근에서는 모든 학습자가 기준(criterion)에 도달할 수 있다고 전제하지만, 도달까지 걸리는 시간은 개인마다 다르다.
숙달시험은 보통 기준 충족 시까지 여러 번 시행된다.
일반적으로, 규준참조 통계(norm-referenced statistics)는 진정한 숙달 환경에서는 부적절하다.
18장(Chapter 18)은 숙달학습 평가에서의 타당도(validity)와 준거 설정(standard setting) 문제를 심층적으로 논의한다.

규준참조와 준거참조 해석

어떤 평가 점수든 규준참조 방식 혹은 준거참조 방식으로 해석될 수 있다.

시험 자체의 성격, 시험 제작 방법, 평가와 학습의 철학, 그리고 시험을 기반으로 내릴 의도된 결론·결정이 그 시험의 기본 분류를 결정한다.
예: 백분위(percentile)나 z점수(z-score) 같은 규준적 점수도, 상황에 따라 절대적(criterion-referenced)으로 해석할 수 있다.
반대로, 준거참조 시험도 원점수(raw score)나 정답률(percent-correct)만 보고, 이를 전체 분포와 비교하여 규준적으로 해석할 수 있다.

이 책에서는 규준참조와 준거참조 개념을 반복적으로 다룬다. 특히 준거 설정(standard setting), 즉 합격 점수를 효과적이고 방어 가능하게 설정하는 문제(Chapter 6)와 관련해서 강조된다.

책의 기본 지향점은 준거참조(criterion-referenced)이다.

우리는 학습자가 무엇을 배웠는지, 무엇을 성취했는지, 보건의료 분야에서 어떤 역량을 갖추었는지를 평가하는 데 가장 큰 관심이 있다.
단순히 학습자를 규준 분포(normative distribution) 내에서 서열화하는 것은 우리의 주된 관심사가 아니다.

고위험 평가와 저위험 평가 (High-Stakes and Low-Stakes Assessments)

평가를 설명할 때 자주 사용되는 다른 용어로 고위험(high-stakes)과 저위험(low-stakes) 평가가 있다. 이 용어는 시험 결과가 미치는 결과적 영향(consequences of testing)을 나타낸다.

고위험 평가(high-stakes test): 시험 결과가 응시자에게 심각한 영향을 미칠 때, 즉 전문직 취업을 얻거나 잃는 경우와 같이, 이 시험은 분명히 고위험이다.
- 이런 시험은 매우 높은 수준의 품질을 요구하며, 해석의 타당성을 뒷받침하는 견고한 연구 근거(research-based evidence)가 필요하다.
- 경우에 따라 특정 집단에 불리하게 작용한다는 인식이 있을 경우, 법적 방어(legal defense)가 필요할 수도 있다.
- 예: 전문학교 입학시험, 졸업생을 인증·면허 부여하기 위한 시험, 졸업 요건으로 반드시 통과해야 하는 총괄 평가(final summative exams).
저~중위험 평가(low- to moderate-stakes test): 결과적 영향이 비교적 적다.
- 보건의료인 교육에서 흔히 사용하는 형성평가(formative assessments)가 여기에 해당한다.
- 예: 실패 시 결과가 경미하거나, 재시험(remediation/test retake)이 어렵지 않고 비용이 크지 않은 경우.

매우 고위험 시험(very high-stakes tests)은 보통 전문 시험 기관(testing agencies)에서 막대한 자원과 전문 지식을 투입해 제작된다. 이는 점수 해석과 합격/불합격 판정을 방어할 수 있도록 하기 위함이다.
반대로 저위험 시험(lower stakes tests)은 현장에서 교수자나 교육자가 직접 제작하는 경우가 많고, 이에 따라 요구되는 자원과 타당도 근거는 적다.

이 책은 주로 현장(local/classroom) 수준에서 전문적 내용 전문가(content experts)가 개발하는 저~중위험 평가(low- to moderate-stakes assessments)에 초점을 둔다. 그러나 이러한 낮은 수준의 평가라도 학습자에 대한 중요한 결정이 장기적으로 누적되어 이루어지기 때문에, 반드시 기본적 최소 품질 기준(minimum standards of quality)은 충족해야 한다.

대규모 평가와 소규모(현장) 평가 (Large-Scale and Local or Small-Scale Assessments)

이 책에서 또 하나 중요한 구분은 대규모 평가(large-scale assessments)와 소규모·현장 평가(small-scale or local assessments)이다.

대규모 평가(large-scale assessments): 보통 국가적 혹은 국제적 범위의 표준화 시험(standardized testing programs)을 의미한다. 전문 시험 개발자가 설계하며, 대규모 응시자를 대상으로 시행된다.
- 예: 약대 입학시험 PCAT(Pharmacy College Admissions Test), 의대 입학시험 MCAT(Medical College Admissions Test).
- 또 다른 예: 미국 간호사 면허 시험 NCLEX-RN®(National Council Licensure Examination for Registered Nurses).
소규모/현장 개발 평가(local/small-scale assessments): 이 책의 주요 초점이다.
- 주로 “교실(classroom)” 강사, 임상 교수(clinical teaching faculty), 현지 대학·의대 교수자가 개발·시행·채점한다.
- 그러나 보건의료인 교육자들은 평가에 대한 정규 교육적 배경이나 제도적 지원 없이, 종종 “홀로(go it alone)” 평가를 수행하는 경우가 많다.
- 이 책의 목적은 이러한 현장 교수자(local instructors)와 교육자들에게 건전한 원리(principles), 효과적인 도구(tools), 방어 가능한 방법(defensible methods)을 제공하는 것이다.

교육에서의 번역과학 (Translational Science in Education)

이 장의 마지막에서는 교육에서의 번역과학(translational science) 모델을 살펴본다. 이는 교육이 학습자, 환자, 그리고 더 넓은 보건의료 체계의 기술과 능력을 향상시키는 데 있어 중요한 역할을 한다는 거시적 관점(overarching view)을 제공한다.

전통적으로 번역과학(translational science)은 기초 의생명과학(basic biomedical science)과 임상 연구(clinical research) 간의 “bench-to-bedside” 전환을 설명하는 데 사용되었다.
즉, 기초 연구 발견 → 임상 연구(T1) → 임상적 효과성 및 치료 정책(T2) → 보건의료 전달체계·지역사회·예방 서비스(T3)로 이어지는 지식 전환(paradigm of translating discovery).
이 모델은 흔히 번역과학(translational science) 혹은 번역연구(translational research)라고 불린다(Woolf, 2008; 그림 1.3 참고).

이 접근은 일반 교육(K–12)과 보건의료인 교육 모두에 적용되었다.

K–12 교육에서는 교사 교육(teacher education)이 교사의 지식·기술을 향상시키고, 이는 교실 수업 개선과 궁극적으로 학생 성취 향상으로 이어진다(Allen et al., 2011; Yoon et al., 2007).
보건의료인 교육에서는(McGaghie, 2010):
- 학습 환경에서 학습자의 임상 지식·기술을 개선(T1)
- 임상 환경에서의 수행 향상으로 이어짐(T2)
- 결과적으로 환자 및 공중 보건 향상(T3).

최근 Barzuk & Szmuilowicz (2015)는 “T4” 개념을 추가했다. 이는 예상치 못한 집단(unplanned populations)이나 현장(targets)에 미치는 영향을 의미한다. 예컨대, 숙달학습 및 평가(mastery learning and testing) 프로그램이 참여하지 않은 수련생(non-participating trainees)이나 학습 문화(learning culture)에 미치는 영향이 포함된다.

👉 의도된·의도치 않은 평가 프로그램의 영향(consequences)은 2장과 17장에서 자세히 논의된다.

번역과학(translational science) 모델은 우리에게 중요한 사실을 상기시킨다.

보건의료인 교육의 최종 목표는 강력한 평가와 수업을 통해 학습자의 임상 수행(clinical performance)을 향상시키는 것.
그리고 궁극적으로는 환자 결과(patient outcomes)와 지역사회 건강(community health)을 개선하는 것이다.

요약 (Summary)

이 장은 책 전체의 맥락(context)과 개요(overview)를 제공했다. 여기서 소개된 대부분의 개념은 이후 장에서 자세히 확장된다. 독자가 후속 장의 기술적 논의를 이해하는 데 필요한 기본 용어(vocabulary)와 핵심 개념 및 원리(concepts and principles)를 제공하는 것이 목적이다. 의학교육 평가 이론과 실제에 크게 기여한 Christine McGuire는 이렇게 말했다.

“평가는 아마도 세상에서 가장 논리적인 분야일 것이다. 조금의 논리만 사용하면, 모든 것이 딱 맞아떨어지고 눈앞에 확연히 드러난다. . . . 평가란 매우 상식(common sense)적인 것이다.”
(Harris & Simpson, 2005, p. 68)

우리도 이 말에 동의한다. 물론 보건의료인 교육 평가에는 많은 기술적 세부사항과 통계적 논의가 포함되지만, 우리는 이 분야가 본질적으로 “상식적(common sense)”이라는 사실을 잊지 말아야 한다.

그러나 Voltaire가 지적했듯이:

“상식은 매우 드물다(Common sense is very rare).” (1962, p. 467)

이 책의 목표는 보건의료인 교육자들에게 최신의 평가 이론과 실천(state-of-the-art assessment theory and practice)을 제공하여, 학습자가 교육 과정(curricula) 안에서 “상식적(common)”이 될 수 있는 고품질 평가(quality assessments)의 혜택을 누리도록 하는 것이다.

'논문 읽기 (with AI)' 카테고리의 다른 글

[AHPE] 3 신뢰도 (Reliability) (0)	2025.09.15
[AHPE] 2 타당도와 평가의 질 (VALIDITY AND QUALITY) (0)	2025.09.09
서사적 정책 프레임워크: 틀릴 만큼 명확할 수 있는가? ( Policy Studies Journal, 2010) (4)	2025.08.14
졸업 후 의학 교육 성과 측정으로 사회적 계약을 이행하기 위해 (Acad Med. 2022) (0)	2025.08.11
의학의 사회와의 계약(J R Soc Med. 2014) (3)	2025.08.11

의대에서 교육하고 있습니다.