Perspect Med Educ. 2024 Feb 6;13(1):68-74. doi: 10.5334/pme.965. eCollection 2024.

Competence by Design: The Role of High-Stakes Examinations in a Competence Based Medical Education System

 

역량 중심 교육(CBME) 시대, 시험은 사라질까?

안녕하세요! 오늘은 캐나다 왕립 대학(Royal College)의 시험 위원회 리더들이 발표한 흥미로운 논문을 하나 소개하려고 합니다.

요즘 의학 교육의 대세는 단연 역량 중심 의학 교육(Competence Based Medical Education, CBME)이죠. 현장에서 전공의들을 수시로 관찰하고 피드백을 주는 직장 기반 평가(Workplace-based Assessment)가 강조되면서, 혹자는 "이제 예전처럼 각 잡고 보는 거대한 시험(Examination)은 필요 없는 거 아니야?"라고 묻기도 합니다.

 

하지만 이 논문의 저자들은 단호하게 "아니요"라고 말합니다. 왜 CBME 시대에도 고부담 시험(High-stakes examinations)이 여전히 중요할까요? 그리고 이 시험들은 새로운 교육 흐름에 맞춰 어떻게 진화해야 할까요?


1. 왜 여전히 '시험'이 필요한가? (The "Failure to Fail" Problem)

우리는 수시로 전공의들을 평가한다고 하지만, 솔직히 말해 현장에는 여전히 '실패시키지 못함(Failure to fail)' 문화가 존재합니다. 교수님들도 사람인지라 제자를 유급시키거나 낙제점을 주는 게 쉽지 않죠.

논문에서는 이 점을 아주 뼈아프게 지적합니다.

"불행하게도, 보건 의료 전문직 교육은 임상 환경에 있는 전공의들에 대해 ‘실패시키지 못함’ 문화를 계속해서 보여주고 있으며, 우리가 직장 기반 평가의 타당도를 결정할 때까지는 CBME가 도입된다고 해서 이것이 변할 것이라고 가정할 수 없다." (Unfortunately, health professions education continues to exhibit a “‘failure to fail” culture for trainees in the clinical environment and we cannot assume this will change with CBME until we determine the validity of workplace-based assessment.)

 

더 무서운 사실은, 교수님들이라면 누구나 마음속으로 '아, 저 친구는 좀 불안한데...'라고 생각하는 전공의가 있다는 겁니다.

"솔직한 성찰에 참여하는 임상 교수라면 누구나 우려를 가지고 있는 전공의들, 즉 임상 훈련이 끝날 때쯤 자신의 가족을 믿고 맡길 수 없는 의사 지망생들을 거의 확실하게 식별해 낼 것이다." (Any clinical faculty who engage in honest reflection will almost certainly identify trainees about whom they have concerns — aspiring physicians whom they would not trust to look after their own family members by the end of their clinical training.)

 

결국, 각 수련 병원이나 프로그램이 '온정주의'나 '소송 걱정' 때문에 제대로 걸러내지 못하는 부분을, 국가 차원의 독립적인 시험이 최후의 보루로서 걸러줘야 한다는 것이죠. 이는 사회와의 약속이기도 합니다.

"모든 수련 프로그램이 수련 기간 내내 학습자에 대한 정직한 평가를 완료하고... 사회적 계약상의 의무를 다하고 있는 것은 아니라고 주장할 수 있다." (It can be argued that not all training programs are meeting their obligation in the social contract to complete honest assessments of learners throughout their training.)


2. 시험은 어떻게 진화해야 하는가? (9 Key Adaptations)

그렇다고 옛날 방식 그대로 시험만 고집해서는 안 되겠죠? Royal College는 CBD(Competence by Design) 모델에 맞춰 시험 제도를 9가지 측면에서 대대적으로 뜯어고쳤다고 해요. 핵심만 쏙 뽑아 정리해 드릴게요.

  • ① 더 이른 시험 시기 (Earlier Timing) ⏰ 수련이 다 끝날 때 시험을 보는 게 아니라, 조금 앞당겨서 봅니다. 시험에 합격하고 나면 남은 수련 기간(Transition to Practice 단계) 동안은 시험 공부가 아니라 진짜 '임상 실무'에만 집중할 수 있게요. 혹시 떨어지더라도 수련 중에 재교육(Remediation) 받을 기회를 줍니다.
  • ② 평가 간의 정렬 (Alignment) 🔗 시험에서 잘 볼 수 있는 것(지식, 드문 케이스 대처)과 현장에서 잘 볼 수 있는 것(태도, 술기)을 구분해서 서로 상호 보완(Complementary)하게 설계합니다.
  • ③ 시험 순서 재배치 (Sequencing) 1️⃣➡️2️⃣ 필기시험(Written)에 먼저 합격해야 구술/실기(Applied) 시험을 볼 수 있게 바꿨습니다. ('필기 후 실기' 원칙)
  • ④ 투명성 강화 (Transparency) 🔍 시험 청사진(Blueprint)과 예시 문항을 투명하게 공개해서, 운이나 요령이 아니라 진짜 역량(Competence)이 점수에 반영되도록 합니다.
  • ⑤ 시험관 교육 (Examiner Training) 👨‍🏫 시험관들이 단순히 지엽적인 지식을 묻는 게 아니라, "이 사람이 캐나다에서 전문의로 활동할 역량이 있는가?"를 판단하도록 교육합니다.
  • ⑥ 질 관리 (Quality Review) ✅ 문항 출제에 참여하지 않은 제3의 검토자가 문제의 명확성을 다시 확인합니다.
  • ⑦ 포괄적 평정 척도 (Global Rating Scales) 📊 체크리스트(Checklist) 방식에서 벗어나, 전공의의 고차원적 사고와 임상적 의사결정을 평가할 수 있는 포괄적 평정 척도를 도입했습니다. 기계적 암기보다는 '생각하는 힘'을 보겠다는 거죠.
  • ⑧ 심리측정의 변화 (Psychometrics) 📈 상대평가적 요소가 강한 'Cronbach's alpha' 대신, 절대적인 기준(역량) 도달 여부를 판단하기 좋은 'Theta' 값을 신뢰도 지표로 사용합니다.
  • ⑨ 지속적 질 향상 (QI) 🔄 시험이 끝날 때마다 데이터를 분석해서 계속해서 시험 자체를 업그레이드합니다.

 

3. 마무리하며: 공존의 미학

결론적으로, 역량 중심 교육 시대에도 시험은 사라지지 않습니다. 오히려 직장 기반 평가가 놓칠 수 있는 부분을 채워주는 든든한 파트너로서 그 역할이 더 명확해졌다고 볼 수 있습니다. 저자들은 마지막으로 이렇게 강조합니다.

"시험은 직장 기반 평가를 보완하는 독립적인 제3자 평가로서 Royal College 인증 과정에서 필수적인 역할을 계속 수행한다." (Examinations continue to play an integral role in the Royal College certification process as an independent, third-party assessment that complements workplace-based assessment.)

 

결국 중요한 건 '시험이냐 아니냐'의 이분법이 아니라, '어떻게 하면 안전하고 유능한 의사를 길러낼 것인가'라는 목표를 위해 두 가지 평가 방식을 얼마나 조화롭게 섞느냐(Mix)인 것 같습니다.


서론 (Introduction)

역량 중심 의학 교육(competency based medical education, CBME) 시대에 고부담 시험(high-stakes examinations)의 역할(role)은 무엇인가? CBME와 프로그램식 평가(programmatic assessment)는 전공의(trainees)의 일상 업무(daily work) 속에서 이루어지는 빈번한 저부담 평가(frequent low-stakes assessments)로의 평가 철학(assessment philosophy) 및 설계(design)의 변화(shift)를 대변하며, 일부에서는 이것이 시험의 종말(end of examinations)을 알리는 신호가 되어야 한다고 제안해왔다. 불행하게도, 보건 의료 전문직 교육(health professions education)은 임상 환경(clinical environment)에 있는 전공의들에 대해 “실패시키지 못함(failure to fail)” 문화[1, 2]를 계속해서 보여주고 있으며(continues to exhibit), 우리가 직장 기반 평가(workplace-based assessment)의 타당도(validity)를 결정(determine)할 때까지는 CBME가 도입된다고 해서 이것이 변할 것이라고 가정(assume)할 수 없다. 대부분의 전공의가 성공(succeed)하고 많은 이들이 졸업 후 의학 교육(postgraduate medical training)에서 뛰어난 성과(excel)를 보이지만, 솔직한 성찰(honest reflection)에 참여(engage)하는 임상 교수(clinical faculty)라면 누구나 우려(concerns)를 가지고 있는 전공의들, 즉 임상 훈련(clinical training)이 끝날 때쯤 자신의 가족을 믿고 맡길 수 없는(would not trust to look after their own family members) 의사 지망생들을 거의 확실하게 식별(identify)해 낼 것이다. 이러한 우려는 전공의의 의학적 전문성(medical expertise)뿐만 아니라 의사소통(communication), 협력(collaboration) 또는 전문 직업적 품행(professional conduct)과 같은 다른 핵심 역량(core competencies)과도 관련이 있을 수 있다.

 

캐나다 왕립 내과 및 외과 대학(Royal College of Physician and Surgeons of Canada, 이하 Royal College)의 설계에 의한 역량(Competence by Design, CBD) 모델[3]을 포함한 CBME교육을 재형성(reshape)하고, 학습을 지원(support learning)하며, 우리의 미래 동료들에게 성장 마인드셋(growth mindset)을 촉진(promote)할 수 있는 엄청난 잠재력(tremendous potential)을 가지고 있다. 이러한 기회(opportunity)가 실현(realized)되기 위해서는,

  • 학습자가 자신의 한계(limits)를 인정(acknowledgment)하고 개선이 필요한 영역(areas for improvement)에 대해 솔직한 토론(candid discussion)을 할 수 있도록 허용하는 안전하고 지지적인 학습 환경(safe, supportive learning environment)을 인식하는 문화적 변화(cultural shift)가 필요하다.
  • 그 위에 더해(Layered on top of that), 전공의들의 지도 감독 없는 진료(unsupervised practice)를 향한 진행(progression)을 결정하기 위해 일선 교수진(front-line faculty)과 역량 위원회(Competence Committee) 구성원들의 책임무(accountability)가 강화되어야 한다.

밀러의 피라미드(Miller’s pyramid)[5] 최상단, 즉 전공의가 임상 진료(clinical practice)에서 실제로 “수행하는 것(what a trainee does)”(모든 CanMEDS[6] 역할(Roles)과 관련된)에 대한 빈번한 평가(frequent assessment)를 강조하는 잘 설계된 평가 프로그램(well-designed program of assessment)[4]은 널리 퍼져 있는 ‘실패시키지 못함(failure to fail)’ 문제를 해결(address)할 수 있는 이론적 잠재력(theoretic potential)을 제공한다.

 

‘실패시키지 못함(failure to fail)’ 현상을 뒷받침하는(underpinning) 요인(factors)은 무수히 많으며(myriad of), CBD가 의미 있는 문화 변화(meaningful culture change) 없이는 이 모든 것을 해결할 가능성은 낮다.

  • 학습자 수준(learner level)에서, 전공의들은 평가의 인지된 부담(perceived stakes)과 그것이 자신의 진급(progression)에 미치는 영향 때문에,
    • 자신이 잘 수행할 수 있는 쉬운 증례(easy cases)를 선택(select)하거나 자신의 역량(competence)을 평가받기 위해 더 관대한 임상 지도전문의(lenient faculty supervisors)를 찾으려(seek) 할 수 있다.
    • 이는 성장 마인드셋의 발달(development)을 저해(hinders)할 뿐만 아니라 최종적인 총괄 평가(eventual summative assessment)의 타당도에 대한 위협(threat)이 된다.
  • 임상 지도전문의 수준(clinical supervisor level)에서는
    • 수행에 대한 기대치(expectations of performance)가 불명확(unclear)할 수 있으며, (훈련받지 않은) 평가자(raters)들은 상당한 변동성(considerable variability)을 보일 수 있다.
    • 관대화 편향(leniency bias) 또한 우려되는 부분인데, 특히 전공의와의 사회적 상호작용(social interaction)이 있는 맥락이나, 평가자가 저조한 수행(poor performance)을 상황(circumstance)이나 증례(case)의 탓으로 돌리며(attribute), 관찰된 저조한 수행이 일회성 발생(one-time occurrence)이었다고 가정하여 우려 사항을 기록하지 않기로(choosing not to document) 선택하는 경우에 더욱 그러하다.
  • 프로그램 수준(program level)에서는
    • 전공의의 “실패(failure)”가 수련 프로그램(training program)에 대한 좋지 않은 반영(reflects poorly)이 될 것이라는 우려,
    • 실패가 확인된 후 기다리고 있을 상당한 교정 교육 업무량(substantial remediation workload), 그리고
    • 실패한 전공의가 임상 진료 제공 일정(clinical service delivery schedules)에 공백(gaps)을 남길 수 있다는 우려가 있을 수 있다.
  • 외부적 요인(External factors) 또한 신뢰할 수 있는 평가 결정(trustworthy assessment decisions)에 영향을 미칠 수 있는데,
    • 예를 들어 예상대로 발전하지 못하고 있는(not progressing as expected) 저성과 전공의(underperforming trainees)로부터의 소송 위협(threat of litigation) 등이 있다.
  • 이러한 요인들은, 견고한 시험 과정(robust examination process)과 결합되어, 일부 프로그램들이 저조한 성과를 보이는 지원자(poorly performing candidates)를 식별(identify)하고 이들이 지도 감독 없는 진료(unsupervised practice)에 진입하는 것에 대한 장벽(barrier)을 만들기 위해 암묵적으로(implicitly) 국가 Royal College 시험에 의존(rely on)하는 환경을 고착화(perpetuated)시켰다.

 

비록 국가 인증 기관(national certifying bodies)이 시행하는 총괄 인증 시험(summative certification examinations)의 유용성(utility)과 역할이 특히 COVID-19 팬데믹 초기 단계[7] 동안 의문이 제기되었으나(questioned), 문헌(literature)은 인증/면허 시험(certifying/licensure examinations)이 중요한 환자 결과(important patient outcomes)뿐만 아니라 미래의 의사 성과(future physician performance)를 예측(predict)하는 데 도움이 된다고 시사한다[8–16]. 이 시험들은 지역 수련 프로그램(local training program)이 고전하고 있는 전공의(trainee struggling)를 식별하지 못하거나 앞서 언급한 ‘실패시키지 못함(failure to fail)’ 문제로 어려움을 겪고 있을 때, 대중을 위한 중요한 안전장치(important safeguards) 역할을 할 수 있다. 캐나다에서는 Royal College 시험에 불합격할 위험(risk of failing)이 있는 전공의들이 수련 과정에서 비교적 일찍 식별 가능한(identifiable) 경우가 많지만[17], 이러한 “신호(signal)”가 기록되어 사용 가능한 평가 데이터(documented, usable assessment data)로 변환(translated)되지는 않는다. 수련 중 평가(in-training evaluations)가 가장 취약한(weakest) 사람들은 Royal College 내과 시험(Internal Medicine examination)에서 불합격할 위험이 4배나 높지만[18], 그러한 개인들은 여전히 프로그램에 의해 시험 자격이 있는(eligible) 것으로 간주된다. Royal College 시험은 지도 감독 없는 진료를 위한 역량(competence for unsupervised practice)을 결정(determining)한다는 목표로 개발되므로, 모든 수련 프로그램이 수련 기간 내내 학습자에 대한 정직한 평가(honest assessments)를 완료하고 역량 및 프로그램 수료(program completion)에 대해 정확한 결정(accurate decisions)을 내려야 한다는 사회적 계약(social contract)[19]상의 의무(obligation)를 다하고 있는 것은 아니라고 주장할 수 있다. 따라서 국가 총괄 시험(National summative examinations)은 인증 과정(certification process)에서 중요한 상호 보완적 역할(important complementary role)을 계속해서 수행한다.

 

Royal College의 각 전문과(Specialty) 및 세부 전문과(Subspecialty)에는 시험 개발을 책임지는(responsible for the development) 시험 위원회(Examination Board)가 있다. 이 위원회는 교육 표준(educational standards)을 개발하는 국가 전문과 위원회(national Specialty Committee)뿐만 아니라, 정책(policy)을 개발하고 시험의 질(quality)과 타당도(validity)에 대한 지침(guidance) 및 감독(oversight)을 제공하는 상위 조직인 Royal College 시험 위원회(Examination Committee)에 보고(reports to)한다. 시험 위원회의 구성원(membership)은 캐나다 전역의 평가 분야 리더(leaders in assessment)들을 대변하며, 여기에는 다양한 외과, 내과 및 실험실 기반 분과(lab-based disciplines)를 대표하는 전현직 시험 위원장(Exam Board Chairs)들과 평가에 초점을 맞춘 박사급 과학자(PhD scientist)가 포함된다. 이 과정은 내부의 시험 품질 및 분석 부서(Exam Quality and Analytics unit)의 지원을 받는데, 여기에는 심리측정 팀(Psychometrics team)과 시험의 시행(delivery)을 구현(implements)하는 Royal College의 운영 팀(Operations team)이 포함된다. 전체적으로, 1,300명 이상의 전문의(specialist physicians)가 그들의 시간을 자원봉사(volunteer)하고 있으며, 67개 전문과/세부 전문과에 걸쳐 50명에 가까운 상근 직원(fulltime staff)이 시험 과정에 기여(contribute)하고 있다.

 

시험 위원회(Examination Committee) 내의 리더들과 시험 및 인증 분야에서 리더십 역할(leadership roles)을 맡은 의사 직원(staff physicians)들이 저술한 이 논문은, Royal College 고부담 인증 시험의 목표(aims), 미래의 역할(future role), 그리고 이것들이 CBD 모델과 어떻게 관련되는지(how they relate)를 설명(describes)한다. 고부담 시험을 위한 준비(preparation) 자체가 전공의의 학습(learning)과 행동(behaviour)에 지대한 영향을 미칠 수 있음을 인정(Acknowledging)하면서, 우리는 Royal College 시험이 CBD의 교육적 설계(educational design)를 지원하기 위해 어떻게 중요한 수정(important modifications)을 거치고 있는지 설명한다.


Royal College 시험의 목적 (Purpose of Royal College examinations)

Royal College 시험은 지원자가 CBD 프로그램에서 수련을 받았든 그 외의 맥락(outside of that context)에서 수련을 받았든 상관없이 모든 지원자(all candidates)에게 공정한 평가(fair assessment)를 제공하는 것을 목표로 한다(aim to).

  • 모든 평가 활동(assessment activities)의 중요한 첫 단계(critical first step)는 평가의 목적(purpose of the assessment)을 결정하는 것이어야 한다.
    • Royal College 시험은 캐나다에서의 지도 감독 없는 임상 진료(unsupervised clinical practice)를 위한 역량을 결정하려는 의도(intention)로 청사진이 그려지고(blueprinted), 개발(developed)되고, 시행(delivered)되며, 각 전문 분야(discipline) 내의 현대적 진료 범위(contemporary scope of practice)에 기반하여 각 전문과에 대한 국가적 벤치마크(national benchmark)를 제공한다.
  • 대부분의 지원자는 캐나다의 졸업 후 수련 프로그램(postgraduate training programs) 출신이다; 하지만, 상당한 소수(substantial minority)는 캐나다 밖에서 의학 수련을 마쳤으며 현재 캐나다에서 진료 중이거나 캐나다에서의 인증(및 면허) 취득(obtain certification and licensure)을 원하는 해외 의과대학 졸업생(international medical graduates)이다.
  • 따라서 Royal College 인증을 통해 면허를 취득하고자 하는(seek licensure) 모든 이들이 해당 전문 분야의 동일한 기대 진료 범위(same expected scope of practice)에 걸쳐 동일한 기준(same standard)에 따라 평가받도록 보장(ensure)하는 것은 시험의 추가적인 기능(additional function)이다.

우리는 시험이나 평가 프로그램(program of assessment)과 같은 평가 활동에서 고려해야 할(consider) 핵심 요소(key elements)를 강조하기 위해 유용한 도구로서 CARVE라는 기억술(mnemonic)을 활용(utilize)한다[20, 21]. 좋은 평가(good assessment)를 위한 오타와 합의 프레임워크(Ottawa Consensus Framework)[22]에 기반하여, 이 기억술은 고부담 시험을 위한 다섯 가지 핵심 고려사항을 개괄(outlines)한다: 비용 효율성(Cost-effectiveness); 수용성(Acceptability); 신뢰도(Reliability); 타당도(Validity); 그리고 교육적 영향(Educational Impact).

 

시험의 일차적 목표(primary aim)는 관대화 편향(leniency bias)이 우려될 수 있는 지원자의 졸업 후 의학 교육(postgraduate medical education) 또는 임상 진료 감독(clinical practice supervision)으로부터 독립적이고(independent from), 거리를 둔(at arm’s length to) 과정을 활용하는 것이다.

  • 이 시험은 인증 과정의 중요한 부분을 형성하는 직장 내 평가 프로그램(program of assessment in the workplace)을 보완(complement)하기 위해 내용 전문성(content expertise)을 갖춘 훈련된 시험관(trained examiners)을 고용하는 표준화된 과정(standardized process)을 활용(leverages)한다.
  • 이러한 추가적인 평가의 원천(additional source of assessment, 즉 시험)은 인증(certification)을 둘러싼 의사결정(decision-making)에 있어 대중의 신뢰(public trust)를 증진(promoting)하는 데 도움이 될 수 있다.

Royal College가 개원 의사(physicians in practice)들에게 지속적인 재인증 시험(ongoing recertification examinations)을 시행(administer)하지 않는다는 점을 고려할 때, 이 초기 인증(initial certification)은 지원자와 사회(society) 모두에게 상당한 부담(substantial stakes)을 지닌다. 비록 Royal College 시험의 주된 목적이 지원자의 역량을 결정하는 것이지만, 평가가 학습을 주도(assessment drives learning)한다는 것은 잘 알려져 있으므로(well recognized), 평가 결정의 교육적 영향(educational impact)(예: 시험의 시기 및 내용)은 여전히 중요하다. 직장 기반 평가(workplace assessment)의 문화가 변화하고 CBD 평가의 타당도에 대한 증거(evidence)가 시간이 지남에 따라 더 명확해짐(becomes clearer)에 따라, Royal College는 인증을 위한 견고한 국가적 표준(robust national standard)을 보장(ensuring)하면서 시험을 계속해서 수정(revise)하고 적응(adapt)시켜 나갈 것이다.

 

통합된 역량 중심 국가 인증 과정에서의 시험을 위한 9가지 핵심 설계 적응 (Nine key design adaptations for examinations in an integrated competency-based national certification process)

Royal College의 시험 위원회(Examination Committee)는 이러한 적응(adaptations)을 개발하기 위해 대학 내의 상임 위원회(standing Committees), 시험 위원회(Examination Boards) 및 임상 교육자(Clinician Educators)들의 조언(advice)이나 정책(policy)을 통합(incorporate)하고자 긴밀히 협력해왔다(worked closely). 많은 이해관계자(stakeholders)가 있는 거대한 시스템에서의 여느 복잡한 변화(complex change)와 마찬가지로, 합의(consensus)가 항상 가능한 것은 아니었지만, 위원회는 문제점들을 성찰(reflect on issues)하고 전문과별 시험 위원회(Specialty specific Examination Boards)가 변화를 실행(implement)할 수 있도록 허용하는 통합된 접근법(integrated approach)을 개발했다. 변화의 영향(impact of the changes)은 위원회 업무의 진행 중인 지속적인 질 향상(Continuous Quality Improvement)의 일환으로 검토된다.

 

COVID-19 팬데믹은 지필 시험(paper-and-pencil examinations)과 대면 구술(face-to-face oral) 및 OSCE 시험에서 두 가지 모두를 위한 온라인 플랫폼(online platforms)의 사용으로 이동함에 따라, 시험 과정(examination process)에 상당한 변화(considerable change)를 요구했다. 아래에 개괄된 적응들(adaptations outlined below)은 시행 방법(methods of delivery)과 구체적인 시험 구조(specific examination structure)의 변화에도 불구하고 Royal College가 시험 과정에서 엄격성(rigour)과 타당도(validity)를 유지(maintain)할 수 있도록 해주었다.

더 이른 시험 시기 (Earlier timing for Examinations)

전공의(Trainees)들은, 심지어 CBD 프로그램에 있는 이들조차도, 그들의 인증 시험(certifying examinations)을 위해 계속해서 열심히 공부할 가능성이 높다(likely to continue to study hard). 시험을 수련 과정의 더 이른 시기(earlier in training)로 옮길 수 있는 기회는 전공의들이 시험에서 자신의 역량을 입증(demonstrate their competence)한 다음, 수련의 마지막 몇 달(final few months of training) 동안은 임상 교육(clinical education)에 학습을 집중(focus their learning)할 수 있게 해준다.

  • 시험 준비(examination preparation)를 통한 해당 학문 분야(discipline)에 대한 강력한 이론적 이해(strong theoretical understanding)와 결합된 이러한 기회는, 학습자들이 흔히 강조되지 않는 수련의 측면(commonly underemphasized aspect of training)이자
  • 여러 전문 분야에 걸쳐 졸업하는 전공의들에게서 자주 확인되는 진료 준비도 부족(perceived lack of readiness for practice)을 바로잡을(rectify) 수 있는 핵심 기회인 ‘진료 이행기(Transition to Practice, TTP)’ 단계(CBD 프로그램의 마지막 단계)에서 그들의 학습을 증폭(amplify)시킬 수 있게 해준다.
  • 시험에 성공하지 못한(not successful) 전공의에게 있어, 더 이른 시험 시기는 그들이 여전히 수련 프로그램에 등록(registered)되어 있는 동안 교정(remediation)과 시험 준비 지원(examination preparation support)을 받을 기회를 제공한다.

현재까지, Royal College의 필기시험(written examinations)은 수련의 끝에서 CBD 프로그램의 4단계 중 3번째 단계인 ‘전문 분야의 핵심(Core of Discipline)’ 단계로 옮겨졌다[3, 23].

  • 지금까지, TTP 단계로 이어지는 학습자의 지식(learner knowledge) 측면에서 일화적인 피드백(anecdotal feedback)은 긍정적이었으며, 지원자들은 나중에 시험을 치렀던 역사적 대조군(historical cohorts)과 유사한 비율(similar rates)로 시험에 합격할 수 있었다.
  • 전문의(specialist physicians)들로부터의 콘텐츠 개발(content development)과 운영 지원(operational support) 측면 모두에서, 더 이른 시기의 고품질 시험(earlier high-quality examination)을 하나 더 만들어내는 업무량(workload)은 상당하다(substantial).

평가 간의 정렬 (Alignment across assessments)

모든 Royal College 시험은 캐나다의 임상 진료(clinical practice)를 반영(reflect)하고 있는지 보장하기 위해 청사진(blueprints)에 대한 검토(review) 및/또는 수정(revisions)을 거친다.

  • 시험 위원회는 무엇이 시험에서 가장 잘 평가되는지(best assessed on examinations), 그리고 반대로 무엇이 직장 기반 평가(workplace-based assessment)를 통해 가장 잘 결정되는지(best determined)를 고려하며, 이를 통해 인증 과정(certification process)에서 두 가지 형태의 평가에 대한 상호 보완적인 접근법(complementary approach)을 지원한다.
  • 이 접근법은 주제(topics)들이 한 가지 형태의 평가에서만 배타적으로 다루어져야 한다(covered exclusively)는 것을 요구하지 않으며,
  • 시험이 캐나다 프로그램 출신의 전공의와 CBD 수련 프로그램 출신이 아닌 해외 의과대학 졸업생(international medical graduates) 모두를 위한 인증의 외부 확인 지점(external checkpoint for certification)으로 기능(function)하기 위해서는 중복(overlap)이 있을 수 있고, 또 있어야 한다.

원칙(principle)은 평가되는 역량(competencies)에 대한 최적의 접근법(optimal approach)을 고려하는 것이다.

  • 예를 들어, 전문 직업적 품행(professional conduct)은 임상 환경(clinical environment)에서 가장 잘 평가되는 반면, 해당 영역의 유능한 전문의(competent specialist)를 정의하는 유형인 덜 흔하지만 중요한 임상 상태(less common but important clinical condition)에 대한 지원자의 처치(management)는 시험에서 더 잘 평가될 수 있다.
  • 수련 프로그램 내에서 발생하지만 국가적으로 개발되는(nationally developed) 시뮬레이션 기반 평가(Simulation based assessment) 또한 해당 전문과와 관련이 있을 때(when relevant) 인증 과정에 통합되었다[24]. 인증 과정이 필기(written) 및 응용 시험(applied examination - 구술, 객관구조화진료시험[OSCE], 또는 실기)을 모두 포함하는 경우, 시험 위원회는 또한 각 시험에서 무엇이 가장 잘 평가되는지를 결정한다.

시험의 순서 배열 (Sequencing of examinations)

  • Royal College 시험은 지원자가 응용 시험(applied examination)에 응시(present)하기 전에 필기시험에 반드시 합격(must pass)해야 하는 ‘필기 후 실기(written-before-applied)’ 형식으로 전환(transitioning)되고 있으며, 이에 맞춰 청사진이 그려지고 설계되고 있다.
  • 이러한 전환은 Royal College의 선다형 시험(multiple-choice examinations)에 대해 이미 이루어졌으며, 단답형 질문(short-answer questions)이 있는 시험을 가진 전문과들이 CBD로 전환됨에 따라 해당 시험들에 대해서도 시행되고 있다.

투명성 (Transparency)

  • 지원자들이 시험 과정(examination process), 청사진(blueprint), 그리고 시험과 관련된 예시 문항(sample questions)을 이해할 수 있도록 투명성이 개선되고 있다. 이는 모든 Royal College 시험 위원회 위원장(board chairs)과 집행부(executives)의 광범위한 작업(extensive work)뿐만 아니라 Royal College 웹사이트에 대한 상당한 업데이트(substantial updates)를 필요로 했다. 투명성을 높이기 위한 이러한 노력은 구성 개념과 무관한 분산(construct-irrelevant variance)을 줄여서 점수의 변동(variation in scores)이 역량의 진정한 차이(true differences in competence)와 더 관련되도록 돕는다.

시험관 및 시험 리더십의 개발 (Development of examiners and exam leadership)

  • 시험관(examiners)과 시험 위원회 리더십(examination board leadership)이 그들 역할의 의무(duties of their role)를 이행하고 캐나다 맥락에서의 역량(competence in the Canadian context)을 시험의 목표(target)로 고려할 수 있도록 돕기 위해 강화된 훈련(Enhanced training)이 제공되고 있다. 시험관들은 유능한 전문의(competent specialist)나 세부전문의(subspecialist)라면 시험에서 성공할 수 있도록(able to succeed) 문항을 개발하는 것을 목표로 한다(aim to).
  • 일부 문항은 다른 문항보다 더 어려울 수 있지만, 전체 시험(overall examination)은 역량을 목표로 고려하도록 구축된다.
  • Royal College는 인증 과정에서 전문과의 표준(standards)이 유지되도록 보장하기 위해 시간을 자원봉사(volunteer)하는 67개 전문과 및 세부 전문과에 걸친 1,300명 이상의 시험 위원회 구성원을 보유하고 있는 행운을 누리고 있다.
  • 이 시험관들은 운영 시험 개발 및 시행 팀(operational examination development and delivery team)뿐만 아니라, 위원장, 부위원장, 집행부 및 위원들이 시험을 개발하고 검토할 때 교육과 지속적인 지원을 제공하는 심리측정 및 데이터 분석 팀(psychometrics and data analytics team)에 의해 지원받는다.

시험의 질 검토 (Quality review of the examination)

  • 문항 개발 과정(question development process)에 참여하지 않는 시험 질 검토자(examination quality reviewer)가 전문과 또는 세부 전문과에 대한 명확성(clarity)과 관련성(relevance)을 위해 문항들을 검토한다. 이 과정은 시험의 타당도(validity)를 더해주며 시험이 가장 관련성 있는 자료(most relevant material)에 집중하도록 돕는다. 또한 학습자들을 관련성 있는 임상 진료(relevant clinical practice)에 집중시킴으로써 교육적 영향(educational impact)을 지원할 수도 있다.

포괄적 평정 척도 (Global rating scales)

  • 응용 시험(구술, OSCE, 또는 실기 시험)을 활용하는 전문과 및 세부 전문과의 경우, 채점 도구(scoring tool)가 체크리스트(checklists)에서 벗어나 기계적 암기(rote memory)를 테스트하기보다는 임상적 의사결정(clinical decision-making)과 같은 의사의 과업(physician tasks)과 더 잘 정렬되는 고차원적 사고(higher order thinking)에 초점을 맞춘 포괄적 평정 척도(global rating scale)로 이동했다. 이 접근법은 인증 시험 수준에서의 역량 결정(determination of competence)과 더 잘 정렬되며, 더 낮은 연차의 학습자(more junior learners) 수준에서 더 적절할 수 있는 완전성(completeness)보다는 지원자들의 사려 깊은 답변(thoughtful answers)에 보상(rewards)을 준다.

심리측정적 접근법의 최신화 (Updating the psychometric approach)

  • 더 역량 중심적인 접근법(competency-based approaches)과 정렬하기 위해 업데이트된 심리측정 과정(psychometric processes)이 시행되고 있다. 예를 들어, Royal College는 시험을 치르는 지원자 집단(cohort of candidates)에 의존적인(그리고 점수의 분산(spread of scores)을 달성하는 데 더 의존적이어서 규준 지향적 접근(norm-referenced approach)과 더 잘 정렬되는) 크론바흐 알파(Cronbach’s alpha) 대신, 일차적인 신뢰도 척도(primary reliability measure)로서 세타(theta, 시험의 결정 일관성(decision consistency)과 더 관련이 있고 시험에 대한 준거 지향적 접근(criterion-referenced approach)과 더 잘 정렬되는)로 이동했다.
  • 추가적으로, 의도한 대로 작동하지 않을 수 있는(may not be working as intended) 문항을 식별하고 고려하여 시험에서 제거(removed)할 필요가 있는지 판단하기 위한 강화된 시험 후 문항 검토(post-examination question review) 및 심리측정 과정뿐만 아니라, 각 시험 위원회의 패널들과 함께 기준 설정(standard setting)을 수행하기 위한 강화된 과정이 있다.

1. 세타(theta)란 무엇인가요?

"학생의 '진짜 실력'을 나타내는 절대적 수치"
통계학(특히 문항 반응 이론)에서 **세타(theta)**는 피험자의 **잠재적 능력(Latent Trait/Ability)**을 뜻합니다.
  • 쉽게 말해, 시험 점수(100점 만점에 80점)가 아니라, **이 학생의 '진짜 역량 수준'**을 수치화한 것입니다.
  • 보통 평균적인 능력을 0으로 두고, 능력이 높으면 +값, 낮으면 -값을 가집니다.

2. 왜 '크론바흐 알파'를 버리고 '세타'로 갈까요?

논문에서 언급한 **"집단에 의존적이다(dependent on the cohort)"**라는 말이 핵심입니다.

⛔ 기존 방식: 크론바흐 알파 (Cronbach's Alpha)

크론바흐 알파는 **"문항들이 서로 얼마나 비슷하게 묻고 있나(내적 일관성)"**를 봅니다. 이 수치가 높게 나오려면 학생들의 **점수 분포(분산, Spread)**가 넓어야 합니다. 즉, 공부 잘하는 애(1등)와 못하는 애(꼴찌)가 확연히 갈려야 신뢰도가 높게 나옵니다.
  • 문제점 (규준 지향, Norm-referenced):
    • 의사 국가고시나 전문의 시험을 보는 사람들은 대부분 공부를 아주 잘하는 상위권 집단입니다. (점수 차이가 크지 않음)
    • 모두가 다 잘해서 점수가 90점~95점에 몰려 있으면, 실제로는 시험이 공정했어도 분산이 작아서 크론바흐 알파 값은 뚝 떨어집니다.
    • 마치 "1등부터 100등까지 줄 세우기"에는 좋지만, "모두가 합격할 실력이 되는가?"를 판단하기엔 부적절합니다.

✅ 새로운 방식: 세타(theta) 신뢰도 (Item Response Theory)

반면, 세타를 기반으로 한 신뢰도(Conditional Standard Error of Measurement)는 누가 시험을 보느냐에 상관없이, 시험 문제 자체가 특정 능력대를 얼마나 정밀하게 측정하는지를 봅니다.
  • 장점 (준거 지향, Criterion-referenced):
    • 우리의 목표는 1등을 뽑는 게 아니라, **"이 사람이 전문의로서 환자를 볼 역량이 되는가?(합격선/Cut-off)"**를 판별하는 것입니다.
    • 세타 신뢰도는 전체 구간의 평균적인 정확도보다는, 합격선(예: theta = -0.5 지점) 근처에서 얼마나 오차 없이 정밀하게 측정하는지를 중시합니다(결정 일관성).
    • 따라서 응시자 집단의 수준이 모두 높아서 점수 분포가 좁더라도, 합격선 근처에서의 측정 정밀도만 높다면 "이 시험은 신뢰할 수 있다"고 봅니다.

3. 시각적 이해: 정보 함수 (Information Function)

이 개념을 가장 잘 보여주는 것이 문항 반응 이론의 검사 정보 함수(Test Information Function) 그래프입니다.
위와 같은 그래프를 상상해 보십시오:
  • X축 (Theta) : 왼쪽은 능력이 낮은 사람, 오른쪽은 능력이 높은 사람입니다.
  • Y축 (Information/Reliability): 측정의 정확도(신뢰도)입니다. 높을수록 정확합니다.
CBME(역량 중심 교육)에서의 변화:
  • 과거 (크론바흐 알파): 전 구간에서 고르게 점수가 퍼져야 좋다고 믿음.
  • 현재 (세타 기반): 그래프의 산봉우리(가장 정확한 지점)가 합격선(Cut-score) 위에 오도록 시험을 설계함. 아주 잘하는 사람과 아주 못하는 사람은 대충 측정해도 되지만, **합격/불합격의 경계선에 있는 사람은 아주 정밀하게 측정(High Information)**해야 한다는 철학입니다.

요약: 교수님을 위한 한 줄 정리

  • 크론바흐 알파: "학생들 간에 **등수 놀이(상대평가)**를 하기에 이 시험이 적절한가?" (집단의 점수 차이가 커야 함)
  • 세타(theta) 신뢰도: "이 학생이 **합격 기준(절대평가)**을 넘었는지 판별하기에 이 시험이 정밀한가?" (집단의 수준과 상관없이, 합격선 근처의 정밀도가 중요함)
이 논문은 **"우리는 이제 전공의들을 줄 세우는 것(Ranking)보다, 역량을 갖췄는지 확인(Pass/Fail)하는 것이 중요하므로 통계 기법도 그에 맞춰 바꾸었다"**라고 선언하는 것입니다.

 

질 향상 (Quality improvement)

  • 한 번의 시험 반복(iteration)에서 다음으로의 지속적인 질 향상(Continuous quality improvement)은 고부담 평가(high-stakes assessment)에 관여하는 모든 조직에게 중요하다. Royal College의 지속적인 질 향상 과정은 지원자들의 시험 후 설문조사(post-examination surveys) 검토, 시험 질 검토자(examination quality reviewers)의 평가, 심리측정 데이터(psychometric data), 그리고 상위 조직인 Royal College 시험 위원회에 의한 전문과별 시험 검토에 의해 지원받는다.

요약 (Summary)

시험(Examinations)은 직장 기반 평가를 보완(complements)하는 독립적인 제3자 평가(independent, third-party assessment)로서 Royal College 인증 과정에서 필수적인 역할(integral role)을 계속 수행한다. 시험은 CBD 내의 평가 프로그램에 신뢰할 수 있는 앵커(credible anchor)를 제공하며 CBD 및 비-CBD 수련 프로그램 출신의 지원자 모두가 공통의 표준(common standard)에 따라 평가받을 수 있게 해준다. 오직 신중한 개발(careful development)과 시행(delivery)을 통해서만 Royal College는 시험 과정의 타당도(validity)를 유지할 수 있다. Royal College가 더 빈번한 직장 기반 평가를 포함하여 더 견고한 평가 프로그램(robust programs of assessment)을 개발하고 있지만, 대중의 신뢰(public trust)를 유지하고 Royal College의 전체 평가 과정(entire process of assessment)에서 타당도를 보장하기 위해서는 인증 시험의 변화를 신중하게 고려(considered carefully)해야 한다. 캐나다에서 착수된(undertaken) 시험 개혁에 대한 단계적 접근법(stepwise approach to examination reform)은 CBD로의 이동에 대한 프로그램 평가(program evaluation)에 정보를 줄 수 있는(inform), 시험으로부터 축적된 집계 데이터(aggregate data)를 제공한다. 시험에서의 전공의 성과(trainee performance) 변화, 특히 시험 점수(examination scores)나 합격률(pass rates)의 향상이 있거나, 심지어 시험이 몇 달에서 1년 더 일찍 치러졌음에도(taking place months to a year earlier) 합격률이 역사적 대조군(historical controls)과 유사하다면, 이는 CBD의 긍정적인 교육적 효과(positive educational effect)에 대한 신호(signal)로서 기능할 수 있다.

 

 

+ Recent posts