Finding Medicine's Moneyball: How Lessons From Major League Baseball Can Advance Assessment in Precision Education

⚾️ 의학교육의 '머니볼'을 찾아서: 메이저리그가 알려주는 평가의 미래
안녕하세요! 오늘은 의학교육(Medical Education)의 평가 방식에 대해 아주 흥미로운 통찰을 주는 논문 한 편을 소개해드리려고 합니다. 혹시 브래드 피트 주연의 영화 <머니볼(Moneyball)> 보셨나요? 직감과 주관에 의존하던 야구계에 '데이터'와 '통계'를 도입해 판을 뒤집은 이야기죠. 오늘 소개할 논문은 "우리가 의사를 평가할 때도 야구의 '머니볼' 같은 혁신이 필요하지 않을까?"라는 질문에서 출발합니다. 바로 정밀 교육(Precision Education, PE)을 실현하기 위해서 말이죠.
💡 혁신은 낯선 만남에서 시작된다: 메디치 효과
이 논문의 저자들은 '메디치 효과(The Medici Effect)'를 언급하며 이야기를 시작해요. 서로 다른 분야가 만날 때 혁신이 터져 나온다는 뜻이죠. 15세기 메디치 가문이 예술가, 과학자, 철학자를 한데 모아 르네상스를 꽃피웠던 것처럼요.
저자들은 혁신에 대해 이렇게 말합니다.
"...새로운 아이디어는 기존 아이디어들의 조합이다..."
“… new ideas are combinations of existing ideas …”
그래서 의학교육도 이제 프로 스포츠(Professional Sports), 그중에서도 메이저리그(MLB)의 데이터 분석 진화 과정을 벤치마킹해야 한다고 주장합니다.
🔍 야구와 의학교육의 평행이론: 3단계 진화
논문에서는 야구의 평가 방식이 진화해 온 3가지 단계를 의학교육의 현주소와 비교합니다. 이 부분이 아주 흥미로워요.
1. 관찰의 시대 (The Observation Epoch) : 스카우트 vs. 전통적 평가
- ⚾️ 옛날 야구: 스카우트(Scout)들이 직감으로 선수를 뽑았습니다. "쟤는 폼이 좋네", "투지가 있어 보여" 같은 주관적 판단이었죠.
- 🏥 의학교육: 지금의 직무 기반 평가(Workplace-based Assessment, WBA)와 비슷합니다. 교수님이 전공의를 관찰하고 점수를 매기지만, 평가자마다 기준이 다르고 편향(Bias)이 생길 수 있죠.
2. 분석의 시대 (The Analytics Epoch) : 머니볼 vs. 학습 분석
- ⚾️ 머니볼(세이버메트릭스): 타율(Batting Average)보다 승리에 진짜 기여하는 출루율(On-base Percentage) 같은 데이터를 중시하기 시작했습니다.
- 🏥 의학교육: 이제 막 학습 분석(Learning Analytics)을 시작하는 단계입니다. 전자의무기록(EHR) 데이터 등을 활용해 수련생의 실력을 객관적으로 보려고 노력 중이죠.
3. 기술의 시대 (The Technology Epoch) : 스탯캐스트 vs. ?
- ⚾️ 스탯캐스트(Statcast): 경기장에 레이더와 카메라를 설치해 공의 회전수(Spin Rate), 타구 속도, 선수의 반응 속도까지 실시간으로 측정합니다. 결과(안타냐 아웃이냐)가 아니라 과정(Process) 그 자체를 정밀하게 분석해서, 운이나 환경 탓을 배제하고 선수 고유의 실력을 봅니다.
- 🏥 의학교육: 바로 우리가 가야 할 미래입니다. 수술실 블랙박스(OR Black Box), 웨어러블 기기, AI 영상 분석 등을 통해 수련생의 술기나 의사소통을 실시간으로 정밀하게 분석하는 것이죠.
🚀 진정한 '정밀 교육'을 위한 제언
야구 선수들이 타석에 들어설 때마다 태블릿으로 자신의 스윙 궤적을 확인하고 교정하듯, 우리 의대생과 전공의들도 실시간으로 피드백을 받을 수 있다면 어떨까요? 저자들은 진정한 정밀 교육(PE) 시스템을 구축하기 위해 가장 중요한 원칙을 이렇게 강조합니다.
"지도 원칙으로서, 우리는 쉽게 찾을 수 있는 데이터를 사용하는 것에서 학습자와 환자에게 진정으로 중요한 데이터를 사용하는 것으로 나아가야 합니다."
“As a guiding principle, we need to move from using easily found data to data that truly matter for our learners and patients.”
단순히 구하기 쉬운 점수나 숫자가 아니라, 환자의 예후와 수련생의 성장에 진짜 영향을 미치는 데이터를 찾아야 한다는 것이죠.
⚠️ 주의해야 할 점: 경쟁이냐 협력이냐
하지만 스포츠와 의료는 결정적인 차이가 있습니다. 스포츠는 상대를 이겨야 하는 경쟁(Competition)이지만, 의료는 환자를 살리기 위한 협력(Cooperation)이 핵심이니까요. 무턱대고 데이터로 줄 세우기를 해서는 안 된다는 우려 섞인 조언도 잊지 않았습니다.
"만약 우리가 세이버메트릭스 스타일의 접근 방식을 의학에 도입한다면, 우리는 데이터를 사용하여 경쟁에서 협력으로 전환하고 학습자가 단순히 성과에 집중하기보다는 숙달과 성장을 위해 데이터를 사용하도록 돕는 방법을 결정해야 할 것입니다."
“If we adopt a sabermetrics-style approach ... into medicine, we will have to determine how to use the data to shift from competition to cooperation and help learners use the data for mastery and growth rather than focusing simply on performance.”
📝 마치며
메이저리그가 데이터와 기술을 통해 선수의 잠재력을 폭발시켰듯, 의학교육도 새로운 데이터 흐름(New data streams)을 만들어내야 할 시점입니다. 의료계의 '스탯캐스트'는 과연 어떤 모습일까요? 인공지능(AI), 웨어러블(Wearables), 동작 추적(Motion Tracking) 기술이 의사 양성 과정을 어떻게 바꿀지 기대됩니다. 물론 그 중심에는 '환자의 안전'과 '학습자의 성장'이라는 본질이 있어야겠죠? 😊
정밀 교육(Precision Education, PE)은 환자, 학습자, 그리고 시스템 수준의 성과(outcomes)를 개선하기 위해 종단적 데이터(longitudinal data)와 분석(analytics)을 활용하여 교육적 개입을 맞춤화하는 것입니다.[1] 현재 의학교육 프로그램 중 이 목표를 달성할 수 있는 곳은 거의 없는데, 이는 PE의 지도 원칙(guiding principles)을 충족하지 못하기 때문입니다. 그 원칙이란 교육이
- 선제적(proactive, 시의적절하고 지속적인 데이터)이고,
- 개별화(personalized, 각 수련생에게 맞춤)되어야 하며,
- 참여적(participatory, 공동 생산)이고,
- 예측 가능(predictive, 의미 있는 미래의 교육 및 임상 성과에 대해)해야 한다는 것입니다.[1]
PE가 매력적인 청사진을 제시하고는 있지만, 프로그램들은 수련생의 학습과 프로그램 개선을 이끌어내기 위해 분석을 통해 변환된 새로운 데이터 흐름(new data streams)을 개발해야 합니다. 이 목표를 실현하기 위해 의학교육은 정밀 지향적 평가 전략(precision-oriented assessment strategies)을 실현하는 데 있어 더 앞서 있는 다른 분야로부터 영감을 얻어야 합니다.
2004년, 미국의 기업가 프란스 요한슨(Frans Johansson)은 『메디치 효과: 코끼리와 전염병이 혁신에 대해 가르쳐 줄 수 있는 것(The Medici Effect: What Elephants & Epidemics Can Teach Us About Innovation)』이라는 책을 출간했습니다.[2] 그는 교차적 창의성(intersectional creativity)이 혁신을 주도한다고 주장하며, 이는 새로운 아이디어가 종종 서로 다른 분야, 산업, 문화의 융합(convergence)에서 발전한다는 것을 의미합니다. "메디치 효과(Medici effect)"라는 용어는 15세기 피렌체의 메디치 가문이 예술가, 과학자, 철학자, 경제학자를 한데 모음으로써 르네상스를 촉발하는 데 도움을 주었던 방식에서 유래했습니다. 혁신을 촉발하는 메커니즘은 "...새로운 아이디어는 기존 아이디어들의 조합(combinations of existing ideas)..."[2]이라는 것이며, 교차성(intersectionality)은 이전에 결합되지 않았던 아이디어들이 서로를 발견할 가능성을 높여줍니다.
학문적 교차성(Disciplinary intersectionality)은 의학교육에서 새로운 개념이 아닙니다. 이 분야는 광범위한 학문 분야의 아이디어, 철학, 방법론에 의해 깊이 형성되어 왔습니다.[3] 예를 들어, 의학교육은 질 향상(quality improvement, 예: 개선 모델, 린, 6시그마)[4], 항공 안전(aviation safety)[5], 다양성/형평성/포용성(diversity/equity/inclusion)[6], 코칭 운동(coaching movements)[7] 등의 아이디어를 흡수해 왔습니다. 이 논문에서 우리는 PE를 추구함에 있어 현대 프로 스포츠 분석(professional sports analytics) 및 기술로부터 통찰력을 얻어, 평가 업무가 어떻게 메디치 효과를 활용할 수 있는지 탐구합니다.
프로 스포츠로부터 배우는 사례 (The Case for Learning From Professional Sports)
의학교육은 의료팀의 리더이자 구성원으로서 안전하고 질 높은 진료를 제공하는 의사를 양성하고자 합니다.[8,9] 프로 스포츠 팀은 높은 성과를 내는 팀(high-performing teams)을 구성하기 위해 선수 선발과 개발을 통해 개인의 잠재력을 극대화합니다. 두 분야 모두 다중 모드 전략(multimodal strategies)을 필요로 하는 복잡한 구성 개념(complex constructs)을 평가하지만, 고부담 결정(high-stakes decisions)을 내리기 위해 개인의 성과 평가에 크게 의존합니다.
- 의학교육은 개인의 역량(individual competencies, 예: 의학 지식, 환자 진료, 직종 간 의사소통)[10], 신뢰성(trustworthiness)[11], 적응적 전문성(adaptive expertise)[12]을 평가합니다.
- 스포츠 팀은 운동 능력, 기술, 투지(grit), 지능, 팀워크를 평가합니다.
두 분야 모두에서 이러한 구성 개념들은 무형적이고, 복잡하며, 다면적일 뿐만 아니라 팀 내에서 일하는 개인(즉, 수련생 또는 선수)을 포함하기 때문에, 성과의 원인을 단일 수련생이나 선수에게 돌리는 것(attribution of outcomes)이 어렵습니다. 의학교육에서는 팀 기반의 임상 진료와 복잡한 시스템 요인들로 인해 대부분의 환자 결과(patient outcomes)를 단일 개인에게 온전히 귀속시키는 것이 불가능합니다.[13] 마찬가지로 스포츠에서도 대부분의 관찰 가능한 결과는 여러 인과적 투입 요소(causal inputs)를 가지고 있어 단일 선수에게 귀인(attribution)하는 것을 어렵게 만듭니다.
두 분야가 성과 평가와 관련하여 여러 유사점을 공유하고 있지만(표 1 참조), 프로 스포츠는 창의적인 혁신과 개선을 위해 거의 무제한에 가까운 자원을 보유했던 반면[14,15], 의학교육 연구는 종종 자금 부족으로 제약을 받습니다.[16,17] 프로 스포츠에서 선수 평가가 어떻게 진화했는지 살펴보는 것은 의학교육의 현재 및 잠재적인 미래 평가 전략에 대한 거울이자 수정구슬(mirror and a crystal ball) 역할을 합니다.

표 1 - 의학교육과 프로 스포츠 평가의 수렴 및 발산 주제 (Convergent and Divergent Themes of Assessment in Medical Education and Professional Sports)
| 주제 | 의학교육 (Medical education) | 프로 스포츠 (Professional sports) |
| 수렴하는 주제 (Convergent themes) | ||
| 발전 목표 (Developmental goal) | 안전하고 질 높은 진료를 제공할 수 있는 의사 배출; 학습자의 성장 마인드셋(growth mindset) | 높은 성과를 내는 팀에 기여할 수 있도록 선수 선발 및 개발을 통해 개인의 잠재력 극대화; 선수의 성장 마인드셋 |
| 평가 구성 개념 예시 (Example assessment constructs) | 의학 지식, 의사소통, 신뢰성, 적응적 전문성 | 지능, 팀워크, 운동 능력, 기술, 투지 |
| 귀인과 기여의 난제 (Challenges with attribution and contribution) | 수련생은 팀, 시스템, 사회 및 환자 요인의 영향을 받는 결과와 함께 다직종 팀에서 근무함 | 선수는 팀, 상대방, 경기 상황 및 환경 요인의 영향을 받는 결과와 함께 팀 내에서 정의된 역할을 수행함 |
| 발산하는 주제 (Divergent themes) | ||
| 궁극적 목표 (Ultimate goal) | 정의하기 어렵고, 맥락 의존적이며, 동시에 여러 목표가 존재함 | 정의하기 쉽고, 맥락 전반에 걸쳐 목표가 일관됨 |
| 평가자 전문성 (Rater expertise) | 가변적임. 임상가는 팀 리더, 코치, 스카우트(평가자) 역할을 동시에 수행함 | 높음. 전문 스카우트가 전문 평가자임 |
| 데이터 보안 (Data security) | 환자 및 학습자 성과 정보에 대한 엄격한 규제 | 성과가 공개적으로 이용 가능하며 논의됨 |
프로 스포츠와 의학교육에서 성과 평가의 진화 (The Evolution of Performance Assessment in Professional Sports and Medical Education)
우리는 관찰, 통계 분석 및 기술의 발전을 보여주는 선수 평가 진화의 사례 연구로서 북미의 메이저 리그 베이스볼(MLB)을 살펴볼 것입니다. MLB는 다른 많은 스포츠보다 앞서 새로운 접근 방식을 수용하며 선수 평가 측면에서 선구자였기 때문에 이를 선택했습니다. 그러나 유사한 진화가 모든 수준(대학, 프로, 국제)과 모든 성별의 스포츠에서 일어났습니다.
관찰(스카우팅) 시대 (The Observation (Scouting) Epoch)
프로 야구 초창기에는 선수 평가가 MLB 팀에 고용된 스카우트(scouts)라고 불리는 훈련된 관찰자의 주관적 판단(subjective judgments)에 크게 의존했습니다. 스카우트들은 실제 경기에서 선수를 지켜보고 속성, 기술, 그리고 직업 윤리(work ethic), 리더십, 투지(grit)와 같은 무형의 요소를 평가하기 위해 광범위하게 이동했습니다.[18] 정규 시즌 경기가 전국적으로 방송되기 시작한 1953년부터 스카우트들은 같은 목적으로 MLB 경기 녹화본을 검토하기도 했습니다. 이러한 형태의 관찰 평가는 선수의 능력에 대한 어느 정도의 이해를 제공한다는 점에서 가치가 있었지만, 인간의 판단(human judgment)에 흔한 편향과 결함 있는 평가에 취약했습니다. 명백히 잘못된 스카우팅 리포트를 근거로 초기 경력에서 외면당했던 명예의 전당 헌액 선수들의 사례는 무수히 많습니다.
스카우팅 시대는 타율(batting average)이나 투수 방어율(earned run average)과 같이 경기 중에 발생하는 결과를 정량화하는 기초적이고 포착하기 쉬운 통계(basic, easy-to-capture statistics)에 의존했습니다(표 2 참조). 이러한 통계는 100년도 더 전에 개발되었으며, MLB의 궁극적 목표인 미래의 선수 성과나 팀 승리를 예측하는 데 있어 각 지표의 유용성에 대한 타당도 근거(validity evidence)가 거의 없는 경우가 많았습니다.[18] 이러한 지표들은 경기 상황(예: 타자가 주자가 있는 상태에서 타석에 들어서는 기회), 구장 효과(ballpark effects), 다른 선수의 성과가 미치는 영향(예: 수비수의 능력)과 같이 결과에 영향을 미치는 무수한 맥락적 요인(contextual factors)들을 무시했습니다. MLB 통계 지표의 전체 목록은 https://www.mlb.com/glossary 에서 확인할 수 있습니다.

표 2 - 선수 평가를 개선한 2가지 고전 야구 지표와 2가지 세이버메트릭스 접근법의 비교 (A Comparison of 2 Classic Baseball Metrics With 2 Sabermetric Approaches That Improved Player Assessment)
| 고전 지표 (Classic metric) | 조작적 정의 (Operational definition) | 한계점 (Limitations) | 개선된 세이버메트릭스 접근법 (Improved sabermetric approach) | 조작적 정의 (Operational definition) | 고전 지표 대비 장점 (Advantage over classic metric) |
| 타율 (Batting average, BA) | 안타 수 / 총 타수 | 볼넷이나 몸에 맞는 공 등 선수가 출루할 수 있는 다른 방법의 가치를 고려하지 않음. 또한 일부 안타(예: 홈런)가 다른 안타(예: 단타)보다 더 가치가 있음에도 모든 안타를 동일하게 평가함. | 출루율 (On base percentage, OBP) | 출루 횟수 / 총 타석 수 | 안타 이외의 수단으로 출루하는 것의 가치를 고려함. |
| 방어율 (Earned run average, ERA) | 투수가 9이닝당 허용하는 평균 자책점 | 팀 수비의 질과 같이 실점에 기여하는 맥락적 요인을 고려하지 않음. | 수비 무관 투구 (Fielding independent pitching, FIP) | 삼진, 볼넷, 몸에 맞는 공, 홈런만을 기반으로 한 방어율 추정치 | 팀 수비의 질이 미치는 영향을 제거함. |
현재 의학교육은 MLB의 스카우팅 시대와 매우 유사하게 직무 기반 평가(workplace-based assessment, WBA) 형태의 관찰 데이터에 크게 의존하고 있습니다.[19,20] 평가자들은 임상 업무 중인 수련생을 관찰하고 서술형 코멘트와 함께 미리 정해진 척도(scales)를 사용하여 점수를 매깁니다. 결과적으로, 이러한 척도의 점수들은 평가자 전반에 걸쳐 합산되어 전체적인 성과에 대한 대략적인 추정치를 제공합니다. WBA는 실제 임상 업무 중에 성과를 평가한다는 장점이 있지만, 초기 야구와 마찬가지로 종종 가변적인 평가자 준거 틀(variable rater frames of reference)을 가진 몇 가지 광범위하고 대표성이 부족한 지표에 초점을 맞춥니다.[21,22] MLB 스카우트들은 전문적으로 훈련받고 직접 또는 비디오로 경기를 관찰하는 반면, 의학교육의 WBA는 직접적인 수련생 관찰 부족(lack of direct trainee observation)[23], 불일치하거나 비효과적인 평가자 훈련[24], 또는 암묵적 편향(implicit bias)[6]으로 인해 어려움을 겪을 수 있습니다. 그럼에도 불구하고, WBA는 의학교육의 프로그램적 평가(programmatic assessment)에서 중요한 부분으로 남아 있습니다.
분석(세이버메트릭스) 시대 (The Analytics (Sabermetrics) Epoch)
1970년대는 MLB에 세이버메트릭스(sabermetrics)라 불리는 고도화된 분석이 도래한 시기였습니다. 이 용어는 이 운동의 선구자인 통계학자 빌 제임스(Bill James)가 만들었으며, 책과 이후 영화로 제작된 『머니볼(Moneyball)』[25]을 통해 대중화되었습니다. 세이버메트릭스는 기존 데이터를 사용하여 어떤 통계가 선수 평가에 가장 유용한지 경험적으로 식별하고, 어떤 선수가 팀 승리라는 궁극적인 목표에 기여했는지 결정했습니다. 스카우팅 시대와 동일한 관찰 결과 데이터가 사용되었지만, 이러한 데이터를 분석하는 새로운 방법(novel methods)은 새로운 통찰력을 제공했습니다(표 2 참조). 세이버메트릭스는 개별 선수 평가에 대한 더 정밀한 접근 방식으로 이어져 팀의 승리 경쟁 능력을 향상시켰습니다.[25]
의학교육은 이제 막 더 발전된 학습 분석(learning analytics, LA)을 수련생 평가에 적용하기 시작했지만, 이러한 접근 방식은 프로그램 전반에 걸쳐 여전히 상대적으로 드뭅니다.[26,27] 세이버메트릭스와 유사하게, LA는 어떤 유형의 데이터와 분석이 의미 있는 통찰력을 개발하는 데 가장 유용한지 명확히 합니다.[27] 예를 들어, LA는 평가자 성향, 순환 근무 순서, 또는 연중 시기와 같은 맥락적 요인이 점수에 어떻게 영향을 미치는지 이해하려고 노력함으로써 기존 WBA 데이터의 의미를 파악하는 데 도움을 줄 수 있습니다.[28,29] 머신 러닝 알고리즘과 자연어 처리(natural language processing)는 질적 평가 데이터의 신속한 분석을 가능하게 합니다.[30,31] 기존의 전자의무기록(EHR) 정보를 사용하여 수련생 평가를 위해 전공의 민감 질 지표(Resident-Sensitive Quality Measures, RSQMs)[32–35] 및 수련생 귀속 및 자동화 가능 실시간 진료 평가(Trainee Attributable and Automatable Care Evaluations in Real-time, TRACERs)[36]와 같은 임상 진료 지표가 개발되고 있으며, 이는 학습에 정보를 제공하는 새로운 유형의 평가 데이터를 생성합니다. EHR 메타데이터(즉, 클릭 수, 클릭 패턴, 타임스탬프 등 임상의가 EHR을 사용하는 방식에 대한 정보)는 워크플로우 관행(workflow practices)에 대한 평가를 가능하게 할 수 있습니다.[37]
LA, RSQMs, TRACERs는 대부분의 프로그램에 이미 존재하는 데이터에서 가치를 찾기 위해 새로운 전략을 사용하며, 이는 MLB의 세이버메트릭스 시대에 얻은 발전과 유사합니다. 그러나 이러한 접근 방식은 여전히 성과 지표에서 귀인과 기여(attribution and contribution)의 문제를 해결해 나가는 과정에 있습니다.[13] WBA, RSQMs, TRACERs에서 등급(ratings)은 개별 수련생에게 귀속됩니다. 이상적으로 LA는 프로그램이 팀 성과와 궁극적으로는 환자 결과에 중요한 개별 수련생 성과의 측면에 대한 통찰력을 개발하도록 도와야 합니다.
기술(스탯캐스트) 시대 (The Technology (Statcast) Epoch)
MLB의 관찰 가능한 결과는 종종 맥락적 요인(예: 날씨, 구장 크기, 다른 선수의 기여)에 의존하며, 이는 의학 수련생의 임상 성과가 상호 의존적인 현상(interdependent phenomenon)인 것과 같습니다.[38,39] 팀들은 이러한 귀인/기여의 난제(attribution/contribution conundrum)를 해결하기 위해 새로운 선수 평가 전략을 모색했고, 다음 단계의 도약은 다른 분야의 기술 혁신을 채택함으로써 메디치 효과의 또 다른 사례와 함께 이루어졌습니다. 2003년 덴마크의 Trackman이라는 회사는 이전에 발사체 무기를 추적하는 데 사용되었던 군사 기술을 기반으로 골프 스윙과 공의 궤적을 분석하는 방법을 개발했습니다. 이 기술은 빠르게 MLB로 확산되었습니다. 2006년 Sportvision은 유사한 기술을 사용하여 PITCHf/x를 개발했는데, 이는 MLB 포스트시즌에서 투구의 궤적, 속도, 회전수(spin rate), 브레이크(즉, 수직 및 수평 움직임), 위치를 추적할 수 있었습니다.
PITCHf/x는 타자, 수비수, 경기 상황의 영향을 받는 플레이 결과와 독립적으로 투수의 성과를 더 깊이 이해할 수 있게 해주었습니다. 처음으로 팀들은 투수가 효과적인 공(예: 높은 구속, 정확한 위치 및 움직임)을 던졌지만 나쁜 결과(예: 안타)를 얻었을 때를 측정할 수 있었는데, 이는 원치 않는 결과에도 불구하고 높은 성과(high performance)를 반영하는 것입니다. 즉, PITCHf/x는 개인에게 고도로 귀속될 수 있는 행동을 측정함으로써 선수 성과의 여러 측면을 팀이나 맥락 효과로부터 분리(disentangled)해냈습니다.
2000년대 후반, 분석가들은 타자의 타구 속도(exit velocity), 발사 각도(launch angle) 및 야수(position players)를 위한 기타 타격 데이터를 유사하게 추적할 수 있었습니다. 2015년 MLB는 모든 경기장에 스탯캐스트(Statcast)라는 새로운 시스템을 설치했습니다. 스탯캐스트는 도플러 레이더와 고화질 비디오를 사용하여 경기장에서 선수와 물체의 물리적 움직임과 관련된 10가지 변수[40]를 측정했습니다. 배트 속도, 전력 질주 속도, 반응 속도와 같이 고도로 귀속 가능한 선수 성과(highly attributable player performance)에 대한 정확한 측정은 이전 시대의 고도화된 분석 접근 방식과 결합되어 전례 없는 선수 성과 평가로 이어졌습니다.[41] 팀들은 더 이상 수비 위치 선정, 구장 크기, 날씨 조건과 같은 교란 변수(confounders)가 선수의 성과 여부를 흐릴 때 플레이 결과(예: 안타 또는 아웃)에 의존할 필요가 없게 되었습니다. 예를 들어, 어떤 선수가 90%의 구장에서는 홈런이 될 만큼 강하게 공을 쳤지만, 우연히 기상 조건이 나쁜 큰 구장에서 경기하고 있을 수 있습니다. 이것은 훌륭한 선수 성과이지만, 상황에 따라 그 성과가 홈런이 아닌 아웃이라는 결과로 이어질 수 있습니다.
즉, 스탯캐스트와 고도화된 분석은 고도로 귀속 가능한 데이터의 정밀도와 밀도(precision and density)를 향상시킴으로써 평가 중 맥락(context)과 비선수 변수(즉, 교란 변수)의 영향을 이해할 수 있게 해줍니다. 그러한 데이터는 매우 세분화되고 정밀하지만, 단 하나의 데이터 포인트가 선수에 대한 전체 진실을 말해주지는 않습니다. 그러나 서로 다른 성과 측면에 대한 대량의 데이터를 결합하여 성과에 대한 더 상세한 그림을 그릴 수 있습니다. PE는 의학 수련생을 위해 유사한 방식으로 기술을 활용할 기회를 제공하며, 다음 섹션에서는 이것이 어떻게 전개될 수 있는지 탐구합니다.
정밀 교육: 의학교육의 스탯캐스트를 발전시키는 엔진 (Precision Education: The Engine for Advancing Medical Education’s Statcast)
그렇다면 평가에 대한 접근 방식을 발전시키기 위해 스포츠의 교훈을 활용하는 PE 시스템을 어떻게 설계해야 할까요? 어떻게 의학교육의 스탯캐스트를 구축할 수 있을까요? 강조했듯이, 데이터 수집 방법(methods of data acquisition)을 발전시키는 것이 핵심이 될 것입니다. MLB가 새로운 데이터 수집 방법을 찾아낸 것처럼, 우리도 환자 진료와 결과에 대한 기여도와 관련하여 유사하게 의미 있는 개인 수준의 데이터(individual-level data)를 식별해야 합니다(표 3). 지도 원칙으로서, 우리는 쉽게 찾을 수 있는 데이터를 사용하는 것에서 학습자와 환자에게 진정으로 중요한 데이터(data that truly matter)를 사용하는 것으로 나아가야 합니다.

표 3 - 의학교육과 메이저 리그 베이스볼 평가의 3가지 시대별 이점, 함정 및 예시 (Benefits, Pitfalls, and Examples in the 3 Epochs of Assessment of Medical Education and Major League Baseball)
| 시대 (Epoch) | 이점 (Benefits) | 함정 (Pitfalls) | 의학교육의 예시 (Examples in medical education) | 야구의 예시 (Examples in baseball) |
| 1. 관찰 (Observation) | • 단순하고 즉시 사용 가능 • 다양한 출처와 관점 가능 |
• 평가자 편향 • 제한된 평가 범위 • 제한된 객관적 지표 • 평가자 업무량 |
• 직무 기반 평가(WBA) | • 스카우팅 • 경기 필름 |
| 2. 분석 (Analytics) | • 증거 기반 및 목표 지향적 • 객관적이고 정량화 가능 • 이론에 기반함 |
• 신뢰할 수 있는 대량의 데이터 필요 • 무형의 요소를 포착하기 어려움 |
• 학습 분석(LA) • RSQM • TRACERs • EHR 메타데이터 |
• OBP (출루율) • 장타율 (Slugging percentage) • WAR (대체 선수 대비 승리 기여도) |
| 3. 기술 (Technology) | • 기초 기술(fundamental skills) 평가 • 외부 요인의 교란 감소 • 맥락적 수정 변수를 고려하면서 개인에게 직접 귀인 가능 |
• 신뢰할 수 있는 대량의 데이터 필요 • 무형의 요소를 포착하기 어려움 • 기술 비용 • 추가 훈련 필요 |
• 오디오/비디오 녹화 • 웨어러블 기기 • 모션 캡처 기술 |
• 투구 회전수 (Pitch spin rate) • 타구 발사 각도 (Hit launch angle) • 선수 전력 질주 속도 (Player sprint speed) |
약어: RSQM, resident-sensitive quality measures (전공의 민감 질 지표); TRACERs, trainee attributable and automatable care evaluations in real-time (수련생 귀속 및 자동화 가능 실시간 진료 평가); OBP, on-base percentage (출루율); WAR, wins above replacement (대체 선수 대비 승리 기여도); EHR, electronic health record (전자의무기록).
술기 능력(procedural skills)의 평가는 스탯캐스트와 의학교육 사이의 명백한 번역 지점입니다. 수술 성과를 측정하는 기술은 OR 블랙박스(OR Black Box)[42]와 같이 이미 존재합니다.
- 이 시스템은 시청각 정보(예: 수술실 내 비디오, 복강경, 로봇, 조명 장착 또는 웨어러블 카메라를 통해 수집된 체내 비디오), 환자와 의료 전문가 모두의 생리학적 파라미터, 그리고 다수의 다른 센서 및 장치와 같은 여러 수술 중 데이터 소스를 지속적으로 획득하고 동기화합니다.
- 이러한 데이터를 통해 팀은 수술 단계, 방해가 되는 환경 및 조직적 요인, 팀의 기술적 및 비기술적 술기(technical and nontechnical skills), 외과의사의 생리학적 스트레스, 수술 중 오류 및 사건을 검토할 수 있습니다.
- 예를 들어, 한 연구에서는 대부분의 복강경 수술 오류가 수술 과제를 수행할 때 불충분한 힘을 가하거나 목표 조직까지의 거리를 과소평가했기 때문에 발생했다는 것을 발견했습니다.[43] 다른 연구들은 리더십 스타일, 팀워크, 의사소통 행동, 의사 결정과 같은 비기술적 술기를 평가할 수 있는 능력을 입증했습니다.[44,45] 이 예에서 수술팀은 환경 및 조직적 요인과 상호작용하면서 기술적 및 비기술적 술기와 관련된 실시간 데이터를 제공하는 무수한 입력값을 가진다는 점에서 MLB 팀과 유사합니다.
그러나 새로운 기술이 수술실이나 술기 평가에만 국한될 필요는 없습니다. 유사한 기술이 모든 교육 또는 임상 환경에서 구현될 수 있습니다.
- 인공지능(artificial intelligence) 및 대규모 언어 모델(large language models)과 같은 새로운 분석 방법을 통한 오디오 및 비디오 녹화는 모든 임상 진료(clinical encounter)에 대한 지속적이고 상세한 평가로 이어질 수 있습니다.[46,47]
- 웨어러블 기기와 모션 트래킹 시스템은 이전에는 상상할 수 없었던 방식으로 임상 워크플로우, 시술 성과, 미세한 신체 동작 및 효율성에 대한 데이터를 제공할 수 있습니다.[48–55]
- 시선 추적 기술(Eye tracking technology)은 수련생이 임상 데이터를 검토하거나, 방사선 사진 또는 심전도를 판독하거나, 시험을 치르는 방식을 평가할 수 있습니다.[56,57]
- 인간의 관찰에 의존하지 않는 이러한 컴퓨터 기반 평가는 선택적 주의(selective attention) 및 가변적인 평가자 전문성을 포함한 WBA의 한계를 해결할 가능성을 제공합니다.
과거의 MLB 팀들이 투구 회전수와 타구 속도를 실시간으로 정확하게 측정할 수 있는 세상을 상상할 수 없었던 것처럼, 우리도 모션 트래킹, 실시간 녹화, 인공지능이 의학교육에서 흔한 일이 되는 것을 상상하지 못할 수 있습니다. 뇌-컴퓨터 인터페이스(brain-computer interfaces)가 공상 과학 소설처럼 보일지 모르지만[58], 어쩌면 그것들도 머지않은 미래 의학교육의 스탯캐스트의 일부가 될지 모릅니다.[59–61]
플레이 직후, 프로 스포츠 선수들은 실시간으로 자신의 타격 자세, 발사 각도, 스윙 궤적, 타격 지점, 구장 정보를 검토하여 다음 타석을 개선할 수 있습니다. 유사한 온디맨드 데이터 분석(on-demand data analytics)이 소생술, 나쁜 소식 전하기, 또는 수술 사례 등 주어진 환자 진료 상황에서의 성과와 관련하여 의료 환경의 수련생과 개원의들에게 제공되어야 합니다. 언어의 명확성이나 공유 의사 결정(shared decision making)과 같은 의사소통 기술조차도 녹음 및 대규모 언어 모델 분석을 통해 실시간으로 평가 가능할 수 있습니다.[62] 데이터는 맥락에 맞게 조정되고 개인 또는 팀의 학습 목표에 집중될 수 있습니다. PE와 함께 스탯캐스트 같은 기술을 활용하면 실제 사례 수행(live case performance)의 실시간 데이터를 다음 소생술, 사례, 환자 진료 등을 위한 진료 개선에 사용할 수 있게 될 것입니다.
고도화된 분석과 새로운 기술이 의학교육 평가에 존재하는 모든 문제를 해결하거나 인간의 판단을 불필요하게 만들지는 않을 것입니다. 이는 세이버메트릭스와 스탯캐스트가 선수 평가의 모든 문제를 해결하거나 스카우팅을 없애지 못한 것과 같습니다. 평가 데이터의 통합과 건전한 의사 결정은 수련생에 대한 방어 가능한 결정(defensible decisions)에 도달하기 위해 여전히 인간의 인지(human cognition)와 이론에 기반한 그룹 프로세스를 필요로 할 것입니다. 분석이든 새로운 기술이든 새로운 평가 전략은 그 사용으로 인한 해석과 결정에 대한 타당도 논거(validity arguments)를 필요로 할 것이며[63], 여기에는 그러한 접근 방식이 어떻게 형평성을 증진하고 편향을 최소화하는지에 대한 증거가 포함됩니다.[64] 학습자, 프로그램, 환자를 포함한 모든 이해관계자에 대한 후속 결과(Downstream consequences)도 그러한 타당도 논거에 포함되어야 합니다.[65]
유추의 제약 (The Constraints of Analogy)
모든 유추에는 위험이 따르며[66], 우리는 우리의 유추가 어디에서 깨지는지, 그리고 이러한 교차적 아이디어로부터 이익을 얻기 위해 무엇을 해야 하는지 검토해야 합니다.
- 관찰 평가를 사용할 때 평가자 전문성(Rater expertise)은 MLB와 의학교육 간에 크게 다를 가능성이 높습니다. 스카우트는 많은 양의 훈련을 받는 전문 평가자인 반면,
- 의학교육의 평가자는 반드시 평가에 대한 전문성을 기준으로 선택되는 것은 아닙니다.
- 스포츠에서는 궁극적인 결과로서의 승패가 명확한 반면, 의료는 결과가 최악에서 최선까지의 스펙트럼을 가지거나 결과에 대한 명확한 이해가 전혀 없는 경우와 대조됩니다.
- 예를 들어, 사망은 종종 나쁜 결과로 간주되지만, 많은 환자에게 삶의 마지막에는 양(quantity)보다 질(quality)이 더 중요합니다. 측정하기에 의미 있는 환자 및 학습자 결과가 무엇인지 결정하기 위해 많은 작업이 필요할 것입니다.
- 마지막으로, MLB 팀은 고정되고 일관된 규칙과 환경 세트를 가지고 있을 뿐만 아니라 일반적으로 재정 자원에 대한 보편적인 접근이 가능하여, 새로운 기술과 분석을 대규모로 구현하는 것이 더 실현 가능합니다.
- 대조적으로, 의학은 방대한 전문 분야, 임상 환경, 역량을 가지고 있으며 프로그램 전반에 걸쳐 자원이 불균일하여 새로운 접근 방식의 광범위한 구현과 검증을 매우 어렵게 만듭니다.
스포츠에서 선수들은 모든 수준에서 서로 경쟁하며, 오직 소수만이 정상에 오릅니다. 실제로, 고도화된 스포츠 분석의 가장 중요한 기능은 선택된 소수를 식별하는 것이라고 주장될 수 있습니다. 의학에서는 일단 학생들이 학교와 레지던트에 입학하면 훌륭한 진료를 생산하기 위해 협력(cooperation)의 가치를 두는 시스템에서 훈련받아야 하며, 데이터의 가장 중요한 목표는 모든 사람이 임상적으로 중요한 최소한의 기준을 충족하도록 보장하는 것이어야 합니다. 만약 우리가 세이버메트릭스 스타일의 접근 방식이나 햅틱 측정(haptic measures)을 의학에 도입한다면, 데이터를 사용하여 경쟁에서 협력으로(from competition to cooperation) 전환하고 학습자가 단순히 성과에 집중하기보다는 숙달(mastery)과 성장을 위해 데이터를 사용하도록 돕는 방법을 결정해야 할 것입니다. 마지막으로, 고도화된 분석과 세이버메트릭스는 아직 선수의 프라이버시나 성장 마인드셋에 대한 광범위한 우려를 촉발하지 않았습니다. 만약 첨단 기술이 의학교육에서 모든 말, 상호작용, 움직임을 모니터링한다면, 환자와 수련생의 프라이버시(privacy)를 보호하고 평가받는다는 압박감 없이 임상 실습을 할 수 있는 공간을 허용하기 위해 확실한 안전장치(guardrails)가 필요할 것입니다.
결론 (Conclusions)
MLB는 새로운 분석과 기술에 의해 주도되는 평가 접근 방식의 가속화를 겪었습니다. 의학교육은 PE의 비전을 보다 완전히 실현할 수 있는 기회와 함께 유사하고 전례 없는 가속화에 직면하고 있지만, 여전히 해야 할 일이 많습니다. 메디치 효과(Medici effect)를 활용하고 이미 평가와 사정에 새로운 분석 및 기술을 통합한 산업으로부터 배움으로써, 의학교육은 미래의 의사를 양성하기 위해 더욱 빠르게 혁신할 수 있습니다.
'논문 읽기 (with AI)' 카테고리의 다른 글
| 더 많고, 더 나은 피드백을 부탁해: 학습 분석 대시보드(LAD)는 사악한 문제에 대한 해결책인가? (Adv Health Sci Educ Theory Pract. 2025 ) (1) | 2025.11.22 |
|---|---|
| 정밀 교육의 현주소 조망: 실제 현장 사례를 통한 통찰 (Acad Med. 2024) (0) | 2025.11.22 |
| 정밀 의학 교육 (Acad Med. 2023) (0) | 2025.11.22 |
| 정밀 의학교육: 성공적인 이행을 위한 기관 전략 (Acad Med, 2025) (1) | 2025.11.22 |
| 머리말: 평가와 정밀 교육의 새로운 시대 (Acad Med, 2024) (1) | 2025.11.22 |