Overreliance on student satisfaction surveys in medical education: a call for reform in evaluation and accreditation practices 

Anthony R Artino, Jr, PhD , H Carrie Chen, MD, PhD , Sally A Santen, MD, PhD , Richard J Simons, MD , Jennifer G Christner, MD , Arianne Teherani, PhD

Academic Medicine, wvaf002, https://doi.org/10.1093/acamed/wvaf002

 

📝 강의 평가, 정말 믿을만할까요? 의과대학 평가 시스템에 대한 도발적인 제안

안녕하세요! 오늘은 의학 교육계에서 아주 뜨거운 감자인 주제, 바로 '학생 만족도 설문조사(Student Satisfaction Surveys)'와 '강의 평가(Student Evaluations of Teaching, SETs)'에 대해 이야기해 보려고 합니다. 의과대학에 계신 분들이라면 공감하실 거예요. 학생들은 쏟아지는 설문조사에 지쳐있고, 교수님들과 행정팀은 그 데이터를 분석하느라 바쁘죠. 우리는 흔히 "교육 수요자인 학생의 목소리가 정답이다"라고 생각합니다. 그런데 최근 발표된 한 학술적 관점(Scholarly Perspective) 논문에서는 이 믿음에 강력한 의문을 제기하고 있습니다.

 

과연 학생들의 '만족도'가 '좋은 교육'을 보장할까요? 함께 살펴보시죠! 👇


1. 설문조사의 늪에 빠진 의대생들 😵‍💫

우선 현실을 짚어볼까요? 의대생들은 재학 기간 동안 엄청난 양의 설문조사를 작성합니다. 연구진이 추산해보니, 학생 한 명이 4년 동안 무려 평균 64개의 설문조사에 참여하고, 여기에 쓰는 시간만 20시간에 달한다고 해요.

 

이러다 보니 '설문조사 피로(Survey Fatigue)'가 올 수밖에 없죠. 학생들은 내용을 대충 읽거나(rush through), 심지어 가상의 강사를 설문조사에 넣었더니 그 사람까지 평가해버리는(mindlessly complete) 웃지 못할 촌극이 빚어지기도 합니다.

2. 만족도가 높으면 정말 잘 가르친 걸까요? (Validity) 🚩

이 논문의 가장 핵심적인 지적은 바로 '타당도(Validity)' 문제입니다. 연구 결과들에 따르면, 강의 평가 점수(SET scores)와 실제 학생의 학습 성과(Learning Outcomes) 사이에는 상관관계가 매우 약하다고 해요. 오히려 학생들은 학점을 잘 주거나 내용이 쉬운 강의에 높은 점수를 주는 경향이 있습니다. 반대로, 학습 효과를 높이는 '바람직한 어려움(Desirable Difficulties)'이 있는 수업은 만족도가 낮게 나오기도 하죠.

 

연구진은 이 부분에 대해 아주 날카로운 지적을 합니다.

"학생들의 학습 인식에 기반하여 수업을 평가하려는 시도가 의도치 않게 열등한(수동적) 교수법을 조장할 수 있습니다."

"Attempts to evaluate instruction based on students’ perceptions of learning could inadvertently promote inferior (passive) pedagogical methods."

 

즉, 학생들이 "잘 배웠다"고 '느끼는 것'과 '실제로 배운 것'은 다를 수 있다는 겁니다. 소위 '스마일 시트(Smile Sheets)'가 되어버린 평가가 교육의 질을 떨어뜨릴 수도 있다는 무서운 경고죠.

3. 편향과 오류의 함정 (Bias & Flaws) ⚖️

더 큰 문제는 설문조사 자체가 가진 '체계적 편향(Systemic Bias)'입니다. 수많은 연구에서 강의 평가는 여성, 유색 인종, 소수자 강사에게 불리하게 작용한다고 입증되었습니다. 심지어 평가를 할 때 쿠키🍪를 주면 점수가 올라간다는 연구 결과도 있죠.

이런 불완전한 도구를 가지고 교수 승진(Faculty Promotion)이나 의학교육 인증(Accreditation) 같은 '고부담 결정(High-stakes Decisions)'을 내려도 되는 걸까요? 연구진은 단호하게 말합니다.

"이러한 평가들의 광범위한 사용이 고부담 결정에 쓰이는 것은 단순히 우려스러운 것을 넘어, 치명적인 결함이 있는 것일 수 있습니다."

"Their widespread use in high-stakes decisions is not just concerning, it may be fatally flawed."

4. 그렇다면 대안은 무엇일까요? (Alternatives) 💡

연구진은 학생 만족도 설문조사를 완전히 없애자고 하지는 않습니다. 하지만 그 비중을 확 줄여야 한다(Curtail)고 주장합니다. 대신 '프로그램적 평가(Programmatic Evaluation)'로 나아가야 한다고 제안해요.

여기에는 다음과 같은 대안들이 포함됩니다:

  • 동료 수업 참관 (Peer Observations of Teaching)
  • 수업 자료 리뷰 (Reviews of Teaching Materials)
  • 소규모 포커스 그룹 (Focus Groups)
  • 학습 중심 척도 (Learning-focused Measures)

그리고 학생 설문조사의 역할에 대해서는 이렇게 재정의합니다.

"학생 만족도 설문조사는 공식적인 교수 효과성 등급을 위한 기회라기보다는 학생 피드백을 위한 기회로 프레임되어야 합니다."

"Student satisfaction surveys should be framed as an opportunity for student feedback, rather than an opportunity for formal ratings of teaching effectiveness."

🔚 마치며: 이제는 바뀔 때가 되었습니다

학생들을 행복하게 만드는 것이 교육의 목표는 아닙니다. 때로는 힘들고 어렵더라도 '심층 학습(Deep Learning)'을 이끌어내는 것이 진짜 교육이겠죠. 우리는 지난 50년간의 연구 결과에 귀를 기울여야 합니다. 낡은 습관처럼 굳어진 설문조사 만능주의에서 벗어나, 조금 더 공정하고 타당한 평가 시스템을 고민해볼 시점입니다.

마지막으로 연구진의 강력한 제언을 인용하며 글을 마칩니다.

"학생 학습 및 경력 성공에 초점을 맞춘 기관들은 교수진의 교수 효과성 척도로서 SET 등급을 폐기하기를 원할 수 있습니다."

"Institutions focused on student learning and career success may want to abandon SET ratings as a measure of faculty’s teaching effectiveness."

 


 

의학 교육(Medical education)에서, 학생 피드백(student feedback)은 교육 프로그램의 질(quality of educational programs)을 평가(evaluating)하는 데 있어 필수적인 요소(essential component)입니다. 여기에는 교수(teaching), 교육과정(curricula), 그리고 전반적인 교육적 경험(overall educational experience)의 질이 포함됩니다. 그 전제(premise)는 간단합니다: 교육 서비스의 일차적인 수혜자(primary recipients)인 학생들은 무엇이 효과적이고(what works) 무엇이 그렇지 않은지(what does not)에 대한 통찰(insights)을 제공할 수 있는 독보적인 위치(uniquely positioned)에 있다는 것입니다. 이러한 논거(rationale)는 강의 평가(student evaluations of teaching, SETs)를 포함한 다양한 학생 만족도 설문조사(student satisfaction surveys)의 광범위한 사용(widespread use)으로 이어졌습니다.

  • 시간이 지남에 따라, 이러한 만족도 설문조사들은 일상적인 과정 및 프로그램 평가(routine course and program evaluations)뿐만 아니라, 교수 승진(faculty promotion, 많은 학구적 환경(academic settings) 전반에 걸쳐)이나 MD 학위로 이어지는 의학 교육 프로그램의 인증(accreditation of medical education programs)과 같은 고부담 영역(high-stakes areas)에서도 중심적인 역할(central role)을 맡게 되었습니다.
  • 예를 들어, 현재 미국의 의과대학을 인증(accredits)하는 의학교육 인증위원회(Liaison Committee on Medical Education, LCME)는 의대생 피드백(medical student feedback)을 강조합니다. LCME는 표준 8.5(Standard 8.5)의 일부로서 다양한 데이터 소스(multiple data sources)를 통한 학습 환경(learning environment) 및 교육과정(curriculum)의 평가를 의무화(mandates)하고 있지만, 학생 피드백 설문조사(student feedback surveys)에 불균형적인 비중(disproportionate emphasis)을 두고 있습니다.

학생 설문조사에 대한 이러한 과도한 의존(overreliance)은 우려스러운 일인데(concerning), 왜냐하면 이러한 (대체로 정량적인) 자기보고식 도구(self-report instruments)들은 경력(careers)과 기관(institutions)을 좌우할 수 있는 결정(decisions)의 무게를 감당하도록 설계된 적이 없기 때문입니다.

 

이 학술적 관점(Scholarly Perspective)에서, 우리는 Ginsburg와 Stroud의 최근 논평(commentary)을 확장하여(expand on), 학생 만족도 설문조사가 목적에 부합해야 한다(fit for purpose)고 주장합니다. 특정 맥락(contexts)에서 일부 목적(some purposes)을 위해 유용할 수는 있지만, 만족도 설문조사는 특히 의과대학 평가(evaluation) 및 인증 과정(accreditation processes)에서 남용되고(overused) 지나치게 의존(overly relied on)되고 있습니다. 게다가, LCME와 같은 곳에서 사용하는 인증 기준(accreditation standards)이 학생 피드백을 통합(integrate)하려는 선의의 노력(well-intentioned efforts)을 반영하고 있음에도 불구하고, 오랫동안 축적된 그리고 더 최근의 증거(evidence)들은 교육학 연구(educational research)의 발전(advances)에 더 잘 부합(align)하도록 평가 관행(evaluation practices)의 진화(evolution)를 요구하고 있습니다. 요약하자면, 학생 만족도 설문조사는 내재된 편향(inherent biases)을 보이며, SETs(강의 평가)의 경우 실제 교수 및 학습 성과(actual teaching and learning outcomes)와의 상관관계가 약하여(weak correlations), 중요한 교육적 결정(important educational decisions)을 내리는 데 있어 빈약한 토대(poor foundation)가 됩니다.

 

의과대학 리더(medical school leaders)이자 연구자(researchers)로서의 우리의 관점(perspectives)에서, 우리는 의학 교육에서 학생 만족도 설문조사의 역할(role)을 재고(reconsider)할 때가 되었다고 믿습니다. 이 주장(claim)을 뒷받침하기 위해, 우리는 의대생 만족도 설문조사 사용의 현재 관행(current practices)에 대한 개요(overview)를 제공하고, 이러한 설문조사들의 타당도 증거(validity evidence)를 간략히 검토(briefly review)하며, 고부담 적용(high-stakes applications)에서의 사용을 논의하고, 대안적 접근법(alternative approaches)에 대한 권고(recommendations)로 결론을 맺습니다. 우리의 목표는 학생 피드백의 중요성(importance)을 깎아내리는 것(diminish)이 아니라, 진화하는 증거(evolving evidence)와 현대의 교육적 우선순위(contemporary educational priorities)를 더 잘 반영하도록 수정(modifications)을 제안하는 것입니다. 추가적인 문헌(literature)을 통합하고 인증 관련 구체적 과제(accreditation-specific challenges)를 다룸으로써, 우리의 관점은 Ginsburg와 Stroud의 통찰(insights)을 보완(complements)하고 확장(extends)하며, 의학 교육의 평가 관행을 개선하기 위한 실행 가능한 권고안(actionable recommendations)을 제공합니다.

학생 만족도 설문조사에 대한 과도한 의존 (Overreliance on student satisfaction surveys)

의과대학과 인증 기관(accrediting agencies)으로부터의 학생 피드백에 대한 끊임없는 요구(constant demand)가 있으며, 이는 이미 스트레스를 받고(under stress) 의학 수련(medical training)의 강도 높은 요구(intense demands)와 씨름하고 있는(grappling with) 의대생들에게 상당한 부담(significant burden)을 지우고 있습니다. 과정 종료(end-of-course) 및 임상 실습 평가 설문조사(clerkship evaluation surveys)에서부터 국가 벤치마킹 설문조사(national benchmarking surveys, 예: 미국 의과대학 협회[AAMC] 입학생 설문조사[Matriculating Student Questionnaire], 2학년 설문조사[Year Two Questionnaire], 졸업 설문조사[Graduation Questionnaire, GQ])에 이르기까지, 의대생들은 자신들의 교육의 거의 모든 측면(almost every aspect)을 평가하도록 요청받습니다. 우리는 우리 6개 의과대학의 4년 과정 동안 완료된 학생 만족도 설문조사의 총수를 추산(estimated)해 보았는데, 학생들은 재정 지원(financial aid)이나 학생처(student affairs)와 같은 부서의 설문조사를 포함하지 않고도, 의과대학 재학 중 평균 64개의 설문조사—거의 20시간 분량(nearly 20 hours’ worth)—에 참여하는 것으로 나타났습니다. 뉴질랜드 의대생들을 대상으로 한 최근 연구(recent study)에서, 두 코호트(cohorts)는 단일 학년도(one academic year alone)에 각각 42개와 34개의 설문조사 평가 요청(survey evaluation requests)을 받았다고 보고했습니다. 이러한 유형의 설문조사 남용(survey overuse)은 피드백이 가치 절하되는(devalued) 문화를 조장할 위험(risks fostering a culture)이 있습니다. 만약 모든 학생 경험(every student experience)이 평가 대상이 된다면, 개별 평가(individual evaluation)의 중요성은 희석되고(diluted), 학생과 교수진 모두 이러한 설문조사를 개선을 위한 의미 있는 도구(meaningful tools for improvement)가 아닌 관료적 장애물(bureaucratic hurdles)로 여기기 시작하는 상황으로 이어지게 됩니다.

 

학생 만족도 설문조사의 엄청난 양(sheer volume)은 광범위한 설문조사 피로(survey fatigue)로 이어졌습니다. 이러한 피로는 결과적으로 전체 응답률(overall response rates)뿐만 아니라 제공된 응답의 질(quality of the responses)을 떨어뜨릴(diminish) 수 있습니다.

  • 학생들은 평가를 서둘러 끝내거나(rush through), 피상적인 피드백(superficial feedback)을 주거나, 항목을 아예 건너뛸(skip items altogether) 수 있습니다.
  • 그 최종 결과(end result)는 종종 불완전하고(incomplete), 일관성이 없거나(inconsistent), 진정한 학생 정서(true student sentiment)를 대표하지 못하는(unrepresentative) 데이터가 되어, 가치 있고 타당한(valuable and valid) 학생 피드백을 수집하려는 의도(intentions)를 약화시킵니다(undermining).

설문조사 완료 관행(survey completion practices)에 대한 독특한 연구에서, Uijtdehaage와 O’Neal은 2개의 임상 전 과정(preclinical courses)에 가상의 강사(fictitious lecturers)를 의도적으로 포함시켰는데, 대부분의 학생들이 이 가짜 강사들을 평가했다는 사실을 발견했습니다. 저자들은 “많은 의대생들이 그들이 누구를 평가하고 있는지에 대한 주의 깊은 고려(careful consideration) 없이, 그리고 그 교수 구성원이 어떻게 수행했는지에 대해서는 더더욱 고려하지 않고, 아무 생각 없이(mindlessly) SETs를 작성한다고 결론지었습니다.

 

학생 설문조사에서 수집된 방대한 데이터(reams of data)는 의학 교육을 피드백이 어디에나 존재하지만(omnipresent) 종종 놓치거나 무시되는(missed or ignored) 환경으로 변화시켰습니다. 끝없는 설문조사 주기(endless survey cycles)는 적절히 분석되거나(adequately analyzed), 충분히 고려되거나(fully considered), 적절하게 조치되지(appropriately acted on) 않는 데이터를 점점 더 많이 생성합니다. 우리 자신의 기관 내에서, 각 평가 부서(offices of evaluation)는 학생 만족도 설문조사를 시행(administering)하고 분석하는 데 매년 수백 시간을 소비하지만, 이러한 결과는 교육과정 회의(curriculum meetings) 중 교수진과 행정가들에 의해 종종 피상적인 방식(cursory manner)으로만 제시되고 논의됩니다. 이러한 데이터가 더 자세히 검토될 때, 종종 더 많은 질문(more questions)으로 이어져 설문조사를 통한 추가적인 데이터 수집(additional data collection)을 촉발합니다. 궁극적으로, 방대한 양(vast amounts)의 학생 설문조사 데이터를 수집하는 것은, 일부는 비건설적인(unconstructive) 학생 피드백의 바다(sea of student feedback) 속에서 가장 중요한 문제(most critical issues)를 가려버릴(obscuring) 위험이 있습니다.

SETs에 대한 약한 타당도 증거 (Weak validity evidence for SETs)

학생 만족도 설문조사에 대한 중대한 비판(significant criticism)은 그들의 정량적 점수(quantitative scores)가 타당도(validity)가 결여되어 있다는 것입니다. 특히, 강의 효과성(teaching effectiveness)을 측정하기 위해 설계된 특정 유형의 만족도 설문조사인 SETs는 타당도 문제(validity problems)에 특히 취약합니다(vulnerable). 수십 건의 연구(dozens of studies)에서 SET 점수가 학생 학습 성과(student learning outcomes)와 상관관계가 약하거나(correlate weakly), 전혀 없다(if at all)는 것을 발견했습니다. 어떤 경우에는, 더 높은 SET 점수가 학생들이 더 적은 노력(less effort)으로 더 좋은 학점(better grades)을 받는 덜 엄격한 과정(less rigorous courses)과 연관되어 있습니다. 사실상(in effect), 학생들은 쉬운 과정(easy courses)과 관대하게 채점하는(grade leniently) 교사에게 더 높은 SET 점수로 보상(reward)할 수 있으며, 따라서 열등한 교수 관행(inferior teaching practices)과 학점 인플레이션(grade inflation)을 장려하게 되는데, 이는 임상 실습 채점(clerkship grading)에서 심각한 문제로 확인된 바 있습니다. 이러한 발견은 강의(그리고 궁극적으로 학습) 효과성을 측정하도록 의도된 SETs가 진정한 교육적 질(true educational quality)보다는 학생 만족도(student satisfaction, 즉 스마일 시트[smile sheets])를 더 반영할 가능성(likely more reflective)이 높음을 시사합니다. 그러나, 쉬운 과정에 대한 만족(satisfaction)이 훌륭한 수업(good instruction)과 같은 것은 아닙니다. 마찬가지로, 도전적인 과정(challenging course)에 대한 불만족(dissatisfaction)이 형편없는 수업(poor instruction)과 같은 것은 아닙니다. 사실, 고품질의 수업(high-quality instruction)은 종종 소위 바람직한 어려움(desirable difficulties)을 포함하는데, 이는 SET 점수를 낮출 수 있습니다. 예를 들어, Deslauriers와 동료들은 능동적 학습 환경(active learning environments)의 학생들이 수동적 강의 환경(passive lecture settings)의 학생들보다 더 많이 배웠지만, 수업(instruction)은 더 열등하다고 평가(rated as inferior)했음을 발견했습니다. 실제 학습(actual learning)과 인지된 학습(perceived learning) 사이의 이러한 불일치(mismatch)는 “학생들의 학습 인식(perceptions of learning)에 기반하여 수업을 평가하려는 시도가 의도치 않게(inadvertently) 열등한(수동적) 교수법(inferior [passive] pedagogical methods)을 조장할 수 있음”을 시사합니다.

 

Deslauriers와 동료들이 기술한 효과—학습에 대한 학생 만족도가 학습의 착각(illusion of learning)에 지나지 않을 수 있다는 생각—는 새로운 개념이 아닙니다. 1973년에, Naftulin 등은 카리스마 있지만 실속 없는 강의(charismatic yet nonsubstantive teaching)가 학생들을 만족스럽게 느끼게 하고(feel satisfied), 심지어 무의미한 내용(meaningless content)이 제시되었을 때도 배웠다고 믿게(believe they had learned) 만들 수 있다는 가설을 검증했습니다. 실제로, 그 연구 결과(findings)는 카리스마 있게 전달된 터무니없는 강의(nonsensical lectures)가 높은 만족도로 이어질 수 있음을 입증했으며, 이는 SETs가 본질(substance)보다는 스타일(style)을 더 반영할 수 있음을 강조합니다(underscoring). 저자들은 50년도 더 전에, 교수 및 학습 효과성(teaching and learning effectiveness)은 단순한 학생 만족도(mere student satisfaction)를 넘어서 평가되어야 한다고 결론지었습니다.

이러한 우려(concerns) 외에도, SETs는 의과대학 평가(medical school evaluation)에 특히 부적합할(particularly unsuited) 수 있습니다.

  • SETs는 독특한 커리큘럼 구조(unique curriculum structures, 예: 다중 강사 코스[multi-instructor courses], 팀 티칭[team teaching], 통합 교육과정[integrated curricula], 임상적 초점[clinical focus])를 가진 의과대학이 아니라, 교실 기반의(classroom-based) 고등 교육 목적(higher-education purposes)을 위해 처음 설계되었습니다.
  • 게다가, 설문조사의 익명성(survey anonymity)은 솔직한 피드백(honest feedback)을 장려하기 위한 것이지만, SETs와 함께 사용될 때, 특히 학생들이 자신의 성적(performance)이나 학점(grade)에 불만족할 때, 비건설적이고(unconstructive), 상처를 주며(hurtful), 심지어 보복적인 응답(vindictive responses)을 조장할 수도 있습니다.
  • 마지막으로, 의과대학 설문조사의 응답률(response rates)은 종종 상대적으로 낮아(< 70%), 전반적인 학생 정서를 포착하기보다는 가장 목소리 큰 학생들(most vocal students)의 견해(views)만을 반영할 수 있는 SET 점수의 대표성(representativeness)을 약화시킵니다.

SET 점수의 약한 타당도(weak validity)는 불편한 진실(uncomfortable truth)을 제기합니다: 이러한 평가 중 다수는 우리가 측정하고 있다고 생각하는 것을 측정하고 있지 않을 가능성이 높습니다(likely not measuring what we think they are measuring). 또한, 만약 SET 점수가 교수 및 학습 효과성의 타당한 지표(valid indicators)가 아니라면, 고부담 결정(high-stakes decisions)에서의 광범위한 사용은 단순히 우려스러운 것을 넘어, 치명적인 결함이 있는 것(fatally flawed)일 수 있습니다. 이러한 접근 방식은 인기(popularity)가 의도치 않게 교육적 엄격함(educational rigor)을 가리고(overshadow), 자원이 잘못 배분되며(resources may be misallocated), 심층 학습(deep learning)보다 학생 만족도가 우선시될(prioritized) 수 있는 시스템을 조장할 위험이 있습니다.

학생 만족도 설문조사의 조작, 설계 결함, 그리고 체계적 편향 (Manipulation, design flaws, and systemic bias in student satisfaction surveys)

약한 타당도 증거(weak validity evidence) 외에도, 일반적인 학생 만족도 설문조사(student satisfaction surveys), 특히 SETs(강의 평가)는 조작(manipulation)과 결함 있는 구성(flawed construction)에 취약합니다(vulnerable).

  • 설문조사 설계자(Survey designers)는, 의도적이든 의도적이지 않든(intentionally or unintentionally), 응답자(respondents)를 특정 답변(certain answers)으로 유도하는(push) 방식으로 질문과 응답 옵션(response options)을 구조화할 수 있습니다. 예를 들어, 모호한 진술(vague statement)에 동의하는지 학생들에게 묻는 것은 묵종 응답 편향(acquiescence response bias), 즉 내용(content)과 관계없이 진술된 어떤 주장이든 지지하는(endorse) 경향을 초래할 수 있습니다.
  • 이러한 관행(practices)은 궁극적으로 실질적인 의미(little practical meaning)가 거의 없는 부풀려진 동의 점수(inflated agreement scores)를 낳을 수 있습니다.
  • 또한, 설문조사가 시행되는 맥락(context)이 결과에 상당한 영향(significantly influence)을 미칠 수 있습니다. 평가 중에 쿠키를 제공하는 것과 같은 맥락적 요인(contextual factors)은 인위적으로 만족도 점수를 높일 수 있습니다(artificially boost).
  • 마지막으로, 여러 최상위권 의학 교육 저널(top-tier medical education journals)에 발표된 설문조사 도구(survey instruments)를 검토한 연구에서, Artino와 동료들은 95%가 설문조사 설계(survey design)에 있어 경험적으로 근거한 모범 사례(empirically grounded best practices)를 하나 이상 위반(violations)했음을 발견했습니다.

주목할 점은, 이 연구에서 확인된 결함(flaws)들이 출판된 설문조사(published surveys)에서 나온 것이라는 점인데, 이러한 설문조사들은 일반적으로 리뷰어와 편집자들에 의해 상당한 정밀 조사(substantial scrutiny)를 거치며, 의도된 용도(intended use)에 대한 타당도 증거와 함께 다양하게 출판됩니다. 의과대학 직원, 행정가, 또는 개별 교사(individual teachers)가 만든 설문조사는 품질이 훨씬 더 낮을 가능성(likely to be of even lower quality)이 높습니다. 이러한 문제들은 중요한 질문(critical questions)을 제기합니다: 의과대학에서 수집한 피드백 중 얼마나 많은 부분이 학생들의 교육적 경험(educational experiences)을 진정으로 반영하며, 얼마나 많은 부분이 결함 있는 설문조사 설계(flawed survey design)나 기타 외부 요인(extraneous factors)에서 기인하는가?

 

아마도 훨씬 더 문제가 되는 것(perhaps even more troubling)은 학생 만족도 점수에서의 체계적 편향(systemic bias)에 대한 증거입니다. 경험적 문헌(empirical literature)은 수업의 질(instructional quality)이나 교수 효과성(teaching effectiveness)과 관련이 없는 구성개념 무관 요인(construct-irrelevant factors)이 만족도 점수에 영향을 줄 수 있음을 일관되게 발견해 왔습니다.

  • 특히, 수많은 연구(numerous studies)가 만족도 설문조사가 여성, 유색 인종(people of color), 그리고 기타 소외된 집단(other marginalized groups)에 대해 편향되어 있음(biased against)을 입증했습니다.
    • 예를 들어, 여성 강사(female instructors)는 교수 수행(teaching performance)이 동일할 때조차 남성 동료보다 종종 더 낮은 평가(lower ratings)를 받습니다.
    • 마찬가지로, 인종적 또는 민족적 소수자(racial or ethnic minorities)에 속하는 강사들은, 특히 자신의 배경(background)을 공유하지 않는 학생들로부터 부정적인 평가(negative evaluations)를 받을 가능성이 더 높습니다.

이러한 편향은 개별 교수진(individual faculty members)에게 불이익(disadvantage)을 줄 뿐만 아니라 학문 시스템(academic system) 내의 더 광범위한 불평등(broader inequities)을 영속화(perpetuate)합니다. 종합해보면, 이러한 편향들은 수업 평가(evaluating instruction)를 위한 학생 만족도 점수의 타당도를 더욱 약화시키며(undermine), 교수 승진(faculty promotion) 및 인증(accreditation)과 같은 중요한 결정의 유일한(또는 심지어 일차적인) 근거(sole or even the primary basis)로서의 부적절성(inadequacy)을 강조합니다.

승진 및 인증을 위해 만족도 설문조사에 의존하는 것의 과제 (Challenges in relying on satisfaction surveys for promotion and accreditation)

위에서 언급한 우려들을 고려할 때(Given the concerns noted above), 교수 승진 및 의과대학 인증 결정(medical school accreditation decisions)에 학생 만족도 설문조사 결과를 사용하는 것은 우려스럽습니다. 그러한 사용은 이 설문조사들이 교수 질(teaching quality)과 교육 효과성(educational effectiveness)을 포함하여 그들이 측정한다고 주장하는 것(what they purport to measure)을 충실히 측정한다고 가정합니다. 그러나, 논의된 바와 같이, 대부분의 학생 만족도 설문조사는 교수 및 학습과 무관한 요인들에 의해 영향을 받는 심각하게 결함 있는 도구(deeply flawed instruments)입니다. 교수 경력(faculty careers)과 기관 인증(institutional accreditation)에 대한 중요한 결정을 내리기 위해 결함 있는 데이터(flawed data)에 의존하는 것은 이러한 평가가 기여해야 할 바로 그 목표들(the very goals)을 약화시킵니다.

 

예를 들어, 인증 자체 평가(accreditation self-study) 과정에서, LCME는 AAMC 졸업 설문조사(GQ)독립 학생 분석(Independent Student Analysis, ISA)을 포함하여 의대생들이 완료한 다수의 자기보고식 설문조사(self-report surveys) 데이터에 의존합니다.

  • GQ는 교수 질, 전공의 과정 준비(readiness for residency), 학생 서비스(student services), 그리고 모욕(humiliation)이나 괴롭힘(harassment)과 같은 부정적 행동 경험 등 많은 주제와 관련된 275개 이상의 항목을 포함하는 설문조사입니다.
  • ISA 도구는 의대생들이 인증 기간 동안 개발, 배포 및 분석하는 50~100개 이상의 항목으로 구성된 설문조사입니다. 이는 학교의 의학 교육 프로그램, 학습 환경, 자원(resources) 및 행정(administration)의 질을 평가하도록 설계되었습니다.
  • LCME가 최근 만족도에서 벗어나도록(move away from satisfaction) ISA 응답 척도(response scale)를 수정했음에도 불구하고, GQ와 ISA 도구 모두 사실상(in effect) 학생 만족도 설문조사입니다.

그럼에도 불구하고, LCME 조사팀(Survey Team)은 GQ와 ISA 결과에 상당한 비중(considerable weight)을 둡니다. 예를 들어, 비록 LCME가 학생 피드백 점수에 대해 특정 절단점(specific cut points)을 사용하지는 않지만, 실제로는(in practice), 학교들은 인증 기관의 강화된 정밀 조사(heightened scrutiny)를 피하기 위해 비현실적으로 높은 등급(unrealistically high ratings)을 달성해야 한다는 압박감(pressure)을 종종 느낍니다. 게다가, 많은 의과대학이 학생 만족도 점수를 프로그램 평가 노력의 핵심 구성 요소(key components)로 사용하며, 이러한 설문조사의 결과(outcomes)는 인증 중 LCME에 의해 면밀히 검토됩니다(closely examined).

 

학생 만족도 설문조사에 대한 과도한 의존(overreliance)은 엄격한 교육(rigorous education)보다 학생들을 행복하게 유지하는 것(keeping students happy)이 더 중요하다는 잘못된 메시지(wrong message)를 보낼 수 있습니다.

  • 이것은 교수진과 행정가들이 예를 들어 학점을 부풀리거나(inflating grades), 도전적인 내용을 단순화하거나(simplifying challenging content), 학생들의 교육에 해로운(detrimental) 방식으로 학생 선호(student preferences)에 영합함으로써 심층 학습(deeper learning)보다 학생 만족도를 우선시하도록 장려(incentivize)할 수 있습니다.
  • 학생 만족도에 대한 지나친 강조(overemphasis)는 또한 의문의 여지가 있는 기관의 행동(questionable institutional behaviors)으로 이어질 수 있습니다.
  • 최근 LCME 현장 방문(site visit)을 준비하면서, 우리 기관 중 한 곳의 교육과정 리더들은 수업이나 평가(assessment)를 개선함으로써가 아니라 무료 음식(free food)을 제공하거나 학생들에게 인증 위험(accreditation risks)에 대해 경고함으로써 ISA 점수를 높이는 방법을 논의하는 데 많은 시간을 보냈습니다.

이러한 역효과를 낳는 행동들(counterproductive behaviors)은 굿하트의 법칙(Goodhart’s Law)을 보여줍니다: 만족도 점수와 같은 척도(measure)가 목표(target)가 되면, 그것은 가치를 잃고(loses its value) 더 이상 타당하지 않게 됩니다(ceases to be valid).

더 나은 접근을 향하여: 학생 만족도 설문조사의 대안 (Toward a better approach: alternatives to student satisfaction surveys)

의학 교육 커뮤니티는 많은 학생 만족도 설문조사가 보존할 가치가 없을 수도 있다(may not be worth preserving)는 불편한 현실(uncomfortable reality)을 직시해야 합니다. 잠재적으로 결함이 있고 편향된 설문조사 도구에 의존하는 대신, 그 사용을 상당히 줄인다면(significantly reduce their use) 어떨까요? 그 대신, 우리는 과도한 부담을 지닌 학생들(overburdened students)의 편향되고 신뢰할 수 없는 피드백에 의존하지 않는, 교수 효과성 및 학습 성과의 다중 소스 척도(multisource measures of teaching effectiveness and learning outcomes)에 초점을 맞출 수 있습니다. 누군가에게는 이것이 급진적인 아이디어(radical idea)처럼 보일 수 있지만, 우리가 증거에 입각한 관행(evidence-informed practices)을 사용하여 의학 교육을 개선하고 학생들을 21세기 임상 진료(clinical practice)에 대비시키는 데 진심이라면 고려해야 할 아이디어입니다. 게다가, 학생 만족도 설문조사의 사용을 상당히 줄이자는 제안은 기존 연구(established studies)와 더 최근 연구들로부터의 강력한 뒷받침(robust backing)을 받으며 경험적 증거에 의해 강력히 지지됩니다(strongly supported). 예를 들어, 수행된 학생 만족도 데이터에 대한 가장 엄격한 메타 분석(most rigorous meta-analyses) 중 하나의 결과는 “학생 학습 및 경력 성공(career success)에 초점을 맞춘 기관들은 교수진의 교수 효과성 척도로서 SET 등급을 폐기(abandon)하기를 원할 수 있다”고 결론지었습니다.

 

학생 만족도 설문조사가 상당한 한계(significant limitations)를 가지고 있지만, 잘 구성된 설문조사(well-constructed surveys)는 자원에 대한 학생 접근성(student access to resources), 일반적인 웰빙(general well-being), 그리고 부당 대우(mistreatment) 경험과 같은 영역에 대한 통찰을 여전히 제공할 수 있습니다. 이러한 경우, 학생 피드백은 기관이 비학문적 우려(nonacademic concerns)를 해결하는 데 도움을 줄 수 있습니다. 그러나, 교수 질(teaching quality)과 기관 효과성(institutional effectiveness)에 대한 고부담 결정을 내리는 일에 있어서는, 만족도 설문조사의 한계로 인해 불충분합니다(insufficient). 따라서, 우리의 주된 주장(primary argument)은 학생 만족도 설문조사가 남용되고 지나치게 의존되고 있으며, 특히 교수와 학습을 평가하도록 설계된 것들(즉, SETs)의 경우 의과대학에서의 사용은 축소되어야 한다(curtailed)는 것입니다. 사용될 때, 학생 만족도 설문조사는 “공식적인 교수 효과성 등급(formal ratings)을 위한 기회라기보다는 학생 피드백을 위한 기회(opportunity for student feedback)로 프레임(framed)되어야 합니다.” 그렇다 하더라도, 이 피드백은 수십 년간의 경험적 연구에서 얻은 지식을 반영하는 더 넓고, 더 포괄적인 평가 프레임워크(broader, more comprehensive evaluation framework)의 한 부분이 되어야 합니다. 목표는 포괄적인 평가 프레임워크, 즉 Ginsburg와 Stroud가 “교수진 교수 효과성에 대한 프로그램적 평가(programmatic evaluation of faculty teaching effectiveness)”라고 부른 것으로, 이는 다양하고 증거에 입각한 접근법(diverse, evidence-informed approaches)을 통합하고 과로한 의대생들의 만족도 점수에 대한 의존을 최소화(minimizes reliance)하는 것입니다.

 

우리는 대부분의 의과대학이 도달할 수 있는(within reach) 몇 가지 초기 단계(initial steps)를 제안합니다.

  • 첫째, 다양한 방법을 통해 수집된 다중 소스 데이터(multiple sources of data)를 통합(incorporate)하고 삼각 검증(triangulate)하십시오.
    • 여기에는 동료 수업 참관(peer observations of teaching), 수업 자료 검토(reviews of teaching materials), 포커스 그룹(focus groups) 및 인터뷰, 그리고 학생 성과의 학습 중심 척도(learning-focused measures) 등이 포함됩니다. 동료 참관은 학생들이 제공할 수 없는 통찰을 제공합니다.
    • 또한, 수업 자료(예: 실라버스[syllabi], 학습 목표, 학습 활동 검토)에 대한 동료 리뷰(peer reviews)를 표준화된 시험(standardized examinations) 및 역량 평가(competency assessments)와 같은 학습 중심 척도와 결합하면, 만족도 점수보다 교수 질 및 학습 성과에 대한 더 직접적인 지표(more direct indication)를 제공합니다.
  • 둘째, 학생 피드백에 대해 포커스 그룹 및 개별 학생 인터뷰를 통해 수집된 서술형 코멘트(narrative comments)와 같은 질적 접근법(qualitative approaches)을 고려하되, 학생들에게 과도한 부담을 주지 않도록 소량(small doses)으로만 하십시오.
    • 더 많은 서술형 코멘트를 사용하라는 평가 문헌(assessment literature)의 최근 권고와 유사하게, 서술형 과정 평가 피드백(narrative course evaluation feedback)은 만족도 점수보다 더 실행 가능한 통찰(more actionable insights)을 제공할 수 있습니다(즉, 신중하게 전달된다면 실제로 교육 관행을 개선할 수 있는 피드백).
    • 예를 들어, Brandl 등은 과정 책임자(course directors) 및 학생들과 포커스 그룹을 사용했는데, 이는 교사와 학생 모두에게 유익한 상세하고 구체적인 통찰(detailed and specific insights)을 산출했습니다. 응답률이 낮은 설문조사와 마찬가지로, 질적 접근법 또한 신중하게 고려되어야 할 표본 추출의 한계(sampling limitations)를 수반합니다.
    • 그럼에도 불구하고, 질적 피드백의 좁은 범위(narrower scope)는 이러한 방법들이 제공할 수 있는 통찰의 더 깊은 깊이(greater depth of insight)로 상쇄될 수 있으며, 특히 복잡한 교육 경험을 이해하거나 개선을 위한 실행 가능한 권고안을 생성하고자 할 때 그렇습니다.
  • 셋째, 학생들에게는 건설적인 피드백(constructive feedback)을 전달하는 방법에 대해, 교사들에게는 그것을 받아들이는 방법에 대해 지침(guidance)을 제공하십시오.
    • 아마도 교육에 관심 있는 학생 그룹(group of education-interested students)을 훈련시켜 교육 경험을 평가하도록 할 수 있을 것입니다. 이는 학생 수행의 평가자(assessors)로 훈련받는 교수진과 유사합니다.

이러한 프로그램적 평가 전략(programmatic evaluation strategies)을 구현하는 데는 추가 자원(additional resources), 전용 시간(dedicated time), 그리고 훈련된 인력(trained personnel)이 필요할 수 있음을 인정하는 것이 중요합니다. 이러한 전략들이 기관이 더 정확하고 실행 가능한 교육 효과성 데이터를 수집하도록 돕는 시작(start)에 불과하지만, 기관들은 또한 승진 및 정년 보장 위원회(promotion and tenure committees)와 협력하여 학생 만족도 데이터가 사용되는지 여부와 그 방법을 재고(reconsider)해야 합니다. 이 방향으로 나아가는 것은 또한 의학 교육 품질 개선이라는 공유된 헌신(shared commitment)으로 뭉친 의과대학들과 인증 기구(accrediting bodies) 간의 협력(collaboration)을 필요로 할 것입니다. 예를 들어, LCME는 최근 특정 설문 항목이 질문되고 답변되는 방식을 포함하여 ISA의 측면들을 변경했습니다. 그러나, 학생들이 모든 질문에 대해 올바른 청중(right audience)인지, 더 나은 증거 소스가 이용 가능한지, 그리고 학생들의 동의/비동의 응답이 다른 평가적 증거의 맥락에서 어떻게 가중치(weighed)가 부여되어야 하는지에 대한 질문은 여전히 남아 있습니다.

결론 (Conclusions)

우리가 물어야 할 본질적인 질문(essential question)은 학생 만족도 설문조사가 우리의 의학 교육 평가 및 인증 시스템에서 차지하고 있는 중심적 역할(central role)을 맡을 자격이 있는가 하는 것입니다. 우리는 대답이 '아니오'라고 믿습니다. 이러한 설문조사의 편향과 한계는 그것들을 고부담 결정을 위한 부적절한 토대(inadequate foundation)로 만듭니다. 수월성(excellence)을 추구하면서도, 의학 교육 커뮤니티는 우리의 평가 관행에서 공정성(fairness), 엄격성(rigor), 그리고 타당도(validity)를 우선시해야 합니다. 요약하자면, 우리는 지난 50년의 경험적 연구에 귀를 기울여야 하며(heed), 우리가 옹호하는(espouse) 증거 기반 표준(evidence-supported standards)에 더 잘 부합하는 더 견고하고 전체론적인 평가 전략(more robust and holistic evaluation strategy)으로 나아가야 합니다. 지금이야말로 우리의 교육 관행이 목적에 부합하고(fit for purpose), 학생과 교수진에게 유익하며(beneficial), 궁극적으로 우리 학생들이 언젠가 섬기게 될 환자들에게 유리하도록(advantageous) 확실히 할 때입니다. 그보다 못한 것을 받아들이기에는 판돈(stakes, 위험 부담)이 너무 큽니다.

 

 

 

 

+ Recent posts