출처: Norman, G. (2016). A bridge too far. Advances in Health Sciences Education, 21, 251-256.
https://link.springer.com/article/10.1007/s10459-016-9671-z
어두운 순간들 속에서, 나는 교육에서 이루어지는 모든 주장들이
- (a) 전혀 근거 없는 것에서 비롯되거나(성인 학습 이론),
- (b) 반대되는 증거에도 불구하고 계속되거나(학습 스타일, 자기 평가 능력), 혹은
- (c) 존재하는 증거를 훨씬 넘어서서 나아간다고 스스로 설득할 수 있다.
대부분의 AHSE 독자들이 첫 번째와 두 번째 유형의 주장에 대해서는 인지하고 있을 거라 생각하지만, 이 에디토리얼에서는 세 번째, 즉 제한된 연구에서 도출된 경험적 증거를 바탕으로 세상이 어떻게 작동하는지에 대한 일반적인 결론에 도달하는 문제에 대해 설명하고자 한다.
이것은 새로운 아이디어는 아니다. 내가 생각하는 많은 것들처럼 그 뿌리는 몇십 년 전으로 거슬러 올라갈 수 있다. 하지만 최근 일어난 몇 가지 사건들로 인해, 내가 매우 정확하다고 생각했던 연구들에 대한 믿음이 흔들리면서 이 생각이 더욱 부각되었다. "믿음"이라는 표현이 이상하게 들릴 수도 있겠지만, 이 경우에는 적합한 표현이라고 생각한다. 최근 드러난 몇 가지 증거로 인해 나는 신뢰자에서 회의론자로 변하게 되었다.
내가 말하는 것은 "학습 과학"(Science of Learning) 패러다임에서 최근 이루어진 연구들에 관한 것이다. 최근 몇 년 동안 많은 인지심리학의 상징적인 인물들이 의학교육으로 넘어와서 인지 이론에 기반한 학습 연구들을 보고했다. 그 연구들은 우아하고, 이론들은 탄탄하며 오랜 시간 검증된 것들이다. 그리고 그 결과들은 놀라울 정도로 인상적이다—단, 자세히 들여다보지 않는 한 그렇다. 사람들의 학습 방식을 이해하는 것에 기반하여, 그들은 학습에 강력하고 긍정적인 효과를 미칠 수 있는 몇 가지 간단하지만 매우 효과적인 실험적 조작을 보여주고 있다. 그것들은 다음과 같다:
- (1) 교차 연습—여러 범주의 예시를 혼합하여 문제를 해결하기 위해 각 범주를 구분하는 특징을 능동적으로 식별해야 하는 방식,
- (2) 분산 연습—학습 세션을 시간에 걸쳐 분산시킴으로써 학습을 강화하고 더 나은 학습을 유도하는 방식,
- (3) 시험을 통한 학습 강화—단순히 자료를 공부하는 대신, 작은 시험을 사용하여 반복적으로 내용을 재방문하는 방식.
이 세 가지 개입 방법의 문제점 중 하나는 그것들이 생각만큼 보편적이지 않다는 것이다. 모두가 연습을 더 효과적으로 만들기 위한 전략에 초점을 맞추고 있다. 이들은 초기 학습을 촉진할 수 있는 전략에 대해서는 어떠한 지침도 제공하지 않는다. 명백한 사실을 말하자면, 문제 해결을 목표로 하는 학습의 경우에만 연습이 유용하다. 혼합 연습이 실존 철학, 양자 역학, 또는 셰익스피어 강의에서 어떤 기여를 할 수 있을지 상상하기 어렵다. 시험을 통한 학습 강화가 학생들이 관련된 사실을 학습하는 데 도움이 될 수는 있지만, 그것이 대부분의 강의에서의 주요 목표는 아니기를 바란다(이 문제에 대해서는 곧 다시 다룰 것이다).
하지만 더 큰 실망은 작은 글씨 속에 숨어 있습니다. 이러한 이론을 테스트하기 위해 연구자들은 그 전략이 효과적일 수 있는 기술 유형을 실제로 예시하는 자료를 고안했습니다. 예를 들어, 혼합 연습에 대해 우리가 알고 있는 많은 것들은 나비의 종류나 인상파 화가들을 구별하는 것에서 비롯됩니다 (또한 우연히도 인지 연구의 부활보다 수십 년 앞선 운동 학습의 많은 연구에서도 마찬가지입니다). 이제 이러한 것들은 생물학자나 미술사가들에게는 편안하게 받아들여질 수 있습니다 (비록 둘 다 그들의 분야가 단순히 예시를 구분하는 것보다 훨씬 더 많다고 주장할 것이라 예상하지만). 그리고 우리는 ECG 판독이나 심음 구별과 같이 이 패러다임과 잘 맞는 의학의 유사한 영역을 찾을 수 있습니다. 하지만 요점은 이러한 조작에 적합한 자료 집합을 만들기 위한 특정한 특성을 식별하려는 시도가 없다는 것입니다. 더 심각한 것은, 연구가 발표될 때 결과의 일반화 가능성의 한계—자료에 의해 설정된 경계 조건—를 체계적으로 탐구하려는 시도가 거의 없다는 것입니다. 저자들은 "만약 시각 자료에서 빠르게 표시되고 학습될 수 있는 혼동되는 범주를 학생들에게 가르치고 있다면, 교차 연습을 시도하라"고 말하지 않습니다. 그들은 단지 "교차 연습은 효과가 있다"고만 말합니다.
특히, 이제는 (원래 연구의 저자들은 아니지만) 시험 강화 학습—미니 테스트를 반복적으로 사용하는 것—이 고립되고 관련 없는 사실의 회상에는 효과적이지만, 어떤 종류의 전이—심지어 질문을 단순히 바꾸거나 오답 선택지를 변경하는 것조차도—에는 상대적으로 비효과적이라는 것이 인정되고 있습니다(Van Gog and Sweller 2015; Agarwal et al. 2012), 비록 몇 가지 예외는 있습니다(Larsen et al. 2013).
혼합 연습의 일반화 가능성에 대한 유사한 제약이 최근에 나타났습니다. 한편으로, ECG와 같은 개념적으로 복잡한 자료를 사용하는 인지 범주 학습 연구들은 혼합 연습이 차단된 연습을 통해 어느 정도 숙달된 후에만 효과적이라는 것을 보여주었습니다. 그리고 모든 것이 시작된 운동 학습에서는, 혼합 연습이 단순한 동작에는 좋지만 더 복잡한 활동에는 이점이 없다는 것이 드러났습니다(Ranganathan and Newell 2010).
불행히도, 자료 선택으로 인해 그들의 일반화에 부과된 한계를 명백히 인식하지 못하는 것은 이 분야만이 아닙니다. 또 다른 예로, 학습에서 맥락의 중요한 역할은 작업 기반 학습, 상황적 인지 등과 같은 교육 전략의 전제 조건으로 간주됩니다. 필연적으로, 그들의 주장을 뒷받침하는 증거에는 케임브리지 대학 다이빙 클럽이 수중과 육지에서 관련 없는 단어 목록을 암기한 Godden과 Baddeley의 고전적인 연구가 포함됩니다. 아무도 만약 36개의 관련 없는 단어를 배우려고 한다면, 어떤 지팡이라도 잡으려 할 것이라는 점을 눈치채지 못하는 것 같습니다. 그 연구를 의학 자료를 사용하여 반복했을 때는 아무런 효과가 발견되지 않았습니다(Koens et al. 2003).
의도적인 연습에 대한 방대한 문헌은 전문성의 단일 결정 요인이 연습—피드백이 있는 의도적이고 구조화된 연습—이라는 주장에 기반을 두고 있습니다(Godden and Baddeley 1975; Ericsson et al. 1993; Ericsson 2004). 하지만 그 갑옷에는 몇 가지 흠집이 있습니다.
- 첫째, 의도적인 연습이 체스나 음악과 같은 일부 전문 분야에서 중요한 역할을 하지만, 인기 있는 논문들(Gladwell 2008)이 약속하는 성공의 유일한 결정 요인은 아닙니다. 실제로 체스와 같이 잘 연구된 분야에서도 숙달하는 데 걸리는 시간에 엄청난 변이가 있습니다(Gobet and Campitelli 2003).
- 그리고 일부 연구에서는 일반적인 적성이 성과의 중요한 예측 변수가 아니라고 나타났지만, 다른 연구들은 이를 반박합니다.
- 마지막으로, 공통된 주제로 돌아가서, 의도적인 연습은 전문직과 같이 더 복잡하고 다면적인 영역에서 전문성을 잘 예측하지 못합니다(Kulasegaram et al. 2013).
한 가지 예를 더 들어본 후에, 관찰에서 설명으로 넘어가겠습니다. 제 경력 전반에 걸쳐 제가 관심을 가져온 의학교육 분야 중 하나는 임상 추론입니다. 최근 이 분야는 진단 오류에 대한 우려로 지배되고 있으며, 이 오류는 거의 보편적으로 인지 편향에 기인한다고 비난받고 있습니다. 이러한 관점의 주요 주창자는 Pat Croskerry로, 그는 이중 처리 모델(Dual Processing Models)과 이른바 “시스템 1” 추론에서 인지 편향이 차지하는 중심적 역할에 대해 광범위하게 저술했습니다(Hambrick and Engle 2002; Croskerry 2003). 하지만 인지 편향의 중심적 역할은 1980년대까지 거슬러 올라가 반복적으로 등장하는 주제입니다.
이 이론의 기원을 추적해보면, 진단 오류의 결정 요인으로서 인지 편향을 입증하려는 시도는 매우 적은 연구에서만 이루어졌다는 사실이 드러납니다. 게다가 존재하는 몇 안 되는 연구들은 가용성 편향과 같은 특정 편향을 유발하도록 설계된 실험적 조작에 기반하거나(Mamede et al. 2010), 회고적 검토(Graber et al. 2005)에 의존하는데, 이는 그 자체로 후견 편향의 영향을 받을 수 있습니다. 대신, 의학에서 인지 편향에 대해 여러 논문을 쓰는 공통 전략은 Tversky와 Kahneman이 1970년대와 1980년대에 진행한 방대한 연구 프로그램을 인용하는 것입니다(Tversky and Kahneman 1974). 그러나 잊혀진 점은 이 연구들이 거의 모두 심리학과 1학년 학생들을 대상으로 의문스러운 관련성을 가진 질문들(예: "R이라는 문자가 단어의 첫 번째 위치와 세 번째 위치 중 어디에 더 자주 나타나는가?")을 사용하여 수행되었다는 것입니다.
하지만 더 큰 질문은, 이 연구가 진단 전문성을 이해하는 데 얼마나 관련이 있는가입니다. 이 연구는 전문성에 대해 아무것도 밝히지 못합니다. 왜냐하면 이 연구에서는 전문성을 다루지 않았기 때문입니다. 실제로 인지 편향과 전문성을 다룬 극소수의 연구는 일반적으로 전문가가 초보자보다 편향에 덜 취약하다는 것을 보여줍니다. 또한, 이 연구는 편향을 완화할 수 있는 개입 방법에 대한 통찰을 제공하지도 않습니다. 이는 그들의 연구 프로그램의 일부가 아니었기 때문입니다. 사실 Kahneman(2011)은 인지 편향이 (a) 전적으로 시스템 1에서 기원하고, (b) 고정적이며 수정 불가능하고, (c) 전문성과 무관하다고 단호히 주장합니다. 왜 그는 다르게 생각해야 할까요? 그에게는 이를 반박할 데이터가 없기 때문입니다.
따라서 이러한 연구자들 중 일부는 증거의 우월성을 빠르게 선언하고 교육자들이 매혹적인 "이론"에 쉽게 빠져드는 정도를 애석하게 여기고 있습니다:
"교육 분야는 특히 그럴듯하지만 검증되지 않은 아이디어와 유행에 쉽게 매혹된다(특히 그것이 발명가에게 수익성이 높은 경우). 그럴듯한 이론이나 다소 허술한 연구에 기초한 아이디어들이 오랜 시간 동안 떠돌아다녔던 역사를 기록하는 것도 흥미로울 것이다. 그리고 일단 어떤 아이디어가 뿌리내리면, 그것을 뽑아내기란 매우 어렵다." (Roediger and Pyc 2012)
제 생각에는, 이 말이야말로 그들이 남을 비판하면서 자신들도 똑같은 실수를 저지르고 있다는 것을 보여줍니다. 이 전통에서의 연구가 종종 우아한 실험과 인상적인 결과에 기반하고 있다는 것은 사실이지만, 너무 많은 경우에 사용된 자료들이 연구하려는 현상을 예시하기 위해 특정한 특성을 지니고 있어, 그로 인해 연구 결과로부터 일반화할 수 있는 가능성이 크게 제한됩니다.
면책 사항: 내가 제시하는 대부분의 아이디어처럼, 이 역시 새로운 것은 아니며, 단지 다른 시간과 장소에서 재발견된 것입니다. 이는 연구 방법론 수업에서 "내적" 타당도—연구 결과가 얼마나 신뢰할 수 있는가, 즉 무작위 배정, 교란 변수, 통계적 검정력 등과 같은 전형적인 방법론적 요소들이 작용하는 부분—와 "외적" 타당도—그 결과가 다른 상황, 예를 들어 "현실 세계"에 얼마나 일반화될 수 있는가(그 "현실 세계"가 무엇을 의미하든 간에)—의 대조로 설명되어 왔습니다. 여기서 중요한 것은 이것이 Messick (1989), Downing (2003), 그리고 Kane (2001)이 언급한 측정 도구의 타당도를 의미하는 것이 아니라는 점입니다. 이것은 훨씬 더 넓은 개념이며, 모든 연구 설계를 사용하는 연구에서 결과의 일반화 가능성을 문제 삼습니다.
두 번째 면책 사항: 질적 연구자들이 저에게 그들이 수년, 아니 수십 년 동안(Guba and Lincoln 1994) "특정 연구 조건을 넘어 일반화할 수 없다"고 말해왔다는 점을 상기시킬 때, 저는 어느 정도 자신만만함을 느낍니다. 그러나 제 생각에 이는 아기와 목욕물을 함께 버리는 것과 같습니다. 우리가 말하는 것은 일반화가 불가능하다는 것이 아니라, 얼마나 멀리 일반화할 수 있는가입니다. 비록 제가 회의적이지 않은 실증주의자처럼 들릴 위험이 있지만, 중성자와 같은 어떤 것들은 우주 전체와 시간에 걸쳐 일반화된다고 생각합니다. 아마 빅뱅 후 몇 밀리초 동안은 상황이 다를 수 있었겠지만, 지난 135억 년 동안 중성자는 별로 변하지 않았다고 생각합니다. 반면에, 어떤 것들은 일반화되지 않습니다. 문제는 무엇이 일반화되는지, 얼마나 일반화될 수 있는지를 알아내는 것입니다.
외적 타당도의 문제는 여러 방면에서 나타납니다. 임상의들은 무작위 대조 시험의 결과가 매우 비정상적인 집단에서 도출된다는 점에 대해 불평하며, “하지만 그것은 내 환자들에게는 적용되지 않는다!”고 말합니다. 학습 과학자들과 다른 심리학자들은 통제된 실험실 연구에서의 일반화 문제에 대해 전혀 모르는 것은 아니지만, 그들은 교실이 아닌 실험실에서 단기적인 효과를 조사하는 경향에 더 걱정하고, 그들이 효과를 테스트하기 위해 만든 자료에 대해서는 덜 신경 씁니다.
이 모든 것이 이 에디토리얼의 제목인 "너무 멀리 간 다리"와 어떤 관련이 있을까요? 이 문제는 Cornfield와 Tukey (1956)가 "Cornfield–Tukey 다리 논쟁"이라는 공식으로 우아하게 정리했습니다. 이는 제가 이전 에디토리얼에서 심리측정 타당도에 대한 논의에서 설명한 바 있습니다(Norman 2015). 간단히 말해서, 그들은 가운데 섬을 가진 강을 상상합니다. 이 섬은 특별한 속성이 있어서 움직일 수 있습니다. 연구 결과(근측 강둑)에서 일반적인 주장(원측 강둑)으로 일반화하는 것이 목표입니다. 근측 강둑에서 섬까지의 거리는 내적 타당도를 나타내며, 동일한 상황에 대한 일반화를 의미하고, 섬에서 원측 강둑까지의 거리는 외적 타당도를 의미합니다. 그리고 더 많은 통제를 가할수록 내적 타당도를 높이기 위해 섬을 근측 강둑 쪽으로 더 가까이 움직이게 되고, 그 결과 외적 타당도가 희생된다는 기본 아이디어는 위에서 언급한 모든 예들을 설명합니다.
의학교육은 이러한 함정을 피할 수 있는 몇 가지 훌륭한 특징을 가지고 있습니다. 우리 연구의 전형적인 참가자인 의과대학생들은 관련 없거나 허구적인 범주를 배워야 한다면 그들의 인내심을 쉽게 잃어버립니다. 그래서 어느 정도는 안전 장치가 내재되어 있습니다. 그럼에도 불구하고 내가 서면 사례 프로토콜written case protocols을 사용하는 또 다른 연구를 시작할 때마다, John Tukey의 유령이 저를 내려다보며 손가락을 흔드는 모습을 떠올리게 됩니다. 다행히도 이 문제에 대한 인식은 여러 영역에서 낮은 충실도(즉, 비현실적인) 시뮬레이션이 중요한 요소를 올바르게 묘사하면 학습 전이가 발생한다는 것을 잘 보여주는 연구로 이어졌습니다(Durning et al. 2012; Norman et al. 2012). 그러나 우리는 경험적 연구의 제약에 대해 끊임없이 경계하고, 지나친 주장을 의심해야 합니다.
마지막으로 한 가지 더: 저는 실험실 기반 연구의 수행 자체를 비판하는 것이 아닙니다. 저만큼 신중하게 통제된 실험을 좋아하는 사람은 없으며, 그런 실험들이 사라지면 제 이력서의 2/3가 사라질 것입니다. 제가 문제 삼는 것은 연구로부터 도출된 추론의 본질입니다. Mook(1993)이 설명한 바와 같이, 연구는 현실적이거나 실세계적이거나 높은 충실도를 가져야만 가치가 있는 것은 아닙니다. 그 가치는 연구 결과로부터 도출된 일반화의 본질에 달려 있습니다. 제가 설명한 예들에서 우려되는 것은 "결론적으로 가져가야 할 메시지"가 증거를 훨씬 넘어간다는 점입니다. 그리고 바로 그 가져가야 할 메시지들이 사람들에게 전달됩니다. The value rests, however, with the nature of the generalizations made from the findings. I fear that, in the examples I have described, the ‘‘take home’’ messages go far beyond the evidence. And it’s the take-home messages that are taken home.
'Wilson Centre' 카테고리의 다른 글
[양적연구] 의학교육에서 양적연구방법 (0) | 2024.09.13 |
---|---|
[양적연구] RCT = 혼란스럽고 사소한 결과: 대규모 교육 실험의 위험성 (1) | 2024.09.13 |
[연구] 과학 실험의 철학: 리뷰 (0) | 2024.09.13 |
[질적연구] 질적 연구 접근 방식 선택하기 (0) | 2024.09.13 |
[연구] 박사 과정 학생으로서의 철학적 태도 개발하기: 사례 연구 (3) | 2024.09.13 |