Wilson Centre

[양적연구] RCT = 혼란스럽고 사소한 결과: 대규모 교육 실험의 위험성

Meded. 2024. 9. 13. 09:45

출처: Norman, G. (2003). RCT= results confounded and trivial: the perils of grand educational experiments. Medical education, 37(7), 582-584.

https://asmepublications.onlinelibrary.wiley.com/doi/abs/10.1046/j.1365-2923.2003.01586.x

 

최근 Medical Education의 한 호에서 Torgerson은 의학교육에서 무작위 실험 방법을 더 많이 사용할 것을 강력히 주장했다. 그녀의 주장은 두 가지 전제에 기반한 것 같다:

  1. '무작위 실험은 일반적으로 평가 연구의 황금 표준으로 인정받고 있다'는 것이므로, 우리 모두 그것을 실행해야 한다.
  2. 더 많은 무작위 임상 시험(RCT)을 하지 말자는 주장은 반대하는 사람이 RCT 방법에 대한 무지를 드러내는 것에 불과하다는 것이다.

이 주장을 뒷받침하면서 그녀는 이 방법의 장점과 단점에 대해 놀라운 주장을 한다. 그녀와 나의 관점 차이의 핵심은 다음과 같은 문구에 포함되어 있다:

[교육 연구자들 사이에서] 무작위 배정은 결과에 영향을 미치는 '수많은 요인'을 통제할 수 없다고 여겨진다.

 

'수많은 요인'은 내가 썼다고 추정되는 것에 대한 인용이다. 하지만 나는 그것을 쓰지 않았다. 내가 한 말은 다음과 같다:

...PBL과 같은 이론에 충분히 근거하지 않은 개입 연구를 매우 복잡하고 다요인적인 실제 환경에서, 학습 상황과 너무 동떨어진 결과를 사용하여 진행하는 것은, 예측된 효과가 수많은 설명되지 않은 변수들에 의해 필연적으로 희석될 것이기 때문에 무의미하다.

 

이 두 진술 사이에는 미묘하지만 큰 차이가 있다. 물론, 무작위 배정은 수많은 설명되지 않은 변수를 통제한다. 무작위 배정의 기본 원리는, 치료 이외의 모든 변수가 두 집단에서 동등하게 분포되며, 통계적으로 유의미한 차이는 치료의 결과일 수밖에 없다는 것이다. 하지만 이런 변수들이 배정 코인을 던지는 순간 사라지지 않는다. 여전히 존재하며, 각 그룹 내에서 다른 사람들이 개입에 다르게 반응하도록 최선을 다하고 있다. 연구 설계에 관한 첫 번째 정의서를 쓴 Donald Campbell이 말한 것처럼:

"연구자가 '이러이러한 효과'가 사실이라고 주장할 때, 다른 조건이 동일하다면, 그는 많은 다른 조건들을 동일하게 만든 경험을 바탕으로 이야기하는 것이다."

 

그 결과, 통제된 실험이 치료 효과에 대한 편향되지 않은 추정치를 제공할 수 있을지라도, 그것들은 설명되지 않은 분산의 바다 속에서 잃어버릴 가능성이 높으며, 심지어는 감지되지 않을 수도 있다. 이런 무작위 설계에서 식별할 수 있는 효과는 실제로 중요하지 않은 정도일 가능성이 크며, 실질적인 중요성을 갖지 못할 것이다. 교육적 개입에 대해 무작위 실험을 수행할 수 없다는 것이 아니라, 그것을 수행하는 노력이 가치가 없다는 것이다.

 

일부는 이것이 강한 주장이라고 생각할 수 있다. 그렇다면 증거는 어디에 있는가? 어디에나 있다. Darling-Hammond와 Young은 최근 Educational Researcher에서 다음과 같이 썼다:

"…학생의 성취도 향상은 학급 크기나 학급 구성과 같은 다른 요인보다 배정된 교사에 의해 훨씬 더 많은 영향을 받는다.
Rivkin, Hanushek, Kain(2001)의 최근 분석에 따르면 교사 간 차이가 성적 향상 총 분산의 최소 7%를 차지한다."

 

이 진술의 결론을 강조하자면, 7%의 분산은 커리큘럼에 의한 분산보다 훨씬 더 크다. 물론, 설명되지 않은 93%의 분산은 훨씬 더 크다.

 

교육 연구자들은 대규모 통제 실험을 수행하는 방법을 알고 있으며, 오랫동안 알고 있었다. 우리는 1960년대의 Project Headstart를 떠올릴 수 있는데, 이 프로젝트는 수십 년 동안 계속되었으며, 약 10억 달러의 비용을 들인 후 1995년에 종료되었다. 이 거대한 다중 개입 연구의 결과는 다음과 같다:

학생 성취도의 분산은 프로그램 간보다 프로그램 내에서 더 컸다. 어느 프로그램도 사이트 간 일관된 효과를 나타내지 못했다. 각 지역 맥락이 달랐으며, 프로그램, 인력, 교수 방법, 예산, 리더십, 지역 사회 지원의 종류에서 차이가 필요했다.

 

Berliner의 논평은 추가적인 우려를 제기한다. 수술에 대한 임상시험을 수행하는 실험자들은 내 관상 동맥이 우회되었는지 확신할 수 있고, 내가 하루에 세 번 300mg의 약물 또는 위약을 복용했는지에 대해 합리적인 확신을 가질 수 있지만, 교육 실험자들은 학생이 실제로 얼마나 많은 '치료'를 받았는지에 대해 훨씬 더 큰 불확실성을 안고 살아가야 한다. 사실, 대부분의 교육과정 개입에서 정확히 무엇이 치료적 개입이었는지조차 명확하지 않다. 예를 들어, 비판적 사고 교육에 관한 자주 인용되는 통제 실험에서는 튜터들이 비판적 사고 교육을 가르치는 방법에 대해 훈련을 받은 후, 그들만의 교육에서 사용할 비판적 사고 패키지를 개발하는 2~5시간의 워크숍이 포함되었다. (대부분의 혁신에서 '훈련'이 핸드북을 배포하는 수준인 것에 비하면 훨씬 더 많은 노력이 들어갔다.) 그러나 훈련에도 불구하고, 다음 4~6주간의 임상 실습에서 개별 튜터들이 비판적 사고에 얼마나 많은 주의를 기울였는지는 매우 달랐으며, 학생들의 성과 향상은 '저용량' 그룹에서 2%에서 '고용량' 튜터 그룹에서는 31%에 이르렀다.

 

하지만 효과가 있다면 무엇이 그것을 작동하게 하는지는 상관없다는 것인가? 이것이 바로 Torgerson의 태도인 것 같다. 그녀는 무작위 실험에서 눈가림(blinding)이 중요하지 않다는 주장을 뒷받침하면서 다음과 같이 말한다:

"비록 열정이 효과의 원인이라 할지라도, 그것이 더 나은 결과로 이어진다면, 여전히 새로운 방법의 사용을 지지하는 것이다."

 

믿기 어려운 주장이다! 만약 열정이 효과를 일으키는 주성분이라면, '방법'이란 무엇인가? 우리가 개입을 복제하려 할 때, 교사들에게 소그룹 과정의 신비에 대해 훈련시키고, 문제로 시작하는 것의 장점을 보여주며, 그들이 새로운 교육과정의 교육 자료를 이해하도록 할 것인가? 아니면 그냥 그들에게 가서 열정적으로 하라고 말할 것인가? 그리고 교육과정의 효과가 시간이 지나면서 감소한다면, 우리는 자료를 조정할 것인가 아니면 열정을 유지하기 어렵다는 것을 인정하고 새로운 교육과정을 시작할 것인가?

 

실제로, 열정이 차이를 이끄는 것이라면, 어떤 실험의 결과도 교육과 학습에 대한 지식 축적에 기여하는 대신, 한 방법이나 다른 방법의 이점을 논하는 결론을 혼란스럽게 만들 것이다. 사실, 이러한 형태의 연구는 열정 효과(order effect)를 증명하는 데 불과할 것이다. 가장 최근에 도입된 방법이 가장 큰 열정을 동반하면서 항상 승리할 것이다. 우리는 5년마다 교육과정을 바꿔서 열정을 유지하라고 교사들에게 조언할 수밖에 없는 교육과정의 회전목마에 갇힐 것이다.

 

그러나 상황은 그것보다 더 나쁘다. 무작위 실험은 개입의 전체 효과 외에는 모든 것을 고립시키는 기이한 능력을 가지고 있기 때문에, 열정이 정말로 그 요인이었는지조차 알 수 없게 될 것이다. 우리는 매 몇 년마다 고품질 무작위 통제 실험(HQRCT) 증거에 의해 효과가 입증된 새로운 혁신을 도입하게 되겠지만, 몇 년 후에는 더 이상 효과가 없다는 사실을 알게 되어 또 다른 HQRCT 증거에 의해 입증된 새로운 방법으로 교체해야 하는 교육적 불확실성의 연옥에 빠지게 될 것이다. 그러나 그것을 왜 교체해야 하는지조차 모를 것이다.

 

이러한 맥락에서, Gene Glass가 Project Headstart 및 Project Follow Through 연구에 대한 비판의 요약에서 쓴 내용을 인용하는 것이 유용할 수 있다. Glass는 광적인 포스트모더니스트가 아니며, 메타 분석 및 체계적 검토의 아버지로 널리 인정받고 있으며 세계적인 교육 통계학자로 평가받고 있음을 독자들에게 안심시키기 위해 이 점을 언급하는 것이다. 그는 다음과 같이 썼다:

"... NIE는 프로그램에 관여한 사람들이 정보에 기반한 선택을 할 수 있도록 민족지학적이고 주로 기술적인 사례 연구 접근을 강조하는 평가를 수행해야 한다고 제안된다. 이 논의는 다음과 같은 가정에 기초하고 있다: (1) 과거 FT 평가들은 가치 판단을 도출하기 위한 양적, 실험적 접근이었다; (2) 양적, 실험적 평가 접근의 결함은 너무 철저하고 돌이킬 수 없어서 그들의 사용을 부적합하게 만든다..."

 

간단히 말해, 20여 년 전 주류 교육 연구자들은 대규모 교육과정 실험에서 도출된 미미한 통찰에 환멸을 느끼기 시작했다. 오늘날 교육 연구가 질적 방법론에 치우치고 실험이 적은 이유는 우리가 실험을 수행할 방법을 몰라서가 아니라, 그 많은 노력에서 얻어질 지식이 얼마나 적은지 잘 알고 있기 때문이다. 설령 우리가 모든 어려움을 극복하고 하나의 교육과정이 다른 것보다 더 낫다는 것을 입증할 수 있다 하더라도, 우리는 그 효과를 일으킨 실제 요인이 무엇인지에 대해 여전히 궁금해할 가능성이 크다. 그리고 다음번에 그 방법을 시도할 때, 결과가 재현되지 않을 것이며 그 이유조차 알 수 없을 것이라는 걱정을 할 것이다.

 

그렇다면 실험의 역할은 전혀 없다는 것인가? 그렇지는 않다. 사실, Glass가 보고서를 작성한 지 20년 후에는 질적 연구에 대한 환멸도 일부 나타났다. 문제의 기원은 인식론적이라고 생각한다. 질적 연구자들은 일반화 가능한 결과를 기대하는 것이 불합리하다는 전제로 시작하여, 계획에 따라 진행하고 풍부하면서도 매우 특정한 상황에 맞춘 해석을 제공한다. 그러나 세상은 행동의 근거가 될 새로운 일반화 가능한 지식을 기다리고 있다. 여기서 딜레마가 발생한다. 대규모 실험이 너무 많은 변수를 평균화하여 실제 통찰을 제공하지 못하고, 질적 연구가 결국 너무 구체적이어서 일반적인 결론을 도출할 수 없다면, 새로운 지식은 어디에서 나올 것인가?

 

내 생각에는, 우리는 환원주의 과정을 통해 통찰을 얻게 될 것이다. 과학 철학에서 환원주의는 부정적인 의미를 가지게 되었지만, 이 경우 나는 그것이 유일하게 효과적인 해결책이라고 생각한다. 특히 인지 심리학의 방법은 더 효과적인 교육 전략을 식별하는 데 실질적인 중요성을 가진 통찰을 제공해 왔다고 본다.

 

한 가지 예로, 전 세계 의과대학에서는 학생들에게 의학의 기본 개념을 가르치는 데 지나치게 많은 시간을 소비한다. 학생들이 나중에 이러한 개념을 임상 문제를 이해하는 데 사용할 수 있기를 바라지만, 이는 허망한 희망이다. '전이(transfer)'라 불리는, 다른 맥락에서 제시된 현상을 설명하기 위해 기억에서 개념을 꺼내는 과정은 매우 어렵다. 심리학자들은 수십 년간 전이 문제를 연구해 왔으며, 이 과정을 촉진할 수 있는 여러 전략을 식별했다. 대부분은 의도적인 연습을 포함하고 있다. 그러나 안타깝게도 이러한 아이디어들은 교육자들에 의해 대부분 무시되고 있다.

 

전이의 어려움과 이를 해결할 수 있는 방법에 대한 이해는 대규모 무작위 실험의 결과가 아니었다. 지식 축적은 수많은 작은, 엄격하게 통제된 연구들에서 나왔으며, 여러 연구소에서 많은 반복 실험이 이루어졌고, 개입의 요인들이 체계적으로 변화되었다. 이러한 연구들은 실험이었으며, 무작위 배정 또는 그와 유사한 방법을 포함했고, Torgerson이 지지하는 것과 같은 방법론을 공유했다. 그러나 두 가지 중요한 차이가 있다.

  • 첫째, 실험 환경이 엄격하게 통제되어 있어 원인과 결과를 훨씬 더 잘 이해할 수 있었으며, 일반적인 교육과정 실험에서 볼 수 있는 것보다 훨씬 더 큰 효과를 나타냈다.
  • 둘째, 실험들이 원인에 대한 이론에 기반하여 일련의 실험에서 다양한 요인들을 체계적으로 변화시켰기 때문에, 개입에서 실제로 작용한 핵심 요소들을 이해할 수 있었다.

나는 이러한 접근법에 대해 열정적이지만, 모두가 나와 같은 열정을 공유하지는 않는다. Colliver는 특히 인지 심리학을 비판하며 강력하게 반대해왔다. 그의 최근 논문에서 그는 다음과 같이 전면적인 비판을 한다:

"이 에세이는 인지 이론에 대해 성찰하고, 이 이론이 과학적으로 엄격하게 검증된 이론이라기보다는 은유에 불과하다고 결론짓는다."

 

그는 자신의 주장을 뒷받침하기 위해 인지 심리학의 단 하나의 연구만을 인용하며, 이는 그의 결론이 근거가 약하다는 것을 암시할 수 있다. 또한 그는 몇 가지 잘못된 반론을 제기한다. 그는 인지 심리학이 단순히 행동주의의 재현에 불과하다고 주장한다. 그러나 하나의 반론으로, 새로운 자극으로 일반화되는 전이 현상은 자극-반응 체계 내에서는 접근할 수 없는 현상이다. 두 번째로, 인지 심리학이 은유일 뿐 이론이 아니라는 주장을 뒷받침하기 위해, 그는 정신분석의 은유를 인용한다. 그는 정신분석이 효과가 있다는 증거가 없음을 보여주며, 독자가 인지 심리학 또한 효과가 없다고 결론내리도록 유도하려 한다. 누가 은유를 남용하고 있는 것인가?

 

나중에 Colliver는 마음-뇌 이원론의 맥락에서 전이 문제를 제기한다. 다행히도 그는 단 하나의 데이터도 수집하지 않고 문제를 해결했다:

"전이가 일어나지 않는 이유는 명백하다. 비유는 우리가 설명해야 하는 '사실'과 비슷한 것이지, 뇌의 속성 때문에 자연스럽게 '관계'를 보는 결과물이 아니다."

 

따라서 학생들에게 그들이 배운 사실이 뇌의 결과물이라고 알려주기만 하면, 그들은 자유롭게 전이를 할 수 있을 것이다. 이 주장에 대한 증거가 있으면 좋겠다.

 

결론적으로, 나는 교육적 의사결정에 대한 정보를 제공하기 위한 대규모 무작위 교육과정 실험의 우월성에 대한 믿음이 심각하게 잘못되었다고 단언하고 싶다. 이는 실험의 기본적인 강점을 부정하는 것이 전혀 아니다. 오히려, 나는 신중하고 이론에 기반한 실험적 연구가 교육에서 중대한 진보를 이끌어왔으며, 앞으로도 계속 그럴 것이라고 확신한다. 그러나 최근 역사는 교육과정 수준에서 실험 방법을 무분별하게 적용하면, 작은, 재현할 수 없고 해석할 수 없는 결과를 도출하게 된다는 것을 보여주었으며, 종종 엄청난 비용을 수반한다.

 

조금 진부할 수 있지만, George Santayana(그리고 그 외에도 Churchill과 Aristotle을 포함한 11명이 동일한 말을 했으며, 아마도 다른 사람들이 이미 말했다는 것을 몰랐을 것이다)가 "과거를 기억하지 못하는 사람들은 그것을 반복하도록 운명지어진다"라고 말했다. 이 메시지는 우리에게도 잊혀져서는 안 된다.