Wilson Centre

[양적연구] 연구를 위한 실험 및 준실험 설계

Meded. 2024. 9. 12. 00:59

출처: Campbell, D. T., & Stanley, J. C. (2015). Experimental and quasi-experimental designs for research. Ravenio books.

 

이 장에서는 16개의 실험 설계를 12개의 일반적인 타당한 추론에 대한 위협을 기준으로 검토할 것입니다. 여기서 '실험'은 변수를 조작하고 그 효과를 다른 변수에 대해 관찰하는 연구의 부분을 의미합니다. 이 장의 역할을 명확히 할 필요가 있습니다. 이는 Fisher(1925, 1935) 전통의 실험 설계에 관한 장이 아닙니다. Fisher의 전통에서는 실험자가 완전한 통제권을 가지고 최적의 통계적 효율성을 위해 처치와 측정을 계획할 수 있으며, 설계의 복잡성은 오로지 효율성의 목표에서 나옵니다. 이 장에서 논의되는 설계가 복잡해지는 이유는 실험자가 환경을 완벽히 통제하지 못하기 때문입니다. 이 장은 여러 지점에서 Fisher의 전통과 접촉하지만, 그 전통에 대한 설명은 Brownlee(1960), Cox(1958), Edwards(1960), Ferguson(1959), Johnson(1949), Johnson과 Jackson(1959), Lindquist(1953), McNemar(1962), Winer(1962) 등의 책과 같은 전체 길이의 설명서에 맡기는 것이 적절합니다. (Stanley, 1957b 참조).

문제 및 배경

McCall을 모델로
McCall as a Model

1923년, W. A. McCall은 How to Experiment in Education라는 제목의 책을 출판했습니다. 이 장은 그 책의 관심사와 고려 사항들을 최신에 맞게 표현하는 것을 목표로 하며, 이를 위해 그 책을 먼저 살펴보겠습니다. McCall은 서문에서 다음과 같이 말했습니다: "실험 데이터의 통계적 조작을 다룬 훌륭한 책과 강의들이 있지만, 통계 절차를 적용할 적절하고 충분한 데이터를 확보하는 방법에 대한 도움은 거의 없다." 이 문장은 오늘날에도 이 발표의 주요 테마로서 충분히 유효합니다. Fisher의 전통이 몇 가지 근본적인 방식에서 이 문제를 해결했지만, 그 가장 두드러진 효과는 "적절하고 충분한 데이터"를 확보하는 데 도움을 주기보다는 통계 분석을 정교하게 만든 것 같습니다. 실용적이고 상식적인 성향 덕분에 McCall의 책은 그만큼의 기여를 하지 못했다는 평가를 받았지만, 사실 저평가된 고전입니다. 이 책이 출판되었을 때는 Fisher의 Statistical Methods for Research Workers(1925) 첫 판이 나오기 2년 전으로, 농업이나 심리학 어느 분야에서도 이와 비교할 만한 뛰어난 책은 없었습니다. McCall의 책은 몇 가지 근본적인 점에서 이러한 다른 분야의 정통적인 방법론을 앞질렀습니다. 아마도 Fisher의 가장 근본적인 기여는 무작위화를 통해 실험 전 그룹을 동등하게 만드는 개념일 것입니다. 이 개념과 함께, 직관적으로 매력적이지만 오해를 불러일으킬 수 있는 매칭을 통해 동등성을 달성하려는 개념의 폐기가 교육 연구자들에게는 받아들이기 어려웠습니다. 그러나 1923년, McCall은 이러한 질적인 이해를 가지고 있었습니다. 그는 "우연에 의해 동등한 그룹"을 만드는 방법을 첫 번째 방법으로 제시했습니다. "대표성을 우연의 방법으로 확보할 수 있는 것처럼, 충분히 많은 수의 피험자를 사용할 경우 우연에 의해 동등성을 확보할 수 있다"(p. 41)고 말했습니다. 또 다른 점에서도 Fisher는 McCall에 의해 앞질러졌습니다. "회전 실험rotation experiment"이라는 용어로 라틴 방격 설계(Latin-square design)가 소개되었으며, 사실 McCall과 Chapman(1916)은 이미 1916년에 5 X 5 및 2 X 2 형태로 이를 사용했었습니다. 이는 Fisher(1926)가 무작위화를 통해 체계적으로 이를 실험 설계에 포함하기 10년 전이었습니다.

 

McCall의 "회전 실험" 사용 방식은 그의 책과 이 장의 강조점을 잘 나타냅니다. 회전 실험은 효율성을 위해 도입된 것이 아니라, 동등한 그룹으로 무작위 할당이 불가능한 상황에서 어느 정도의 통제를 달성하기 위해 도입된 것입니다. 이와 유사하게, 이 장에서는 수많은 실험 일정의 불완전성을 검토하고, 더 나은 실험 설계를 사용할 수 없는 상황에서는 여전히 그 설계를 사용할 것을 권장할 것입니다. 이 의미에서, 무작위화되지 않은 "회전 실험"을 포함하여 논의되는 설계의 대다수는 준실험적 설계로 지정됩니다.

교육 실험에 대한 환멸
Disillusionment with Experimentation in Education

이 장은 실험을 강력히 지지합니다. 교육 실천에 대한 논쟁을 해결하는 유일한 방법, 교육 개선을 검증하는 유일한 방법, 그리고 개선을 도입할 때 열풍에 휩쓸려 과거의 지혜를 버리고 열등한 새로운 것들을 수용하는 위험을 피할 수 있는 유일한 방법으로 실험을 제시합니다. 그러나 우리가 실험을 강력히 옹호한다고 해서, 그 강조점이 새로운 것이라고 생각해서는 안 됩니다. McCall의 책이 존재하는 것에서 알 수 있듯이, Thorndike 시대에는 교육에서 실험에 대한 열정이 주를 이루었고, 아마도 그 정점은 1920년대에 이르렀을 것입니다. 그러나 이 열정은 무관심과 거부로 이어졌고, 실험적 검증이 불가능한 새로운 심리학들이 채택되었습니다. Good과 Scates(1954, pp. 716-721)는 1935년경으로 거슬러 올라가는 비관주의의 물결을 기록했고, 실험을 강력히 옹호했던 Monroe(1938)조차도 "통제된 실험에서의 직접적인 기여는 실망스러웠다"고 말했습니다. 더 나아가, 실험에서 벗어나 수필 작성으로 전향하는 일들이 흔히 발생했으며, 이는 종종 Thorndike의 행동주의에서 게슈탈트 심리학 또는 정신분석으로 전환되는 현상과 함께 이루어졌습니다. 특히 실험 전통에서 잘 훈련된 사람들 사이에서 이러한 일이 빈번하게 일어났습니다.

 

이러한 환멸이 다시 발생하지 않도록 하기 위해, 우리는 이전의 반응의 몇 가지 원인을 인식하고, 그것을 초래한 잘못된 기대를 피하려고 노력해야 합니다. 몇 가지 측면을 살펴보면, 첫째로, 실험으로 인해 얻을 수 있는 발전의 속도와 정도에 대한 주장이 과도하게 낙관적이었으며, 비실험적 지혜에 대한 부당한 평가절하와 함께 이루어졌습니다. 초기 옹호자들은 과학적 방법이 적용되지 않았기 때문에 교육 기술의 발전이 더디다고 가정했으며, 실험을 통해 만들어지지 않았다는 이유만으로 전통적인 실천을 무능하다고 간주했습니다. 그러나 실험이 자주 지루하고, 모호하며, 재현 가능성이 낮고, 예과학적 지혜를 확인하는 경우가 많았을 때, 실험에 대한 과도한 기대는 흔들렸고, 실망으로 인해 실험은 거부되거나 무시되었습니다.

 

이러한 환멸은 실험의 관찰자와 참여자 모두에게 공유되었습니다. 실험자들에게는 개인적으로 실험을 피하려는 조건화가 관찰될 수 있습니다. 동기가 높은 연구자에게는 소중히 여기는 가설이 입증되지 않는 것이 매우 고통스럽습니다. 생물학적이고 심리적인 동물로서 실험자는 학습의 법칙에 지배되며, 이는 그에게 필연적으로 이러한 고통을 연속적인 자극과 사건들과 연관짓게 합니다. 이 자극은 실험 과정 자체와 더 밀접하게 연관되기 쉬우며, 좌절의 "진정한" 원인, 즉 불충분한 이론보다는 더 직접적으로 인식됩니다. 이는 의식적으로든 무의식적으로든 실험 과정을 회피하거나 거부하는 결과를 초래할 수 있습니다. 만약 우리의 과학 환경이 잘못된 응답이 올바른 응답보다 훨씬 더 많이 존재하는 것이라면, 대부분의 실험이 실망스러울 것이라는 것을 예상할 수 있습니다. 우리는 이러한 효과로부터 젊은 실험자들을 보호해야 하며, 일반적으로 실험을 만병통치약이 아닌 점진적인 발전을 위한 유일한 경로로서 정당화해야 합니다. 우리는 학생들에게 지루함과 실망을 기대하고 생물학 및 물리 과학에서 이제 잘 달성된 철저한 인내심의 의무를 가르쳐야 합니다. 또한 우리는 학생들이 재정적 빈곤을 받아들이는 것뿐만 아니라, 실험 결과의 빈곤도 받아들일 수 있도록 준비시켜야 합니다.

 

구체적으로, 우리는 시간적 관점을 확대하고, 과학에서 한 번에 모든 것을 해결하는 결정적인 실험보다는 지속적이고 다중적인 실험이 더 일반적이라는 사실을 인식해야 합니다. 오늘 우리가 수행하는 실험이 성공적이라 하더라도, 그것이 과학의 확고한 일부가 되기 위해서는 다른 조건에서 다른 시기에 재현과 교차 검증이 필요할 것입니다. 그 후에야 비로소 이론적으로 자신감을 가지고 해석될 수 있습니다. 또한, 실험이 증명의 기본 언어이며, 경쟁 이론 간의 불일치를 해결할 수 있는 유일한 판결 방법임을 인정하더라도, 반대 이론을 맞붙이는 "결정적 실험"이 명확한 결과를 가져올 것이라고 기대해서는 안 됩니다. 예를 들어, 유능한 관찰자들이 크게 다른 관점을 강력하게 주장하는 경우, 두 관찰자 모두 자연 상태에 대한 유효한 일부를 관찰했을 가능성이 큽니다. 양쪽이 모두 진리의 일부분을 대변할 가능성이 높습니다. 논쟁이 클수록 이러한 가능성은 더욱 큽니다. 따라서 이러한 경우, 실험 결과가 혼합된 결과를 낳거나 실험마다 미묘하게 진리의 균형이 달라질 수 있다는 결과를 기대할 수 있습니다. 보다 성숙한 접근 방식, 그리고 실험 심리학이 대부분 성취한 접근 방식(예: Underwood, 1957b)은 결정적 실험을 피하고, 대신 여러 실험 변수들의 차원적 관계와 상호작용을 다양한 수준에서 연구하는 것입니다.

 

또한 간과해서는 안 될 점은, 최근 심리학과 교육 분야에 서서히 도입된 크게 향상된 통계 절차입니다. 교육 실험이 가장 활발히 진행되던 시기에는, 비효율적인 방법으로 연구가 진행되었습니다. McCall(1923)과 그의 동시대인들은 한 번에 하나의 변수만을 다루는 연구를 했습니다. 인간 학습 상황의 엄청난 복잡성을 고려할 때, 이는 지나치게 제한적이었습니다. 우리는 이제 두 개 이상의 실험 변수가 공동으로 "작용"하는 경우에 대한 의존성(조건)이 얼마나 중요한지 알고 있습니다. Stanley(1957a, 1960, 1961b, 1961c, 1962), Stanley와 Wiley(1962) 등의 연구자들은 이러한 상호작용 평가의 중요성을 강조했습니다.

 

실험은 두 가지 방식 중 하나 또는 둘 다에서 다변량일 수 있습니다. 첫째, 여러 개의 "독립 변수"(성별, 학년, 산수 교육 방법, 글꼴 스타일, 글꼴 크기 등)가 설계에 포함될 수 있고, 둘째, 여러 개의 "종속 변수"(오류 수, 속도, 정답 수, 다양한 테스트 등)가 사용될 수 있습니다. Fisher의 절차는 첫 번째 의미에서는 다변량이지만, 두 번째 의미에서는 단일 변수에 해당합니다. 수학 통계학자들(예: Roy와 Gnanadesikan, 1959)은 이 두 가지 유형의 다변량 설계를 통합하는 설계 및 분석을 개발하고 있습니다. 교육 연구자들이 이에 주의를 기울인다면, 통계 절차가 기술 문헌에 도입된 후 실질적인 연구에 활용되기까지의 통상적인 큰 시간차를 줄일 수 있을 것입니다.

 

의심할 여지 없이, 현대의 실험 통계에 대한 교육 연구자들의 훈련을 보다 철저히 함으로써, 교육 실험의 질을 향상시킬 수 있을 것입니다.

누적된 지혜와 과학에 대한 진화적 관점
Evolutionary Perspective on Cumulative Wisdom and Scienc

이전 단락들, 그리고 앞으로 이어질 내용에서 핵심적으로 다루는 것은 지식에 대한 진화적 관점입니다(Campbell, 1959). 이 관점에서는 적용된 실천과 과학적 지식이 경험을 통해 선택적으로 유지된 시도들의 축적물로 여겨집니다. 이 과정에서 성공하지 못한 수많은 시도들이 걸러지면서 남은 것이 현재 우리가 사용하는 지식입니다. 이러한 관점은 교수법에서 전통을 상당히 존중하게 만듭니다. 수세기 동안 다양한 접근법들이 시도되었고, 어떤 접근법들은 다른 것들보다 더 효과적이었으며, 이러한 효과적인 방법들은 원래 개발한 사람들에 의해 지속적으로 사용되거나, 다른 사람들에 의해 모방되거나, 제자들에게 가르쳐지면서 지금까지 남아 있을 가능성이 큽니다. 따라서 이러한 관습들은 모든 가능한 실천들 중에서 검증되고 가치 있는 하위 집합을 대표할 수 있습니다.

 

그러나 이러한 진화 과정에서 선택의 과정은 자연 상태에서는 매우 부정확합니다. 관찰의 조건, 즉 물리적, 심리적 환경은 최적과는 거리가 멉니다. 무엇이 살아남거나 유지되는지는 상당 부분 순전히 우연에 의해 결정됩니다. 실험은 이 시점에서 테스트, 탐구, 선택 과정의 관련성을 더욱 정밀하게 만드는 수단으로 등장합니다. 실험 자체는 전통적인 지혜에 반드시 반하는 새로운 아이디어의 원천으로 간주되지 않습니다. 오히려 이미 가치 있는 전통적 실천을 더욱 정제하는 과정으로 이해됩니다. 따라서 교육에 대한 실험 과학을 옹호하는 것은 전통적인 지혜와 상충되는 입장을 채택하는 것을 의미하지 않습니다.

 

일부 독자들은 인간적 요소 때문에 다윈의 진화론적 계획과의 유사성이 복잡해진다고 생각할 수 있습니다. 예를 들어, 학교 교장인 John Doe가 새로 개정된 교과서를 채택할지, 기존의 교과서를 더 오래 사용할지 결정을 내려야 하는 상황에 직면할 때, 그는 아마도 제한된 정보에 근거해 선택할 것입니다. 단순히 교수와 학습의 효율성 외에도 여러 가지 고려 사항들이 그의 결정에 영향을 미칠 수 있습니다. 교장은 두 가지 방식으로 올바른 결정을 내릴 수 있습니다: 기존의 교과서가 새 교과서와 동등하거나 더 나은 경우에는 기존 교과서를 유지하는 것이 옳고, 새 교과서가 더 우수할 때는 개정된 교과서를 채택하는 것이 옳습니다. 반대로, 교장은 두 가지 방식으로 잘못된 결정을 내릴 수도 있습니다: 새 교과서가 더 나은데도 기존 교과서를 유지하는 것, 또는 새 교과서가 기존 교과서보다 나을 게 없는데도 새 교과서를 채택하는 것입니다.

 

이 두 가지 잘못된 선택에 대한 여러 종류의 "비용"을 대략적으로 추정할 수 있습니다.

  • (1) 재정적 비용과 에너지 소비 비용;
  • (2) 교사, 학부모, 학교 이사회 구성원들로부터 받을 불만에 대한 교장의 비용;
  • (3) 교사, 학생, 사회가 받는 열악한 교육으로 인한 비용.

이러한 비용들은 금전, 에너지, 혼란, 학습 감소, 개인적 위협 측면에서 평가되며, 각 비용이 발생할 확률과 오류 자체가 감지될 확률과 비교해 고려되어야 합니다. 만약 교장이 열악한 교육(Cost 3)에 대한 적절한 연구 증거 없이 결정을 내린다면, 그는 아마도 비용 1과 2를 과도하게 강조할 가능성이 큽니다. 이러한 상황에서 기존 교과서를 한 해 더 유지하는 보수적인 접근이 유리하게 작용할 것입니다. 하지만 우리는 두 교과서를 비교하는 실험을 결정 이론의 틀(Chernoff & Moses, 1959)로 분석할 수 있으며, 다양한 비용과 확률을 명시적으로 고려한 결정을 내릴 수 있습니다. 훌륭한 교육 관리자들의 신중한 결정이 이 결정 이론 모델과 얼마나 유사한지 연구해보는 것은 중요한 문제입니다.

내적 타당성과 외적 타당성을 위협하는 요인들
Factors Jeopardizing Internal and External Validity

이 장의 다음 몇 섹션에서는 다양한 실험 설계의 타당성을 위협하는 12가지 요인을 설명합니다. 각 요인은 특정 실험 설계와 관련된 문제로 다루어지며, 16개의 설계 중 10개가 제시된 후 이 요인들의 목록이 완성됩니다. 그러나 전반적인 관점을 제공하기 위해 이 요인들의 목록과 논의를 부분적으로 요약한 표 1, 2, 3에 대한 일반적인 가이드를 제공하는 것이 유익할 것 같습니다. 이 목록의 근본적인 개념은 내적 타당성외적 타당성 간의 구분입니다.

  • 내적 타당성실험이 해석될 수 있는 최소한의 조건을 의미합니다: "실험에서 사용된 처치가 이 특정 실험 상황에서 실제로 차이를 만들어냈는가?"
  • 외적 타당성일반화 가능성에 대한 질문을 던집니다: "이 효과는 어떤 모집단, 환경, 처치 변수, 측정 변수로 일반화될 수 있는가?"

두 가지 유형의 기준은 모두 중요하지만, 종종 하나를 향상시키면 다른 하나가 위험해지는 경우가 많습니다. 내적 타당성이 필수 불가결한 요소이며, 외적 타당성 문제는 귀납적 추론의 문제와 같이 결코 완전히 답을 내릴 수 없지만, 두 가지 타당성이 모두 강한 설계를 선택하는 것이 이상적입니다. 특히 교육에 관한 연구에서는 이미 알려진 특성의 응용 환경으로 일반화하는 것이 필수적입니다. 이러한 두 타당성 간의 구분과 관계는 특정 설계의 논의에서 더 명확하게 설명될 것입니다.

내적 타당성에 관련된 요인들

내적 타당성과 관련된 8가지 범주의 외부 변수를 설명할 것입니다. 이러한 변수들이 실험 설계에서 통제되지 않으면, 실험 자극의 효과와 혼동되어 실험 결과에 영향을 미칠 수 있습니다. 이러한 변수들은 다음과 같은 효과를 나타냅니다:

  1. 역사적 요인History,: 실험 변수 외에도 첫 번째 측정과 두 번째 측정 사이에 발생하는 특정 사건들.
  2. 성숙 요인Maturation,: 피험자 내부에서 시간이 경과함에 따라 작용하는 과정(특정 사건과 무관), 예를 들어 나이 들어감, 배고픔 증가, 피로 증가 등.
  3. 검사 요인Testing,: 첫 번째 테스트를 받는 것이 두 번째 테스트의 점수에 미치는 영향.
  4. 도구 요인Instrumentation,: 측정 도구의 보정이나 관찰자 또는 평가자의 변화로 인해 측정 결과에 변화가 발생할 수 있는 상황.
  5. 통계적 회귀Statistical regression,: 극단적인 점수를 기준으로 그룹이 선택되었을 때 작동하는 회귀 현상.
  6. 선택 편향selection: 비교 그룹 간 피험자의 선택에서 발생하는 차이.
  7. 실험적 탈락Experimental m ortality: 비교 그룹에서 피험자가 차별적으로 탈락하는 현상.
  8. 선택-성숙 상호작용Selection-maturation interaction: 예를 들어, 다중 그룹 준실험적 설계(설계 10 등)에서, 실험 변수의 효과로 혼동될 수 있는 변수.

외적 타당성을 위협하는 요인들

외적 타당성 또는 대표성을 위협하는 요인으로는 다음이 있습니다:

  1. 검사의 반응성 또는 상호작용 효과The reactive or interaction effect of testing,: 사전 검사가 피험자의 실험 변수에 대한 민감도나 반응성을 증가시키거나 감소시켜, 사전 검사를 받은 집단에서 얻은 결과가 실험에 참여하지 않은 모집단의 결과와 다를 수 있습니다. 즉, 실험에 참여한 응답자가 속한 모집단과 전체 모집단 간의 차이가 발생할 수 있습니다.
  2. 선택 편향과 실험 변수 간의 상호작용 효과: 실험 설계에서 선택 편향이 실험 변수와 상호작용하여 결과에 영향을 미칠 수 있습니다. 이는 특정 집단이 실험에서 어떻게 선택되었느냐에 따라 실험 변수의 효과가 다르게 나타날 수 있다는 것을 의미합니다.
  3. 실험적 배열의 반응 효과Reactive effects of experimental arrangements: 실험 환경에서 실험 변수에 노출된 피험자가 보이는 반응이 실험 외의 실제 환경에서는 동일하게 나타나지 않을 수 있습니다. 즉, 실험적 상황에서 발생한 효과가 일상적인 비실험적 환경에서는 재현되지 않을 수 있기 때문에 일반화에 문제가 발생할 수 있습니다.
  4. 다중 처치 간섭: 동일한 피험자에게 여러 가지 처치가 적용될 때, 이전 처치의 효과가 완전히 사라지지 않기 때문에 발생할 수 있는 문제입니다. 이는 특히 8번이나 9번과 같은 한 그룹 설계에서 문제가 될 수 있습니다.

 

실험 설계의 표기 방식

실험 설계를 제시할 때는 각 설계의 주요 특징을 간략히 표현하기 위해 일관된 코드와 그래픽 표현을 사용합니다.

  • X는 실험 변수를 피험자에게 적용하는 것을 나타내며, 그 변수가 미치는 영향을 측정합니다.
  • O는 관찰 또는 측정 과정을 나타냅니다.
  • 동일한 행에 있는 XO는 같은 사람들에게 적용됩니다.
  • 좌에서 우로 진행되는 방향은 시간 순서를 나타내며, 수직으로 나열된 XO는 동시에 발생하는 것을 의미합니다.

중요한 구분을 명확히 하기 위해, 예를 들어 설계 2설계 6, 설계 4설계 10 간의 차이를 명확히 하기 위해 R 기호가 필요합니다. 이 R은 무작위로 피험자들을 서로 다른 처치 그룹에 배정하는 것을 나타내며, 이는 사전 처치에서 그룹 간의 동등성을 달성하기 위한 만능 절차입니다.

  • 평행한 행이 대시로 구분되지 않은 경우, 이는 무작위 배정으로 동등하게 만들어진 비교 그룹을 나타냅니다.
  • 반면, 대시로 구분된 평행한 행은 무작위 배정 없이 동등하게 배정되지 않은 비교 그룹을 나타냅니다.

사전 처치에서 비교 그룹의 동등성을 확보하기 위한 매칭(matching) 기호는 사용하지 않았습니다. 이는 매칭의 가치가 과장되었고, 오히려 유효한 추론보다 잘못된 추론을 일으키는 원천이 되는 경우가 더 많기 때문입니다. (설계 10 및 상관 설계에 대한 마지막 섹션 참조).

또한, M 기호는 설계 9에서 특정 방식으로 재료(materials)를 나타내기 위해 사용되었습니다.