논문을 읽고 씁니다.

교육 연구의 7대 죄악

Meded. 2022. 2. 11. 05:43

최근 몇 년간 과학 연구의 타당성에 대한 우려가 증가해 왔으며, 적지 않은 생의학 연구 결과가 거짓임을 보여주는 상당한 증거가 있다. 많은 연구자들은 거짓된 연구 결과는 시간이 지나면 저절로 고쳐지리라 기대하지만, 늘 그렇지는 않다. '서랍장 효과(네가티브 결과가 발표되지 않는 것)’복제replication가 제대로 인정받지 못하고 드물게만 이뤄진다는 사실을 고려하면, 거짓 연구 결과가 교정되는 것은 오히려 예외적인 일일지도 모른다.

 

그렇다면 교육 연구에서 죄악(deadly sin)이라 할 수 있는 행위는 무엇이 있을까?

 

1

첫째, 허술한 문헌고찰이다. 안타깝게도, 연구자들은 종종 가설에 부합하는 문헌만 찾는 왜곡된 문헌고찰을 한다. 더욱 흔한(그리고 더 나쁜) 것은 연구가 완료되고 결과를 얻은 후에 문헌을 검토하는 행위다. 그렇게 되면 선행연구를 선택적으로 사용할 것이며, 결과를 뒷받침하게끔 가설을 수정하게 된다. 과학연구의 무작위성randomness 상 위양성인 결과는 얼마든지 발생할 수 있는데, 이렇게 결과를 얻은 후 가설을 수정하는 것은 후진적backward 접근이다. 더 큰 문제는 위양성 근거를 바탕으로 잘못된 결론을 내림으로써 해당 학문분야를 오염시키게 되는데, 이는 왜 어떤 연구결과가 재현되지 않는지를 부분적으로 설명해준다.

 

2

둘째, 불충분한 검정력power이다. 검정력은 표본의 크기, 검정하는 가설의 숫자, 효과크기에 영향을 받는다. , 낮은 검정력은 [작은 표본], [작은 효과], 또는 [이 둘의 조합] 에서 기인할 수 있다. 한편, 위양성을 줄이기 위하여 검정력을 매우 높은 값으로 증가시키면, 반대로 위음성을 증가시키는 의도하지 않은 결과를 초래할 수 있다. 교육 연구에서 적절한 검정력은 일반적으로 0.8이다.

 

3

셋째, 측정의 중요성을 간과하는 것이다. 검증되지 않은 척도를 사용하거나, 심리측정적 특성이 좋지 않은 척도를 채택하는 것은 결과에 더 많은 "소음"을 더할 뿐이다. 연구 대상이 되는 [구인construct]을 과소 대표하거나 과대 대표하는 측정 도구(: 설문지)도 문제의 원인이 될 수 있다. 시험의 경우, 문항이 너무 쉽거나 어려운 것도 상관관계를 낮추거나 편향된 결과를 내놓는 등의 문제를 발생시킨다(천장ceiling 효과, 바닥floor 효과).

 

4

넷째, 잘못된 통계 도구 사용이다. 가장 일반적인 것은 데이터가 사용 중인 통계기법의 가정을 충족하는지 여부를 점검(또는 보고)하지 않는 것이다. 가장 자주 위반되는 가정은 관찰이 독립적이라는 가정이다. 예를 들여, 20명의 사람에게 3회씩 측정한 자료를 60명의 자료인 것처럼 취급하는 것이다. 위양성(Type 1 error)의 가능성이 높아지기 때문에, 데이터 분석 기법의 가정을 충족하는지를 확인하고, 통계적 가정이 위반되었을 경우 적절한 조치(데이터 변환)를 취하거나 다른 통계 기법(비모수 통계)을 사용해야 한다. 연구 초기에 통계학자와 상담하는 것이 도움이 될 것이다.

 

5

다섯째, 데이터를 무자비하게 고문하거나, 부적절하게 분석하는 것이다. 대표적인 행위로는 자신의 가설에 부합하는 결과만 보고하기('체리피킹'), 결과에 맞게 통계적으로 유의한 임계값을 완화하기, 단측 검정을 사용하고도 이를 언급하지 않기, 가설과 적합하도록 P 값을 수정하기(0.049인데 0.04로 보고) 등이 있다. 마지막으로 낚시fishing역시 문제가 된다. 이는 미리 정해둔 가설과 무관하게 데이터로부터 유의한 발견을 채굴mining’하는 것을 의미한다. 이 경우 1종 오류가 높아지고, 인위적으로 통계적 유의성이 인플레이션된다.

 

6

여섯째, P-value의 노예가 되는 것이다. 크게 두 가지 문제가 있다.

첫째, 통계적으로 유의한 결과(, 귀무 가설을 기각함)가 반드시 연구자의 가설을 확인해주는 것은 아닌데, 이런 식으로 잘 못 해석하는 경우가 많다.

둘째, 표본 크기가 매우 크면 작은 차이도 확대magnify된다. 그 결과, 작은 차이는 통계적으로는 유의하지만, 실질적으로 사소한 경우가 생긴다. 따라서 효과크기나 신뢰구간과 같은 보다 유익하고 실용적인 지표로 p-value를 보완해야 한다.

 

7

일곱째, 결과 보고서와 원 데이터 유지의 투명성이 결여된 것이다. 논문에 실린 통계 결과는 나중에 메타분석에서 활용될 수 있기에 정확한 보고와 투명성이 중요하다. 즉 일차연구(primary) 수준의 보고에서 오류가 발생하면, 메타 분석의 오류와 편향으로 이어질 수 있다. 연구자들은 기본적인 기술 통계량(표본 크기, 평균, 표준 편차)과 정확한 P 값에 대한 완전한 정보를 제공하기 위해 노력해야 한다. 마지막으로, 통계 분석에 관한 자료를 완전히 공개하는 것도 중요하다.