최근 몇 년간 과학 연구의 타당성에 대한 우려가 증가해 왔으며, 적지 않은 생의학 연구 결과가 거짓임을 보여주는 상당한 증거가 있다. 많은 연구자들은 거짓된 연구 결과는 시간이 지나면 저절로 고쳐지리라 기대하지만, 늘 그렇지는 않다. '서랍장 효과(네가티브 결과가 발표되지 않는 것)’복제replication가 제대로 인정받지 못하고 드물게만 이뤄진다는 사실을 고려하면, 거짓 연구 결과가 교정되는 것은 오히려 예외적인 일일지도 모른다.

 

그렇다면 교육 연구에서 죄악(deadly sin)이라 할 수 있는 행위는 무엇이 있을까?

 

1

첫째, 허술한 문헌고찰이다. 안타깝게도, 연구자들은 종종 가설에 부합하는 문헌만 찾는 왜곡된 문헌고찰을 한다. 더욱 흔한(그리고 더 나쁜) 것은 연구가 완료되고 결과를 얻은 후에 문헌을 검토하는 행위다. 그렇게 되면 선행연구를 선택적으로 사용할 것이며, 결과를 뒷받침하게끔 가설을 수정하게 된다. 과학연구의 무작위성randomness 상 위양성인 결과는 얼마든지 발생할 수 있는데, 이렇게 결과를 얻은 후 가설을 수정하는 것은 후진적backward 접근이다. 더 큰 문제는 위양성 근거를 바탕으로 잘못된 결론을 내림으로써 해당 학문분야를 오염시키게 되는데, 이는 왜 어떤 연구결과가 재현되지 않는지를 부분적으로 설명해준다.

 

2

둘째, 불충분한 검정력power이다. 검정력은 표본의 크기, 검정하는 가설의 숫자, 효과크기에 영향을 받는다. , 낮은 검정력은 [작은 표본], [작은 효과], 또는 [이 둘의 조합] 에서 기인할 수 있다. 한편, 위양성을 줄이기 위하여 검정력을 매우 높은 값으로 증가시키면, 반대로 위음성을 증가시키는 의도하지 않은 결과를 초래할 수 있다. 교육 연구에서 적절한 검정력은 일반적으로 0.8이다.

 

3

셋째, 측정의 중요성을 간과하는 것이다. 검증되지 않은 척도를 사용하거나, 심리측정적 특성이 좋지 않은 척도를 채택하는 것은 결과에 더 많은 "소음"을 더할 뿐이다. 연구 대상이 되는 [구인construct]을 과소 대표하거나 과대 대표하는 측정 도구(: 설문지)도 문제의 원인이 될 수 있다. 시험의 경우, 문항이 너무 쉽거나 어려운 것도 상관관계를 낮추거나 편향된 결과를 내놓는 등의 문제를 발생시킨다(천장ceiling 효과, 바닥floor 효과).

 

4

넷째, 잘못된 통계 도구 사용이다. 가장 일반적인 것은 데이터가 사용 중인 통계기법의 가정을 충족하는지 여부를 점검(또는 보고)하지 않는 것이다. 가장 자주 위반되는 가정은 관찰이 독립적이라는 가정이다. 예를 들여, 20명의 사람에게 3회씩 측정한 자료를 60명의 자료인 것처럼 취급하는 것이다. 위양성(Type 1 error)의 가능성이 높아지기 때문에, 데이터 분석 기법의 가정을 충족하는지를 확인하고, 통계적 가정이 위반되었을 경우 적절한 조치(데이터 변환)를 취하거나 다른 통계 기법(비모수 통계)을 사용해야 한다. 연구 초기에 통계학자와 상담하는 것이 도움이 될 것이다.

 

5

다섯째, 데이터를 무자비하게 고문하거나, 부적절하게 분석하는 것이다. 대표적인 행위로는 자신의 가설에 부합하는 결과만 보고하기('체리피킹'), 결과에 맞게 통계적으로 유의한 임계값을 완화하기, 단측 검정을 사용하고도 이를 언급하지 않기, 가설과 적합하도록 P 값을 수정하기(0.049인데 0.04로 보고) 등이 있다. 마지막으로 낚시fishing역시 문제가 된다. 이는 미리 정해둔 가설과 무관하게 데이터로부터 유의한 발견을 채굴mining’하는 것을 의미한다. 이 경우 1종 오류가 높아지고, 인위적으로 통계적 유의성이 인플레이션된다.

 

6

여섯째, P-value의 노예가 되는 것이다. 크게 두 가지 문제가 있다.

첫째, 통계적으로 유의한 결과(, 귀무 가설을 기각함)가 반드시 연구자의 가설을 확인해주는 것은 아닌데, 이런 식으로 잘 못 해석하는 경우가 많다.

둘째, 표본 크기가 매우 크면 작은 차이도 확대magnify된다. 그 결과, 작은 차이는 통계적으로는 유의하지만, 실질적으로 사소한 경우가 생긴다. 따라서 효과크기나 신뢰구간과 같은 보다 유익하고 실용적인 지표로 p-value를 보완해야 한다.

 

7

일곱째, 결과 보고서와 원 데이터 유지의 투명성이 결여된 것이다. 논문에 실린 통계 결과는 나중에 메타분석에서 활용될 수 있기에 정확한 보고와 투명성이 중요하다. 즉 일차연구(primary) 수준의 보고에서 오류가 발생하면, 메타 분석의 오류와 편향으로 이어질 수 있다. 연구자들은 기본적인 기술 통계량(표본 크기, 평균, 표준 편차)과 정확한 P 값에 대한 완전한 정보를 제공하기 위해 노력해야 한다. 마지막으로, 통계 분석에 관한 자료를 완전히 공개하는 것도 중요하다.

 

1

근거란 무엇인가?

 

2

근거는 절대적이거나 '유일한' 단순하게 정의되지 않는다. 근거는 어떤 것과 관련되어, 또는 마릴린 해밋 (Marilyn Hammick)이 제안한 것처럼, '무언가를 대리하는 것having agency'이다. 게다가 포스트모던 관점으로 보면, 근거에 대한 단 하나의 meta definition은 없다. 목적이 달라지면 필요로 하는 근거의 출처와 유형도 달라질 것이다. 이 때 근거는 실증적일 수도, 이론적일 수도, 경험적일 수도 있다.

 

3

근거를 내러티브라고 보는 관점이 있다Trisha는 학문분야에 따라 근거를 어떻게 개념화하는지가 다르다고 말했다. 증거의 본질을 탐구하는 프로젝트에서 두 개의 주요 그룹이 형성되었다.

 

Bayesians라는 별명을 가진 사람들은 통계학, 경제학, 인지심리, 공학 및 의학계의 구성원들이었으며, 주제, 문맥 조건 또는 특정 질문이 무엇이든 적용 할 수있는 '통일된 근거 이론unifying theory of evidence'을 만들어 냈다. 이 그룹은 '근거'는 필연적으로 확률적이며, 체계적 검토와 제어 된 실험을 통해 연구 설계의 위계와 연결되어 예측의 과학을 향상시키는 데 주력한다는 전제로 시작되었습니다.

 

Non-Bayesians은 보다 이질적이었다. 이들은 철학, 영어, 사회학, 고대사, 의학 (트리샤의 모습으로), 인류학, 교육학 등을 대표하며, 법학은 여전히 ​​unaligned한 입장이었다. non-Bayesians는 근거에 대해 통일된 이론을 만들려하지 않았다. 이들은 그러한 이론이 환원적이고 도움이되지 않는고 보았다. 오히려, 그들의 사명은 명백히 다원주의적의고 탐색적이며, 서사적인 접근이었다심지어 법정에서도, 증거의 상당 부분이 수치적이거나 기술적 척도로 구성되어 있더라도, 궁극적으로 특정 사건은 그 모든 것들을 하나로 모으는 내러티브의 일관성에 달려있다. 모든 증거는 근본적으로 서술적이다.

 

4

혹은 근거를 레토릭이라고 보는 관점도 있다.

"Narrative"라는 명칭이 "Rhetoric"으로 절하되었다고 볼 수도 있다. 아리스토텔레스는 기원전 4 세기에 설득의 예술에 대해서 기술하면서, '레토릭'이란 세 가지로 구성되어있다고 말했다 - 로고스(사실), 에토스(화자의 신뢰성), 파토스(감정에 대한 호소). Perelman Olbrachts-Tyteca는 여기에 네 번째(청중에 대한 이해)를 추가했다. , 어떤 논증이든, 그 주장을 접하는 청중은 공유된, 당연시되는 가정에서부터 시작할 것이다 (이는 가치관value라고 부를 수도 있다).

 

5

Huw Davies는 연구 결과라는 것은, 그 자체로는 생명력이 없는inanimate 데이터에 불과하며, 어떤 행동을 일으킬motivate 때에만 의미가 있다고 주장한다. , 인간 행위자에 의해 처리될 때에만 그 데이터가 '지식' 또는 '근거'로서 이해될 수 있다는 것이다. 연구결과는 그 자체로 무언가를 말해주지는 않는다는 것이다speak for itself. 그 결과가 번역translate되고, 어떤 맥락에 놓여지고, 다른 종류의 데이터와 지식(암묵적 지식과 전문적 경험을 포함)과 융합되어야 한다. 따라서 체계적 문헌고찰은 필수적이지만, 동시에 연구결과란 로컬 시스템, 문화 및 자원의 맥락에서 해석되어야 한다.

 

6

연구에서 지식을 얻는 것은 고도로 사회적이고 맥락적인 과정이다. 마찬가지로 연구결과의 해석과 통합도 국지적 문제와 과제, 의사결정의 필요성을 인식할 때 발생하는 사회문화적 맥락 속에서의 대화를 통해 이뤄진다. 어떤 (연구) 데이터가 모여서 '근거'로서의 힘을 갖게 될지는 사회적 맥락과 그 사회 내부의 의사 소통 패턴에 달려있다. 더욱이 근거라는 것은 힘이 있는 사람이 '근거'라고 말할 때 그렇게 된다. 모든 사회 문화적 시스템 내에는 정당성을 강화하거나 약화시키는 권력 역학이 존재한다. 힘이 있는 사람들(그 힘을 어떻게 얻었든)은 힘이 없는 사람들보다 특정 데이터가 더 설득력이 있다고 주장할 수 있는 능력을 갖추고 있다. '의사 결정을 위한 근거'를 과도하게 강조하게 도면, 새로운 사고 방식을 열어줄 수 있는 훨씬 광범위한 연구 기반이 상대적으로 무시될 수도 있다.

 

7

BEME에서, 어떤 것이 근거로 간주될 수 있는가는, 우리가 보건의료전문직교육HPE에 대해 어떤 종류의 결정을 내리고자 하느냐에 달려 있다. Kirkpatrick의 레벨을 '계층 구조'로 간주하는 것이 부적절할 수 있으며, 교육 연구의 질이 좋지 않음의 증거로 여겨지는 것들은, 실제로는 교육 연구의 다양성을 보여주는 것이다.

 

8

실용적인 관점이라는 개념은 체계적인 문헌고찰이 수행되는 방식(연구의 실제 수행)과 수집 된 증거가 합성되고 보고되는 ​​방식(결과 및 고찰이 사용될 것을 고려함) 모두에 적용될 수 있다. 전자에 대해서 연구자는 systematicityfeasibility의 균형을 유지해야 한다. 후자에 관해서, 연구자는 최종 사용자의 실질적 요구를 염두에 두어야 하고, 여기에는 청중에 대한 이해가 필수적입니다. 따라서 과도한 전문용어나 통계적으로 이러쿵저러쿵(hocus-pocus)하는 식으로 단순히 다양한 형태의 근거를 보여주는 것이 아니라, 근거들의 복잡성, 뉘앙스 및 문맥 적 풍부함을 증류distil하여, 단순히 consumable할 뿐만 아니라, digestible하고, 심지어는 HPE의 동료들에게 satisfying하도록 만들어야 할 것이다.

 

출처:

Thistlethwaite, J., Davies, H., Dornan, T., Greenhalgh, T., Hammick, M., & Scalese, R. (2012). What is evidence? Reflections on the AMEE symposium, Vienna, August 2011. Medical teacher, 34(6), 454-457.

1. 논문에서 [문헌 고찰Literature review] 섹션의 목적은 알려진 것을 보고하는 것이 아니다. 그보다 알려지지 않은 것('지식결손knowledge deficit')이 무엇인지 식별하여, 연구의 필요성을 확립하는 것이다. 이것은 갭 주장(Gap claim)이라고도 할 수 있다.

 

2. 문헌 고찰에서 '지금까지 알려진 것을 기술한다'는 방식의 문제점은 [세상의 온갖 사실들에 대한 너저분한 목록]만 만들고, 정작 독자에게 [다음 단계로 본 연구가 필요하다는 것]은 설득하지 못한다는 것이다.

 

3. 따라서 문헌 고찰은 [연구 영역의 지도를 그리는 것]으로 생각해야 한다. 이는 ['중요하다고 알려진 것'으로 둘러싸인 채색된 틈새에서, 아직 채색되지 않은 하얀 공간]을 강조하는 지도이다. 문헌 고찰을 이렇게 개념화 함으로써, [알려진 것을 제시]하고 [알려지지 않은 것을 지적]하는 두 가지 목표를 달성할 수 있다.

 

4. 문헌 고찰에는 자신이 읽은 모든 논문을 토해내지regurgitate 않아야 한다. 이것이 직관에 반할지도 모르지만, 세 가지 이유가 있다. 첫째, 공간이 없다. 둘째, 이미 개종한 사람에게는 설교할 필요가 없다. 셋째, 문헌 고찰에서 [관련성relevance]의 핵심은 [이미 알려진 것의 갭]을 짚어내는 것이다.

 

5. 문헌 고찰 파트는, 독자에게 중력을 가하여, [지식의 지도 위의 하얀 공간]으로 독자를 거침없이 이끌어야 한다. 그리고 그 하얀 공간이 바로 당신의 연구가 채워줄 공간이다.

 

6. 이렇게 문헌 고찰을 쓸 때는 '지식 주장knowledge claims'이라는 개념이 유용할 것이다. 지식 주장은 해당 분야의 연구자 공동체에서 특정 주제에 대한 이해가 어떻게 증대되어 왔는지를 보여주는 방법이다. 따라서 어떤 사람들은 여기에 동의할 수도 있고, 어떤 사람들은 동의하지 않을 수도 있다. 하지만 이러한 방식으로 기술함으로써, 검토한 지식의 현재 위치를 파악locating할 수 있다.

 

7. 지식 주장KC으로부터, 갭, 훅hook까지 이어지는 구조는 다음과 같다

  1. KC: X에 관해 우리는 A를 알고 있습니다.
  2. KC: X에 관해 우리는 B를 알고 있습니다.
  3. KC: A와 B로 인해서 지금까지 C와 같은 시도가 있었습니다.
  4. KC: 하지만 C는 D1이라는 조건에서 주로 이뤄졌습니다.
  5. Gap: 결국 D2라는 조건에 대해서는 거의 알려진 바가 없습니다.
  6. Hook: D2조건 하에서 X가 다수 발생하기에, D2조건에서 C에 대한 이해가 필요합니다.

8. 위의 구조는 문헌 검토를 구성하는 아웃라인으로 쓸 수 있다. 무엇보다 이러한 방식으로 지식 주장KC로부터 갭 주장gap claim까지 전략적으로, 설득력있게 이끌어갈 수 있다. 

 

9. 그렇다면 갭 주장Gap claim에는 어떤 유형이 있을까? 대표적으로 다음이 있다.

  • 지식의 완전한 결여: 'A1과 A2사이의 관계를 살펴본 연구자는 아무도 없다'
  • 학술적 취약 지점: '연구자들은 B1의 관점에서 X를 해석했지만, B2의 관점은 경시했다' 또는 'Y라는 주제는 B3의 접근법으로 조사되어왔지만, B4 접근법으로는 탐구하지 않았다.'
  • 논란: 'C의 정의에 대한 연구자 간 불일치가 있다'
  • 널리 퍼져있지만, 증명되지 않은 가정:  문헌에서 쉽게 찾아볼 수 있는 D라는 믿음은 무엇에 기반을 두고 있는가?'

10. 요약하자면, 문헌 검토는 '알려진 것의 요약'이 아니라, '갭의 지도화mapping the gap'라고 생각해야 한다. 그리고 이 갭의 유형을 어떻게 특징지을 수 있는지에 주의를 기울여야 한다. 

 

 

Reference

Lingard L. Writing an effective literature review : Part I: Mapping the gap. Perspect Med Educ. 2018 Feb;7(1):47-49. doi: 10.1007/s40037-017-0401-x. PMID: 29260402; PMCID: PMC5807267.

+ Recent posts