출처: Benson, K., & Hartz, A. J. (2000). A comparison of observational studies and randomized, controlled trials. New England Journal of Medicine, 342(25), 1878-1886.
https://www.nejm.org/doi/10.1056/NEJM200006223422506
관찰 연구는 무작위 대조 연구에 비해 몇 가지 이점이 있습니다. 여기에는 비용이 저렴하고, 더 신속하게 수행되며, 더 넓은 범위의 환자를 포함할 수 있다는 점이 포함됩니다.1 그러나 이러한 연구에 내재된 편향에 대한 우려로 인해 치료법을 비교하는 데 있어 관찰 연구의 사용이 제한되어 왔습니다.2,3 관찰 연구는 주로 위험 인자 및 예후 지표를 식별하거나 무작위 대조 연구를 수행하는 것이 불가능하거나 윤리적으로 문제가 될 수 있는 상황에서 사용됩니다.4
관찰 연구에 대한 경험적 평가는 주로 1970년대와 1980년대에 수행된 영향력 있는 비교 연구들에 기반하고 있습니다.5–9 이러한 연구들은 관찰 연구가 무작위 대조 연구와 비교했을 때 치료 효과를 과대평가하는 경향이 있음을 시사했습니다. 주요 연구 중 하나인 Chalmers 등6은 무작위화되지 않은 연구의 56%가 긍정적인 치료 효과를 보고한 반면, 무작위화되고 눈가림이 된 대조 연구는 30%만이 긍정적인 결과를 보고했다는 것을 보여주었습니다. 다른 세 가지 연구도 유사한 결과를 보였습니다.7–9 많은 전문가에 따르면 이러한 결과는 관찰 연구가 근거 기반 의학적 치료를 정의하는 데 사용되어서는 안 된다는 의미를 지닙니다. “만약 [한] 연구가 무작위화되지 않았음을 발견했다면, 그 논문을 읽는 것을 멈추고 다음 논문으로 넘어갈 것을 권장합니다.”10
관찰 연구에 대한 평가는 주로 1960년대와 1970년대에 수행된 연구들을 포함해 왔습니다. 우리는 1985년에서 1998년 사이에 보고된 관찰 연구를 평가했으며, 이는 이전 연구보다 방법론적으로 우수할 수 있습니다. 가능한 방법론적 개선 사항에는 더 정교한 데이터 세트 선택과 더 나은 통계적 방법이 포함될 수 있습니다. 새로운 방법론은 일부 체계적 편향을 제거했을 가능성이 있습니다.
방법
METHODS
관찰 연구 검색
Search for Observational Studies
관찰 연구는 1985년에서 1998년 사이에 보고된 연구들을 대상으로 Medline 및 Cochrane Database of Systematic Reviews에서 체계적으로 검색하여 찾았습니다. Medline은 현재 무작위 대조 연구에 대한 민감도가 높은 검색을 위해 색인이 지정되어 있지만, "관찰 연구"는 Medline에서 색인화할 수 있는 개념이 아니며 관찰 연구에 대한 검색 용어도 없습니다(Wright N, National Library of Medicine: 개인 통신). 따라서 우리는 "관찰", "코호트", "후향적", "횡단적", "무작위화되지 않음"이라는 텍스트 단어 전략을 사용하여 검색했습니다. 검색 범위는 가장 많이 읽히고 권위 있는 임상 저널 120개를 색인화한 Abridged Index Medicus에 수록된 저널로 제한했습니다. 연구가 치료법을 비교한 경우로 검색 범위를 제한하기 위해 Medline 태그 "comparative study/"를 추가했습니다. 이 태그는 어떠한 의료 주제 헤딩 카테고리에서든 두 개 이상의 개념을 비교하는 것을 정의합니다.
이 전략을 통해 3868편의 논문이 확인되었습니다. 우리는 이 논문들의 초록을 검토하여 네 가지 기준을 모두 충족하는 논문만을 선택했습니다.
- 첫째, 연구가 실험적이지 않다는 것, 즉 연구 목적을 위해 치료법이 배정되지 않은 경우였습니다.
- 둘째, 연구가 두 가지 치료법 간 또는 한 가지 치료법과 무처치 간의 차이를 평가한 경우였습니다.
- 셋째, 치료가 의사에 의해 시행된 경우였습니다. 우리는 다이어트, 운동, 생활 습관 변화 또는 비처방 약물에 관한 연구는 포함하지 않았습니다. 왜냐하면 이러한 연구들에서 발생하는 편향의 유형은 의사에 의해 시행된 치료법 연구에서 발생하는 편향의 유형과 다르기 때문입니다.
- 넷째, 연구가 대조군을 포함한 경우였습니다.
관련 연구 검색
Search for Related Studies
네 가지 기준을 모두 충족하는 논문이 확인되면 1966년부터 1998년까지의 전체 Medline 데이터베이스에서 동일한 두 가지 치료법(또는 동일한 치료법과 무처치)과 동일한 결과 측정 및 환자 선택 기준을 사용한 모든 무작위 대조 연구 및 관찰 연구를 검색했습니다. 몇 가지 연구는 관찰 연구와 동일한 선택 기준이나 추적 기간을 가지지 않았습니다. 이러한 연구들은 결과에서 별도로 언급되었습니다.
Cochrane Database는 Medline과 동일한 전략을 사용하여 검색했습니다. 이 데이터베이스는 건강 관리 개입의 효과에 관한 연구 정보를 수집하는 국제 조직인 Cochrane Collaboration의 회원들에 의해 지속적으로 업데이트되는 일련의 리뷰입니다.11 Cochrane Database 검색을 통해 무작위 대조 연구와 관찰 연구가 모두 있는 추가적인 세 가지 치료법이 발견되었습니다.
리뷰된 논문의 참고 문헌 목록을 검색하고 “controlled clinical trial”이라는 의료 주제 헤딩을 사용하여 가짜 무작위화 연구를 검색함으로써 추가적인 논문이 발견되었습니다. 가짜 무작위화 연구는 매번 입원하는 환자마다 동일한 치료를 제공하는 등 무작위화되지 않은 방식으로 치료를 배정하는 통제 연구입니다.12 가짜 무작위화 연구의 결과는 관찰 연구와 무작위 대조 연구의 결과와 별도로 보고됩니다.
우리의 검색 전략의 민감도를 평가할 이상적인 기준은 없었습니다. 그러나 영국 건강 기술 평가 그룹은 최근 무작위 대조 연구와 관찰 연구 모두의 주제였던 22가지 치료법에 대한 체계적 리뷰를 완료했습니다.13 검색 전략의 민감도를 추정하기 위해, 우리는 우리의 검색 결과를 그들의 결과와 비교했습니다.
통계 분석
Statistical Analysis
우리는 관찰 연구와 무작위 대조 연구에서 치료가 주요 결과에 미친 효과의 크기를 비교했습니다. 동일한 설계를 가진 연구에서 치료 효과의 크기를 결합하기 위해 Cochrane Collaboration의 RevMan 및 MetaView 소프트웨어(버전 3.1)를 사용했습니다. 이진 결과에 대해서는 Mantel–Haenszel 방법을 사용하여 전체 오즈비를 추정했습니다. 연속적 결과 측정치의 경우, 효과 크기의 분산을 가중치로 사용하는 고정 효과, 가중치 분산 분석 모델을 사용했습니다. 고정 효과 모델을 사용하면 실제 치료 효과가 연구 집단 간에 차이가 있을 때 관찰 연구와 무작위 대조 연구 간의 결과 차이를 과장하게 됩니다.
우리의 분석에 포함된 5개의 연구는 효과 크기에 대한 신뢰 구간을 보고하지 않았습니다. 이 중 3개의 연구에 대해 우리는 효과 크기와 P 값을 사용하여 신뢰 구간을 추정했습니다. 절차는 다음과 같았습니다. 먼저, 효과 크기를 대략 정규 분포를 따르는 통계치로 변환했습니다(예: 오즈비의 로그 변환). 그런 다음 P 값을 정규 검정 통계량으로 변환했습니다. 변환된 효과 크기와 P 값을 사용하여 변환된 효과 크기의 표준 오차를 계산한 후, 이 정보를 사용하여 변환된 효과 크기에 대한 95% 신뢰 구간을 생성했습니다. 그리고 이 신뢰 구간을 사용하여 변환되지 않은 효과 크기에 대한 신뢰 구간을 생성했습니다. 이러한 신뢰 구간은 다른 방법으로 계산된 신뢰 구간과 일치하지 않을 수 있지만, 효과 크기의 추정 정도를 질적으로 나타내는 데는 충분할 것입니다.
결과
RESULTS
우리는 최소한 하나의 관찰 연구와 하나의 무작위 대조 연구가 이루어진 19개의 치료법 비교를 발견했습니다. 총 53개의 관찰 연구와 83개의 무작위 대조 연구가 있었습니다. 이 치료법에 대한 추가 연구 두 건은 가짜 무작위화 연구였습니다.
우리의 검색은 영국 건강 기술 평가 그룹이 식별한 22개의 치료법 비교 중 13개에 대한 연구를 확인했습니다. 나머지 9개의 치료법 비교 중 4개는 Abridged Index Medicus에 등재된 저널에서 관찰 연구가 이루어지지 않았고, 2개는 무작위 대조 연구와 관찰 연구 모두의 대상이 되지 않았습니다. 1개는 1984년 이후에 관찰 연구가 이루어지지 않았고, 1개는 의료 치료가 아니었으며, 1개는 "comparative study/"로 색인화된 연구의 대상이 아니었습니다.
대응 연구의 선택 과정에서 일부 치료법이 어떻게 시행되었는지(예: 노인 평가 유닛에 의한 평가) 또는 일부 결과가 어떻게 평가되었는지(예: 감염 발생률, 재발성 연하곤란 또는 망막병증)에서 차이가 있을 수 있습니다. 추적 기간과 선택 기준은 19개의 치료법 비교 중 15개에서 동일했습니다. 관찰 연구 또는 무작위 대조 연구가 5개 미만인 치료법에 대한 결과는 그림 1과 그림 2에 요약되어 있습니다. 더 많은 연구가 있는 치료법에 대한 결과는 이후의 그림에서 제시됩니다.
그림 1은 7가지 심장 치료법에 대한 관찰 연구와 이에 상응하는 무작위 대조 연구의 결과를 요약한 것입니다. 두 연구 유형 간의 설계 차이는 다음과 같습니다. 관찰 연구에서의 니페디핀(nifedipine) 투여량은 30에서 60mg이었으며, 무작위 대조 연구에서는 30에서 50mg이었습니다. 니페디핀에 대한 무작위 대조 연구 간에는 포함 기준과 추적 기간에 차이가 있었습니다. 관상동맥 우회 이식술(CABG)과 경피적 관상동맥 성형술(PTCA)을 비교한 관찰 연구에서 저위험군은 Medisgroups 스케일에 의해 정의되었습니다.
관찰 연구의 결과는 저위험군 환자에서 CABG와 PTCA를 비교한 경우를 제외하고는 무작위 대조 연구의 신뢰 구간 내에 있었습니다. 다른 모든 오즈비는 두 연구 설계에서 유사했으며, 당뇨병 환자에서 CABG와 PTCA를 비교한 경우를 제외하고 큰 차이가 없었습니다. 관찰 연구의 신뢰 구간은 무작위 대조 연구의 신뢰 구간보다 약간 더 좁았습니다.
그림 2는 11개의 비심장 치료법에 대한 관찰 연구와 무작위 대조 연구의 결과를 요약한 것입니다. 인슐린 연구에서는 포함 기준에 변동이 있었고, 추적 기간은 3년에서 7.5년까지 다양했습니다. 관찰 연구의 모든 결과는 공기 망막유착술과 공막 버클링을 비교한 경우를 제외하고는 무작위 대조 연구의 신뢰 구간 내에 있었습니다. 두 연구 유형의 결과는 다른 세 가지 치료에서도 질적으로 차이가 있었지만, 신뢰 구간이 넓어 이러한 차이를 해석하기는 어려웠습니다.
하나의 가짜 무작위화 연구에서는 난관 세척을 위한 수용성 조영제와 유성 조영제를 비교했을 때 임신에 대한 오즈비가 2.00이었으며, 무작위 대조 연구와 관찰 연구에서 모두 1.92였습니다. 다른 가짜 무작위화 연구에서는 노인 평가 유닛과 일반 병동을 비교했을 때 사망에 대한 오즈비가 0.51이었으며, 관찰 연구에서는 0.69, 무작위 대조 연구에서는 0.65였습니다.
그림 3은 하나의 치료법, 즉 호르몬 대체 요법이 1~2년 후 요추 골밀도에 미치는 효과에 대한 연구 결과를 보여줍니다. 두 연구 유형의 포함 기준은 동일했으나, 한 무작위 대조 연구는 골다공증 환자만을 포함했습니다. 이 치료법에 대한 무작위 대조 연구, 특히 후기 연구들은 더 큰 표본 크기와 더 좁은 신뢰 구간을 가졌습니다. 관찰 연구의 종합 결과는 무작위 대조 연구의 신뢰 구간 하한선 바로 아래에 위치했지만, 질적으로는 매우 유사한 결과를 보였습니다.
그림 4는 신장이식 수혜 환자에서 칼슘 채널 차단제의 사용을 평가한 연구 결과를 보여줍니다. 이들 연구 간에는 추적 기간에 차이가 있었습니다. Morales 연구의 추적 기간은 30일이었고, Wahlberg 및 Ladefoged 연구의 추적 기간은 3개월이었습니다. 나머지 추적 기간은 6개월에서 2년 사이였습니다. 면역억제 요법에도 차이가 있었습니다. 개별 연구들은 칼슘 채널 차단제의 유의미한 효과를 감지하지 못했지만, 메타 분석에서는 이를 감지했습니다. 전반적인 결과는 두 연구 설계에서 거의 동일했습니다. 그림 4는 신장이식 후 칼슘 채널 차단제를 사용한 환자의 이식 생존율에 대한 오즈비를 보여줍니다.
그림 5는 복강경 충수절제술과 개방형 충수절제술을 비교한 연구 결과를 보여줍니다. 이 분석에는 24개의 연구가 포함되었으며, 이는 모든 비교 중 가장 많은 개별 연구 수를 포함한 것입니다. 개별 연구 중 복강경 충수절제술의 유의미한 이점을 입증한 연구는 거의 없었지만, 메타 분석에서는 이점을 감지했으며, 이는 관찰 연구와 무작위 대조 연구에서 동일한 정도였습니다.
일반적으로 특정 치료법에 대해 관찰 연구는 무작위 대조 연구의 결과가 나오기 전에 수행되었습니다. 그러나 일부 경우에서는 관찰 연구가 무작위 대조 연구 이후에 수행되기도 했습니다. 후속 관찰 연구를 수행한 이유로는 장기적인 안전성 데이터의 부족, 무작위 대조 연구에 포함되기를 거부한 환자들로부터의 관찰 데이터의 동시 수집, 그리고 무작위 대조 연구 결과의 일반화 가능성을 더 넓은 인구에서 평가하기 위한 것이 있었습니다.
논의
DISCUSSION
이 연구에서 우리는 관찰 연구와 무작위 대조 연구의 결과를 비교했습니다. 19개의 치료 영역에서 총 136개의 논문을 발견했으며, 이 중 6편을 제외한 모든 논문은 1985년에서 1998년 사이에 발표되었습니다. 대부분의 영역에서 관찰 연구와 무작위 대조 연구의 치료 효과 추정치는 유사했으며, 19개의 치료 중 단 2개의 치료에서만 관찰 연구의 종합 효과 크기가 무작위 대조 연구의 95% 신뢰 구간 밖에 있었습니다. 그러나 대부분의 치료법에서는 두 연구 유형 간의 임상적으로 중요한 차이를 배제할 만큼 충분한 데이터가 부족했습니다.
우리가 적합한 논문을 적게 발견한 이유는 부분적으로 관찰 연구 보고서에 대한 전산 검색의 한계와 무작위 대조 연구와 관찰 연구로 평가된 치료법의 부족 때문일 수 있습니다. 우리의 결과는 다른 치료법에는 적용되지 않을 수 있습니다. 그러나 평가된 치료법이 다양했기 때문에 무작위 대조 연구와 관찰 연구(적어도 1985년 이후 Abridged Index Medicus에 등재된 저널에 보고된 연구들)는 종종 유사한 결과를 산출할 가능성이 큽니다.
관찰 연구와 무작위 대조 연구 간에 신뢰 구간의 불일치는 저위험군 환자에서 CABG와 PTCA를 비교한 경우에서 발견되었습니다. 무작위 대조 연구에서 두 치료법의 사망률은 유사했지만, 관찰 연구에서는 CABG를 받은 환자의 사망률이 특히 수술 후 처음 60일 동안 더 높았습니다.73 무작위 대조 연구에서 저위험군의 CABG 환자는 매우 낮은 초기 사망률을 보였습니다. 이 사망률은 대부분의 지역 사회 병원에서 시행되는 CABG와 관련된 사망률을 대표하지 않을 수 있습니다.74
가장 큰 통계적 불일치는 망막 박리 치료를 위한 공기 망막유착술과 공막 버클링을 비교한 연구들에서 나타났습니다. 관찰 연구와 무작위 대조 연구 모두 재수술 후 최종 재부착률과 수술 후 증식성 유리체망막병증 발생률이 유사하다는 결과를 보였습니다. 그러나 무작위 대조 연구에서는 첫 수술 후 재부착률이 두 절차에서 유사하다고 밝혔으며, 공기 망막유착술이 공막 버클링보다 시각적 결과가 더 우수하다는 결과를 보였습니다. 공막 버클링을 받은 환자의 결과는 두 연구 설계에서 유사했습니다. 이러한 결과의 한 가지 가능한 설명은 관찰 연구에서 공기 망막유착술을 받은 환자가 공막 버클링을 받은 환자보다 위험이 더 컸기 때문일 수 있습니다. 그러나 더 가능성이 높은 설명은 무작위 대조 연구에서 공기 망막유착술의 결과가 비정상적으로 좋았다는 것입니다.
우리는 결과의 이질성을 줄이거나 높은 품질을 보장하기 위해 논문을 선택하지 않았습니다(단, 모든 치료 비교에서 Abridged Index Medicus에 등재된 저널에서 발표된 논문만 포함했습니다). 선택 기준의 선택은 주관적이었으며 결과에 영향을 미쳤을 수 있습니다.75 반면에 결함이 있는 연구를 포함한 것이 우리의 결과에 영향을 미쳤을 가능성도 있습니다.
관찰 연구와 무작위 대조 연구가 대개 유사한 결과를 산출한다는 우리의 발견은 이전 연구자들의 결론과 다릅니다. 1977년에 발표된 연구는 급성 심근경색증 치료에서 항응고제의 효과에 대한 증거를 8개의 관찰 연구와 6개의 무작위 대조 연구를 사용하여 검토했습니다.5 관찰 연구에서의 사망률 차이는 무작위 대조 연구보다 더 컸습니다. 검토된 관찰 연구는 1975년 이전에 발표된 것이며, 저자들은 데이터를 통합하기 위한 현대의 메타 분석 기법을 사용하지 않았습니다. 여러 연구의 결과를 현대적인 방법으로 결합했다면 비교 결과가 달라졌을 수 있습니다.
동일한 저자 중 일부는 이후 6가지 심장 치료법을 평가한 160개의 연구를 검토했습니다.6 그들은 무작위 대조 연구에서 60%의 치료군이 대조군보다 더 나은 결과를 보였고, 관찰 연구에서는 93%의 치료군이 더 나은 결과를 보였다고 보고했습니다. 그러나 그 당시에 지적된 바와 같이, 베타 차단제에 대한 연구 대부분은 무작위 대조 연구였고, 관상동맥 치료에 대한 연구 대부분은 관찰 연구였습니다.76 관찰 연구에서 더 큰 치료 효과가 나타난 이유는 관상동맥 치료가 베타 차단제 치료보다 더 효과적이었기 때문일 수 있습니다.
관찰 데이터의 부적절성을 보여주는 것으로 자주 인용되는 다른 세 가지 연구7–9와 관찰 데이터에서 편향이 없음을 발견한 연구77는 모두 서로 다른 치료법을 평가한 관찰 연구와 무작위 대조 연구를 비교했습니다. 이전 연구들과 비교하여, 우리의 연구는 치료법에 따라 비교가 계층화되었다는 점에서 장점이 있습니다. 또한 우리가 검토한 연구는 더 최근에 발표된 것이며, 따라서 이전 리뷰에 포함된 연구들보다 더 나은 방법을 사용했을 가능성이 있습니다.
최근에 영국 건강 기술 평가 그룹이 수행한 연구는 관찰 연구와 무작위 대조 연구를 비교했습니다.13 그들은 우리가 평가하지 않은 8개의 치료법을 발견했으며, 이들 중 7개의 경우 관찰 연구와 무작위 대조 연구의 결과에 차이가 없었고, 나머지 하나에서는 관찰 연구에서 효과가 더 컸습니다. 마지막 치료 비교(호스피스 케어와 관련된 비용 절감)에서는 두 연구 유형 간에 호스피스에서의 기간이 달랐습니다.78 영국 건강 기술 평가 그룹의 연구는 관찰 연구에서 체계적인 편향이 없다는 결론을 내렸습니다.
관찰 연구는 일반적으로 유효한 결과를 제공할 수 있지만, 한계가 있다는 것은 잘 알려져 있습니다. 특히 Green과 Byar가 발견한 바와 같이, 관찰 연구는 의사들이 가장 중증의 환자에게 선택적으로 시행하는 치료법을 평가하는 데 사용될 수 없습니다. 우리의 결과에 따르면, 관찰 연구의 이러한 오용은 Abridged Index Medicus에 등재된 최신 문헌에서는 자주 발생하지 않습니다.
관찰 연구에 대한 근본적인 비판은 인식되지 않은 혼란 변수가 결과를 왜곡할 수 있다는 점입니다. 일반적인 통념에 따르면, 이러한 왜곡은 흔하고 예측할 수 없기 때문에 관찰 연구는 신뢰할 수 없으며, 자금 지원을 받아서는 안 된다고 합니다. 우리의 결과는 관찰 연구가 대개 유효한 정보를 제공한다는 것을 시사합니다. 최근 개발된 임상적으로 풍부한 데이터베이스를 활용하기 위해서는 관찰 연구의 분석에 더 큰 의지가 필요합니다. 관찰 연구가 최적으로 사용될 수 있는 방법에 대한 현실적인 이해는 이러한 데이터베이스를 분석함으로써만 달성될 수 있습니다.
'Wilson Centre' 카테고리의 다른 글
[민족지학] 질적 교육 연구에서의 민족지학: AMEE Guide No. 80 (0) | 2024.09.14 |
---|---|
[양적연구] 관찰 연구 방법 연구 설계 II: 코호트, 횡단면 및 사례 대조 연구 (0) | 2024.09.14 |
[양적연구] 의학교육에서 양적연구방법 (0) | 2024.09.13 |
[양적연구] RCT = 혼란스럽고 사소한 결과: 대규모 교육 실험의 위험성 (1) | 2024.09.13 |
[양적연구] 너무 먼 다리 (2) | 2024.09.13 |