The Use of the Delphi and Other Consensus Group Methods in Medical Education Research: A Review

안녕하세요! 오늘은 의학 교육 연구자라면 한 번쯤은 들어보셨거나, 직접 사용해보셨을 '합의 그룹 방법(Consensus Group Methods)'에 대한 아주 중요한 리뷰 논문을 소개해드리려고 해요. 연구를 하다 보면 명확한 근거(Empirical evidence)가 부족할 때가 있죠? 그럴 때 전문가들의 의견을 모으는 델파이 기법(Delphi method)이나 명목 집단 기법(NGT)을 많이 활용하시는데요.
과연 우리는 이 방법들을 '제대로' 사용하고 있을까요? 🤔
1. 왜 이 연구를 했을까요? 🧐
의학 교육 분야는 '집단 지성'이 필요한 경우가 참 많아요. 교육과정을 개발하거나 역량을 정의할 때 특히 그렇죠. 그래서 합의 방법(Consensus methods)이 인기가 많습니다. 하지만 연구진은 의문을 가졌습니다. "다들 많이 쓰긴 하는데, 표준화(Standardization)는 되어 있나? 보고는 제대로 하고 있나?" 하고요.
연구진은 총 257편의 논문을 분석했습니다. 그리고 꽤 놀라운(혹은 걱정스러운) 결과들을 발견했죠.
2. 무엇이 문제였을까요? 🚧
논문에서 지적한 주요 문제점들을 콕콕 집어 드릴게요.
① 용어가 뒤죽박죽이에요 😵
연구마다 사용하는 용어가 제각각이었습니다. 수정 델파이(Modified Delphi), 델파이(Delphi), NGT 등이 혼재되어 있고, 심지어 초록과 본문에서 다른 용어를 쓰는 경우도 있었다고 해요. 가장 심각한 건, 델파이의 핵심은 '반복(Iteration)'인데, 설문 조사를 딱 한 번만 하고서 델파이라고 부른 연구가 3분의 1이나 되었다는 점입니다. 연구진은 이에 대해 단호하게 말합니다.
"우리는 이러한 연구 설계는 합의 그룹 방법으로 간주되어서는 안 된다고 주장합니다. 왜냐하면 반복은 합의 방법의 핵심 특징이기 때문입니다."
"We argue that such a study design should not be considered a consensus group method, as iteration is a key feature of consensus methods."
② 기본적인 정보가 빠져 있어요 📝
연구의 신뢰도를 높이려면 투명한 과정 공개가 필수죠. 하지만 많은 논문에서 다음 내용들이 누락되었습니다.
- 참가자에게 준 배경 정보(Background information): 연구 시작 전 전문가들에게 어떤 자료를 줬는지 설명한 논문은 27.2% 뿐이었어요.
- 문헌 고찰(Literature review): 설문 문항을 만들기 위해 문헌 고찰을 했다고 밝힌 논문은 약 70%였습니다. 나머지 30%는... 글쎄요?
③ 참가자가 사라져요? (응답률 미기재) 👻
1라운드, 2라운드를 거치면서 참가자가 얼마나 남았는지 알려줘야 하는데, 2라운드 참가자 수를 보고한 논문은 겨우 50.2%였습니다. 누가 합의에 참여했는지 모르면 결과를 신뢰하기 어렵겠죠.
④ '합의'의 기준이 없어요 🚩
이게 가장 큰 문제일 수 있는데요. 도대체 몇 퍼센트가 동의해야 '합의'된 것으로 볼 것인지 사전에 정의(defined a priori)한 논문은 43.2%밖에 없었습니다. 기준이 없으면 연구자가 입맛대로 결과를 해석할 위험이 있으니까요.
3. 연구진의 핵심 메시지 📢
결과적으로 연구진은 의학 교육 연구에서 합의 방법이 다소 엉성하게 보고되고 있다고 지적합니다. 이들의 쓴소리를 직접 들어볼까요?
"의학 교육 연구들은 사용된 방법에 관한 충분한 세부 사항을 일관되게 제공하지 않아 과학적 신뢰성 결여로 이어집니다."
"Medical education studies do not consistently provide sufficient detail regarding the methods used, leading to a lack of scientific credibility."
그렇다면 우리는 어떻게 해야 할까요? 연구진은 명확한 해법을 제시합니다.
"합의 방법에 대한 합의의 부재는 연구자들이 자신들이 사용한 방법에 대해 명확하고 상세한 보고를 제공하고 이러한 선택을 정당화하는 것을 필수적으로 만듭니다."
"The lack of consensus on consensus methods makes it imperative that researchers provide clear and detailed reporting of the methods they used and that they justify these choices."
💡 요약 및 제언
앞으로 델파이 기법이나 합의 그룹 방법을 사용하여 논문을 쓰실 계획이라면, 이 논문이 지적한 체크리스트를 꼭 확인해보세요!
- ✅ 반복(Iteration) 과정을 거쳤는가? (단발성 설문 X)
- ✅ 문헌 고찰과 참가자에게 제공한 배경 정보를 명시했는가?
- ✅ 각 라운드별 참가자 수(응답률)를 투명하게 공개했는가?
- ✅ 익명성(Anonymity)과 피드백(Feedback) 절차를 기술했는가?
- ✅ 무엇을 '합의'로 볼 것인지 사전 정의(Pre-determined definition)를 했는가?
방법론이 탄탄해야 연구 결과도 빛이 나는 법이니까요! ✨
합의 그룹 방법(Consensus group methods)은 비즈니스, 공공 정책, 과학 및 기술, 그리고 의학, 간호학, 보건 서비스 분야의 보건 의료 연구(health care research)를 포함한 여러 탐구 분야(fields of inquiry)에서 광범위하게 사용됩니다. 이러한 방법들의 인기에도 불구하고, 의학 교육 연구(medical education research)에서 이들이 어떻게 사용되는지에 대해서는 비판적 관심(critical attention)이 거의 기울여지지 않았습니다. 추가적인 분석 없이는, 우리는 이러한 방법들이 적절하게 사용되고 있는지 알 수 없습니다. 합의 방법(Consensus methods)은 합의를 측정하고 개발하기 위한 체계적인 수단(systematic means)으로 정의됩니다. 이들은 경험적 증거(empirical evidence)가 부족하거나, 제한적이거나, 모순될 때 특히 유용합니다. 합의 방법은 전문가 패널(panel of experts)에게 자문을 구하고 그룹의 합의(group consensus)를 수용함으로써 정확하고 신뢰할 수 있는 평가를 가장 잘 달성할 수 있다는 전제(premise)에 기초합니다. 의학 교육(medical education)에는 높은 수준의 불확실성(high levels of uncertainty)과 제한적인 증거 기반 문헌(evidence-based literature)으로 인해 어려움을 겪는 몇 가지 중요한 탐구 영역이 있습니다. 결과적으로, 합의 방법은 의학 교육자들에게 특히 관련이 깊은데, 이는 종종 암묵적(tacit)이고 말로 표현하거나 공식화하기 어려운 직업적 집단 지성(collective knowledge)을 추출할 수 있는 추정된 능력 때문입니다.
흔히 사용되는 두 가지 합의 방법은 델파이 기법(Delphi method)과 명목 집단 기법(nominal group technique, NGT)입니다. RAND Corporation과 UCLA David Geffen 의과대학에서 개발한 세 번째 방법인 RAND는 델파이와 NGT 방법의 하이브리드(hybrid)입니다. Table 1은 이 세 가지 접근 방식 간의 차이점 중 일부를 강조합니다.

델파이 기법(Delphi method)은 6단계를 포함합니다:
- (1) 연구 문제(research problem) 식별,
- (2) 문헌 검색(literature search) 완료,
- (3) 진술 설문지(questionnaire of statements) 개발,
- (4) 익명의 반복적 우편 또는 이메일 설문 라운드(anonymous iterative mail or e-mail questionnaire rounds) 수행,
- (5) 라운드 간 개인 및/또는 그룹 피드백(feedback) 제공,
- (6) 결과 요약.
이 과정은 최선의 합의 수준(best possible level of consensus)에 도달하거나 미리 정해진 라운드 횟수가 완료될 때까지 반복됩니다. 참가자들은 결코 직접 만나거나 상호작용하지 않습니다. 델파이 기법의 장점은 지리적으로 분산된(geographically dispersed) 많은 수의 참가자를 포함할 수 있는 능력, 상대적으로 최소한의 지원 구조 필요성(따라서 비용이 상대적으로 저렴함), 그리고 익명성(anonymity)을 통해 특정 개인에 의한 부당한 지배(undue dominance)를 방지한다는 점입니다. 반대로, 델파이 기법에 적용될 수 있는 수정(modifications)의 수는 그 적용과 결과(outcomes)를 둘러싼 상당한 혼란을 야기했습니다.
NGT는 보통 5~12명의 참가자가 참여하는 구조화된 대면 상호작용(structured face-to-face interaction)입니다. 이는 다음 단계들을 갖습니다:
- (1) 명목 질문(nominal question)의 공식화 및 제시,
- (2) 개인적 아이디어 생성(private idea generation),
- (3) 각 아이디어를 기록하기 위한 그룹 구성원들의 라운드 로빈 피드백(round-robin feedback),
- (4) 숙련된 중재자(skilled moderator)와의 구조화된 그룹 토론,
- (5) 후속 개인 순위 매기기(private ranking),
- (6) 전체 그룹에 대한 익명 피드백.
합의에 도달하기 위해 필요한 경우 추가적인 그룹 토론과 비공개 투표(private voting)가 이루어질 수 있습니다. NGT의 주요 장점은 합의가 부족한 주제를 논의하고 토론할 수 있는 잠재력과 더 강력한 아이디어 생성(more robust idea generation)의 기회입니다. 단점은 참가자 수가 적다는 것과 지배적인 참가자(dominant participants)가 그룹에 부당하게 영향을 미칠 수 있다는 점입니다.
RAND 접근법은 델파이 기법처럼 시작하지만 이후에 대면 회의(face-to-face meeting)를 포함하는 하이브리드(hybrid)입니다.
- 장점으로는 지리적으로 분산된 그룹을 조사할 수 있는 잠재력과 명확화 및 토론(clarification and discussion)의 기회가 모두 포함되지만, 이 단계에서의 NGT와 마찬가지로 참가자 수가 제한적이고 지배적인 참가자가 그룹을 좌우할(sway) 수 있음을 인지해야 합니다.
합의 방법에는 변형이 있지만, 이들은 모두 구조화된 상호작용(structured interactions)으로 간주되며 비공식적 합의 회의(informal consensus meetings)와 구별되는 몇 가지 기본 원칙(foundational principles)을 공유합니다. 이러한 기본 원칙에는
- 익명성(anonymity),
- 반복(iteration),
- 통제된 피드백(controlled feedback),
- 통계적 그룹 반응(statistical group response), 그리고
- 구조화된 상호작용(structured interaction)이 포함됩니다.
익명성은 지배적인 개인이 그룹을 좌우하는 것을 방지합니다. 반복, 통제된 피드백, 통계적 그룹 반응은 개인이 자신의 선택과 관련하여 다른 그룹 구성원의 응답을 보고 선택할 경우 항목의 순위를 다시 매길(re-rank) 수 있게 합니다. 이러한 원칙들은 개인이 다른 참가자의 의견을 보고 자신의 원래 결정을 재고할 수 있게 함으로써 합의를 촉진하거나 불일치를 강조(facilitating consensus or highlighting disagreement)하는 데 중요합니다.
합의 그룹 방법의 광범위한 사용에도 불구하고, 이러한 연구 접근 방식은 여러 분야에서 표준화가 미흡하고(poorly standardized) 일관성 없게 사용 및 기술(inconsistently used and described)되고 있습니다.
- 많은 저자가 방법의 정의에 대한 낮은 일치도(poor agreement)와 계속 늘어나는 수정 목록을 지적했습니다; 예를 들어, 델파이 기법은 현재 고전적 델파이(classical Delphi), 정책 델파이(policy Delphi), 의사결정 델파이(decision Delphi), 수정 델파이(Modified Delphi), 반복 델파이(iterative Delphi) 등 몇 가지만 예로 들어도 여러 수정 버전을 가지고 있습니다.
- 또한, 비평가들은 항목 생성(generating items), 항목 수 줄이기, 또는 참가자와 공유할 피드백 유형 결정에 사용된 프로세스와 관련하여 출판된 연구에 세부 사항이 놀라울 정도로 부족함(surprising lack of detail)을 기술했습니다. 최근의 몇몇 검토와 보고서는 여러 연구 분야에서 델파이 기법의 방법론 및 보고에 있어 상당한 결함(significant deficiencies)을 더욱 강조합니다. 이러한 검토들은 연구들이 종종
- 참가자의 선정 및 기술,
- 프로세스 시작 시 참가자에게 제공된 정보,
- 모든 라운드의 응답률(response rates),
- 그룹 평가의 공식적인 피드백,
- 시행된 익명성의 수준,
- 반복 라운드 전반에 걸친 참가자 이탈률(participant attrition rates),
- 각 라운드 후의 결과, 그리고
- 종료 시점 결정(end-point decisions)(즉, 합의가 달성되었다고 결정된 방식)을 기술하는 데 실패한다는 점을 관찰했습니다.
요약하면, 합의 방법 보고(consensus methods reporting)에는 표준화가 미흡하고 세부 사항이 불충분(poor standardization and insufficient detail)합니다. 이러한 접근 방식이 의학 교육 연구에서 사용되고 있지만, 그 사용의 범위와 품질은 알려져 있지 않습니다. 이 연구의 전반적인 목표는 의학 교육 연구에서 합의 방법의 사용을 기술하고 이러한 방법 및 결과의 보고 품질(reporting quality)을 평가하는 것이었습니다.
방법 (Method)
이러한 연구 목표를 달성하기 위해, 우리는 스코핑 고찰 방법(scoping review methods)에 의존했습니다. 우리는 Arksey와 O'Malley가 기술한 프레임워크를 사용했으며 Levac과 동료들의 권장 사항을 포함했습니다. 따라서 우리는 4단계 프로세스를 따랐습니다.
1단계: 연구 질문 식별 (Step 1: Identifying the research question)
Levac과 동료들이 제안한 바와 같이, 우리는 광범위한 연구 질문(research question)을 더 정밀하게 표현된 탐구 범위(scope of inquiry)와 결합하고, 목적을 결정하는 데 도움이 되도록 연구 시작 시 의도된 결과물의 내용과 형식을 구상했습니다. Boulkedid와 동료들 및 Sinha와 동료들의 이전 연구가 이러한 구상을 가능하게 했습니다. 우리 연구는 두 가지 광범위한 목적을 가졌습니다:
- (1) 의학 교육 연구에서 합의 방법의 사용을 기술하는 것, 그리고
- (2) 이러한 방법 및 결과의 보고 품질(reporting quality)을 평가하는 것.
더 구체적으로, 우리는 다음 네 가지 질문을 다루었습니다:
- (1) 의학 교육 연구에서 합의 방법이 얼마나 광범위하게 사용되는가?
- (2) 이 문헌에서 어떤 유형의 합의 방법이 사용되는가?
- (3) 합의 방법을 사용하는 연구의 목적은 무엇인가?
- (4) 합의 방법의 적용에 표준화(standardization)가 존재하는가?
2단계: 관련 논문 식별 및 논문 선정 (Step 2: Identifying relevant articles and article selection)
우리는 이 조사의 시작 시점에 의학 교육에서의 합의 방법과 관련된 모든 논문을 검토에 포함하기로 결정했습니다. 의학 사서(medical librarian) (L.U.)가 프로젝트를 위한 모든 문헌 검색을 완료했습니다. 초기 파일럿 키워드 검색은 2013년 8월 Medline과 Embase 데이터베이스에서 의학 교육 및 "Delphi", "RAND", "nominal group", "consensus group methods"라는 키워드에 초점을 맞춰 2003년부터 2013년까지의 기간에 대해 완료되었습니다. 이 키워드들은 출판된 문헌의 검토를 기반으로 선정되었으며 149개의 초록을 산출했습니다.
다음으로 합의 방법이 이 문헌에서 연구 방법으로서 언제 두각을 나타냈는지 확인하기 위해 계량서지학적 분석(bibliometric analysis)이 수행되었습니다. 분석은 Medline, Embase, PsycInfo 데이터베이스를 사용하여 수행되었습니다. 합의 방법을 기술한 의학 교육 문헌의 본체는 1955년까지 나타나지 않았습니다. 분석 결과, 파일럿 키워드 검색에서 사용한 합의 방법에 대한 검색 용어는 2000년까지 연간 10편 미만의 논문에 등장했습니다. 관련 결과의 60% 이상이 2009년과 2013년 사이에 출판되었습니다. 연간 논문 수는 27편(2009년), 25편(2010년), 29편(2011년), 43편(2012년), 22편(2013년)이었습니다. 우리는 가장 최근의 문헌이 합의 방법 연구에 관심이 있는 의학 교육자들에게 더 관련성이 높다고 생각했으며, 2009년부터 현재까지의 문헌 검토가 우리의 연구 질문을 다루기에 충분한 논문 표본(sufficient sampling of articles)을 제공할 것이라고 느꼈습니다.
우리는 세 번째 검색을 Medline, Embase, PsycInfo, PubMed, Scopus, ERIC 데이터베이스에서 2009년부터 검색이 수행된 2014년 1월까지의 기간에 대해 키워드와 통제 어휘(controlled vocabulary) 용어의 조합을 사용하여 실행했습니다. 연구 책임자(principal investigator, S.H.M.)와 그녀의 감독 하에 있는 연구 보조원이 모든 제목과 초록을 검토했습니다. 본 연구에 포함되기 위해서, 논문은 영어로 작성되어야 했으며; 모든 보건 직종(health profession)의 교육과 관련되어야 했고; 제목이나 초록에 델파이 기법, 델파이 기법의 수정, NGT, 또는 모든 "합의" 방법론을 포함한 합의 그룹 방법(consensus group method(s))의 사용을 명시해야 했습니다. 이 단계에서는 모든 보건 직종을 포함했습니다. 모호한 초록은 전문(full-text) 검토 대상에 포함되었습니다.
5명의 팀원(S.H.M., L.V., T.J.W., C.G., L.U.)과 1명의 연구 보조원이 각각 5편의 전문(full-text) 논문을 검토하고, 반복적인 과정(iterative process)을 통해 포함/배제 기준(inclusion/exclusion criteria)을 명확히 했습니다. 팀은 완료된 연구의 전문 논문만 포함하고 논평(commentaries), 사설(editorials), 합의 컨퍼런스 프로시딩(consensus conference proceedings)은 배제하기로 결정했습니다. 논문은 또한 교육에 초점을 맞춰야 했습니다. 업데이트된 문헌 검색은 2016년 6월에 수행되었습니다.
3단계: 데이터 차팅 (Step 3: Charting the data)
데이터 추출 양식(data extraction form)의 첫 번째 버전은 문헌을 기반으로 개발되었습니다. 여러 팀원(S.H.M., L.V., T.J.W., C.G., L.U.)과 1명의 연구 보조원이 각각 다른 5편의 논문을 검토하여 총 30편의 논문을 검토하고 추출 양식의 사용을 시험했습니다. 전체 팀이 만나 반복적인 과정을 통해 추출할 각 데이터 유형의 정의를 다듬고 추출 양식의 두 번째 버전을 만들었습니다. 이 단계에서 그들은 포함/배제 기준도 명확히 하고 확정했습니다. 그 후 두 명의 팀원이 추출 양식의 두 번째 버전을 사용하여 13편의 논문을 검토했습니다. 보고된 라운드(rounds) 수를 정의하는 방법을 제외한 모든 데이터 추출 항목에 대해 완전한 일치(complete agreement)가 이루어진 또 다른 팀 회의가 열렸습니다. 이 불일치는 합의 그룹 방법의 광범위한 변형을 부각시켰으며, 연구의 "진정한 합의 그룹(true consensus group)" 부분에서의 라운드 수를 세기로 결정했습니다. 예를 들어, 합의 방법은 종종 비공식 회의나 포커스 그룹(focus groups)과 같은 다른 방법과 결합하여 사용되었습니다. 따라서 우리는 합의 방법 자체에 대한 라운드 수만 계산했습니다. 이 회의에서 팀은 데이터 추출 양식의 세 번째이자 최종 버전을 완성했습니다.
최종 추출 양식은 두 부분으로 구성되었습니다.
- 첫 번째 부분은 사용된 합의 그룹 방법, 저널 유형, 연구 목적, 관련 전문 분야(specialty), 목표 훈련 수준(level of training), 초점 영역(국가 또는 국제)과 같은 논문 인구통계 정보를 수집했습니다.
- 두 번째 부분은 연구의 엄격성(rigor)을 나타낼 수 있는 항목들을 포함했습니다. 다음 질문들이 포함되었습니다:
- (1) 문헌 고찰이 수행되었는가?
- (2) 참가자에게 배경 정보가 제공되었는가?
- (3) 합의 방법이 항목 생성(item generation), 순위 매기기(ranking), 또는 둘 다를 위해 사용되었는가?
- (4) 몇 명의 참가자가 포함되었는가?
- (5) 우편/이메일 투표 또는 대면 질문이 사용되었는가?
- (6) 개인적 결정(private decisions)이 수집되었는가?
- (7) 공식적인 피드백(formal feedback)이 제공되었는가? 그렇다면 피드백은 기술되었는가?
- (8) 몇 번의 라운드가 수행되었는가?
- (9) 라운드 수는 사전에(a priori) 결정되었는가?
- (10) 합의에 대한 미리 정해진 정의(predetermined definition of consensus)가 있었는가? 그렇다면 무엇이었는가?
- (11) 합의가 강요되었는가(forced)?
이러한 각 질문에 대해, 검토자들은 해당 항목의 유무와 질문이 다루어졌는지 여부뿐만 아니라, 그것들이 명시적으로 진술되고 충분히 상세하게 기술되었는지(explicitly stated and described in sufficient detail)도 살펴보았습니다.
이 데이터 추출 도구를 사용하여 각 팀원은 첫 번째 검색(2009-2014)에서 나온 25~30편의 논문에 대한 전체 검토를 완료했습니다. 모호한 항목이 있으면 연구 책임자(S.H.M.)가 해당 논문을 검토하여 최종 결정을 내렸습니다. 나머지 논문들은 한 명의 팀원(S.H.M., L.V., T.J.W., T.F., C.G.)이 검토했습니다.
2016년 6월 업데이트된 검색 후, 8편의 논문이 검토를 위해 두 명의 다른 팀원에게 각각 배정되었습니다. 이 논문들을 논의하기 위해 두 번의 팀 회의가 열렸습니다. 나머지 논문들은 각 팀원(S.H.M., K.M., T.J.W., C.G., T.F., C.W.)이 코딩했습니다. 모호한 항목은 논의를 거쳐 합의가 이루어졌습니다. 이 단계에서 우리는 구체적으로 의학 교육(medical education)(모든 수준의 의사 교육)에 초점을 맞추었으며, 간호 교육에서 합의 방법 사용에 관한 논문이 최근에 출판되었기 때문에 간호학, 치의학, 수의학 또는 관련 보건(allied health) 교육을 다루는 논문은 제외했습니다.
4단계: 결과 통합, 요약 및 보고 (Step 4: Collating, summarizing, and reporting results)
우리는 Levac과 동료들이 제안한 세 가지 별도 데이터 분석 단계를 따랐습니다. 첫째, 우리는 양적 또는 수치적 접근 방식(SPSS Statistics 24, IBM, Armonk, New York을 사용하여 계산)을 사용하여 데이터를 분석했습니다. 우리는 이 결과를 표 형식으로 보고합니다. 그런 다음 전체 팀이 수치 요약을 검토하여 결과에 의미를 적용했습니다. 팀의 전문성은 결과의 의미를 고려하기 위한 여러 관점을 제공했습니다 - 측정 배경지식을 가진 양적 연구자, 질적 방법(qualitative methods)에 광범위한 경험을 가진 질적 연구자, 간호학 박사 학위를 가진 연구자, 그리고 의학 교육 연구에 적극적으로 참여하는 여러 임상 교육자들(clinician educators). 스코핑 고찰 방법은 전통적으로 질적 내용 분석(qualitative content analysis)을 사용하여 연구 결과에 대한 주제 분석(thematic analysis)을 포함하지만, 우리 연구의 일차적 목표는 논문의 결과(findings)가 아니라 논문에서 사용되고 보고된 방법(methods)을 분석하는 것이었습니다. 결과적으로 우리는 보고된 결과에 대한 주제 분석을 수행하지 않았습니다.
결과 (Results)
우리의 문헌 검색 결과와 논문 선정 과정(literature search results and article selection process)은 Figure 1에 예시되어 있습니다. 334편의 전문 논문(full-text articles)을 검토한 후, 257편의 논문이 우리 연구에 포함되었습니다. 이 논문들의 전체 참고문헌 목록은 http://links.lww.com/ACADMED/A461 의 Supplemental Digital Appendix 1을 참조하십시오.

논문 인구통계 (Article demographics)
Table 2는 우리 검토에 포함된 257편의 논문에서 추출한 인구통계 정보를 나열합니다. 이 논문들에서, 저자들은 자신들이 채택한 합의 방법을 기술하기 위해 매우 다양한 용어를 사용했습니다. 수정 델파이 기법(Modified Delphi method) (105/257; 40.8%), 델파이 기법(Delphi method) (91/257; 35.4%), 그리고 NGT (23/257; 8.9%)가 가장 흔하게 명명된 합의 방법이었습니다. 그러나 많은 논문이 방법의 조합(combination of methods)을 사용했습니다.
- 대부분의 논문(148/257; 57.6%)은 의학 저널(예: Surgery)에 출판되었으나, 3분의 1 이상(88/257; 34.2%)은 의학 교육 저널(예: Academic Medicine)에 출판되었습니다.
- 합의 그룹 방법을 사용하는 가장 흔한 목적은 새로운 교육과정 개발 또는 개편(new curriculum development or reform) (68/257; 26.5%), 평가 도구 개발(assessment tool development) (55/257; 21.4%), 그리고 역량 정의(defining competencies) (43/257; 16.7%)였습니다.
- 합의 그룹 방법은 지역적(local) (72/257; 28.0%), 국가적(national) (104/257; 40.5%), 그리고 국제적(international) (56/257; 21.8%) 문제를 다루기 위해 사용되었습니다.
- 25편의 논문(9.7%)에서는 초점이 지역적, 국가적, 또는 국제적인지 불분명했습니다. 연구들은 매우 다양한 전문 분야(specialties)에서 수행되었습니다(Table 2 참조).


합의 방법 적용의 표준화 (Standardization in the application of consensus methods)
우리는 Table 3에 사용된 접근법의 전체 목록을 제시합니다. 아래에, 우리는 특히 주목할 만한 발견(noteworthy findings)을 강조합니다.

문헌 고찰, 참가자를 위한 배경 정보, 연구 목적 (Literature review, background information for participants, study purpose)
검토한 257편의 논문 중 180편(70.0%)이 설문지 준비를 위해 문헌 고찰(literature review)이 수행되었음을 기술했습니다. 단 70편(27.2%)의 논문만이 연구 시작 시 참가자에게 어떤 배경 정보(background information)가 제공되었는지 기술했습니다. 합의 방법의 목적은 대다수의 논문(230/257; 89.5%)에 명시되어 있었으며,
- 그중 55편(23.9%)은 아이디어 생성(idea generation)을 위해,
- 81편(35.2%)은 순위 매기기(ranking)를 위해,
- 94편(40.9%)은 아이디어 생성과 순위 매기기 모두를 위해 사용되었다고 나타냈습니다.
참가자 (Participants)
합의 그룹을 구성한 참가자의 유형(Table 2 참조)은 주로 의사(physicians) (101/257; 39.3%)였으며, 그다음으로 의사와 관련 보건 전문가 같은 전문직 간 그룹(interprofessional groups) (34/257; 13.2%), 그리고 전문가 그룹(groups of experts) (34/257; 13.2%)이 뒤를 이었습니다. 우리는 참가자에게 요구되는 전문성의 유형(type of expertise)이 대개 명확하게 기술되지 않았음을 확인했습니다. Table 3은 합의 개발 라운드 전반에 걸쳐 참가자 수와 응답률(response rates)을 보고한 논문의 수를 나열합니다. 검토한 257편의 논문 중 215편(83.7%)이 연구 시작 시 초대된 참가자 수를 나열했습니다. 그러나 1라운드의 응답률을 나열한 연구 수는 170편(66.1%)으로 떨어졌습니다. 더 나아가, 단 129편(50.2%)의 논문만이 합의 개발의 2라운드 참가자 수를 보고했습니다.
합의 방법 특징 (투표, 익명성, 피드백, 라운드 수) (Consensus method features (polling, anonymity, feedback, number of rounds))
투표 또는 그룹 상호작용(Polling, or group interaction)은 검토한 257편의 논문 중 180편(70.0%)에서 기술되었습니다. 이는 우편 또는 이메일(117/180; 65.0%), 대면(face-to-face) (34/180; 18.9%), 또는 이 두 가지 접근 방식의 조합(29/180; 16.1%)으로 완료되었습니다. 익명성 또는 개인적 결정의 수집(Anonymity, or the collection of private decisions)은 103편(40.1%)의 논문에서 기술되었으며; 나머지 154편(59.9%)의 논문은 개인적 결정을 기술하지 않았거나 수집하지 않았습니다. 우리는 피드백에 대한 접근 방식과 참가자가 자신의 순위를 변경하거나 항목을 추가할 수 있는 능력을 검토했습니다. 단 97편(37.7%)의 논문만이 그룹 평가(group ratings)에 대한 공식적인 피드백(formal feedback)이 참가자와 공유되었다고 언급했습니다.
반복(iteration)은 합의 방법의 정의적 특징(defining feature)으로 간주되므로, 2회 이상의 데이터 수집 라운드가 필요합니다. 각 연구의 라운드 수는 0회에서 14회까지 다양했습니다. 전체적으로, 검토한 257편의 논문 중 단 197편(76.7%)만이 2회 이상의 라운드를 가졌다고 기술했습니다. 나머지 60편(23.3%)은 합의 방법을 사용한다고 선언했으나 단일 데이터 수집 세션(single data collection session)만을 가졌습니다. 2회 이상의 데이터 수집 라운드를 기술한 연구 중 대부분은 2라운드(111/257; 43.2%)를 가졌지만, 3라운드(66/257; 25.7%)나 4라운드(13/257; 5.1%)를 가진 연구도 여럿 있었습니다. 나머지는 5라운드(4/257), 7라운드(2/257), 14라운드(1/257)였습니다. 47편(18.3%)의 논문에서는 라운드 수가 사전에 결정(predetermined)되었으나, 210편(81.7%)의 논문에서는 라운드 수가 사전에 결정되지 않았거나 기술되지 않았습니다.
합의 수립 (Establishing consensus)
검토한 257편의 논문 중 111편(43.2%)에서 합의의 정의가 사전에 결정되었습니다(definition of consensus was predetermined). 합의의 정의가 제공되었을 때, 그 설명은 매우 다양했습니다. 일부 논문에서는 합의가 20% 이상의 동의로 정의되었고, 다른 논문에서는 90%에서 100%의 동의로 정의되었습니다. 검토한 논문 중 100편(38.9%)이 합의가 강요되었는지(forced) 여부를 보고했으며, 27편(10.5%)은 강요되었다고, 73편(28.4%)은 그렇지 않았다고 나타냈습니다. 157편(61.1%)의 논문에서는 합의 강요 여부가 기술되지 않았습니다.
고찰 (Discussion)
우리 연구는 의학 교육 연구에서 이전에 수행된 적이 없는 합의 그룹 방법을 탐구하기 시작했다는 점에서 독특합니다. 우리는 2009년에서 2016년 사이에 합의 방법을 사용하여 출판된 상당수의 논문(substantial number of articles) (n = 257)을 발견했습니다. 델파이 및 수정 델파이 기법이 이 논문들에서 보고된 합의 방법의 75% 이상을 차지했습니다. 수정 델파이(Modified Delphi)라는 용어를 사용한 40.8%의 논문 외에도, 많은 다른 논문들이 델파이 기법을 다른 합의 그룹 방법과 결합하여 사용하거나 수정 델파이 기법을 다른 방법과 함께 사용한다고 기술했습니다. 일부 논문은 동일한 논문의 초록과 방법 섹션에서 서로 다른 용어를 사용하는 등, 자신들의 방법을 설명하기 위해 델파이와 수정 델파이 용어를 모두 사용하기도 했습니다. 특히, 약 3분의 1의 논문이 데이터 수집에서 반복(iteration)의 사용을 기술하지 않았습니다; 다시 말해, 이 연구들에서는 단일 설문 조사가 참가자들에게 발송되었습니다. 우리는 반복(iteration)이 합의 방법의 핵심 특징(key feature)이기 때문에 이러한 연구 설계는 합의 그룹 방법으로 간주되어서는 안 된다고 주장합니다. 다른 연구와 일관되게, 우리의 결과는 의학 교육 문헌에서 사용되는 합의 방법 용어가 매우 다양하다는 것을 나타냅니다.
우리가 검토한 논문의 거의 40%는 의사만 포함했으나, 몇몇 논문은 보건 직종 전반의 그룹을 포함했습니다. 우리는 이러한 선택의 적절성을 평가하지는 않았습니다. 그러나 우려스러운 점은 여러 논문에서 참가자가 누구인지 파악할 수 없었다는 것입니다.
우리의 결과는 의학 교육 연구에서 합의 방법의 보고 품질(reporting quality)과 표준화(standardization)가 매우 다양함을 시사합니다. 다음 영역들은 특히 문제가 있는 것으로 보였으며 검토한 논문에서 자주 누락되거나 부실하게 기술되었습니다:
- 합의 방법에 정보를 제공하기 위한 문헌 고찰 수행;
- 참가자에게 배경 정보 제공;
- 각 라운드 후 참가자 수 보고;
- 연구에 사용된 익명성 수준 기술;
- 참가자에게 그룹 평가에 대한 피드백 제공; 그리고
- 연구에 사용된 합의의 정의 명시.
우리가 검토한 논문의 약 70%가 문헌 고찰을 완료했다고 보고했습니다.
- 나머지 30%가 기술하지 않은 채 문헌 고찰에 참여했을 수도 있지만, 우리는 이 중요한 단계가 반드시 기술되어야 한다고 제안합니다. 유사한 결과가 이전에 보고된 바 있습니다.
합의 구축 과정 시작 시 참가자에게 배경 정보(background information)를 제공하는 것 또한 동등하게 중요합니다.
- 참가자가 진정한 전문가라면 이 단계는 덜 관련될 수 있지만, 배경 정보는 참가자에게 영향을 미칠 수 있으므로 어떤 정보가 어떤 형식으로 제공되었는지에 대한 명확한 기술이 중요합니다. 우리가 검토한 논문의 단 27.2%만이 이 정보를 기술했습니다.
우리는 또한 각 데이터 수집 라운드의 응답률(response rates) 보고를 조사했습니다.
- 분석한 논문의 단 83.7%만이 연구 시작 시 초대된 참가자 수를 보고했고, 66.1%는 데이터 수집 1라운드의 참가자 수를, 50.2%는 2라운드의 참가자 수를 보고했습니다. 합의 방법 연구에 대한 다른 분석들도 데이터 수집의 모든 라운드에 대해 응답률을 보고한 연구가 7%에서 39%에 불과하다는 유사한 부실 보고를 발견했습니다. 우리는 이 정보가 연구 결과의 해석에 영향을 미칠 수 있다고 믿으므로, 이를 포함하는 것이 타당합니다.
익명성 또는 개인적 의사 결정(Anonymity or private decision making) 또한 고품질 합의 그룹 방법에 필수적인 것으로 간주됩니다.
- 불행히도, 우리가 심사한 논문의 절반 미만이 참가자의 익명성이 유지되었음을 명시적으로 보고하거나 방법 섹션에서 이를 명확히 알 수 있을 만큼 충분한 정보를 제공했습니다. 저자들은 독자들이 익명성이 연구 설계의 일부임을 이해할 것이라고 가정했을지 모르지만, 수정된 합의 방법(modified consensus methods)으로 명명된 접근 방식들의 변동성을 고려할 때 우리는 그들이 이를 명시해야 한다고 제안합니다.
합의 그룹 방법의 또 다른 중요한 특징은 통계적 그룹 반응과 정성적 정보를 포함한 참가자에 대한 피드백(feedback to participants)입니다.
- 이 정보는 참가자들이 타인의 응답을 기반으로 항목의 순위를 다시 매길 수 있게 합니다. 우리는 피드백이 검토한 논문의 약 3분의 1에서 보고되었음을 발견했습니다. 다른 연구자들도 익명성과 참가자에 대한 피드백이 합의 방법 기술에서 자주 보고되지 않는다는 점을 강조했습니다.
마지막으로, 우리가 식별한 가장 우려스러운 문제는 합의가 종종 사전에 정의되지 않았다는 것(not defined a priori)이었습니다.
- 우리가 검토한 논문의 단 43.2%만이 연구 시작 시 합의의 정의를 보고했습니다. 이 문제는 합의 방법에 대한 다른 분석에서도 강조되었으며, 단 28%에서 52%만이 합의의 정의를 보고했습니다.
이 검토의 범위를 벗어나는 일이지만, 합의 방법 자체에 대한 연구가 최소한으로 이루어졌다는 점은 여전히 주목할 가치가 있습니다. 그룹 의사 결정에 대한 이론적 기반에 관한 논문이 최근 출판되었으며, 이전의 연구는 합의 그룹 방법의 결과에 영향을 미치는 요인들에 초점을 맞추었습니다.
우리 연구에는 몇 가지 한계가 있습니다. 첫째, 모든 전자 데이터베이스와 연도를 검색하지 않았으므로 일부 연구가 우리 연구에 포함되지 않았을 가능성이 있습니다. 또한, 우리는 분석을 위해 스코핑 고찰 방법을 수정했습니다; 그러나 우리는 우리의 접근 방식이 연구 질문에 대한 방어 가능한 해답을 산출했다고 믿습니다.
결론 (Conclusions)
의학 교육 문헌의 합의 그룹 방법에 관한 우리의 결과는 다른 학문 분야의 결과를 반영하며 연구 전반에 걸친 상당한 변동성(considerable variability)을 강조합니다. 의학 교육 연구들은 사용된 방법에 관한 충분한 세부 사항을 일관되게 제공하지 않아 과학적 신뢰성 결여(lack of scientific credibility)로 이어집니다. 합의 방법이 모범 사례(best practices)에 정보를 제공하려면, 엄격하게 수행되어야 합니다. 합의 방법에 대한 합의(consensus on consensus methods)의 부재는 연구자들이 자신들이 사용한 방법에 대해 명확하고 상세한 보고(clear and detailed reporting)를 제공하고 이러한 선택을 정당화하는 것을 필수적으로 만듭니다.
그 목적을 위해, 이 검토의 결과는 이미 합의 그룹 방법 권장 사항 개발에 정보를 제공했습니다. 그러나 궁극적으로 이론적 기반과 합의 과정의 변형이 합의 결과(consensus outcomes)에 어떻게 영향을 미치는지에 대한 것을 포함하여, 방법 자체(methods themselves)에 대한 더 많은 연구가 필요합니다.