Wilson Centre

[시뮬레이션] 시뮬레이션 기반 교육에서 교육 설계 기능의 비교 효과: 체계적 검토 및 메타 분석

Meded. 2024. 9. 18. 10:04

출처: Cook, D. A., Hamstra, S. J., Brydges, R., Zendejas, B., Szostek, J. H., Wang, A. T., ... & Hatala, R. (2013). Comparative effectiveness of instructional design features in simulation-based education: systematic review and meta-analysis. Medical teacher, 35(1), e867-e898.

https://www.tandfonline.com/doi/full/10.3109/0142159X.2012.714886#d1e328

 

서론

Introduction

 

기술을 활용한 시뮬레이션Technology-enhanced simulation은 교육자들이 학습자의 경험을 조성하여 환자 안전을 해치지 않는 환경에서 학습을 촉진하는 데 도움을 줍니다. 우리는 기술을 활용한 시뮬레이션을 교육 도구 또는 장치로 정의하며, 학습자가 실제로 상호작용하여 임상 진료의 일부분을 모방하는 것을 통해 교육이나 평가 목적으로 사용됩니다. 이전 연구들은 기술을 활용한 시뮬레이션이 아무런 개입이 없는 상황과 비교했을 때 큰 긍정적 효과가 있다는 것을 확인했습니다(Cook et al., 2011; McGaghie et al., 2011). 그러나 서로 다른 시뮬레이션 개입의 상대적 장점은 여전히 불분명합니다. 한 시뮬레이터의 장점은 교육 목표와 교육 맥락에 따라 달라질 수 있으므로 특정 상황에 맞게 사용해야 하기 때문에, 효과적인 시뮬레이션 교육을 정의하는 교육 설계 요소, 즉 핵심 요소나 메커니즘에 집중하는 것이 합리적입니다. 이러한 증거를 종합적으로 분석하는 것은 교육자들에게 적시에 유용한 정보를 제공할 수 있을 것입니다.

 

  • 한 체계적 리뷰에서는 문헌에서 자주 등장하는 10가지 주요 특징을 식별했으나, 이러한 특징들이 교육 결과에 미치는 영향을 조사하지는 않았습니다(Issenberg et al., 2005).
  • 다른 리뷰들은 더 긴 훈련 시간이 더 나은 결과와 관련이 있다는 것을 발견했고(McGaghie et al., 2006),
  • 의도적 연습이 동반된 시뮬레이션은 지속적으로 긍정적인 효과를 보였습니다(McGaghie et al., 2011).
  • 시뮬레이션과 아무런 개입이 없는 상황을 비교한 연구에서는(Cook et al., 2011), 하위 그룹 메타 분석을 통해 학습 활동이 하루 이상에 걸쳐 분산되고 학습자가 과제의 숙달을 증명해야 할 때 더 나은 결과가 나온다는 약한 증거를 발견했습니다.
  • 시뮬레이션과 비시뮬레이션 교육을 비교한 연구에서는(Cook et al., 2012), 하위 그룹 메타 분석에서 학습자의 인지적 부담이 적고, 그룹으로 작업하며, 피드백과 학습 시간이 더 많은 경우 더 나은 결과를 보였습니다.

 

그러나 이러한 하위 그룹 분석은 연구 간 차이를 평가하기 때문에 설계 요소의 효과를 탐색하는 데 비효율적인 방법입니다. 학습자, 맥락, 임상 주제, 그리고 결과 측정에서의 연구 간 차이는 오류를 초래하고 해석을 혼란스럽게 합니다. 이러한 리뷰에서 평가된 하위 그룹 상호작용들(Cook et al., 2011, 2012)의 대부분은 결과별로 상이하며 대부분 통계적으로 유의미하지 않았습니다. 두 가지 교육 변형을 하나의 연구 내에서 직접 비교하는 것이 더 적절한 접근 방법입니다. 이는 연구 간 차이 대신 연구 내 설계 차이를 활용할 수 있기 때문입니다. 예를 들어, 인터넷 기반 교육에서 효과적인 교육 설계 요소를 식별하기 위해 직접 비교 메타 분석이 사용되었습니다(Cook et al., 2010b).

 

다양한 시뮬레이션 기반 교육 개입을 비교하는 직접 비교 연구, 즉 비교 효과 연구에 대한 종합적인 리뷰는 보건 직업 교육에 두 가지 중요한 요구를 충족시킬 것입니다.

  • 첫째, 특정 교육 설계 요소에 대한 증거를 정량적으로 종합함으로써 교육 실습에 즉각적인 정보를 제공할 수 있습니다.
  • 둘째, 비교된 내용과 연구 질문에 대한 주제적 요약을 통해, 중요한 주제로 간주되어 추가 연구가 필요하다고 여겨지는 공통 비교 항목들을 제공하고, 증거의 공백을 강조함으로써 향후 연구에 정보를 제공할 수 있습니다.
  • 우리는 체계적인 리뷰를 통해 이 두 가지 요구를 해결하고자 했습니다.

 

방법
Methods 

 

이 리뷰는 메타 분석 보고의 질을 위한 PRISMA 기준(Moher et al., 2009)을 준수하여 계획되고, 수행되었으며, 보고되었습니다.

 

질문
Questions

 

우리는 한 기술을 활용한 시뮬레이션 교육 접근법과 다른 접근법을 직접 비교한 연구에서 어떤 교육 설계 요소가 더 나은 결과와 관련이 있는지, 그리고 이러한 비교에서 다루어진 주제가 무엇인지 답하고자 했습니다. 첫 번째 질문에 답하기 위해 우리는 Issenberg et al.(2005)의 리뷰에서 식별된 8가지 교육 설계 요소와 인지적 상호작용, 여러 세션에 걸친 교육 분산, 그룹 대 독립 연습, 학습 시간과 같은 추가적인 특징들을 선택했습니다(정의는 Box 1 참조). 우리는 각 요소가 많을수록 더 높은 결과가 나올 것이라고 가설을 세웠습니다.

 

 

연구 자격 기준
Study eligibility

 

우리는 기술을 활용한 시뮬레이션을 사용하여 건강 전문직 학습자를 대상으로 교육을 시행하고, 동일한 기술을 활용한 시뮬레이션 설계 또는 해당 시뮬레이션의 변형이나 보완과 비교한 연구를 포함했습니다. 교육 과정의 어느 단계에서든 학습자가 반응(만족도), 학습(시험 환경에서의 지식이나 기술), 행동(실습에서의 행동), 또는 환자에 미치는 영향을 결과로 다룬 연구들을 대상으로 했습니다(Kirkpatrick, 1996 참고). 기술을 활용한 시뮬레이션에는 컴퓨터 기반 가상 현실 시뮬레이터, 고충실도 및 정적인 마네킹, 플라스틱 모델, 살아있는 동물, 비활성 동물 제품, 인간 시신 등 다양한 제품이 포함됩니다. 최근 리뷰에서 다루어진 연구들을 배제하기 위해, 컴퓨터 기반 가상 환자(Cook & Triola, 2009; Cook et al., 2010a) 및 인간 환자 배우(표준화 환자)를 사용한 시뮬레이션 활동만을 다룬 연구들은 제외했습니다(Bokken et al., 2008; May et al., 2009). 

 

연구 식별
Study identification

 

우리는 경험이 풍부한 연구 사서(PJE)가 개발한 검색 전략을 사용하여 MEDLINE, EMBASE, CINAHL, PsycINFO, ERIC, Web of Science, 그리고 Scopus를 검색했습니다. 이 검색은 개입(시뮬레이터, 시뮬레이션, 마네킹, 시신, MIST, Harvey 등), 주제(외과, 내시경, 마취, 외상, 대장 내시경 등), 그리고 학습자(의학 교육, 간호 교육, 전문직 교육, 인턴십 및 레지던시 등)에 대한 용어를 포함했습니다. 시작 날짜에 대한 제한은 없었으며, 마지막 검색 날짜는 2011년 5월 11일이었습니다. 추가적으로, 우리는 건강 전문직 시뮬레이션과 관련된 두 저널(Simulation in Healthcare 및 Clinical Simulation in Nursing)에 게재된 모든 논문과, 여러 건강 전문직 시뮬레이션 리뷰의 전체 참고문헌 목록을 추가했습니다. 마지막으로, 우리는 1990년 이전에 출판된 모든 포함된 논문의 참고문헌 목록과 1990년 이후에 출판된 160개의 포함된 논문 중 무작위로 선정된 표본을 추가로 검색했습니다. 우리의 완전한 검색 전략은 이전에 발표되었습니다(Cook et al., 2011).

 

연구 선정
Study selection

 

독립적으로, 그리고 중복으로 모든 제목과 초록을 포함 여부에 대해 검토했습니다. 의견 불일치나 초록에 불충분한 정보가 있을 경우, 잠재적인 논문의 전체 본문을 독립적으로 그리고 중복으로 검토하여 합의를 통해 갈등을 해결했습니다. 연구 포함 여부에 대한 평가자의 일치도는 상관계수(ICC)를 사용하여 결정되었으며, 0.69로 나타났습니다. 비영어 논문은 전체 번역되었습니다. 

 

데이터 추출

Data extraction

 

우리는 데이터 추출 양식을 사용하여, 심사자의 판단이 필요한 모든 변수를 독립적이고 중복적으로 데이터를 추출하였으며, 의견 충돌은 합의를 통해 해결했습니다. 대부분의 변수에 대한 평가자 간 합의는 적당(ICC 0.2–0.4)하거나 중간(0.4–0.6) 수준이었습니다(Landis & Koch, 1977). 각 비교의 주요 주제(연구 질문, 연구 가설)는 귀납적이고 반복적인 접근을 통해 식별했습니다. 우리는 학습자의 교육 수준, 임상 주제, 교육 장소(시뮬레이션 센터 또는 임상 환경), 연구 설계, 그룹 할당 방법, 결과, 그리고 방법론적 질에 대한 정보를 추출했습니다. 시뮬레이션의 충실도에 대한 정보를 추출할 계획이었으나, 신뢰성 있게 이를 운영화하는 데 어려움이 있어 해당 변수를 제외했습니다. 우리는 다음 시뮬레이션 특징들을 코드화했습니다(Box 1 참고):

  • 임상적 변이(존재/부재; ICC 0.46),
  • 인지적 상호작용(높음/낮음; ICC 0.35),
  • 교육 과정 통합(존재/부재; ICC 0.49),
  • 분산 학습(1일 또는 1일 초과 교육; ICC 0.73),
  • 피드백(높음/낮음; ICC 0.46),
  • 그룹 대 독립 연습(ICC 0.71),
  • 개별화된 학습(존재/부재; ICC 0.25, 원시 합의율 85%),
  • 숙달 학습(Issenberg의 "정의된 결과," 즉 사전에 정의된 숙련도 수준까지의 교육, 존재/부재; ICC 0.53),
  • 다중 학습 전략(높음/낮음; ICC 0.49),
  • 과제 난이도의 범위(존재/부재; ICC 0.30, 원시 합의율 82%),
  • 반복 연습(반복 횟수; ICC 0.60),
  • 학습에 소요된 시간(ICC 0.72).
  • . clinical variation (present/absent; ICC, 0.46),
  • . cognitive interactivity (high/low; ICC, 0.35),
  • . curriculum integration (present/absent; ICC, 0.49),
  • . distributed practice (training on 1 or 41 day; ICC, 0.73),
  • . feedback (high/low; ICC, 0.46),
  • . group vs independent practice (ICC, 0.71),
  • . individualized learning (present/absent; ICC, 0.25, with raw agreement 85%),
  • . mastery learning (Issenberg’s ‘‘defined outcomes,’’ i.e. training to a predefined level of proficiency, present/ absent; ICC, 0.53), 
  • . multiple learning strategies (high/low; ICC, 0.49),
  • . range of task difficulty (present/absent; ICC, 0.30, with raw agreement 82%),
  • . repetitive practice (number of repetitions; ICC, 0.60), and
  • . time spent learning (ICC, 0.72).

 

방법론적 질은 Medical Education Research Study Quality Instrument (Reed et al., 2007)와 코호트 연구를 위한 Newcastle-Ottawa 척도의 수정판(Wells et al., 2007; Cook et al., 2008b)을 사용하여 평가되었으며, 개입 그룹의 대표성(ICC 0.68), 비교 그룹의 선택(ICC 0.26, 원시 합의율 86%), 코호트의 비교 가능성(무작위화되지 않은 연구에서 기저 특성에 대한 통계적 조정 [ICC 0.88], 무작위화 [ICC 0.84] 및 무작위화 연구의 배정 은폐 [ICC 0.63]), 결과 평가의 블라인딩(ICC 0.58), 그리고 추적의 완전성(ICC 0.36, 원시 합의율 80%)을 평가했습니다. 

 

시뮬레이션 교육과 관련된 결과는 다양한 결과에 따라 달라질 수 있기 때문에, 우리는 결과를 Kirkpatrick의 분류에 따라 구분하였으며, 만족도, 학습(지식과 기술, 기술은 과제 완료 시간, 과정, 결과로 추가 분류 [정의는 Box 1 참조]), 환자와의 행동(시간 및 과정), 그리고 결과(환자에 미치는 영향)에 대한 정보를 별도로 추출했습니다. 저자들은 자주 단일 결과에 대한 여러 측정을 보고했는데(예: 과정 기술의 여러 측정값), 이 경우 우리는 우선순위에 따라 (1) 저자가 정의한 주요 결과, (2) 글로벌 또는 요약된 효과 측정값, (3) 가장 임상적으로 관련 있는 측정값, 또는 (4) 보고된 측정값의 평균을 선택했습니다. 또한 우리는 학습에 사용된 시뮬레이터와는 다른 환경(예: 다른 시뮬레이터나 임상 환경)에서 평가된 기술 결과를 우선적으로 고려했습니다.

 

데이터 통합

Data synthesis

 

각 보고된 결과에 대해, 표준 기법(Borenstein, 2009; Morris & DeShon, 2002; Curtin et al., 2002; Hunter & Schmidt, 2004)을 사용하여 각 그룹 간의 표준화된 평균 차이(Hedges' g 효과 크기)를 계산했습니다. 이 방법은 이전 연구에서 자세히 설명한 바 있습니다(Cook et al., 2011). p값이나 분산의 측정치를 보고하지 않은 연구의 경우, 해당 결과를 보고한 다른 연구의 평균 표준 편차를 사용했습니다. 보고된 데이터를 사용하여 효과 크기를 계산할 수 없는 경우, 저자에게 이메일을 통해 추가 정보를 요청했습니다. 

 

연구 간 불일치(이질성)를 수량화하기 위해 I² 통계량(Higgins et al., 2003)을 사용했습니다. I²는 연구 간 변동성 중 우연에 의한 것이 아닌 부분을 추정하며, 50% 이상의 값은 큰 불일치를 나타냅니다. 큰 불일치는 도출할 수 있는 추론을 약화시키지만, 공통된 개념적 연관성을 공유하는 연구들을 합치는 것을 방해하지는 않습니다.

 

우리는 각 교육 설계 요소의 효과를 평가하기 위해 메타 분석을 계획했으며, 그 요소가 두 시뮬레이션 기반 개입 사이에서 변동한 모든 연구의 결과를 통합했습니다. 예를 들어, 한 연구 그룹이 높은 피드백을 받고 다른 그룹이 낮은 피드백을 받은 경우, 해당 연구는 "피드백" 메타 분석에 포함되었습니다. 피드백이 두 그룹 모두에서 동일했다면, 해당 분석에서 제외되었습니다. 이러한 분석의 파워를 높이기 위해, 우리는 과정 기술과 결과 기술을 하나의 "비시간 기술"로 병합했으며, 행동과 환자에 미치는 영향도 통합했습니다. 대부분의 분석에서 큰 불일치를 발견했기 때문에, 우리는 가중치가 부여된 효과 크기를 통합하기 위해 랜덤 효과 모델을 사용했습니다. 많은 연구들이 여러 분석에 포함되었지만(예: 피드백과 반복 연습 모두), 한 연구가 동일한 분석에 중복으로 포함된 경우는 없었습니다. 두 그룹 이상의 연구(예: 세 가지 다른 시뮬레이션 교육 설계)를 가진 연구의 경우, 그룹 간 차이가 가장 큰 설계를 주요 분석에 선택하고, 나머지 설계를 대체하여 민감도 분석을 수행했습니다. 또한, 품질이 낮은 연구(NOS 및 MERSQI 점수가 중앙값 이하인 연구)와 효과 크기 추정이 부정확한 연구(p 값 상한선 또는 대체된 표준 편차가 있는 연구)를 제외하는 민감도 분석도 수행했습니다.

 

모든 분석은 SAS 9.2(SAS Institute, Cary, NC)를 사용하여 수행되었습니다. 통계적 유의성은 양측 알파 0.05로 정의되었습니다. 교육적 유의성에 대한 판단은 Cohen의 효과 크기 분류에 따라 강조되었습니다(<0.2 = 무시 가능; 0.2–0.49 = 작음; 0.5–0.8 = 중간) (Cohen, 1988).

 

결과

Results

 

연구 진행 과정

Trial flow

 

우리는 검색 전략을 통해 10,297개의 논문을 식별했으며, 참고 문헌 목록과 저널 색인을 검토하여 606개의 논문을 추가로 확인했습니다. 이 중에서 두 가지 이상의 시뮬레이션 교육 개입을 비교한 295개의 연구를 확인했고(Figure 1), 그중 290개 연구가 적격 결과를 보고했습니다. 두 논문은 동일한 데이터를 보고했으며, 우리는 더 자세한 내용을 포함한 논문을 선택하여 포함했습니다. 우리는 한 연구의 저자로부터 추가 결과 데이터를 얻었습니다. 궁극적으로, 우리는 18,971명의 훈련생을 대상으로 한 289개의 연구를 포함했습니다. 이 중 26개의 연구는 무개입 비교를 포함한 다중 그룹 연구였으며, 무개입 결과는 이전에 보고되었습니다(Cook et al., 2011). Table 1은 주요 연구 특성을 요약하며, Appendix 1은 추가 정보를 포함한 논문 목록을 제공합니다.

 

Figure 1. 연구 진행 과정.

 

연구 특성
Study characteristics

 

우리 샘플의 연구들은 최소 침습 수술, 치과, 기관삽관, 신체 검사, 팀워크와 같은 주제를 교육하기 위해 기술을 활용한 시뮬레이션을 사용했습니다. 거의 절반의 논문(N=139)은 2008년 이후에 출판되었으며, 다섯 편은 영어 이외의 언어로 출판되었습니다. 학습자에는 의대생 및 현직 의사, 간호사, 응급의학 기술자, 치과의사, 카이로프랙터, 수의사 등이 포함되었습니다. Table 1은 피드백(75개 연구), 반복 연습(233개 연구), 분산 연습(98개 연구)과 같은 교육 설계 요소의 빈도를 요약합니다. 대부분의 연구는 학습자의 기술을 보고했으며, 100개 연구에서 시간 기술, 197개 연구에서 과정 기술, 56개 연구에서 결과 기술을 다루었습니다. 56개의 연구가 만족도를, 34개가 지식 결과를, 1개가 시간 행동을, 9개가 과정 행동을, 8개가 환자에 미치는 영향을 보고했습니다.

 

 

연구 품질
Study quality

 

Table 2는 포함된 연구들의 방법론적 질을 요약합니다. 결과를 제공한 참가자의 수는 4명에서 817명 사이였으며, 중앙값은 30명(사분위 범위 20–53)이었습니다. 208개 연구(72%)에서 그룹이 무작위로 할당되었습니다. 56개의 만족도 결과 중 13개(23%), 34개의 지식 결과 중 5개(15%), 100개의 시간 기술 결과 중 31개(31%), 197개의 과정 기술 결과 중 62개(31%), 56개의 결과 기술 중 18개(32%), 9개의 과정 행동 중 1개(11%)에서 참여자가 25% 이상 감소하거나 추적 관찰을 보고하지 않았습니다(시간 행동 및 환자 영향 결과는 완전한 추적 관찰이 이루어졌습니다). 461개의 결과 측정 중 309개(67%)에서 평가자가 그룹 할당에 대해 블라인드 처리되었습니다. 대부분의 결과는 객관적인 측정을 반영했습니다(예: 컴퓨터 점수화, 객관적 기준 또는 인간 평가자). 모든 지식 및 시간 행동 결과는 객관적으로 결정되었으며, 학습자의 자기 평가가 과정 기술 결과 5개, 시간 기술 1개, 결과 기술 1개, 과정 행동 1개, 환자 영향 결과 1개를 차지했습니다. 평균(SD) 품질 점수는 Newcastle-Ottawa Scale에서 평균 3.5(1.3)점(최고 품질은 6점), Medical Education Research Study Quality Instrument에서 평균 12.3(1.8)점(최대 18점)으로 나타났습니다.

 

Table 2. 포함된 연구의 품질

 

 

Table 3. 연구에서 다룬 연구 주제(비교)

 

메타 분석
Meta-analysis

 

메타 분석에서 우리는 과정 기술과 결과 기술process and product skills을 "비시간 기술non-time skills"이라는 단일 결과로 통합했으며, 행동과 환자에 미치는 영향도 통합했습니다. Figure 2는 결과별로 교육 설계 요소의 종합 효과 크기를 보여줍니다(패널 A–E). 비시간 기술의 경우, 그룹 훈련을 제외한 모든 제안된 효과적인 시뮬레이션 요소의 존재가 작거나 중간 크기의 긍정적인 효과와 관련이 있음을 확인했으며, 이 중 7개 요소의 효과는 통계적으로 유의미했습니다. 다른 결과의 경우에도 대부분(38개 중 35개) 제안된 요소가 더 나은 결과와 관련이 있었으나, 대다수는 통계적으로 유의미하지 않았습니다.

 

예를 들어, 비시간 기술 결과의 경우(Figure 2, 패널 D), 20개의 연구가 한 시뮬레이션 설계가 다양한 난이도의 과제를 포함한 경우와 포함하지 않은 경우를 비교했습니다. 이들 연구 중, 다양한 난이도를 제공한 설계는 균일한 난이도를 제공한 설계보다 더 나은 결과와 관련이 있었으며, 종합된 효과 크기(ES)는 0.68(95% 신뢰 구간 [CI], 0.30–1.06, p < 0.001)이었습니다. 이 차이는 통계적으로 유의미하며, Cohen의 분류에 따르면 중간 크기의 차이입니다.

  • 임상적 변화를 포함한 교육 설계에서는 작은 차이(0.20),
  • 상호작용이 많은 설계(0.65), 1일 이상 훈련(0.66), 더 많은 피드백(0.44), 개별화된 학습(0.52), 숙달 학습(0.45), 다중 학습 전략(0.62), 반복(ES 0.68), 더 긴 학습 시간(0.34)에서도 중간 정도의 차이가 발견되었습니다.

지식, 시간, 행동-환자 영향 결과는 유사하게 긍정적인 결과를 보였지만, 대체로 작고 통계적으로 유의미하지 않은 효과였습니다(Figure 2 참조). 대부분의 분석에서 불일치도는 컸습니다(I² > 50%).

 

예상 패턴과 달랐던 예외는 그룹 훈련으로, 비시간 기술에 대해 작은 음의 상관관계를 보였습니다(ES −0.22 [95% CI, −0.48 to 0.03], p = 0.09). 지식과 시간 결과(각각 1개의 연구)는 유사한 결과를 보였습니다.

 

비시간 기술 및 행동-환자 영향 결과를 보고한 여러 연구는 세 가지 시뮬레이션 군을 사용했습니다. 우리는 한 번에 두 그룹만 비교할 수 있었으므로, 먼저 설계 간 차이가 가장 큰 그룹을 포함하고, 이후 감수성 분석을 통해 세 번째 그룹을 대체하여 분석했습니다(Appendix 2 참조). 비시간 기술의 경우, 결과는 거의 변동이 없었으며, 종합된 효과 크기는 모든 분석에서 <0.08만큼 차이가 났고, 통계적 유의성은 한 번만 변동이 있었습니다(그룹 훈련 분석은 통계적으로 유의미하게 변경됨, p = 0.02). 행동-환자 영향의 경우 피드백에 대한 종합 ES는 0.18로 감소했습니다.

 

품질이 낮은 연구를 제외한 추가 감수성 분석에서는 효과의 방향이 거의 뒤바뀌지 않았습니다(153개 분석 중 5개에서만). 즉, 비시간 기술 결과에서 숙달 학습(NOS 점수 낮은 경우나 효과 크기 추정이 부정확한 경우), 만족도 결과에서 피드백(MERSQI 또는 NOS 점수 낮은 경우), 행동-환자 영향에서 상호작용(MERSQI 점수 낮은 경우)이 해당됩니다.

 

Figure 2. 랜덤 효과 메타 분석: 특정 주요 요소가 다른 시뮬레이션 개입을 비교한 결과; 긍정적인 값은 해당 요소를 더 많이 포함한 개입에 유리한 것을 나타냅니다. 특정 결과에 대해 분석에 포함되지 않은 요소는 해당 결과를 보고한 연구에서 그 요소가 변동되지 않았기 때문입니다. 일부 요소 비교는 관련 연구가 1개뿐이었으며, 이러한 경우 해당 효과 크기는 1개의 연구만 반영하는 것입니다(즉, 통합되지 않음).

 

 

연구 주제

Research themes

 

반복적인 과정을 통해 여섯 가지 주요 연구 주제를 식별했으며, 더 많은 하위 주제도 식별했습니다(Table 3 참조). 38개의 연구가 두 개 또는 세 개의 군을 포함하여, 총 337개의 비교가 이루어졌습니다.

  • 가장 많이 다루어진 주요 주제는 피드백의 양이나 방법, 훈련 활동의 순서, 과제의 다양성, 또는 반복과 같은 교육 설계 요소를 비교하는 것이었습니다.
  • 두 번째로 많이 다루어진 주제는 두 가지 기술을 활용한 시뮬레이션 모달리티를 비교하는 연구로, 예를 들어 마네킹 대 부분 과제 모델, 마네킹 대 가상 현실, 또는 두 가지 다른 마네킹을 비교했습니다. 몇몇 연구는 표준 시뮬레이션 교육에 또 다른 교육 모달리티(예: 강의, 컴퓨터 보조 교육, 또는 또 다른 시뮬레이션 모달리티)를 추가하는 것을 평가했습니다.
  • 나머지 주제는 교육자의 역할, 촉각을 포함한 감각 보강, 그리고 그룹 구에 초점을 맞추었습니다.
  • 처음에는 "충실도"라는 주요 주제를 식별했으나, 추가 검토를 통해, 이 주제로 분류된 모든 연구는 더 적절한 다른 주제로 분류될 수 있음을 깨달았으며, 대부분 "모달리티 비교"로 분류되었습니다.

 

논의
Discussion

 

2005년에 Issenberg 등은 문헌에서 자주 언급되는 10가지 효과적인 시뮬레이션의 특징을 제안했습니다. 우리의 연구 종합은 이러한 특징 대부분과 그 외 몇 가지를 경험적으로 지지합니다. 비록 종합된 효과 크기가 종종 작거나 통계적으로 유의미하지 않았고, 연구 간 불일치가 높았지만, 결과 전반에 걸친 일관된 효과 방향은 그 혜택이 실재함을 시사합니다. 이러한 결과를 더 큰 맥락에서 해석해보면, "난이도의 범위"를 비시간 기술 결과로 사용했을 때 관찰된 0.68의 효과 크기는 일반적인 기술 평가에서 약 5%의 향상(100% 중)을 의미합니다. 일반적으로 지식보다는 기술에 대해 더 큰 효과 크기가 관찰되었으며, 이는 시뮬레이션과 비시뮬레이션 교육을 비교한 연구에서도 유사한 경향을 보였습니다(Cook et al., 2012). 평가된 열두 가지 특징 중, 그룹 교육만이 일관되게 긍정적인 효과를 보여주지 않았습니다. 흥미롭게도, 이전 메타 분석(Cook et al., 2012)에서는 시뮬레이션과 비시뮬레이션 교육을 비교한 연구에서 그룹 교육이 향상된 결과와 관련이 있었는데, 이 불일치는 추가 연구가 필요합니다.

 

우리는 또한 337개의 시뮬레이션 간 비교 연구 주제를 분류했습니다. 가장 많이 다루어진 주제는 교육 설계의 핵심 요소를 평가하는 것이었습니다. 이 연구들은 교육자의 역할이나 그룹 구성에 대해 탐구한 연구들과 함께 일반화 가능한 결론을 도출하는 경향이 있었습니다. 반면, 다른 주제 중 약 1/3은 서로 다른 시뮬레이션 모달리티를 비교하는 데 초점을 맞추고 있었습니다. 모달리티 비교는 처음에는 유용하게 보일 수 있지만, 기술이 변화하고 발전하면서 결과가 크게 달라졌으며, 교육 맥락도 다양해지고 동일한 기술의 구현도 다른 교육 설계가 적용되었습니다. 그 결과, 우리는 모달리티 비교에서 도출된 결과의 일반화 가능성이 제한적일 것으로 추정합니다. 

 

Issenberg 등의 리뷰에서 다룬 설계 요소 중 우리가 코드화하지 않은 한 가지는 "충실도(fidelity)"입니다. 우리는 양적 데이터 추출과 주제 분석 모두에서 충실도를 코드화하기 어려움을 겪었습니다. "충실도"라는 용어는 시뮬레이션 활동과 관련된 다양한 측면을 포함하는데, 이는 시뮬레이터의 감각적 인상을 중재하는 특성(시각, 청각, 후각, 촉각/촉감), 학습 목표와 과제 요구 사항의 성격, 환경, 그리고 학습자의 몰입이나 현실감 중단에 영향을 미칠 수 있는 다른 요소들을 포함합니다. 시뮬레이션을 "고충실도"로 분류하는 것은 매우 다양한 의미를 전달할 수 있기 때문에, 이 용어는 거의 모든 유용성을 상실하게 됩니다. 이번 리뷰 과정에서 얻은 경험을 바탕으로, 연구자와 교육자들이 시뮬레이션 교육의 물리적 및 맥락적 속성을 논의할 때 더 구체적인 용어를 사용하는 것이 바람직하다고 제안합니다.

 

제한점과 강점
Limitations and strengths

 

포괄적인 주제적 개요를 제공하고 메타 분석을 위한 충분한 통계적 파워를 달성하기 위해, 우리는 의도적으로 광범위한 포함 기준을 사용했습니다. 그러나 이로 인해 다양한 교육 주제, 교육 설계, 그리고 결과 측정을 반영한 연구들이 포함되었습니다. 이러한 차이점들은 연구 간 큰 불일치에 기여했을 가능성이 큽니다. 이 불일치는 우리의 추론을 제한하지만, 메타 분석 통합을 막지는 않습니다(Montori et al., 2003; Cook, 2012b). 향후 원천 연구 및 연구 종합을 통해 이러한 교육 설계 요소가 특정 주제, 예를 들어 기술적 및 비기술적 과제에 있어 얼마나 중요한지 명확히 할 수 있을 것입니다.

 

문헌 리뷰는 이용 가능한 증거의 양과 질에 의해 제한됩니다. 포함된 연구들 중에서, 표본 크기는 상대적으로 작았고, 표본 대표성은 거의 다루어지지 않았으며, 결과 타당성 증거는 드물게 제시되었습니다. 또한 많은 보고서가 맥락, 교육 설계, 또는 결과의 주요 특징을 명확히 설명하지 못했습니다. 비록 기술 결과를 보고한 많은 연구들과 만족도 및 지식을 보고한 몇몇 연구들을 발견했지만, 행동과 환자에 미치는 영향과 같은 고차원적 결과를 보고한 연구는 적었습니다. 그럼에도 불구하고 70% 이상의 연구가 무작위 배정을 사용했으며, MERSQI 점수는 이전의 의학교육 연구 리뷰에서 발견된 것보다 상당히 높았습니다(Reed et al., 2007, 2008).

 

일부 교육 설계 요소의 코드화 재현성은 최적 수준에 미치지 못했는데, 이는 보고가 부족하거나 코드화 기준을 운영화하는 데 어려움이 있었기 때문입니다. 그러나 메타 분석 전에 모든 코드에 대해 합의를 도출했습니다.

 

통계적 파워를 증가시키고 독립적인 메타 분석의 수를 줄이기 위해, 우리는 교육 환경(기술)과 실제 환자와 함께한 평가(행동 및 환자 영향)에서 과정 및 결과 결과를 통합했습니다. 이를 별도로 분석했다면 결론이 약간 다를 수 있었을 것입니다.

 

이 리뷰는 몇 가지 추가 강점을 가지고 있습니다. 숙련된 사서가 이끄는 광범위한 문헌 검색, 출판 시기나 언어에 제한을 두지 않은 점, 학습자, 결과 및 연구 설계를 포괄하는 명시적인 포함 기준, 중복적이고 독립적이며 재현 가능한 데이터 추출, 방법론적 품질에 대한 엄격한 코드화, 그리고 가설 기반 분석 등이 포함됩니다.

 

이전 리뷰와의 비교
Comparison with previous reviews

 

이번 리뷰는 시뮬레이션 훈련이 개입이 없는 상황과 비교했을 때 큰 긍정적 효과가 있다는 우리의 최근 메타 분석을 보완합니다(Cook et al., 2011). 시뮬레이션이 효과적이라는 점을 확인한 후, 다음 단계는 무엇이 시뮬레이션을 효과적으로 만드는지 이해하는 것입니다. 비록 다른 리뷰들이 일반적인 시뮬레이션(Issenberg et al., 2005; McGaghie et al., 2010)이나 개입이 없는 경우와의 비교(Gurusamy et al., 2008; McGaghie et al., 2011)를 다루었지만, 우리는 다른 기술을 활용한 시뮬레이션 개입이나 교육 설계를 비교한 이전 리뷰는 알지 못합니다. Issenberg 등(2005)이 제안한 설계 요소의 효과를 확인함으로써, 우리의 종합적이고 정량적인 분석은 이 분야에 새로운 중요한 기여를 합니다.

 

작거나 중간 크기의 효과가 이론적으로 예측된 교육 설계 요소에 유리하게 나타난 우리의 결과는 인터넷 기반 교육에 대한 리뷰(Cook et al., 2008b)의 결과와 유사합니다. 연습 시간이 길수록 더 나은 결과와 관련이 있다는 것은 이전 시뮬레이션 기반 교육 리뷰에서도 보고되었습니다(McGaghie et al., 2006).

 

의의
Implications

 

Issenberg 등(2005)이 제안한 효과적인 시뮬레이션의 핵심 특징은 우리가 확인한 추가 요소들과 함께 실제로 효과가 있는 것으로 보입니다. 이러한 요소들은 현재 시뮬레이션 교육 분야의 "최고 실천 방안"으로 간주될 것을 권장합니다. 종합된 효과 크기에 따라, 이러한 요소들은 난이도의 범위, 반복 연습, 분산 연습, 인지적 상호작용, 다중 학습 전략, 개별화된 학습, 숙달 학습, 피드백, 긴 학습 시간, 그리고 임상적 변이입니다.

 

그러나 동시에, 어떤 상황에서, 누구에게 효과가 있는지에 대한 추가 연구가 필요함을 강조합니다. 거의 모든 분석에서 나타난 큰 불일치성은 연구마다 효과가 다르다는 것을 시사하며, 여러 잠재적 변수(학습자, 환경, 개입의 운영적 정의, 결과, 연구 방법 등)의 상대적 기여도는 여전히 불분명합니다. 메타 분석 외에도, 실재주의 리뷰(Pawson et al., 2005)와 같은 다른 종합 방법이 기존 증거를 해석하는 데 도움이 될 것입니다.

 

앞으로 우리는 새로운 연구의 개념과 설계에서 근본적인 변화가 필요하다고 믿습니다. 현재까지 다른 시뮬레이션 기반 개입을 직접 비교하여 시뮬레이션의 사용을 명확히 하려는 연구의 수(N = 289)는 시뮬레이션과 비시뮬레이션 교육을 비교하는 연구(N = 690) 및 비교가 없는 연구(N = 864)에 비해 적습니다(그림 1 참조). 시뮬레이션과 시뮬레이션을 비교하는 연구는 시뮬레이션과 비시뮬레이션 접근을 비교하는 연구보다 이 분야를 더 발전시킬 것입니다(Cook, 2010). 그러나 모든 시뮬레이션-시뮬레이션 비교가 동일하게 유용한 것은 아니며, 개념적 또는 이론적 근거 없이 모달리티나 교육 설계를 평가하는 연구는 일반화 가능성이 제한적입니다.

 

따라서 이 분야는 핵심 요소의 존재/부재를 단순히 비교하는 것을 넘어서는 연구가 필요합니다(Weinger, 2010). 예를 들어, 피드백이 결과를 개선하는 것으로 보이지만, 피드백의 기초, 타이밍, 전달 방식에 대해 아직 배울 것이 많습니다. 이러한 연구는 점진적으로 정교한 이론과 개념적 프레임워크가 필요하며, 신중하게 구성된 질문을 체계적으로 연구해야 합니다(Bordage, 2009; McGaghie et al., 2010). 이 리뷰에서 식별된 주제들(Table 3 참조)은 그러한 연구 프로그램의 출발점을 제공합니다. 또한 대안적 교육 접근 방식의 비용을 체계적으로 고려하고(Levin, 2001), 비용이 설계 결정을 어떻게 안내할 수 있는지 탐구하는 것도 중요할 것입니다(Zendejas, 2012).

 

물론, 이러한 연구는 충분한 자금 지원 없이는 불가능할 것입니다. 보건 직업 교육 연구는 자금 지원이 부족한 상황이며(Reed et al., 2005), 자금 지원이 더 높은 질의 연구와 연관이 있다는 점을 고려해야 합니다(Reed et al., 2007). 자금 지원 결정을 책임지는 사람들은 이론을 구축하는 연구의 중요성을 인식해야 하며, 이는 가장 효과적이고 비용 효율적인 방식으로 학습자와 환자 결과를 개선하는 시뮬레이션 기반 교육의 모달리티와 특징을 명확히 합니다(Cook et al., 2008a).

 

마지막으로, 이번 비교의 효과 크기는 개입이 없는 비교에서 관찰된 것보다 훨씬 작았습니다. 이는 훈련과 훈련 없음의 비교가 두 개의 적극적인 교육 개입을 비교하는 것보다 더 큰 개선을 이끌어내는 것이 당연하기 때문에 예상된 결과입니다(Cook, 2012a). 그러나 연구자들에게 경고하는 바는, 개입 없는 비교 연구에서 통계적으로 유의미한 차이를 식별하는 데 충분했던 작은 표본은 시뮬레이션-시뮬레이션 연구에는 적합하지 않다는 것입니다. 결과 해석 시 교육적 유의성의 명확한 근거 제시, 신뢰 구간 사용, 사전 표본 크기 계산이 필수적입니다. 이와 같은 연구 방법들은 혼란을 최소화하며, 시뮬레이션 기반 교육을 통해 의료 개선에 기여할 수 있는 연구를 촉진할 것입니다.

 

실천적 요점

  • 증거는 시뮬레이션 기반 교육의 최고 실천 방안으로 난이도의 범위, 반복 연습, 분산 연습, 인지적 상호작용, 다중 학습 전략, 개별화된 학습, 숙달 학습, 피드백, 긴 학습 시간, 임상적 변이를 지지합니다.
  • 향후 연구는 효과적인 시뮬레이션 기반 교육의 메커니즘, 즉 무엇이, 누구에게, 어떤 상황에서 효과가 있는지 명확히 해야 합니다.
  • 대체 시뮬레이션 기반 교육 설계를 직접 비교하는 연구는 이러한 메커니즘을 명확히 할 수 있습니다.