Wilson Centre

[학생평가] 보건 전문직 교육에서의 데이터 공유 및 빅 데이터: 오타와 합의 성명서 및 장학금을 위한 권장 사항

Meded. 2024. 6. 26. 11:00

출처: Kulasegaram, K., Grierson, L., Barber, C., Chahine, S., Chou, F. C., Cleland, J., ... & Touchie, C. (2024). Data sharing and big data in health professions education: Ottawa consensus statement and recommendations for scholarship. Medical Teacher, 1-15.

https://www.tandfonline.com/doi/full/10.1080/0142159X.2023.2298762

 

소개

의료 및 보건 전문직 교육(HPE) 기업 전반에 걸쳐 학습자에 대한 방대한 데이터가 생성되고 있으며, 디지털 정보 기술 시스템의 부상으로 이러한 데이터는 기하급수적으로 증가하고 있습니다. HPE 학자들은 보건 전문가 교육의 과학과 실무를 발전시키는 데 있어 교육 '빅 데이터'가 할 수 있는 역할에 점점 더 주목하고 있습니다(Chahine 외. 2018). 빅 데이터는 기존 데이터 세트보다 규모가 크고 다양한 데이터 세트를 말합니다. 방대한 양의 데이터를 집계하고 분석하여 생성된 빅데이터는 소규모 데이터로는 불가능한 진료에 대한 인사이트를 밝혀낼 수 있습니다. 이를 적절히 활용하면 교육이 환자 및 인구 건강 결과에 미치는 영향에 대한 중요한 질문에 답하여 보다 사회적으로 책임감 있는 교육에 대한 정보를 제공할 수 있습니다.

HPE의 빅 데이터

특히 이러한 데이터의 대부분은 교육 기업을 지원하는 프로세스(예: 교육 프로그램 신청, 출석 기록)와 임상 데이터(예: 전자 건강 기록)에 대한 학습자의 기여를 통해 생성되지만, 빅데이터 학술활동에 적합한 교육 데이터의 주요 원천은 학생 평가(예: 시험 및 과제 점수, 선발/채용 데이터, 직장 기반 평가, 면허 및 고위험 시험, 환자 치료 및 임상 결과 관련 기록 등)입니다. HPE는 아직 거대 기술 기업들과 같은 빅데이터 지층에 있지는 않지만, 이러한 접근 방식이 이 분야를 발전시키고 있다는 증거가 점점 늘어나고 있습니다(Triola and Pusic 2012; Ellaway 외 2014; Chan 외 2018). 현재 교육 기관 전반의 평가 데이터를 미래 교육 결과와 연계한 몇 가지 주목할 만한 연구 사례(Jerant 외. 2015, 2021)가 있으며(Eva 외. 2012; Grierson 외. 2017; Barber 외. 2018; Ellis, Brennan, Scrimgeour 외. 2022), 심지어는 교육 기관의 평가 데이터와 미래 교육 결과를 연결한 사례도 있습니다. 2022), 심지어 진료 및 환자 수준의 데이터(Tamblyn 외. 2007; Asch 외. 2014; Norcini 외. 2020; Han 외. 2023; Pusic 외. 2023; Smirnova 외. 2023)까지 다양한 영역에서 새로운 이론 및 실무 관련 통찰력을 개발하기 위해 HPE의 다양한 영역에서 인공지능을 활용하고 있습니다. 인공 지능 기반 접근 방식은 빅데이터를 통해서도 가능합니다(Masters 2019). 이러한 연구는 빅데이터 연구의 모델이 될 수 있지만, 아직은 규칙이 아닌 예외로 남아 있습니다. 하지만 교육 및 임상 활동의 지속적인 자동화와 디지털화는 HPE 빅데이터 연구의 지속적인 증가를 예고합니다.

 

빅데이터를 위한 5V 프레임워크

학자들은 일반적으로 관련 데이터 세트의 양, 속도, 다양성, 진실성, 가치volume, velocity, variety, veracity, and value를 고려하는 5V 프레임워크와 관련하여 빅데이터 연구를 정의합니다(Ahsaan Shafqat 외. 2019).

  • 프로그램 평가와 같은 활동의 시행과 가상 및 온라인 플랫폼의 사용 증가로 인해 평가 및 기타 관리 HPE 데이터의 양은 계속 증가하고 있습니다.
  • 평가 데이터의 속도도 빨라지고 있습니다.
  • 역량 기반 교육의 빈번하고 일상적인 평가를 위해 앱 기반 또는 온라인 데이터 수집 도구가 널리 사용됨에 따라 이러한 데이터는 그 어느 때보다 빠르게 처리되고 있습니다.
  • 임상 결과, 커리큘럼 경험, 인구통계학적 특성이 모두 향상된 평가 모델에 통합됨에 따라 관련 데이터의 다양성도 마찬가지로 증가하고 있습니다.
  • 데이터의 정확성과 신뢰성 등 타당성 문제는 상황에 따라 더욱 중요해지고 있습니다.

그러나 평가 데이터의 유효성과 데이터 캡처의 품질에 대한 지속적인 관심은 이 요소 역시 HPE 빅 데이터의 새로운 담론의 일부임을 시사합니다(Downing and Haladyna 2004; Cook 외. 2016). HPE 평가에서 빅데이터 연구의 가치 제안은 분명합니다. 이러한 연구는 교육 정책 개선에 정보를 제공하고, 사회적 책임 임무를 발전시키며, 교육 실천의 혁신을 촉진할 수 있는 상당한 잠재력을 가지고 있습니다(Ellaway 외. 2014; Chahine 외. 2018).

 

교육의 연속성 전반에 걸친 데이터

이 합의문의 초점은 학술적 목적을 위해 한 개인, 부서 또는 기관에서 다른 기관으로 자발적으로 정보를 제공하는 것으로 정의되는 데이터 공유를 통해 생성된 빅데이터입니다. 이는 빅데이터의 다른 응용 분야(예: 학습 관리 시스템 또는 도구 내의 독립형 연구)에 적용되는 권장 사항을 배제하는 것은 아니지만, 우리의 목표는 HPE의 연속체 전반에 걸쳐 데이터를 공유하는 것이 어떻게 분야 전반에 영향을 미치고 가치를 창출할 수 있는지 이해하는 것입니다. 빅데이터는 개별 조직 내에서 보유할 수 있지만, 공유는 데이터를 중요한 업스트림 및 다운스트림 요소에 연결할 수 있는 기회를 창출합니다. 빅 데이터는 환자, 의료진, 지역사회의 건강과 웰빙을 개선하는 방식으로 의료 전문가 교육을 강화한다는 HPE 연구의 목표를 발전시킬 때만 유용합니다(Nundy 외. 2022). 이를 위해서는 초기 교육부터 임상 실습에 이르기까지 전문가가 이동하는 교육의 연속성을 명확히 파악해야 합니다. 이 여정의 각 단계는 다음 단계에 영향을 미치며, 교육 과정의 궁극적인 누적 효과는 효과적이고 유능한 의료 서비스 제공입니다. 이 연속체에 걸쳐, 또는 연속체의 한 단계에 있는 여러 기관 간에 데이터를 공유하고 연결하면 HPE를 개선하기 위한 흥미롭고 의미 있는 인사이트를 얻을 수 있습니다(Wenghofer 외, 2009; Gale 외, 2017; Wenghofer 외, 2017; Smith 외, 2021; Ellis, Brennan, Lee 외, 2022; Thelen 외, 2023).

 

데이터 공유의 근거로서의 사회적 책무성

데이터 공유를 위한 사회적 책임의 필요성은 그 어느 때보다 절실합니다. 의료계는 수많은 기술적, 사회적, 환경적 도전에 직면해 있습니다. 학습자에게 최적이 아니며 사회 내 구조적 불평등을 반영하거나 조장하는 교육 환경에 대한 인식이 높아지고 있습니다(Ona 외. 2020; Fyfe 외. 2021). 실무 전문가들은 건강, 번아웃, 근무 조건에 대해 더욱 우려하고 있습니다(West 외. 2016; Mihailescu 및 Neiterman 2019). 게다가 HPE는 리소스 집약적인 노력입니다. 많은 이해관계자들은 학술활동을 통해 교육의 영향을 이해하고 개선할 수 있다는 합리적인 기대를 가지고 있습니다(Cleland 외. 2022). 빅 데이터는 중요한 통찰력을 확보하고 이전에는 볼 수 없었던 규모로 HPE의 사회적 책임을 충족하는 데 중요한 역할을 할 수 있는 잠재력을 가지고 있습니다. 따라서 학습자, 환자, 사회의 이익을 위해 빅데이터의 잠재력을 활용하는 것은 HPE의 책임 의무의 일부가 됩니다. 이를 위해서는 교육 데이터 에코시스템에 관련된 다양한 이해관계자의 협력이 필요합니다.

 

데이터 생태계의 이해관계자

그러나 HPE 평가 생태계는 복잡합니다. 여기에는 많은 개인, 기관 및 그룹이 참여하며, 이들은 모두 서로 다른 의제를 가지고 있으며 서로 겹치거나 경쟁할 수 있습니다.

  • 미시적 수준에서는 학습자, 교수진 및 기타 개인 등 데이터를 생성하는 주체가 있습니다. 임상 데이터가 교육 데이터와 점점 더 많이 연결됨에 따라 환자, 가족, 기타 임상의사도 이 수준에 포함됩니다. 이러한 개인은 빅데이터 연구(예: 개인 맞춤형 교육 또는 정밀 교육, Luan과 차이 2021, Markus와 토피 2015)의 혜택을 받을 수 있는 반면, 가장 큰 위험에 직면하기도 합니다.
  • 중간 수준에서는 데이터의 수집, 저장, 보안은 물론 정책 수립과 정책 변경을 감독하는 데이터 관리자의 역할을 하는 프로그램, 기관, 조직이 있습니다. 이러한 조직은 지역 프로그램부터 데이터를 사용하여 임무를 수행하는 전체 학교 또는 당국에 이르기까지 다양합니다. 대개 이러한 조직은 공유 관행을 통제하고 데이터를 제공하는 조직입니다. 그리고
  • 거시적 수준에서는 더 광범위한 HPE 시스템 전반에서 운영되는 기관이 있습니다. 여기에는 데이터 관리 기관(예: 라이선스 기관, 인증 기관), 데이터 출처, 전반적인 시스템 개선의 이해관계자 역할을 하는 국가 기관 및 조직이 포함됩니다. 거시적 차원에서는 규제 기관과 심지어 보건부나 교육부 같은 정부 기관도 참여할 수 있습니다. 옹호 단체, 대표 기관(예: 학생회), 커뮤니티, 기타 비교육 관련 단체(예: 의학 진단 개선 협회)와 같은 조직은 각 수준의 이해 관계자 및 주체와 교차할 것입니다.
  • 특히 평가 데이터를 활용하는 HPE 빅데이터 연구는 이러한 각 수준에서 위험과 이점을 모두 측정합니다. 따라서 HPE 빅데이터를 추구하면 개인, 기관, 커뮤니티가 잠재적 위험에 노출될 수 있다는 우려가 커지고 있습니다.

위험과 이익의 균형 맞추기

HPE 빅데이터 연구와 관련된 위험은 데이터 공유 절차 및 빅데이터 연구가 개인과 커뮤니티에 미칠 수 있는 부정적인 결과의 잠재력 모두에 존재합니다.

  • 절차적 위험Procedural risks데이터 공유 및 분석 수행과 관련된 위험으로, 개인정보 보호 유지, 사전 동의, 데이터 주권에 대한 약속 유지와 관련된 문제를 포함합니다.
  • 결과 위험Outcome risks빅 데이터 결과를 사용하거나 해석하는 방법과 다양한 이해관계자에게 해를 끼칠 수 있는 방식과 관련이 있습니다. 특히 우려되는 것은 교육과 평가가 불평등이나 불공평을 영속화하는 방식으로 사용될 수 있는 가능성으로, 특히 역사적으로 소외되어 왔거나 데이터 사용에 대한 통제권이 제한되어 있는 사람들에게는 더욱 그렇습니다.

이러한 위험은 다른 연구(Grierson 외. 2023)에서도 언급된 바 있으며 미시, 중시, 거시 수준에서 이해관계자마다 다를 수 있습니다(표 1 참조).

 

표 1. 프로세스 및 결과 위험의 고려 사항.

 

지속 가능한 학문을 위해서는 HPE 빅데이터 연구의 윤리적 의무와 각 시스템 수준(마이크로, 메소, 매크로)과 관련된 일반적인 위험을 이해하는 것이 필요합니다. 이 합의문은 각 수준을 권고의 출발점으로 삼아 이러한 긴장을 해결합니다. 빅 데이터는 여러 종류의 학문적 탐구(사회과학, 역학, 심리측정 연구, 기계 학습 등) 또는 평가 도구 구축이나 평가와 같은 실용적 응용을 강화할 수 있습니다.

 

궁극적으로 데이터 공유와 빅 데이터 연구의 윤리적 수행은 연구자, 기관, 참여자 간의 신뢰 기반에 달려 있습니다the ethical conduct of data sharing and big data research relies on a foundation of trust between researchers, institutions, and participants. 빅데이터의 가용성과 유용성이 높아짐에 따라 HPE 커뮤니티를 위한 일련의 가이드라인을 마련하면 연구자들이 앞으로 나아갈 때 주요 고려 사항을 파악하고 HPE의 다른 연구 분야가 직면한 문제를 피할 수 있습니다(Whitehead 외, 2013; Tolsgaard 외, 2020; Masters 외, 2022). 다음 권고사항은 이러한 신뢰의 발전을 지원하며, 이를 연구 실무에 통합함으로써 HPE의 빅데이터 학술활동이 교육 시스템 개선에 최대한 도움이 되는 동시에 연구 과정과 결과를 통해 개인, 기관, 커뮤니티가 노출되는 피해를 최소화할 수 있을 것으로 믿습니다.

 

가이드라인의 필요성

이 합의문은 교육 빅데이터 학술물을 만들고 지원할 때 연구자들이 반드시 고려해야 할 중요한 아이디어를 제시합니다. HPE 빅데이터를 둘러싼 주요 윤리적 갈등을 정의하고 데이터 거버넌스, 윤리 및 형평성, 그리고 이를 해결할 수 있는 물류 및 데이터 공유 기술과 관련된 권장 사항을 제공합니다. 증거 또는 이론적 고려 사항에 의해 강력하게 보증되는 경우를 제외하고는 구체적인 정책이나 처방을 제공하지 않습니다. 대신 각 섹션에서는 학자들이 자체 빅데이터 프로젝트를 고려할 때 지침이 될 수 있는 원칙과 프레임워크를 제공합니다. HPE 빅데이터 학술물에 대한 많은 합의 권고 사항은 다른 빅데이터 학술물 영역의 권고 사항과 동일하며, 다른 학술물 영역과도 유사합니다. 이러한 권장 사항을 반복하지는 않겠지만, 모든 학자가 이전에 명시된 모범 사례를 준수할 것을 권장합니다. 여기서는 HPE의 데이터 공유를 통한 빅데이터 생성에 내재된 참신성 또는 복잡성 영역에 초점을 맞추고 있습니다.

 

방법론

저자 팀은 2022년 1월부터 2022년 3월까지 해당 분야의 알려진 전문가와 전문가들의 동료 추천을 통해 확인되었습니다. 이 팀은 6차례 회의를 통해 합의문의 범위를 정의하고, 빅데이터 관행에서 합의와 긴장 관계가 있는 영역을 파악했습니다. 2022년 5월부터 8월까지 합의문 초안을 작성하여 오타와 컨퍼런스 2022 회의에서 발표했습니다. 합의 결과는 전 세계 참가자들이 참석한 워크숍에서 발표된 후 심포지엄에서 발표되어 피드백을 받았습니다.

 

이 합의문은 데이터 공유 문제에 대한 다양한 관점을 대표하는 학자 그룹의 전문 지식과 경험을 집약하고 워크숍과 심포지엄의 참가자 피드백을 통해 다듬은 결과물입니다. 저희는 데이터 공유의 중요한 긴장을 파악할 수 있는 학자 그룹을 만드는 데 목적을 두었습니다. 우리는 가치의 우선순위, 의학교육의 문화적 및 규제적 경험, 연구자, 임상의, 학습자로서의 생생한 경험 등 다양한 경험을 가지고 있습니다. 저자 그룹은 현재 의학교육에서 글로벌 북쪽 출신이 우세한 상황을 반영합니다. 저희는 다양한 관점을 수렴하기 위해 다양하고 지식이 풍부한 전문가 그룹을 목표로 했습니다. 또한, 이 작업은 2022년 오타와 컨퍼런스에서 많은 청중에게 발표되었으며, 여기에는 글로벌 남부의 많은 사람들이 포함되었습니다. 우리는 데이터와 데이터 공유에 대한 우려가 국제적으로 매우 다양하다는 점을 인정하며, 이 문서가 국제적으로 논의와 발전을 촉진하기를 희망합니다. 새로운 발전과 관행이 등장함에 따라 이러한 합의는 빠르게 변화하고 발전할 것으로 예상합니다.

 

권장사항은 주제에 따라 그룹화되어 있으며 다음을 포함합니다: 학술활동 및 연구의 틀을 짜기 위한 권장 사항, 데이터 공유의 윤리적 문제 해결을 위한 권장 사항, 빅데이터 생성에 대한 권장 사항, 거버넌스 및 감독에 대한 권장 사항, 지식 번역(KT)과 보급에 대한 권장 사항, HPE 학술활동의 질적 향상을 위한 권장 사항 등이 있습니다.

 

오타와 컨센서스 성명서 권장 사항
Ottawa consensus statement recommendations 

1 학술활동 및 연구 구성을 위한 권장 사항

1-1 빅데이터 탐구의 목적, 학술활동 유형, 의도된 영향 식별하기
Identify the purpose, type of scholarship, and intended impact of your big data inquiry

HPE 학술활동은 여러 분야와 기본 목적에 따라 다양합니다. 교육 및 평가의 직접적인 실천, 엄격한 혁신 및 프로그램 평가, 발견 지향적 연구 모두 빅데이터 학술활동을 통해 지원될 수 있습니다. 예를 들어, 빅 데이터를 사용하여 역량 결정을 지원하면 개별 학습자의 의사 결정에 도움이 되고, 프로그램 결과를 개선하며, 새로운 지식, 프로세스 및 시스템을 만들어 더 큰 교육 또는 보건 시스템에 기여할 수 있습니다(Thoma 외.  2021). 특히, 이 학술활동의 영향과 위험은 분석이 초점을 맞추는 수준에 따라 달라질 것입니다. 미시적 수준에서는 연구가 학습자와 교수진에게 직접적인 영향을 미치고, 중시적 수준에서는 프로그램과 기관의 이니셔티브에 영향을 미칠 것입니다. 또한 이러한 분석에는 다양한 유형의 데이터가 필요하며, 데이터의 세분성(예: 집계된 데이터와 개별 기록), 일반화 가능성, 데이터의 포함 여부가 조사의 복잡성에 영향을 미치는 정도에 따라 달라집니다(표 2 참조). 분석의 초점에 따라 조사의 데이터 공유 요건도 결정되며, 이는 중요한 효과를 얻기 위한 낚시 탐험fishing expeditions(무작위로 데이터를 탐색하여 의미 있는 결과를 찾으려는 시도)을 제한해야 합니다. 프로그램에 대한 평가 연구는 설명적 수준에 머물러 개인 수준의 데이터 공유가 필요하지 않을 수 있는 반면, 예측 분석을 테스트하기 위한 연구는 실행 가능한 개인 식별자가 포함된 개인 수준의 데이터가 필요합니다(Duong 외. 2019). 따라서 학술활동의 목적에 따라 다른 윤리 및 규제 체계가 적용됩니다(예: 단일 기관의 빅데이터를 활용한 품질 개선 또는 프로그램 평가는 윤리적 검토가 필요하지 않을 수 있음). 학술활동의 목적을 명확히 밝히면 이해관계자가 데이터 공유 참여의 적절성을 평가하는 데 도움이 될 수 있습니다. 학자들은 연구 목적, 학술활동의 유형, 연구의 영향력 수준을 선험적으로 파악하는 것이 좋습니다. 

 

표 2. 데이터 유형 및 범위 수준

 

 

1-2 학술활동을 이론 또는 개념적 프레임워크에 근거두기
Ground scholarship in theory or conceptual frameworks

HPE는 학술활동을 안내하는 데 있어 이론과 개념적 프레임워크의 가치를 오랫동안 인식해 왔습니다(Hodges and Kuper 2012). 빅 데이터 학술활동은 순수하게 경험적인(Mazzocchi 2015) 학술활동을 위해 이론 중심 연구를 대체하는 것으로 제안되었습니다. 경험적이고 탐구적인 접근법(예: 데이터 마이닝)이 의미 있는 인사이트를 도출할 수 있지만(Knight and Buckingham 2017; Bayazit 외. 2023), 개념적 프레임워크는 프로젝트의 주요 고려 사항을 미리 명확히 함으로써 학자들에게 도움이 됩니다. 이는 관련 데이터의 수집 및 연결과 연구 결과를 실무에 통합하기 위해 어떻게 변환할 것인지에 대한 정보를 제공합니다(Wise and Shaffer 2015, Wise and Vytasek 2017). 이론은 여러 단계의 조사에 정보를 제공할 수 있습니다(Chan 외. 2018). 그러나 이론을 통합하기에 가장 좋은 시기는 연구를 시작하기 전입니다. 일부 프레임워크는 의도한 결과를 명확히 하기 위해 이론을 덜 강조할 수 있지만(예: 학습 분석을 위한 설명적-진단적-예측적-처방적 프레임워크descriptive–diagnostic–predictive–prescriptive framework), 이론적 지향은 연구자가 방법론적 선택을 설명하고 타당성 문제를 해결하며 연구 결과의 일반화 가능성을 높이는 데 도움이 될 수 있습니다. 데이터 공유는 이론에 기반한 변수 선택이나 생성을 가능하게 함으로써 이론 기반 작업의 품질을 향상시킬 수 있습니다. 어떤 데이터를 포함하거나 제외해야 하는지, 누락된 데이터를 어떻게 처리해야 하는지, 교란 요인을 어떻게 처리해야 하는지, 분석 결정을 어떻게 내려야 하는지 등의 까다로운 문제는 명시적인 이론이나 개념적 프레임워크를 통합함으로써 보다 실용적이고 집중적으로 다룰 수 있습니다(Dawson 2014; Wise and Shaffer 2015). 이론에 의해 주도되거나(Yang 외. 2021) 이론에 다시 기여하는(Asch 외. 2014) 연구 사례는 교육 및 HPE에서 새로 참여하는 학자들에게 영감을 줄 수 있습니다.

 

1-3 데이터 유형과 출처를 선험적으로 식별

평가는 빅 데이터의 분명한 환경이지만, 이러한 HPE 학술활동을 알리고 향상시킬 수 있는 구체적인 데이터 소스는 다양합니다. 빅데이터의 범주에 포함될 수 있고 HPE 평가 또는 일반 HPE 개선과 잠재적 관련성이 있는 모든 가능한 변수를 파악할 수는 없습니다. 그러나 기존 및 새로운 문헌에 등장하는 주요 데이터에는 개인 식별자, 사회 인구통계, 평가 결과, 커리큘럼 정보, 환자 수준에서 표현된 임상 결과를 포함하되 이에 국한되지 않는 임상 결과 등이 있습니다. 또한 평가 및 프로그램 평가를 위한 질적 데이터의 유용성에 대한 강조가 점점 더 커지고 있습니다. 특히 자연어 처리와 같은 분석 기술의 발전으로 이러한 유형의 데이터는 빅 데이터 접근 방식에 적합하게 되었습니다(예: Ginsburg 외. 2022).

 

학계에서 데이터의 다양성과 그에 따른 이질성이 증가함에 따라 데이터가 수집된 이유와 어포던스에 대한 초기의 근본적인 목적을 기억하는 것이 중요합니다. 한 가지 목적으로 수집된 데이터 소스를 다른 목적으로 활용하려면 데이터가 현재 새로운 목적에 왜 의미가 있는지 명확하게 설명하고 그 한계에 대한 성찰이 필요합니다. 예를 들어 일상적인 데이터는 여러 가지 다른 목적으로 사용될 수 있지만, 왜 데이터가 그러한 목적에 적합한지를 설명하는 것은 연구의 책임입니다. 때로는 이러한 목적이 잠재적일 수도 있고 경험적 탐구가 필요할 수도 있습니다. 연구자를 지원하기 위한 프레임워크는 다음으로 구분하여 제공됩니다(Ellaway 등, 2019 ).

  • (i) 평가 목적으로 의도적으로 수집된 데이터,
  • (ii) 비평가 목적으로 의도적으로 수집된 데이터,
  • (iii) 평가 및 기타 교육 데이터와 연결할 수 있는 임상 상황의 데이터,
  • (iv) 비의료 교육 목적으로 수집된 기타 데이터(표 2 참조)

이 프레임워크는 데이터 요소의 형식(예: 수치, 정성)과 같은 기타 관련 정보와 더불어 연구자를 안내하기 위해 이 정보를 보관할 수 있는 데이터 사전과 같은 도구에 정보를 제공할 수 있습니다.

 

2 데이터 공유 시 윤리적 문제 해결을 위한 권장 사항

2-1 연구의 위험과 이익을 평가할 때 기관의 검토 감독과 책임이 필요하지만 항상 충분하지는 않습니다.
Institutional review oversight and accountability in appraising risks and benefits of research is necessary but not always sufficient

기관 윤리 심의 위원회는 오랫동안 윤리적 연구와 학술적 실천을 감독하는 주요 역할을 담당해 왔습니다. 학술 기관이 아니어서 심의위원회가 없는 기관(예: 자격 인증 기관, 규제 기관, 교육 소프트웨어의 민간 공급업체)을 포함하여 여러 기관에서 데이터를 공유하는 것은 전통적인 윤리에 새로운 도전 과제를 제기합니다(Regan & Jesse 2019; Metcalf와 Crawford 2016; Someh 외 2019; Ferretti 외 2021). 윤리적 승인을 항상 구해야 하지만, 장기적인 데이터 저장소와 데이터 공유 협력이 학문의 기초가 되는 상황에서는 그것만으로는 충분하지 않을 수 있습니다. 데이터를 보유한 사람들의 사회적, 직업적 지위가 변화함에 따라 시간이 지남에 따라 데이터에 대한 위험도 달라질 수 있습니다. 따라서 더 민감하고 주의 깊은 윤리적 모니터링이 필요할 수 있습니다(Grierson 외. 2023). 그럼에도 불구하고, 모든 연구나 학문의 수행과 마찬가지로 학자들은 데이터 연결을 실행하고 분석에 참여하기 전에 주요 기관 이해관계자들에게 빅 데이터의 해석과 결과에 수반되는 잠재적 위험뿐만 아니라 절차적 위험을 이해하고 선언해야 할 책임이 있습니다. 이는 적절한 전문가 및 이해관계자와의 협의를 통해 이루어져야 합니다. 데이터를 제공하는 기관은 이러한 위험이 데이터 집합 내에 데이터를 보유한 사람들에게 적절히 전달될 수 있도록 이러한 위험의 명료화를 적극적으로 요청하는 것이 좋습니다.

 

데이터 요소가 변화하고 규정과 요건이 진화함에 따라 윤리적 프로세스를 잘 감독하는 것은 연구자와 기관의 몫입니다. 이는 기관 심의 위원회를 구성하는 연구 윤리 전문가를 포함하되 이에 국한되지 않는 연구 윤리 전문가의 지원을 받을 수 있습니다(Grierson 외, 2023). 대규모 협업의 경우 특별 거버넌스 위원회 또는 이사회와 같은 고유한 거버넌스 구조가 필요할 수 있습니다(Kalkman 외. 2022). 이러한 구조는 데이터의 품질 보증, 이해관계자에 대한 적절한 보고, 데이터의 저장, 원래 관리자에게 반환, 삭제 또는 분리 방법을 고려한 프로토콜 준수를 보장하는 적절한 관리 관행에서 역할을 수행합니다.

 

관행을 지속적으로 검토하는 메커니즘데이터 공유 협업의 일부가 되고 데이터 공유 계약(DSA) 및 거버넌스 구조의 일부가 될 것을 권장합니다. 이 권장사항은 기관의 윤리 검토가 면제되는 것으로 간주될 수 있는 업무(예: 품질 보증 또는 평가)에도 적용됩니다. 이는 번거로운 것으로 인식될 수 있지만, HPE 빅데이터 기업에 대한 신뢰, 책임, 신뢰를 유지하려면 어떤 형태로든 윤리적 감독이 필수적입니다. 투명성이 높을수록 더 큰 효과를 거둘 수 있습니다.

 

2-2 투명성 및 사전 동의 문제 관리하기
Manage transparency and informed consent issues

동의는 단순한 형식이 아니라 참여자를 보호하고 연구 기업에 대한 신뢰를 구축하기 위한 기초입니다. 지속 가능한 연구를 위해서는 참여자가 자신의 데이터가 어떻게 사용되는지 이해해야 합니다(Braunack-Mayer 외. 2020). 학자와 기관은 데이터 집합에 포함된 이해관계자의 동의의 질에 대해 적극적으로 고려할 것을 권장합니다(Kalkman, Mostert, Gerlinger 등. 2019; Wilhite 등. 2020). 이를 위해서는 기관과 연구자들의 더 많은 계획과 대규모 투자가 필요할 수 있습니다. 그렇다고 해서 사전 동의를 원칙으로 존중하는 것이 항상 특정 규정된 방식으로만 이루어져야 한다는 것은 아닙니다(Barocas and Nissenbaum 2014). 데이터 집합에 포함된 모든 개인으로부터 소급하여 동의를 구하는 것이 항상 가능한 것은 아닙니다. 일부 관할권에서는 개인의 기밀과 개인정보가 유지되는 한 일상적으로 수집된 레지스트리 데이터를 분석할 때 사전 동의가 항상 필요한 것은 아닙니다(Cathaoir 외. 2022). 품질 개선 및 평가를 위해 빅 데이터를 사용하는 연구도 선험적 사전 동의가 필요하지 않을 수 있습니다. 비식별화와 같은 충분한 보호 장치가 마련되어 있다면 데이터의 사용과 보고에 대한 강력한 감독을 통해 사전 동의를 관리할 수 있습니다. 전향적으로 수집된 데이터의 경우, 연구자나 기관이 새롭게 떠오르고 발전하는 연구 질문과 지속적인 활동을 위한 여지를 남겨두고자 할 때 다양한 학술적 목적을 위해 개인에게 동의를 요청할 수 있습니다. 마찬가지로, 참여자에게 '옵트인'이 아닌 '옵트아웃'의 형태로 동의 옵션을 제시할 수도 있습니다(Vellinga 외. 2011). 데이터의 빠른 증가 속도와 데이터 공유로 인한 새로운 데이터 요소 및 데이터 세트의 출현을 고려할 때, 참가자에게 시간 제한 동의의 기회를 제공할 수도 있습니다. 이 접근 방식에서는 광범위한 동의를 제공하지만 미리 정해진 시점에 데이터 요소의 업데이트된 목록과 목적, 위험 및 혜택에 대한 분석을 통해 재확인해야 합니다. 이 접근 방식은 참여자가 자신에 대해 변경되었을 수 있는 데이터 요소를 업데이트할 수 있다는 장점도 있습니다. 접근 방식에 관계없이, 빅 데이터 연구에 대한 신뢰를 구축하기 위한 기초로서 데이터 공유 협업에 사전 동의를 포함할 것을 강력히 권장합니다.

 

2-3 자율성과 형평성 존중: 사회적 이익 추구에 있어 기본 원칙으로 삼기
Make respect for autonomy and equity: a guiding principle in the pursuit of societal benefit

평가에서 HPE 빅데이터 연구의 주요 과제는 그 결과가 학습자와 교수진 또는 기타 특정 집단에 '불리하게' 사용될 수 있다는 위협입니다. 따라서 우리는 연구 질문부터 결과 해석에 이르기까지 데이터 기반 연구 연속체의 모든 단계에서 친사회적 연구 혜택이 의도하지 않은 결과에 의해 상쇄될 수 있는 가능성을 인정해야 합니다(Florea 및 Florea 2020). 확인된 위험의 대부분은 데이터 오용과 감시 방법을 통해 역사적으로 불이익을 받아온 집단의 개인에게 증폭된다는 점을 기억해야 합니다. 특정 집단의 '결핍'에 초점을 맞추거나 강조하는 최선의 의도로 수행된 연구가 의도치 않게 이러한 결핍을 개념적으로 강화할 수 있습니다. 건강 결과의 요인으로서 인종을 연구하는 학자들의 연구(Krieger 2020)가 그 예로, 건강 격차를 초래하는 더 큰 사회 구조를 무시한 채 본질주의적인 방식으로 인종 차이를 중심에 두는 연구를 예로 들 수 있습니다. 동시에 중요한 정체성 데이터를 수집하지 않으면 이를 숨겨서 불평등을 지속시키는 데 도움이 될 수 있습니다. 데이터 수집, 분석, 해석은 결코 '중립적'이거나 '객관적'일 수 없으며, 데이터를 제공한 커뮤니티로부터 데이터 사용처를 분리하면 억압과 소외를 증폭시킬 수 있습니다(Crawford 외. 2014; Ben-Portah와 Ben Shara 2017). 식별 가능한 사회인구학적 변수identifiable socio-demographic variables를 포함하면 많은 중요한 질문을 밝히고 보다 공정하고 공평한 교육과 의료 서비스를 제공하는 데 도움이 될 수 있습니다. 형평성 이니셔티브를 평가하고 발전시키기 위해 이러한 데이터를 의도적으로 수집하고 공유해야 한다는 요구가 점점 더 커지고 있습니다. 연구자와 기관은 데이터 수집과 분석의 균형을 맞추는 동시에 피해를 방지하기 위해 최선을 다해야 합니다(Grierson 외. 2023). 이 문제를 관리하기 위한 보편적인 처방이나 기술적 해결책은 없지만, 학습자 등 특히 취약한 집단의 이해관계자를 참여시켜 어떤 데이터를 어떤 목적으로 수집할지 이해하는 것이 좋습니다.

 

원칙적으로 연구자와 이해관계자는 구체적인 문제와 긴장을 명시적으로 표현해야 합니다. 연구자는 데이터 공유 협업에서 자율성과 형평성을 존중하는 가치에 따라 연구할 것을 권장합니다(Kalkman, Mostert, Udo-Beauvisage 외. 2019). 여기에는 영향을 받는 사람들에 대해 데이터를 '무기화weaponized’'하는 방법에 대한 의미 있는 성찰, 대규모 연구 협업 설계 초기에 관련 커뮤니티의 지식이 풍부한 구성원 참여, 데이터 주권 원칙에 대한 궁극적인 존중이 포함될 수 있습니다(Someh 외. 2019).

  • meaningful reflection on how data can be ‘weaponized’ against those impacted, 
  • engagement of knowledgeable members of the relevant communities early in the design of large research collaborations, and  
  • ultimate respect for the principle of data sovereignty 

가능한 경우, 데이터 관리, 처리 및 변환 기술은 연구 질문이 지시하는 한 데이터의 개인과 관련된 변수가 아닌 교육 정책, 절차 및 시스템에 의해 설명되는 변수에 초점을 맞추거나 강조해야 합니다(연구 질문이 지시하는 한). 사회인구학적 변수를 사용할 수 있는 경우, 연구자는

  • 이러한 변수가 학문의 이론과 개념적 근거에 어떤 가치를 더하는지, 그리고
  • 이러한 변수를 포함할 경우 이해관계자에게 어떤 위험을 초래할 수 있는지에 대해 생각해 보아야 합니다.

여기에는 분석의 영향을 가장 많이 받는 그룹이나 커뮤니티의 적절한 대표자와 직접 소통하는 것이 포함될 수 있습니다. 이는 의도하지 않은 편견을 완화하고 적절한 변수를 중심으로 질문이 이루어지도록 하는 데 도움이 될 수 있습니다(Krieger 2020; Grierson 외. 2023). 궁극적으로 연구자는 연구의 결과를 염두에 두고 부적절한 해석이 인간의 자율성을 어떻게 제한할 수 있는지 명확히 설명해야 합니다(Chen and Liu 2015).

 

3 거버넌스 및 감독을 위한 권장 사항

3-1 거버넌스는 윤리적 가치와 원칙을 명시적으로 참조하고 이에 기반해야 합니다.
Governance should explicitly reference and be based on guiding ethical values and principles 

윤리적 실천을 지원하기 위해서는 효과적인 거버넌스가 필요하며, 윤리적 원칙에 대한 건전한 기반은 건전한 거버넌스의 기초입니다(Lefaivre 외. 2019). 거버넌스 기구의 규제 및 절차적 측면 외에도 연구를 뒷받침하는 근본적인 가치를 놓치지 않는 것이 중요합니다(Grierson 외. 2023). 따라서 거버넌스 구조의 세부 사항은 다를 수 있지만, 연구자와 기관은 개인정보 보호 및 익명성 보장, 학습자 자율성, 비차별, 사전 동의, 적절한 데이터 수집 방법, 적절한 연구 목적을 포함하는 명시적인 가치 선언문explicit statement of values을 개발할 것을 권장합니다.

 

3-2 거버넌스는 이해관계자를 대표해야 합니다.
Governance should be representative of stakeholders

거버넌스 문제의 복잡성과 잠재적인 윤리적 위험을 고려할 때, 연구자 혼자서 거버넌스 구조를 결정할 수는 없습니다. 거버넌스 기구에는 학습자, 실무 의사, 데이터 관리자, 규제 기관, 교육 기관, 연구자, 지역사회 구성원/환자(소외된, 역사적으로 억압받거나 대표성이 부족한 커뮤니티의 지식 대표 포함) 등 모든 관련 이해관계자의 관점이 반영되어야 합니다. 우리는 학습자 대표에 특별한 주의를 기울이고 이를 적절히 수행할 수 있도록 합니다. 이는 참여를 촉진하는 데 도움이 될 뿐만 아니라 동의를 받고, 위험과 가치를 전달하며, 연구가 친사회적 목표를 촉진하는 방식으로 사용되도록 하는 적절한 방법에 대한 의견을 제공할 수 있습니다. 거버넌스 구조 내에서 각 이해관계자 그룹을 구체적으로 대표하는 것이 항상 가능한 것은 아니지만, 모든 그룹의 관이 거버넌스의 구성과 실행, DSA, 데이터 관리 관행 및 기타 절차의 감독에 포함될 필요가 있습니다. 이러한 접근 방식의 한 예로 거버넌스의 원칙을 보여주는 UKMED 협업을 들 수 있습니다(Dowell 외. 2018)(표 3). UKMED 협력에는 주요 의학교육 기관뿐만 아니라 의대생과 의료 기관의 대표도 포함됩니다. 

표 3. UKMED 사례.

 

3-3 거버넌스는 데이터 주권 원칙에 기반해야 합니다.
Governance should be based on the principles of data sovereignty

거버넌스 구조는 공유 대상 데이터가 수집된 주권 관할권의 규칙, 정책 및 법률에 부합하는 데이터 공유를 제정하고 감독할 수 있는 합법적인 권한을 부여받아야 합니다. 표준 및 모범 사례는 현행 데이터 보호 규정에 따라 국가마다 다를 수 있습니다. 예를 들어, 영국 일반 데이터 보호 규정(UK GDPR)에 따른 처리의 필수 조건이 아니므로 UKMED의 개인 데이터 사용은 데이터 주체의 개별 동의에 의존하지 않습니다. 영국 GDPR은 법적 기능을 위해 필요한 경우 동의 없이 개인 데이터를 사용할 수 있도록 허용합니다. 이는 데이터 수집에 보다 공식적인 동의가 필요한 많은 관할권과는 대조적입니다. 연구자와 기관은 관할권의 구체적인 요구 사항을 이해하는 것이 중요합니다. 여러 관할권에서 데이터 보호법을 개발 중이며, 이는 주로 상업적 데이터에 대해 운영되지만 연구 데이터에도 영향을 미칩니다. 교육 데이터(예: 학습 관리 시스템)를 수집하는 데 상업적 도구가 사용되는 경우가 많으므로 연구자는 상업적 공급업체의 이러한 데이터를 다른 지역 데이터와 학술 기관이 보유한 데이터에 연결할 때의 복잡성에 대한 이해가 필요할 수 있습니다.

 

데이터 주권을 존중하는 데 있어 특히 중요한 사례는 식민지 관할 지역의 원주민으로부터 데이터를 수집하는 것입니다. 이러한 몇몇 원주민 커뮤니티에서는 연구 참여에 대한 적절한 원칙을 명시하고 있습니다. 이러한 원칙은 식민지화의 역사, 적극적인 소외, 연구 데이터가 원주민 커뮤니티에 거의 도움이 되지 않거나 적극적으로 해를 끼친 사례에서 비롯된 것입니다(Walter 외.  2021). CARE 원칙(즉, 집단적 이익, 통제 권한, 책임, 윤리Collective Benefit, Authority to control, Responsibility, Ethics; Carroll 외 2020)은 연구 데이터 수집에 원주민 커뮤니티를 참여시키는 방법에 대한 지침을 제공하며, 캐나다의 OCAP 원칙(소유, 통제, 접근, 소유(Ownership, Control, Access, Possession))과 뉴질랜드의 마오리 데이터 주권 네트워크(Te Māori Data Sovereignty Network Te Mana Raraunga 2022)와 같이 특정 커뮤니티에 상황에 맞는 추가 프레임워크가 존재합니다. 연구자들은 빅데이터 프로젝트를 구상하기 전에 이러한 프레임워크와 다른 프레임워크를 주의 깊게 살펴보고 이러한 커뮤니티와 교류하는 것이 좋습니다. 좋은 관행은 연구자가 관련 원주민 커뮤니티와 파트너십을 모색하고, 중심을 잡고, 학술적 작업을 공동 창작하는 것입니다.

 

3-4 거버넌스 프레임워크는 데이터 공유의 맥락에 맞게 명시적으로 표현되고 발전해야 합니다.
Governance frameworks should be explicitly articulated and evolve to meet the context of data sharing 

데이터 공유 및 빅 데이터 거버넌스에는 여러 가지 접근 방식이 있습니다(Elouazizi 2014). 프레임워크는 전반적인 철학을 개괄하고 거버넌스를 위한 기존 리소스뿐만 아니라 구체적인 정책과 관행이 어떻게 제정되는지를 지시합니다. 예를 들어,

  • 비침입적 거버넌스 프레임워크non-invasive governance framework는 새로운 거버넌스 구조를 만드는 대신 데이터에 대한 접근을 용이하게 하기 위해 기존 자원과 제도적 정책을 최대한 활용할 것을 주장합니다(Elouazizi 2014).
    • 이러한 프레임워크는 위험도가 낮은 데이터를 공유data of minimal risk하는 여러 기관의 협업이나 대규모 기관의 다양한 단위에서 데이터 공유를 촉진하는 데 적합할 수 있습니다.
  • 보다 고위험 데이터 공유 활동high-risk data sharing activities에는 데이터 또는 개인정보 보호 책임자와 같은 새로운 역할과 감독을 신설해야 할 수도 있습니다.

거버넌스에 적절한 리소스를 배치하고 거버넌스의 성공 여부를 평가하는 것도 추가로 고려해야 할 사항입니다. 거버넌스에서 이러한 문제를 명시적으로 다루고 데이터 공유의 상황적 요구에 부합하는 프레임워크를 명확히 파악하면 적절한 거버넌스를 보장하여 모든 이해관계자의 불확실성을 최소화할 수 있습니다. 구체적인 관행과 거버넌스 정책은 데이터 공유 협업의 요구가 변화함에 따라 발전할 수 있고 발전해야 합니다. 새로운 파트너, 데이터 소스, 데이터 공유로 지원되는 학문의 발전은 거버넌스 관행에 대한 검토와 함께 이루어져야 합니다.

 

4 빅데이터 생성에 대한 권장 사항
Recommendations on creating big data

4-1 공유를 촉진하기 위해서는 데이터 공유 계약이 가장 중요합니다.
Data sharing agreements are paramount to facilitate sharing

DSA(Data Sharing Agreement)는 단일 프로젝트든 종단적 이니셔티브든 연구 전반에 걸쳐 데이터의 흐름과 유지 관리를 명확하게 정의하고 학계 내 데이터 협업 문화를 장려합니다(Piwowar 외. 2008; Polanin과 Terzian 2018). 데이터 공유가 빅데이터 프로젝트의 기본이 되는 경우, 좋은 거버넌스를 촉진하는 것이 필수적입니다. DSA는 허용된 조회 범위를 명시하고, 데이터 관리 문제(예: 보안, 저장, 액세스)를 다루며, 지속적인 데이터 유지 관리에 필요한 안정성을 제공하는 조직적 합의를 보장합니다. 이러한 계약에는 종종 법적 개요가 필요하지만, 항상 데이터를 공유하는 사람들과 연구에 참여하는 학자 간의 기본적인 신뢰 기반이 요구됩니다. 이러한 계약은 연구자가 데이터 구조, 의미, 관리의 호환성과 관할권의 차이를 고려하고 데이터 공유에 적용되는 중요한 법적 및 행정적 뉘앙스를 준수하도록 보장합니다. 이는 연구자 자신뿐만 아니라 데이터 공유로 인해 잠재적으로 영향을 받을 수 있는 사람들(예: 학습자, 프로그램 및 더 큰 시스템)을 보호하기 위한 것입니다.

 

지속적인 종단적 연구 협업을 지원하는 데이터 공유 계약은 목적에 적합한지 주기적으로 검토해야 합니다(Kalkman, Mostert, Udo-Beauvisage 외. 2019). 이러한 검토는 개인정보 보호 책임자 및 관련 이해관계자와 같은 개인이 수행해야 합니다. 연구 목표의 실행 가능성을 유지하려면 각 출처 기관의 데이터에 대한 지속적인 품질 관리가 필요합니다. '데이터 드리프트'(즉, 시간이 지남에 따라 데이터 요소 수집 및 의미의 변화) 또는 기타 문제의 변경, 수정 및 문제는 연구 기록에 문서화하여 보고해야 합니다. 전반적으로 강력한 DSA는 위험 및 윤리적 위반 문제를 완화하고, 해결 및 거버넌스를 안내하며, 모든 당사자가 데이터의 적절한 사용을 이해하는 데 도움이 될 수 있습니다. 또한 데이터 관리에 대한 접근 방식에 있어 호환성과 관할권의 차이가 존재한다는 점에 유의하는 것이 중요합니다. 국제적으로 데이터를 공유하는 데는 다양한 법률과 규정으로 인해 모든 수준에서 복잡성이 가중되므로 고유한 과제가 있습니다. 예를 들어, 교육생이 동의를 제공할 수 있는 '성인'으로 간주되는 연령은 관할 지역마다 다를 수 있습니다. 21세까지 미성년자로 간주하는 싱가포르와 성년이 18세인 영국과의 협업에서는 서로 다른 동의 절차가 필요할 것입니다.

 

4-2 데이터 소유자와 협력하여 데이터 준비 상태를 조기에 평가하기
Assess data readiness early and in collaboration with data owners

교육 빅데이터 연구에 잠재력이 있는 교육 및 평가 관련 변수는 대부분 접근하기 어렵습니다. 학습자 수준의 데이터는 방화벽 뒤에 보관되거나 기밀 유지 계약에 따라 고려되는 경우가 많습니다. 공개적으로 이용 가능한 데이터의 경우, 일반적으로 요약 표로 집계되어 있어 연구자에게 제공하기에 세분화되지 않은 경우가 많습니다. 이와 관련하여 기관과 데이터 관리자는 HPE 빅데이터 연구를 위한 '데이터 준비성'을 개선하는 데 신중하고 전략적인 주의를 기울일 것을 권장합니다. 여기에는 데이터 인벤토리 구축, 고품질 데이터 캡처 및 스토리지 시스템 유지, 학업을 위한 데이터 가용성 확보가 우선순위에 포함됩니다. 교육 기관은 또한 사전 데이터 준비 계획에 참여하여 다양한 유형의 교육 학술활동에 가장 적합한 데이터 요소와 소스를 식별할 수 있습니다. 사용 가능한 데이터는 한 분석 수준에서 제기된 질문에 다른 분석 수준보다 더 적합할 수 있습니다. 예를 들어, 익명화된 평가 데이터는 미시적 수준(즉, 개별 학습자 또는 학습자 그룹에 미치는 영향)의 질문을 명확히 하는 데는 도움이 되지 않을 수 있지만 중시적 수준에서 프로그램이나 기관을 연구하기 위해 집계될 수 있습니다. 이러한 관계를 인식하면 이해관계자가 기관의 사명을 발전시키거나 저해할 가능성이 있는 데이터 사용을 결정하는 데 도움이 될 수 있습니다. Lawrence(2017)는 교육기관이 데이터 준비 상태를 분석하는 데 사용할 수 있는 프레임워크를 제공하며, 데이터 신뢰성 및 접근성에 대한 주요 고려 사항을 강조합니다.

 

데이터 접근에는 데이터 소유자 및/또는 관리인(예: 학습자, 교수진, 프로그램, 환자), 연구자, 타사 공급업체/개발자 등을 통한 권한이 필요할 수 있습니다. 따라서 데이터 수집 시점에 이러한 이해관계자에게 데이터를 학술활동에 사용할 수 있는 방법과 보호 및 권리를 전달하는 것이 중요합니다(Kalkman 외. 2022).

 

빅 데이터 연구는 종종 규모가 데이터 품질의 결함을 극복할 수 있다는 믿음을 가지고 있는 것처럼 보입니다. 인공지능 모델 학습과 같은 일부 상황에서는 그럴 수도 있습니다. 그러나 제대로 기록되지 않았거나, 누락된 요소로 저장되거나, 태그가 부정확하게 지정된 데이터는 때때로 소위 '쓰레기 유입, 쓰레기 배출' 현상이라는 잘못된 해석에 기반한 연구를 이끌 수 있습니다. 따라서 HPE 빅데이터 연구자는 데이터 자체의 근본적인 문제도 해결해야 합니다. 유효성 증거가 부족하거나 없는 평가 데이터(예: 심각한 측정 오류)는 근본적인 문제를 해결하지 않으면 활용도가 제한되고 후속 조사에 대한 준비성이 떨어질 수 있습니다.

 

4-3 연계를 지원하는 데이터 관리 계획 수립
Create data management plans that support linking

연결이란 공통 변수를 통해 두 개 이상의 데이터 세트를 연결하는 것을 말합니다. 다양한 프로그램이나 조직이 보유한 소규모 데이터 집합을 연결하여 빅데이터를 생성하면 엄청난 연구 이점을 얻을 수 있습니다(Reiter 외, 2012; O'Mara 외, 2015; Grierson 외, 2017; Schumacher 외, 2020). 예를 들어, Grierson 등(2017)은 의사의 대학원 인증 시험 성적을 온타리오의 여러 수련 프로그램의 입학 데이터와 연결할 수 있었습니다. 이 연구팀은 데이터 보유자의 기밀성 문제를 해결하고 개별 의사 수준에서 신뢰할 수 있는 연관성을 제공하는 연결 프로세스를 파악한 강력한 데이터 관리 계획 덕분에 성공할 수 있었습니다. 이 프로세스는 올바른 데이터 관리 원칙의 제정에 의존합니다. 데이터 매핑, 데이터 사전의 생성 및 유지 관리, 데이터 이력에 대한 철저한 문서화는 모두 성공적인 연계를 위해 매우 중요합니다. 이와 관련하여 연결에 앞서 데이터 요소 간에 존재하는 동등성과 차이점을 이해하는 것이 중요합니다. 이러한 데이터 조율 과정은 공유 집합을 만드는 데 있어 매우 중요한 단계입니다(Kush 외. 2020). 조직마다 비슷한 이름의 데이터 요소를 가지고 있는 경우가 많은데, 그 의미와 내용이 같을 수도 있고 아닐 수도 있습니다. 일부 빅데이터 연구 프로젝트의 탐색적 성격을 인식하여, 가능한 경우 교육 프로그램과 데이터 관리자는 상호 운용성을 촉진하는 공통 데이터 표준을 반영하는 일련의 공유 데이터 관리 프로세스에 전념해야 하며, 이를 통해 데이터 공유를 촉진해야 합니다. 이는 많은 윤리적 위험과 피해를 완화할 수 있는 데이터 준비성의 중요한 측면입니다.

 

대부분의 경우 연결은 기록 수준에서 이루어지며, 일반적으로 다양한 데이터 세트에 나타나는 학습자, 교수진 또는 환자의 개별 데이터와 관련된 공통 식별자에 고정되어 있습니다. 이러한 미시적 수준에서의 연결은 데이터 세트에 포함된 개인의 안전, 기밀성 및 개인정보 보호에 대한 우려에 특별한 주의를 기울여야 합니다. 이러한 경우, 호스트 조직 및/또는 데이터 관리자만이 식별 가능한 데이터에 액세스할 수 있어야 데이터 세트 유지 관리, 업데이트 및 연구 추출 생성이 용이합니다. 궁극적으로 연구에 사용되는 데이터는 개인 수준에서 공개적으로 식별할 수 없어야 하며, 조직 수준에서도 식별할 수 없는 경우가 많습니다. 집계 및 집계 해제 프로세스가 개인을 재식별하지 않도록 주의해야 합니다(Barocas and Nissenbaum 2014). 예를 들어, 장애를 공개하고 여성임을 밝힌 학습자의 수를 보고하면 셀 크기가 매우 작아져 재식별될 가능성이 있을 수 있습니다. 따라서 재식별 가능성을 피하기 위해 특정 분석에 대해 보고하기 전에 최소한의 데이터 포인트가 필요할 수 있습니다(캐나다 통계청 2022).

 

데이터 세트의 연구와 연결은 새로운 데이터의 생성으로 이어질 수 있습니다. 데이터 세트의 다른 변수로부터 계산되는 파생 변수가 일반적인 예입니다. 예를 들어, '과정 난이도'는 과정의 합격률로부터 계산되어 교육생의 학업 경로가 얼마나 어려운지 추정하는 데 사용될 수 있습니다. 연구 활동 및 데이터 연계의 결과로 개발된 새로운 데이터, 제품 또는 도구와 관련된 지적 재산, 오픈소스 배포, 저작권 및 소유권은 투명성을 보장하기 위해 DSA에서 직접 다뤄야 합니다. 새로운 데이터 세트는 소스 데이터 세트와 마찬가지로 보안과 품질을 고려하여 취급해야 합니다. 교육 프로그램은 명확하게 명시된 데이터 관리 프로세스를 통해 학술활동을 지원할 수 있으며, 연구자는 데이터 연결 방법과 개인 및/또는 조직의 익명성 보호 방법을 다루는 데이터 관리 계획을 개발해야 합니다. 학자들은 데이터 관리 계획의 일부로 데이터 세트 전반에서 이러한 데이터 요소 간의 관계를 확인하는 것이 좋습니다.

 

4-4 실수에 대응하고 이해관계자와 소통하기 위한 계획을 세우세요.
Have a plan for responding to mistakes and for communicating with stakeholders

모든 기업과 마찬가지로 실수는 악의적인 의도가 아니라 사람의 실수나 부주의로 인해 발생할 수 있습니다. 물론 실수의 정도에는 여러 가지가 있으며, 가장 심각한 실수는 개인 및 민감한 기밀 데이터의 익명화 또는 재식별화입니다. 실수로 개인의 개인정보가 유출되는 사고가 언론에 자주 보도되는 것을 생각해 보세요. 더 걱정스러운 것은 데이터를 몸값으로 요구하려는 사이버 공격과 범죄 행위의 가능성입니다. 중요한 것은 학자와 기관이 이러한 오류에 어떻게 대응하는가입니다. 이해관계자와 함께 이러한 '최악의 경우'에 대비해 계획을 세우세요. 오류가 해결될 때까지 데이터 공유를 일시적 또는 무기한 중단하는 등 구체적인 프로토콜을 DSA에 통합합니다. 데이터 취급 또는 공유 오류에 대한 명확하고 투명한 의사소통, 책임 소재를 가리기 위한 메커니즘, 향후 오류를 바로잡기 위한 품질 개선 프로세스는 오류 발생 시 중요한 역할을 합니다. 데이터 공유 및 관리 프로세스에 대한 사전 품질 보증은 오류를 방지하는 데 도움이 될 수 있습니다.

 

5 지식 번역 및 전파를 위한 권장 사항
Recommendations for knowledge translation and dissemination

5-1 KT 프레임워크를 사용하여 연구 결과의 번역을 체계화하고 가속화하세요.
Use KT frameworks to help organize and accelerate translation of findings

연구자는 HPE 빅데이터 연구 결과를 전달할 때 구조화된 접근 방식을 사용하는 것이 좋습니다. 빅데이터 연구의 지식을 번역하려면 먼저 연구 목적과 대상 분석 단위(마이크로, 메조, 매크로)를 명확히 해야 합니다. 둘째, 특히 교육적 개입의 효과와 영향을 조사하기 위해 빅데이터를 사용할 때는 번역 프레임워크를 사용해야 합니다(Rubio 외. 2010 ). McGaghie(2010)는 의학교육 연구에 사용하기 위해 미국 국립보건원의 프레임워크를 적용했습니다. 우리는 의학교육의 빅 데이터 연구라는 맥락에서 이를 수정하여 제공합니다(표 4 참조). 이 프레임워크는 번역 단계 저자가 연구에서 어떤 대상을 대상으로 해야 하는지에 대한 명확성을 제공합니다. 학술 출판물에는 SQUIRE-EDU 가이드라인(SQUIRE-EDU 2022)과 같은 보고 프레임워크가 포함되어야 합니다. 어떤 보고 프레임워크를 사용할지 선택하거나 조합하는 것은 부분적으로 연구의 주된 목적에 따라 달라집니다(칼크만, 모스터트, 우도-보비지 외. 2019). 지속적인 품질 개선의 맥락에서 수행되는 빅 데이터는 결과가 시스템에 영향을 미치고 시스템이 데이터 소스에 피드백할 수 있도록 체계적으로 소통하는 것이 특히 중요합니다. 궁극적으로 빅데이터 접근 방식의 지속 가능성은 이해관계자에게 빅데이터 학술활동의 가치를 전달하는 데 달려 있습니다. 실무의 변화, 이론의 발전, 이해관계자의 혜택에 대해 투명하게 알리는 것이 핵심 과제입니다.

 

표 4. 의학교육을 위한 NIH 단계(McGaghie 2010에서 각색).

 

5-2 이해관계자 및 데이터 소유자 참여
Engage stakeholders and data owners

학자들은 특정 집단에 대한 성취도 차이나 교육 프로그램의 결함 등 빅데이터가 노출할 수 있는 민감성에 주의를 기울여야 합니다. 결과와 해석의 적절성을 다루는 한 가지 접근 방식은 연구의 모든 단계에서 영향을 받는 이해관계자에게 연구에 대한 피드백을 제공할 수 있는 기회를 제공하는 것입니다. 많은 경우, 여기에는 파트너십과 프로젝트의 공동 제작이 포함될 수 있습니다. 또한 데이터를 공유하는 기관과 개인이 연구 결과와 의미를 합리적으로 이해할 수 있도록 하는 것이 거버넌스 모델의 특징일 수도 있습니다. 물론 학문의 자유도 보호되어야 합니다. HPE에서 빅데이터 연구의 한 가지 잠재력은 정체성, 사회적 불평등, 제도적 관행 등 민감한 문제를 탐구하는 것입니다. 연구가 엄격한 방법론적 기준을 충족하는 경우, 모든 저자는 우려 사항과 주의 사항을 포함하여 결과를 보고해야 할 윤리적 의무가 있습니다.

 

5-3 겸손과 신중함으로 해석을 구체화하기
Shape the interpretation with humility and care

모든 학문에서 결론과 시사점을 도출할 때는 겸손을 실천하는 것이 중요합니다. 이는 빅데이터 연구에만 국한된 것이 아닙니다. 일부 의학교육 연구는 연구 결과의 영향을 과장하거나 지나치게 추정하는 경향이 있습니다. 분석 기술과 데이터가 정교해지면서 분석 또는 알고리즘에 기반한 처방적 권장 사항은 훨씬 더 실현 가능성이 높으면서도 훨씬 더 위험합니다. HPE 빅데이터 연구는 대부분 학습자 코호트('집단')를 대상으로 합니다(10 Cate 외. 2020). 따라서 집단 수준의 데이터를 개별 학습자에게 추정하는 데 역학적으로 타당한 원칙을 적용하는 것이 중요합니다. 대규모 인구집단의 결과를 개별 학습자에게 적용하는 것은 항상 다소 까다롭습니다. 대규모 국가 데이터 세트는 민족과 인종에 대한 미국 의과대학 성취도 시험의 경우처럼 통계적으로 유의미하지만 향후 결과에는 의미가 없는 그룹 간의 작은 차이를 발견할 수 있습니다(Davis 외.  2013). 모든 연구와 마찬가지로 연구자는 이론과 이용 가능한 문헌을 사용하여 교육적 유의성의 임계치를 선험적으로 결정해야 하며, 이러한 결정은 빅 데이터 결과의 해석과 번역을 통해 학습자의 자율성을 제한하지 않아야 한다는 윤리적 의무를 준수해야 합니다. 오픈 데이터 공유의 다른 발전도 해석의 품질을 향상시킬 수 있습니다.

 

6 HPE에서 학술활동의 질을 높이기 위한 권장 사항
Recommendations for advancing the quality of scholarship in HPE

6-1 새로운 자원, 향상된 또는 새로운 기술, 학문 분야, 리더십을 HPE에 참여시킵니다.
Engage new resources, enhanced or novel skills, disciplines, and leadership in HPE

빅데이터 학술활동은 데이터를 한데 모으기 위한 기관의 자원과 효과적이고 지속 가능한 관행을 개발할 수 있는 지식이 풍부한 전문가의 지원이 필요합니다. 이러한 유형의 연구를 위한 기반과 인프라를 구축하는 것은 화려하지는 않지만 반드시 필요한 작업입니다(Demchenko 외.  2013). 연구자와 기관이 거버넌스를 구축하고 데이터를 식별, 액세스, 연결 및 공유하기 위한 접근법을 개발할 때 자금을 지원해야 합니다. 이러한 기술은 전통적인 연구 분야에서 항상 발견되는 것은 아니며, 많은 교육 학자들이 정식 교육에 포함되지도 않습니다. 연구 기업 전반의 협력자가 참여하는 다학제적 접근 방식이 필요합니다.

  • 개인정보 보호, 데이터 관리, 정보 기술, 교육 분야의 전문가들은 각각 교육의 연속성을 따라 두 기관 간에 데이터를 공유하는 소규모 프로젝트에도 필수적인 통찰력을 제공할 수 있습니다(De Mauro 외. 2016).
  • 윤리학과 사회학 등 다른 학문의 접근 방식과 개념은 신뢰와 역량 구축과 관련된 사회적, 문화적 문제를 해결하는 데 도움이 될 수 있습니다(Shilton 외. 2021).
  • 빅데이터를 사용하면서도 지배적인 빅데이터 관행을 비판하거나 의문을 제기하는 새로운 학문적 접근법도 등장하고 있습니다. 예를 들어, 비판적 디지털 인문학 및 기타 분야의 비판적 관점은 빅데이터 학문이 편견, 권력, 형평성 문제를 해결하는 데 도움이 될 수 있습니다(Sander 2020).

새롭게 떠오르는 데이터 과학 분야는 빅데이터 연구를 지원하는 데 필요한 다양한 역할을 오랫동안 인식해 왔습니다. 인접한 의료 서비스 및 생명공학 연구 분야는 빅데이터 학술활동의 핵심 이슈에 점점 더 정통해지고 있으며, HPE 학술활동의 중요한 자원이 될 수 있습니다. 빅데이터가 HPE 학술활동의 기반에 더욱 통합됨에 따라 데이터 과학자의 지속적인 채용이 필요할 것입니다. 정보 기술 전문성은 성공을 위한 적절한 디지털 인프라를 구축하는 데도 필수적입니다.

 

데이터와 데이터 공유의 복잡성을 기술적으로 관리할 수 있는 인력을 한데 모으기 위해서는 투자와 리더십이 필요합니다. HPE 리더는 빅데이터와 데이터 과학 학자를 장려하는 전략을 개발하고 전략적 목표를 달성하기 위해 빅데이터를 사용하는 것을 옹호할 것을 권장합니다.

 

6-2 메타데이터를 통한 데이터 공유 상호운용성 향상Advance data sharing interoperability through meta- data

시스템 관리를 가능하게 하고 사용자가 데이터 콘텐츠를 찾고, 기록하고, 공유할 수 있도록 하는 빅데이터 시스템의 정보를 메타데이터, 즉 '데이터에 관한 데이터'라고 합니다(Riley 2017). 빅데이터 연구에서 메타데이터의 역할은 표준화 기능이 데이터 공유와 고품질 분석을 위한 중요한 전제 조건으로 작용한다는 점을 인식한 여러 학자 그룹의 주목을 받았습니다(Sweet and Moulaison 2013; Levin, Wanderer, Ehrenfeld 2015; Ghiringhelli 등 2017).

  • 설명적 메타데이터는 빅 데이터에서 리소스를 식별하고 이해하는 데 도움이 됩니다.
  • 구조적 메타데이터는 데이터 구성 요소가 서로 어떻게 연관되어 있는지를 나타냅니다.
  • 관리 메타데이터는 데이터 관리와 지적 재산권 제정을 지원합니다(Riley 2017).

직장 평가를 예로 들면,

  • 설명적 메타데이터언제, 누가, 어떤 장치에서 서술적 의견을 입력했는지에 대한 정보를 제공할 수 있고,
  • 구조적 메타데이터교육생 식별자를 통해 평가 기록이 어떻게 정렬되고 서로 연결되는지를 나타낼 수 있습니다. 반면에
  • 관리 메타데이터평가 기록의 감사 로그the audit log of the assessment record를 용이하게 할 수 있습니다. 메타데이터는 데이터 공유(Sweet and Moulaison 2013; Ghiringhelli 외. 2017) 및 데이터 거버넌스에 매우 중요합니다. 예를 들어, 관리 메타데이터는 개인이 2차 사용에 동의한 데이터 요소를 밝혀줄 수 있습니다(Shaw 2019).

Understanding Metadata.pdf
1.57MB

6-3 발전된 방법과 분석 기법 사용
Use advancing methods and analysis techniques

빅데이터 분석의 방법론적 엄격성에 대한 평가는 그 주장을 뒷받침하는 핵심 요소입니다. 부적절하거나 부적절한 분석과 관련된 확립된 위험을 고려할 때, 빅데이터와 관련된 HPE 연구의 방법론적 엄격성을 정당화하여 결과 결론의 타당성을 확보할 필요가 있습니다. 인과관계 추론의 오류를 완화하고 모델 품질을 평가하기 위해 기존의 통계적 방법(예: 회귀, 요인 분석, 라쉬 분석)을 사용할 수 있지만, 새로운 방법(예: 머신러닝, 딥러닝)이 등장하고 있으며 엄격한 연구에 대한 새로운 접근 방식을 제공할 수 있습니다(Tolsgaard 외. 2023). 이러한 방법에는 훈련, 검증 및 테스트 데이터 세트로 데이터 세트를 분할하여 훈련 데이터로 개발된 모델이 '새로운' 데이터 또는 보이지 않는 데이터에 얼마나 잘 일반화되는지 평가하는 방법이 포함됩니다. 용어는 또한 모델을 평가하는 방식에 따라 리콜(민감도)과 정확도(오탐률) 측면에서 약간씩 다릅니다. 빅데이터를 기반으로 하는 모든 유형의 모델링에서 가장 큰 문제는 모델 성능 저하를 야기할 수 있는 데이터 드리프트입니다. 이는 하나의 데이터 세트에서 개발된 테스트 모델을 새로운 모집단이나 새로운 설정에 적용할 때 발생합니다. 성능과 학습이 콘텐츠와 상황에 따라 달라지는 HPE에서는 데이터 세트 전반에 걸쳐 지식과 결과를 일반화하는 것이 문제가 될 수 있습니다. 따라서 어떤 데이터를 캡처, 저장, 분석할지 정의하는 역할을 하는 이론의 활용이 HPE 빅데이터 연구에서 더욱 중요해집니다(Tolsgaard 외. 2020).

 

6-4 데이터의 편향성 해결 및 편향성 해결을 위한 데이터 활용
Address bias in the data and use the data to address bias

빅데이터의 중요한 우려 사항은 데이터 수집의 초기 편향과 역사적 또는 구조적 이유로 인해 다양한 집단에 대한 편향이 재현되는 것입니다(O'Neil 2016). 이러한 편견을 완화하기 위한 접근 방식에는 윤리 및 보급 섹션에 나열된 권장 사항을 준수하는 것이 포함됩니다. 연구자는 민감한 질문을 다룰 때 반성하는 자세를 취해야 합니다(이브라힘 외. 2020). 그럼에도 불구하고 데이터의 편향 가능성 때문에 학문에 참여하는 것을 배제해서는 안 됩니다. 데이터 누락과 더 많은 데이터 수집 실패로 인해 피해가 발생할 수 있습니다. 빅 데이터를 사용하여 형평성을 높이고 편견을 완화하는 새로운 문헌이 등장하고 있습니다(Wesson 외. 2022).

 

결론

HPE의 데이터 공유 및 빅 데이터 접근 방식은 이미 존재하고 있으며 앞으로도 계속 증가할 것입니다. 이러한 관점을 통해 HPE를 검토함으로써 얻을 수 있는 잠재적인 유익한 영향과 부가가치는 이 학술활동에 참여해야 하는 이유를 만들어냅니다. 동시에 혜택이 확대되는 만큼 긴장과 위험도 커지고 있습니다. 이러한 위험은 매우 우려스러운 부분이며 빅데이터 학술활동을 만드는 데 있어 가장 큰 장애물이 되기도 합니다. 따라서 이 컨센서스의 권고안은 빅데이터 학술활동을 제공하는 데이터 공유의 품질, 가치, 윤리적 측면에 대한 신뢰를 구축하는 데 도움이 될 수 있는 원칙을 제시하고자 합니다. 각 협업 또는 프로젝트마다 해결해야 할 고유한 상황 및 규제 문제가 있을 것입니다. 하지만 위의 원칙과 권장 사항을 따르면 이러한 문제를 해결하는 데 도움이 될 수 있습니다. 이러한 권장 사항을 채택하면 빅데이터의 힘을 활용하는 데이터 공유와 학술활동을 지원할 수 있습니다. 이는 결국 학술활동의 혜택을 받게 될 학습자, 교사, 환자들에게 혁신적인 변화를 가져올 수 있습니다.