이 특별호는 *데이터 과학(data science)*이 보건의료 전문직 교육 연구 및 실제에서 이제 중요한 역할을 하고 있다는 전제에서 출발한다. 이는 사회과학 전반에서도 마찬가지 현상이다 (예: Foster & Stine, 2004; Jemilniak, 2020). 우리는 과장된 기대와 유행어 뒤에 숨어 있는 진실을 꿰뚫어보며, 보건의료 전문직 교육 연구자들이 데이터 과학 기법, 데이터 과학의 윤리, 그리고 이 신흥 영역에서 이론이 갖는 역할에 어떻게 효과적으로 관여할 수 있는지를 고찰해야 한다.

We need to look past the hype and inflated expectations to consider how health professions education scholars can effectively engage with data science techniques, the ethics of data science, and the role of theory in this emerging area.

 

여기서 '데이터 과학(data science)'이라는 용어는 빅데이터(Big Data), 분석 기법(analytics), 그리고 이와 연관된 신흥 주제 영역을 포괄하는 의미로 사용되었다.

 

데이터 과학과의 실제적 연계라는 측면에서, 이번 특별호에 실린 여러 논문들은 빅데이터를 활용한 연구들을 보고하고 있다 (예: Chahine et al., 2024; Johnston et al., 2025; Kulasegaram et al., 2024a, b). 그러나 흥미롭게도 유일한 문헌고찰 논문인 Marcotte et al. (2025)은 __보건의료 전문직 교육 분야에서 빅데이터 기법을 사용한 논문은 의외로 소수에 불과__하다는 점을 지적한다.

 

이러한 결과는, 보건의료 교육 분야에서 빅데이터의 가능성에 대해 __열정적으로 이야기하는 사람은 많지만, 실제로 이를 활용하는 사람은 훨씬 적다는 사실__을 보여준다 (Johnsson & Tolsgaard, 2024). 또한 Kitto et al. (2024), Constable et al. (2024)과 같은 연구자들은 데이터 과학의 특정 활용이 야기할 수 있는 함의에 대해 분명한 경계심을 드러낸다.

 

한편으로는 데이터 과학이 새로운 교육적 통찰과 아이디어를 지원할 수 있는 큰 잠재력을 가지고 있지만, 다른 한편으로는 __프라이버시, 감시(surveillance), 통제(control)__에 대한 중대한 우려가 존재한다 (Grierson et al., 2023; Kulasegaram et al., 2024a, b).

“Like other socio-technical phenomena, Big Data triggers both utopian and dystopian rhetoric.”
– Boyd & Crawford (2012, p.653)

즉, 빅데이터는 다른 사회기술적 현상들과 마찬가지로 유토피아적 담론과 디스토피아적 담론을 동시에 불러일으킨다.


우리는 데이터 과학의 교육 연구 적용에 대한 이러한 경계심의 한 가지 이유가 다음과 같은 구조적 부재에 있다고 본다: 즉, __데이터가 윤리적이고, 안전하며, 생산적인 방식으로 수집되고 활용되도록 보장해 줄 확립된 원칙, 기준, 인프라, 규제의 부족__이다.

 

이러한 정책 및 절차의 공백은 데이터 과학의 잠재력을 실현하는 데 중대한 장애물이 된다. 연구자들은 최선의 의도를 가지고 있음에도 불구하고 __"잘못된 일"을 저지를지도 모른다는 불확실성__에 직면하게 된다. 실제로 연구자들은 다음과 같은 여러 윤리적 문제에 대한 지침을 필요로 한다:

  • 연구 결과가 개인이나 집단에게 해가 되지 않도록 하려면 어떻게 해야 하는가?
  • 프라이버시와 기밀성을 어떻게 보호할 수 있는가?
  • informed consent (정보에 입각한 동의)와 같은 윤리 원칙을 어떻게 의미 있게 준수할 것인가?

이 문제들은 연구자뿐 아니라 데이터 관리자(data stewards) 및 다른 이해관계자들에게도 동일하게 적용된다.


이번 특별호에 실린 여러 논문에서 이와 같은 *윤리적 고려사항(ethical considerations)*은 반복적으로 등장한다. Postman (1992)은 *"우리는 기술을 연인의 눈으로 바라보며, 결점 없이 완벽하다고 여기고 미래에 대한 불안은 품지 않는다"*고 말한 바 있다 (p.5). 하지만 보건의료 전문직 교육 분야에서는, 적어도 지금까지는 그렇게 '사랑에 빠지진' 않았고, 오히려 데이터 과학의 잠재적 함의에 대해 신중하고 우려하는 경향이 더 강하다.

 

Mercuri and Emerson (2024)는 글로벌 보건 문맥에서의 데이터 주권(data sovereignty) 및 __관할권 간 협력(inter-jurisdictional work)__의 사례를 통해 이러한 윤리적 공백을 조명하고 있다. 이 분야에서는 수많은 데이터 기반 연구들이 눈에 띄는 윤리적 긴장과 우려를 일으켜왔다. Rowland et al. (2024)은 문서 분석(document analysis)을 통해, 데이터 과학에 대한 커다란 약속들이 존재함과 동시에 __블라인드 스팟과 위험 요소에 대한 불안__도 존재함을 보여준다.

 


흥미로운 점은, 이러한 윤리적 문제들을 다루는 속도가 __관할권(jurisdiction)__이나 __학문 영역__에 따라 매우 다르다는 것이다. 예를 들어, Johnston 외(2025)의 논문에서 사용된 **영국 의학교육 데이터베이스(UK Medical Education Database, UKMED)**는, 데이터 수집과 관리에 필요한 윤리적 연구 인프라와 규정을 수년에 걸쳐 검토한 후, 10여 년 전에 설립되었다 (Dowell et al., 2018). 반면, 다른 논문들은 이제 막 보건의료 전문직 교육에서 데이터 과학의 가능성을 탐색하기 시작한 국가 및 시스템 내에서의 활동을 보여주는 좋은 사례들이다 (Chahine et al., 2024; Kulasegaram et al., 2024a, b).


데이터 과학에 필요한 역량은 전반적으로 양적 연구에 필요한 역량과 유사하다:

  • 양질의 데이터 확보,
  • 체계적인 데이터 관리 및 거버넌스,
  • 전통적 통계 분석 능력 등이 그것이다.

하지만 데이터 과학은 또한 __기계 학습(machine learning)__이나 __자연어 처리(natural language processing)__와 같은 인공지능 기반 접근법과 기술을 활용할 수도 있다. 이는 전통적인 보건의료 교육 연구자들에게는 익숙하지 않은 기술이며, 따라서 연구자들은 이러한 기술을 새롭게 습득하거나, 관련 전문 지식을 가진 사람들과 협업해야 할 것이다.

 

또한 앞으로 연구자들은 사회과학 내의 새로운 하위 분야들과도 적극적으로 교류해야 할 것으로 보인다. 예를 들면:

  • 데이터 과학 방법론(data science methods) (Foster et al., 2020),
  • 계산 사회과학(computational social science) (McLevey, 2022),
  • 디지털 인문학(digital humanities) (Drucker, 2021) 등이 있다.

__학제 간 연구(interdisciplinary work)__는 도전적이지만 (예: Macleod, 2018), __이 분야를 발전시키기 위해 반드시 필요한 전략__이다.


세 번째로 지적할 점은, 데이터 과학에서 이론(theory)이 갖는 역할에 대한 질문이 우리의 참여를 방해하고 있을 가능성이다.

어떤 학자들은 이론이 필요 없다고 주장한다. 이들은 연구 질문과 답변이 "귀납적 과정과 통계 조작에 기반한 바텀업 접근 방식(bottom-up process based on inductive processes and statistical manipulation)"에서 나온다고 본다 (Mazzocchi, 2015, p.1250). 이러한 관점에서 보면, 데이터 과학은 패턴 인식과 통계 기법, 데이터베이스 시스템, 기계 학습을 통해 현상에 대한 새로운 통찰을 생성함으로써 이론 구축을 자극할 수 있다 (Luo et al., 2019).

 

반면, 이론이 데이터 과학에서 핵심적이다라고 믿는 학자들도 있다 (예: Tolsgaard et al., 2020).
가장 명확한 수준에서, 이론은 가설(hypothesis)의 형태로 데이터 과학을 지탱하며, 다음과 같은 지침을 제공한다:

  • 어떤 변수를 모델에 포함시킬 것인가?
  • 어떤 요인이 데이터를 영향을 미치는가?
  • 어떤 결과에 주목할 것인가?
  • 다른 맥락에 어떻게 일반화할 수 있는가?

“At its most obvious, theory underpins data science in the form of hypotheses, providing guidance about the variables to include in a model, what influences the data, to which results to attend, and how to generalize results to other settings.”
– Wise & Schaffer (2015)


가장 중요한 마지막 논점은 다음과 같다:
데이터 과학은 단순한 도구와 기법들의 모음(toolkit)이 아니다. 오히려, 데이터 과학은 새로운 실천(practice)을 생성해낸다 (Orlikowski & Scott, 2015a, b; Scott & Orlikowski, 2014).

“Data science is not a bag of tools and techniques. Rather, data science generates new practices.”
– Orlikowski & Scott

 

이러한 이유로, 데이터 과학의 '결과(outcomes)'를 탐구하는 연구는 반드시 다음을 동반해야 한다: 기술과 인간 행위자(human actors)가 어떻게 작용하고 상호작용하는지를 면밀히 검토하는 사려 깊은 질적 연구. 이러한 상호작용이 어떻게 새로운 행동을 생성하고, 새로운 실천의 가능성을 제시하는지를 탐구해야 한다 (Scott & Orlikowski, 2014).

“Change the instruments, and you will change the entire social theory that goes with them.”
– Latour (2009, p.155)

 

라투르(Latour)의 이 말처럼, 도구가 바뀌면 그것과 연계된 사회이론 전체가 변화하게 된다.


우리 분야가 여전히 데이터 과학과 관련해서 대부분 '논평(commentary)'과 '문헌고찰(review)' 수준의 학술 작업에 머물러 있는 이유 중 하나는, 어쩌면 우리 스스로의 한계 때문일 수 있다.

교육자이자 연구자인 우리는, 데이터 과학을 독립된 실체(entity)처럼 대하는 오류에서 벗어나야 한다.
데이터 과학은 도구 그 자체가 아니라, __인간과 기술이 상호작용하며 형성되는 새로운 실천의 장__이라는 사실을 인식해야 한다.

 

따라서, 보건의료 전문직 교육에서 데이터 과학의 윤리적이고 학문적인 기반을 튼튼히 구축하기 위해, 경험적(empirical) 연구를 수행하여 실증적 데이터를 수집해야 한다.

 

이제 데이터 과학은 사라지지 않을 것이며, 우리는 그 잠재력을 최대한 활용하기 위한 준비와 실천을 시작해야 할 시점에 있다.

“It is here to stay, so let us get on with the tasks needed to make the most of it.”

 

 

 

 

Cleland, J., Grierson, L., & Tolsgaard, M. (2025). Data science in health professions education: promises and challenges. Advances in Health Sciences Education, 1-4.

 

+ Recent posts