Med Teach2025 Jan 9:1-15.  doi: 10.1080/0142159X.2024.2445037. Online ahead of print.

Artificial Intelligence in Health Professions Education assessment: AMEE Guide No. 178

 

 

 

🧠 의료교육 평가에 AI를 활용한다고?

‼️ 지금부터가 진짜 시작입니다 – AMEE 가이드 핵심 요약

요즘 의과대학에서 “ChatGPT 써도 되나요?”라는 질문, 너무 흔하죠?
그런데 평가(assessment)에서도 AI를 써도 될까요? 써야 하나요? 어떻게 써야 할까요?
이런 궁금증에 대해 AMEE(Association for Medical Education in Europe)에서 전문 가이드를 발표했습니다.

오늘은 그 내용을 쉽고 편하게 풀어드릴게요!


🎯 AI가 평가를 어떻게 바꾸고 있을까?

AI, 특히 Generative AI (GenAI), 예를 들어 ChatGPT 같은 도구가 등장하면서
우리가 생각하던 시험, 과제, 피드백의 방식 자체가 흔들리고 있어요.

“We cannot simply plug AI tools into our current assessment methods and carry on as before: our assessment methods need to be adjusted, some scrapped, and new methods introduced.”
“AI를 기존 평가 방식에 그냥 끼워 넣는 건 안 돼요. 일부는 버리고, 일부는 고치고, 새로운 평가 방식이 필요하죠.”


🧩 어떤 교육 이론을 기반으로 해야 할까?

TPACK이나 PICRAT 같은 이론 모델이 AI를 교육에 통합할 때 좋은 틀을 제공해줘요.

  • TPACK: 기술(Technology), 교수법(Pedagogy), 내용지식(Content)의 균형
  • PICRAT: 학습자의 참여 방식(Passive, Interactive, Creative) + 교사의 도구 활용 방식(Replacement, Amplification, Transformation)

“Understanding these models allows educators to situate their AI usage in assessment more comfortably within evidence-based teaching frameworks.”


💡 AI로 더 나은 평가, 가능할까?

가능합니다! 특히 **형성평가(formative assessment)**에서는 효과가 아주 좋아요.

예를 들어,

  • 학생에게 맞는 퀴즈를 자동 생성해주거나
  • **가상 환자 시뮬레이션(virtual patient)**을 통해 피드백을 주는 등의 방식이 있죠.

“AI-powered platforms… provide immediate, targeted feedback… enhancing self-regulation and engagement.”
AI 기반 플랫폼은 즉각적이고 정확한 피드백을 제공하면서 자기조절 학습을 도와줘요.


🧑‍🏫 그런데 여전히 필요한 건 사람

그렇다고 AI에게 다 맡겨버릴 수는 없어요. 특히 **고위험 평가(high-stakes assessments)**에서는 여전히 **사람의 개입(human-in-the-loop)**이 중요하다는 점, 잊지 마세요.

“Until LLMs consistently demonstrate reliability much better than human raters, however, a ‘human-in-the-loop’ approach remains essential.”


📚 그럼 에세이 과제는 이제 못 쓰는 건가요?

🤖 ChatGPT가 에세이를 ‘잘’ 써버리니까 문제가 된 거죠.
그렇다고 에세이를 없애야 할까요? 그보다는 평가의 본질을 다시 생각해봐야 해요.

“The aim is not to write the essay, and it never has been.”
“중요한 건 ‘에세이를 쓰는 행위’가 아니라, 그 과정을 통해 배움을 확인하는 거죠.”


⚠️ AI를 쓸 때 조심해야 할 것들

AI 평가 도구도 잘 쓰면 좋지만, 다음과 같은 이슈도 꼭 고려해야 해요:

  • 편향(Bias): AI는 기존 데이터에 따라 학습되기 때문에 인종, 성별 등에 따라 편향된 결과가 나올 수 있어요.
  • 데이터 윤리(Ethics): 학생의 데이터를 AI 학습에 사용하는 건 민감한 문제예요. 반드시 **동의(consent)**가 필요하죠.
  • 검출기 불신(AI Detector): AI로 쓴 글을 걸러낸다는 도구들, 아직은 정확하지 않아요. 특히 영어가 모국어가 아닌 학생에게 불리할 수 있어요.

“AI detectors… are neither accurate nor reliable… and disadvantage people writing in their second language.”


🧑‍🏫 교수 개발(Faculty Development)이 핵심

AI를 수업과 평가에 잘 활용하려면 교수자도 계속 배워야 해요. 단발성 워크숍보다는, 마이크로러닝, 실제 적용 사례 공유, 커뮤니티 활동(CoPs) 같은 장기적 지원이 필요하다는 것이 이 가이드의 핵심 메시지예요.


📝 마무리하며…

“We have aimed to provide HPE educators with a Guide to assist them in their journey of successfully using AI for HPE assessment.”
“AI를 의학교육 평가에 잘 활용할 수 있도록, 여러분의 여정을 돕기 위해 이 가이드를 만들었습니다.”


📌 요약

핵심 질문  요약
AI를 평가에 쓸 수 있을까? 가능함. 특히 형성평가에 효과적
뭐가 바뀌어야 하나요? 기존 평가 방식 일부는 수정·폐기 필요
조심할 점은? 데이터 윤리, 편향, AI 감지기의 불완전성
교수자는? 지속적인 훈련과 개발이 필수

 

1. 서론

1.1. 배경

교육자들에게는 ‘평가는 학습을 주도한다(Assessment drives learning)’는 격언이 익숙할 것이다[1]. 이상적인 세상에서는 평가 결과가 곧 학습의 성과를 의미한다. 인터넷은 보건의료전문직 교육(Health Professions Education, HPE)에서 학습과 평가 방식에 큰 영향을 미쳤지만, **인공지능(Artificial Intelligence, AI)**은 학습과 평가에 대해 전혀 새로운 관점을 제시하고 있다. 이 가이드에서는 HPE 평가에서의 AI 활용에 초점을 맞춘다.

 

사실 ‘생각하는 기계(thinking machines)’와 AI라는 개념은 수십 년 전부터 존재해 왔지만[2,3], 2022년 11월 30일 공개된 생성형 AI(Generative AI, GenAI) 도구인 ChatGPT 3.5는 전 세계의 이목을 집중시켰고, 학습자와 교사의 상상력을 자극하였다. 이러한 이유로 이 가이드에서는 ‘AI’라는 용어를 사용하지만, 사례의 대부분은 생성형 AI의 하위 범주에 해당하는 GenAI를 기반으로 한다.

 

이후 AI를 다룬 HPE 관련 논문들의 급증은 다른 교육 분야에서 나타난 패턴과 유사했다. 표절, 작문에 미치는 영향, 부정행위(cheating) 등의 문제가 논의되기 시작했다[4]. AI 모델이 고도화되면서 이러한 우려는 더욱 커졌는데, 이는 AI 시스템이 지역, 국가, 국제 수준의 학술시험에서 점점 더 높은 점수를 획득하게 되었기 때문이다. 그러나 동시에 이러한 AI 도구가 **형성 평가(formative assessment)와 총괄 평가(summative assessment)**에서 교사와 학습자를 지원할 수 있다는 점이 점차 인정되기 시작했다[4].

 

HPE 기관들은 AI가 평가에 미치는 영향을 고민하며, 이를 어떻게 활용하거나 대응할 것인지에 대한 전략을 수립해 왔다. 이 과정에서 몇 가지 **뚜렷한 흐름(trends)**이 나타났다. 첫 번째는 AI는 이미 현실 속에 존재하며, 그 영향력은 계속 커질 것이라는 다소 결정론적인 인식이다. 두 번째는 평가와 더 밀접한 것으로, 단순히 현재의 평가 방식에 AI 도구를 삽입해서 기존 방식 그대로 운영할 수는 없다는 사실이다. 기존의 평가 방식은 수정되어야 하며, 일부는 폐기되어야 하고, 새로운 평가 방식이 도입되어야 한다. 그리고 AI는 끊임없이 발전하기 때문에, 이러한 변화는 단발성이 아니라 반복적으로 검토되고 조정되어야 할 것이다.

 

이러한 상황에서 HPE 교육자들이 평가에 AI를 어떻게 활용할 수 있을지 지원하는 노력이 요구된다[5]. AI를 효과적으로 HPE 평가에 적용하기 위한 전환과정은 쉽지 않을 것이다. 그러나 이 AMEE Guide는 독자들이 그 여정을 시작할 수 있도록 안내하고자 한다.

1.2. 이 가이드의 구성

이 가이드는 여러 주제를 다루며, 이를 논리적인 순서로 배열하고자 하였다. 먼저 교육학 이론AI에 대한 인간의 반응을 소개하고, 이어서 AI가 개인 맞춤형 및 유연한 평가(personal and flexible assessment), 표준화(standardisation), 다양한 평가 유형에 미치는 개념적 영향에 대해 논의한다. 이후에는 AI가 튜터와 학습자의 역할을 수행할 수 있는 가능성, **역량 기반 평가(competency-based assessment)**와 같은 좀 더 직접적인 주제로 넘어간다. 마지막으로는 윤리적 쟁점 및 어려운 문제들, 교수 개발(faculty development), 그리고 HPE 평가에서 AI 사용의 인정에 대한 논의로 마무리된다.

 

각 주제는 비슷한(하지만 완전히 동일하지는 않은) 구성을 따른다. 문제 제기, 관련 이론 소개, AI의 잠재력 논의, 사례 및 모범 사례 제시, 한계점 제시 등의 순서로 구성된다. 일부 주제는 부록(Appendices)의 자료를 통해 보완된다.

 

이 가이드는 HPE 평가에서 AI의 사용에 초점을 맞추고 있기 때문에, 일반적인 평가 혹은 디지털 평가(digital assessment)에 대한 설명은 생략하며, 이는 이미 다른 출판물에서 다루어졌다[5,6]. 동시에, 이 가이드는 AI를 모든 교육적 문제의 만능 해결책으로 보지 않는다. 대신, AI가 HPE 평가의 어떤 영역을 향상시킬 수 있을지 식별하고, 동시에 AI 사용으로 인해 발생할 수 있는 문제점들을 함께 인식하는 데 목적을 둔다.

 

이제 우리는 기술보다는 교육에 초점을 맞추고 있으므로, 다음 절에서는 **교육 이론적 프레임워크(educational theoretical frameworks)**부터 논의를 시작할 것이다.


2. 이론과 프레임워크

AI 도구가 평가에 폭발적으로 도입되고 있는 지금, 교육자들은 이를 교육학적으로 타당한 방식으로 활용하기 위한 전략을 고민해야 한다. 각 교육기관은 평가에서 허용 가능한 AI 사용에 대한 명확한 지침을 제공하고, 생성형 AI(Generative AI, GenAI) 사용 시 **편향(bias)**과 **한계점(limitations)**을 포함한 **모범 사례(best practices)**를 스스로 실천함으로써 비판적 탐구와 투명성의 문화를 조성해야 한다. 이를 위해, 우리는 **형성 평가(assessment for learning)**와 **총괄 평가(assessment of learning)**에서의 기술 통합에 대한 기초 이론 기반 접근법을 살펴보고[6,7], 실용적이고 이론에 기반한 활용의 필요성을 강조하고자 한다.

2.1. 두 가지 교육학 모델

먼저 소개할 두 가지 널리 사용되는 교육학 모델은 다음과 같다:

  • TPACK (Technology, Pedagogy, Content, Knowledge Framework) [8]
  • PICRAT (Passive, Interactive, Creative – Replacement, Amplification, Transformation) [9,10]
    이 두 모델은 **보건의료전문직 온라인 교육(HPE online education)**과 관련한 기존 연구들에서 그 효과가 입증되었다[11,12].

TPACK 모델은 교육자가 고려해야 할 세 가지 지식 요소를 정의한다:

  • 기술 지식(Technological Knowledge, TK)
  • 교육학 지식(Pedagogical Knowledge, PK)
  • 내용 지식(Content Knowledge, CK)

이 모델은 ‘무엇을(내용), 어떻게(방법), 왜(기술 통합의 목적)’ 가르쳐야 하는지를 고민하게 하며, AI를 교육학적으로 타당한 방식으로 활용할 수 있도록 교사를 훈련하는 데 유용한 이론적 틀을 제공한다.

PICRAT 모델은 기술 통합에 대한 전반적 개요를 제공하는 TPACK과는 달리, 학습자(PIC)와 교사(RAT)의 관점에서 AI를 어떻게 평가에 통합할 수 있는지에 대한 실질적인 지침을 제시한다:

  • Passive: 학습자가 수동적으로 평가 전략의 영향을 받는 경우 (예: 모듈에서 보낸 시간, 완료한 과제 개수, 퀴즈 응시 횟수 등. 개별화된 피드백 없이 진행됨)
  • Interactive: 학습자가 AI와 상호작용하며 학습하는 경우 (예: 소크라테스식 질문을 통해 깊은 이해를 유도하는 평가)
  • Creative: 학습자가 AI를 활용해 콘텐츠를 생성하는 경우 (예: 에세이에 대한 피드백을 AI가 생성)
  • Replacement: 교사가 AI 도구로 기존 평가를 대체하는 경우 (예: 객관식 문항 생성, 가상환자 활용)
  • Amplification: AI를 활용하여 기존 평가를 향상시키는 경우 (예: 과거 평가 결과를 기반으로 한 개인 맞춤형 피드백 제공)
  • Transformation: AI 없이는 불가능한 새로운 형태의 평가를 구현하는 경우 (예: 대규모 데이터 분석을 기반으로 한 개인화 학습계획 수립 및 피드백)

이러한 모델들을 이해함으로써, 교육자는 AI 활용을 증거기반 교육 프레임워크 내에 보다 안정적으로 위치시킬 수 있게 된다.

2.2. 두 가지 평가 프레임워크

기술이 학습성과를 달성하는 데 어떤 도움을 줄 수 있는지를 살펴본 데 이어, 이제는 학습자의 역량(competency)을 어떻게 평가할 것인가를 고민하는 두 가지 평가 프레임워크를 살펴본다:

  • Programmatic Assessment(프로그램 기반 평가)
  • CBME 핵심 구성요소 프레임워크(Core Components Framework of Competency-Based Medical Education)

프로그램 기반 평가는 학습자의 역량과 성장에 대한 총체적인 그림을 그리기 위해 의미 있는 방식으로 다양한 정보를 수집하는 평가 방식이다[6,7]. 이 방식은 지속적이고 통합적인 평가를 통해 시간 경과에 따라 다양한 역량을 포착하는 것을 강조한다. 형성 평가를 이 모델에 정렬시키면, 학습자들은 다양한 기술에 대한 지속적이고 다양한 피드백을 받아볼 수 있으며, 이는 고위험(high-stakes) 상황의 부담 없이 점진적인 역량 개발을 촉진한다.

 

**CBME 핵심 구성요소 프레임워크(Core Components Framework)**는 다음의 다섯 가지 핵심 요소로 구성된다[13]:

  1. 명확하게 정의된 성과 역량(outcome competencies)의 존재
  2. 역량을 발달 중심으로 순차적으로 구성
  3. 역량 개발을 촉진하는 맞춤형 학습 경험과 교수법
  4. 학습자의 성장과정을 총체적으로 기록·검토하기 위한 프로그램 기반 평가의 활용

CBME는 HPE 전반에 널리 채택되어 왔으나, 일반 교육학 문헌에서 강조되는 시간 가변적 교육(time-variable education) 요소는 포함하지 않는다. AI는 방대한 학습자 데이터를 종합적으로 분석할 수 있는 능력을 바탕으로, 학습자의 진행 상황을 추적하고 개인화된 학습 및 개발 경로를 제안할 수 있다. 예컨대, 지능형 튜터링 시스템(Intelligent Tutoring Systems, ITS), 시뮬레이션, 동료 평가(peer assessment) 등을 통해 학습을 지속적으로 지원할 수 있다[6].

 

이 외에도, Bloom의 교육목표 분류학(Bloom’s Taxonomy) [14]은 **인지학습(cognitive learning)**의 기본 원칙을 설명하는 틀로, 형성 및 총괄 평가에서 AI를 적용하는 데 이론적 기반이 될 수 있다[15].

 

이러한 다양한 이론과 프레임워크를 바탕으로, 교육자는 AI를 활용한 평가에서 모범 사례를 스스로 실천할 필요가 있다. 예를 들어, 학습자의 익명성 보장, 알고리즘 편향의 영향을 줄이기 위한 투명성 확보, 학습자의 AI 사용 여부 명확화, 학습자의 자율성 존중, AI 결과에 대한 비판적 평가를 직접 시범 보이기 등이 그것이다[16].

 

이 가이드가 처음부터 기술이 아니라 교육에 초점을 맞췄던 것처럼, 다음 주제 역시 AI에 대한 인간(학습자와 교직원)의 반응에 주목할 것이다.

 

3. 인간의 반응 (Human responses)

이 가이드는 AI를 평가에 도입하는 것을 전반적으로 긍정적으로 바라보는 시각을 취하고 있다. 이는 **저자들의 편향(bias)**과 AI를 교수 및 학습에 활용해본 경험, 모범 사례를 따르고 시연한 경험, 그리고 성공 사례를 공유해온 배경을 반영한 것이다.

 

이 절은 AI 사용에 반대하는 주장을 하려는 것이 아니다. 그러나 독자들은 모든 학습자와 교사가 AI를 열렬히 받아들이는 것은 아니라는 점을 인식해야 하며[17,18], 신중함이 필요한 타당한 이유들이 존재한다. 이 절의 목적은 AI에 대한 열정과 경계심 사이의 균형을 맞추고, 동시에 일반적인 우려 사항들을 다루는 것이다.

 

앞 절에서 살펴본 것처럼, AI의 통합을 위한 교육학적 모델과 프레임워크는 이미 존재한다. 교사와 학습자는 이러한 프레임워크를 기반으로 자신들의 AI 활용을 정당화할 수 있으며, 그를 통해 오해와 두려움을 극복할 수 있다.

 

또한, 교육자는 기술 수용도와 관련된 통합 기술 수용 및 활용 이론(UTAUT: Unified Theory of Acceptance and Use of Technology) [19]의 기본 원칙을 적용하여 기술 일반에 대한 인간의 수용성, 특히 AI에 대한 수용성을 평가할 수 있다. HPE 맥락에서는 의대생을 위한 의료 인공지능 수용도 척도(MAIRS-MS: Medical Artificial Intelligence Readiness Scale for Medical Students) [20]를 통해 학습자의 준비도를 측정할 수 있다. 위에서 설명한 PICRAT 모델 [21] 또한 AI를 학습 및 평가에 통합하기 위한 유용한 출발점이 된다.

 

그러나 교실에서 논의하거나 고려해볼 만한 인간의 반응들이 존재한다. 이 절에서는 그 중 두 가지를 간단히 다룬다:

  • AI의 인간화 경향(Anthropomorphising AI)
  • 과도한 기대와 공포 사이의 균형(Balancing enthusiasm with fear)

3.1. AI의 인간화 경향 (Anthropomorphising AI)

HPE 평가에 AI를 도입할 때의 **주요 장애물 중 하나는 AI를 인간처럼 여기는 경향(anthropomorphising)**이다. AI의 의식(sentience)이나 권리에 대한 논의는 여전히 계속되고 있지만[22], AI의 인간화는 대중의 SNS 반응에서 더 자주 나타난다. 예컨대, **ChatGPT-4o의 목소리를 ‘플러팅(flirty)하다’거나 ‘여성처럼 들린다’**는 식의 반응이 있다[23]. 이후에는 이 인식에 따라 시스템의 다른 특성들도 판단하게 되는 경향이 나타난다.

 

이러한 해석은, **사용자 친화적인 오디오 사용자 인터페이스(Audio User Interface)**를 구현하고자 했던 설계 의도를 간과하는 것이다. 이는 텍스트 사용자 인터페이스(Text UI)나 그래픽 사용자 인터페이스(Graphical UI)와 마찬가지로, 컴퓨터와 상호작용하는 편리한 수단을 제공하기 위한 기술적 구성이다.

 

물론 AI 도구에 **성별이나 기타 편향(gender and other biases)**이 존재할 수 있지만, 예컨대 ChatGPT-4o의 ‘여성형 목소지’를 중단할 수 있다는 점이 성차별적이라고 비판하는 것은, 사실상 컴퓨터 출력의 중단 기능이 50년 넘게 존재해왔다는 점남성형 목소리에도 동일한 기능이 존재한다는 사실을 간과한 것이다.

 

이러한 AI의 인간화에 기반한 비판은 다양한 방식으로 반복된다 (예: NotebookLM의 팟캐스트 기능에 대한 비판). 그러나 이는, 컴퓨터 마우스의 디자인에 따라 성별이나 인종적 특성을 부여하는 것과 같은 무의미한 행위로 볼 수 있다.

 

학습자는 반드시 기억해야 하며, 교육자는 끊임없이 강조해야 한다. 즉, AI 시스템은 아무리 정교해 보이더라도 인간이 아니며, 성별, 인종, 기타 인구통계학적 특성을 지니지 않는다는 점이다. 자신의 인지적 틀을 AI 시스템에 투사하는 것은 개인의 편향을 반영하는 것일 뿐이며, AI의 실제적 효용을 떨어뜨린다. 앞서 소개한 UTAUT 같은 이론을 참조함으로써, AI는 본질적으로 기술적 존재임을 학습자에게 인식시킬 수 있다. 이는 특히 학습자가 AI 평가 시스템과 상호작용하거나 피드백을 받을 때 매우 중요하다. 그들은 사람과 대화하고 있는 것이 아니라 ‘기계’와 상호작용하고 있음을 항상 인식해야 한다.

3.2. 과도한 기대와 공포 사이의 균형 (Balancing extremes: Enthusiasm vs. Fear)

교육자(educators): AI에 대한 반응은 지나친 기대감에서 깊은 두려움에 이르기까지 다양하며, 아이러니하게도 이들 모두 **AI 도구의 오용(misuse)**이라는 유사한 결과를 초래할 수 있다. 예컨대, 학습자의 부정행위를 우려하는 사람도, AI를 과도하게 수용하는 사람도 **AI 탐지기(AI detectors)**를 사용하는 경우가 있다. (이 도구들에 대한 논의는 가이드 후반부에서 더 자세히 다뤄질 예정이다.)

합리적인 우려 사항도 존재한다.

  • 학습자가 기초 역량을 잃는 것에 대한 걱정
  • AI를 평가에 부적절하게 사용하는 것에 대한 우려
  • 교수자가 AI에 의해 대체될 가능성이나
  • AI가 학습자의 과제를 검토하고 채점하는 역할을 수행하는 것에 대한 두려움 등이다.

또한 교육자는 수많은 도구들 사이를 헤매야 하는 어려움, 지속적으로 변화하는 제도 정책, 데이터 공유 및 보안, 감시 문제복잡한 환경 속에서 혼란을 겪기도 한다. **AGI(Artificial General Intelligence)**의 미래 가능성은 이러한 불확실성을 더욱 가중시킨다[22].

 

학습자(learners): 학습자 역시 비슷한 영향을 받으며, 특히 **AI 탐지기(AI-detectors)**가 자신이 작성한 원본 콘텐츠를 AI가 생성한 것으로 오인할까 봐 두려워하기도 한다[24].

이러한 문제들을 교육자가 정확히 인식하고, 동료 교사, 학습자, 기관, 관련 단체와 열린 대화를 나누며, 자신의 교육학적 프레임워크를 성실하게 적용한다면, AI에 대한 공포는 상당 부분 완화될 수 있다. 그리고 교육의 본질에 보다 집중할 수 있을 것이다.

이와 같은 간략한 배경 설명을 바탕으로, 다음 절에서는 **AI 시스템을 개인화(personalise)**하여 학습자의 평가를 어떻게 더 효과적으로 지원할 수 있을지 살펴본다.


4. 개인화되고 유연한 총괄 평가 (Personalised and Flexible Summative Assessment)

4.1. 서론

보건의료전문직 교육(HPE)에서는 최근 **학습자의 다양한 학습 속도, 선호도, 개별적 기술을 수용할 수 있는 유연한 교육과정(flexible curricula)**에 대한 관심이 증가하고 있다. 전통적이고 경직된 구조는 더 이상 학습자의 요구를 충족시키지 못하며, 대신 **더 적응적이고 접근 가능하며, 학습자 중심적인 접근 방식(learner-centred approaches)**이 필요하다.

4.2. 개인화 평가의 가치

개인화된 평가는 특히 보건의료 교육에서 높은 가치를 지닌다. 예를 들어, 예비 임상(preclinical)에서 임상(clinical)으로의 전환, **전문직의 지속적 직무 역량 개발(continuing professional development)**과 같은 **단계 간 이동(phase completion)**은 **구체적인 역량(competencies)**을 증명할 수 있는 **평가(evidence)**를 요구한다.

 

**온디맨드 평가(on-demand assessments)**실시간 피드백과 **역량 기반 평가(competency evaluations)**를 제공함으로써 **개인화된 학습 경로(personalised learning paths)**를 지원하고, 학습자가 각 훈련 단계를 자신의 속도에 맞추어 진입할 수 있도록 한다. 이러한 평가는 학습자가 준비가 되었다고 느낄 때 각 단계를 수행할 수 있도록 하며, 일정에 따라 일률적으로 진도를 나가는 것이 아니라, 개별 학습 경로와 진로에 맞게 진입할 수 있도록 한다[4].

 

이는 시간 기반이 아니라 역량 기반으로 진급을 결정하는 방식을 지지하며, 학습자의 **다음 단계로의 준비 상태(readiness)**를 보다 정확히 확인할 수 있게 해준다[25].

 

**AI 기반 평가(AI-driven assessments)**는 계속 발전하고 있으며, 이는 학습자가 훈련 단계를 이수하고 인증(certification)을 준비하는 데 있어 유망한 경로가 된다. 궁극적으로는 전문직 실무에서 요구되는 준비 상태를 보장하는 수단이 될 수 있다.

 

보건의료 교육에서의 인증(certification)표준화된 역량 수준에 도달했음을 입증해야 하며, 이는 대개 실기 시험(practical evaluations) 및 **서면 시험(exams)**을 통해 이루어진다. 온디맨드 평가는 이 과정을 적응적으로 만들며, 실제 임상 기술과 일치하는 역량 기반 평가를 빈번하게 제공할 수 있도록 한다. 학습자들은 자신의 전문직 실무 준비 상태에 대한 즉각적인 피드백을 받게 되며, 이는 인증 기준을 자신의 속도에 맞춰 달성할 수 있도록 돕는다[7]. 또한, 이러한 평가는 교수자의 편향을 최소화하는 객관적인 AI 기반 피드백을 통해 더욱 신뢰도 높은 평가 환경을 제공한다.

 

**온디맨드 평가를 위한 모범 사례(Best Practices)**가 일부 존재하며, 이와 관련된 사례들은 **부록 2(Appendix 2)**에서 다루고 있다.

4.3. 한계점

이와 같은 **역량 기반 접근법(competency-based approach)**은 유연성을 제공하지만, 몇 가지 한계도 존재한다. 엄격하게 정의된 역량만을 평가의 초점으로 삼을 경우, 학습 과정에서 나타나는 **기술 간의 통합(interdisciplinary integration)**이나 **실제 임상 현장에서 요구되는 총체적 발달(holistic development)**과 같은 학습의 복합성과 미묘한 측면을 간과할 수 있다[26].

 

또한, 이 가이드의 후반부에서 더 다룰 예정이지만, 데이터 수집과 보호(data protection), 개인화 학습에서의 알고리즘 편향(algorithmic bias), 자원 배분 문제(resource allocation)윤리적 쟁점들도 함께 고려되어야 한다.

 

무엇보다 중요한 점은, 이러한 실천이 단지 기술 사용의 욕구에서 비롯된 것이 아니라, 이전에는 실행이 어려웠던 평가 원칙들을 AI를 통해 효과적으로 구현하고자 하는 교육적 목적에서 출발해야 한다는 점이다. 실천은 반드시 이론에 기반해야 하며, 기술 도입 자체가 목적이 되어서는 안 된다.

 

**개인화된 평가(personalised assessment)**를 장려하면서도, **교육의 표준(standards)**을 유지하는 것도 중요하다. AI는 이러한 표준화의 유지를 지원하는 도구로 활용될 수 있다. 이러한 주제는 다음 절에서 다룰 예정이다.


5. 평가의 표준화 (Assessment Standardisation)

**개인화된 평가(personalised assessment)**가 학습의 효과적인 도구로 주목받고 있지만, **표준화된 평가(standardised assessments)**는 여전히 보건의료 교육(HPE)의 핵심적인 기반이다. 이는 학습자 평가가 공정하고 일관되며, 기관 간 비교가 가능하도록 보장하기 때문이다. 또한, 졸업생이 환자 안전을 보장할 수 있는 필수 역량을 갖추었음을 입증하는 수단으로서 중요한 기능을 하며, 보건의료 전문가에 대한 대중의 신뢰를 유지하는 데도 기여한다. 예컨대, **미국의사면허시험(USMLE)**은 기초 의학지식과 임상 기술에 대한 통일된 기준을 설정한다.

 

하지만 최근에는 **GenAI(Generative AI)**의 도입과 함께 **정밀 교육(precision education)**이 발전하면서, **개인의 진로에 맞는 맞춤형 평가(individualised assessment)**가 가능해지고 있다[27]. 이러한 변화는 교육자들에게 표준화된 평가의 일관성과 앞서 논의된 개인화된 평가의 장점 사이에서 균형을 잡도록 요구한다. 이 균형을 적절히 유지하는 것은 매우 중요하며, **역량 평가의 형평성과 일관성 부족으로 인한 실제 또는 인지된 격차(perceived or actual discrepancies)**를 방지하는 데 필수적이다.

**개별화된 평가는 정밀 의학교육(precision medical education)**의 개념과도 맞닿아 있다. 정밀 의학교육은 학습자의 현재 수준과 개별적 요구에 맞추어 학습 경험을 설계함으로써 학습 성과를 극대화하고자 하는 접근법이다[27]. HPE에서 정밀 학습은 평가를 개인화할 수 있는 기회를 제공하는 동시에, **엄격함(rigour)**표준화의 유지라는 과제를 함께 가져온다.


5.1. GenAI의 평가 통합 (Integrating GenAI into Assessment)

USMLE과 같은 표준화 시험은 **고전 검사 이론(Classical Test Theory, CTT)**과 **문항 반응 이론(Item Response Theory, IRT)**에 기반한 엄격한 타당화(validity) 절차를 따른다. 이에는 **광범위한 사전 시험(pre-testing)**과 **문항 동등화(equating)**가 포함되며, 이는 시험 버전 간의 일관성과 비교 가능성을 보장한다.

 

GenAI가 실시간으로 문항을 생성하거나, 정식의 심리측정적 검증 없이 문항을 만들 경우, 이러한 고위험(high-stakes) 상황에서 요구되는 엄격한 기준을 충족하는 데 어려움이 있다. 게다가, 많은 GenAI 알고리즘이 ‘블랙박스(black box)’처럼 작동하여 교육자들이 그 출력 결과의 생성 과정을 이해하기 어렵다는 점도 복잡성을 더한다. 이는 AI가 생성한 문항이 기존의 교육 기준에 일관되게 부합하는지, **의도치 않은 편향(bias)**이 포함되지 않는지를 확인하기 어렵게 만든다.

 

현재 LLM(대규모 언어 모델, Large Language Models)은 아직까지는 사람의 감독 없이 신뢰할 수 있는 고위험 평가 문항을 안정적으로 생성할 수 있는 수준에 도달하지 못했다[28]. 하지만 **고품질의 객관식 문항(MCQs)**을 생성하는 데 도움을 줄 수 있는 무료 도구들이 존재하며[29,30], LLM은 복잡한 의학 지식을 처리하는 데 있어 유망한 능력을 보여주고 있다. 기술의 발전과 더불어 엄격한 검증 절차가 함께 이루어진다면, 가까운 미래에는 LLM이 표준화 평가를 위한 요구 기준에 도달할 수 있을 것이다[31].

 

따라서 HPE 연구자들은 **다양한 LLM 모델과 설정(configuration)**이 문항 생성에서 보이는 **정확성(accuracy)**과 **신뢰도(reliability)**를 평가해야 한다. 이는 아마도 새로운 연구 및 평가 패러다임을 요구하게 될 것이다[32].

 

임상 평가(clinical assessments) 영역에서는, GenAI가 **표준화된 환자시험(OSCE)**을 개선하는 데 기여할 수 있다. 예컨대, 음성-텍스트 변환(speech-to-text transcription) 기술을 활용하여 학습자와 환자 간 상호작용을 자동으로 전사하고, **정해진 평가 기준(rubrics)**에 따라 분석함으로써 **채점자 간 변동성(inter-rater variability)**을 제거할 수 있다[33].

 

또한, **특정 평가 기준에 기반한 데이터셋을 활용하여 LLM을 미세조정(fine-tuning)**할 경우, 채점의 신뢰도가 향상되는 것으로 나타났다[34]. 이러한 LLM이 표준화된 평가 기준과 일치하고, 다양한 기관에서의 채점 신뢰도를 입증한다면, 이는 평가의 **일관성(consistency)**과 **형평성(fairness)**을 획기적으로 높일 수 있다[35].

 

그러나 LLM이 사람 평가자보다 훨씬 높은 신뢰도를 지속적으로 입증하기 전까지는, ‘사람-개입 방식(human-in-the-loop)’ 접근법이 필수적이다. 이는 AI가 문항을 생성하거나 채점할 때 반드시 사람의 감독이 개입되어야 하며, 그 품질과 정확도가 HPE에서 요구되는 엄격한 평가 기준을 충족해야 한다는 의미이다.


5.2. 결론 (Conclusion)

AI가 생성한 문항은 매우 유망하며 실제로 활용될 수 있다. 그러나 이는 반드시 전통적인 심리측정학적 기준을 충족해야 하고, 동시에 **대중의 신뢰(public trust)**를 얻을 수 있어야 한다. 따라서, **고위험 평가(high-stakes assessment)**에서는 AI가 생성한 문항이 반드시 인간에 의해 검토되었는지, 또는 충분한 검증 과정을 거친 기존의 시험 문항을 활용하고 있는지를 확인해야 한다.

이러한 방식만이 **공정성(fairness), 신뢰도(reliability), 형평성(equity)**이라는 HPE 평가의 핵심 가치를 훼손하지 않고, AI 기반 도구들이 교육에 통합될 수 있도록 보장한다. GenAI가 고위험 평가에서 안정적으로 활용되기 위해서는 보다 체계적이고 엄밀한 연구가 필요하지만, **일관성, 형평성, 확장성(scalability)**을 향상시킬 수 있는 잠재력은 매우 크다.

 

현재 시점에서 AI가 가장 적합하게 활용될 수 있는 분야는 저위험 평가(low-stakes assessment), 형성 평가(formative assessment), 그리고 **적응형 학습 환경(adaptive learning environments)**일 것이다. 이 영역에서는 **개인화(personalisation)**가 학습을 효과적으로 지원할 수 있으며, 고위험 평가의 부담이나 위험성 없이 AI의 장점을 누릴 수 있다.

이제 우리는 이러한 주제로 넘어가도록 하겠다.


6. 개인화되고 유연한 형성 평가 (Personalised and Flexible Formative Assessment)

6.1. 서론

보건의료 교육(HPE)이 **개인화되고 유연한 학습(personalised and flexible learning)**을 지향함에 따라, **형성 평가(formative assessment)**는 학습자의 개별 학습 경로를 안내하고 지원하는 핵심 요소로 자리잡고 있다.

 

**총괄 평가(summative assessments)**가 학습 단계 완료나 자격 인증을 결정하는 데 사용된다면, 형성 평가는 지속적이고 위험 부담이 낮은(low-stakes) 평가 방식으로, 학습자가 자신의 진도(progress)를 추적하고, 지식의 공백(gaps)을 파악하며, 맞춤형 피드백을 받을 수 있도록 돕는다.

 

AI의 발전에 따라, 형성 평가는 **더욱 적응적이고 실시간 반응형(adaptive and responsive)**이 되었으며, 학습자의 개별 필요와 학습 속도에 정렬된 피드백을 제공할 수 있게 되었다[4].

 

Balasooriya는 다음과 같은 미래를 상상한다: 학습자들이 AI 튜터와 짝을 이루고, 이 튜터는 학습자의 선호도, 강점과 약점, 진로 정보를 알고 있으며, **학부부터 대학원, 직업 현장까지 평생에 걸쳐 함께하는 개인화 디지털 학습 동반자(Personalized Digital Learning Companions)**가 되어, **단순한 기술 도구가 아닌 동료(partner)**로 작용하는 것이다[36].

 

비록 다소 미래지향적인 비전일 수 있으나, 이는 **프로그램 기반의 개인화된 형성 평가(personalised programmatic formative assessment)**와 맥락을 같이 하며, 학습 여정 전반에 걸친 지속적인 피드백 지원의 필요성을 강조한다.

 

특히 AI 도구를 통합할 때, 여러 교육학적 프레임워크는 개인화된 학습 환경에서의 형성 평가 구현에 유익한 통찰을 제공한다. 예를 들어, 자기조절학습(Self-Regulated Learning, SRL) 원칙은 학습자가 피드백을 통해 학습 전략을 자율적으로 조정하도록 유도하는 평가 설계에 중요한 통찰을 제공한다[37]. 이러한 프레임워크들은 진도 추적만이 아닌, 학습자의 자율성과 개인적 성장을 촉진하는 형성 평가 설계의 중요성을 강조한다.

 

HPE에서 이러한 개념을 실제로 구현하기 위해서는 AI가 중요한 역할을 할 수 있다. 예컨대, **Kıyak et al.**이 제시한 모델처럼[29,30], **개인별 학습 필요에 맞춘 객관식 문항(MCQs)**을 생성하는 AI 모델이 그 예다.

 

**사례 기반 시나리오(case-based scenarios)**를 생성하거나, **학습자의 수행에 따라 콘텐츠 난이도를 조정(adapt)**하는 도구를 활용하면, 교육자는 평가가 학습자의 현재 수준과 긴밀하게 연결되도록 보장할 수 있다. 이러한 **AI 기반 도구의 구체적 예시는 부록 3(Appendix 3)**에서 확인할 수 있으며, 이는 문항 생성뿐 아니라 표적화된 피드백 제공에서도 GenAI의 잠재력을 보여준다.


6.2. AI 기반 형성 평가를 위한 모범 사례 (Best Practices for AI-driven Formative Assessment)

HPE에서 개인화된 형성 평가를 효과적으로 구현하기 위해, 아래와 같은 모범 사례들이 부록 3에 제시된 도구 및 사례 연구를 바탕으로 제안된다:

  1. 인증 역량과 평가의 정렬(Alignment)
    • 학습 목표를 단계별 역량과 인증 요건에 직접적으로 연동하여 명확히 정의한다.
    • 예: Gradescope와 같은 도구는 AI를 활용해 형성 평가와 총괄 평가 간의 **정렬(consistency)**을 자동화함으로써 평가와 피드백을 체계화할 수 있다.
  2. 적응형 평가의 활용(Adaptivity)
    • LabsterQuizlet과 같은 도구는 학습자의 진행 상황에 맞추어 평가를 개인화한다.
    • 예: **가상 환자 시뮬레이션(Virtual Patient Simulation, 부록 3의 사례 1)**은 학습자의 수행 수준에 따라 복잡도를 조정하여 도전성과 지원을 동시에 제공한다.
  3. 즉각적이고 실행 가능한 피드백 제공
    • Socratic by Google 같은 플랫폼이나, **AI 기반의 동료 평가 시스템(부록 3의 사례 3)**은 즉각적이고 표적화된 피드백을 제공한다.
    • 이는 학습자가 개선이 필요한 영역을 신속히 인식하고, 학습 전략을 조정할 수 있게 하여 **자기조절학습(self-regulation)**과 몰입도를 높인다.
  4. AI를 활용한 성찰 학습(Reflective Practice)
    • 학습자가 AI가 제공하는 **유도 질문(prompts)**을 바탕으로 평가에 대해 성찰하도록 유도한다.
    • 예: PeerWise나 **해부학 퀴즈(Anatomy Identification Quizzes, 부록 3의 사례 2)**의 피드백 루프는 학습자들이 지식을 공고히 하고, 향후 전략을 설계하는 데 도움이 된다.
  5. AI를 통한 협력 학습(Collaborative Learning) 촉진
    • PeerWise와 같은 **동료 기반 도구(peer-based tools)**는 학생들이 서로의 작업을 생성하고 평가하는 과정을 통해 협력 학습을 증진한다.
    • AI는 이 과정에서 피드백의 질을 향상시키는 역할을 하며, 심화된 이해와 비판적 사고를 촉진한다.

6.3. 한계점 (Limitations)

개인화된 형성 평가가 지닌 많은 장점에도 불구하고, 실제 구현을 위해 해결해야 할 과제들이 존재한다:

  • 피드백의 일관성과 형평성 유지
    • 개인화된 피드백은 자칫 불균형하거나 일관되지 않은 피드백으로 이어질 수 있으며, 이는 학습자 간 형평성 문제를 야기할 수 있다.
    • 해결 방안: 형성 평가 기준을 명확히 정의하고, 피드백 메커니즘을 표준화하여 모든 학습자가 동등한 수준의 피드백을 받을 수 있도록 해야 한다.
  • 개인화 피드백과 교수자 업무량의 균형
    • 특히 대규모 수업에서, 학습자별 피드백 제공은 교수자의 업무 부담을 크게 증가시킬 수 있다.
    • AI 도구가 기초적 피드백을 자동화함으로써 부담을 완화할 수는 있지만, 미묘하고 복합적인 피드백은 여전히 사람의 판단이 필요하다.
    • 따라서 AI의 효율성과 교수자의 전문성을 균형 있게 통합하기 위해서는 교수자 교육과 지속적 지원이 필수적이다[16].

AI 기반 도구의 발전과 함께, 개인화된 형성 평가는 학습 평가의 방식을 재구성하고 있으며, 이는 학습자의 **자율성(autonomy)**과 **적응력(adaptability)**을 강화하고 있다.

 

그러나 이러한 변화 속에서 기존 평가 방식, 예컨대 Take-home Essay새로운 환경에 어떻게 적응할 것인가, 그리고 복잡한 사고 능력과 학문적 엄밀함을 어떻게 유지할 것인가 하는 과제를 안고 있다. 이제 우리는 이러한 맥락에서 Take-home Essay의 역할을 살펴보는 다음 절로 넘어가겠다.


7. Take-home Essay

Take-home essay 또는 **서면 과제(written assignment)**는 보건의료 교육(HPE)에서 학문적 작업의 기초를 형성하는 핵심 요소였다. 이 과제는 대개 입학 지원서와 같은 초기 글쓰기에서 시작하여, 이후 다양한 연구 프로젝트로 이어진다. 학습자의 수준과 관계없이, 이들 서면 과제는 일반적으로 다음과 같은 잘 정립된 과정을 따른다[38,39]:

  • 질문 설정
  • 기존 지식 통합
  • 인용 및 참고문헌 정리
  • 새로운 정보(예: 실증 자료) 추가
  • 논의 및 결론 도출

이러한 글쓰기 과정은 **Bloom의 인지 영역 분류(Bloom’s Taxonomy)**에서 말하는 **고차원적 사고(high-level thinking)**를 필요로 하며, 학습자가 **자료, 데이터, 아이디어를 통합하여 스스로 주장을 구성하고 답을 만들어내는 구성주의(Constructivism)**의 학습 모델과도 일치한다[40,41].

 

그렇기 때문에 ChatGPT 3.5의 등장과 함께, 단순한 ‘프롬프트(prompt)’ 입력으로 새로운 텍스트 결과를 생성할 수 있게 되면서[42], 아마도 AI가 교육 평가에 미친 가장 큰 충격은 바로 이 Take-home essay의 의미에 있었다.

 

AI의 ‘hallucination’(사실 왜곡 생성) 문제가 존재함에도 불구하고, 학습자와 교육자 모두는 LLM의 등장이 Take-home Essay를 영원히 바꿔놓았다는 사실을 깨달았다. 그에 대한 반응은 대개 부정적이었으며, 다음과 같은 조치가 이어졌다:

  • LLM 사용 금지[43]
  • 인터넷 접속 없이 손글씨 초안 작성 요구[44]
  • 교수자의 사직[45]
  • AI 탐지 소프트웨어의 광범위한 도입 및 LLM을 사용한 것으로 의심되는 과제에 대해 낙제 처리[46]

이 모든 반응에는 공통된 목적이 있었다: Take-home Essay 자체를 유지하려는 노력. 그러나 이러한 대응 속에서 우리는 Take-home Essay의 본래 목적을 잊어버렸는지도 모른다. 즉, ‘에세이를 쓰는 것 자체’가 목적이 아니었다.

 

그렇다면 Take-home Essay의 진정한 목적은 무엇일까?
이에 대한 힌트는 Mumm 교수의 발언에 있다. 그는 학생 전원에게 X(미완성) 학점을 부여하며 이렇게 말했다:

“내가 평가해야 하는 것은 네가 배운 것이지, 컴퓨터가 배운 것이 아니다.”
“I have to gauge what you are learning[,] not a computer.” [46]

 

모든 평가는 결국 ‘학습이 이루어졌는가’를 측정하기 위한 수단이다. 그리고 지금까지는, 구성주의적 특성 덕분에 Take-home Essay는 복잡한 사고와 이해를 측정하는 적절한 방식이었다. 하지만 한 가지 결정적인 약점도 있었다:

대부분 탐지 불가능한 부정행위가 가능하며, 이는 시간과 돈으로 조절 가능하다는 점이다.

 

LLM의 등장은 이 약점을 명확히 드러냈고, 두 가지 중대한 문제를 만들어냈다:

  • 첫째, Take-home Essay가 학습 측정 도구로서의 의미를 상실했다는 점에서, AI 사용을 금지하는 교수자들의 판단은 타당하다.
  • 둘째, Take-home Essay에서 AI 사용을 최소화하라고 요구하는 것은, 결국 AI 활용 능력이 요구되는 현실 세계를 준비하는 데 실패하는 결과로 이어질 수 있다.

7.1. 해결책 (Solutions)

기술적 해결책으로는, 현재 사용 중인 AI 탐지 기술과 유사한 방식으로 **AI 기능을 허용하되 사용 기록을 추적하는 폐쇄형 글쓰기 도구(closed writing tools)**가 있다.

하지만 이들은 아직 초기 단계이며,

  • 비용이 높고,
  • 속이기 쉽고,
  • **학습자의 브레인스토밍이나 초안을 과도하게 감시(over-surveillance)**하게 될 수 있으며,
  • 윤리적 문제까지 제기된다.

또한, AI 프롬프트 설계 교육용으로는 활용될 수 있으나, 기계가 제공하는 리포트와 통계에 과도하게 의존하는 교사를 양산할 우려도 있다. (이는 일부 교육자가 **‘유사도 검사기(similarity-checker)’를 ‘표절 탐지기(plagiarism-checker)’로 오해하는 것과 유사하다.)

교육학적 해결책은 오히려 AI를 배제하거나 최소화하지 않고, AI를 수용한 상태에서 학습을 평가하는 새로운 방법을 모색하는 것이다.
우리는 **Essay 자체를 다시 생각(re-think)**할 필요가 있다:

  • Essay를 **고립된 결과물(single, stand-alone product)**로 보지 말고, **평가 과정의 한 구성 요소(component)**로 바라보자.
  • 학습자를 **저자(author)**로 보기보다는, **연출자(director)**로 보고, 그들이 AI 기반의 다중양식(multimodal) 연구 및 입력 시스템을 활용하여
    • 텍스트,
    • 영상,
    • 오디오 등
      다양한 출력물을 생성하도록 하여,
      문제 해결 혹은 질문에 대한 응답을 통해 자신이 개념을 이해하고 통제하고 있음을 증명하게 하자.

즉, Essay는 더 큰 전체의 일부가 된다. 물론 이를 위해서는 평가 방식 자체의 변화가 필요하며, Essay가 학술 문헌과 긴밀히 연관되어 있는 점을 고려할 때, 이는 결국 학술지의 연구 논문에 대한 인식 변화까지도 요구할 수 있다. 하지만 이는 또 다른 가이드에서 다루어야 할 주제이다.

 

본 가이드에서는 이제 AI 활용을 포함한 새로운 평가 방식 설계로 넘어간다. 이는 다음 절에서 더 자세히 논의될 것이다.


8. 기타 평가 방식 (Other Assessment Types)

AI가 기존 에세이 평가의 유효성을 약화시켰다는 점은, 우리가 전통적인 평가 방법 자체를 재고해야 할 필요성을 강하게 시사한다. 기존의 **객관식 문항(MCQs)**이나 **단답형 시험(short-answer tests)**과 같은 방식은 고차원적 사고(higher-order thinking) — 즉, 분석(analysis), 적용(application), 평가(evaluation), 창의적 생성(creation) —을 효과적으로 측정하기 어렵다.

 

또한, 이러한 전통적 평가들은 대개 학습자의 수행을 일시적으로 스냅샷처럼 포착하는 데 그치며, **학습의 전체적 과정(process)**은 간과된다[47]. 더불어, 평가 방식이 일률적이기 때문에 학습자의 다양한 배경을 반영하지 못하며, **현실의 진짜 과제(real-life authentic tasks)**나 상황을 반영하지도 못한다[47].

 

학습자가 GenAI를 사용할 것이라는 가정 하에, 평가 설계는 비윤리적 사용을 최소화하고, 동시에 AI의 장점을 전략적으로 활용할 수 있어야 한다. 즉, **대안적 평가(alternative assessment)**는 학습자가 문제를 해결하기 위해 어떤 정보와 기술이 필요한지를 스스로 결정하게 하고, 이는 현실의 상황과 제약 조건을 모사하는 것이어야 한다[48].

 

이러한 평가 방식은 학습자가 **실용적 기술(practical skills)**을 개발하고, 과정을 이해하며, 분야별 행동을 내면화하고, 기존 지식과 새로운 개념을 연결하도록 도와야 한다[48].

 

**구성주의(Constructivism)**는 이러한 **진정성 있는 평가(authentic assessment)**를 지지한다. 구성주의는 학습자를 현실 과제에 능동적으로 참여하는 지식 구성자로 보고, 복잡한 문제 해결력깊이 있는 이해를 요구하는 평가를 강조한다[49,50]. 또한, 보편적 학습 설계(Universal Design for Learning, UDL) 역시 대안적 평가를 지지하는데, 이는 활동의 **관련성(relevance), 가치(value), 진정성(authenticity)**을 최적화할 것을 권장한다.


8.1. 사례 (Examples)

학습자는 다음과 같은 방식으로 학습 성과를 입증할 수 있으며, 이 과정에서 GenAI는 기능을 통합하거나 비윤리적 사용의 여지를 줄이는 방식으로 활용될 수 있다:

  • 주석형 포트폴리오(Annotated portfolio): GenAI는 콘텐츠 요약, 피드백 제공, 문법 교정 등의 역할을 수행할 수 있다.
  • 가상 환자(Virtual patients): GenAI는 진단 결과, 시나리오, 대화 시뮬레이션을 생성하여 학습자에게 개별화된 형성 피드백을 제공할 수 있다[51]. (예: Dartmouth의 Patient Actor App 참고[52])
  • 인포그래픽 또는 포스터(Infographic or Poster): GenAI는 개요 작성, 레이아웃 디자인, 이미지 생성, 피드백 제공에 활용될 수 있다.

GenAI를 활용한 **형성 평가용 대안적 평가의 다양한 예시는 부록 4(Appendix 4)**를 참조하라.


8.2. 모범 사례 (Best Practices)

GenAI를 통합한 **대안적 평가(alternative assessment)**는 다음과 같은 **모범 사례(best practices)**를 준수해야 한다:

  • 현실과 유사한 시나리오를 반영하고, 실무 능력과 분야별 행동을 함양하며, 분석·평가·창출과 같은 고차원적 사고를 강조하는 평가를 설계하라. 이들은 GenAI만으로는 쉽게 대체할 수 없는 부분이다.
  • GenAI의 기능을 포함하는 평가를 설계할 때, 다음을 명확히 해야 한다:
    • GenAI를 언제, 어떻게 사용할 수 있는지
    • 소속 기관, 교육과정, 학과의 가이드라인에 부합하는지
    • 학습자가 실제 직무 환경에서 GenAI를 어떻게 활용할 수 있을지 고려하라. 예: 브레인스토밍 도구, 편집자, 튜터 역할
  • **GenAI 사용을 반영한 루브릭과 모범 예시(rubrics and exemplars)**를 활용하라.
    • 예: 투명성을 강조하기 위해 AI 사용 내역을 문서화하도록 요구
    • AI 결과물에 대한 비판적 평가와 검증을 장려
    • 다음 프레임워크를 참고:
      🔗 How to Use AI Responsibly EVERY time
      이는 GenAI를 책임 있게 사용하는 **기억하기 쉬운 약어(Mnemonic)**와 구조를 제공하며, 우리가 기술 사용자로서 갖는 책임을 상기시켜준다.

8.3. 한계점 (Limitations)

대안적 평가는 많은 이점을 제공하지만, 다음과 같은 실행상의 어려움이 존재한다:

  • 설계와 실행에 많은 시간이 소요되며,
  • 전통적이지 않은 방식이라는 이유로 학습자 저항이 있을 수 있다.
  • 특히 GenAI 활용에서는,
    • 편향(bias),
    • 형평성(equity),
    • 접근성(access) 문제를 비판적으로 다루어야 한다.
    • 유료 버전의 사용은 학습 기회의 불균형을 초래할 수 있다.

교육자는 또한 GenAI의 가치와 한계를 기관 측에 설명하고 납득시키는 역할을 수행해야 하며, 이를 통해 **교육적 진실성(educational integrity)**을 유지한 상태로 책임 있는 사용이 이루어지도록 해야 한다.


9. AI 튜터로서의 역할 (AI as Tutor)

공정하고 표준화되며 개인화된 형성 평가를 제작하는 일은 매우 많은 자원을 요구한다. 이때 **지능형 튜터 시스템(Intelligent Tutoring Systems, ITS)**을 통해 AI는 개인화된 학습(personalised learning), 적응성(adaptability), 그리고 학습자 맞춤형 평가 설계의 가능성을 열어준다.


9.1. 장점 (Advantages)

ITS를 활용한 AI는 개인화 학습 활동, 적응형 콘텐츠 제공, 자동화 및 실현 가능성을 통해 형성 평가에 중대한 영향을 미칠 수 있다. 이는 학습자의 **자기조절학습(self-regulated learning)**을 촉진하고, 학습 성과를 예측할 수 있게 해준다[53,54]. 또한, AI는 학습자에게 **실시간 피드백(real-time feedback)**을 빈번하게 제공함으로써 특정 기술을 개발하고 학습 성과를 향상시키며, 이는 학습 효과 전반에 의미 있는 혜택을 제공한다[55,56].

 

AI 기반 ITS는 학습자의 수행을 분석하여 그들의 강점과 약점을 인식하고, 학습 선호도와 속도에 맞추어 적응할 수 있다. 따라서 학습에 어려움을 겪는 학생에게는 보충, 우수한 학생에게는 도전적인 과제를 제공함으로써 학습 다양성을 수용할 수 있다.

 

또한, ITS는 학습자의 지식 수준에 맞추어 **복잡하거나 낯선 개념을 간결하게 설명함으로써 불필요한 인지적 부하(extraneous load)**를 줄여준다[57].

 

형성 평가에 ITS를 활용하면 다음과 같은 방식으로 **데이터 기반 의사결정(data-driven decision-making)**을 통해 학습자의 성장을 도울 수 있다:

  • 심적 표상(mental representations)의 변화 유도
  • 새로운 기술 학습
  • 자율성과 감독의 필요성을 구분
  • **탐색(discovery), 이해, 성찰(reflection), 복습(review)**을 통한 내용 내면화[47]

이러한 시스템을 성공적으로 활용하기 위해서는, 앞서 논의한 것처럼, **교육내용에 대한 교수자의 교육학적 전문성(Pedagogical Content Knowledge)**이 필수적이다. AI는 **대규모 강의실에서 동료 피드백(peer feedback)**을 제공하는 데에도 활용될 수 있다. 이는 적응형 플랫폼을 통해 고차원적 학습을 실현하는 현실적인 솔루션이 된다[47]. 또한, AI가 수행하는 **분석과 평가(analytics)**는 지속적인 학습을 촉진하고, 학습자의 진전과 도전 과제를 장기적으로 추적할 수 있는 능력을 제공한다. 

 

특히, **가상 환자(Virtual Patients, VP)**는 진짜 환자-의사 상호작용을 시뮬레이션하여, 학습자가 **상호작용적 질문(interactive questioning)**을 통해

  • 임상 추론(clinical reasoning)
  • 관리적 사고(management reasoning)
    와 같은 통합적 사고 기술을 연습할 수 있도록 도와준다.

이로써 **맞춤형 피드백 루프(feedback loop)**가 형성되어, 학습자는 자신의 임상적 추론 능력에 대한 **자기 인식(self-awareness)**을 키우고, 사례마다 전략을 반성하고 개선해나갈 수 있게 된다.


9.2. 사례 (Examples)

실제 사례로는 다음과 같은 것들이 있다:

  • Virtual Operative Assistant [58]
  • AI Patient Actor [59]

(자세한 예시는 부록 1 Appendix 1 참조)

이러한 **시뮬레이션 환자(simulated patients)**는 학습자가

  • 문진(history-taking)
  • 임상 추론(clinical reasoning)
  • 진단적 의사결정(diagnostic decision-making)
  • 의사소통 능력(communication skills)
    현실적인 환경에서 연습할 수 있도록 하며,

AI는 대화 전사(transcript)를 평가 루브릭(rubric)에 따라 분석하여, 즉각적 피드백을 제공함으로써 형성 평가를 가능하게 한다.

고급 프로그래밍 기술이 없거나, 시뮬레이션 환경을 좀 더 통제하고 싶은 교수자의 경우,

  • **Custom GPTs(사용자 정의 GPT)**를 활용하여
  • 간단하고 효과적인 ITS를 구현할 수 있다.

이러한 시스템은

  • 실시간 상호작용 유도,
  • 사용자 친화적 인터페이스를 통한 집중력 유지,
  • 복잡한 개념 명확화가 가능하다[51].

또한 **맞춤형 설정(customisability)**이 가능하므로,

  • 교수자는 응답을 개인화하고,
  • 편향(bias)과 허위정보(hallucination)를 줄이며,
  • 다국어 번역 및 확장 가능한 오픈 액세스 솔루션을 제공할 수 있다.

9.3. 한계 (Limitations)

모든 시뮬레이션과 마찬가지로, AI 튜터 및 가상 환자는 현재로서는 아직

  • 실제 환자와의 상호작용,
  • 미묘한 감정적 반응,
  • 복잡한 사회적 단서,
  • 현실 세계의 예측 불가능성완전히 재현하지는 못한다.

따라서 이는 기초 역량 개발용 보조 도구로 사용되어야 하며, 환자와의 실제 대면 경험을 대체해서는 안 된다.

또한,

  • **학습 분석(learner analytics)**은 학습자의 프라이버시와 안전에 대한 우려를 야기할 수 있으며,
  • 시스템이 **학습자의 정서적 요구(emotional needs)**에 적응하는 능력 역시 아직 충분하지 않다.

**AI를 활용한 동료 평가(peer assessment)**는 아직 초기 단계이며,

  • 평가자 간 **합의 기반 접근법(consensus approach)**과
  • 가중치 집계(weighted aggregation) 방식이 더 발전되어야 한다.

결국, AI 튜터가 중요하긴 하지만, 가장 중요한 존재는 학습자 그 자체다. 이러한 인식을 바탕으로, 이제 다음 주제인 **“AI 학습자(AI learner)”**로 넘어가도록 하겠다.


10. 학습자로서의 AI (AI as Learner)

AI는 학습자에게 더 많이 아는 타자(More Knowledgeable Other) 또는 **피드백 제공자(feedback source)**로서 특히 유용한 역할을 할 수 있음이 밝혀졌다.

 

러시아 심리학자 **레프 비고츠키(Lev Vygotsky)**가 처음 제안한 개념에 따르면, 더 많이 아는 타자와의 대화는 학습에 매우 가치 있는 경험이다[40]. 공통의 주제를 두고 학습자들 간에 나누는 대화는 서로의 지식과 이해를 확장시키는데, 이는 대화 참여자 간에 **공통된 이해 기반(common ground)**이 있다는 전제 하에서 이루어진다.

 

AI는 이처럼 그룹 내에서 토론을 구성하고 확장하는 데 적합한 위치에 있다. 또한 학습자는, 자신의 기존 지식과 새로운 아이디어 사이에 **인지적 불일치(dissonance)**가 존재함을 인식하고, 그 차이를 설명하기 위해 자신의 사고를 **조직화하여 이야기(story)**로 구성할 때 가장 효과적으로 학습한다[60]. **AI는 튜터(tutor)나 학습 동료(fellow learner)**의 형태로 이러한 과정을 지원할 수 있다.


10.1. 사례 (Examples)

  • **챗봇(chatbot)**은 현재 학습 중인 자료의 핵심 개념을 포괄하는 **학습 가이드(study guide)**를 빠르고 쉽게 생성할 수 있다.
    관련 문서를 챗봇에 붙여넣으면 이를 분석하고 요약할 수 있으며, 이 데이터를 기반으로 **개념지도(concept map)**를 제공할 수도 있다.
    • 텍스트 형태로 제공되기도 하고 (예: ChatGPT),
    • 노드(node)를 추출해 마인드맵 도구(예: Coggle, Text2MindMap)에 붙여넣는 방식으로도 활용된다.
    • 개념지도는 형성 평가나 복습 용도로 활용할 수 있다.
  • AI는 학습자 간의 협업(collaboration)을 강화할 수 있다.
    • 예: Zoom과 같은 스트리밍 플랫폼, 또는 Stormboard, Conceptboard, Coggle과 같은 화이트보드 플랫폼에서 AI를 함께 활용
    • 이러한 소프트웨어는 원격 협업용으로 설계되었으나, 실제로는 학생들이 하나의 테이블에 모여 노트북으로 화이트보드를 공동 편집하며 학습한다. → AI가 학습 도구이자 학습 동료로 참여하는 형태
  • AI의 또 다른 강력한 기능은 텍스트에 대해 질문하고 대답하는 능력이다.
    → 이를 통해 학습자는 자신의 지식 또는 의사소통 능력에 대한 피드백을 받을 수 있다.
    • 예: ChatGPT에게 고혈압(hypertension) 환자의 병력 및 신체소견을 생성하도록 요청하고,
      → 그 다음에는 ‘그 환자 역할’을 하도록 하여 학습자와 상담을 진행
      → 마지막에는 학습자의 의사소통 기술에 대한 비판적이고 건설적인 피드백을 요청할 수 있다.
  • 또 다른 가능성은 **AI 언어모델 간의 토론(AI LLM debate)**을 변형하여
    → AI가 임상 사례에 대해 상반된 입장에서 토론하게 한 뒤,
    → 학습자들이 그 토론을 분석하고 각각의 주장의 강점과 약점을 평가하게 하는 방식이다[62].
    이는 학습 도구이자 평가 도구로 활용 가능하다.

10.2. 모범 사례 (Best Practices)

이 분야의 대부분의 문헌은 AI를 정규 시험 대비 지원 도구로 사용하는 데 중점을 둔다.
대표적인 예로 Kung 외 연구자들은,

  • ChatGPT 모델이 USMLE Step 1, 2, 3 수준의 질문을 생성하고 답할 수 있으며,
  • 선택한 답에 대해 합리적인 설명까지 제시할 수 있음을 보여주었다[63].

하지만, AI 활용에서 가장 중요한 핵심은 학습자와 교직원 모두가 AI를 신중하게 사용하도록 훈련받는 것,
그리고 AI가 제공하는 정보에 대해 적절히 비판적(critical) 태도를 유지하는 것이다[64].


10.3. 한계 (Limitations)

AI 기반 학습의 주요 한계는, 결국 학습자가 사람(교수, 동료 학습자, 환자)과 함께 실제 현장에서 상호작용해야 한다는 현실과의 괴리다. 의료는 사람을 상대로, 사람과 함께 수행되는 활동이기 때문이다.

또한 다음과 같은 문제점도 있다:

  • 학습자가 잘못된 상담 습관을 형성하거나,
  • 비판적 사고 능력이 충분히 개발되지 못할 가능성
    → 챗봇은 오류나 오해를 지적할 수 있지만, 환자 곁에 있는 교수나 의사가 지적할 때보다 훨씬 무시하기 쉬운 존재이다.

11. 역량 기반 평가 (Competency-based Assessment)

역량 기반 교육(Competency-based Education, CBE) 또는 **성과 기반 교육(Outcomes-based Education, OBE)**은 학습자가 해당 분야에서 졸업생에게 기대되는 지식, 기술, 태도를 갖추었는지를 평가를 통해 판단해야 한다는 믿음에서 출발한다[25, 65]. 따라서 평가란, 학습자가 미래의 실제 업무 환경에서 기대되는 역할을 수행할 수 있는지를 검증하는 방식이어야 하며, 이는 **진정성(authenticity)**을 띤 평가여야 한다[66].

 

그러나 CBE는 실행이 매우 어렵고, 자주 불완전한 형태로 적용된다. 특히 **의료 전문가 교육(Health Professions Education, HPE)**에서는 복잡하고 예측 불가능하며, 임상 환경의 높은 요구로 인해 역량 기반 교육과 평가의 실행이 특히 어렵다는 점이 반복적으로 지적되어 왔다[67].

 

이러한 문제를 극복하기 위해, **Core Components Framework(핵심 구성요소 프레임워크)**가 개발되었다[13]. 이 프레임워크는 다음과 같은 내용을 요구한다:

  • **예상되는 성과 역량(outcome competencies)**에 대해 구성원 간 합의를 이루고,
  • 이를 점진적이고 순차적인 학습 경험을 통해 전달하며,
  • 특정 역량 획득에 초점을 둔 교수법을 실행하고,
  • **작고 빈번하며 비교적 저위험(low-stakes)**인 **형성 평가(formative assessment)**로 구성된 **프로그램형 평가(programmatic assessment)**를 활용하는 것이다[6,7].

최근에는 역량 기반 교수-학습과 평가에 대한 관심이 증가하고 있다[68,69].


11.1. 사례 (Examples)

이 프레임워크의 핵심 구성요소 중 세 가지는 특히 AI 활용에 적합하다.

11.1.1. 맞춤형 학습 경험 (Tailored learning experiences)

형성 평가의 가장 큰 가치는 학습자의 수준과 성취도에 맞춘 개별화된 피드백이다.
이는 마치 소셜 미디어가 사용자의 반응에 따라 영상이나 게시물을 추천하듯,
AI 역시 학습자의 역량 수준을 기반으로 학습 자료, 튜토리얼, 교육 개입을 추천할 수 있다[70,71].

11.1.2. 역량 중심 수업 설계 (Competency-focused instruction)

형성 평가는 또한 정규 수업 내용을 조정하는 데 활용될 수 있다. 예: 피드백 대화를 요약하고 정리하여 평가 자료로 재구성하거나[72,73], 교수자가 학습자의 학습 필요를 파악하고, 피드백의 질을 향상시키는 데 도움을 줄 수 있다[74]. 또한, 인간 관찰의 대안으로 점차 활용되고 있다. 여러 연구에서는 시뮬레이터(simulators)를 통해 학습자의 수행을 모니터링하고, 청각, 시각, 운동 감각 입력을 기반으로 실시간 피드백을 제공하는 방식이 소개되었다[4].

11.1.3. 프로그램형 평가 (Programmatic assessment)

프로그램형 평가는 다양한 평가 유형의 통합을 요구한다[75,76]. 이 과정에서 AI는 다음을 지원할 수 있다:

  • 임상 추론(clinical reasoning) 능력 평가
  • 데이터 분석을 통한 피드백 제공
  • 검토 시간 단축
  • 진급 대상자 혹은 위험 학생 식별

11.2. 모범 사례 (Best Practices)

현재까지 HPE의 평가 분야에서 AI 활용은 제한적이다[5]. 효과적인 도구 개발을 위해서는 **교육 데이터의 2차적 활용(secondary use)**이 필요하며, 이는 모델 학습에 필수적이다.

이와 관련된 모범 사례(best practices)는 다음과 같다[77]:

  • 학습자가 개발 과정에 참여하도록 보장할 것
  • AI 도구의 목적과 기능을 명확하게 규정할 것
  • 도구의 품질을 지속적으로 평가할 것
  • 학습자가 수정하거나 행동으로 옮길 수 없는 지표(예: IQ, 고정된 인구통계)에 집중하지 않을 것

11.3. 한계점 (Limitations)

첫 번째 한계는, **중요한 평가(high-stakes event)**에서 AI가 도출한 결론이 정확한지 확인해줄 인간 평가자의 존재가 반드시 필요하다는 점이다.

두 번째 한계는, 온라인에 게시되는 민감한 데이터를 AI가 학습하게 될 경우, 접근성과 윤리 문제가 발생할 수 있다는 점이다[78].
특히 **LLM(Large Language Models)**에 민감한 데이터를 제공하는 행위는 위험을 가중시킬 수 있다는 우려가 있다[77].


12. 어려운 영역과 윤리적 쟁점들 (Difficult Areas and Ethical Issues)

12.1. 서론 (Introduction)

AI는 평가자(assessors)에게 다양한 도전과제를 가져올 것이다. 이는 특히, 학습자가 교육에서 AI를 활용하기 시작하는 시점에서 더욱 두드러지며, 학습자의 반응은 매우 빠르고 광범위했다는 점이 그 증거다[17,18].

 

많은 대학에서 이미 **Generative AI(GenAI)**에 대한 **대학별 정책(university-specific policies)**을 마련해두었지만[79–81], 이들 정책은 **보건의료인 교육(Health Professions Education, HPE)**에 특화되어 있지 않거나, AI 분야의 최신 발전 상황을 충분히 반영하지 못하는 경우도 있다.

 

따라서 HPE 교육자들은 AI 관련 쟁점들을 인식하고, 이들이 발생할 때마다 주도적으로 대응하는 것이 중요하다. AI가 새로운 방식으로 교육에 적용됨에 따라, HPE 평가에서의 AI 관련 윤리적 우려사항 목록은 계속 증가하고 있다.

 

이미 제기된 문제들도 존재하며, 본 절에서는

  • 일반적으로 식별된 주요 과제들을 소개하고,
  • **모범 사례(best practices)**를 함께 제시하고자 한다.

12.2. 정보 출처 문제 (The Source Information)

**Generative AI(GenAI)**와 관련된 가장 논쟁적인 이슈 중 하나는, AI가 훈련될 때 사용되는 **원천 데이터(source data)**의 문제이다. 대부분의 경우, **공개적으로 접근 가능한 자료를 대규모로 수집(harvesting)**하여 훈련 데이터로 삼는데, 이 과정에서 **출처를 밝히거나 보상(compensation)**을 제공하지 않는 경우가 많다.

 

이러한 자료들은 HPE 평가 전반에서 유용하게 활용될 수 있는 콘텐츠이기 때문에, 향후에는 이 자료를 제공한 집단에 대해 보상을 제공해야 한다는 압박이 생길 수도 있다. 그러나, **대형 언어 모델(Large Language Models, LLMs)**과 같은 많은 AI 모델에서는 데이터 출처를 추적하는 것이 불가능하며, 그 결과, 교육기관들은 윤리적으로 본질적으로 문제가 있는 시스템에 의존할 수밖에 없게 된다.

참고로, **전통적인 AI 시스템(예: Clinical Decision Support Systems)**은 정보의 출처를 명시하는 경우가 많아, 교육기관이 해당 기업과 함께 윤리적 검토를 수행할 수 있다. 반면, GenAI는 이 투명성이 부족하다.


12.3. 편향 (Bias)

AI 알고리즘은 기존 데이터셋에 기반하여 학습된다. 그런데 이 데이터셋은 경우에 따라 **차별적(discriminatory)**이거나 **편향(biased)**될 수 있다[16]. 편향이 발생하는 원인은 다양하지만, 예를 들어, 어떤 인구 집단은 자발적으로 자신의 데이터를 학습 데이터로 공유하지 않기로 선택할 수도 있다. 이 경우, 해당 인구 집단과 관련된 미묘한 사회문화적 특성에 대한 이해 부족이 의료 전문가의 역량 부족으로 이어질 수 있다.

 

문제가 더 심각해질 수 있는 지점은, AI가 시험 문항을 생성하는 경우이다. 편향된 학습 데이터를 기반으로 한 문항이 시험에 포함될 수 있으며,  그 결과, 시험 문항이 특정 집단을 부정확하게 대표하거나, 사회구조적으로 소외된 커뮤니티에 대한 고정관념(stereotype)을 강화하는 결과를 초래할 수 있다[82]. 또한, 학습자 데이터가 AI 모델 개발이나 확장에 어떻게, 언제 사용될 수 있는지에 대해 명확히 고지하는 것은 → 학습자와의 신뢰(trust)를 유지하고, → 윤리적 데이터 사용을 보장하는 데 필수적이다[77].

 

12.4. 교수자의 AI 사용 (Faculty Use of AI)

교수자가 형성 평가(formative assessment) 또는 총괄 평가(summative assessment)에서 AI 시스템을 사용하는 경우, 여러 가지 쟁점이 발생한다:

  • 사용의 투명성(Usage transparency): 대학이 학습자에게 GenAI 사용을 투명하게 밝히도록 요구하듯, 교수자의 AI 사용도 투명하게 이루어져야 한다. 일부 기관은 학습자와 교수자 모두에게 'opt-out(선택적 제외)' 권한을 제공할 수도 있다.
  • 학습자 프라이버시(Learner Privacy): 학습자 데이터는 HPE 기관에 매력적인 자원이다[77]. 자연어처리(NLP) 모델은 이미 서술형 평가 데이터를 세부 역량(sub-competencies)별로 정리하거나[83,84], 학습자의 성과를 예측하는 데 활용되고 있다[85].
    하지만 이들 모델의 타당도는 아직 결론이 나지 않았으며, 더 시급한 문제는 사전 동의 없이 학습자 데이터를 모델 훈련에 사용하는 것이다. → 이를 방지하려면, 기관 라이선스, API(Application Programming Interface), 또는 학습 방지 설정을 비활성화하는 방식으로 문제를 줄일 수 있다. 만약 이조차 불가능하다면, 반드시 충분한 사전 동의(informed consent)가 필요하다.
  • 응답 검증(Response validation): GenAI의 응답은 정확성, 적절성, 평가 지침 및 모범 사례와의 일치 여부를 반드시 검증해야 하며, 특히 임상 관련 작업의 경우 더욱 중요하다. **고위험 평가(High-stakes assessment)**에서 AI 도구를 사용하는 것에 대해, 타당성 검토와 연구가 훨씬 더 적극적으로 이루어져야 한다.
  • 이의 제기 절차(Appeals): AI 관련 문제에 대응할 수 있도록, 이의 제기 절차를 재설계해야 한다.

12.5. 생성형 AI 탐지 (GenAI Detection)

이 가이드 앞부분에서 설명했듯, 학습자들은 AI를 빠르게 수용하고 있으며, AI는 학습자의 노력 없이도 높은 수준의 반성적 글(reflective writing)을 생성할 수 있어, 능동적 교육 방법론(active pedagogy)을 훼손할 수 있다[86].

 

이에 따라 AI 탐지기(AI detectors)가 개발되었지만, 다음과 같은 이유로 사용을 피해야 한다:

  • AI 탐지기는 정확하지도, 신뢰할 수 있지도 않다[87,88]. 학습자가 정교한 프롬프트(prompt)나 Twixify 같은 humanising 도구를 사용할 경우, 탐지기는 오탐 확률이 커지며, 대부분 ‘사람이 쓴 것’으로 잘못 분류하는 경향이 있다[88].
  • 특히 비영어권 학습자는, AI 탐지기에 의해 자신의 글이 AI가 작성한 것처럼 잘못 분류될 가능성이 높다[89].
  • AI 사용을 금지하는 것은, 의미 있는 교육 도구로서의 가능성을 차단하는 결과를 낳는다[90].

12.6. 학습자의 AI 사용 (Learner Use)

교육기관이 학습자에게 AI 도구 사용을 요구하거나 권장하는 경우, 다음과 같은 문제들을 고려해야 한다:

  • 학습자 AI 사용 관련 정책이 반드시 수립되어야 하며, 교육 프로그램 내에서의 적절한 활용 범위를 명확히 해야 한다.
  • 교수자는 AI 사용 능력을 정의하고, 책임감 있는 사용(accountability)을 모델링하여, 공유된 이해(shared understanding)를 형성해야 한다.
  • 시스템을 악용하는 행위(gaming)에 주의해야 한다. 예전부터 학습자들은 평가자의 성향에 맞춰 답안을 조정해왔으나, 이제는 공개 AI 시스템의 특성을 분석하여 AI가 선호할 답변에 맞춰 작성하는 현상이 나타날 수 있다.
  • 접근 형평성(Access equity): 모든 학습자에게 공정한 접근이 보장되어야 하며, 이는 AI 훈련, 라이선스, 하드웨어 등 인프라 전반을 포함한다[16, 91].
  • 의존과 과의존(Dependency and Over-reliance): 미래의 보건의료인은 AI 도구를 능숙하게 사용할 수 있어야 하지만, 동시에 AI가 없는 상황에 대처할 수 있는 역량도 갖춰야 하므로, AI 의존성을 방지할 수 있는 평가 설계가 필요하다.

12.7. 제도적 한계 (Limitations)

AI 기술의 발전 속도를 고려할 때, 교육기관이 그에 맞춰 정책을 지속적으로 업데이트하는 것은 매우 어렵다.

AI 도구가 범용화되고, 훈련 데이터의 중요성이 커질수록, 교육 평가 데이터를 공유할 때의 모범 사례(best practices)를 반드시 준수해야 한다. 교수자와 학습자 모두, GenAI가 만들어내는 불확실성과 불완전성개방적이고 정직한 태도로 받아들이는 실용주의적 관점(pragmatic view)이 요구된다[92].


12.8. 미래 전망 (The Future)

2022년 11월, ChatGPT 3.5의 등장 초기에는 교수자들이 AI에 매우 부정적인 반응을 보였지만, 시간이 지나면서 그 태도는 점차 포용적이며 교육 중심적인 방향으로 변화하였다. 지금은 대전환이 마무리되고, 안정된 새로운 환경에 적응을 시작해야 하는 시기이다.

 

이 가이드는 HPE 평가에서의 AI 활용에 초점을 맞추고 있으나, 그보다 더 넓은 윤리적 과제는 다가오는 AI 변화에 대응하는 것이다. 우리는 지금부터 AI 기술 발전 곡선의 가파른 상승 단계에 진입하고 있으며, 이는 앞으로의 HPE 평가 전반에 큰 영향을 미칠 것이다.

 

미래가 AGI(Artificial General Intelligence)로 귀결될지 여부는 논쟁의 여지가 있으나[22], 분명한 것은 변화의 속도가 우리가 대응할 수 있는 범위를 초과할 것이라는 점이다. 따라서 우리는 변화를 수용하고, 변화를 주도하며, 변화를 통제하려는 윤리적 책무(ethical imperative)를 갖고 있어야 한다. 그래야만 HPE 평가가 **시의성(relevance)**과 **효과성(effectiveness)**을 유지할 수 있다.


13. 교수자 및 교직원 개발 (Faculty and Staff Development)

앞 절에서 논의한 변화에 대비하기 위해, **AI 기반 평가(AI-supported assessment)**에 대한 **교수 개발(Faculty Development)**은 변화 관리(change management)와 기술 수용(technology acceptance)을 위해 교수자, 교직원, 학습자 모두에게 필수적이다. 이를 위해서는 교육기관의 전담 전략이 요구된다.

 

그러나 현실적으로는, 기술 기반 교육(technology-enhanced learning) 전반에 걸쳐 교수 개발이 부족한 경우가 매우 흔하다[12]. 그 원인은 학습 및 교육 기회의 감소, 멘토십 부족, 제도적 지원의 부족 등에 기인할 수 있다.
→ 이러한 상황은 교육자의 **기술 회피(resistance)**를 초래하며,
→ 교육에서 기술을 활용하거나 학습하고, 모델링하며, 학술적 성과를 창출할 수 있는 기회를 놓치게 된다.

 

이러한 교수 개발의 필요성은 빠르게 진화하는 AI 기반 평가 분야에서 특히 두드러진다. OpenAI CEO Sam Altman이 말했듯이,

“지금의 모델이 앞으로 존재할 가장 멍청한(stupidest) 모델이다.”[93]
→ 즉, AI는 계속해서 발전할 것이며, 우리는 교육학적으로 정립된(pedagogically informed) 지원을 통해
이 새로운 평가 방식을 효과적으로 수용할 수 있도록 해야 한다.


TPACK 모델 기반의 교수 역량 개발

우리는 이미 앞에서 소개한 TPACK(Technology, Pedagogy, Content, Knowledge) 프레임워크[8,9]에 기반하여, GenAI 평가를 중심으로 한 교수 개발의 역량 요소를 다음과 같이 설계할 수 있다:

  • TK (Technological Knowledge):
    • ChatGPT와 같은 **대형언어모델(LLMs)**을 평가에 활용하는 방법, 접근 방식, 장점과 한계, 프롬프트 설계(prompt engineering) 기술 등을 포함한다.
  • TCK (Technological Content Knowledge):
    • 특정 임상 맥락(예: 신경학)에서 GenAI를 효과적으로 활용하는 방법을 아는 것.
  • TPK (Technological Pedagogical Knowledge):
    • LLM을 활용하여 **다중 양식(multimodal), 실제성(authenticity), 정밀성(precision)**을 갖춘 평가 전략을 수립하는 교육학적 역량을 의미한다.
  • TPCK (Technological Pedagogical Content Knowledge):
    • 위 요소들을 통합하여, 예를 들어 신경과 임상 교육 맥락에서 GenAI 기반의 교육학적으로 정당화된 평가전략을 설계하고 구현하는 것이다.

이러한 프레임워크를 GenAI 중심의 교수 개발 프로그램에서 명시적으로 모델링함으로써, 기술 수용에 대한 두려움을 줄이고(technology acceptance), 교육 설계의 원리까지 함께 내재적으로 학습할 수 있게 된다.


정책, 접근성, 그리고 실천

많은 교수자는 GenAI를 평가에 어떻게, 언제 사용할지 혼란스러워하며, 보안, 프라이버시, 윤리적 사용에 대한 고민도 깊다. 이에 대한 방향은 앞서 논의한 내용과 관련 문헌에서 도움을 얻을 수 있다[16].

 

GenAI 정책 사례는 Lance Eaton과 Tracy Mendolia가 관리하는 웹사이트에서 참고 가능하다[79,81].

 

그러나 정책보다 중요한 것은,
실제 GenAI 도구에 접근할 수 있도록 보장하는 것이다.
접근 없는 정책은 무용지물이기 때문이다.

 

또한, 교수자의 AI 사용을 명확하게 공유하고(explicit disclosure), 특히 고위험(high-stakes) 평가에서 열린 토론을 장려함으로써, 윤리적이고 실천적인 모델을 학습자에게 제시할 수 있다. 교수자와 학습자 모두가 함께 배우는 공동체를 형성하게 되는 것이다.


교수 개발 방식의 다양화

대학은 교수자, 교직원, 학습자를 대상으로 AI 관련 훈련을 어떻게 제공할 것인지를 고민해야 한다. 단회성 워크숍은 기초 이해를 제공할 수는 있으나, GenAI는 빠르게 진화하기 때문에 충분하지 않다. 다음과 같은 방법을 병행할 수 있다:

  • 마이크로 학습(Microlearning) 업데이트
  • 실천 공동체(CoPs, Communities of Practice)[94]
  • 기존 교수 개발 과정에서 GenAI 평가 통합
  • 경험과 도전 과제 공유를 통한 탈신비화(demystifying)

가능한 경우, 대학은 교수자에게 심화 과정이나 인증 프로그램 수강을 지원할 수도 있다.


제도적 고려: 미시-중간-거시 수준의 개입

대학은 각 교수자가 **비전통적인 평가 방식에 대해 서로 다른 수용성(affinity)**과 **위험 허용도(risk tolerance)**를 가질 수 있음을 인정해야 한다.

 

또한, **AI 사용에 대한 서로의 전제(assumption)**에 대해 충분한 대화가 이루어지지 않으면, 새로운 도구나 방법에 대한 제도적 지지를 얻기 어려울 수 있다[95].

 

따라서 다음 세 수준에서 각각 교수 개발 전략이 필요하다:

  • 미시 수준(Micro): 교수자 및 교직원 단위
  • 중간 수준(Meso): 기관 차원의 정책과 구조
  • 거시 수준(Macro): 규제 기관 및 전문 직능 단체 차원의 방향성

마지막으로, 우리가 평가에서 AI 사용에 대해 이야기를 나누기 시작할 때, GenAI 도구와 산출물 사용 여부를 명확히 밝히고 인용하는 것이 중요하다. 이 내용은 다음 절에서 다룬다.

 


14. AI 사용 명시 및 인용

14.1 배경 (Background)

이 가이드 전반에서 살펴본 바와 같이, AI는 교수자의 평가 설계학습자의 과제 수행에 다양하게 사용되고 있다. 특히 학습자가 점점 더 AI를 평가에 활용하게 됨에 따라, 이 시스템의 사용을 명시하고 인용할 필요성이 커지고 있다. 다만, 어떻게 명시하고 인용해야 하는지는 아직 명확하게 정립되어 있지 않다. 앞서 살펴본 것처럼, 에세이의 미래적 형태가 변화하고 있긴 하나, 과제를 제출한다는 기본 구조는 유지될 것이므로, 이러한 문제는 여전히 논의되어야 한다.

 

현재까지 AI 인용에 대해서는 두 가지 상반된 입장이 존재한다:

  1. AI가 생성한 콘텐츠는 독창적인 것이 아니며, 기존의 정보를 바탕으로 만들어졌기 때문에, 다른 저자를 인용하듯이 인용되어야 하며, 그렇지 않으면 표절(plagiarism)에 해당한다는 주장 [90].
  2. 반대로, AI는 인간이 아니며, 책임을 질 수 없기 때문에 저자(author)가 될 수 없다. 따라서 AI의 결과물은 인용 대상이 아니다는 주장. 이 관점에 따르면,
    • 대화 내용을 저장하지 않는 한 기록이 남지 않고,
    • 동일한 출력이 재현되지 않기 때문에 인용할 수 없으며,
    • 참고문헌 목록은 일반적으로 독자가 접근 가능한 자료를 나열하는 것인데,
      AI의 출력물은 공공 접근이 어렵기 때문에 부적절하다는 문제를 제기한다 [96].

이러한 배경 속에서, 많은 교육기관들이 AI 사용에 대한 정책을 수립하고 있지만 [79, 81], 의학교육(HPE)에 특화되어 있지 않거나 최신 상황을 반영하지 못하는 경우도 많다. 따라서, 자신의 기관이 명확한 정책을 가지고 있지 않다면, 학술 출판사의 최신 관행을 참조하는 것이 도움이 된다. 이는 **형성평가(formative assessment)**와 총괄평가(summative assessment) 모두에 적용할 수 있다.


14.2 사용 명시 (Acknowledgment)

대부분의 학술 출판사들은 AI 사용을 **논문에 명시(disclosure)**할 것을 권장한다.
예를 들어, Elsevier는 다음과 같이 지침을 제공한다:

“...저자(authors)는 원고에 AI 및 AI 지원 기술의 사용을 명시해야 한다…” [97]
→ 이는 저자와 독자 간의 신뢰와 투명성을 유지하기 위함이다.

 

이러한 지침은 대체로 **대형 언어 모델(LLMs)**을 대상으로 하며, 문법 검사기나 참고문헌 관리자처럼 단순한 도구는 명시할 필요가 없다고 본다. AI 사용 명시는 아래와 같은 형식을 따르는 것이 바람직하다:

  • 별도의 단락에서,
  • 사용 일자,
  • 사용한 목적,
  • 사용 정도,
  • 최종 결과물에 대한 저자 검토 여부 등을 명확히 기재

예시 문장:

이 원고의 초안 작성을 위해 2024년 3월 12일 ChatGPT (OpenAI)를 사용하여 텍스트 생성 및 편집 제안을 받았으며, 최종 원고는 모든 저자에 의해 검토 및 수정되었습니다.

 

사용할 수 있는 동사:
created, enhanced, edited, reviewed, assisted 등 → 기여의 성격을 정확히 기술해야 한다.


14.3 인용 (Citations)

가장 일반적으로 참조되는 스타일은 APA 스타일이다. APA에서는 **공개되지 않은 커뮤니케이션(non-retrievable communication)**을 **개인 커뮤니케이션(personal communication)**으로 처리하지만, AI는 사람이 아니므로 조금 다르게 수정하여 사용한다. 예시 (McAdoo, 2024 [98] 인용):

OpenAI. (2024). ChatGPT (July 6 version) [Large language model]. https://chat.openai.com/chat

기타 스타일은 Appendix 5에서 확인 가능하다.


14.4 한계 (Limitations)

GenAI 도구의 학술적 사용은 acknowledgment 및 citation과 관련된 여러 고려사항을 불러온다.
이 분야는 기술 발전과 함께 계속 변화하고 있으며, 정책과 모범 사례 또한 유동적이다. 따라서 학술 활동을 수행하는 이들은
최신 기준과 가이드라인을 숙지하고,
적절하게 AI 사용을 명시하고 인용할 수 있도록 준비해야 한다.


15. 결론 (Conclusions)

이 AMEE Guide는 의학교육(HPE) 평가에서의 AI 활용을 주제로, 교육 이론, 인간 반응, 다양한 평가 유형, 윤리, 정책, 교수 개발에 이르기까지 매우 폭넓은 주제를 다루었다. 비록 저자들이 AI에 대해 긍정적 태도를 지니고 있음을 독자가 느낄 수도 있지만, 저자들은 균형 잡힌 관점을 유지하려 노력하였고, AI의 잠재적 긍정 효과와 부정적 영향 모두를 고려하도록 안내하고자 했다. 이러한 맥락에서, 본 가이드는 의학교육 평가에서 AI를 효과적으로 활용하고자 하는 교육자들에게 실질적인 도움이 되는 길잡이가 되고자 한다.

 

+ Recent posts