"어린이들이 어른의 말을 잘 들었던 적은 한 번도 없지만, 어른의 행동을 따라하는 데 실패했던 경우 역시 한 번도 없다."
전공의 수련에 대해서.
물론 육아에 대해서도, 학생 교육에 대해서도.
====
<가장 위대한 세대(The greatest generation)>
"우리는 왜 젊은 의사들이 그 많은 검사를 오더하는지 궁금해 한다. 왜 그럴까? 답은 간단하다. 그들이 우리를 지켜보고 있기 때문이다. 행동이 개인의 특성보다는 환경에 의해 훨씬 더 영향을 받는다는 사실은 이미 사회과학에서 거듭 확인된 것이다."
"사람들은 그들의 인구통계학적 특성에 따라서가 아니라, 그들이 살고 있는 문화에 따라서 행동한다. 그것이 오늘날의 학생들이 그들의 주치의와 똑같이 행동하는 이유고, 그 반대도 그렇다"
"의료계라는 위계의 세계에서, 선배 의사가 창조하는 것은 다음 세대 의사가 아니라 "문화"이다. 레지던트(House staff) 파업이라는 자연실험의 결과, 그 당시 주치의가 최전방을 지켰을 때에도 검사 오더에는 아무런 변화가 없었음이 드러났다. 항생제의 부적절한 처방과 불필요한 영상검사에 대한 수많은 연구는 레지던트가 아니라 이미 수련을 마친 의사에 관한 것이다."
"지금 목격하는 현상에 불만을 갖는 교수라면, 미국 소설가 제임스 볼드윈의 말에 귀를 기울여야 한다. "어린이들이 어른의 말을 잘 들었던 적은 한 번도 없지만, 어른의 행동을 따라하는 데 실패했던 경우 역시 한 번도 없다.""
"Tom Brokaw는 거의 1세기 전에 태어난 사람들을 가장 위대한 세대로 분류한 것으로 유명하다. 나는 동의하지 않는다. 현 세대가 가장 위대한 세대이다. 그리고 좋은 뉴스는 다음 세대는 훨씬 더 나아질 것이라는 사실이다."

 

1

여기 독일의 Charité University Hospital Berlin 라는 의과대학에 다니는 1학년 ~ 5학년 학생들이 있다. 이 학생들은 매 학기 초에 학년과 무관하게 모두 동일한” 200문항짜리 시험을 본다. 학년과 무관하게 모두 동일한 문제가 출제된다. 당연히 5학년이 가장 높은 점수를 받을 것이며, 1학년은 가장 낮은 점수를 받을 것이다.

 

하지만 학년이 올라가면서 성적이 올라가는지 여부는 관심사가 아니다. 당연하니까. 1학년보다 2학년이, 2학년보다 3학년이, 3학년보다 4학년이, 4학년보다 5학년이 더 잘 하는게 뭐가 신기하겠는가?

 

2

학생들은 매 문제마다 해야 할 일이 하나가 더 있다. “얼마나 확신을 가지고문제를 풀었는지를 응답하는 것이다.

선택지는 세 가지이다.

1. 완전히 찍었어요(I am guessing)

2. 웬만큼 자신이 있어요(I am fairly sure)

3. 정답이 확실해요(I am very sure)

 

3

그렇다면, “정답에 자신감이 있는 문제완전히 찍은 문제의 정답률은 얼마나 차이가 날까? 너무 당연한 질문일지도 모른다. 정답을 자신하는 문제일수록 정답률이 높을 것이다. 실제로도 그렇다. “정답히 확실해요는 대략 90%, “웬만큼 자신이 있어요는 대략 60%, “찍었어요40% 정도의 정답률을 보인다.

 

그리고 당연히 1학년 때는 완전히 찍은 문제의 비율이 높고(약 절반), 학년이 올라갈수록 완전히 찍은 문제의 비율은 점점 낮아져서 5학년이 되면 10~15% 정도에 그친다. 반대로 정답이 확실한문제는 1학년 때는 10%도 안 되다가, 5학년이 되면 문항의 절반 정도는 정답을 확실히 알고 풀었다고 답한다.

 

4

진짜 궁금한 것은 여기부터이다. 학생들은 자신의 옳고 그름혹은 맞고 틀림을 판단하는 능력이 학년이 지나면서 개선될까? 이러한 능력은 대부분의 분야에도 중요할테지만, 의사에게, 혹은 의사가 될 학생들에게도 예외는 아니다. 이유는 명확하다. 내가 뭘 알고 모르는지, 조금 더 나아가서 뭘 할 수 있고, 못 하는지를 알아야 적절한 도움을 요청할 수 있기 때문이다. 반대로 말하면, 내가 뭘 모르는지 모르고, 내가 뭘 못하는지 모르면 궁극적으로 그 부담과 해(harm)는 다른 의료진과 환자에게 가해지게 된다.

 

그러니까, 학년이 올라가면서 자기 평가(self-assessment)능력, 혹은 더 정확하게는 특정 업무를 수행하는 순간의(in the very moment) 자기평가를 의미하는 자기모니터링 정확도(self-monitoring accuracy)가 향상되고 있었을까? 어떻게 알 수 있을까?

 

5

만약 1학년은 정답이 확실해요라고 스스로 판단하는 자기모니터링 능력이 부족하고, 5학년은 이 능력이 더 높아졌을 것이라 가정해보자. 우선, “찍은 문항의 숫자가 학년이 올라가면서 줄었더라도, 정답률은 학년 간 차이가 없을 수 있다. 1학년도 찍었고, 5학년도 찍었을 것이기 때문이다. 하지만 정답이 확실해요라고 선택한 문항에서는, 1학년의 정답률보다 5학년의 정답률이 높을 것이라고 예상해볼 수 있다.

 

그렇다면 실제 결과는 어떠했을까?

 

6

이미 여러 연구에서, 의사를 포함하여, 인간이 자기평가에 얼마나 취약한지는 반복적으로 확인되었다. 샘플링 관점에서 볼 때 이것은 전혀 놀랍지 않다. 자기평가의 N 1이기 때문이다. 문제는 자기평가에서는 표본 크기를 늘릴 수 없다는 것이다. 이것의 함의는, 자기평가는 결코 독자적으로 의미를 지닐 수 없고, 반드시 다른 정보와 삼각검증triangulation 되어야한다는 점이다.

 

 

출처:

Kämmer, J. E., Hautz, W. E., & März, M. (2020). Self‐monitoring accuracy does not increase throughout undergraduate medical education. Medical education, 54(4), 320-327.

 

 

 

 

1

밀러의 피라미드에서 마지막 한 층(Does)의 평가를 보자. 'Does' 수준의 평가는 본질적으로 전문가가 정보에 의존하여 성과를 판단하는 방식이다. 이 때 전문가란, 동기 및 선후배, 동료직원, 상급자, 교수자 등을 비롯하여 피평가자의 업무 또는 교육성과에 대해 잘 아는 사람을 광범위하게 포함하는 단어로 해석해야 한다.

 

2

Does 평가의 자극 형식은 실제적 맥락Authentic context이며, 비표준화, 비구조화 되어있다. Does 평가의 응답 형식은 다소 일반적generic이며, 특정한 맥락에 따라 재단tailored되어있지 않다. 예를 들어 CanMEDSCollaborator Communicator 역량이 있다. 이런 역량이 어느 정도 generic할지 몰라도, 평가를 할 때는 맥락-특이적이 된다. Generic skill을 평가하는 것은 필수적이지만, 정의하기 어렵다는 문제도 있다.

 

결국 이러한 영역-독립적(domain-independent) 역량을 평가하려면, 전문가 판단에 의존할 수 밖에 없다. , Does 수준에서 효과적인 평가의 핵심은 전문가의 판단expert judgement이며, 내용특이성의 문제를 해결하려면 표본 추출이 중요하다. 합산 정보aggregate information가 개별 평가의 주관성을 극복하기 위해서는 두 가지가 필요한데, 다양한 교육적/임상적 맥락에 걸친 표본추출과 다양한 평가자로부터의 표본추출이다.

 

그렇다면 Does 수준의 평가에서 고려해야 할 것은 무엇일까?

 

3

신뢰할 수 있는 추론을 위해서는 일정 수의 표본이 필요하다(A feasible sample is required to achieve reliable inferences): 현실적으로 가능한 표본수(very feasible sample)로도 신뢰할 수 있는 추론이 가능하며, 대체로 어떤 평가도구를 사용하든, 무엇을 측정하든 8 ~ 10 사이의 어딘가에 있는 듯 하다. 이는 신뢰도는 평가의 표준화나 구조화의 문제가 아니라, 표본 추출의 문제임을 다시 한번 확인시켜준다.

 

4

편견은 전문가 판단의 본질적인 특성이다 (Bias is an inherent characteristic of expert judgement): 평가 점수의 인플레이션이 생기기도 하고, 평가자가 어떤 배경을 가지고 있는지에 따라서도 영향을 받는다. 평가자가 학습자와의 관계를 지나치게 신경쓰거나, 귀찮은 일을 피하려고 할 때에도 편향이 생긴다.

 

평가자의 역할이 무엇인지 다시 한 번 생각해봐야 한다. 평가자의 임무는 학습자가 훌륭한 의사인지 판단하는 것이 아니다. 특정 사건에서 어떤 일이 발생했는지 판단하고, 학습자의 수행능력 향상에 도움이 되는 피드백을 주고, 차후에 유의미한 검토에 사용될 수 있도록 적절히 문서화하는 것이다. 고부담 의사결정은 여러 방법으로부터, 여러 출처의 평가를 기반으로 내려져야 견고robust해지기 때문이다.

 

같은 맥락에서 자기평가를 생각해볼 수 있다. 연구에서 명백하게 확인되는 것은 우리는 (과대평가든, 과소평가든) 자기평가를 매우 못한다는 것이다. 샘플링 관점에서 볼 때 이것은 전혀 놀랍지 않다. 자기평가의 N1이기 때문이다. 다른 평가도 N1이라면 자기평가보다 딱히 낫지는 않을 것이다. 문제는, 다른 평가와 달리, 자기평가에서는 표본 크기를 늘릴 수 없다는 것이다. , 자기평가는 결코 독자적으로 의미를 지닐 수 없으며, 반드시 다른 정보와 삼각검증triangulation 되어야한다.

 

5

타당도는 어떤 도구를 사용하느냐보다, 누가 사용하느냐에 달려있다 (Validity resides more in the users of the instruments than in the instruments that are used): 밀러의 피라미드의 아래 단계에서는 평가도구를 더 날카롭게(sharpen)하는 것이 가능하지만, Does 수준에서 평가의 퀄리티는 딱 평가자의 퀄리티 만큼만 우수하다. 지저분한 현실세계를 표준화/구조화/객관화를 통해 통제하려는 것은 답이 되지 못한다. 이는 평가의 질을 떨어뜨릴 뿐만 아니라, 평가를 경시하게 만든다trivialize. 더 바람직한 전략은 평가도구가 아니라 평가자를 더 날카롭게 하는 것이다. 평가에 필요한 기술, 피드백을 주고 받는 기술은 의사-환자 사이에 필요한 기술과 유사한데, 그럼에도 불구하고 모든 교수자가 이걸 갖추고 있지는 않다. 이런 기술은 육성되어야 하며, 육성될 수 있다.

 

6

평가는 일반적으로 형성적 기능과 총괄적 기능을 모두 갖는다(Formative and summative functions are typically combined): 학습자가 평가에서 학습적 가치를 얻지 못하는 한, 평가는 사소한 것 취급된다(trivialize). 예를 들어, 포트폴리오에 포함되는 성찰글쓰기의 목적이 평가자의 기분 맞추기가 되면, 포트폴리오는 의미를 상실한다. 평가의 유용성utility을 확보하려면, 학습을 유도할 수 있어야 하며, 궁극적으로 학습에 필수불가결한 것으로 여겨져야 한다. 평가가 효과적이려면, 피드백이나 학습환경과 같은 조건이 갖춰져야 하며, 이 중 피드백에는 특히 사회적 상호작용(코칭/멘토링/토론)이 중요하다.

 

7

질적, 서사적 정보가 중요하다 (Qualitative, narrative information carries a lot of weight): 평가의 중심에 피드백이 있고, 효과적인 피드백에 사회적 상호작용이 중요하다면, 숫자와 정량 정보는 한계가 명확하다. 의사소통에서 5점 중 2점을 받았다는 것 만으로는, 학습자에 대해 우려를 자아냄에도, 실제로 무엇을 했는지, 개선을 위해서는 무엇을 해야 하는지를 알려주지 않는다. 점수는 그 자체만으로는 저질의poor 피드백일 뿐이며, 학습자에게 거의 영향을 미치지 못한다. 언어를 활용하여 평가를 더 풍부하게 해야 한다. 질적으로 풍부한 정보가 뒷받침되어야 형성평가가 효과적으로 기능한다. 따라서 모든 평가도구에 정성 정보를 포함시킬 수 있는지 확인하고(: 주관식 코멘트 기입 공간), 평가자가 이러한 정보를 정기적으로 제공하고 문서화하도록 유도해야 한다.

 

8

총괄적 결정이 질적 연구 절차로 더욱 견고해질 수 있다(Summative decisions can be rigorous with non-psychometric qualitative research procedures): 우리는 일반적으로 무언가를 정량화한다. 그리고 계산하고, 평균을 내고, 학점을 준다. 하지만 이것 만으로 충분한 경우는 거의 없다. 견고함(rigour)trustworthiness 전략에 달려있다. internal validitycredibility, external validitytransferability, reliabilitydependability, objectivityconformability로 대체하는 것이다. 다음과 같은 전략이 가능하다. 다만 합격선 결정과 마찬가지로 ‘gold standard’란 존재하지 않으며, 모든 기준standard과 그에 따른 결정에는 일정정도의 추상성이 존재한다. 결국 얼마나 기준을 신뢰할 수 있느냐credible, 얼마나 절차에 충실했느냐에 달려있다. Trustrowthiness를 높이기 위한 전략으로는 아래와 같은 것들이 있다. 

 

To achieve rigour in the judgement of a learner’s portfolio in a work-based setting, it is wise to have a committee judge the portfolio (structural coherence and peer examination).

The committee receives input froma mentor who is familiar with the learner and his or her portfolio (prolonged engagement).

Depending on how much one wants to protect the learner–mentor relationship this input may be limited, for example, to a declaration of the mentor that the portfolio provides authentic evidence of the learner’s progress.

The committee uses predefined criteria to make their judgement more transparent, for example, in the form of rubrics describing decision categories (audit).

The committee deliberates and justifies its decisions in a written motivation (audit).

If the decision is difficult to make, the committee deliberates more and justifies more and perhaps even invites additional committee members or consults relevant parties (triangulation).

In preparing the portfolio for submission, the learner is aware of the criteria and will have had feedback on earlier drafts of the portfolio with some form of social interaction (i.e., with peers or a mentor) so that the committee’s judgement will only rarely come as a complete surprise to the learner (and mentor) (member checking).

Both learner and mentor are trained for their tasks; committee members are (re)trained (periodically) and use benchmark portfolios to calibrate their decision making (prolonged engagement and member checking).

Committee decisions are documented (audit), and appeal procedures for learners are in place (audit).

The more procedures and measures, the more trustworthy the resulting decision will be.

 

9

Does 수준에서는 평가는 전문가의 판단에 의존하게 된다. 그리고 이처럼 평가가 전문가의 판단에 의존할 경우, 개별 평가자의 독특하고 고유한 판단이 중요해진다. 평가자마다 각자 구성한 실제constructed realities가 다르며, 이는 서로 일치하지 않을 수 있다. 그렇다고 이것이 도움이 되지 않는 것은 아니다. 오히려 학습자가 서로 다른 여러가지 관점에 노출되는 것은 고도로 relevant하며, beneficial 할 수 있다. 따라서 합산 의사 결정aggregate decision making을 가이드하기 위하여 삼각측량과 정보포화가 필요하다. 새로운 정보를 찾을 가능성이 매우 낮아졌을 때, 포화가 달성되었다고 볼 수 있고, 이는 추가적인 근거의 수집 노력의 중단을 정당화해줄 것이다.

 

 

 

출처: 

Van der Vleuten, C. P. M., Schuwirth, L. W. T., Scheele, F., Driessen, E. W., & Hodges, B. (2010). The assessment of professional competence: building blocks for theory development. Best practice & research Clinical obstetrics & gynaecology, 24(6), 703-719.

1

밀러의 피라미드에서 처음 세 층의 평가를 보자. 이 때 고려해야 할 것은 다음과 같다.

 

2

역량은 구체적이며, 제네릭하지 않다(Competence is specific, not generic): 한 케이스에 대한 성과는, 심지어 동일한 영역 내의 다른 케이스에 대해서조차, 성과를 예측하는 지표로 좋지 않다. 이를 (임상) 능력의 '내용-특이성'문제라고 부른다. 인지심리학에서 오래전부터 학습의 전이transfer가 중요한 문제였다는 것도 내용특이성을 시사한다. 하나의 측정은 측정이 아니며, 단일single-point 평가는 신뢰할 수 없다. 가장 현명한 전략은 오랜 시간에 걸쳐 다양한 평가로부터 얻어진 정보를 결합하는 것이다.

 

3

객관성은 신뢰성과 동일하지 않다(Objectivity does not equal reliability): 주관적 평가도 신뢰도가 높을 수있으며, 객관적 평가도 샘플링에 따라 신뢰도가 낮을 수 있다. 폭넓은 표본추출을 해야 하는 이유이다. 평가의 주관성을 극복하기 위해 개발되었던 OSCE조차, 신뢰도는 표본 추출에 달려 있었다. 또한 전문성을 Global rating으로 더 잘 구분할 수 있었으며, 이는 전문가 판단은 그저 '잡음'에 불과하지 않으며, 의미있는 '신호'를 잡아낼 수 있음을 보여준다. 이렇듯, 객관성과 신뢰성이 동의어가 아니기에, 인간(전문가) 판단에 의존하는 것이 정당화된다.

 

4

(응답 형식이 아니라) 자극 형식이 측정되는 것을 좌우한다(What is being measured is determined more by the format of the stimulus than by the format of the response): 평가 방법은 대개 응답 형식(MCQ, Essays, Orals )에 따라 구분한다. 그런데 놀랍게도, 무엇을 측정하는가, 즉 타당도는 응답 형식과 별로 관련이 없음이 드러났다. 이것이 직관에 반하는 것처럼 느껴질 수 있다. 예를 들면, 우리는 객관식 문항이 지식을 평가한다고 생각하기 때문이다. 하지만 무엇을 측정하는지는 자극의 형식에 달려있다. 같은 객관식 문항이라도, 사실적 지식의 기억을 요구하는 문항과 케이스를 제시해서 유발되는 사고 과정은 서로 다르다.

 

이것의 첫 번째 함의는 적절한 응답 형식이 아니라, 적절한 자극 형식을 고안해야 한다는 것이다. 자극 형식은 실제성authenticity을 필수적으로 갖추어야 하며, 적절한 수준의 복잡성complexity이 요구된다. 의사면허시험은 짧은 임상 시나리오를 사용함으로써 Knows에서 Knows how 수준의 측정으로 변모하였으며, OSCE역시 임상 기술을 조각조각 해체하여 단편적으로 평가하는 짧은 스테이션으로 구성된다. , 이러한 방식이 훈련 초기 단계에서는 타당할지 모라도, 상위 단계에서는 통합적으로 평가하는 것이 더 실제 임상상황에 가까울 것이다.

 

두 번째 함의는, 평가방법의 유사성은 점수합산의 정당성을 보장해주지 않는다는 것이다. 여러 평가에서 얻어진 정보를 결합aggregate할 때, ‘유의미한 실체meaningful entity’를 사용해야 한다. 어떤 정보가 어디에 유의미한지는 자극형식의 내용이 결정한다. , 특정 방법-특정 특질 매칭(single method-to-trait match)은 타당하지 않다

 

5

타당성은 '내장'될 수 있다(Validity can be ‘built-in’): 평가는 개발하기 쉽지 않으며, 평가에 투입된 시간과 에너지만큼만 좋다. 좋은 평가는 개발 과정과 운영 과정에서 모두 퀄리티를 유지해야 한다. 개발 과정에서는 평가에 대한 동료 검토가 필요하고, 운영 과정에서는 SP와 평가자에 대한 훈련이 필요하다. 밀러의 피라미드에서 Knows, Knows how, Shows how 단계에는 평가의 통제와 최적화가 가능하다. 이 과정을 얼마나 잘 했느냐가 평가 결과에 기반한 추론의 타당성을 결정한다. , 리소스가 허용하는 한 시험의 구축test construction 및 운영 프로세스에 많은 시간과 노력을 투입해야 한다.

 

6

평가는 학습을 유도한다 (Assessment drives learning): 이미 진부해진 말이다. 좋은 쪽으로든, 나쁜 쪽으로든 평가가 학습에 미치는다는 것을 ‘consequential validity’라고 부른다. 학습자가 나쁜 쪽으로 행동한다고 학습자를 비난할 수는 없다. 그보다 중요한 것은, 평가를 모니터링하고, 학습자에게 미치는 영향을 평가해야 한다는 점이다. 종종 평가는 의도와 다른 효과를 내기 때문이다.

 

7

완벽한 단 하나의 방법은 없다 (No single method can do it all): 평가 프로그램이 필요한 이유이다. 각각의 단일 평가는 일종의 생검biopsy이며, 일련의 생검이 보다 완전하고 정확한 그림을 보여줄 것이다. 교육을 위한 프로그램이 그렇듯, 평가를 위한 프로그램(assessment program)도 계획/준비/구현/조정/평가/개선의 단계를 밟아야 한다. 평가 프로그램에 포함되는 방법이 무엇이든, 그 효용성utility는 합목적성에 달려있다. 따라서 효용성을 위한 신중한 타협이 가능하다. 예를 들어, 평가의 신뢰도가 조금 낮더라도, 학습에 좋은 영향beneficial effect을 가져온다면, 포함할 수 있다는 것이다.

 

 

출처:

Van der Vleuten, C. P. M., Schuwirth, L. W. T., Scheele, F., Driessen, E. W., & Hodges, B. (2010). The assessment of professional competence: building blocks for theory development. Best practice & research Clinical obstetrics & gynaecology, 24(6), 703-719.

 

대학에서 하는 수업의 장점은 매 학기 강의평가를 통해 학습자의 반응을 알 수 있다는 점이다. 반대로 말하면, 외부 워크숍에 초청받아 강의를 하거나, 학술대회나 컨퍼런스에서 발표할 때는 '내가 잘 한게 맞는지', '청중들은 이걸 어떻게 느꼈는지'를 알 길이 없어서 조금 걱정이 되기도 하고 궁금하기도 하다. 그나마 대면으로 했을 때는 청중의 표정과 반응에서라도 짐작해봤는데, 코로나 시국에 비대면(온라인)으로 할 때는 그조차도 어려워졌다.
 
론 위에서 '장점'이라고 한 것은 기본적으로 반응이 좋았을 때 이야기고, 반응이 나쁘면 - 악플(?)을 받으면 - 사람인지라 기분이 상하는 것이 사실이다. 그렇지만 악플에도 일말의 진실은 담겨있기 때문에, 그리고 이제는 약간의 맷집도 생겨서, 그냥 '이 학생은 이랬나보네'하고 넘겨야 하는 코멘트와, '진지하게 고려할 필요가있는' 코멘트를 구분하며 받아들일 수 있게 되었다.
 
당연히 강의평가에는 단점도 있는데, 가장 큰 단점은 '만족도' 수준에 그친다는 점이다. 학생의 '기분이 나쁘다'는 것은 '제대로 가르치지 않았다'와 별로 관련이 없음은 물론이거니와, '덜 배웠다'와는 더더욱 무관하다. 물론 '기분'과 '배움'과 '가르침'이 훌륭하게 align된 수업을 하는 교수님들도 있겠지만 말이다. 두 번째 단점은 '학기 단위'라는 다소 긴 주기로 피드백이 온다는 것이다. 아마 이런걸 보완하려고 '중간 강의평가'도 두는 것 같은데, '성적을 확인하려면 반드시 해야 하는' 최종 강의평가와 달리 중간 강의평가는 의무가 아니라서 응답률 자체가 많이 저조하다.
 
지난 학기에 의학과 대학원 공통과목을 하나 맡았는데, 문득 강의평가가 어떤지 궁금해져 들어가보았다가 소소한 보람과 뿌듯함을 느끼게 해준 코멘트를 보았다. 물론 "잘 배움 ≠ 잘 가르침"이니, 이 분의 느낌은 내가 잘 가르쳐서가 아니라, 이 분께서 "잘 배우셨기" 때문이다. 그저 수업에서 내가 중요하게 신경쓰며 바랐던 것과 저 분이 의미있게 여겨준 것이 서로 공명resonate했다는 점에서 소소한 보상을 받은 느낌이랄까. 어떤 분이실진 모르겠지만, 참으로 감사드리고, 나중에 의대 꼭 세우시길 응원합니다.
 
 

1

온라인학습은 학습과 관련된 일부 또는 전체 자료와 활동을 인터넷이나 로컬 인트라넷 형태로 전달하는 것이다. 온라인 기술은 다음과 같은 장점이 있다.

물리적 거리는 아무런 문제가 되지 않는다.

규모의 경제를 실현해준다.

시간에 따른 제약이 없다.

• 교육을 받은 후 교육사이트를 레퍼런스로 활용가능하다.

필요에 따라 학습속도를 빠르거나 느리게 할 수 있다.

컴퓨터는 학습자에 대한 정보를 활용하여 학습경험을 최적화할 수 있다.

맞춤형 피드백을 주고받을 수 있다.

게임/상호작용모델/컴퓨터시뮬레이션/에니메이션/오디오클립/비디오클립 등 다양하고 창의적인 교수법을 활용할 수 있다.

 

2

물론 단점도 있다.

개발하는데 시간과 돈이 많이 투자된다. 학습자 수가 작으면 비효율적이다.

온라인 토론은 학습자의 수가 늘어날수록 교수자의 시간도 그만큼 더 필요해져서 규모의 경제를 구현하기 어렵다.

일단 만들어지면 기술적인 문제나 교수 설계 등을 쉽게 바꾸기 어렵다.

학습자가 자신의 속도에 맞춰서 볼 수 있다고는 하나, 딱 그 정도 수준에 머무는 경우가 대부분이다. 컴퓨터-적응형 교육(computer-adaptive instruction)을 구현하는 것은 쉽지 않다.

면대면 접촉이 적어서 고립된 느낌을 준다. '온라인 협업을 포함하더라도, 면대면 접촉보다 더 만족스럽지는 않을 것이며, 결국 engagement satisfaction이 낮아진다.

 

3

이렇게 장점과 단점은 양쪽에 있으며, 연구 결과를 살펴봐도 평균적으로 보자면 형식에 따른 유의한 차이는 없다. 즉, 이 둘 사이에 본질적인 우열관계가 있는 것이 아니기에, 교수자는 상황에 맞춰 적합한 방법을 자신있게 선택할 수 있다.

 

4

시간적으로, 물리적으로 제약을 많이 받는 교수들에게, 온라인 교수개발은 매력적인 대안이다. 연구 결과를 살펴보면, 성과 측면에서 전통적인 방식과 비등한 수준은 된다. 다만, 교수들의 참여engagement는 구체적인 개입 방법이 어떠하냐에 따라 차이가 크다. 중요한 요소로는, 스스로 니즈를 인식하는 것, 온라인 학습의 기술적 문제를 잘 지원하는 것, 코스 이수에 필요한 시간이 얼마나 되는지, 기대치(expectation)이 명확한지, 근미래에 하게 될 활동과의 관련성이 중요하다.

 

이 밖에, 온라인 교수개발의 장기적 성공에는 커뮤니케이션과 상호작용이 중요하다. 온라인 커뮤니티는 온라인으로만 가능한 상호작용을 강화하는 역할을 하지만, 만약 면대면 상호작용까지 대체하거나, 온라인 상호작용의 설계가 조악하면 역효과가 발생할 수도 있다. 토론 그룹이 있을 경우, 적절한 중재자 역할이 필요하다.

 

5

지나치게 짧거나 단차원적인 개입(: 위클리 이메일, 짧은 이메일)이나 의무사항이 아닌 토론 공간은 효과가 낮다. 중요하게 여겨지지 않는 주제, 교수의 저도한 참여도, 교육활동을 이수할 시간의 부족, 상호작용의 결여, 교수자의 낮은 온라인 교육 능력 등도 효과가 낮은 온라인 교수개발의 특징이다.

 

6

따라서 다음과 같은 전략을 취해야 한다.

대화식 토론을 사용하여, 의사소통을 최적화한다.

요구(needs)에 맞춰 관련성(relevance)있는 내용을 교육한다.

수업 자료가 잘 조직화되어있고, 접근이 쉽게 만든다.

사회적 결속력을 강화한다. 팀 활동을 유도하고, 소극적 구성원도 참여하게끔 유도한다.

시간을 잘 관리한다.

얼마의 시간이 소요되는지를 포함해서, 명확한 기대치를 설정한다.

 

7

요약하자면, 온라인 학습은 다른 방법보다 우월하지도 열등하지도 않다. 그저 어떤 제약을 극복하기 위한 수단일 뿐이다. 온라인과 대면 학습의 구분은 점차 모호해지고 있다. 온라인 학습이란 이미 사용되고 있는 수많은 도구(강의, 파워포인트, 비디오, 소그룹, 자율학습)에 추가되는 하나의 도구일 뿐이다. 온라인 학습이 온라인 상에 실천공동체가 만들어지게끔 유도할 수는 있지만, 단순히 프로그램을 온라인에 옮겨둔다고 성공하진 않을 것이다. 아무리 좋은 계획조차도 교수(즉 학습자)가 능동적으로 참여하지 않는다면 실패로 끝날 것이다.

 

 

출처:

Cook, D. A., & Steinert, Y. (2013). Online learning for faculty development: a review of the literature. Medical teacher, 35(11), 930-937.

1

당신은 편향되었다(You are biased)”. 세 단어 이하의 문장 중 이보다 사실에 가까운 것은 없을 것이다. 절대적으로 좋거나 나쁜 것이 아니다. 새로운 정보를 해석할 때 과거 경험을 활용하지 않는 사람은 없기 때문이다.

 

2

메타분석과 같은 체계적 문헌고찰(systematic review)의 전제는 다수의 연구 결과를 결합하면, 결과적으로 개별 연구의 bias가 희석 될 것이라는 기대이다. 연구가 각자 다른 방식으로 편향되어 있다면, 최소한의 품질 기준을 충족시키는 연구 결과를 모음으로써 체계적으로(, 편향 없이) 관심 주제에 대한 최선의 추정치를 도출 할 수 있다는 것이다.

 

3

이러한 주장이 얼마나 합당한지는 편향의 원인(및 방향)이 어느 정도 까지나 무작위적인지에 따라 달려있다. 그러니까, 만약 편향이 무작위적이지 않다면 어떨까? 교육 연구에서 많이 사용되는 준실험설계에서, 편향의 원인이 모두 같은 방향을 가리키는 경우가 여럿 있다. 따라서 개별 연구 결과의 평균치를 내어 편향과 교란요인을 없애려는 접근보다 체계적인 네러티브 검토(systematic narrative reviews)가 더 적합하다고 주장할 수 있다.

 

4

다른 문제도 있다. 하나는 위장guise’의 문제이다. 문헌고찰의 퀄리티는 수천 개의초록을 검색해낸 체계성에 기초하지만, 결과적으로 모든 포함 및 배제 기준을 거치고 나면 고작 서너 개의 논문만 남는 경우도 적지 않기 때문이다. 또한, 체계적 문헌고찰을 수행할 때, 논문의 퀄리티를 평가하는 지표 자체가 편향의 원인이 될 수도 있다.

 

5

물론, 체계성이 없다면 논문은 편향될 것이다. 결국 어느 쪽도 편향을 피할 수 없고, 받아들이는 수 밖에 없다. 체계성을 갖춘다고 해도, 교육 논문은 매우 다양하므로 해석과 합성 과정의 특이성(idiosyncrasy)에서 오는 편향은 불가피하다. 다만 다른 배경을 가진 사람들과 협력하고, 피어리뷰를 받고, 다양한 해석을 고려함으로써 편향을 최소화하려고 노력할 뿐이다. 교육연구에서 좋은 문헌고찰은, 다양한 문헌을 비판적으로 종합synthesis해서, 잘 정립된 지식은 무엇인지 식별하고, 이해의 간극gap을 강조하며, 이해가 필요한 부분에 대한 가이드를 제공해야 한다.

 

출처:

Eva, K. W. (2008). On the limits of systematicity. Medical Education, 42(9), 852-853.

1

의과대학생들에게 이론과 실천의 연계는 중요하다. 이를 위해서는 실제적 학습authentic learning과 이론교육theory instruction의 결합이 필요하다. 포트폴리오는 이 중 Authentic learning을 지도하고 평가하는 중요한 도구이다. 학생은 포트폴리오를 활용하여 체계적으로 자신의 행동을 되돌아보고, 자신의 행동을 이론적 지식을 활용하여 분석하고, 대안적 행동 방법을 찾는다. 이러한 형태의 체계적인 자기 조절을 '성찰'이라 한다.

 

2

Maastricht 의과대학에서는 포트폴리오를 교육과정 초기에 도입함으로써,

(1) 성찰을 자극하고 개발하는 것 외에도,

(2) 멘토링 시스템에 활용하고,

(3) 학습과 평가에 대한 학생의 책임을 키우고,

(4) 포트폴리오를 공식적인 평가 요소로 도입하여 모든 학생이 피드백을 검토하고 통합하도록 유도하고자 했다.

 

3

포트폴리오에서 다음의 요소를 고려해야 한다.

첫째, 구조(structuring)이다. 지나치게 많은 요소를 지정해놓는 것도, 구조가 전혀 없거나 거의 없는 것도 둘 다 문제다. 작성해야 하는 내용에 대한 설명서를 제공하는 것도 필요하다. 예를 들어, “The doctor as healthcare worker”라면, 보건의료종사자의 역할이 무엇인지, 여기에 대해서 생각해볼 수 있는 질문은 무엇인지, 어떤 (근거)자료를 포트폴리오에 기록해야 하는지 등을 설명해주는 것이다.

 

둘째, 멘토링이다. 포트폴리오가 성찰을 자극하는 목적으로 효과적으로 사용되려면 다른 사람과의 정기적인 토론이 필요하다. 멘토는 (1) 학습 요구를 인식하고 학습 계획을 수립하도록 도와주고, (2) 실무적인 측면 외에도 감정적 측면까지 학습 과정의 일부가 되도록 도와주며, (3) 포트폴리오의 타당성을 검증할 수 있다.

 

셋째, 평가(assessment)이다. 적절한 보상(credits)없이 온전한 포트폴리오를 작성하게 만드는 것은 불가능하다. 하지만 그렇다고 포트폴리오가 그냥 하나의 관례적 절차(ritual)가 되어서도 안 된다. 물론 평가와 성찰의 두 가지 목표를 결합하는 것은 쉬운 일이 아니다. 한 문헌에서는, “시험 목적으로 쓰는 포트폴리오의 타락the corruption of portfolios for testing purposes”이라고 부른다.

 

신뢰도 향성을 위해서는 (1) 포트폴리오의 표준화, (2) 평가 기준을 통한 객관화, (3) 평가자 수 증가의 세 가지 방법이 있는데, 포트폴리오의 성격을 고려한다면 이론상 세 번째가 효과적이다. 포트폴리오 평가에서 평가자의 '전문적인 판단'이라는 전인적이고 질적인 접근법을 피할 수 없지만, 그러나 어느 정도의 표준화는 도입 될 수 있다. 또한 평가 과정에서 여러 차례의 토론 시간을 도입할 수 있다.

 

4

포트폴리오가 성찰 능력 향상에 효과가 있는지에 대한 연구는 종종 실망스러운 결과를 보여왔다. 포트폴리오의 효과성을 높이기 위해서는 다음이 필요할 것이다.

• 학생을 지도하는 지지적 멘토 제도

• 학생이 내용과 형태를 결정할 수 있는 명확한 구조

• 자기 성찰을 중심으로 조직화

• 포트폴리오를 초기에, 모호하지 않게 도입

• 성찰을 방해하지 않는 평가 절차

 

출처: 

Driessen, E., Van Tartwijk, J., Vermunt, J., & van der Vleuten, C. (2003). Use of portfolios in early undergraduate medical training. Medical teacher, 25(1), 18-23.

1

건강과 보건의료에서 젠더gender와 섹스sex는 모두, 그리고 매우 중요하다. 젠더Gender '남성적masculine' 또는 '여성적feminine'으로 표현되는 행동과 생각의 방식을 유형화한 사회적 역할이다. 섹스Sex '남성male' 또는 '여성female'으로 특징짓게하는 이형적dimorphic 생물학적 요소로, 신체의 구조, 호르몬, 염색체를 가리킨다.

 

2

'Gender는 두 귀 사이에 있고 Sex은 두 다리 사이에 있다'라는 말은 이 둘을 구별할 때 사용되는 하나의 속담이다. 마치 용어는 분명하고, 경계는 뚜렷해 보인다. 과연 그럴까? 젠더와 섹스라는 용어에 대한 혼란은 사회 전반은 물론 의학에도 일상적으로 존재한다. 예를 들면, 임상 가이드라인에 에스트로젠은 여성에게 보호적 효과가 있다거나, ‘문제를 일으키는 음주 행동을 스크리닝하는데 남성 성별이 중요하다고 언급하는 것이다. 한편, 의학교육에서 젠더 의학운동은 과거에 당연하게 (백인) 남성을 교과서 삽화로 써왔던 것을 넘어, ‘여성 신체이미지를 포함시키는 것을 해왔다. 그러나 이런 모든 사례는 섹스는 젠더와 다르다는 생각을 흐리게 만들면서, ‘신체(섹스)와 행동(젠더)이 일치하도록 선을 그어 나누는결정론자적 담론determinist discourse)를 강화할 뿐이다.

 

3

이것은 모든 사람에게 여파를 미친다.남자는 아이를 잘 못 본다’, ‘여자는 호르몬 불안정성 때문에 의사결정 능력이 떨어진다는 주장을 떠올려보라. 그리고 출생 시 섹스에 따라 정해진 젠더으로부터 스스로 규정한 젠더 정체성’이 분기diverge해 나온 트랜스trans 또는 논바이너리non-binary인 사람들에게는 더 큰 문제가 된다.

 

4

따라서 섹스와 젠더의 경계가 흐릿하다는 것를 생각하게끔 만드는 것은 젠더비순응 인구(gender non-conforming people)를 돌볼 수 있는 의사 양성에 필요하다. 비록 광범위한 시스템의 문제를 해결하기에 충분하지는 않을지라도 말이다. 또한 의과대학생이 젠더와 섹스에 대한 더 정교한 어휘를 갖도록 훈련시킬 필요도 있다. 예를 들어, 만약 의과대학생이 젠더 영향gender effect를 고려한다면, ‘골다공증은 에스트로겐 생산 감소로 인한 여성병woman’s disease”’이라는 기존의 개념에 대한 생각이 조금은 더 복잡해질 것이다.

 

5

의학교육에서 '젠더'에 대하여 이야기함으로써 신체와 세계의 접점interface’에 대한 대화를 시작할 수 있다. 그리하여 건강과 질병의 사회적, 생물학적 기초를 비판적으로 탐구하는 공간이 만들어질 수 있다. 젠더와 섹스를 풀어낼 더 정확한 언어를 탐구하는 과정은 인종, 성적 지향, 장애, 연령을 비롯하여 사회적 정체성의 다른 축들axes을 중심으로 한 대화의 문을 열어줄 수 있다. 또한 인구집단의 건강에 사회적 범주가 미치는 광범위한 효과를 생각하게 만들어 줄 수 있다.

 

6

성 주류화(gender mainstreaming) 캠페인은 의학교육과 의료의 모든 측면에 젠더를 고려하도록 만들려는 시도였고, 일부 여성이 의료전문직에 진입하는 데 도움이 되었을 것이다. 하지만 이 운동은 젠더와 교차하는 정체성의 또 다른 측면(인종 등)과 관련된 전문직 분야의 소외(professional marginalization)까지 해결하는 데는 충분하지 않았다는 비판을 받는다. 젠더와 섹스는 건강과 보건의료에서 중요한 요소임은 분명하지만, 그 자체로 완전한 이야기는 아니다.

 

출처:

Cavanagh, A. (2019). When i say… gender. Medical education, 53(12), 1176-1177.

1

역량 기반 의료 교육(CBME)의 세계는 끊임없이 진화하고 있다. 처음에는 역량이 있었고, 이후에 마일스톤이 제안되었다. 하지만 역량만으로는 의사가 해야 하는 업무, 행동, 책임을 구체적으로 특정하지 못함을 지적하며 ten Cate위임가능 전문활동(entrustable professional activities (EPAs))이라는 개념을 제안하였다. EPA는 모든 레지던트가 수련을 마치는 시점에 독립적으로 수행할 수 있으리라는 신뢰를 받아낼 수 있어야 하는(could be trusted) 핵심 업무 또는 책임을 말한다.

 

2

수련교육(GME)에서 시작된 EPA는 학부교육(UME)로도 확산되기 시작했다. GMEUME가 공동의 프레임워크를 갖게 하겠다는 목표 하에 UME에 적용할 “Core EPA”를 개발했다. 이후 Core EPA를 시범도입하고 검증하는 데 수많은 자원이 투입되었으며, EPA를 패러다임의 전환이라고 설명하는 교육자들도 있다. 하지만 한 편에서는 CBMEEPA에 대한 의구심을 보이며, “더 많은 시간과 노력과 좌절과 자원의 투입이 있기 전에 성급한 돌격을 늦춰야 한다고 주장한다.

 

3

Core EPA는 외래 및 입원 진료에서 이뤄지는 "활동activities" 목록으로 이뤄졌다는 점에서 의학지식과 같은 역량영역(domain of competence) 또는 전문직업성과 같은 개개인의 특성(characteristics)과 차이가 있다. , EPA는 전문직업적 행동을 직무현장에서 이뤄지는 업무(workplace-based tasks) 단위로 표현한 것이다. 그리고 모든 의대생은 Core EPA를 졸업(궁극적으로는 인턴 1일차)까지 성취해야 한다.

 

4

하지만 현재 만들어진 CoreEPA에 대한 여러 비판이 존재한다. 어떤 것들은 딱딱 구분되는(discrete) 단일 환자 대상(single-encounter)의 업무가 아니고(: 다전문간 팀에서 협력하기), 또 어떤 것은 교육 목표이지 업무가 아니다고 지적한다(: 임상질문을 만들고 근거 찾기). 또한 어떤 것은 지나치게 광범위한데, 어떤 것은 지나치게 구체적이다. 모든 것을 하나로 뭉뚱그리고 싶어하는 Lumper와 모든 것을 나누고 싶어하는 Splitter로 패널이 구성되어, 각자 자기 스타일대로 만든 것 같다고 지적한다. 발달적으로 보았을 때에도, 어떤 것은 의사가 되기 위해 가장 기본인 것인데, 어떤 것은 꽤 앞서나가고(advanced) 있다. 예를 들면, “시스템적 실패system failure를 식별해내는 것은 의대 졸업생은 물론이거니와, 2년차 전공의들도 잘 못 한다고 지적한다.

 

5

이런 지적을 하면, EPA의 지지자들은 역량(competencies)EPA양자택일(either-or)’의 문제가 아니라고 변호한다. 원칙적으로는 맞는 말일지 모르나, 인간의 인식은 그렇지 않다. 가장 보편적인 원칙 중 하나는 전경-배경 관계(figure-ground relationship)이다. 두 가지 "객체"가 있다면, 관심을 끌고 집중시키는 것은 그 중 하나(그림)일 뿐이다. 다른 하나(배경)는 멀리 뒤 밀려나고, 잊혀진다. 배경은 관심을 받지 못하고, 맥락의 역할을 한다.

 

6

그렇다면 Core EPA와 역량의 둘을 놓고, Core EPA는 전경으로, 역량(전문직업성, 의사소통능력, 인종/민족/성별/성적 지향을 차별하지 않는 의료전달)은 배경으로 만드는 것은 정말 좋은 것인가? 물론 EPA의 지지자들이 역량에 대해 악의를 갖고 있는 것은 아닐 것이다. 하지만, 그렇다고 하더라도 역량이 전면에 놓이지 않는다면, 2등 시민으로 밀려날 가능성은 농후하다. 형성평가든 총괄평가든 13개의 Core EPA에 초점을 두는 한, 교수와 학생은 모두 여기에 신경쓸 것이라는 예측은 과장된 것인가?

 

7

Core EPA의 또 다른 문제는 높은 수준의 열망이 없다(nothing aspirational)는 점이다. 그러니까, 의학이란 전문직업적 가치를 중심으로 하는 소명임을 암시하는 그 어떤 것도 Core EPA에는 담겨있지 않다. 더 나아가면, Core EPA가 환자와 사회에 어떠한 상징적인 메시지를 전달하는지 묻지 않을 수 없다. 그저 의료행위에 필요한 테크닉을 수행할 수 있고, 병원을 효율적으로 운영하는 데 필요한 의사로 충분한가?

 

8

평가 과정 그 자체에도 우려할 만한 부분이 있다. 물론 신뢰라는 개념은 매력적이다. 또한 의사들은 내가 지도하는 사람을 얼마나 신뢰할 수 있는지를 생각하는 데 익숙하고 편안하다.

하지만 Core EPA의 첫 번째 문제는, Core EPA의 평가에서는, 관찰위임가능성entrustability’ 판단에 이르기까지 거쳐가야 할 layer가 아주 많이 늘어난다는 점이다. 주관적인 평가 과정을 피할 수 없다면, ‘관찰판단사이에 존재하는 추론의 층(layer)이라도 최소화해야 한다.

두 번째 문제는, 이해관계자들이 척도의 anchor에 대해서 정확하게 동일한 방식으로 인식/정의/이해해야 한다는 점이다. 그러나 UMECore EPA 평가를 위한 anchorGME의 그것보다 훨씬 불명확하다.  

 

9

이에 더하여 UMEGME의 평가 척도를 나란히 놓고 비교해보면, UME의 상한선과 GME의 하한선이 잘 매칭되지 않음을 확인할 수 있다. 의대 졸업 시 간접적이고 최소한의 감독만으로 EPA를 할 수 있었던 학생이(UME의 상한선), 수련 단계에서 슈퍼바이저의 적극적이고 완전한 감독을 필요로 하는 수준(GME의 하한선)으로 평가될 수 있는가?또한 모든 의과대학의 모든 학생이 동일한 시점에 까다롭고 신중한 EPA 기준을 모두 만족할 것인가? 사실상 너무 낮은 기준을 설정하는 결과를 낳을지도 모른다. 사회적 인지 이론social cognitive theory를 고려한다면, UMEGME의 맥락이 다르므로, 같은 표준도 암묵적으로 다르게 여겨질 수도 있다. 예컨대 UMEentrustable 수준은 GME에서 preentrustable 수준일 수 있다.

 

10

Core EPA는 의료진의 원활한 작동에 필요한 mundane and technical skills에 지나친 관심을 기울이고 있다. 비록 개념상으로는 추상적이지만, 우리가 조금만 노력한다면 행동으로 조작화 될 수 있는 의사의 역할과 행동으로부터 멀어지게 하였다.

 

출처:

Krupat, E. (2018). Critical thoughts about the core entrustable professional activities in undergraduate medical education. Academic Medicine, 93(3), 371-376.

 

 

+ Recent posts