[AHSE] 11 서술형 평가 (Narrative Assessment)

Meded 2025. 10. 9. 22:04

2025. 10. 9. 22:04

11 서술형 평가 (Narrative Assessment)
Nancy Dudek and David Cook

교육자(Educators)와 교육 연구자(education researchers)는 점점 더 훈련생의 수행(performance) 의 많은 측면이 숫자로는 쉽게 측정될 수 없다는 점을 인식하고 있다. 예를 들어, 숫자 점수(numeric score) 만으로는 훈련생의 낮은(또는 높은) 수행의 이유를 설명하지 못할 수 있으며, 또는 점수표(scorecard) 에 미리 정해진 항목들이 전체 수행의 중요한 요소들을 포착하지 못할 수도 있다. 이러한 이유로, 수행은 종종 숫자뿐 아니라 언어(words) 의 형태로 문서화될 수 있고, 그렇게 해야 한다는 인식이 점점 커지고 있다(Hanson, Rosenberg, & Lane, 2013; Hodges, 2013; Holmboe, Sherbino, Long, Swing, & Frank, 2010; McConnell, Harms, & Saperson, 2016). 이러한 서술형 평가(narrative assessments) 는 학습자에게 학습을 돕는 구체적 피드백(specific feedback) 을 제공하고, 양적 척도(quantitative scale) 의 공백을 메우며, 역량위원회(competence committees) 에게 훈련생의 성취에 대해 정보에 근거한 결정을 내릴 수 있도록 하는 ‘이유(why)’ 정보를 제공한다. 그 결과, 서술형 평가는 임상 수행 평가(clinical performance assessment) 분야에서 점점 더 인기를 얻고 있다.

서술형 평가 도구 (Narrative Assessment Instruments)

서술형 평가 도구들은 다양한 형태와 이름으로 존재한다. 예를 들어,

일부 현장 노트(field notes) 와 일일 관찰 카드(daily encounter cards) 는 전적으로 서술형으로 되어 있으며(즉, 숫자나 체크리스트 평가 항목이 없음), 이러한 도구들은 서술형 보고서(narrative reports) 로 간주된다.
다른 도구들, 예를 들어 임상 수련 평가 보고서(in-training evaluation report, ITER) 나 로테이션 종료 평가(end-of-rotation assessment) 등은 숫자형 평정 척도(numeric rating scale) 와 자유 서술식 코멘트(free-text comments) 를 결합한다.
학습 포트폴리오(learning portfolios) 는 일반적으로 다양한 요소를 혼합하여 구성된다. 예를 들어,
- 훈련생이 작성한 서술형 산출물(narrative artifacts) — 에세이(essays), 연구 보고서(research reports), 임상 기록(clinical write-ups) 등과
- 감독자가 작성한 서술형 평가 부분(narrative portions of assessment tools),
  그리고 숫자형 항목(numeric items) — 시험 점수(test scores), 감독자 평정(supervisor ratings) 등이 함께 포함된다.

이 장에서는 이러한 혼합형 평가 자료 중 서술적 구성요소(narrative components) 에 초점을 맞춘다.

대부분의 서술형 평가는 다른 사람이 작성한 글로 구성되지만, 때로는 훈련생이 직접 작성한 글이 평가에 포함되기도 한다. 예를 들어, 개인 에세이(personal essays) 를 통해 특정 교육 경험(training experience)에 대해 성찰(reflection)하게 하고, 이를 토대로 훈련생의 성취(achievement) 와 수행 수준(level of performance) 을 판단하는 경우가 있다.

서술형 평가 도구는 단순히 “코멘트(Comments)” 라는 제목의 칸으로 존재할 수도 있고, 혹은 다음과 같은 구체적인 정보를 요청하는 하나 이상의 프롬프트(prompts) 를 포함할 수도 있다.
예를 들어,

임상 수행의 긍정적 측면(positive aspects of the clinical performance),
부족한 부분(areas of deficiency),
구체적 개선 권고(specific recommendations for improvement) 등에 대한 서술을 요구한다.

강점 (Strengths)

서술형 평가에는 질적 특성(qualitative aspects) 과 관련된 여러 강점이 있다. 잘 작성된 서술형 평가는 훈련생의 수행(performance) 에 대한 풍부한 묘사(rich descriptions)를 제공한다. 이를 통해 학습을 촉진하며(형성평가적 측면(formative aspect)), 이는 곧 임상 수행 평가의 핵심적 부분이다(Govaerts & van der Vleuten, 2013; McConnell et al., 2016). 이는 “학습을 위한 평가(assessment for learning)” 의 필수 요소로서, 역량 기반 교육(competency-based education) 의 핵심적 토대이기도 하다. 서술형 평가는 훈련생에게 개선 방향과 독립적인 역량 있는 실무(competent, independent practice) 를 향해 나아가기 위해 필요한 정보를 제공한다.

또한, 현재의 수행 수준을 묘사하는 것 외에도, 서술형 평가는 관찰자(observer)에게 훈련생이 더 높은 수준의 수행(performance level)에 도달하기 위한 구체적 권고(formative feedback, 즉 형성 피드백) 를 제시하도록 요구한다. 이러한 제안은 훈련생이 어떻게 개선할 수 있는지(how to improve) 에 대한 매우 중요한 정보를 제공한다. 서술형 평가는 관찰자가 어떤 수행의 측면에 대해 언급할지를 더 유연하게 결정할 수 있게 한다. 이로 인해 평가가 보다 개인화(individualized) 되고 유연(flexible) 해질 수 있다. 또한 복잡한 상황(complex situation) 을 보다 자세히 설명할 수 있는 기회를 제공한다. 이러한 맥락 정보(contextual information)를 제공함으로써, 훈련생의 수행에 대한 판단이 어떻게 내려졌는지를 더 깊이 이해할 수 있게 된다.

비록 서술형 평가는 일반적으로 숫자형 평가(numeric assessment) 보다 더 주관적(subjective) 이라고 여겨지지만, 실제로는 서술형 평가가 타당(valid)하고 방어 가능한(defensible) 결정을 지지할 수 있다는 증거가 존재한다. 연구에 따르면, 서술형 평가는 훈련생 수행에 대한 강력하고 풍부한 정보(robust information) 를 제공할 수 있다(Bartels, Mooney, & Stone, 2017; Driessen, van der Vleuten, Schuwirth, van Tartwijk, & Vermunt, 2005; Ginsburg, van der Vleuten, & Eva, 2017). 또한, 서술형 자료(narrative data)는

문제가 있는 학생(students in difficulty) 을 성공적으로 식별하고,
훈련생을 순위화(rank trainees) 하며,
성공과 실패(success vs. failure) 를 예측할 수 있음이 입증되었다(Cohen, Blumberg, Ryan, & Sullivan, 1993; Ginsburg, Eva, & Regehr, 2013; Guerrasio et al., 2012).

다음 몇 섹션에서는 서술형 평가(narrative assessment) 를 사용할 때 반드시 고려해야 할 여러 가지 실제적 문제를 다룬다.

1. 서술형 평가의 목적 정의하기 (Define the Purpose of Narrative Assessment)

모든 평가의 궁극적인 목적은 평가 대상자(the person being assessed) 에 대한 의미 있는 결정(meaningful decisions) 을 내리는 것이다. 이러한 결정은 다음과 같이 여러 형태를 취할 수 있다.

이분법적(dichotomous) 결정: 예를 들어 합격/불합격(pass/fail) 또는 선발/비선발(select/not select),
세분화된(granular) 결정: 예를 들어 등수(class ranking) 나 성적(grades),
질적(qualitative) 결정: 예를 들어 구체적 피드백(specific feedback) 등.

서술형 평가는 이러한 모든 목적을 충족하거나 일부를 충족할 수 있다.

서술형 평가의 구체적 적용 사례로는 훈련생 포트폴리오 평가(trainee portfolio assessment), 소그룹 수행 평가(small group performance assessment), 직장 기반 평가(workplace-based assessments) 등이 있다. 이 중 직장 기반 평가(workplace-based assessment) 는 실제 시간(real time)에서 수행을 직접 관찰하는 형태(예: 훈련생이 신체검사나 시술을 수행하는 모습을 관찰)일 수도 있고, 다른 시점에 생성된 결과물을 평가하는 형태(예: 자문 기록 consult note, 봉합(suture)된 부위의 품질 평가)일 수도 있다.

서술형 평가는

일반적으로 다른 양적 평가(quantitative assessments)를 보완하거나 형성적 피드백(formative feedback) 을 제공하는 데 사용된다.
그러나 때로는 훈련생의 수행에 대한 총괄적 평가(summative assessment) 를 지원하기 위해 집합적으로 사용될 수도 있다(예: 역량위원회(competence committee)에 제출할 근거 자료로 활용) (Dudek et al., 2012; Hanson et al., 2013; Govaerts & van der Vleuten, 2013).

2. 수행을 문서화하기 (Document the Performance)

고품질 평가(high-quality assessments) — 나아가 고품질의 결정(high-quality decisions) — 은 고품질의 원자료(raw data) 에 근거한다.

숫자형 평가에서는 원자료(raw data) 가 점수(scores) 이고,
서술형 평가에서는 원자료 가 훈련생의 수행을 기술한 내러티브(narratives), 즉 작성된 코멘트(written comments) 나 기타 문서들이다.

풍부한(rich) 내러티브 는 강점(strengths) 과 약점(weaknesses) 을 명확하고 구체적으로 기술하고, 개선 방안(recommendations for improvement) 을 제시해야 한다(Dudek, Marks, Lee, & Wood, 2008). 코멘트는 훈련생의 강점과 약점을 보여주는 구체적 수행 사례(specific examples of performance) 로 뒷받침되어야 한다. 서술과 예시는 독립적인 분석자(competence committee member 등) 가 관찰자에게 추가 설명을 요청하지 않고도 그 수행을 이해할 수 있을 정도로 충분히 구체적이어야 한다. 관찰자는 훈련생의 학습을 지지하는 어조로(comment tone supportive of learning) 코멘트를 작성해야 하며, 행동에 대한 구체적 근거 없이 태도(attitudinal issues) 에 대한 판단만을 제시하는 것은 피해야 한다.

예를 들어,

“이 레지던트는 게으르다(lazy)” 또는 “수술에 관심이 없어 보인다(he doesn’t seem to care about surgery)”

와 같은 고차적 추론(high-level inference)보다는,

“훈련생은 자주 지각했으며 주어진 과제를 완료하지 않았다.”

처럼 그 판단을 이끌어낸 관찰된 행동(observed behavior) 을 기술하는 것이 훨씬 유용하다. 마지막으로, 관찰자가 제공한 구두 피드백(verbal feedback) 에 대해 훈련생이 보인 반응(response)을 기록하는 것도 도움이 된다. 이는 훈련생의 향후 학습 필요(future learning needs) 에 대한 통찰(insight)을 제공하기 때문이다 (Dudek et al., 2008; Dudek & Dojeiji, 2014).

서술형 평가가 숫자형 평가(numeric assessment) 와 함께 사용될 경우, 서술 내용이 평정 점수(ratings)를 정당화(justify) 해야 한다. 즉, 우수한 수행(excellent performance) 으로 평가된 경우, 그에 부합하는 구체적 서술이 반드시 포함되어야 한다. 숫자 점수와 서술 코멘트가 불일치(mismatch) 하면, 훈련생과 학습계획을 관리하는 사람 모두에게 혼란을 초래할 수 있다 (Dudek et al., 2008; Dudek & Dojeiji, 2014).

3. 관찰자 훈련 (Train the Observers)

서술형 평가도 다른 직장 기반 평가(work-based assessment) 와 마찬가지로, 감독자(supervisor) 가 훈련생을 직접 관찰(direct observation) 하는 것이 이상적이다. 이는 환자 진료와 같은 다른 책임을 지닌 감독자에게 시간적 부담(time commitment) 을 요구한다. 훈련생을 직접 관찰하는 방법에 대한 훌륭한 가이드라인이 발표되어 있다(Kogan, Hatala, Hauer, & Holmboe, 2017). 이러한 가이드라인은 교수자들에게 직접 관찰에 어떻게 참여해야 하는지(train faculty to participate in direct observation) 를 교육하는 데 활용되어야 한다.

서술형 평가는 앞서 언급한 강점을 실현하기 위해 풍부하고 세부적인 묘사(rich, detailed descriptions) 가 필요하지만,

연구에 따르면 교수자의 내러티브 코멘트는 대체로 최소한(minimal) 이거나 비구체적(not specific) 인 경우가 많다 (Dudek et al., 2012; Dudek, Marks, Bandiera, White, & Wood, 2013; Littlefield et al., 2005).
감독자들은 수행이 부족한 훈련생을 평가할 때, 불합격(failing) 근거를 서술하기 어려워서 통과 점수(passing grade) 를 주는 경우가 많다고 보고한다 (Dudek, Marks, & Regehr, 2005).
의학교육자들은 너무 자주 “좋은 팀플레이어(good team player)”, “더 읽을 필요가 있다(needs to read more)” 와 같은 도움이 되지 않는 코멘트(unhelpful comments) 에 익숙하다.

따라서 관찰자(observer) 가 서술형 평가에서 더 많은(more), 더 질 높은(higher quality) 코멘트를 작성하도록 교수 개발(faculty development) 전략이 반드시 필요하다. 즉, 구체적(specific), 행동 중심적(behavioral), 세부적(detailed) 코멘트를 작성하도록 훈련하는 것이다. 이러한 프로그램 중 일부는 실제로 성공적인 성과를 보였으나, 아직 더 많은 연구와 노력이 필요하다(more work is required) (Dudek et al., 2012; Dudek et al., 2013; Littlefield et al., 2005).

4. 수집된 데이터 관리 (Manage the Collected Data)

서술형 평가가 제대로 수행되면, 매우 많은 양의 데이터(a lot of data) 가 생성된다. 이러한 데이터를 분석(analysis), 통합(synthesis), 훈련생 피드백 제공(feedback provision) 등에 활용하려면, 데이터 저장(storage), 검색(search), 추출(retrieval), 보고(reporting) 가 가능한 체계적 시스템(robust system) 이 필요하다. 종이 기록(paper archives)도 가능하지만, 교육자들은 점점 더 전자 데이터 시스템(electronic data systems) 을 사용하고 있다. 이는 훨씬 더 유연한(flexible) 관리가 가능하기 때문이다.

유용한 기능들은 다음과 같다.

데이터 수집 양식(data collection forms) 을 훈련생과 로테이션별로 맞춤 설정(customize)
미완성 양식 제출자에게 알림(reminder) 전송
제출된 데이터 저장 및 보관(archive submitted data)
데이터 검색 및 추출(search and retrieve)
서로 다른 감독자나 로테이션 간의 데이터 비교 및 통합(collate assessments)
주석 추가(annotation) (예: 역량위원회 의견 추가)
통합 보고서 및 요약(synthesized reports and summaries) 생성
훈련생에게 원본 및 요약 피드백 제공(feedback to trainees) 등

5. 관찰자 간 서술 통합 (Combine Narratives Across Observers — Qualitative Synthesis)

서술형(qualitative) 데이터는 숫자형(quantitative) 데이터보다 여러 관찰자의 평가를 통합(synthesize and pool) 하기 훨씬 어렵다.

숫자형 데이터의 경우, 심리측정학적(psychometric) 접근법을 적용해 평균(average), 중앙값(median), 신뢰도(reliability) 등을 산출할 수 있다.
반면, 서술형 평가는 질적 연구 접근(qualitative research approaches) — 예를 들어 주제 분석(thematic analysis) — 을 통해 여러 관찰자와 관찰 상황의 데이터를 통합해야 한다. 이러한 질적 통합(qualitative synthesis) 은 양적 통합보다 시간이 많이 걸리고(time-intensive), 특별한 기술(skill set) 을 요구하지만, 적절히 수행될 경우 동일하게 타당하고(defensible) 통찰력(insightful) 있는 결과를 도출할 수 있다.

서술 통합을 위해 분석자는 서로 다른 관찰자들이 서로 다른 맥락에서 제시한 공통된 주제(common themes) 를 찾아야 한다.

예를 들어, 여러 관찰자가 단순한 환자와 복잡한 환자 모두의 상황에서 의사소통 능력(communication skills) 이 효과적이라고 언급했다면, 이는 “효과적인 의사소통 능력(effective communication skills)” 이라는 주제를 지지한다.

또한, 이러한 주제와 상반되는 대조적 관점(contrasting perspectives) 도 함께 고려해야 한다.

특히 데이터 간 불일치가 있을 경우(예: 하나의 구체적인 부정적 사례가 다수의 모호한 긍정 코멘트보다 더 의미가 있을 수 있음), 데이터의 질(quality), 세부성(detail), 맥락(context) 을 주의 깊게 검토해야 한다.

주제의 도출(theme determination)은 반드시 둘 이상의 분석자(more than one analyst) 가 검토해야 하며, 해석 일관성(consistency of interpretation) 을 확보해야 한다. 개별 검토 후 의견 차이가 있을 경우 그룹 토론(group discussion) 을 통해 합의한다. 이 과정은 서술형 평가가 고위험 결정(high-stakes decisions) 에 활용되는 경우 특히 중요하다.

6. 훈련생에게 피드백 제공 (Provide Feedback to Trainees)

마지막으로, 서술형 평가 데이터가 훈련생에게 어떻게 제공될 것인가를 신중히 고려해야 한다.

형성적 피드백(formative feedback)으로 활용될 때는, 훈련생이

제공된 정보를 정확히 이해(clarify their understanding) 하고,
이를 향후 수행(future performance) 에 어떻게 반영할지 성찰(reflect) 할 수 있도록 하는 것이 유익하다.

이러한 과정은

일대일 면담(one-on-one meeting),
비공개 이메일(confidential email),
인터랙티브 포트폴리오 시스템(interactive learning portfolio system) 등을 통해 이루어질 수 있다.

또한, 훈련생은 총괄적 평가(summative purposes)에 사용되는 통합 서술 데이터(synthesized narrative data) 를 어떻게 해석하고 활용해야 하는지 에 대한 안내(guidance)가 필요할 수 있다.

대부분의 훈련생은 숫자 데이터가 합격/불합격 결정(pass/fail decision) 을 어떻게 뒷받침하는지(예: 시험 전 설정된 합격 기준)에 대해서는 익숙하지만, 서술형 데이터(narrative data) 가 역량위원회(competence committee) 의 숙의(deliberation)를 통해 결정에 반영되는 과정 에 대해서는 잘 모르는 경우가 많다. 특히 숫자와 서술 데이터가 서로 상충(conflict) 하는 경우 — 예를 들어, 숫자 점수는 양호하지만 서술 코멘트는 우려를 표시하는 경우 — 이는 더욱 문제가 될 수 있다.

훈련생에게

원자료(raw narratives) 와 통합 데이터(synthesized data) 모두를 접근할 수 있게 하고,
숫자와 서술 데이터가 어떻게 함께 사용되어 결정이 내려지는지 명확히 설명(explicitly explain how numeric and narrative data are used in conjunction) 하는 것은 매우 도움이 된다.

서술형 평가의 타당도 평가 (Evaluating the Validity of Narrative Assessment)

어떤 평가(숫자형이든 서술형이든)를 근거로 결정을 내리기 전에, 우리는 그 결정이 방어 가능(defensible) 한지를 먼저 확립해야 한다. 이러한 판단은 일반적으로 타당도(validity) 의 관점에서 논의되며, 이는 다음과 같이 정의된다.

“시험 점수의 해석이 특정 목적을 위해 사용될 때, 그 해석을 뒷받침하는 증거와 이론의 정도
(the degree to which evidence and theory support the interpretations of test scores for proposed uses of tests).” — AERA, APA, & NCME, 2014

이 정의는 주로 숫자 점수(numeric scores) 에 적용되어 왔지만, 서술형 평가(narrative assessment) 에도 똑같이 적절하게 적용될 수 있다. 저자 중 한 명은 최근에 현대적 평가 타당화 모델(contemporary models of assessment validation) 을 서술형 평가에 적용하는 방법 을 제시하였다 (Cook, Kuper, Hatala, & Ginsburg, 2016). 이 절에서는 그 접근법을 간략히 요약하고, 자세한 내용은 해당 원문을 참고하도록 한다.

타당화(validation)의 본질

타당화(validation) 는 평가 해석의 방어 가능성(defensibility) 을 검증하기 위해 증거(evidence) 를 수집하는 과정이다.
좀 더 정확히 말하면, 그 해석을 바탕으로 내리는 결정(decisions) 의 방어 가능성을 검증하는 과정이다. 이러한 해석과 결정(interpretations and decisions) 은 원점수(raw scores) 또는 관찰(observations) 에 근거한다.

일상적으로 사람들은 “도구의 타당도(validity of an instrument)” 라고 표현하지만, 보다 정확하게는 점수(scores), 관찰(observations), 해석(interpretations), 결정(decisions) 의 타당도라고 해야 한다.

타당화 과정은 다음 단계로 이루어진다.

예상되는 해석(proposed interpretations) 또는 결정(proposed decisions) 을 명확히 기술한다.
이를 뒷받침할 증거(evidence) 를 신중히 계획하고, 수집하고, 평가(appraise)하고, 체계적으로 정리한다.
이 증거들을 바탕으로 ‘논증(argument)’ 을 구성하여, 제안된 결정이 얼마나 방어 가능한지를 판단한다.

여기서,

예상되는 해석과 계획된 증거의 진술(statement of proposed interpretations and planned evidence) 은 “해석/사용 논증 (interpretation/use argument)” 이라고 하고,
수집된 증거의 평가와 판단(appraisal and judgment of collected evidence) 은 “타당도 논증 (validity argument)” 이라고 한다.
(→ 자세한 내용은 제2장(Chapter 2) 참고)

타당화 증거의 주요 원천 (Sources of Validity Evidence)

이러한 논증을 뒷받침하는 증거(evidence) 는 다양한 출처에서 나올 수 있다. 이 증거를 계획·평가·조직할 때는 포괄적인 타당화 틀(comprehensive validation framework) 을 사용하는 것이 도움이 된다. 현재 널리 인정된 두 가지 주요 틀이 있다.

Messick (1989) 이 제안하고,
미국교육연구협회(AERA), 미국심리학회(APA), 교육측정위원회(NCME) 가 2014년에 채택한
→ “5가지 증거원 틀 (five evidence sources framework)”
Kane (2013) 이 제안한 모델
(이 두 틀의 비교와 논의는 제2장에서 자세히 다룬다.)

이 장에서는 전자의 5가지 증거원(five evidence sources) 틀을 중심으로 다루며, Kane의 틀은 다른 문헌(Cook, Brydges, Ginsburg, & Hatala, 2015; Cook & Lineberry et al., 2016)에 자세히 소개되어 있다.

Messick의 다섯 가지 증거원 (The Five Evidence Sources Framework)

Messick의 틀은 평가 타당도를 뒷받침하는 증거를 다섯 가지 범주로 조직한다. 즉, 증거는 내용(content), 반응 과정(response process), 내적 구조(internal structure), 다른 변수와의 관계(relationships with other variables), 결과(consequences) 중 하나로 분류된다. 이들은 서로 다른 종류의 타당도(validity types) 가 아니라, 서로 다른 종류의 증거(types of evidence) 라는 점에 유의해야 한다. 어떤 해석을 뒷받침하기 위해서는 여러 출처로부터 증거를 수집하지만, 모든 출처를 포괄하는 경우는 거의 없다. 이제 각 증거원이 서술형 평가(narrative assessment) 와 어떻게 관련되는지 간략히 살펴보자.

1️⃣ 내용 증거 (Content Evidence)

내용 증거는 “평가 내용(test content) 과 측정하려는 구성 개념(the construct it is intended to measure) 간의 관계”를 검토한다 (AERA et al., 2014). 서술형 평가에서 내용 증거는 다음과 같은 요소를 포함할 수 있다.

특정 질문 또는 프롬프트(prompts) 를 선택하는 방법
프롬프트의 구체적 문구(specific wording of prompts)
관찰 기회의 선택(observation opportunities) — 즉, 표집(sampling) 과정

이러한 표집은 종종 목적적(purposeful) 또는 전략적(strategic) 으로 이루어진다.

즉, 훈련생의 수행 중 특정 측면(aspects of performance)을 탐구하기 위해 특정 상황(situations)이나 관찰자(observers)를 대상으로 표집을 설계하고,
추가 관찰이 새로운 주제(themes)를 제시하지 않을 때까지(포화(saturation) 에 도달할 때까지) 데이터를 수집한다.
따라서 내용 증거(content evidence) 는 이러한 목적적 표집 전략(purposeful sampling strategy) 을 어떻게 설계했는지를 명확히 제시해야 한다.

2️⃣ 반응 과정 증거 (Response Process Evidence)

반응 과정(response process)은 “측정하려는 구성 개념과 실제로 수행된 행위의 구체적 본질 간의 적합성(the fit between the construct and the detailed nature of performance actually engaged in)” 으로 정의된다 (AERA et al., 2014). 좀 더 쉽게 말하자면, 이는 관찰이 이루어진 순간(observation) 과 그 관찰이 기록(record)으로 남는 과정 전체 — 즉, 응답(answer), 숫자 평정(numerical rating), 또는 이 경우의 서술(narrative) — 사이에서 일어나는 일을 의미한다.

이 과정에는 다음과 같은 요인이 포함될 수 있다.

관찰자의 사건 해석에 영향을 미치는 인지 과정(mental processes)
관찰에 영향을 미치는 맥락적 요인(contextual factors) (예: 관찰 위치(viewing angle), 주변 소음(background noise))
관찰 평정과 내러티브를 기록하는 컴퓨터 시스템(computer system) 의 특성

반응 과정 증거(response process evidence) 는 다음과 같은 사실을 보여줄 수 있다.

관찰자가 지침(instructions) 을 충실히 따르며 보고서를 작성했다.
내러티브가 훈련생의 명성(reputation) 이 아니라 실제 관찰된 수행(observed performance) 에 근거했다.
컴퓨터 인터페이스(computer interface) 가 충분히 긴 서술(extended narratives)을 입력할 수 있게 설계되어 있다.

3️⃣ 내적 구조 증거 (Internal Structure Evidence)

내적 구조(internal structure) 는 동일한 평가 내의 여러 데이터 요소(data elements) 간의 일관성(coherence) 과,
이 요소들을 의미 있는 메시지로 통합(synthesize) 하는 접근 방식의 적절성(appropriateness) 을 반영한다.

양적 평가(quantitative assessment)에서는 주로 신뢰도 분석(reliability analyses) 과 요인 분석(factor analyses) 을 통해 이를 검토한다.
반면, 질적 평가(qualitative assessment)에서는 다음과 같은 방식으로 이를 탐색할 수 있다.
- 하나의 평가 내에서 다양한 데이터 요소 간의 삼각 검증(triangulation) (예: 서로 다른 관찰자나 시간대 간의 비교)
- 분석 접근법(analysis approach) 의 상세한 기술(description), 즉 반복적 데이터 수집(iterative data collection) 계획이나 이상치(outlier) 처리 방법 (예: 상충되는 주제(discordant themes)를 더 탐색하기 위해 추가 데이터를 수집했는가?)
- 분석자의 배경과 훈련 수준(analysts’ background and training) 에 대한 고려 등.

이처럼 내적 구조 증거는 평가 내 요소들 간의 관계(associations among elements within an assessment) 에 초점을 둔다.

4️⃣ 다른 변수와의 관계 증거 (Relationships with Other Variables Evidence)

반면, 다른 변수와의 관계(relationships with other variables) 는 평가 내부가 아니라, 최종 통합 결과(final synthesis) 와 외부 정보원(information sources outside this assessment) 간의 관계를 살펴본다. 핵심 증거원으로는 다음이 포함된다.

동시적(concurrent), 과거(past), 또는 미래(future)의 다른 학습 평가(learning assessments)
다른 맥락(contexts) (예: 다양한 임상 로테이션) 간의 평가 일관성(consistency) 혹은 불일치(lack thereof)
다른 접근 방식(approaches) (예: 양적 vs. 서술형 평가) 간의 비교
훈련 단계(stage of training) 별 차이 — 즉, 상위 단계의 훈련생이 대부분의 평가에서 더 나은 수행을 보일 것이라는 가정

이때 중요한 점은, 예상되는 관계의 방향(direction) 과 크기(magnitude) 를 사전에 정의하고(해석/사용 논증(interpretation-use argument) 내에 명시하는 것)이다. 이 사전 명시가 없다면, 사후적으로(retrospectively) 어떤 관계도 유리하게 해석 하는 오류를 범할 수 있다.

예를 들어,

서술형 평가가 양적 평정(quantitative ratings) 과 강한 상관관계(strong correlation)를 보인다면, 두 평가가 같은 특성(same trainee characteristic) 을 측정하도록 설계된 경우에는 긍정적인(validity evidence) 증거가 될 수 있다.
그러나 두 평가가 서로 다른 수행 측면(different aspects of performance) 을 포착하려는 경우라면,
같은 결과가 오히려 부정적인(unfavorable) 신호로 해석될 수 있다.

따라서 과학적 정직성(scientific integrity) 을 유지하려면, 기대되는 관계(expected relationship) 를 사전에 명확히 규정(commit in advance) 해야 한다. 또한, 서로 다른 평가 간의 연관성(cross-assessment associations) —
예를 들어,

같은 임상 로테이션 평가 폼(clinical rotation assessment form) 내의 숫자 점수와 서술 코멘트(quantitative scores and narrative comments),
수술(surgery) 과 내과(medicine) 실습 평가의 서술 코멘트 — 등은, 평가를 “같은(same)” 것으로 보느냐 “다른(different)” 것으로 보느냐에 따라, 내적 구조(internal structure) 증거로 분류될 수도 있고, 혹은 다른 변수와의 관계(relationships with other variables) 증거로 분류될 수도 있다.

5️⃣ 결과 증거 (Evidence of Consequences)

마지막으로, 결과 증거(consequences evidence) 는 평가 자체와 그에 따른 결정(assessment and ensuing decisions) 의 영향(impact) 을 검토한다 (Cook & Lineberry, 2016; 또한 Chapter 17 참고). 앞서 언급했듯, 평가의 궁극적 목적(ultimate purpose of assessment) 은 의미 있는 결정을 내리는 것(to inform meaningful decisions) 이다. 따라서 결과 증거는 이 목적이 실제로 달성되었는지를 평가한다.

이러한 증거는 다음을 탐색할 수 있다.

의도된 결과(intended consequences) 와 의도치 않은 결과(unintended consequences) 에 대한 객관적 증거(objective evidence)
최종 해석 및 결정(final interpretation and decision) 에 대한 타인의 동의 또는 불일치(agreement of others)
평가 과정(assessment process) 에 대한 이해관계자들의 인식(opinions)

결과 증거는 질적(qualitative) 또는 양적(quantitative) 형태일 수 있으며, 훈련생(trainees), 지도자(instructors), 기관(institutions), 또는 기타 이해관계자(stakeholders) 들의 영향(impact) 이나 신념(beliefs) 에 초점을 둘 수 있다.

표 11.1 (Table 11.1)

서술형 평가의 타당도에 대한 주요 위협(common threats to validity) 과 그에 대한 잠재적 해결책(potential remedies) 을 요약하고 있다.

요약 (SUMMARY)

임상 훈련(clinical training)에서 서술형 평가(narrative assessment) 의 사용은 점점 증가하고 있다. 서술형 평가는 현재 수행(current performance) 을 풍부하게 묘사하고, 개선 기회(opportunities for improvement) 를 구체적으로 제시함으로써, 숫자 점수(numeric scores) 를 보완(complement)한다. 또한, 형성 피드백(formative feedback) 과 총괄적 결정(summative decisions) 모두를 지원할 수 있다. 연구 결과는, 서술형 평가가 방어 가능한(defensible, 즉 타당한 valid) 결정 을 뒷받침할 수 있음을 보여준다.

표 11.2 (Table 11.2) 는 서술형 평가의 모범 사례(best practices) 를 요약하여 제시한다.

표 11.1 서술형 평가(Narrative Assessment)의 타당도 위협(Threats to Validity)

구성개념의 과소대표 (Construct Underrepresentation, CU)

문제 (Problem)

관찰(서술)이 너무 적음
서술이 제한된 맥락(context)이나 관찰자(observer)로부터만 나옴
서술이 세부 내용(detail)을 결여함

해결책 (Remedy)

관찰자 교육(Observer training): 관찰의 중요성과 풍부하고 구체적인 서술의 필요성 교육
불완전한 평가 제출을 허용하는 시스템(System that facilitates submission of incomplete assessments) 구축
숫자 평가 항목 외에도 서술 코멘트를 장려하는 프롬프트(Prompts that encourage narrative comments in addition to numeric ratings) 제공
평가 영역을 의도적으로 표집하도록 설계된 청사진(Blueprint to purposefully sample the domain) 마련 — 다양한 맥락(different contexts)에서의 평가
다양하고 여러 명의 관찰자(Multiple, diverse observers) 활용
풍부한 서술 코멘트를 유도하는 프롬프트(Prompts that encourage rich narrative comments) 제공

구성개념과 무관한 변산 (Construct-Irrelevant Variance, CIV)

문제 (Problem)

서술이 피상적(superficial) 측면에만 초점을 맞춤
서술이 관련 없는 수행(aspects of performance)에 대한 내용을 포함함
관련 없는 수행에 기반한 관찰(observations based on irrelevant performances)
관찰자의 개별적 특성(idiosyncrasies)이 서술에 영향을 미침
분석/통합(analysis/synthesis)을 수행하는 사람의 특성이 결과에 영향을 미침
분석/통합 과정이 실제 서술에 없는 새로운 아이디어를 도입함
서술에 진부한 표현(euphemisms)이나 상투어(platitudes, 예: “좋은 팀플레이어”)를 사용함

해결책 (Remedy)

관찰자 교육(Observer training): 관련 있는 수행과 측면에 초점을 맞추고, 완곡어법(euphemisms) 사용을 피하도록 지도
관련 쟁점에 주의를 집중하도록 유도하는 프롬프트(Prompts that focus attention on relevant issues) 제공
관련 있는 수행을 직접 관찰하도록 장려하는 시스템(System encourages observation of relevant performances) 구축 — 예: “직접 현장에 들어가기(get in the room)”
여러 명의 다양한 관찰자(Multiple, diverse observers) 확보
풍부한 서술(Rich narratives) 확보
방어 가능한 분석/통합 절차(Defensible analysis/synthesis process) 마련
다양하고 훈련된 분석자 그룹(Multiple, diverse, trained group of analysts) 구성
계획적이고 방어 가능한 분석/통합 절차(Planned, defensible analysis/synthesis procedures) 운영
완곡어법(euphemisms)을 식별할 수 있도록 분석자 훈련(Analysts trained to recognize euphemisms) 실시

CU(구성개념의 과소대표)와 CIV(구성개념과 무관한 변산)의 타당도 위협에 대한 더 자세한 내용은 제2장을 참조.

표 11.2 서술형 평가(Narrative Assessment)의 모범 사례 (Best Practices)

서술형 평가의 목적을 명확히 정의한다.
(Define the purpose of the narrative assessment)
세부적인 묘사(detailed descriptions) 를 사용하여 수행(performance)을 문서화한다.
(Document performance using detailed descriptions)
관찰자(observer)를 교육한다.
(Train observers)
데이터를 저장하고 관리하기 위한 시스템(systems)을 개발한다.
(Develop systems to store and manage the data)
훈련된 분석자(trained analysts) 를 활용하여 견고한 절차(robust procedures) 에 따라 서술 데이터 분석을 수행한다.
(Follow robust procedures for narrative data analysis, using trained analysts)
통합된 피드백(synthesized feedback) 을 훈련생에게 제공하고,
이 정보를 활용하여 향후 수행(future performance)을 개선할 수 있도록 지원한다.
(Provide synthesized feedback to trainees, and support them in using this information to improve future performance)

'논문 읽기 (with AI)' 카테고리의 다른 글

[AHSE] 16 프로그램 기반 평가(PROGRAMMATIC ASSESSMENT) (0)	2025.11.02
[AHSE] 14 평가에서의 시뮬레이션 (SIMULATIONS IN ASSESSMENT) (0)	2025.10.09
[AHSE] 12 평가 포트폴리오 (Assessment Portfolios) (0)	2025.10.09
[AHSE] 10 직장 기반 평가 (WORKPLACE-BASED ASSESSMENT) (0)	2025.10.09
[AHSE] 9 수행평가 / 퍼포먼스 테스트 (Performance Tests) (0)	2025.10.04

의대에서 교육하고 있습니다.