[AHPE] 2 타당도와 평가의 질 (VALIDITY AND QUALITY)

Meded 2025. 9. 9. 21:42

2025. 9. 9. 21:42

2 타당도와 평가의 질 (VALIDITY AND QUALITY)

Matthew Lineberry

교육적 시험이나 평가의 목적은 겉보기에 단순해 보일 수 있다. 예를 들어, “학습자가 기본적인 신체검진을 수행할 수 있는 능력을 측정하기 위해(to measure learners’ ability to conduct a basic physical examination)”라는 것이다. 그러나 이러한 단순해 보이는 목적에도 항상 많은 질문들이 내포되어 있다.

우리가 관심을 갖는 지식, 기술, 능력을 어떻게 정의할 것인가? 그것은 무엇이며, 무엇이 아닌가?
그것을 어떻게 측정하는 것이 가장 적절할까? 그리고 우리가 정확하게 측정하고 있음을 어떻게 알 수 있을까?
측정을 통해 우리는 무엇을 성취하고자 하는가?
측정 활동이 비용(expenses), 실행상의 어려움(logistical hurdles), 예상치 못한 부정적 결과(unexpected negative outcomes)를 초래하지는 않을까?

잘 설계된 평가(assessment)는 보건의료인 교육에서 의사결정(inform decision-making)을 지원하고 학습과 성장을 촉진(foster learning and growth)하는 강력한 도구가 될 수 있다. 그러나 특정 목적에 대해 “좋은(good)” 또는 “타당(valid)”한 평가가 무엇인지 판단하는 것은 쉽지 않다. 심지어 타당도(validity)의 의미 자체에 대해서도 선도적 평가 이론가들 사이에서 여전히 이견이 존재한다(Messick, 1995; Borsboom, Mellenbergh, & van Heerden, 2004; Cizek, 2012; Kane, 2013; St-Onge, Young, Eva, & Hodges, 2017). 이 장의 목적은 중요한 개념과 틀을 명확히 하여, 교육자와 연구자가 평가의 설계, 실행, 평가 과정에서 더 효과적인 비판적 사고를 적용할 수 있도록 돕는 것이다.

목적 기반 평가의 원칙 (THE PRINCIPLE OF PURPOSE-DRIVEN ASSESSMENT)

많은 사람들은 평가(assessment)와 측정(measurement)은 객관적(objective)이어야 하며, 점수는 우리의 편견 없이 속성을 측정해야 한다고 믿는다. 예를 들어, 우리는 바위의 길이(length)를 측정할 때 측정의 목적과 관계없이 같은 결과가 나와야 한다고 생각할 수 있다. 길이는 실제로 존재하는 속성이며, 자(ruler)는 우리의 내적 가정이나 동기에 영향을 받지 않는다고 믿는 것이다. 정말 그럴까?

사실, 측정에서 “왜(why)”는 길이처럼 기본적인 속성에서도 중요하다. 측정 체계는 단순히 자(ruler)만이 아니라, 어떤 자를 사용할지, 바위의 어느 부분을 길이로 간주할지, 얼마나 정밀하게 잴지를 결정하는 사람(human)이 포함된다. 측정자는 자신의 시각적 능력(visual acuity)과 동기(motivation)에 따라 값을 기록하고, 어떤 방식으로든 그것을 타인과 공유한다. 따라서, 과학 수업 과제를 대충 하기 위해 학생이 적은 수치와, 지질학자가 학문 공동체 내에서 다른 해석을 이끌어낼 수 있는 세밀한 차이를 기록하는 경우는 매우 다를 수 있다.

따라서 적절한 접근은 단순히 추상적으로 “더 객관적이 되어야 한다(be more objective)”가 아니다. 우리는 평가를 설계할 때 자신의 가치(values)와 목표(goals)에 대해 성찰(reflective)해야 한다. 보건의료인 교육에서 평가는 항상 무엇보다 수단적(instrumental)이다. 즉, 그것은 세상에 의도적으로介입하는 행위이며, 어떤 목표를 성취하려는 목적을 가진다(Cook & Lineberry, 2016).

평가의 최종 목적은 거의 결코 단순히 “[특정 속성]을 가능한 한 정확히 측정하기 위해(to measure [x attribute] as accurately as possible)”가 아니다.
실제 목표는 종종 이렇게 표현된다: “학습자에게 신속한 피드백을 제공하여, 그들이 해당 달 임상실습(clerkships) 동안 자기주도학습(self-directed learning)을 개선하도록 돕고자 한다. 또한 다음 교육 경험을 준비하지 못한 학습자를 조기에 파악하여 보충(remediate)한다. 이 모든 것을 우리의 자원 범위 내에서, 부정적 결과 없이 가능하게 한다.”

만약 평가 서비스 업체가 “측정 정확도를 높일 수 있다”고 하지만, 그 대가로 학습자 피드백이 한 달 지연되고 예산을 초과한다면, 우리는 아마 그 서비스를 거절할 것이다. 왜냐하면 “정확성(accuracy)”은 진정한 목표에 기여할 때만 중요하기 때문이다.

따라서 “좋은(good)” 평가란 단순히 해당 속성을 측정하는 것이 아니라, 구체적인 목표(specific goals)를 달성하도록 돕고, 비용을 합리적으로 유지하며, 부정적 결과를 최소화하는 평가를 의미한다. 이 장에서는 평가의 “타당도(validity)”를 측정하고자 하는 속성에 대해 타당한 추론(valid inferences)을 지원하는 정도(extent)로 정의한다. 보다 넓게, “평가의 질(assessment quality)”은 특정 평가의 시행과 점수 사용이 학습자의 가치와 목표를 고려할 때 긍정적인 결과를 산출하는 정도라고 정의한다.

목적 이해하기 (UNDERSTANDING YOUR PURPOSES)

어떤 평가 활동이든 첫 단계는 목표 속성(target attribute), 즉 평가 점수가 무엇을 의미하기를 기대하는지를 철저히 서술하는 것이다. 이때는 특정한 평가 형식(format)을 떠올리기보다는, 관심 있는 기저 속성(actual underlying attribute of interest) 자체에 집중해야 한다.

예를 들어, 학습자의 “비전문성(unprofessionalism)”을 측정하고 싶다고 해보자. 그렇다면 다음과 같은 질문들이 따라온다.

“비전문성”에 포함되는 것과 포함되지 않는 것은 무엇인가? 지식(knowledge), 태도(attitudes), 신념(beliefs), 행동(behaviors), 혹은 그 조합인가?
“비전문적 행동(unprofessional behavior)”의 전형적 특징은 무엇인가? 그것이 지배적 규범(prevailing norms)에 어긋나는 것인가? 그렇다면 누구의 규범, 어떤 규범, 어느 시대의 규범을 기준으로 하는가?
잠재적으로 해로운 행위가 비전문적인가, 아니면 실제 해가 발생해야 비전문적인가?
악의적 의도(ill intent)가 있어야 하는가, 아니면 단순한 실수(mistakes)도 비전문적일 수 있는가?
어떤 행동들은 보편적으로(universally) 비전문적인가, 아니면 맥락(context)에 따라 달라지는가? 그렇다면 어떻게?
“비전문성(unprofessionalism)”은 역기능적 직무행동(counterproductive work behaviors)이나 직장 일탈(workplace deviance)과 유사한가, 혹은 어떻게 다른가?
“비전문성”은 모든 개인이 고정적으로 가진 특성(fixed trait)으로 보는가, 아니면 맥락에 따라 달라질 수 있다고 보는가?

이러한 질문들은 당신의 목표 속성, 즉 구인(construct)을 정의하는 데 도움을 준다. 여기서 명확하지 않으면 이후에 혼란만 초래할 것이다.

다음으로, 점수 사용 계획(planned uses of scores)을 고려해야 한다. 예를 들어,

특히 비전문적인 행동을 보이는 학습자를 보충(remediation) 프로그램에 참여시키고 싶은 것인가, 아니면 “올해의 가장 전문적인 학생(Most Professional Student of the Year)”을 뽑아 시상하고 싶은 것인가, 혹은 그 중간 어디쯤인가?
평가 대상자에게 피드백(feedback)을 제공할 것인가? 그렇다면 그들이 그 피드백을 어떻게 활용하기를 기대하는가?
결과를 다른 교육자나 행정가와 공유할 것인가?
결과가 징계(sanctions)나 퇴학(dismissal) 같은 결정에 사용될 수 있는가?
집계 점수(aggregated scores)가 다른 기관과의 비교에 사용될 수 있는가?

이 질문들에 대한 답은 전혀 다른 평가 접근법을 요구하며, 타당도(validity)와 질(quality)에 다른 함의를 갖는다.

마지막으로, 평가 활동을 추구하는 과정에서의 목표(goals)와 반목표(anti-goals), 즉 무엇이 일어나기를 바라는지, 무엇은 일어나지 않기를 바라는지를 폭넓게 고려해야 한다.

평가 대상자가 이 과정을 공정(fair), 유용(useful), 즐겁다(enjoyable)고 느끼는 것이 중요한가?
특정 이해관계자(stakeholders)가 평가 활동을 지지하고 홍보하는 것이 중요한가?
어떤 수준의 비용(costs)이 허용 가능한가?
사람들이 평가에 대해 부정적으로 반응할 가능성이 있는가? 그렇다면 이를 탐지하거나 회피하고 싶은가?
다른 기관들이 이 평가를 훌륭하다고 생각해 자신들의 기관에서도 사용하기를 바라나?

이 모든 고려 사항을 염두에 두고 나서야, 비로소 우리는 타당도(validity)와 평가의 질(quality)에 대해 논의할 수 있다. 그러나 여기에는 아직 한 가지 요소가 더 필요하다.

목적에 방법을 정합시키기 (TYING METHODS TO YOUR PURPOSES)

앞에서 의도를 정의할 때는 “완전(perfection)”을 상정할 수 있지만, 이제 그것을 실제 평가 체계(assessment system)로 조작화(operationalize)해야 한다. 즉,

관심 구인(target attribute)을 반영한다고 기대되는 관찰값을 수집할 구체적 방법(specific methods),
그 관찰값에 점수를 부여(assigning scores)하기 위한 규칙(rules),
피드백(feedback)을 제공할 형식(format),
필요한 정보 제공/대외 커뮤니케이션(public relations) 활동 등이다.

이러한 방법을 잘 선택하는 일은 본질적으로 복잡하며, 이 책의 나머지 부분이 제공하는 지침의 상당 부분을 이룬다. 다만 어떤 방법을 선택하든, 앞서 제시한 해석(interpretations), 사용(uses), 목표(goals)에 비추어 그 방법이 적절한 이유에 대한 합리적—가능하면 명시적(explicit)—논리적 근거(logical argument)를 가져야 한다. 형식 논리(formal logic)는 철학의 한 하위 분야이므로 여기서 논증 구축의 모든 측면을 안내할 수는 없다. 다행히 많은 경우 상대적으로 단순한 논리 사슬(simple chains of logic)로 충분하며, 가정(assumptions) 목록만으로도 큰 도움이 된다.

예를 들어, 3학년 의대생의 “갈등관리 기술(conflict management skill)”을 평가하기 위해 응시자가 동료나 환자를 모사한 표준화 인물(simulated colleagues or patients, 이하 SPs)과 대화하도록 했다고 하자.

한 접촉(encounter)에서는 SP가 환자에게 언어적 학대를 가한 동료를 연기할 수 있다. 응시자의 목표는 상황을 비격화(de-escalate)하고, 동료가 자신의 행동을 성찰하도록 유도한 뒤 환자에게 사과하고 배상을 하도록 만드는 것이다.
각 접촉이 끝난 뒤 SP가 채점지(score sheet)를 작성하고, 즉시 응시자에게 피드백을 제공한다고 하자.
그 결과, 이후의 임상실습(clerkships) 기간 동안 모든 응시자가 갈등관리 연습 기회를 더 잘 포착하고 역량을 향상시키길 바란다.
마지막으로, 점수가 특히 낮은 학습자에게는 수용 가능한 수행(acceptable performance)을 보일 때까지 추가 접촉(extra encounters)에 참여하도록 한다(보충(remediation)).

위와 같은 방법이 타당(valid)하고 유용한 점수를 산출하며, 전반적으로 효과적인 평가 활동으로 이어진다는 점을 뒷받침하는 충분한 논리적 가정의 사슬(chain of assumptions)은 다음을 포함할 수 있다.

관찰할 행동 루브릭(rubric of behaviors)과 각 행동에 대한 채점 규칙(scoring rules)이 실제 업무 환경에서의 효과적/비효과적 행동의 가중치를 적절히 반영해 득점을 부여한다.
각 응시자가 수행하는 접촉 수(number of encounters)와 접촉 전반에 걸쳐 나타나는 행동의 다양성(variety)이 실제 업무에서 마주칠 가능성이 큰 상황을 적절히 표집(sample)한다.
모든 응시자는 비효과적/효과적 관리 행동이 무엇인지 알고 있으므로, 평가에서 그것을 보이지 않으면 이는 지식 미진이 아니라 “기술(skill)” 부족으로 보는 것이 타당하다.
모든 응시자는 평가의 목적(purpose)을 이해한다(예: 이 접촉이 “신체적 자기방어(physical self-defense)”에 초점 맞춘 상황이라고 오해하지 않는다).
모든 SP는 숙련된 응시자가 적절히 대응하도록 유도하는 방식으로 행동을 연기한다(예: SP가 지나치게 격앙되어 응시자가 “이 사람은 위험하다, 격리하고 경찰을 불러야 한다”고 합리적으로 판단할 정도가 되지 않도록).
SP는 효과적 vs. 비효과적 응시자 행동에 현실적으로(realistically) 반응한다(예: 응시자가 실수해도 무조건 비격화되지 않으며, 초기 실수에 과잉반응하여 이후 접촉 전체를 비현실적으로 어렵거나 불공정하게 만들지 않는다).
SP의 행동은 시험일 간(day-to-day)에 유사하고, 응시자 수행도 일 간에 유사하여, 배정일자에 따른 차이가 결과에 영향을 주지 않는다.
역할을 연기하는 동안에도 SP는
a. 관련 응시자 행동을 충분히 포착(notice)하고,
b. 접촉 후에도 기억(remember)하며,
c. 정확하고 일관되게 채점(score accurately and consistently)하고,
d. 이해 가능·기억 가능하며 성찰과 개선을 유발하는 피드백을 제공할 수 있다.
응시자는
a. 피드백에 주의(attend)를 기울이고,
b. 피드백을 기억하며,
c. 수행을 개선하기 위한 효과적 계획(formulate effective plans)을 수립할 능력과 동기가 있다.
학습을 강화하기에 충분히 가까운 시점(soon enough)에 응시자는
a. 갈등관리 연습 기회를 갖고,
b. 그 기회를 인지(notice)하며,
c. 그 기회에서 새로운 행동을 시도(experiment)할 능력과 동기가 있고,
d. 추가 학습을 지지하는 피드백을 받는다(예: 동료나 감독자가 의도된 학습목표와 모순되는 피드백을 주지 않는다).
개별 접촉에서 현저히 미달한 수행 또는 여러 접촉에 걸친 미달 수행의 누적에 따라 보충(remediation) 대상이 적절히 식별된다.
보충 대상 선별 임계치(threshold)는 독립적 학습과 실천을 수용 가능 수준으로 수행할 준비가 된 집단 vs. 준비가 안 된 집단을 잘 변별한다.
보충 대상이 된 응시자는 추가 연습 기회를 가치 있게 여기며, 중대한 부정적 결과(negative sequelae)(예: 절망감, 동료로부터의 판단/고립, 교육자에 대한 대립적 태도)를 겪지 않는다.
평가 체계 전체가 허용 가능한 자원 지출(expenditures of resources) 범위 내에서 실현 가능(feasible)하다.

이 목록은 길지만, 철저함(thoroughness)에서 힘을 얻는다.

이 모든 가정이 성립한다면, 당신은 매우 타당하고 효과적인 평가 체계를 갖춘 것이다.
그러나 어느 하나라도 심각하게 무너진다면, 이후 가정들을 충족하기 어렵거나 불가능해지고, 전체 활동이 목표에 미달할 수 있다.

예컨대 SP가 응시자 행동의 포착·기억·채점·피드백 제공에서 변덕스러우면(capricious), 보충 결정에서 거짓 양성/거짓 음성(false positives/false negatives)이 많이 발생하고, 응시자는 경험으로부터 크게 배우지 못할 수 있다. 심지어 교육 환경에 대한 신뢰(trust)를 잃을 수도 있다. 그러므로 이러한 가정들을 명시하고, 그것이 성립하는지에 유의(attentive)하는 것이 중요하다—즉, 일정 수준의 “타당도 탐구(validity investigation)”와 “질 평가(quality evaluation)”를 수행해야 한다.

타당도 탐구와 질 평가 (INVESTIGATING VALIDITY, EVALUATING QUALITY)

어떤 평가 활동(assessment endeavor)이든 우리는 스스로에게 이렇게 물어야 한다. “내가 점수를 해석하고 활용하는 방식에 비추어, 내가 측정하려 했던 속성을 실제로 측정하고 있는가?” 이 질문을 체계적으로 던지고, 이를 구분할 수 있는 데이터를 탐색하는 활동을 나는 타당도 탐구(validity investigation)라고 부른다.
- (많은 사람들이 이를 “타당화(validation)”라고 부르지만, 이 용어는 결과를 확인(confirmatory)하는 쪽으로 치우치는 문제가 있다. 예를 들어, 친구가 개인적 위기에 대해 “내 감정을 validate 해줄래?”라고 말할 때, 그것이 “네 감정이 정말 타당한지 철저히 검증해주겠다”는 의미는 아닐 것이다!)
또한 우리는 이렇게도 물어야 한다. “이 평가 활동이 내가 의도했던 바를 달성하고 있는가? 부정적 결과가 과도하지 않은가?” 이는 앞선 질문과는 다소 별개의 문제이므로, 나는 이를 질 평가(quality evaluation)라 부른다. 이 용어는 실제로 묻고자 하는 바—즉, “질(quality)” 혹은 “적합성(suitability)”—을 더 잘 전달한다고 생각한다.

결국, 어떤 시험은 위의 의미에서 “타당(valid)”할 수 있으나, 용납할 수 없는 부정적 결과를 초래한다면 질이나 적합성은 낮다고 볼 수 있다. “평가(evaluation)”라는 표현은 또한 이 질문을 넓은 시각에서 바라봐야 함을 상기시킨다. 즉, 교육 및 보건의료 시스템이라는 복잡하고 혼란스러운(big, messy) 맥락 속에서, 평가가 긍정적·부정적 영향을 어떻게 미치는지를 검토해야 한다는 것이다.

지금까지 나는 의도적으로 형식적 이론이나 틀(formal theories or frameworks)을 언급하지 않았다. 그럼에도 불구하고 두 가지 점은 분명해졌을 것이다.

평가를 수행할 때 스스로에게 던져야 할 비판적 사고 질문들(critical-thinking questions)이 많다.
그 질문들은 특별히 기술적이지 않으며, 오히려 달성하려는 목표와 그 기저 가정을 고려할 때 자연스럽게 도출된다.

나는 평가 개발과 평가 자체가 공식화된 절차(formulaic)나 지나치게 기술적(technical)으로만 보이는 위험이 있다고 생각한다. 사실 그것은 논리적(logical)이어야 하고, 자신의 맥락(context)에 특화(specific)되어야 한다. 단 하나의 금본위(gold standard) 평가 설계는 존재하지 않으며, 타당도 탐구(validity investigation)나 질 평가(quality evaluation)의 보편적 최선의 설계도 없다. 모든 것은 목표와 맥락(goals and context)에 달려 있다.

그렇다고 해도, 내가 이루려는 바를 명확히 인식한다면, 기술적 기준(technical standards)과 이론적 지침(theoretical guidance)은 비판적 사고를 구조화하고, 다른 교육 전문가나 학자들과 공통 언어(commonly accepted terms)로 소통하는 데 매우 유용하다. 나 개인적으로 평가 리더십과 관리 업무를 수행할 때, 나는 먼저 “스스로 생각(thinking for myself)”한 뒤, 내 사고를 여러 이론적 틀(frameworks)에 비추어 확인한다. 이어서, 가장 영향력 있는 현대적 개념과 틀(contemporary concepts and frameworks) 몇 가지를 살펴보고자 한다.

케인의 타당도 틀: 타당도 논증 (KANE’S VALIDITY FRAMEWORK: THE VALIDITY ARGUMENT)

최근 널리 영향력을 끌고 있는 타당도(validity) 틀 가운데 하나는 Kane(2013)이 제안한 것이다. Kane은 미국에서 여러 대규모 표준화 시험을 운영하는 Educational Testing Service (ETS)의 학자다. 보건의료인 교육에 특화된 Kane의 틀에 대한 가이드도 존재한다(Cook, Brydges, Ginsburg, & Hatala, 2015). 이 틀이 기존 평가 타당도 사고에 기여한 가장 중요한 새로운 점은, 평가 목적(your purposes)과 그에 긴밀히 연결된 논증(argument)에 초점을 맞춘다는 것이다. Kane은 평가 목적 진술과 그 기저 가정을 “해석/사용 논증(interpretation/use argument, IUA)”이라고 부르며, 이는 앞서 설명한 가정 목록(list of assumptions)과 유사하다. 이 IUA를 논리와 데이터로 철저히 검토하면, 그것이 바로 Kane이 말하는 “타당도 논증(validity argument)”이 된다.

Kane은 모든 경우에 최소한 고려해야 할 네 가지 범주의 가정(또는 추론, inferences)을 제시하며, 이를 좁은 범위에서 넓은 범위 순으로 배열한다.

채점(Scoring): 관찰된 점수가 응시자가 경험한 평가에서의 수행(performance)을 정확히 반영한다.
일반화(Generalization): 관찰된 점수가 응시자의 “우주 점수(universe scores)”—즉, 평가 조건의 사소하고 무관한 변인들(다른 문항, 채점자, 요일, 응답 형식 등)이 모두 달라져도 얻을 수 있는 가상의 점수—를 편향 없이, 신뢰성 있게 반영한다.
외삽(Extrapolation): 관찰된 점수가 우리가 실제로 중요하게 여기는 수행(performance)을 적절히 예측한다(예: 평가에서의 모의환자(simulated patients)가 아닌 실제 환자(real patients)와의 임상 추론 능력).
결정(Decisions): 관찰된 점수가 편향을 도입하지 않고 의사결정(decisions)을 적절히 뒷받침하며, 평가의 영향을 받는 모든 사람에게 적절한 결과(consequences)를 이끈다.

앞서 다룬 예시의 여러 가정들은 Kane의 추론 범주에 대응시킬 수 있다.

만약 응시자가 효과적인 갈등관리 행동(conflict-management behaviors)을 보였음에도 SP가 그것을 포착·기억·채점하지 못한다(가정 8a–c)면, “채점(Scoring)” 추론이 손상된다. 즉, 평가에서 수행이 일어났지만 점수에 반영되지 않은 것이다.
시험이 치러진 요일이 점수와 관련된다면(예: 금요일 시험 응시자는 추가 시험 때문에 스트레스를 받는다든지, 초기 응시자가 이후 응시자에게 힌트를 준다든지), 이는 가정 7을 위반하고 “일반화(Generalization)” 추론을 훼손한다. 사소한 시험 절차가 부적절하게 점수에 영향을 미친 것이다.
평가 경험에서의 단서와 도전(cues and challenges)이 실제 세계의 갈등관리에서 중요한 단서와 도전에 대응하지 않는다면(가정 2), “외삽(Extrapolation)” 추론이 손상된다. 즉, 평가 수행이 실제 관심 구인(real-world attribute of interest)을 반영하지 못한다.
보충(remediation) 결정 규칙이 거짓 양성/거짓 음성(false positives/false negatives)을 많이 산출하거나, 사실상 모든 응시자가 보충에서 똑같은 이득을 얻는다면(가정 11–13), “결정(Decisions)” 추론이 손상된다. 점수가 더 나은 의사결정이나 결과를 지지하지 못하는 것이다.

Kane의 틀 외에도 그의 저작에서 얻을 수 있는 중요한 통찰이 많다. 특히 위안이 되는 점은, Kane이 경계 없는(boundaryless) 타당도 탐구를 권장하지 않는다는 것이다. 대신 반드시 IUA를 명확히 진술한 뒤, 다음 네 가지 질문을 던지라고 한다.

a) 가장 취약한 가정(weakest assumptions)은 무엇인가? (사전 불확실성, prior uncertainty)
b) 어떤 가정에 대해 연구가 구분력 있는 답(discriminating answers)을 줄 수 있는가? (정보 산출, information yield)
c) 그 연구는 얼마나 실행 가능하고 비용이 적정한가? (affordability)
d) 그 불확실성 해소가 의사결정자들의 고려에 얼마나 큰 영향을 미칠 것인가? (지렛대 효과, leverage; 혹은 “정치적 산출(political yield)”)

이 네 가지 질문에 대한 답을 곱해보면, 특정 가정을 실증적으로(empirically) 검증하기에 적합한지 가늠할 수 있다. 즉, 어떤 가정에 대해 이 질문들의 답이 사실상 “0”이라면, 그 가정은—적어도 지금은—실증적으로 검증할 필요가 없다.

표 2.1(Table 2.1)은 병력청취(history taking)와 신체검진(physical examination) 능력을 평가하는 SP 기반 객관구조화임상시험(Objective Structured Clinical Examination, OSCE)에 대한 해석/사용 진술과, 핵심 추론(inferences)에 대한 여러 고려 사항을 보여준다.

표 2.1 객관구조화임상시험(OSCE)에 대한 해석 및 사용 진술 예시와 선택된 해석/사용 논증 고려사항

Interpretation and Use Statement (해석 및 사용 진술):

“우리의 목표(goals)는 모든 학생이 USMLE Step 2 Clinical Skills Examination을 통과할 준비가 되어 있도록 보장하고, 임상실습(clerkships) 중에 흔히 나타나는 환자 질환에 대해 기본적인 병력청취(history)와 신체검진(physical examination) 능력을 적용할 수 있도록 하는 것이다.

이러한 목표를 달성하기 위해, 우리는 3학년 의대생들이 40가지 흔한 기저 질환(common underlying conditions)을 가진 환자에게 적절한 병력청취 및 신체검진을 수행할 수 있는 능력을 측정하려 한다. (환자 진단 및 초기 추후 계획을 포함한 적절한 환자 노트 작성 학습은 별도의 평가를 통해 지원할 것이다.)

우리는 이를 위해 학생들에게 표준화환자(standardized patients, SPs)와의 8가지 다른 접촉(encounters)에서 병력청취와 신체검진을 수행하도록 할 것이다. 각 접촉에는 해당 사례(case)에 특화된 병력 질문(history questions)과 신체검진 절차(physical examination maneuvers) 체크리스트(checklist)가 준비되어 있으며, 접촉이 끝난 후 표준화환자가 이 체크리스트를 작성한다.

8개의 접촉이 모두 끝난 후, 각 학습자의 점수는 합산되어 이메일로 전달된다. 어떤 접촉에서라도 사전에 설정된 합격 기준점(cut score) 미만의 점수를 받은 학습자는 해당 접촉을 다시 치러야 한다. 만약 세 개 이상의 접촉에서 cut score 미만을 기록한 경우, 전체 8개 접촉을 모두 다시 치러야 한다. 그러나 재시험(retake) 기회는 며칠 이내 소수만 제공되며, 가장 많은 접촉에서 cut score 미만 점수를 받은 학생에게 우선적으로 재시험 일정이 배정될 것이다.”

모든 가정을 검증할 수는 없음 (Not All Assumptions Need Testing)

모든 가정에 대한 데이터를 수집하는 것은 불가능하며, 그 자체로도 괜찮다. 변호사가 법적 논증을 구성할 때도 배심원이 논리적으로 분명한 가정(logical assumptions)은 그대로 받아들일 것이라 기대하면서, 덜 분명한 가정(least obvious assumptions)에 대해서만 증거(evidence)를 제시하는 것과 같다. 따라서 타당도 논증(validity arguments)에는 아직 검증되지 않은 가정과 그 이유를 명시적으로 언급해야 하며, 특정 가정을 검증하지 않기로 한 현명한 선택(wise decisions)에 대해 죄책감을 가질 필요가 없다.

예를 들어, 심전도 판독 능력(ECG interpretation skill) 학습 곡선을 평가하는 최근 논문에서 Hatala, Gutman, Lineberry, Triola, 그리고 Pusic (2018)은, 이용 가능한 데이터의 제약과 IUA(interpretation/use argument)에 내재된 복잡성 때문에 “일반화(Generalization)” 추론을 검증할 수 없음을 명확히 밝혔다. (학습 곡선을 분석한다는 것은 개별 시점(points in time)이 아니라 연속적 변화 과정을 다루는 것으로, 새롭고 아직 해결되지 않은 개념적 문제가 있었다.)

따라서 평가 연구의 검토자(reviewers)와 사용자(consumers)는 불가능하거나 불필요하게 포괄적인 타당도 탐구를 기대해서는 안 된다. 대신, 명확한 IUA 진술과 신중한 데이터 수집을 가치 있게 여겨야 한다. 마찬가지로, 사용자가 평가 체계에 아주 작은 변화를 주었을 때 굳이 “처음부터 다시(start from scratch)” 타당도 탐구를 시작하거나, 새로운 데이터를 반드시 수집해야 한다고 느낄 필요도 없다.

메식의 타당도 틀: 증거의 원천 (MESSICK’S VALIDITY FRAMEWORK: SOURCES OF EVIDENCE)

Kane 이전의 학자 Samuel Messick은 타당도 틀을 제시한 인물로, 이는 현재 미국교육연구협회(AERA), 미국심리학회(APA), 교육측정협의회(NCME)가 공동 발간한 교육 및 심리학적 검사 표준(Standards for Educational and Psychological Testing, 2014)의 지배적 틀이 되었다. Messick(1995)의 타당도 사고는 흔히 다섯 가지 타당도 증거의 원천(five sources of “validity evidence”) 정의와 함께 언급된다.

내용 증거(Content evidence): 평가 과제(tasks), 문항 표현(phrasing of items), 수행 과제 형식(performance challenges), 채점(scoring)이 목표 속성과 적절히 정렬되어 있는가?
반응 과정 증거(Response process evidence): 응시자가 과제에 반응할 때의 인지(cognitions)와 행동(behaviors)이 점수의 해석 및 사용 의도와 일치하는가? 채점자(raters)나 관찰자(observers)의 인지와 행동도 일치하는가?
내적 구조 증거(Internal structure evidence): 평가 내 문항 점수들이 의도된 해석 및 사용에 따라 서로 관계하는가? (예: 동일 속성을 측정하도록 설계된 문항들이 실제로 서로 상관을 보이는가?)
타 변수와의 관계 증거(Relations to other variables evidence): 점수가 예측하려는 속성이나 유사한 구인의 측정치와 연관되는가? 동시에 개념적으로 다른 변인(irrelevant variables, 예: 성별·인종 등)과는 연관되지 않는가?
결과 증거(Consequences evidence): 점수의 해석과 사용이 적절한 긍정적 결과를 낳고 부정적 결과를 최소화하는가?

Messick의 후속 작업(1995)에서는 여섯 번째 증거 원천으로 일반화 가능성(generalizability)을 언급했으며, 이는 신뢰도(reliability)와 동의어라 보았고 “구인 타당도의 한 측면(aspect of construct validity)”이라고 주장했다. 그러나 공동 Standards (2014)에서는 신뢰도를 “점수의 독립적 특성(an independent characteristic of test scores)”으로 다루되, 타당도에 대한 함의(implications for validity)가 있다고 언급하면서 별도 장으로 분리했다.

이로 인해 혼란(confusion)이 생겼고, 신뢰도 관련 증거를 어떻게 분류할지에 대한 다양성이 여전히 존재한다. 예컨대, 일부 의학교육(HPE) 논문들은 신뢰도를 “내적 구조 증거”와 함께 다루기도 한다(Cook et al., 2014; Downing, 2003). 그러나 신뢰도는 개념적으로 내적 구조와는 구분된다. 예를 들어, 문항 간 관계가 이론과 일치할 수 있으나, 채점의 신뢰도가 낮을 수 있고(Cortina, 1993; Schmitt, 1996), 그 반대의 경우도 가능하다.

표 2.2 (Table 2.2)는 Messick의 틀에서 각 범주에 해당하는 일반적 증거 유형을 나열하며, 명확성을 위해 “일반화/신뢰도(Generalizability/Reliability)”를 여섯 번째 범주로 분리한다. 이는 마치 메뉴(menu)와 같아서, IUA를 통해 논쟁적·불확실한 가정(controversial or uncertain assumptions)이 드러날 때 선택할 수 있는 증거 유형을 보여준다.

Kane의 추론(inferences) 중 어느 것을 고려하는가에 따라 Messick의 “메뉴 옵션(menu options)” 중 더 관련성이 높은 항목들이 있다.

경우에 따라서는 매우 직관적이다.
- Kane의 “일반화(Generalization)” 추론은 보통 Messick의 “일반화/신뢰도 증거(Generalizability/Reliability evidence)”를 요구한다.
- Kane의 “결정(Decision)” 추론은 전적으로 “결과 증거(Consequences evidence)”를 요구하는 듯하다.
그러나 다른 경우에는 Kane의 추론과 Messick의 증거 원천이 단순하게 매핑되지 않으므로, 특정 추론마다 Messick의 다양한 증거 원천을 광범위하게 고려하는 것이 가장 안전하다(Cook & Hatala, 2016).

예를 들어, Kane의 “채점(Scoring)” 추론을 검증하기 위해 Messick의 다양한 증거 원천이 관련된다.

적절한 채점 기준(scoring key) 설정 → Messick의 내용 증거(Content)
관찰의 정확성(accurately making observations) → 반응 과정 증거(Response process)
총점에 문항들을 합산할 정당성(justification for items combined into total score) → 내적 구조 증거(Internal structure)

Kane의 “외삽(Extrapolation)” 추론을 검증하기 위해서는:

시험 점수가 환자 결과(patient outcomes) 같은 중요한 실제 기준(real-world criterion)과 연관되는지 확인 → 타 변수와의 관계 증거(Relations to other variables)
문항 설계 청사진(blueprint)이 실제 세계에서 중요한 영역(domains)과 잘 부합하는지 확인 → 내용 증거(Content)

Messick의 틀은 현재 의학교육 연구자와 실무자(HPE scholars and practitioners)에게 가장 친숙한 타당도 프레임워크일 것이다. 그러나 실제로는 HPE 연구에서 인용 빈도가 높지 않다. 예컨대, 시뮬레이션 기반 평가 연구 검토에서 Messick의 틀은 단지 3%의 보고서에서만 적용되었다(Cook et al., 2014).

Messick 틀의 핵심 약점은 두 가지다.

타당도 증거의 원천을 어떻게 우선순위화(prioritize)하고 목적과 연결해야 하는지에 대한 관심이 부족하다(Cook & Hatala, 2016).
서로 다른 증거 원천이 논리적 사슬(logical chain) 속에서 어떻게 상호 지지해야 하는지에 대한 설명이 부족하다.

이러한 한계로 인해, 연구자들이 다섯 가지 Messick 원천에서 각각 최소 하나씩 증거를 모으는 데만 집중하고, 실제로는 논쟁적 가정에 대해 구분력 있는(discriminating) 증거를 수집하지 못하는 경우가 생기기도 한다. 따라서, 논리적 구조를 안내하는 Kane의 틀과, 잠재적 증거 원천을 광범위하게 고려하게 하는 Messick의 틀을 결합하는 것이 가장 강력한 접근이 된다.

평가 프레임워크 (EVALUATION FRAMEWORKS)

평가의 광범위한 결과(consequences)에 대한 검토는 지금까지의 평가 학문과 실제에서 다소 사후적(afterthought)으로 다뤄졌으며, 연구에서 보고되는 경우도 드물다(Cook et al., 2014). 이는 과거에 결과를 다른 타당도 고려 요소들과 결합하려는 시도가 가져온 개념적 혼란(conceptual confusion) 때문일 수 있다. 결국, 타당도(validity)가 “측정하려 했던 것을 실제로 측정하는 것(measuring what one meant to)”을 의미한다면, 단순히 시험 비용이 너무 비싸다는 이유로 시험이 “타당하지 않다(invalid)”고 말하는 것은 어색하기 때문이다.

이에 대해 Borsboom et al. (2004), Cizek (2012), Shadish, Cook, and Campbell (2002), van der Vleuten (1996) 등은 평가 해석과 사용의 결과를 논할 때 “정당화(justification), 전반적 질(overall quality), 유용성(utility)” 같은 용어를 사용할 것을 제안했다.

Cook & Lineberry의 결과 평가 틀

Cook과 Lineberry(2016)는 평가 해석과 사용의 잠재적 결과를 식별하기 위한 프레임워크를 제시했는데, 이는 학자들이 결과가 발생할 수 있는 다양한 방식(diverse ways)을 구상하도록 돕기 위한 것이다. 이 틀을 약간 수정하여 제시하면, 어떤 결과(consequence)든 고려해야 할 네 가지 주요 차원이 있다.

결과의 수혜자(recipients of consequences): 응시자(examinees), 교육자(educators)에서부터 사회 전체(society at large)에 이르기까지 다양하다.
결과 발생 시점(timing): 결과는 평가 예상(anticipation of an assessment), 평가 수행(activity of completing an assessment), 평가 후 점수 해석 및 사용(interpretation and use of scores after an assessment) 단계에서 유발될 수 있다.
의도 여부(intended vs. unintended): 결과는 의도된 것일 수도 있고 의도치 않은 것일 수도 있다.
결과의 가치(beneficial and/or harmful): 각 수혜자의 관점에서 그 결과가 이로운지, 해로운지 평가한다.

사실상, 결과는 타당도(validity)와 질(quality)을 고려하는 데 있어 가장 중요한 측면이라고 할 수 있다. 평가가 당신이 원하는 것을 달성하지 못하거나, 심각한 문제를 야기한다면, 아무리 정확하다 해도 쓸모가 없기 때문이다.

의도치 않은 결과의 함의

의도치 않은 결과(unintended consequences)는 특히 중요한 시사점을 갖는다. 잘 설계된 타당도 논증에서는 일반적으로, 논쟁적 가정을 검증하기 위해 필요한 데이터가 무엇인지 사전에(prospectively) 규정할 수 있다. 그러나 평가 결과에 대해서는, 예상하지 못한 효과를 탐지할 수 있도록 반드시 넓은 범위의 자료 수집(cast a “wide net”)이 필요하다.

예를 들어, 단순히 응시자(examinees)뿐만 아니라 다양한 이해관계자(stakeholders)의 관점을 비교적 개방형(open-ended)으로 수집하는 방식이 포함될 수 있다.

예방적 관점 갖기: 타당도 위협 이해하기
(TAKING A PREVENTION FOCUS: UNDERSTANDING THREATS TO VALIDITY)

평가 타당도 탐구(validity investigation)와 질 평가(quality evaluation)는 논리적 과정(logical process)이므로, 전형적인 논리적 오류(logical fallacies)를 포함할 수 있다. 즉, 가정이 성립하지 않거나 의도치 않은 영향이 해석에 침투하는 경우인데, 이를 타당도 위협(threats to validity)이라고 부른다. 주요 타당도 프레임워크에 사고를 비추어보는 것이 유용하듯, 일반적인 타당도 위협 목록을 검토하고 해당 맥락에서 발생할 수 있는지를 확인하는 것도 중요하다.

가정(assumptions)은 “일어나기를 기대하는 것”이고,
위협(threats)은 “그것이 일어나지 않을 수 있는 방식”이다.

타당도 위협은 두 가지 기본 범주로 구분할 수 있다.

구인 무관 분산(Construct-irrelevant variance, CIV): 점수가 목표 속성(target attribute) 이외의 요인에 의해 영향을 받을 때 발생한다.
- 예: “진단 정확도(diagnostic accuracy)”를 평가하려 했는데, 사례 설명(case descriptions)이 미국 동북부 지역 사람들에게만 익숙한 속어(slang)를 사용한다면, 사실상 이 시험은 “응시자의 지역(location)”을 측정하게 된다.
구인 과소 대표(Construct underrepresentation, CU): 점수가 목표 속성의 일부만 반영하고 중요한 부분을 놓칠 때 발생한다.
- 예: “진단 정확도”를 폭넓게 평가하려 했는데, 당뇨(diabetes)와 저혈압(hypotension) 사례만 포함한다면, 다른 흔한 진단에서의 수행은 반영되지 않는다. 이는 목표 속성의 하위 범주 표집에 실패한 사례다. 또한 단순히 데이터 포인트를 너무 적게 수집(under-sampling)하는 경우에도, 체계적 편향이 없어도 과소 대표가 될 수 있다.

“타당도(validity)”와 “질(quality)”이 구별되는 개념이므로, 평가 결과(consequences)의 측면에서 “질 위협(quality threats)”도 생각해볼 필요가 있다.

예: 어떤 시험이 매우 비싸다면, 그것이 측정 타당도를 위협하지는 않더라도, 실행 가능성을 떨어뜨려 전반적 질을 낮춘다.

표 2.3 (Table 2.3)은 IUA(Interpretation/Use Argument) 논리 내에서 어떻게 붕괴가 일어날 수 있는지에 따라 58가지 구별되는 타당도 및 질 위협을 정리한다. 그러나 이 긴 목록조차도 포괄적이지 않으며, 특히 “결정 & 결과(Decisions & Consequences)” 범주에서는 더욱 그렇다. 학계가 결과를 더 면밀히 검토할수록, 여기에서 더 많은 공통 관심사(concerns)가 발견될 것이다. 따라서 독자들이 자신의 평가 활동을 검토할 때 이 위협들을 신중히 살펴봄으로써, 개선 기회(spot opportunities for improvement)를 찾을 수 있기를 바란다.

긍정적 시각으로 마무리하기

다소 결함이 있는 평가라 하더라도—여러 위협이 실제로 존재하더라도—여전히 활용 가능(suitable for use)할 수 있음을 인식하는 것이 중요하다. “얼마나 타당하면 충분한가(how valid is valid enough)?” 또는 “얼마나 좋으면 충분한가(how good is good enough)?”라는 질문에 대한 단순한 정답은 없다.

국가 단위의 면허시험(national licensing exam)처럼, 의료인의 생계(livelihood)와 환자 안전(patient safety)에 직접적 영향을 미치는 경우에는, 결정이 적절하고 방어 가능함을 보장하기 위해 매우 높은 수준의 증거(high level of evidence)가 요구된다.
반대로, 로컬 과정 수준의 형성평가(local, course-level formative assessment)나 간단한 퀴즈는, 주요 위협만 다루는 덜 포괄적인 타당도 검토로도 충분할 수 있다.

제16장(Programmatic Assessment)과 제17장(Assessment Affecting Learning)은 측정의 엄격성(rigor)과 교육적 피드백의 목적 간 균형을 다루며, 이 문제에 대한 추가적인 통찰을 제공한다.

결론적 고찰 (CONCLUDING THOUGHTS)

보건의료인 교육에서의 평가 타당도와 질은 효과적인 학습(fostering effective learning), 안전한 환자 진료(safe patient care), 그리고 보건의료인의 웰빙(well-being)을 촉진하는 데 핵심적이다. 우리는 비판적 사고(critical thinking), 견고한 개념적 틀(conceptual frameworks), 증거(evidence)를 보다 일관되고 엄밀하게 사용하여 평가 실천을 이해하고 개선할 수 있는 기회를 가지고 있다. 추가 자료와 리소스는 UIC AHPE 웹사이트에서 확인할 수 있다: https://go.uic.edu/AHPE

해석 방법: [가정]을 만족한다면, 타당도 관점에서 [채점/일반화/외삽/결정]이 잘 되었다고 할 수 있다.

예: [학습자가 개선이 필요한 영역을 기억하여 미래에도 이를 인식하고, 연습 기회를 찾아본다]면, 타당도 관점에서 [결정(Decision)]이 잘 되었다고 할 수 있다.

Scoring (채점)

예시 가정 (Example assumption):
- 각 사례(case)의 병력청취(history) 및 신체검진(physical examination) 체크리스트에는 안전하고 효과적인 진료에 필요한 모든 항목이 포함되어 있으며, 불필요한(nonessential) 항목은 없다.
예시 고려사항 (Example consideration):
- “우리는 이 체크리스트를 개발하는 컨소시엄에 속해 있고, 다수의 임상의가 이를 검토했기 때문에, 이 가정은 충족되었다고 꽤 확신한다. 다만 최근 연구에서는 잘 설계된 체크리스트조차 중요한 항목을 빠뜨릴 수 있다는 보고가 있었다. 그럼에도 새로운 데이터를 수집하지 않고도 일정 부분의 위험을 수용할 수 있다고 생각한다.”

Generalization (일반화)

예시 가정 (Example assumption):
- 표준화환자(SPs)가 학습자가 적절한 병력 질문과 신체검진 절차를 인식하게끔 유도해야 하는 단서를 일관되게 보여준다.
예시 고려사항 (Example consideration):
- “우리는 SP들에 대한 철저한 훈련을 실시하지만, 그들의 수행 일관성(performance consistency)에 대한 우려를 들은 적이 있다. 학생 조교가 몇 개의 접촉(encounters)을 표본으로 관찰하여 단서가 일관되게 제시되는지 확인할 수 있다. 이는 비용이 적고(inexpensive) 유용한 정보를 제공할 수 있으며, 문제가 발견되면 SP 재훈련을 강화하는 식으로 해결할 수 있다. 따라서 이 데이터는 수집하는 것이 좋겠다.”

Extrapolation (외삽)

예시 가정 (Example assumption):
- SP 접촉에서 제시되는 수행 과제(performance challenges)가 실제 환자 진료 상황에서의 과제와 밀접하게 대응한다.
예시 고려사항 (Example consideration):
- “대부분의 신체검진 절차는 실제로 재현되지 않는다. 예컨대 SP는 심음(cardiac rhythm)을 조작할 수 없으므로, 학생에게 ‘환자가 이렇게 말했다’는 식으로 설명해야 한다. 또한 SP의 의사소통 스타일이 실제 환자와 일치하는지도 확신할 수 없다. 우리는 사례의 충실도(fidelity)를 학습자가 실제 임상실습에서 경험하는 것과 비교해볼 수 있다. 예를 들어 구조화된 인터뷰(structured interviews)를 활용할 수 있다. 다만 적절한 질문을 도출하기까지 시간이 걸릴 수 있다. 만약 이 과정을 교육학 석사 과정 학생의 논문 프로젝트로 포함시킨다면, 비용 측면에서도 감당 가능하고 실행할 수 있으며, 유용한 정보를 제공할 수 있다.”

Decisions (or “Consequences”) (결정 또는 결과)

예시 가정 (Example assumption):
- 학습자는 개선이 필요한 영역을 기억하여 미래에도 이를 인식하고, 연습 기회를 찾아본다.
예시 고려사항 (Example consideration):
- “한 논문에서 학습자들이 OSCE로부터 받은 피드백을 자주 기억하지 못한다는 사실을 읽었다. 그래서 이 가정이 걱정된다. 우리 학습자 모두가 이 OSCE 이후 다른 시뮬레이션에서 설문조사를 완료하므로, 우리는 그들에게 ‘이번 OSCE와 관련해 기억나는 학습 포인트 상위 두 가지’를 기록하게 할 수 있고, 이를 초기 피드백 이메일과 대조할 수 있다. 데이터 수집은 쉽지만, 대조 작업은 어려울 수 있다. 왜냐하면 학습자가 동일한 피드백 내용을 다른 방식으로 표현할 수 있기 때문이다. 그러나 이는 소규모 연구나 캡스톤 프로젝트의 주제가 될 수 있으며, 설문 응답 코딩을 맡을 인력을 찾을 수도 있다. 만약 학습자들이 실제로 피드백을 잘 기억하지 못한다면, 피드백 공유 방식을 더 기억에 남는 형태로 바꿀 수 있다. 예를 들어, 교수와의 포멀 리뷰(formal review) 세션을 통해 피드백을 제공하는 방법 등이 있다.”

이 표(Table 2.2)는 Messick의 타당도 증거 틀에 따른 서술형 예시를 정리한 것으로, 필기시험(written examinations)과 수행시험(performance examinations) 각각에서 어떤 증거를 제시할 수 있는지를 보여줍니다. 표를 그대로 옮기지 않고, 항목별 서술형으로 풀어서 충실히 번역해드리겠습니다.

Messick의 타당도 증거 틀: 필기시험과 수행시험에서의 예시 (Table 2.2 번역)

1. 내용(Content) 증거

필기시험 예시:
- 평가 청사진(assessment blueprint)에서 각 문항이 다루는 영역 비율과 그 상대적 중요도 간의 일치 정도
- 문항 개발 사양(specifications)과 절차(processes)의 질
- 실제 문항 개발 사양과 절차에의 충실도(adherence)
- 문항 작성자의 전문성, 관련 경험, 훈련 여부
- 의도된 구인(construct)과 문항 형식의 일치 여부 (예: “기억(memory)”을 평가하는 문항 vs. “적용(application)”을 평가하는 문항의 적절한 형식)
- 학습자 집단 성취 수준에 비추어 관찰된 문항 난이도의 적절성
수행시험 예시:
- 평가 청사진과 기저 질환(disease states), 과제(challenges) 간의 일치 정도
- 시뮬레이션 기반일 경우: 사례 개발과 시뮬레이션 절차의 질
- 시뮬레이션 기반일 경우: 사례 개발과 시뮬레이션 절차에의 충실도
- 문항 작성자의 전문성, 관련 경험, 훈련 여부
- 의도된 구인과 수행 형식(performance format)의 일치 여부 (예: “정맥 천자(cannulation)를 하겠다”고 말하는 대신 실제로 시술을 요구하는 형식)
- 학습자 집단 성취 수준에 비추어 관찰된 사례나 난이도의 적절성

2. 반응 과정(Response Process) 증거

필기시험 예시:
- 응시자와 함께 “생각 말하기(think aloud)” 기법 또는 직접 관찰을 사용하여, 응답이 의도된 구인을 반영하는지 확인 (예: 문항의 애매한 표현이나 무관 단서로 인한 혼동이 없는지, “cheat sheet” 사용이 없는지 등)
- 채점자(raters)가 수기로 채점하는 응답(예: 에세이)에 대해 “생각 말하기”를 사용하여, 평가가 의도된 구인을 반영하는지 확인 (예: 글자 수와 같은 무관 단서에 의존하지 않는지)
- 점수 처리 과정의 품질 관리(예: 필기 응답을 디지털 데이터로 변환하기 위한 스캐닝 과정 확인)
수행시험 예시:
- 응시자에게 “생각 말하기”를 하게 하여, 응답이 의도된 구인을 반영하는지 확인 (예: 시뮬레이션된 사례의 미흡한 부분이나 무관 단서로 인해 수행이 왜곡되지 않았는지)
- 수행 평가 채점자(performance raters)가 “생각 말하기”를 하여, 채점이 의도된 구인을 반영하는지 확인 (예: 학습자의 겉보이는 자신감(apparent confidence)과 같은 무관 단서에 영향받지 않는지)
- 점수 처리 과정의 품질 관리(예: 컴퓨터 기반 총점 계산 과정의 확인)

3. 내적 구조(Internal Structure) 증거

필기시험 예시:
- 문항 간 내부 일관성 추정치(예: Cronbach의 알파 계수)
- 총점 및 하위 점수(subscores) 사용과 일치하는 탐색적/확인적 요인분석
수행시험 예시:
- 사례 및 관찰 문항 간 내부 일관성 추정치(예: Cronbach의 알파 계수)
- 총점 및 하위 점수 사용과 일치하는 탐색적/확인적 요인분석

4. 타 변수와의 관계(Relations to Other Variables) 증거

필기시험 예시:
- 유사하거나 비관련 변인과 점수 간의 적절한 연관성 확인 (예: 성별, 인종 등에 따른 차별이 없음을 보여주는 차별적 문항 기능 연구(differential test functioning studies))
수행시험 예시:
- 유사하거나 비관련 변인과 점수 간의 적절한 연관성 확인 (예: 평가 점수와 임상 환경에서의 수행 간의 긍정적 상관)

5. 결과(Consequences) 증거

필기시험 예시:
- 합격/불합격 과정과 결정의 적절성
- 응시자에 대한 영향 (예: 지식·기술·태도·동기·웰빙의 변화)
- 교육자에 대한 영향 (예: 교수 중 내용 초점 변화, 평가 결과를 바탕으로 한 개별화 지도 등)
- 더 넓은 효과 (예: 환자의 진단 정확도 향상)
- 의도치 않은 결과의 탐지 (긍정적 혹은 부정적)
수행시험 예시:
- 합격/불합격 과정과 결정의 적절성
- 응시자에 대한 영향 (예: 지식·기술·태도·동기·웰빙의 변화)
- 교육자에 대한 영향 (예: 교수 중 내용 초점 변화, 학습자 개별화 지도 등)
- 더 넓은 효과 (예: 환자 시술 시 멸균 절차 개선)
- 의도치 않은 결과의 탐지 (긍정적 혹은 부정적)

6. 일반화 가능성/신뢰도 (Generalizability/Reliability) 증거

필기시험 예시:
- 목표 내용 영역을 충분히 표집할 수 있는 적절한 문항 수
- 시간이 지남에 따라 발생하는 구인 무관 변동(construct-irrelevant variation)을 표집할 수 있는 충분한 평가 기회 수
- 수기 채점이 필요한 경우, 채점자 변동을 표집할 수 있는 충분한 채점자 수
수행시험 예시:
- 목표 내용 영역을 충분히 표집할 수 있는 충분한 사례와 문항 수
- 시간이 지남에 따라 발생하는 구인 무관 변동을 표집할 수 있는 충분한 평가 기회 수
- 채점자 변동을 표집할 수 있는 충분한 채점자 수

주석

타당도 문헌에서는 일반화 가능성(generalizability)/신뢰도(reliability)가 타당도의 한 측면으로 간주되어야 하는지에 대한 일관성이 부족하다. 그러나 보건의료 교육 평가 연구에서는 일반적으로 Messick의 틀 안에서 내적 구조 증거(internal structure validity evidence)와 함께 일반화 가능성/신뢰도를 다룬다(Downing, 2003).

Table 2.3 평가 타당도 및 질에 대한 선택된 위협 (Selected Threats to Assessment Validity and Quality)

(CIV = construct-irrelevant variance, 구인무관 변산 / CU = construct underrepresentation, 구인 과소대표)

Scoring (채점)

1. 채점 기준의 정확성 (Accuracy of scoring key)

가정: 응시자의 행동이나 선택에 부여되는 점수가 실제 세계에서 그것이 얼마나 올바른지를 반영한다.

잘못된 증거나 내용 전문가의 잘못된 믿음을 바탕으로 한 정답 키 (CIV)
제한된 증거나 전문성에 근거한 정답 키 (CU)
여러 답변이 모두 타당할 수 있음에도 불구하고 단일 “정답”으로만 점수를 제한하는 경우 (CU)
항목 수준 점수의 가중치 부여 실패, 예: 즉각적인 “불합격” 결정을 초래해야 하는 항목을 구분하지 못함 (CU)

2. 자극의 경험과 해석 (Experience and interpretation of stimuli)

가정: 문항, 사례 설명, 시나리오와 상호작용이 모든 응시자에게 유사하게 경험되고 해석된다.

읽기 능력 차이로 인한 구인무관 차이 (CIV)
문화 집단에 따른 개념 해석 차이 (CIV)
배우나 시뮬레이터의 시나리오 묘사 불일치 (CIV)
체계적(systematic) 불일치는 특히 문제가 됨. 예: “응시자의 수행이 낮을 때마다 문항/사례가 더 쉽거나 어려워지는 경우”

3. 응답 선택지의 해석 (Interpretation of response options)

선택형 평가(selected-response): 모든 응시자가 응답 선택지를 유사하게, 정확하게 해석한다.
서술형 평가(free-response): 모든 응시자가 허용 가능한 행동을 유사하게, 올바르게 이해한다.

위협:

읽기 능력 차이로 인한 구인무관 차이 (CIV)
문화 집단에 따른 개념 해석 차이 (CIV)
시뮬레이션 기반 또는 컴퓨터 매개 환경에 대한 응시자 간 친숙도 차이 (CIV)

4. Examinee Response Process (응시자 반응 과정)

가정: 응시자의 인지와 행동은 우리가 가정한 구인이 어떻게 반응을 이끄는지에 대한 이론과 일치한다.

추측(guessing) (CIV)
부정행위(cheating) (CIV)
게임화(gaming), 즉 채점의 약점을 이용:
- 선택형 문항(MCQ)에서 미묘한 표현 차이를 탐지
- 배우의 행동 중 단서를 감지하여 의도된 반응을 예측 (CIV)
평가 목적의 불분명함: 일부 응시자가 리더십을 평가하는 시나리오를 의학 지식을 평가하는 것이라 오해 (CIV)
수행 단서 부족: 지나치게 모호한 상황 (CIV)
수행 단서 과다: 너무 명백하여 정답이 드러나는 경우 (CU)

5. Rater Response Process (채점자 반응 과정)

가정: 채점자의 인지와 행동은 우리가 가정한 방식대로 행동을 분류하고 점수를 부여한다.

채점자의 편향(biases): 과도한 관대/엄격/중앙경향, 첫인상 편향, 채점자 간 차이, 피험자 간 비교효과 (CIV)
채점자 훈련 부족/불일치 (CIV)
부적절하거나 불명확한 채점 규칙 (CIV)
채점자의 주의산만, 피로 (CIV)

6. Internal Structure (내적 구조)

가정: 개별 문항/사례가 서로 예상대로 관련되어 총점(또는 복합 점수) 계산이 적절하다.

항목 간 내적 일관성 부족 (CIV)
또는 구인 잘못 명세(construct mis-specification): 총점이 사실상 두 개 이상의 다른 구인을 반영하나, 이들이 서로 일관(coherent)되지 않는 경우
주석: 모든 경우에 항목/사례 간 내적 일관성이 반드시 필요하지는 않음.

Generalization (일반화)

1. 문항/사례 표집 (Item/case sampling)

가정: 충분한 문항/사례를 표집하여 일관된 점수를 얻는다.

표집 부족, 특히 응시자의 특정 사례 반응 능력이 크게 다를 때 (CU)

2. 채점자 표집 (Rater sampling)

가정: 충분한 채점자가 응시자를 관찰하여 일관된 점수를 얻는다.

표집 부족, 특히 채점자 편향이 클 때 (예: “hawk” 채점자 vs. “dove” 채점자) (CU)

3. 기회 표집 (Occasion sampling)

가정: 응시자(및 필요 시 채점자)가 충분한 횟수 동안 평가를 수행하여 일관된 점수를 얻는다.

표집 부족, 특히 기회 효과가 무작위가 아니라 체계적일 때 (예: 시험 날짜와 어려운 생활사건이 겹치는 경우) (CU)
연구 주석: 연구는 종종 이 요소를 간과하지만, 실제로 점수 신뢰도 불안정성의 주요 원인이 되기도 함.

4. 형식 표집 (Format sampling)

가정: 응시자가 충분히 다양한 형식으로 평가를 수행하여 일관된 점수를 얻는다.

표집 부족, 특히 형식 친숙도 차이가 체계적일 때 (예: 새로운 시뮬레이션 형식을, 이전에 경험이 없는 외국 학생에게 도입하는 경우) (CU)

5. 상호작용(Interactions among sampled conditions)

가정: 모든 측정 조건 조합을 충분히 표집하여 일관된 점수를 얻는다.

표집 부족 (CU)
두 개 이상의 측정 요인이 상호작용하여 불일치를 야기할 수 있음.
- 예: 채점자 × 문항(rater-by-item) → 한 채점자는 1번 문항에 엄격, 다른 채점자는 2번 문항에 엄격.
- 채점자 × 응시자(rater-by-examinee) → 한 채점자는 여성에게 더 엄격, 다른 채점자는 남성에게 더 엄격.

Extrapolation (외삽)

1. 적절한 구인(construct) 정의

가정: 속성이 올바르게 명명되고, 올바른 차원 구조를 반영한다.

속성을 지나치게 광범위하게 명명 (예: 실제로는 “의사소통”만 평가했는데 “팀워크”라고 명명) (CU)
속성을 잘못 명명 (예: 실제로는 지식/동기 부족인데 “기술 결함(skill deficit)”으로 명명) (CIV)
일시적이고 가변적인 상태(states)를 영구적이고 불변적인 특질(traits)로 잘못 취급 (CU)
집단 프로세스 영향을 개인 성과로 잘못 귀속 (또는 반대로 개인 성과를 집단으로 귀속) (CIV)
다차원 속성을 단일 라벨로 축소하여 잘못 표현 (예: 한 영역에서는 뛰어나고 다른 영역에서는 부족함에도 불구하고 “adequate”로만 평가) (CIV/construct mis-specification)

2. 개별 문항/사례와 반응의 충실도 (Individual item/case and response fidelity)

가정: 문항/사례 및 그 반응 선택지는 실제 세계와 잘 대응한다.

지나치게 쉽거나 어려운 문항/사례 (CU)
비현실적인 문항/사례나 반응 옵션 (CU)

3. 문항/사례 집합의 충실도 (Item/case fidelity as a set)

가정: 전체 문항/사례 집합이 실제 세계의 패턴을 반영한다.

정상 vs. 비정상 임상소견의 비율이 부정확 (CU)
특정 상태나 과제의 과소/과대표집 (CU)

4. 예측 타당도 (Predictive validity)

가정: 점수가 실제 세계에서 속성 수준 또는 효과와 양의 상관을 가진다.

평가 점수와 다른 속성 측정치 간의 상관 부족
평가 점수와 관련된 결과 간 상관 부족

Decisions and Consequences (의사결정 및 결과)

1. 의사결정(Decisions)

가정: 합격/불합격 또는 다른 분류 결정이 수용할 만한 민감도(sensitivity)와 특이도(specificity)를 가지고, 편향 없이 이루어진다.

낮은 민감도/특이도
특정 결정에 대해 타당도/신뢰도 추정치를 조정하지 못함
분류 근거 부족 (예: 모든 응시자에게 리메디에이션이 유익할 수 있는데도 차별적으로 적용)
제한적 진단 가치: 문제는 지적하지만 해결책은 제시하지 못하는 점수
부적절한 라벨링 (예: 여전히 허용 범위 내 수행인데도 “부족하다(deficient)”로 표시)
결과 해석 및 의사결정 오류 (예: 성적을 근거로 “이 학생은 의학을 그만둬야 한다”고 잘못 해석)

2. 학습 및 교수 효과 (Learning and teaching effects)

가정: 평가가 생산적인 학습과 교수 행동으로 이어진다.

도움이 되지 않는 피드백 형식 (예: 피드백 지연, 추상적 수준에서만 제공)
실제 적용 환경에서 속성을 발휘하기 어렵게 만드는 비지원적 환경(transfer climate 부족)
역기능적 학습 전략/태도 (예: 시험 직전 벼락치기)
학습자·교수자에게 과도한 정서적/심리적 부담

3. 웰빙 효과 (Well-being effects)

가정: 평가는 모든 관련자의 웰빙을 지원한다.

정서적·심리적 부담이 과도하여 학습자, 교육자, 기타 이해당사자에게 부정적 영향

4. 의사소통 효과 (Communicative effects)

가정: 평가는 시행 기관의 가치를 올바르게 전달한다.

가치를 전달하지 못함 (예: 쉽게 측정되는 속성만 강조하고, 정량화하기 어려운 속성은 무시)

5. 비용 (Costs)

가정: 모든 이해당사자가 비용을 감당할 수 있으며, 그 비용이 정당화된다.

학습자에게 과도한 비용 부담 (예: 시험 준비 수업, 교재, 시간 손실)
관리자의 투자 대비 과도한 비용 발생

6. 분배적 정의 (Distributive justice)

가정: 평가 결과의 영향이 학습자와 이해당사자 간에 공정하게 분배된다.

특정 집단에 불리하거나 편향된 영향 (예: 소수집단의 낮은 승진률)
불공정한 비용 구조 (예: 부유한 학습자만 시험 준비 자료를 감당 가능)

7. 절차적 정의 (Procedural justice)

가정: 평가는 공정한 절차를 통해 이루어진다.

학습자가 오류라고 믿는 점수를 이의 제기할 수 있는 절차 부족
학습자에게 점수 사용·개인정보 보호·데이터 보안 등에 대한 투명성 부족

8. 상호작용적 정의 (Interactional justice)

가정: 평가는 학습자와 이해당사자를 존중하고 존엄하게 대한다.

친절과 존중 없이 피드백 제공 (예: 학습자가 피드백 받을 준비 여부 고려하지 않음)
불필요하게 공개적으로 부정적 피드백 제공
범주 라벨이 과도하게 가혹 (예: 학습자를 “실패자(failure)”로 명명)

9. 정치적 조화 (Political harmony)

가정: 모든 이해당사자가 평가의 설계·시행·평가 과정에 합리적으로 참여하고 지지한다.

주요 파트너의 지지 부족 (예: 교수자가 평가에 반대하고 이를 약화시키는 메시지를 발신)

10. 광범위한 확산 (Broader uptake)

가정: 평가는 널리 가치 있게 여겨지고 점점 더 많은 맥락에서 적용된다.

평가를 재사용하거나 확산할 수 있도록 포장하지 못함

11. 의도치 않은 효과 (Unintended effects)

가정: 평가는 부정적인 의도치 않은 효과를 초래하지 않고, 가능하다면 긍정적인 효과를 낳는다.

(정의상 구체적으로 예측하기 어려움)

'논문 읽기 (with AI)' 카테고리의 다른 글

[AHPE] 4 일반화가능도 이론 (Generalizability Theory) (0)	2025.09.15
[AHPE] 3 신뢰도 (Reliability) (0)	2025.09.15
[AHPE] 1 의학교육에서의 평가 소개 (INTRODUCTION TO ASSESSMENT IN THE HEALTH PROFESSIONS) (0)	2025.09.09
서사적 정책 프레임워크: 틀릴 만큼 명확할 수 있는가? ( Policy Studies Journal, 2010) (4)	2025.08.14
졸업 후 의학 교육 성과 측정으로 사회적 계약을 이행하기 위해 (Acad Med. 2022) (0)	2025.08.11

의대에서 교육하고 있습니다.

[AHPE] 2 타당도와 평가의 질 (VALIDITY AND QUALITY)

2 타당도와 평가의 질 (VALIDITY AND QUALITY)

목적 기반 평가의 원칙 (THE PRINCIPLE OF PURPOSE-DRIVEN ASSESSMENT)

목적 이해하기 (UNDERSTANDING YOUR PURPOSES)

목적에 방법을 정합시키기 (TYING METHODS TO YOUR PURPOSES)

타당도 탐구와 질 평가 (INVESTIGATING VALIDITY, EVALUATING QUALITY)

케인의 타당도 틀: 타당도 논증 (KANE’S VALIDITY FRAMEWORK: THE VALIDITY ARGUMENT)

표 2.1 객관구조화임상시험(OSCE)에 대한 해석 및 사용 진술 예시와 선택된 해석/사용 논증 고려사항

Interpretation and Use Statement (해석 및 사용 진술):

모든 가정을 검증할 수는 없음 (Not All Assumptions Need Testing)

메식의 타당도 틀: 증거의 원천 (MESSICK’S VALIDITY FRAMEWORK: SOURCES OF EVIDENCE)

평가 프레임워크 (EVALUATION FRAMEWORKS)

Cook & Lineberry의 결과 평가 틀

의도치 않은 결과의 함의

예방적 관점 갖기: 타당도 위협 이해하기(TAKING A PREVENTION FOCUS: UNDERSTANDING THREATS TO VALIDITY)

긍정적 시각으로 마무리하기

결론적 고찰 (CONCLUDING THOUGHTS)

해석 방법: [가정]을 만족한다면, 타당도 관점에서 [채점/일반화/외삽/결정]이 잘 되었다고 할 수 있다.

Scoring (채점)

Generalization (일반화)

Extrapolation (외삽)

Decisions (or “Consequences”) (결정 또는 결과)

Messick의 타당도 증거 틀: 필기시험과 수행시험에서의 예시 (Table 2.2 번역)

1. 내용(Content) 증거

2. 반응 과정(Response Process) 증거

3. 내적 구조(Internal Structure) 증거

4. 타 변수와의 관계(Relations to Other Variables) 증거

5. 결과(Consequences) 증거

6. 일반화 가능성/신뢰도 (Generalizability/Reliability) 증거

주석

Table 2.3 평가 타당도 및 질에 대한 선택된 위협 (Selected Threats to Assessment Validity and Quality)

Scoring (채점)

1. 채점 기준의 정확성 (Accuracy of scoring key)

2. 자극의 경험과 해석 (Experience and interpretation of stimuli)

3. 응답 선택지의 해석 (Interpretation of response options)

4. Examinee Response Process (응시자 반응 과정)

5. Rater Response Process (채점자 반응 과정)

6. Internal Structure (내적 구조)

Generalization (일반화)

1. 문항/사례 표집 (Item/case sampling)

2. 채점자 표집 (Rater sampling)

3. 기회 표집 (Occasion sampling)

4. 형식 표집 (Format sampling)

5. 상호작용(Interactions among sampled conditions)

Extrapolation (외삽)

1. 적절한 구인(construct) 정의

2. 개별 문항/사례와 반응의 충실도 (Individual item/case and response fidelity)

3. 문항/사례 집합의 충실도 (Item/case fidelity as a set)

4. 예측 타당도 (Predictive validity)

Decisions and Consequences (의사결정 및 결과)

1. 의사결정(Decisions)

2. 학습 및 교수 효과 (Learning and teaching effects)

3. 웰빙 효과 (Well-being effects)

4. 의사소통 효과 (Communicative effects)

5. 비용 (Costs)

6. 분배적 정의 (Distributive justice)

7. 절차적 정의 (Procedural justice)

8. 상호작용적 정의 (Interactional justice)

9. 정치적 조화 (Political harmony)

10. 광범위한 확산 (Broader uptake)

11. 의도치 않은 효과 (Unintended effects)

'논문 읽기 (with AI)' 카테고리의 다른 글

+ Recent posts

티스토리툴바

예방적 관점 갖기: 타당도 위협 이해하기
(TAKING A PREVENTION FOCUS: UNDERSTANDING THREATS TO VALIDITY)