우리가 긋는 선: 보건의료전문직 교육의 기준설정에서 변화하는 인식론적 체제 (Adv Health Sci Educ Theory Pract. 2026)

Meded 2026. 5. 12. 21:20

2026. 5. 12. 21:20

Adv Health Sci Educ Theory Pract. 2026 May 6. doi: 10.1007/s10459-026-10542-y. Online ahead of print.

The line we draw: shifting epistemic regimes of standard setting in health professions education

들어가며 🎯

보건의료전문직교육(Health Professions Education, HPE)을 하다 보면 늘 따라다니는 질문이 있어요. "이 학생을 합격시켜도 될까?" OSCE 점수가 몇 점이면 통과인지, 임상실습에서 어디까지가 '최소한의 역량'인지를 정해야 하는 순간이 반드시 옵니다. 우리는 보통 이걸 표준설정(standard setting)이라 부르고, 대체로 기술적이고 절차적인 문제로 다뤄왔어요. Angoff를 쓸지, Borderline Regression을 쓸지, 컷 스코어를 어떻게 정당화할지 같은 식으로요.

그런데 호주 ACER의 Jacob Pearce와 Neville Chiavaroli는 이 논문에서 정말 흥미로운 질문을 던집니다.

"표준설정의 절차적 표면 아래에는 더 깊고 더 근본적인 질문들이 자리잡고 있다.
우리는 어떻게 역량이 단 하나의 숫자로 정의될 수 있다고 믿게 되었는가?
표준을 '설정한다'는 것은 무엇을 의미하는가?
그 행위 아래에는 어떤 종류의 추론, 권위, 신뢰가 깔려 있는가?"

"Yet beneath its procedural surface lie deeper, more fundamental questions: How did we come to believe that competence could be defined by a single number on a test? What does it mean to set a standard? What kinds of reasoning, authority, and trust underpin that act?"

쉽게 말해, 컷 스코어라는 게 자연에 원래 존재하는 선이 아니라 우리가 역사적으로 만들어 온 구성물(construct)이라면, 그 구성의 역사를 들여다봐야 하지 않겠느냐는 거죠. 그리고 저자들은 이걸 다섯 개의 인식 체제(epistemic regimes)로 정리해줍니다.

어떤 렌즈로 보는가: 역사인식론(historical epistemology) 🔍

저자들의 방법론부터 짚고 가야 이 논문이 재미있어집니다. 두 명의 철학자에 기댑니다.

Jardine의 '탐구의 장면(scenes of inquiry)'

Nicholas Jardine은 과학을 역사적으로 우연한(historically-contingent) "탐구의 장면(scenes of inquiry)"으로 봅니다. 어떤 시기에는 어떤 질문이 의미 있게 받아들여지고, 어떤 답이 정당한 것으로 인정되며, 어떤 지식은 아예 배제됩니다. Jardine의 렌즈로 보면 우리는 이렇게 물어야 해요.

누가 그 질문을 하고 있는가?
어떤 권위로 하는가?
어떤 답이 받아들여지는가?
"충분히 잘했다"의 "무엇에 충분히?"는 누가 정하는가?

Hacking의 '고리 효과(looping effects)'와 '추론의 양식(styles of reasoning)'

Ian Hacking은 한 발 더 나아갑니다. 분류(classification)는 죽은 게 아니라 상호작용적 종류(interactive kinds)라는 거예요. '최소역량 후보자(minimally competent candidate)'라는 범주를 한번 만들어 놓으면, 사람과 제도가 그 범주에 반응하면서 다시 그 범주를 강화하고 변형시킵니다. 이게 그 유명한 '고리 효과(looping effect)'예요.

"예를 들어, 표준설정에서 컷 스코어나 역량의 역치라는 개념은 단순히 기술적인 것이 아니다. 그것은 그 맥락에서 역량이 무엇이 되는가를 구성한다."

"For example, the notion of a cut score or threshold of competence in standard setting is not merely descriptive; it constitutes what competence becomes in that context."

여기에 Hacking의 '추론의 양식(styles of reasoning)' 개념이 더해집니다. Angoff, Bookmark, Borderline Regression 같은 심리측정학적(psychometric) 접근은 단순히 기존에 존재하던 역량을 측정하는 게 아니라, 자신들이 동원하는 추론 양식을 통해 역량이 측정 가능해지는 조건 자체를 만들어낸다는 거죠. 시간이 지나면 우리는 그 숫자 경계가 실재하는 것처럼 행동하게 되고, 그러는 동안 그것이 만들어진 기원은 흐릿해집니다.

변하지 않는 질문 하나, 변하는 답의 방식 💭

저자들은 HPE 전반에 걸쳐 놀랍게도 한결같이 반복되는 근본 질문이 있다고 봅니다.

"이 사람이 지금 이 시점에 충분히 잘하는가?(Is this person good enough at this point in time?)"

이 질문은 변하지 않았어요. 그런데 이 질문에 답하는 방식은 시대에 따라 크게 달라졌습니다. 저자들은 이걸 다섯 개의 인식 체제로 나눕니다.

체제	등장 시기	인식론적 토대	핵심 권위	대표 방법	정의 질문
추정적(Presumptive)	표준설정 이전	선언·전통	기관	고정 컷 스코어 (50% 등)	"학습자가 통과할 만큼 알고 있는가?"
규범적(Prescriptive)	1960년대	사전 결정된 기준	교수자·전문가	루브릭, 평정척도	"어떤 최소 기준을 기대하는가?"
예측적(Predictive)	1970년대	기준집단 수행 예측	SME 패널	Angoff, Ebel, Nedelsky, Bookmark	"경계선 후보가 어떻게 수행할까?"
수행적(Performative)	1980년대	실제 코호트 수행	평가자 + 경험적 증거	Contrasting Groups, Borderline Regression, Cohen	"최소역량으로 판단한 후보들이 실제로 어떻게 수행하는가?"
프로그램적(Programmatic)	2000년대	분산·집단·종단적 수행	역량위원회 + 종단 증거	위임척도, 포트폴리오, 자료 삼각화	"이 후보가 독립적으로 진료할 만큼 안전한가?"

저자들이 강조하는 것은 이게 결코 단순한 시간순 계승이 아니라는 것입니다. 새로운 체제가 등장한다고 이전 체제가 사라지지 않아요. 지금도 우리 주변엔 다섯 체제가 공존하고 있습니다. 하나씩 살펴볼게요.

1️⃣ 추정적 체제(Presumptive Regime) — 표준설정의 '선사 시대'

이 체제에서 표준은 '설정(set)'되는 게 아니라 '선언(declare)'됩니다. "60점 이상 통과" 같은 기관 차원의 고정 컷 스코어가 대표적이죠. 어떤 경험적 근거도, 명시적 정당화도 없습니다. 그냥 주어진 것으로 받아들여집니다.

Zieky(1995)는 이 시기를 '순수의 시대(age of innocence)'라고 불렀지만, Pearce와 Chiavaroli는 좀 다른 입장이에요.

"표준설정 방법이 이제는 명시적이고 본질적인 교육 실천의 일부가 된 시대에, 디폴트 통과 점수에 근거해 고부담 결정을 계속 내린다는 것은 '순수하다(innocent)'기보다는 '추정적(presumptive)'이라고 더 잘 묘사될 수 있는 의도적인 인식론적 선택을 반영한다."

"in an age when standard setting methods are now part of an explicit and essential educational practice, we would argue that to continue making high-stakes decisions based on default pass marks reflects a deliberate epistemic choice better described as presumptive rather than innocent."

📌 한국 의과대학에도 여전히 살아 있는 체제죠. 'F는 60점 미만'이라는 규정은 오랜 기관 관행에서 왔지, 그 점수가 최소역량을 대표한다는 경험적 검증을 거친 게 아닙니다. 저자들이 인용한 Zieky의 비유처럼, 성경 창세기 18장에서 아브라함이 신과 협상하며 "의인 10명"에서 멈춘 그 '10'이라는 숫자처럼요. 왜 10인가? 왜 11이나 9가 아닌가?

흥미로운 건 이 추정적 체제가 종종 규준참조(norm-referenced) 접근, 그러니까 정규분포·벨커브 식의 사후 조정 관행과 함께 작동한다는 점입니다. 점수 분포가 마음에 안 들면 학생 점수를 '조정'해서 적정 합격률을 맞추는 거죠. 그런데 인식론적으로 보면 이건 표준설정의 안티테제입니다. 표준이 먼저 있고 거기에 점수를 맞추는 게 아니라, 원하는 합격률에 컷 스코어를 끼워 맞추는 거니까요.

2️⃣ 규범적 체제(Prescriptive Regime) — 1960년대, 기준이라는 발명

규범적 체제의 결정적 변화는 수행 표준(performance standard)과 컷 스코어(cut score)를 처음으로 구분하기 시작했다는 점입니다. Kane(1994)의 표현이 핵심입니다.

"타당화는 곧 제안된 통과 점수가 적절한 수행 표준을 표상하는 것으로 해석될 수 있음을 입증하는 것이다."

"[v]alidation then consists of a demonstration that the proposed passing score can be interpreted as representing an appropriate performance standard."

이 체제는 Glaser(1963)의 준거참조(criterion-referenced) 평가 운동과 깊이 맞물려 있습니다. 학습자의 수행을 사전에 명시된 학습 기대(learning expectations)에 견주어 해석하자는 거죠. 동료들과의 상대적 위치가 아니라요. 그래서 루브릭(rubric), 수행 기술서(performance descriptor), 평정척도 같은 도구들이 이 시기의 상징이 됩니다.

권위의 소재가 기관에서 교수자·내용전문가(SME)로 이동했다는 점도 중요해요. "이 과목에서 학생이 도달해야 할 최소 기준은 무엇인가?"라는 질문에 답할 자격은 그 분야를 가르치고 평가하는 사람들에게 있다는 인식이 자리잡았습니다.

📌 한국 의대 교육과정에서 본다면, ASK2026이 요구하는 졸업역량(graduation outcomes) 기반 평가가 이 체제의 연장선이라고 볼 수 있어요. 졸업 시점에 학생이 어떤 역량 수준에 도달해야 하는지를 사전에 명시하고, 그에 맞춰 평가를 설계하는 접근이죠.

3️⃣ 예측적 체제(Predictive Regime) — 1970년대, 심리측정학의 전성기

여기서 풍경이 또 바뀝니다. 시선이 수험자 수행이 아니라 다시 시험(test) 자체로 돌아오는데, 이번에는 형식적인 경험적 요소가 결합돼요. 내용전문가(SMEs)들이 모여 '경계선 학생(borderline student)'의 수행을 시뮬레이션(simulate)합니다. 1971년 Angoff의 그 유명한 짧은 각주에서 출발한 이 방법은, 70년대 표준화 시험과 신뢰도(reliability)가 평가의 최고 미덕으로 떠오르면서 폭발적으로 확산됩니다.

"이 체제에서 표준은 합격 수준에서 기능하는 학습자의 기대 수행 수준을 상상하고 예측하는 과정을 통해 개념화되고 조작화된다."

"Epistemologically, the standard is conceptualised and operationalised through a process of imagining and predicting the expected level of performance of learners functioning at the pass level."

Angoff, Ebel, Nedelsky, Bookmark — 우리가 표준설정 워크숍에서 익히 들어 본 그 이름들이 모두 이 체제의 산물입니다. 권위의 명목적 원천은 SMEs이지만, 실제로는 '수량화된 판단의 객관성처럼 보이는 외관'이 추가적인 권위를 부여한다고 저자들은 지적합니다.

그런데 이 체제는 곧 위기를 맞아요. 같은 방법을 다른 판단자 집단에 적용하면 다른 컷 스코어가 나온다는 사실이 드러나면서 이른바 Zieky가 말한 '환멸의 시대(age of disillusionment)'가 시작됩니다. '경계선 학생'이라는 개념 자체도 의문에 부쳐지죠(Burr et al., 2017; Homer et al., 2017; Lane et al., 2020). 그래도 이 체제는 표준설정이라는 실천을 광범위하게 정착시킨 역사적 공로가 있어요.

📌 한국 의사 국가시험이나 우리 학교 임상실습 평가에서 Angoff 변형 방법을 쓸 때마다, 우리는 사실 이 체제 안에서 사고하고 있는 거죠.

4️⃣ 수행적 체제(Performative Regime) — 1980년대, 실제 수행으로의 전환

수행적 체제는 앞의 체제들과 결정적으로 다릅니다. 컷 스코어를 사전에 정하지 않고, 실제 수험자들의 수행을 본 뒤에 결정한다는 거예요. 핵심은 점수와 평가자 판단의 이중 사용입니다.

이 체제는 Livingston & Zieky(1982)의 Contrasting Groups 방법으로 시작해서, Kramer et al.(2003)의 Borderline Regression 방법이 OSCE의 부상과 함께 HPE에서 지배적인 방법이 됩니다. 평가자는 항목별 분석적 채점을 하는 동시에, 학생의 전반적 수행 수준에 대한 별도의 총괄적(holistic) 판단을 합니다. 그리고 이 두 정보를 결합해서 사후적(post hoc)으로 컷 스코어를 도출하는 거죠.

여기에 Cohen 방법(Cohen-Schotanus & van der Vleuten, 2010), 객관적 경계선 방법(Objective Borderline Method, Shulruf et al., 2015), ROC 곡선 활용법(Wang & Keller, 2025) 등 통계적 접근이 가세합니다.

흥미로운 건 저자들이 이런 통계적 방법들을 별개의 체제('데이터 주도' 또는 '심리측정학적' 체제)로 보고 싶은 유혹을 인정하면서도, 결국 거부한다는 점이에요.

"그러나 각 경우에서 계산은 궁극적으로 평가자의 수행 기반 판단에서 도출된 자료에 근거한다. 그러한 자료를 통과 표준을 정의하기 위해 처리하고 분석하는 방법은 분명 여러 가지이지만, 그것 자체로 하나의 '체제'를 구성하지는 않는다."

"However, in each case the calculations are ultimately based on data derived from performance-based judgements by examiners. There are clearly numerous ways such data might be processed and analysed for the purposes of defining a passing standard, but that does not in itself constitute a 'regime'."

📌 우리나라 의과대학에서 OSCE에 Borderline Regression Method를 쓰기 시작한 게 비교적 최근인데, 인식론적으로 보면 이건 단순히 '더 정교한 방법으로의 업그레이드'가 아니라 표준이라는 것을 어떻게 알 수 있는가에 대한 근본 가정의 전환이었던 거죠.

5️⃣ 프로그램적 체제(Programmatic Regime) — 2000년대, 종단적·집단적 판단

마지막이자 가장 최근에 부상한 체제입니다. 2010년경부터 본격화된 이 체제의 핵심은 종단성(longitudinality)과 분산된 의사결정(distributed decision-making)입니다.

여기서 표준은 더 이상 단일 시험의 컷 스코어가 아닙니다. 훈련 프로그램 전반에 걸쳐 수집된 다양한 형태의 증거를 역량위원회(competence committee)가 통합적으로 검토하는 방식으로 작동해요. 정량 자료와 정성 자료, 서술적 평가, 직장기반평가(WBA, workplace-based assessment) 평가자 판단 — 이 모든 게 시간을 가로질러 삼각화(triangulation)됩니다.

"이 체제는 주관적·전문가적 판단의 역할을 수용하며, 덜 표준화된 직장기반평가에서 수집된 증거를 활용하되, 종단적 데이터셋, 증거의 패턴, 실질적 정당화, 맥락 특수성에 의해 뒷받침된다."

"The programmatic regime embraces the role of subjective, expert judgement and evidence collated from less standardised workplace-based assessments, but is buttressed by longitudinal data sets, patterns of evidence, substantive justification and context specificity."

특징적 질문도 달라집니다. "이 후보가 우리 전문직에서 독립적으로 진료할 만큼 안전한가?(Is this candidate safe enough to practice independently in our profession?)" 이 질문은 위임가능 전문직무(EPA, Entrustable Professional Activities)와 위임(entrustment) 개념과 깊이 맞물려 있죠.

권위의 소재도 또 한 번 이동합니다. 기관 → 교수자 → SME 패널 → 평가자 → 이제는 역량위원회와 훈련 이해당사자(전문직 그 자체)로요. 저자들은 한 걸음 더 나아가서, 자기조절학습이 잘 발달된 프로그램에서는 학습자 자신도 (구속력은 없지만) 권위의 한 원천이 될 수 있다고 봅니다. Telio et al.(2015)의 '교육적 동맹(educational alliance)' 개념이 여기 등장해요.

📌 우리가 2028년 교육과정 개편에서 추진하는 졸업역량 기반 평가, 그리고 ASK2026 인증 준비에서 강조되는 CQI 체계는 사실상 이 프로그램적 체제로의 이동을 함의하고 있습니다. EPA와 위임 개념을 도입하는 흐름도 마찬가지고요.

그래서 이 분석이 우리에게 말하는 것은? 🤔

저자들이 강조하는 가장 중요한 메시지는 이 다섯 체제가 단순한 시간순 발전 단계가 아니라는 것입니다. Kuhn식 패러다임 전환으로 읽고 싶은 유혹을 명시적으로 거부해요.

"다섯 가지로 식별된 표준설정의 인식 체제들은 깔끔하게 선형적이거나 순차적이지 않다. ... 우리의 요점은 이러한 체제들 각각이 오늘날 어떤 형태로든 지속되고 있다는 것이다."

"The five identified epistemic regimes of standard setting we have proposed are not neatly linear or sequential. ... Our point is that each of these regimes persists today in some form."

오래된 체제가 사라지지 않고 새로운 체제와 공존합니다. 같은 의과대학 안에서도 어떤 시험은 추정적 체제(고정 60점)로, 어떤 시험은 예측적 체제(Angoff)로, OSCE는 수행적 체제(Borderline Regression)로, 임상실습 종합평가는 프로그램적 체제(역량위원회)로 운영될 수 있다는 거예요. 각자 다른 인식론적 토대 위에 서 있으면서요.

그리고 저자들은 철학적 실용주의(philosophical pragmatism)와 Hacking의 사회 구성 논의를 끌어와서 이런 결론을 도출합니다.

"표준설정의 이러한 구성된 성격을 인식하는 것이 그 과정에 대한 신뢰를 무너뜨릴 필요는 없다. 우리는 표준설정 접근법이 그 실용적이고 구성된 성격에 의해 약화되는 것이 아니라, 오히려 그것의 윤리적·교육적 정당성이 그 구성을 인식하고 성찰하려는 우리의 의지에 달려 있다고 주장한다."

"Recognising this constructed nature of standard setting need not collapse confidence in the process. We argue that standard setting approaches are not undermined by their pragmatic and constructed nature; rather, their ethical and educational legitimacy depends on our willingness to acknowledge and reflect upon their construction."

여기서 핵심 표현이 "소유하기(owning)"입니다.

"우리는 표준설정의 구성된·인식론적 성격을 소유하는 것이 회의주의나 신뢰 침식으로 이어질 필요가 없는 목적 있는 성찰의 기회를 만든다고 주장한다."

"We thus argue that owning the constructed and epistemic character of standard setting creates an opportunity for purposeful reflection that should not necessarily lead into scepticism or erosion of confidence."

표준설정은 자연의 일부가 아니라 우리가 만든 도구(epistemic instruments)이고, 그러니까 우리가 책임지고 다듬어 갈 수 있는 도구라는 거죠. Hacking이 말한 구성주의의 다섯 등급 중 '역사적(historical)'·'아이러니한(ironic)' 등급을 취한다는 게 저자들의 입장이에요. 즉, 지금의 방식들이 필연적인 것은 아니지만, 그렇다고 본질적으로 결함이 있어서 폐기해야 하는 것도 아니다 — 이런 정도의 거리감을 두고 비판적으로 성찰하자는 겁니다.

의학교육자에게 던지는 실천적 함의 💡

논문 마지막 부분에서 저자들이 정리하는 함의를 우리 맥락에서 다시 풀어보면 이렇습니다.

1. 성찰적 투명성(reflective transparency)을 길러야 합니다. 우리가 어떤 표준설정 방법을 선택할 때, 그것이 어떤 인식론적 가정 위에 서 있는지를 명시화해야 해요. "관행이라서"나 "제일 안전해 보여서"는 더 이상 충분한 답이 아닙니다.
2. 다원성(plurality)을 받아들여야 합니다. 모든 시험에 똑같은 방법을 쓸 필요가 없어요. OSCE에는 수행적 체제가, 종합 진급 판정에는 프로그램적 체제가, 형성적 퀴즈에는 추정적 체제도 — 맥락에 맞게 정보를 가지고 선택하면 됩니다.
3. 전문가 판단(professional judgement)을 오차의 원천이 아니라 핵심 요소로 봐야 합니다. 특히 프로그램적 체제로 갈수록 이게 중요해져요. 정량화의 매력에 끌려 판단을 줄이려 할수록 오히려 평가의 풍부함이 빈약해집니다.
4. 인증과 규제 맥락에서도 의미가 있습니다. "방어 가능성(defensibility)이 중요하지만, 그것이 인식론적 성찰을 희생시켜서는 안 된다"는 저자들의 말은, ASK2026 같은 인증 준비 맥락에서 우리가 정량적 지표 위주의 방어 논리로만 가지 않도록 경계하게 합니다.

"방어 가능성은 표준설정에서 여전히 중요한 고려사항이지만, 그것이 인식론적 성찰과 표준설정의 역사적으로 우연한 성격에 대한 이해를 희생시키는 대가로 와서는 안 된다."

"While defensibility remains a crucial consideration in standard setting, it should not come at the expense of epistemological reflection and an appreciation of the historically contingent nature of standard setting in action."

마무리하며 ✍️

이 논문이 특별한 이유는, 표준설정을 '더 좋은 방법론' 찾기 게임으로 보지 않는다는 점이라고 생각해요. Angoff 대신 Borderline Regression이 더 정교하고, 그것보다는 ROC 분석이 더 진보된 방법이라는 식의 직선적 발전 서사는 매력적이지만 위험합니다. 그 서사는 각 방법이 답하고 있는 질문 자체가 다르다는 사실을 가려버리거든요.

"이 학생이 통과할 만큼 알고 있는가?"와 "이 후보가 우리 전문직에서 독립적으로 진료할 만큼 안전한가?"는 같은 질문이 아닙니다. 둘 다 정당한 질문이지만, 묻고 있는 게 다르고, 답하는 방식이 다르고, 권위의 소재가 다르고, 어떤 종류의 증거가 인정되는지가 다릅니다.

Pearce와 Chiavaroli는 우리에게 "우리가 지금 어떤 질문에 답하고 있는지를 의식하면서 표준설정을 하라"고 권하는 셈입니다. 그렇게 할 때 비로소 우리는 방어 가능성을 넘어서 인식론적 책임성(epistemological accountability)의 영역으로 들어갈 수 있고, 그게 결국 학습자에게도 환자에게도 더 정직한 평가가 된다는 거죠.

"방법과 역치는 변할 수 있지만, 환자를 보호하고, 전문직 표준을 지키며, 학습자의 발달을 지원해야 한다는 근본적인 전문직 책무는 지속된다."

"methods and thresholds may shift, but the underlying professional responsibilities to safeguard patients, uphold professional standards, and support learner development, endure."

우리가 긋는 선이 어디서 왔는지 의식하면서 긋는 것, 그리고 그 선이 누구를 위한 것인지 잊지 않는 것 — 이게 결국 표준설정이라는 실천의 윤리가 아닐까 싶네요. 🙏

서론 Introduction

기준설정(standard setting) 은 보건의료전문직교육(HPE) 의 평가에서 핵심적인 역할을 한다. 그것은 학습자의 역량(competence) 과 진급(progression), 면허(licensure) 와 자격인증(certification), 그리고 전문직으로서 독립적으로 실무를 수행할 준비가 되었는지에 대한 결정을 형성한다. 기준설정의 과정은 선을 긋는다. 즉, 역량을 갖춘 자와 아직 갖추지 못한 자, 안전한 자와 안전하지 않은 자, 독립적 실무를 수행할 준비가 된 자와 그렇지 않은 자 사이에 경계를 긋는다.

그렇기 때문에 기준설정은 종종

절차적 공정성(procedural fairness),
심리측정학적 견고성(psychometric robustness),
규제 준수(regulatory compliance),
공적 방어 가능성(public defensibility)
...을 다루는 기술적 과업(technical exercise) 으로 간주된다.

그러나 그 절차적 표면 아래에는 더 깊고 근본적인 질문들이 놓여 있다.

우리는 어떻게 역량이 시험의 단일 숫자 하나로 정의될 수 있다고 믿게 되었는가?
기준을 설정한다는 것은 무엇을 의미하는가?
그러한 행위를 뒷받침하는 추론, 권위, 신뢰는 무엇인가?
사람들은 언제부터 기준설정을 하나의 독립된 실천으로 말하기 시작했는가?

우리는 HPE 평가에서 기준설정이라는 실천 자체가 어떻게 하나의 고유한 실천으로 사고 가능해졌는지, 그리고 그것이 서로 다른 역사적 맥락에서 추론의 한 방식(mode of reasoning) 으로 어떻게 기능해왔는지를 탐구하고자 한다. 시간에 따른 기준설정 실천의 등장을 추적함으로써, 우리는 그렇지 않으면 객관적이고 중립적이며 점점 더 안정화되어 가는 절차처럼 보일 수 있는 것들이 사실은 우연적이고 구성된(contingent and constructed) 성격을 지닌다는 점을 드러내고자 한다. 기준설정은 단지 기술적이거나 방법론적인 것이 아니다. 그것은 권위(authority), 객관성(objectivity), 공정성(fairness), 투명성(transparency) 에 대해 역사적으로 특수한 가정을 반영한다. 여기에는 실제 실천에서 각각의 개념이 무엇으로 간주되는지도 포함된다.

최근 HPE 분야에서는 보다 숙고된 역사적 연구(historical scholarship) 가 필요하다는 요청이 제기되어 왔다. 특히 이 분야를 형성해온 다중적이고 서로 얽힌 역사들에 주의를 기울이는 작업이 요구되었고(Ellaway et al., 2025), 더 구체적으로는 지식의 역사성(historicities of knowledge) 에 주목하는 연구가 필요하다는 지적도 있었다(Ellaway, 2024). 기준설정 실천에 관한 여러 종설과 개관 연구들이 존재하며(Berk, 1986; Cizek & Bunch, 2007; Cizek et al., 2004; Cizek, 2012; De Champlain, 2018; Hambleton & Powell, 1983; Norcini, 2003; Zumbo, 2016), 일부는 명시적으로 역사서술학적 접근(historiographical approach) 을 취하기도 했다(Brown, 2012; Hambleton, 1993; Zieky, 1995, 2012). 그러나 우리가 아는 한, 기준설정을 인식론적으로(epistemologically) 검토하려는 시도는 아직 없었다.

먼저 우리는 우리의 역사적-인식론적 접근(historical-epistemological approach) 을 설명한 뒤, HPE에서 기준설정이 어떻게 변화해왔는지를 역사적으로 위치 지어진 다섯 가지 분석 틀을 통해 제시한다. 이 분석은 기준이 작동하고는 있었지만 아직 명시적이지 않았던 문턱 판단의 형태에서 출발하여, 규정적(prescriptive), 예측적(predictive), 수행기반적(performative) 접근을 거쳐, 오늘날의 프로그램적 평가(programmatic assessment) 와 위임(entrustment) 의 지형에 이르기까지를 포괄한다. 이를 통해 우리는 기준에 대해 사고하는 서로 다른 방식들이 어떻게 등장하고, 안정화되며, 변화하는 교육적·전문직적 맥락 속에서 다시 구성되어 왔는지를 살펴본다.

역사적 인식론이란 무엇인가? What is historical epistemology?

역사적 인식론(historical epistemology) 은 “사물들이 지식의 대상으로 만들어지는 역사적 조건과 수단”을 탐구한다(Rheinberger, 2010, p. 2). 과학의 역사를 이 렌즈를 통해 바라보면, 인식론(epistemology) 과 과학적 실천의 규범(norms of scientific practice) 이 모두 우연적이고(contingent), 비선형적이며(non-linear), 파편화된(fragmented) 역사적 궤적에 의존한다는 점이 드러난다. 이러한 접근의 정신은 현대 우주론(Pearce, 2017), 유기화학(Klein, 2003), 전자현미경(Rasmussen, 1997), 확률(Hacking, 1975) 등 다양한 과학사 연구에서 확인할 수 있다. Pearce와 Tavares(2021)는 이러한 관점에서 프로그램적 평가(programmatic assessment) 의 역사를 탐구하며, 시간이 흐르면서 이와 관련된 문화적 실천이 어떻게 미묘하게 변화했는지를 강조하였다.

우리에게 탐구의 대상(object of inquiry) 은 기준설정이다. 우리는 역사를 분석적으로 활용하여 기준설정에 관한 서로 다른 인식론들이 어떻게 등장하고, 서로 얽히며, 시간이 지나면서 어떻게 이동해왔는지를 추적한다. 우리의 역사적 인식론은 역사적으로 근거한 비판(historically grounded critique) 을 가능하게 하는 두 가지 철학적 접근에 기반한다.

첫째, 우리의 연구는 Jardine(2000)의 접근을 따른다. Jardine은 탐구자들이 제기하는 질문(questions), 문제(problems), 실천(practices), 전제(presuppositions) 가 시간에 따라 어떻게 변화하는지에 주목함으로써, 과학 공동체와 인식론적 실천을 비판적으로 검토할 수 있는 생산적인 렌즈를 제공한다. 그는 과학의 실천을 역사적으로 우연적인 ‘탐구의 장면(scenes of inquiry)’ 으로 이해한다. 이는 특정한 역사적·학문적 조건과 맥락 아래에서 탐구가 전개되는 공간이다. 이러한 장면에서는 어떤 진술과 질문은 의미 있는 것으로 간주되는 반면, 다른 것들은 배제된다. 어떤 해결책은 정당한 것으로 여겨지는 반면, 다른 것들은 그렇지 않다.
- 기준설정에 관여하는 보건의료전문직 교육자들은 어떤 문제의식에 의해 움직여 왔는가? 그들은 그러한 문제를 해결하기 위해 어떤 실천, 기법, 방법을 사용해 왔는가? 그들의 판단을 이끈 근본적인 철학적 전제는 무엇이었는가? Jardine의 접근은 탐구 장면의 질문들이 어떻게 이동했는지를 살펴봄으로써 실천의 미묘한 변화를 분석할 수 있게 해준다.
- 예컨대 “이 시험에서 어느 정도의 수행이면 충분히 좋은가?”라는 질문은 특정한 사회적·제도적·전문직적 조건 아래에서 긴급하고 답할 수 있는 질문으로 등장한다. 여기에는 대규모 면허시험의 부상, 대중적 의학교육의 확대, 법적 책임성의 증가 등이 포함된다. Jardine의 렌즈는 우리로 하여금 다음을 살피도록 한다.
  - 누가 그 질문을 묻는가, 그리고 어떤 권위를 가지고 묻는가?
  - 무엇이 수용 가능한 답으로 간주되는가?
  - “무엇을 위해 충분한가?”라는 질문은 어떻게 해석되는가?
  - 수용될 수 없는 답은 어떻게 처리되는가?
  - 그 과정에서 어떤 형태의 지식이 배제되는가?
- 이런 의미에서 서로 다른 기준설정 접근은 이러한 질문들에 대한 역사적으로 특수하고 협상된 답변(historically specific, negotiated answers) 을 반영한다.
둘째, 우리의 연구는 Hacking의 역사적 존재론(historical ontology) 과 범주의 사회적 구성(social construction of categories) 에 관한 철학적 작업에 의존한다(Hacking 1995, 1999, 2002a). Hacking에게 역사적 인식론이란, 특정한 사고 또는 행위의 범주들—예컨대 정신질환, 인종, 혹은 이 논문의 경우 역량(competence)—이 시간이 흐르며 어떻게 안정화되어 왔는지, 그리고 그것들이 계속해서 실천을 어떻게 형성하는지를 추적하는 것이다.
- Hacking은 사람이나 행동에 관한 분류가 결코 비활성적이지 않다고 주장한다. 그것들은 ‘상호작용적 종류(interactive kinds)’ 이다. 어떤 분류가 일단 자리 잡으면—예컨대 “최소 역량을 갖춘 응시자(minimally competent candidate)”라는 범주를 정의하면—개인과 제도는 그 분류에 반응하기 시작한다. 그리고 이러한 반응은 다시 그 범주의 의미와 효과, 나아가 그 범주를 식별하고 잠재적으로 실체화(reify)하는 데 사용되는 방법까지도 변화시키고 강화한다. 이를 Hacking은 ‘순환 효과(looping effect)’ 라고 부른다. 즉, 분류는 그것이 기술하고자 하는 현상 자체를 다시 형성한다.
- 예를 들어, 기준설정에서 합격점(cut score) 또는 역량의 문턱(threshold of competence) 이라는 개념은 단지 기술적인 것이 아니다. 그것은 해당 맥락에서 역량이 무엇이 되는지를 구성한다(see Lingard, 2009). Hacking의 ‘추론 양식(styles of reasoning)’ 개념(Hacking 1992, 2002b; Kusch 2010; Ruphy 2011)도 여기서 유용하다. 이는 진리가 생성되고 정당화되는 역사적으로 특수한 방식을 가리킨다.
- 예컨대 심리측정학적 동기(psychometrically motivated) 를 지닌 접근들—Angoff, Bookmark, Borderline Regression 등—은 수치적 추정(numerical estimation), 확률적 판단(probabilistic judgment), 절차적 투명성(procedural transparency) 과 같은 기법에 의존하는 하나의 추론 양식을 반영한다. 이러한 접근은 단순히 이미 존재하는 특성을 측정하는 것이 아니다. 오히려 그들이 사용하는 추론 양식을 통해 역량이 측정 가능한 것으로 되는 조건을 만들어낸다. 시간이 흐르면서 학습자와 평가자는 그 수치적 경계가 실제로 존재하는 것처럼 행동하기 시작한다. 그 결과 범주는 안정화되고, 동시에 그것이 구성된 것이라는 기원은 가려지게 된다.

역사적·인식론적 분석 Historical and epistemological analysis

우리는 기준설정의 실천을 역사적으로 우연적이며 인식론적으로 구성된 탐구의 장면(historically contingent, epistemically constructed scene of inquiry) 으로 접근한다. 우리의 목적은 서로 다른 기준설정 접근의 정당성을 공격하는 데 있지 않다. 오히려 그러한 접근들을 그것이 등장하고 작동한 역사적·인식론적 조건 속에 보다 명시적으로 위치시키는 것이다.

우리는 이를

역사적으로는, 최소 역량(minimum competence) 에 관한 특정 질문들이 어떤 조건에서 등장했는지를 묻는 방식으로 수행한다.
또한 인식론적으로는, 어떤 형태의 추론(reasoning), 증거(evidence), 권위(authority) 가 정당한 것으로 인정되었고, 어떤 형태는 배제되었는지를 묻는다.
이러한 틀은 기준설정에 대한 역사적으로 근거한 비판(historically grounded critique) 을 가능하게 하며, 이는 해당 분야에 대한 건설적 기여(constructive contribution) 를 지향한다.

이 논문은 주로 처방적(prescriptive) 이라기보다 분석적(analytical) 이고 해석적(interpretive) 이다. 우리는 시간에 따라 기준설정과 관련된 인식론적 토대(epistemological basis) 와 추론 양식(styles of reasoning) 이 어떻게 변화했는지를 식별하고 특징짓는 데 관심이 있다. 이 과정에서 우리는 이러한 변화에 대한 몇 가지 추론을 제시하지만, 왜 그러한 변화가 발생했는지에 대한 완전한 역사적-인과적 설명(full historical-causal account) 을 제공하려는 것은 아니다.

이 역사적 인식론은 해당 분야에서 활동하는 평가 연구자이자 실천가(assessment researchers and practitioners) 로서 우리의 관점에서 전개된다. 이는 기준설정의 완전한 역사도, 체계적 문헌고찰(systematic review)도 아니다. 대신 우리는 다양한 자료에 근거한 서사적 접근(narrative approach) 을 취한다. 우리의 바람은 교육자와 기관들이 자신들이 의존하는 기준설정 방법을 더 비판적으로 검토할 수 있는 공간을 여는 것이며, 그 과정에서 암묵적 가정들을 보다 명시적으로 드러냄으로써 그 실천의 완결성과 정합성을 강화하는 것이다. 이 역사적 인식론은 최종 결론이 아니라 출발점이다. 우리는 이 연구가 기준설정이 특정한 과학적·전문직적·제도적·사회적 조건에 의해 어떻게 형성되었는지를 포함하여, 이와 관련된 측면들을 더 깊고 정교하게 탐구하는 후속 연구를 촉진하기를 기대한다.

우리는 의도적으로 엄격한 선형적·연대기적 방식으로 논의를 전개하지 않았다. 이는 역사서술의 실천으로서 시대구분(periodisation) 자체를 거부하기 때문이 아니다. 다만 이 분석의 목적상, 기준설정의 역사를 서로 분리된 ‘시대(eras)’ 또는 ‘기간(periods)’의 순차적 배열로 제시하는 것은 지나치게 환원적이며, 잠재적으로 오해를 낳을 수 있기 때문이다. 우리는 특히 진보적(progressive) 이고 목적론적(teleological) 발전을 암시하여 휘그식 역사서술(Whiggish mode of historical presentation) 로 이어질 위험이 있는 시대구분에 우려를 가진다(Butterfield, 1931; Jordanova, 2006).

Jardine과 Rheinberger의 관점을 수용한다는 것은 기준설정 실천의 진화를 비선형적(non-linear) 이며 비목적론적(non-teleological) 으로 다룬다는 뜻이다. 그러나 Zieky(1995)가 제시한, 기준설정에 관한 통찰력 있는 역사서술에는 일정 정도 ‘진보의 행진(march of progress)’이라는 뉘앙스가 존재한다. Zieky는 기준설정의 네 가지 뚜렷한 ‘시대(Ages)’—

순수의 시대(Innocence),
각성의 시대(Awakening),
환멸의 시대(Disillusionment),
현실적 수용의 시대(Realistic Acceptance)
- —를 제시한다.

우리는 이 범주들이 지난 약 50년간 기준설정에 관한 학술 담론의 분위기를 상당히 정확히 포착한다고 본다. 그러나 우리의 관점에서는, 왜 기준설정에 대한 생각과 태도가 그런 방향으로 전개되었는지가 상대적으로 충분히 탐구되지 않았다. 따라서 우리는 Zieky의 개관을 최근의 발전까지 반영해 부분적으로 갱신하는 동시에, 기준설정의 범주화 자체에 명시적인 인식론적 렌즈를 도입하고자 한다. 특히 우리는 교육자들이 기준설정 과정을 어떻게 이해하고 적응시켜 왔는지를, 그 과정에 내재한 판단의 형식(forms of judgment) 과 인식론적 가정(epistemological assumptions) 의 측면에서 탐구하고자 한다. 이는 기준설정의 역사를 바라보고 범주화하는 다소 다른 방식을 제시한다.

따라서 Zieky가 ‘현실적 수용의 시대’에서 “우리는 기준을 설정하는 모든 방법이 판단에 의존한다는 것을 배웠다”고 말할 때, 우리는 한 걸음 더 나아가 이렇게 묻고자 한다. “그렇다. 그런데 어떤 종류의 판단인가?”

이 역사 전반에 걸쳐 탐구의 장면(scene of inquiry)에서 서로 다른 문제의식이 등장했음에도 불구하고, HPE에서는 한 가지 근본적인 질문이 놀라울 만큼 지속적으로 반복되어 온 것으로 보인다. 바로 “이 사람은 지금 이 시점에서 충분히 괜찮은가?” 라는 질문이다. 이 질문은 학습 단계, 평가의 초점과 중요도, 부정적 판단의 결과 등에 따라 서로 다른 교육적·전문직적 맥락에서 다양한 방식으로 표현될 수 있다. 그러나 우리는 이를 뒷받침하는 근본 질문이 서로 다른 기준설정의 인식론적 접근을 연결하는 반복적 실마리라고 주장한다.

이렇게 바라보면, 겉으로는 서로 단절되어 있거나 심지어 자의적으로 보일 수 있는 실천들 사이에서도 상대적으로 안정된 탐구의 장면(scene of inquiry) 을 식별할 수 있다. 이러한 반복되는 문제의식은 매우 다른 인식론적 배열들 사이에 일정한 연속성을 제공한다. 그러나 이 근본 질문 자체는 알아볼 수 있을 만큼 지속되었지만, 그 질문에 답하는 방식은 시간이 흐르면서 크게 변했다.

이는 Jardine이 말했을 법한 ‘탐구 체제의 이동(shifting regime of inquiry)’ 을 반영한다.

즉, 역사적으로 우연적인 인식론적 규범(epistemic norms), 평가 실천(evaluative practices), 제도적 구조(institutional structures) 의 배열이 같은 반복적 질문을 서로 다른 방식으로 해결하려 했다는 뜻이다.
다시 말해, 탐구 장면을 추동하는 질문은 안정적으로 유지되었지만, 그 질문에 답하려는 구성(configuration), 추론 양식(styles of reasoning; à la Hacking), 탐구자들의 전략은 계속 변화해왔다.
이하에서는 각 인식론적 체제마다 Jardine식의 특징적 질문(characteristic questions) 을 식별한다.

기준설정의 다섯 가지 인식론적 체제 Five epistemic regimes of standard setting

역사적 인식론의 렌즈는 기준설정을 단순한 기술적 절차 이상의 것으로 재구성한다. 기준설정은 역량(competence) 과 전문직적 책무(professional accountability) 에 대한 변화하는 개념들이 지속적으로 충돌하고 조정되는 인식론적 협상의 장(site of epistemic negotiation) 이다. 우리는 각각 고유한 추론 양식(style of reasoning) 과 인식론적 토대(epistemological basis) 를 지닌 다섯 가지 인식론적 체제를 제시한다.

중요한 교육적 결정을 평가에 근거해 내리는 곳에서는 오랫동안 어떤 형태로든 문턱 판단(threshold judgement) 이 존재해왔다. 그러나 이러한 실천이 본질적으로 역사적이고 맥락적인 성격을 지닌다는 점을 인식하면, 그것들이 시간을 초월한(timeless) 것도 아니고, 모든 상황에 보편적으로 적용 가능한(universally applicable) 것도 아님을 알 수 있다. 그러한 실천들은 자신이 개발된 역사적 맥락의 가정(assumptions), 도구(tools), 우선순위(priorities) 를 함께 지닌다.

이처럼 이동하는 인식론적 체제들은, 반복되는 질문이 여전히 긴급성과 중요성을 유지하는 지속적인 탐구의 장면(durable scene of inquiry) 안에서 전개된다. 다만 그 질문을 탐구하고, 정당화하고, 이해하는 방식은 시간이 흐르면서 변형되어 왔다. 따라서 우리는 이 다섯 가지 체제를 엄격한 연대기라기보다, 역량을 인식하고 판단하는 특징적 방식, 탐구 도구와 방법, 그들이 의존하는 권위의 형태가 출현하는 양상으로 다룬다.

이 다섯 가지 체제는 등장 순서에 따라 다음과 같이 정리할 수 있으며, 뒤의 표 1에서 요약한다.

추정적 체제(Presumptive regime): 기준설정의 ‘전사(pre-history)’
규정적 체제(Prescriptive regime): 1960년대 등장
예측적 체제(Predictive regime): 1970년대 등장
수행기반적 체제(Performative regime): 1980년대 등장
프로그램적 체제(Programmatic regime): 2000년대 등장

이 분석의 한 함의는, 명시적인 개념적 프로젝트로서의 기준설정은 사실 비교적 짧은 역사를 가진, 상당히 최근의 구성물이라는 점이다.

표 1. 기준설정의 인식론적 체제 요약
Table 1. Summary of epistemic regimes of standard setting

인식론적 체제 Epistemic regime	인식론적 토대 Epistemic basis	실천 Practices	권위 Authority	대표적 방법 Signature methods	규정적 인식론 질문 Defining epistemological question
추정적 체제 Presumptive — 기준설정의 전사(pre-history)	선언적(declarative), 역사적(historical), 전통적(traditional)	암묵적(tacit), 비판 없이 수용됨(uncritical), 비실증적(non-empirical)	기관(Institutional)	기본값으로 주어진 고정 합격점(default, fixed cut scores)	학습자는 이 평가를 통과할 만큼 충분히 알고 있는가?
규정적 체제 Prescriptive — 1960년대 등장	사전에 결정된 기준(pre-determined standards)	수행에 대한 준거기반 판단(criterion-based judgement of performance)	전문가, 교수진, 전문직 집단(Experts, Faculty, Professionals)	루브릭(rubrics), 평정척도(rating scales)	이 평가에서 학습자가 달성하기를 기대하는 최소 기준은 무엇인가?
예측적 체제 Predictive — 1970년대 등장	준거집단(reference group)의 예측 수행(predicted performance)	문항 기반 판단(item-based judgements), 통계적 방법(statistical methods)	내용전문가 패널(SME panels)	Angoff, Ebel, Nedelsky, Bookmark	경계선(borderline) 응시자는 이 평가에서 어떻게 수행할 것인가?
수행기반적 체제 Performative — 1980년대 등장	실제 코호트 수행(actual cohort performance)	수행기반 판단(performance-based judgements), 통계적 방법(statistical methods)	시험관 + 실증적 증거(examiners + empirical evidence), 특정 시점(point-in-time)	Contrasting groups, Borderline regression, Cohen	우리가 최소 역량을 갖추었다고 판단한 응시자들은 이 평가에서 실제로 어떻게 수행하는가?
프로그램적 체제 Programmatic — 2000년대 등장	분산적(distributed), 집합적(collective), 총체적(holistic), 종단적(longitudinal) 수행	다중 방법(multiple methods), 총체적 판단(holistic judgements)	역량위원회 + 실증적 증거(competence committees + empirical evidence), 종단적(longitudinal)	위임 척도(entrustment scales), 자료 삼각검증(triangulation of data), 포트폴리오 평가(portfolio evaluation)	이 후보자는 우리 전문직에서 독립적으로 실무를 수행해도 안전한가?

추정적 체제 Presumptive regime

이 체제에서는 기준이 사전에(a priori) 결정되어 평가 수행에 적용된다. 우리는 이 체제를 추정적(presumptive) 이라고 부른다.

왜냐하면 이 경우 기준은 보통 기관 수준에서 ‘설정(set)’되기보다는 ‘선언(declared)’ 되며, 그 실제 기준을 결정하거나 타당화하기 위한 명시적이고 형식화된 논증(argument) 또는 절차 없이 실행되기 때문이다.
이는 고정되어 있고 논쟁의 여지가 없는 것으로 다루어지며, 수용 가능한 수행과 수용 불가능한 수행을 구별하는 적절한 지점으로 액면 그대로 받아들여진다.
이 체제에서 기준은 흔히 특정 점수 또는 백분율 점수—보통 50%—로 표현된다. 이는 교육 맥락 전반에 걸쳐 동등하게 적용될 수 있는 최소 기준의 보편적 벤치마크(universal benchmark for minimum standards) 를 나타내는 것으로 간주된다. 그러나 합격점(pass score)을 뒷받침하는 명확한 실증적 근거는 존재하지 않는다. 기관의 권위나 관행 외에는 별다른 토대가 없다.
이러한 체제에서 기준설정에 대한 고려는, 잘해봐야 암묵적이고, 심하면 완전히 부재한다. 즉, 기준은 특정한 수행 수준—최소 수용 가능 기준(minimum acceptable standard)—을 본질적으로 그 자체로 나타낸다고 추정될 뿐, 이것이 집단적으로, 목적의식을 가지고, 형식적으로 검토되어 수립되는 것은 아니다.

이런 이유로 우리는 추정적 체제를 기준설정의 ‘전사(pre-history)’ 로 본다. 다시 말해, 평가 수행 사이에 나누는 분할선(partitioning lines)을 명확히 표현하고 정당화해야 할 필요가 공적으로 요구되기 이전의 시대를 나타낸다. Zieky(1995)가 이 시기를 “순수의 시대(age of innocence)” 라고 표현한 것은, 명시적이고 형식화된 기준설정의 필요성 자체에 대한 일종의 무지 또는 순진함을 암시한다. 그러나 우리는 이 체제의 인식론적 토대를 보다 정확히 지칭하기 위해 ‘추정적(presumptive)’ 이라는 용어를 선호한다. 또한 곧 논의하듯이, 이러한 접근은 오늘날의 교육 현장에서도 결코 사라지지 않았다. 많은 교육 기준은 여전히 전통에 의해 결정되며, 그 사용의 근본 토대는 권위와 일정 정도의 추정성(presumptiveness) 이다.

이 체제는 교육 기준을 설정하는 방식—특히 적절한 시험 합격점이 무엇인지를 결정하는 방식—이 기관의 권위에 의해 좌우되던 시기를 반영한다. 이러한 방식은 대체로 받아들여졌고, 더 정확히 말하면 그렇게 ‘추정되었다’(Resnick & Resnick, 1985; Yousef et al., 2017). 따라서 50%와 같은 선언된 비실증적 합격점(non-empirical pass mark) 이 과목, 교과목, 코호트, 심지어 기관을 넘어 타당하게 적용될 수 있다는 생각은 별로 논쟁적이지 않았다.

그러나 많은 연구자들이 지적했듯이, 이 과정에는 일정한 자의성(arbitrariness) 이 존재하며, 이를 엄밀히 따져 묻기 시작하면 방어하기 어렵다(Tekian & Norcini, 2015; Zieky, 1995; Zumbo, 2016). 이는 이 체제에서 기준으로 사용되는 백분율 값의 변동성, 특히 편리하게 반올림된 수치의 성격에서 관찰된다. Zieky는 히브리 성서의 아브라함 이야기(Genesis 18:22−18:32)를 그러한 자의성의 초기 사례로 든다. 아브라함은 멸망이 예정된 소돔을 구하기 위해 필요한 의인의 최소 수가 몇 명인지 하나님께 반복해서 묻고, 마침내 10명에서 멈춘다. Zieky는 묻는다. “왜 10명인가? 왜 11명이나 9명, 5명이나 15명이 아닌가?”(p. 32).

숫자 10 자체에는 그것이 규정적 경계로 사용되어야 할 내재적 근거가 없다. 협상이 있을 수는 있지만, 궁극적으로 그것은 실증적 근거가 없는 선언(decree) 에 의존한다. 기준을 임의의 숫자로 설정하는 것은 그 결정의 근거를 따져 묻거나, 실질적 논증을 제시해야 할 필요를 우회한다. 그것은 단지 주어진 것으로서, 역량과 무역량 사이의 진정한 경계를 나타낸다고 그저 추정될 뿐이다.

그러나 합격 기준 자체가 자의적으로 도출될 수 있다고 해서, 그것이 해석되는 방식까지 단순한 것은 아니다. 인식론적으로 보면, 그 해석은 더 복잡하다. 기저의 신념체계는 단순한 행정적 편의에 그치지 않는다. 오랜 관행은 그러한 합격 기준에 내재적 정당성(intrinsic legitimacy) 을 부여한다. 50%나 60%—혹은 선택된 어떤 수치든—는 역량/무역량을 가르는 ‘자연스러운(natural)’ 경계로서의 지위를 획득한다.

따라서 합격 백분율 점수는 자의적으로 선언된 수치에서 비롯되었다고 주장할 수 있지만, 일단 공식 기준으로 정착하면 결코 자의적인 것으로 보이지 않는다. 이는 이 체제의 두 가지 특징적인 평가 실천으로 이어진다.

첫째, 모든 평가는 자의적으로 정해진 점수를 뒷받침하도록 개발되거나, 그렇게 개발될 것으로 기대된다. 즉, 최소 역량 수준의 수행이 이미 선언된 기준과 맞아떨어지도록 평가가 정렬된다.
둘째, 합격/불합격 결과가 이러한 기대를 뒷받침하지 않을 경우—예컨대 역사적 합격률과 크게 어긋나는 경우—그 원인은 기준 자체가 아니라 평가의 설계나 시행에 있다고 간주된다. 대부분의 현장에서는 이러한 불일치를 관리하기 위해 코호트 전체의 점수를 조정하여, 보다 ‘수용 가능한’ 비율의 학생들이 합격하고 불합격하도록 만든다.

이처럼 합격/불합격 결과의 지각된 불일치를 관리하는 방식에서, 추정적 체제는 시간적으로 함께 존재했던 규준참조평가(norm-referenced assessment) 와 유사해 보인다. 규준참조평가는 시험 점수가 널리 분산되어야 하며, 보통 정규분포(normal distribution)에 근접해야 한다고 가정하는 심리측정학 전통에 근거한다(Ebel & Frisbie, 1991). 그런 다음 점수는 적절하거나 기대되는 합격/불합격 결과를 반영하도록 ‘조정(moderated)’될 수 있다.

따라서 어떤 평가에서든 합격점을 필요로 한다면, 그 합격점은 학생들—보다 정확히는 그들의 점수—을 순위화하는 방식에 의해 완전히 결정된다. 특정 비율의 점수가 어디에 위치하느냐, 예컨대 상위 25%가 어디에 해당하느냐에 따라, 그에 대응하는 점수가 정의상 합격 기준이 된다. 다시 말해, 원하는 혹은 요구되는 비율이 사실상의 기준을 결정하며, 이는 응시자가 무엇을 알고 무엇을 할 수 있는지와 완전히 분리되어 있다. 이것이 바로 여러 세대의 학생들이—옳든 그르든—자신의 원점수 합격이 환산점수 불합격으로 바뀌는 데 사용되었다고 믿어온 악명 높은 ‘종 모양 곡선(bell curve)’ 개념을 낳았다.

많은 교육학 문헌에서는 규준참조를 때때로 ‘상대적(relative)’ 기준설정 접근이라고 부른다(e.g. Livingston & Zieky, 1982; Norcini, 2003). 그러나 실제로 규준참조는 형식화된 기준설정의 정반대다. 개념적으로 볼 때, 추정적 체제는—이후 논의할 다른 체제들과 마찬가지로—비록 자의적으로 정의된 기준이기는 하지만 기준에서 출발한다. 다만 기관이 조정(moderation) 실천을 통해 겉보기에 불일치하는 결과를 관리하는 방식에서 규준참조와 유사할 뿐이다.

인식론적 관점에서 추정적 체제는 여전히 ‘절대적(absolute)’ 기준설정 접근으로 남아 있다(Norcini, 2003). 왜냐하면 그것은 요구되는 성취 수준을 나타내는 독립적 지표로 기능하도록 의도된, 선언된 기준을 제공하기 때문이다.

따라서 이 체제의 규정적 질문은 “학습자는 이 평가를 통과할 만큼 충분히 알고 있는가?” 이다. 여기서 ‘합격’으로 인정되는 지식이나 수행은 시험 자체와 독립된 것으로 간주된다. 즉, 이 질문에 대한 답은 수치적으로도 인식론적으로도 언제나 동일하다. 학습자는 고정된 합격점으로 대표되는 X만큼의 지식을 필요로 한다. 그러나 그러한 양이 어떻게 도출되었는지, 혹은 서로 다른 평가나 맥락에서 그 양이 어떻게 달라질 수 있는지는 이 체제의 기준 개념 안에 포함되어 있지 않다. 이것이 바로 다음에 살펴볼 규정적 체제(prescriptive regime) 와의 핵심적 차이 중 하나다.

의학교육과 보건의료전문직교육 분야의 기준설정은 대체로 추정적 체제를 넘어섰지만, 고등교육 부문의 많은 영역에서는 여전히 학생 성과를 결정하는 데 이 방법론을 적용하고 있다. 그 이유는 복잡할 가능성이 크며, 교육학적 고려뿐 아니라 행정적·정치적 고려도 포함될 것이다. 분명히 추정적 체제는 기준과 결과에 대한 일정 수준의 지각된 제도적 통제(perceived institutional control) 를 제공한다.

그러나 앞서 설명했듯이, 기관이 기준의 수치적 값을 선언할 수는 있어도, 그것이 실제로 ‘작동하도록 만드는’ 책임은 교수진에게 있다. 즉, 평가를 기준과 정렬시키거나, 평가 이후 조정 실천을 수행하는 방식으로 그 기준을 현실화해야 한다.

따라서 기준설정 방법이 이제 명시적이고 필수적인 교육 실천의 일부가 된 시대에, 기본값 합격점(default pass marks) 을 바탕으로 고부담 결정을 계속 내리는 것은 ‘순수한’ 접근이라기보다 의도적인 인식론적 선택(deliberate epistemic choice) 으로 보아야 한다. 물론 제한적인 상황에서는 이러한 접근이 정당화될 수 있다. 예컨대 저부담의 지속평가(low stakes continuous assessment)나 시험 내용이 여러 시행에 걸쳐 실질적으로 동일하게 유지되는 경우(Bramley, 2018)가 그러하다.

그러나 고부담 평가가 중요한 결과를 초래하는 맥락에서 고정된 기본 합격점을 선택하는 것은 방어하기 어렵다. 이는 기관의 권위와 행정적 편의가 실증적이고 타당화된 합격 기준보다 우선될 수 있는 인식론적 체제를 반영한다.

규정적 체제 Prescriptive regime

이 체제의 특징은 평가를 위한 명시적 준거에 따라 기준을 의도적으로 진술하거나 규정하려는(deliberate attempt to articulate or prescribe) 노력에 있다. 추정적 체제와 마찬가지로, 이는 평가 과정 자체가 시작되기 전에 이루어진다. 보통 여러 수행 수준을 포함하며, 그중 하나는 평가에서 합격하기 위해 필요한 최소 수용 가능 수행(minimum acceptable performance) 의 수준을 나타낸다.

그러나 규정적 체제는 수행 수준에 대한 검토되지 않은 가정들을 보다 명시적이고 목적의식 있는 방식으로 드러내려 한다. 이를 통해 역량을 인식하는 방식 자체를 형식화(formalise) 한다. 따라서 규정적 체제는 기준을 설정하기 위해 합리적이고 방어 가능한 절차(rational and defensible process) 가 필요하다는 점을 인정하며, 기준설정의 인식론 측면에서 추정적 체제로부터 중요한 전환을 이룬다.

규정적 접근의 핵심적인 인식론적 특징은 수행 기준(performance standard) 과 그에 대응하는 합격점(cut score) 을 명시적으로 구분한다는 점이다(Kane, 1994; Zumbo, 2016). Kane은 다음과 같이 말한다. “타당화(validation)는 제안된 합격점이 적절한 수행 기준을 나타내는 것으로 해석될 수 있음을 입증하는 데 있다”(Kane, 1994, p. 425).

앞서 살펴본 것처럼,

추정적 접근은 합격점이 해당 수행 기준과 연결되는지를 실증적으로 타당화하려 하지 않는다. 불일치하는 분포를 규범적으로 ‘교정’하는 것은 선언된 합격점을 타당화하는 일이 아니다.
반면 규정적 체제에서는, 적절한 내용전문가(content experts) 가 기대되는 역량 수준의 서로 다른 ‘개념적(conceptual)’ 버전을 식별하는 일을 맡는다(Kane의 표현). 그리고 평가자들—이들이 동일한 사람일 수도 있고 아닐 수도 있다—은 관찰된 수행을 이러한 개념적 범주와 식별하고 대응시키는 일을 맡는다. 이는 보통 루브릭(rubrics) 과 평정척도(rating scales) 의 설계와 적용을 통해 이루어진다.

따라서 이 체제에서 합격점은 기준 자체 안에 구성되고(constructed), 내재되며(embedded), 규정된다(prescribed)(Lewis & Cook, 2020). 해당 기준은 평가와 관련하여 사전에 명시되고 설정되지만, 응시자 수행의 결과는 채점 과정에서 결정된다. 그리고 대개 바로 이 지점에서 예상과 다른 결과에 대한 우려가 다뤄진다.

이 글에서 가장 중요한 구분은 "수행 기준"과 "합격점"은 서로 다른 것이라는 점입니다.

수행 기준(performance standard): "합격자가 어느 정도 역량을 보여야 하는가"를 말로 기술한 질적 정의. (예: "환자 면담에서 핵심 정보를 빠짐없이 수집하고 라포를 형성하는 수준")
합격점(cut score): 그 기준을 점수로 표현한 경계선. (예: 70점)

규정적 접근의 인식론적 특징은, 이 둘을 명시적으로 갈라놓고 "이 합격점(숫자)이 그 수행 기준(질적 정의)을 제대로 대표한다"는 것을 입증하는 일이 곧 타당화라고 본다는 데 있습니다. Kane 인용문이 말하는 게 정확히 이겁니다.

두 접근의 차이는 일하는 순서와 태도에서 갈립니다. 추정적 접근은 합격점이 수행 기준과 실제로 연결되는지를 실증적으로 확인하려 하지 않습니다. 점수 분포가 기대와 어긋나면 규범적으로 손보는데, 그건 분포를 '교정'하는 것일 뿐 합격점이 옳다는 걸 보여주는 작업이 아닙니다.

규정적 체제는 반대로 기준에서 출발합니다. 먼저 내용전문가가 기대 역량의 '개념적 수준들'을 정의하고(우수/적정/미흡이 각각 어떤 모습인지), 평가자가—같은 사람일 수도 아닐 수도 있죠—관찰한 수행을 그 개념적 범주에 대응시킵니다. 보통 루브릭과 평정척도를 설계하고 적용하는 방식으로요. 그래서 합격점은 기준과 따로 떨어져 나중에 맞춰보는 대상이 아니라, 기준을 만들 때 그 안에 이미 구성되고 박혀 있게 됩니다.

마지막 문장이 함의의 핵심입니다. 기준 자체는 평가 전에 미리 정해지고 고정되지만, 응시자가 실제로 받는 결과는 채점 과정에서 비로소 결정됩니다. 그래서 "결과가 예상과 다르다"는 우려가 생기면, 규정적 체제에서는 그 문제를 채점 단계에서(루브릭 설계, 평가자 훈련, 척도 적용 등) 다룹니다. 추정적 접근처럼 사후에 합격점을 거꾸로 조정해 분포를 맞추는 식이 아니라요.

이러한 인식론적 접근은 교육에서 더 넓게 전개된 준거기반 운동(criterion-based movement) 과 밀접하게 연결되어 있다(Glaser, 1963; Hambleton, 1993). 이 운동은 학생의 학습과 수행을, 자의적인 절단점(arbitrary cut points)이나 동료의 수행과의 비교가 아니라, 명확히 표현되고 사전에 결정된 기준(pre-determined standards) 에 관계지어 해석하려 했다. 그렇게 함으로써 이는 규준참조 전통의 평가와 기준설정으로부터 의도적이고 철학적으로 중요한 이탈을 나타냈다.

엄밀히 말해 준거기반 평가의 일차적 목표가 합격점의 설정 자체는 아니었지만(Hambleton, 1993), 이 접근의 논리는 그러한 문턱값(threshold)을 결정하는 문제를 거의 피할 수 없는 결과로 만들었다. 수행이 구체적인 학습 기대에 비추어 제시되는 순간, 최소 수용 가능 역량 수준(minimum acceptable level of competence) 에 대한 질문이 따라오기 때문이다. 그 결과, 교육 이해관계자들에게 전통적으로 가장 중요했던 수행 연속선상의 단일 지점, 즉 시험 합격점(test cut score) 을 확인하기 위한 일련의 명시적이고, 많은 경우 특정 인물의 이름을 딴 기준설정 방법들이 등장하였다.

이 문단은 "준거기반 평가가 어쩌다 기준설정(standard setting) 문제와 떼려야 뗄 수 없게 되었는가"를 설명합니다.

논리는 이렇습니다. 준거기반 평가가 처음부터 합격점을 정하려고 만들어진 건 아니었습니다(Hambleton). 원래 목적은 "이 사람이 정해진 준거(영역·기대)에 비추어 무엇을 할 수 있는가"를 기술하는 것이었죠. 다른 응시자와 비교하는 규준참조와 대비되는 지점입니다.

그런데 바로 그 논리가 합격점 문제를 거의 강제합니다. 수행을 "구체적인 학습 기대"에 비추어 제시하는 순간, "그래서 어느 정도면 충분한가?"라는 질문이 자동으로 따라오기 때문입니다. 이것이 곧 최소 수용 가능 역량 수준(minimum acceptable level of competence)에 대한 질문입니다.

그리고 그 질문에 답하려면 결국 수행의 연속선—못함부터 잘함까지 펼쳐진 스펙트럼—위에서 단 하나의 점을 찍어야 합니다. 그 점이 합격선이고, 합격/불합격이 가장 큰 관심사인 만큼 교육 이해관계자들이 전통적으로 가장 신경 써 온 지점이죠.

그래서 바로 그 한 점을 어떻게 정할지에 대한 명시적인 방법들이 줄줄이 등장했고, 그중 상당수가 고안자의 이름을 딴 것들입니다. Angoff, Ebel, Nedelsky, Bookmark 방법처럼요.

정리하면, 준거기반 평가는 합격점 설정을 목표로 삼지 않았지만 "기대 대비 수행"이라는 틀 자체가 "최소 기준은 어디인가"라는 질문을 불러왔고, 그 질문이 오늘날 우리가 아는 기준설정 방법론들을 낳았다는 이야기입니다.

Glaser의 1963년 논문은 교육 성취를 결정할 때 암묵적 관행, 역사적 전례, 규범적 분포에 의존하던 방식에서 벗어나는 중요한 개념적 전환(pivotal conceptual shift) 을 표시한다. 대신 그것은 방어 가능한 결정이란 학습자들이 명확히 정의된 인지적(cognitive) 또는 행동적(behavioural) 준거에 비추어 실제로 무엇을 할 수 있는지에 근거해야 한다고 주장한다.

준거기반 평가는 이로써 평가의 목적을 학습자를 순위화하는 것에서, 그들의 지식과 기술의 질(quality)과 충분성(sufficiency)에 대해 추론하는 것으로 다시 규정했다. 앞서 언급했듯이, 이러한 접근은 질적으로 구별되는 수행 수준을 명시적으로 구획할 것을 요구한다. 이러한 요구는 규정적 체제의 대표적 상징이 된 채점 루브릭(marking rubrics) 과 수행 기술어(performance descriptors) 의 발전을 촉진했다(Hambleton et al., 2000; Jonsson & Svingby, 2007).

이 문단은 "왜 루브릭과 수행 기술어가 규정적 접근의 상징이 되었는가"를 설명하며, 그 뿌리에 평가 목적 자체의 전환이 있다고 말합니다.
준거기반 평가는 평가가 던지는 질문을 바꿔놓았습니다.

예전(규준참조)의 질문: "이 학습자는 다른 사람들 사이에서 어디쯤인가?" — 즉 순위 매기기
준거기반의 질문: "이 학습자의 지식과 기술이 충분히 좋은가(질), 그리고 충분한가(충분성)?"

여기서 질(quality)은 "얼마나 잘하는가", 충분성(sufficiency)은 "충분한 정도에 이르렀는가, 즉 통과 기준을 넘는가"를 가리킵니다. 앞 문단의 '최소 수용 가능 수준' 논의와 바로 이어지는 지점이죠.

그런데 이 새로운 질문에 답하려면 단일한 점수 하나로는 부족합니다. 질적으로 구별되는 수행 수준들이 각각 어떤 모습인지를 명시적으로 선을 그어 구분해야 합니다(예: 미흡·적정·우수가 각각 무엇을 의미하는지). 이것이 "질적으로 구별되는 수행 수준의 명시적 구획"이 뜻하는 바입니다.

그리고 바로 그 일—각 수준을 말로 기술하고 그 경계를 짓는 일—을 해내는 도구가 채점 루브릭과 수행 기술어입니다. 그래서 이 둘이 규정적 체제의 대표적 상징이 된 것이죠. 의학교육으로 치면 마일스톤 수준 기술어나 OSCE 루브릭이 정확히 이 역할을 합니다.

이 도구들은 단지 채점을 안내하는 역할만 하지 않는다. 그것들은 기대 수행의 명세를 우선시하는 개념적 범주(conceptual categories) 를 구현하며, 역량 있는 수행이 어떤 모습이어야 하는지를 규정하는 구조화된 틀(structured framework) 을 만든다. 이런 의미에서 준거기반 접근은 기준설정의 기술적 절차에만 영향을 준 것이 아니라, 평가, 책무성, 수업설계에 대한 더 넓은 문화적 기대도 형성해왔다.

추정적 체제와 달리 규정적 체제에서는 기준설정의 권위가 기관에서 교수진으로 이동한다. 왜냐하면 적절한 준거와 벤치마크를 결정할 수 있는 필수적 이해를 가진 이들은 교사와 내용전문가들이기 때문이다(Zumbo, 2016).

이 체제에서 합격 기준을 결정하는 특징적 질문은 다음과 같다.

“이 평가에서 학습자가 달성하기를 기대하는 최소 기준은 무엇인가?”

혹은 전문직 맥락에서는,

“이 후보자는 해당 전문직의 최소 기대 수준을 충족하는가?”

이 질문들은 추정적 체제의 선언적 성격보다 더 실천적이고 적용 지향적인 인식론적 질문이다. 이는 수용 가능한 기준을 결정하는 과정에서 교육적 및/또는 전문직적 준거를 구현하려는 전문가 기반 접근(expert-based approach) 을 반영한다.

예측적 체제 Predictive regime

이 체제에서는 관심의 초점이 다시 후보자의 실제 수행보다는 시험 자체(the test itself) 로 돌아간다. 다만 중요한 차이는, 여기에 형식화된 실증적 구성요소(formalised empirical component) 가 포함된다는 점이다. 교육과정과 해당 코호트 모두에 충분히 익숙한 내용전문가(subject matter experts, SMEs) 들이 모여 훈련을 받은 뒤, 특정 평가에서 최소 역량 수준의 학생(minimally competent student) 또는 경계선 학생(borderline student) 이 어떻게 수행할지를 ‘시뮬레이션(simulate)’한다.

인식론적으로 보면, 기준은 합격 수준에서 기능하는 학습자의 기대 수행을 상상하고 예측하는 과정을 통해 개념화되고(conceptualised), 조작화된다(operationalised). 앞선 체제에서 설명했듯이, 이러한 인식론적 접근은 준거기반 평가의 확장으로 발전했으며, 심리측정학과 측정 기반 접근의 확산에 의해 추동되었다. 또한 표준화시험(standardised testing)의 부상과, 신뢰도(reliability) 가 평가의 핵심 미덕으로 자리 잡으면서 더욱 인기를 얻었다. 평가에서 객관성을 추구하는 윤리는 이 체제와 잘 맞아떨어졌으며, 이 체제는 많은 맥락에 스며들었고 오늘날에도 여전히 널리 사용되고 있다.

이러한 시뮬레이션 과정을 수치적 예측으로 전환하기 위해 여러 방법이 고안되었다. 이들은 일반적으로 문항중심(item-centred) 또는 시험중심(test-centred) 방법으로 불리며, Angoff 방법과 그 다양한 변형(1971; Impara & Plake, 1997), Ebel 방법(1965, 1972), Nedelsky 방법(1954), Bookmark 방법(Lewis et al., 2012) 등이 있다.

이들 방법은 최종 합격점에 도달하기 위해 사용하는 준거와 절차, 그리고 경계선 수행자를 기술하는 언어에서 서로 다르다. 그러나 인식론적으로는 모두 정보에 근거한 집합적 예측(informed and collective prediction) 과정에 기반한다.

핵심은 '준거기반 평가'와 '개별 체제'가 같은 층위가 아니라는 점입니다. 준거기반 평가는 큰 우산이고, 그 아래에 합격점을 정하는 서로 다른 인식론적 체제들이 들어갑니다.

준거기반 평가 (전체 패러다임)

추정적 체제 (estimative)
규정적 체제 (prescriptive) → 도구: 루브릭, 수행 기술어
예측적 체제 (predictive) → 방법: Angoff, Ebel, Nedelsky, Bookmark

앞서 두 번째 문단에서 "특정 인물의 이름을 딴 기준설정 방법들이 등장했다"고 한 것은 우산 차원의 역사적 진술입니다. "준거기반 평가의 논리가 이런 명명된 방법들을 낳았다"는 뜻일 뿐, 그 방법들이 구체적으로 어느 체제에 속하는지는 거기서 특정하지 않았습니다. 지금 예측적 체제 소절이 바로 "그 명명된 방법들이 어느 칸에 들어가는가"를 밝히고 있는 것이고, 답이 예측적 체제인 것이죠.

그래서 규정적 체제(세 번째 문단)와 예측적 체제가 같은 방법을 두고 다투는 게 아닙니다. 둘이 쓰는 도구 자체가 다릅니다.

규정적 체제: 응시자의 실제 수행을 봅니다. 정의된 수준 기술어에 비추어 관찰된 수행을 루브릭으로 채점하죠.
(경험적 대상 = 진짜 수행)
예측적 체제: 시험 문항을 봅니다. 전문가들이 "경계선 학생이라면 이 문항을 어떻게 할까"를 상상·예측합니다. 실제 응시자 수행이 없어도 됩니다.
(경험적 대상 = 가상 경계선 학생의 예측된 수행)

Angoff·Ebel·Nedelsky·Bookmark가 모두 예측적 체제에 묶이는 이유가 여기 있습니다. 이들은 하나같이 "정보에 근거한 집합적 예측"—전문가가 경계선 응시자의 문항 수행을 예측하는 일—에 기반하지, 진짜 수행을 루브릭으로 채점하는 일에 기반하지 않으니까요.

같은 이름이 두 번 나와서 충돌처럼 보였던 것은 자연스러운 독해입니다. 우산(준거기반 평가)에서 한 번 언급되고, 칸(예측적 체제)에서 다시 정확히 배치된 것뿐입니다.

Nedelsky가 1950년대에 선다형 문항의 기준설정을 위한 상세한 방법을 발표했음에도 불구하고, 이 체제가 본격적으로 등장하고 실천적으로 공고화된 것은 1970년대부터라고 할 수 있다. 이는 Angoff의 예측적 방법이 ‘최소 수용 가능 인물(minimally acceptable person)’ 의 가능 수행을 결정하는 방식으로 점진적으로 채택되면서 이루어졌다. 이 방법의 핵심이 매우 짧은 한 단락과 부속 각주에서 제시되었다는 사실(Angoff, 1971)은, 기준설정이라는 실천이 추정적·규정적 체제의 그림자에서 막 모습을 드러내던 시점이었음을 보여준다.

동시에 이 방법은 경계선 학생(borderline student) 을 예측적 체제에서 비롯되는 기준설정 판단의 참조점(reference point)이자 매개(conduit)로 정의하는 역할을 했다.

이 체제에서 명목상의 권위는 경계선 응시자의 수행을 인지적으로 시뮬레이션하기 위해 선발된 판정자(judges) 에게 있다. 그러나 또 다른 권위는 수량화된 판단(quantified judgements) 이 갖는 외견상의 객관성(apparent objectivity)에서 나온다. 이 체제의 특징적 질문, 더 나아가 그 인식론 자체를 규정하게 되는 질문은 다음과 같다.

“경계선 또는 최소 역량 응시자는 이 평가에서 어떻게 수행할 것인가?”

이 체제의 핵심 특징은 실제 응시자의 수행 데이터에 접근하는 것이 형식적으로 요구되지 않는다는 점이다. 합격점의 결정은 오직 SME들의 정보에 근거한 예측과 토론에서 나온다. 물론 예측적 접근의 일부 구현에서는 결과의 방어 가능성과 합리성을 점검하기 위한 ‘현실 점검(reality check)’ 으로 문항 통계(item statistics)를 활용하기도 한다(Cizek & Bunch, 2007; Lewis et al., 2012). 그러나 그러한 데이터는 방법 자체에 필수적이지 않다.

하지만 같은 방법을 사용하더라도 서로 다른 판정자 집단이 서로 다른 합격점을 산출하는 일이 잦아지면서, 이러한 예측 기반 방법에 대한 우려가 증가했다. 이 시기는 Zieky가 말한 ‘환멸의 시대(age of disillusionment)’ 와 맞물리며, 기준설정 결과의 표면적 ‘자의성(arbitrariness)’ 문제에 관한 많은 문헌이 생산되었다(Jaeger, 1989; MacDougall, 2015; Zieky, 2012).

이 체제의 또 다른 핵심 특징인 경계선 학생 개념을 상정하고 그것을 특정 방식으로 ‘수로화(channel)’하는 것 역시 논쟁의 대상이 되었다(Burr et al., 2017; Homer et al., 2017; Lane et al., 2020). 그럼에도 불구하고, 이 체제와 그 대표적 방법들은 많은 평가에서 여전히 실용적인 선택으로 남아 있다. 또한 이 접근의 체계적이고 정량적인 성격이 교육 및 규제 맥락 전반에서 기준설정의 개념과 필요성을 공고히 하는 데 기여했다는 점은 분명하다.

수행기반적 체제 Performative regime

수행기반적 체제는 이전 체제들과 매우 다른 기준설정 접근을 나타낸다. 이 체제는 합격점에 해당하는 경계선 수행을 미리 규정하거나(prescribe), 예측하거나(predict), 추정하려(presume) 하지 않는다. 대신 그 과정을 뒤로 미루고, 실제 응시자들의 수행(actual performance of test-takers) 에 대한 판단을 토대로 삼는다.

따라서 수행기반적 체제의 정의적 특징은 시험 점수(test scores) 와 시험관의 판단(examiner judgements) 을 모두 활용하여 합격점을 결정한다는 데 있다. 이러한 접근의 타당성을 위해서는 시험관의 판단과 채점 과정이 서로 독립적으로 유지되어야 한다. 왜냐하면 합격점 설정에 사용되는 지표 점수(indicative scores)는 판단 요소에서 비롯된 범주화(categorisation)에 의해 걸러지기 때문이다.

중요한 점은, 판단 요소가 어떤 타당한 근거에 기반해도 된다는 것이다. 예컨대 이전 수행이나 성과를 근거로 삼을 수도 있고, 점수화된 시험 자체를 포함할 수도 있다. 단, 그 판단이 해당 채점 과정에서 직접 도출되어서는 안 되며, 반대로 채점 과정이 그 판단에 의해 직접 결정되어서도 안 된다. 결과적으로 합격점은 관련 참조집단—보통 최소 역량 집단(minimally competent group) 또는 경계선 집단(borderline group)—의 수행을 통해 결정된다. 여기서 수행은 시험관의 판단을 통해 식별된다.

이 체제는 Livingston과 Zieky(1982)가 대조집단법(Contrasting Groups method) 을 기술하면서 등장했고, 이후 특히 객관구조화진료시험(Objective Structured Clinical Examinations, OSCE) 의 확산과 밀접하게 결합하면서, Kramer et al.(2003)이 제시한 경계선 회귀법(Borderline Regression method) 을 통해 HPE 영역에서 지배적인 위치를 차지하게 되었다(Boursicot et al., 2021; Harden, 2016; Harden & Gleeson, 1979).

이 체제의 전형적인 여러 기준설정 변형들—예컨대 대조집단법(Contrasting Groups), 경계선 집단법(Borderline Groups), 경계선 회귀법(Borderline Regression)—에서 평가자들은 보다 분석적이고 문항별인 점수화 과정과 함께, 응시자의 수행 수준을 식별하기 위한 총체적이고 독립적인 판단(holistic and separate judgement) 을 내린다.

이러한 판단은 사전에 정해진 척도를 통해 개념화된다. 이 척도는 기대 수행의 여러 수준을 정의하며, 여기에는 최소 역량 수행에 대한 기술도 포함된다. 이런 점에서 이는 규정적 체제의 준거와 유사하다. 그러나 이 접근을 인식론적으로 구별하는 것은, 최소 수행에 해당하는 실제 합격점이 사후적으로(post hoc) 계산된다는 점이다. 이는 분석적 점수화 과정과 총체적 판단 과정에서 도출된 정보를 결합하여 이루어진다.

규정적 체제와 마찬가지로, 예상과 다르거나 수용하기 어려운 합격률은 대체로 학생들의 저조한 수행, 평가자의 오판, 또는 점수표(score sheet)의 부적절성 때문인 것으로 간주된다. 총체적 기준은 일반적으로 최소 역량을 지속적으로 대표하는 것으로 받아들여진다.

이 체제는 중요한 판단 과정을 포함하고 있음에도 불구하고, 강한 정량적 요소를 반영하는 방법들도 활용한다. 이는 특정 수행 수준—예컨대 90백분위수 또는 95백분위수—에 연계된 벤치마킹과 통계 계산을 통해 합격점을 도출하는 Cohen 방법(Cohen’s method) 의 점진적 등장으로 대표된다(Cohen-Schotanus & van der Vleuten, 2010; Taylor, 2011). 이 방법은 충분히 크고 동질적인 코호트에서 두 점수 사이에 일관된 관계가 존재한다는 통계적 근거에 기반한다.

이러한 정량적 방법들은 사실상 평가자들의 초점을 최소 역량 수준 자체를 판단하는 데서 일부 이동시킨다. 대신 코호트 간 능력 분포와 수행 수준의 분포가 충분히 일관적이어서, 최소 수용 가능 수행을 간접적으로 도출할 수 있다는 가정—실증적 근거에 의해 지지되는 가정—에 의존한다.

최근 몇 년 사이에 등장한, 통계 계산에 크게 의존하는 다른 방법들로는 객관적 경계선 방법(Objective Borderline Method)(Shulruf et al., 2015), 전체 코호트를 활용한 Cohen 방법의 추가 확장(McLachlan et al., 2021), 그리고 수신자 조작 특성 곡선(receiver operating characteristic curves, ROC curves) 의 활용(Wang & Keller, 2025)이 있다.

여러 면에서 이러한 방법들을 별도의 인식론—예컨대 ‘자료주도적(Data-driven)’ 혹은 ‘심리측정학적(Psychometric)’ 체제—으로 분류하고 싶은 유혹이 있을 수 있다. 그러나 각각의 경우 계산은 궁극적으로 시험관들이 수행에 대해 내린 판단에서 도출된 데이터에 기반한다. 합격 기준을 정의하기 위해 그러한 데이터를 처리하고 분석하는 방식은 분명 다양할 수 있지만, 그것만으로 하나의 ‘체제(regime)’가 성립하는 것은 아니다.

이 체제에서 설명한 모든 방법의 근본적 토대는 자격을 갖춘 시험관이 후보자의 수행을 판단하는 것이다. 이는 추정적, 규정적, 예측적 체제와 분명한 인식론적 차이를 이룬다.

따라서 이러한 접근에서 권위는 응시자의 수행을 판단하는 시험관(examiners) 에게 있으며, 그 판단은 최소 역량을 갖춘 것으로 판정된 응시자들의 수행을 통해 사실상 조정된다. 이 체제의 특징적 질문은 다음과 같다.

“우리가 최소 역량을 갖추었다고 판단한 응시자들은 이 평가에서 실제로 어떻게 수행하는가?”

중요하게도, 이 체제에서 결과 결정을 내리는 토대는 이전 체제들과 마찬가지로 여전히 ‘특정 시점(point-in-time)’ 에 머문다. 즉, 참조 경계선 집단을 결정하는 데 사용되는 범주화가 외부의 이전 데이터에 근거할 수는 있지만, 실제 결정은 평가에 포함된 특정 시험에서의 수행을 기반으로 한다. 이는 매우 중요한 차이이며, 우리를 마지막으로 제안하는 체제로 이끈다.

"미리 합격 점수를 정해놓고 시험을 보는 게 아니라, 학생들이 실제로 시험 보는 모습을 전문가(평가자)가 관찰하고 판단한 뒤에 합격선을 정하자!"

## 수행기반적 체제가 기존 방식과 다른 점

과거에는 시험을 보기 전에 "이 시험은 70점 이상이면 합격이야"라고 미리 정해두거나 예측했습니다(규정적/추정적 체제).
하지만 수행기반적 체제는 이를 뒤로 미룹니다. 미리 점수를 정해두지 않고, 실제 학생들의 수행 결과를 보고 나서 합격선을 정하는(사후적, post hoc) 방식입니다.

## 합격선을 정하는 작동 원리 (투트랙 방식)

이 체제는 다음 두 가지 정보를 결합해서 합격선을 만듭니다. 이 과정이 수행기반적 체제의 가장 중요한 특징입니다.

분석적 점수 (실제 시험 점수): 정해진 채점 기준표에 따라 매겨진 객관적인 점수
총체적 판단 (평가자의 눈): 평가자가 학생의 전체적인 수행 모습을 보고 "이 학생은 우수함 / 통과 / 턱걸이(경계선) / 낙제" 중 어디에 속하는지 내리는 독립적인 판단

이 두 가지는 반드시 서로 독립적이어야 합니다. 즉, 점수를 매기다 보니 점수가 낮아서 "낙제"라고 판단하거나, "턱걸이" 같아서 점수를 적당히 주는 식으로 서로 영향을 미치면 안 됩니다.

결론적으로 합격선을 정하는 방법은 다음과 같습니다.

## 복잡한 통계 방법론들의 등장

글 후반부에는 '대조집단법', '경계선 회귀법', '코헨 방법(Cohen's method)' 같은 용어들이 등장합니다.
시험이 발전하면서 평가자의 판단에만 의존하지 않고, 이를 뒷받침하기 위해 통계적이고 수학적인 계산법들이 많이 도입되었습니다. 겉보기에는 데이터나 심리통계에만 의존하는 완전히 다른 시스템처럼 보일 수 있습니다.
하지만 글쓴이는 "아무리 계산이 복잡해져도, 결국 그 데이터의 근본적인 출발점은 '평가자가 학생의 수행을 보고 내린 인간의 판단'이다"라고 강조합니다. 통계는 거들 뿐, 권위는 여전히 현장에서 학생을 본 평가자에게 있다는 뜻입니다.

## 이 체제의 한계와 다음 단계로의 예고

글의 맨 마지막 단락은 매우 중요합니다. 수행기반적 체제가 훌륭하긴 하지만, 결국 '그날, 그 시험(특정 시점, point-in-time)'에서 보여준 단편적인 모습만으로 학생의 통과 여부를 결정한다는 한계가 있습니다. 평소에 잘하던 학생도 그날 시험을 망치면 떨어지는 구조인 것이죠.
글쓴이는 이 한계점을 지적하며, "그래서 우리는 (특정 시점에 얽매이지 않는) 마지막 새로운 체제를 제안한다"라며 글을 맺고 있습니다.

프로그램적 체제 Programmatic regime

이 체제에서는 최소 역량을 반영하는 기준이 훈련 프로그램 전반에 걸쳐 학습자를 가르치고 평가하는 사람들에 의해 집합적으로 개념화된다. 그리고 해당 학습자의 역량 수준을 평가하는 지정 위원회는, 보통 포트폴리오 형태로 배열된 가용한 모든 자료(all available data) 를 근거로 이 기준을 실제로 적용할 책임을 진다(Pack et al., 2019; Wilkinson et al., 2011).

따라서 이 체제는 총체적(holistic) 이며 종단적(longitudinal) 이다. 이는 특정 시점(point-in-time)의 평가와 대비된다. 또한 이 체제는 평가와 학습에 대한 프로그램적 접근(programmatic approaches to assessment and learning) 과 밀접하게 연결된다(de Jong et al., 2022; Pearce & Tavares, 2021; van der Vleuten, 1996; van der Vleuten et al., 2017; van der Vleuten & Schuwirth, 2005).

기준설정에서의 프로그램적 체제는 비교적 최근—대략 2010년 이후—에야 등장했으며, 역량에 관한 결정을 위원회가 분산적으로(distributed) 내리는 방식을 수용한다. 다양한 종류의 증거와 자료에는 해석주의적 추론 양식(interpretivist modes of reasoning) 이 적용되고, 프로그램 내 이해관계자들은 이를 삼각검증(triangulation) 한다.

프로그램적 체제는 주관적(subjective)이고 전문가적인 판단(expert judgement) 의 역할을 적극적으로 인정한다(Hodges, 2013; ten Cate & Regehr, 2019). 또한 덜 표준화된 직무기반평가(workplace-based assessments) 에서 수집된 증거를 활용한다. 그러나 동시에 이는 종단적 데이터셋(longitudinal data sets), 증거의 패턴(patterns of evidence), 실질적 정당화(substantive justification), 맥락 특수성(context specificity) 에 의해 지지된다(Pearce, 2020).

이러한 평가 철학에 따라, 기준설정의 과정—그리고 관련 기준을 소통하는 과정—은 훈련 프로그램의 통합적 일부(integral part) 로 개념화된다. 프로그램적 평가 원리가 구현되면, 평가에서 형성평가(formative) 와 총괄평가(summative) 의 구분은 의도적으로 흐려진다(Tavares et al., 2022). 그리고 학습을 위한 평가(assessment for learning) 가 우선시된다. 이는 전형적인 학습에 대한 평가(assessment of learning) 접근처럼, 평가가 별도의 사후 판단(post hoc judgement)으로 이루어지는 것과 다르다.

따라서 프로그램적 체제에서 기준은 최종 교과목 학습성과(final course learning outcomes)와 전문직 역량(professional competencies)의 관점에서 개념화되고 구성된다. 그리고 충분한 자료가 수집되었을 때, 각 개별 평가 시점마다가 아니라 그때에 기준이 적용되고 결과 결정이 내려진다(Van Der Vleuten et al., 2015).

여기서는 특정 평가 목적에 맞는 유용성을 최대화하기 위해 평가 방법의 다양성(diversity of assessment methods) 이 강조된다. 또한 역량을 환원주의적으로 측정하려는 접근을 넘어, 구성주의적(constructivist) 및 질적(qualitative) 틀에 근거한 집합적 판단, 그리고 평가를 학습자를 요구되는 기준으로 멘토링하고 끌어올리는 지원적 학습체계(supporting learning system) 의 일부로 재구성하는 시도가 이루어진다(Pearce & Tavares, 2021).

프로그램적 체제는 여러 평가자의 판단으로부터 풍부한 정보를 체계적으로 수집하고, 적절한 평가위원회가 신중하게 계획된 숙의 과정을 수행하는 것으로 대표된다(Pearce et al., 2021; Reid et al., 2021).

이 체제는 전문직교육에서 위임(entrustment) 개념과도 밀접하게 연결된다(ten Cate, 2020; Kinnear et al., 2021; ten Cate, 2013). 이에 따라 이 체제의 특징적 질문은 다음과 같다.

“이 후보자는 우리 전문직에서 독립적으로 실무를 수행해도 충분히 안전한가?”

이 판단이 종단적(longitudinal) 이라는 점은 프로그램적 체제의 정의적 특징이다. 이 질문에 대한 답이 부정적일 때, 그 원인은 대개 학습자가 형성적 경험과 평가 기반 피드백을 충분히 수용하지 않았거나, 이에 적절히 반응하지 않았기 때문으로 간주된다. 그러나 어떤 상황에서는 부적절한 지도자(supervisor) 또는 멘토의 안내 부족 탓으로 돌려질 수도 있다. 여기에는 잘 알려진 ‘불합격을 주지 못하는 현상(failure-to-fail phenomenon)’ 도 포함된다(Scarff et al., 2019).

여러 면에서 프로그램적 인식론 체제는 예측적, 규정적, 수행기반적 체제를 바탕으로 한다. 다양한 출처와 기준설정 과정에서 얻어진 증거가 의사결정자 집단에 의해 집계되고, 검토되며, 삼각검증될 수 있기 때문이다. 정량적 자료는 정성적 자료, 서사적 진술(narrative statements), 직무기반 평가자의 판단, 그리고 시간에 걸쳐 축적되는 다른 다면적 증거와 함께 검토될 수 있다(Cook et al., 2016; Ginsburg et al., 2017, 2021; Govaerts et al., 2007; Pearce, 2020).

그러나 프로그램적 체제는 특정한 하나의 기준설정 방법의 중요성을 상대적으로 낮춘다. 대신 후보자가 최종적으로 기대되는 역량 기준을 향해 어떻게 나아가고 있는지를 지속적으로 멘토링하는 종단적 전략의 일부로서, 평가가 지니는 단기적 형성 가치(short-term formative value) 에 초점을 둔다. 기준과 관련된 의사결정을 위해 평가 증거를 활용하는 목적과, 학습자 피드백 및 발달을 위한 목적이라는 이중 목적(dual-purpose) 은 프로그램적 평가 원리의 통합을 통해 표현되며, 결과의 공정성, 정당화, 투명성이 강조된다(Pearce et al., 2021; Tweed & Wilkinson, 2019).

그렇다면 프로그램적 체제는 진급을 위한 최소 기준을 결정하는 새로운 인식론적 접근을 표시한다. 여기서 최종적인 권위는 훈련 과정의 이해관계자들—따라서 전문직 자체—에게 있다. 이들은 최소 수용 가능 기준을 설정하고 적용하는 권위를 지니며, 역량위원회(competence committees) 는 집계된 증거의 가중치를 집합적으로 판단한다(Pack et al., 2019; Wilkinson et al., 2011).

또한 고도로 발달한 프로그램적 맥락에서는, 학습자들이 자신의 학습을 모니터링하고 관리하도록 촉진되고 요구되므로, 학습자 자신도 구속력은 없지만(non-binding) 일정한 권위의 원천으로 간주될 수 있다고 주장할 수 있다. 자기평가(self-assessment) 와 자기성찰(self-reflection) 은 학습 대화의 일부가 된다. 이때 기관은 기준의 문지기(gatekeepers)라기보다, 기준이 집합적으로 이해되고 공유된 공통 목표가 되는 ‘교육적 동맹(educational alliances)’ 의 장으로 변모한다(Telio et al., 2015).

논의 Discussion

표 1은 각 접근의 핵심적이고 정의적인 특징을 바탕으로, 우리가 제안한 다섯 가지 인식론적 체제를 요약한다.

우리가 제안한 기준설정의 다섯 인식론적 체제는 깔끔하게 선형적이거나 순차적인 것은 아니다. 표 1은 각 체제가 처음 등장한 시기를 보여주지만, 서로 다른 기준설정의 인식론적 체제는 시간, 장소, 상황을 가로질러 공존할 수 있다. 어떤 실천은 누적적일 수 있고—즉, 서로 다른 체제가 병렬로 기능하거나 심지어 중첩될 수 있고—어떤 실천은 지역 특수적일 수 있으며—즉, 서로 다른 평가도구마다 서로 다른 체제가 구현될 수 있고—또 어떤 실천은 명시적 정당화라기보다 일상적 준수에 의해 체제가 지속되는 고착된 관행(entrenched habits of practice) 을 반영할 수 있다.

오래된 인식론은 더 새로운 인식론과 나란히 계속 존재할 수 있으며, 각각 특정한 도구, 이론, 제도적 순간과 결부될 수 있다. 우리의 요점은 이들 체제 각각이 오늘날에도 어떤 형태로든 지속되고 있다는 것이다. 이런 이유로 여기서 전개한 역사적 인식론은, 일부 체제가 HPE 역사에서 식별 가능한 시점에 등장했음에도 불구하고, 단순한 연대기로 읽혀서는 안 된다.

따라서 기준설정을 서로 분리된 ‘시대’의 배열로 제시하는 서사는 역사성(historicity) 의 관점에서 적절하지 않다. 왜냐하면 새로운 인식론적 체제가 등장한다고 해서 이전 체제가 사라지는 것은 아니기 때문이다. 이 역사를 쿤식 패러다임 전환(Kuhnian paradigm shifts) 의 관점에서 서술하고 싶은 유혹은 피해야 한다. 특히 앞서 지적했듯이 과학적 실천의 역사적 궤적은 훨씬 더 파편적이고 우연적이기 때문이다(Forster, 2000; Pearce, 2018; Radder, 1997).

그럼에도 불구하고, 각 인식론적 체제가 처음 언제 등장했는지를 추적하고, 그것이 교육사의 핵심적 순간들과 어떤 관련을 갖는지를 살피기 위해서는 어느 정도의 역사적 틀이 도움이 된다. 예컨대 Angoff 방법의 변형들은 심리측정학과 통계적 접근과 밀접하게 연결되어 있고, 프로그램적 체제는 프로그램적 평가 및 위임 접근과 강하게 관련되어 있다. 이러한 연관성은 체제를 특정한 역사적 순간과 연결해주지만, 다른 접근들은 여전히 특정 맥락에서 널리 사용된다.

따라서 HPE에서 역량에 대한 판단은 상대적으로 지속적인 탐구의 장면(scene of inquiry) 안에서 전개되어 왔지만, 그것은 기준설정의 이동하는 인식론적 체제(shifting epistemic regimes) 아래 이루어졌다. 이 체제들은 역량을 결정할 때 무엇이 타당한 증거이며, 무엇이 정당한 판단인지를 규정하는 기준이 비목적론적으로(non-teleologically) 계속 수정되어 온 과정을 나타낸다.

그러한 판단의 인식론적 토대(epistemic basis) 는 시간이 흐르면서 변했고, 역량 판단이 실제로 구현되는 방식—즉, 서로 다른 실천과 방법을 통해 수행되는 방식—도 변해왔다. 권위의 위치(locus of authority) 역시 다섯 체제를 가로질러 이동한다. 기준을 설정하는 개인과 집단은 자신에게 서로 미묘하게 다른 특징적 질문을 던진다.

초기 구성에서는 암묵적 기준, 비판 없이 채택된 합격점, 기관과 전통의 권위가 큰 비중을 차지했다.
이후 준거기반 평가, 측정 기법, 심리측정학 이론이 부상하면서, 실증적 증거, 체계적 절차, 통계적 방법을 우선시하는 새로운 체제들이 등장했다.
또 다른 체제는 최소 기준을 결정할 때 경계선 후보자의 실제 수행(actual performance of borderline candidates) 을 활용하는 것에 더 큰 인식론적 무게를 부여했다.
최근에는 프로그램적 평가, 통합적 판단(integrated judgement), 위임 개념이 해석주의적(interpretivist), 서사적(narrative), 총체적(holistic) 감수성을 전면으로 가져왔다.

💡 한 줄 요약

"학생의 합격 여부를 결정하는 기준은 '하나의 완벽한 정답'을 향해 발전한 것이 아니라, 시대마다 '무엇이 가장 믿을 만한 증거인가'에 대한 철학이 바뀌면서 5가지 단계(체제)를 거쳐 변화해 왔다."

## 핵심 개념 풀이

1. 비목적론적(non-teleologically) 수정

글에서 다소 어렵게 표현된 부분입니다. 합격선을 정하는 방식이 과거에는 미개했고 지금은 완벽해졌다는 식의 '직선적인 진보(목적론적)'가 아니라는 뜻입니다. 단지 시대마다 "이 방식이 가장 타당하다"고 믿는 철학과 기준이 계속 달라졌을 뿐이라는 의미입니다.

2. 권위의 위치(locus of authority) 이동

시대(체제)가 바뀔 때마다 '누구의, 혹은 무엇의 말을 가장 믿을 것인가?'에 대한 권위의 중심이 이동했습니다. 교수님의 감, 객관적인 통계 데이터, 현장 평가자의 눈 등 권위를 부여하는 대상이 계속 바뀌어 왔습니다.

## 평가 체제의 5단계 진화 과정

마지막 단락은 지금까지 HPE 평가가 거쳐온 체제들을 시간순으로 요약하고 있습니다. 이를 단계별로 나누어 보면 다음과 같습니다.

체제(시대)	무엇을 가장 중요하게 생각했는가? (권위의 위치)	주요 특징
1. 초기 (전통적 체제)	기관과 전통의 권위	"예전부터 60점이 커트라인이었어." 비판 없이 내려오는 암묵적 기준과 관행에 의존했습니다.
2~3. 심리측정학 시대	데이터와 통계, 측정 도구	"숫자와 통계가 가장 객관적이야." 과학적이고 체계적인 절차, 객관적인 시험 점수와 통계를 맹신하던 시기입니다.
4. 수행기반적 체제	평가자의 현장 판단	(이전 글의 내용) "실제 경계선(턱걸이) 학생이 하는 걸 직접 보고 정하자." 실제 수행 능력에 대한 전문가의 관찰과 판단이 중심이 됩니다.
5. 최신 (프로그램적 평가)	맥락, 서사, 그리고 '위임(Entrustment)'	(현재/미래) "단판 승부 시험 하나로 어떻게 알아? 오랫동안 전체적으로 지켜보고, 이 학생에게 환자를 맡겨도 될지(위임) 종합적으로 판단하자."

그렇다면 이 모든 것은 HPE에서 기준설정이라는 프로젝트에 어떤 의미를 갖는가? 이 분석의 함의를 끌어내는 한 가지 방법은 철학적 실용주의(philosophical pragmatism) 와 관련된 생각들을 활용하는 것이다. 실용주의자들은 진리와 객관성에 대한 본질주의적 정의를 거부하고, 대신 지식을 그 결과, 유용성, 실천에서 문제를 해결하는 능력에 의해 정의한다.

이 정신에 따라, 우리의 연구는 기준설정 방법들을 인식론적 도구(epistemic instruments) 로 다룬다(Hacking, 1983). 즉, 기관이 세계 속에서 행위할 수 있게 해주는 도구로 본다. 합격점(cut score)은 자연적 경계가 아니다. 앞선 체제들이 때때로 그렇게 개념화했던 것처럼 보일 수는 있지만, 실제로 그것은 행동을 가능하게 하고, 일관성을 지원하며, 기관에 판단의 방어 가능한 근거를 제공하는 구성된 의사결정 문턱(constructed decision threshold) 이다.

이 관점은 전문가 패널, 수행 문턱, 형식화된 방법과 같은 실천들을 규제, 공정성, 공적 책무성의 필요에 의해 형성된 제도적 목적을 위한 수단으로 이해한다. 이는 이러한 도구들이 오늘날 어떤 목적을 수행하고 있는지, 그리고 그 구성된 성격(constructed nature) 을 더 가시화함으로써 무엇을 얻을 수 있는지에 대한 새로운 관심을 요청한다.

기준설정의 이러한 구성된 성격을 인정한다고 해서, 그 과정에 대한 신뢰가 무너져야 하는 것은 아니다. 우리는 기준설정 접근이 그 실용적이고 구성된 성격(pragmatic and constructed nature) 때문에 약화되는 것이 아니라, 오히려 그 윤리적(ethical) 및 교육적 정당성(educational legitimacy) 이 그러한 구성성을 인정하고 성찰하려는 우리의 의지에 달려 있다고 주장한다.

Hacking의 The Social Construction of What? 을 참조하면, 질문은 단순히 기준설정이 구성되어 있는가가 아니다. 중요한 것은 무엇이 구성되고 있는가, 어떻게 구성되는가, 그리고 그것이 왜 중요한가이다(Hacking, 1999). 합격점을 긋는 것, 학습자를 역량 있는 사람이라고 선언하는 것, 증거의 가중치를 어떻게 배분할지 결정하는 것—이 모든 행위는 공유된 가치와 특정 탐구 체제의 인식론적 책무를 안정화하는 데 기여한다.

이는 그 과정이 자의적이거나 현실로부터 분리되어 있다는 뜻이 아니다. Jardine(2000)의 논지에 따라, 질문이 제기되고 답해지는 조건에 대한 역사적 탐구는 그 정당성을 불안정하게 만들려는 것이 아니다. 오히려 그것들을 맥락 속에 위치시키고, 그 밑바탕에 있는 추론 양식과 가치를 드러내는 작업이다. 이는 암묵적인 것을 명시적인 것으로 만드는 일이다(Tavares and Pearce, 2024).

따라서 우리는 기준설정의 구성적이고 인식론적인 성격을 적극적으로 인정하는 것이, 회의주의나 신뢰의 침식으로 반드시 이어져야 하는 것이 아니라, 오히려 목적의식 있는 성찰(purposeful reflection) 을 가능하게 하는 기회라고 주장한다. 이는 교육자와 평가자가 실천을 특정 맥락에 맞추어 조정하고, 널리 사용되는 방법 속에 내재한 가정을 명확히 하며 비판하고, 관점주의적으로(perspectivally) 의사결정을 정당화할 수 있도록 한다(Pearce & Tavares, 2024).

💡 한 줄 요약

"합격선은 원래부터 존재하는 '절대 진리'를 발견하는 것이 아니라 우리가 목적을 위해 '만들어낸 도구'지만, 그 사실을 투명하게 인정하고 성찰할 때 오히려 평가의 정당성과 신뢰가 더 단단해진다."

## 1. 합격선은 '자연적 경계'가 아닌 '인식론적 도구'

과거에는 60점, 70점이라는 커트라인이 마치 중력이나 물리 법칙처럼 원래 존재하는 절대적인 '자연적 경계(natural boundary)'인 것처럼 여겨지기도 했습니다.
하지만 실용주의 관점에서 보면 합격선은 진리나 정답이 아닙니다. 그것은 의과대학이나 평가 기관이 "이 학생에게 의사 면허를 줘도 될까?", "이 학생을 유급시켜야 할까?"라는 현실적인 의사결정을 내리고, 책임을 지기 위해 발명해 낸 '구성된 의사결정 문턱(constructed decision threshold)', 즉 도구일 뿐입니다.

## 2. "만들어졌다(Constructed)"는 것은 "대충 정했다(Arbitrary)"는 뜻이 아니다

기준이 인간에 의해 인위적으로 '구성되었다'고 하면, 사람들은 종종 "그럼 합격선은 객관적인 게 아니라 평가자들 마음대로 정한 거네? 믿을 수 없잖아!"라며 회의주의에 빠질 수 있습니다.
글쓴이는 이 점을 강하게 반박합니다. 합격선을 긋는 행위는 단순히 임의로 선을 긋는 것이 아닙니다. 그것은 기관의 규제, 공정성, 사회적 책무를 다하기 위해 '가장 타당하다고 믿는 증거와 가치'를 모아 치열하게 합의해 낸 결과물입니다.
따라서 질문은 "이 기준이 진짜(Truth)인가?"가 아니라, 다음과 같이 바뀌어야 합니다.
- 무엇을 기준으로 삼아 선을 그었는가?
- 어떻게 그 합의를 이루어냈는가?
- 왜 그것이 지금 이 시대(맥락)에 중요한가?

## 3. 진정한 정당성은 '성찰(Reflection)'에서 온다

결론적으로, 평가자와 교육 기관이 취해야 할 태도는 "우리의 평가 방식은 완벽하고 절대적으로 객관적이다"라고 포장하는 것이 아닙니다.
오히려 "우리의 기준설정은 특정한 시대적 가치와 가정 위에 '구성된' 것임을 인정"하고, 이를 바탕으로 끊임없이 의심하고 반성하는 '목적의식 있는 성찰(purposeful reflection)'을 할 때 진정한 교육적, 윤리적 정당성을 확보할 수 있다는 것이 이 글의 핵심 주장입니다.

이 입장은 Hacking(1999)이 말한 구성주의적 관여의 ‘역사적(historical)’ 단계 와 ‘아이러니적(ironic)’ 단계 에 가장 가깝다.

역사적 단계에서는 이러한 체제들이 필연적인 것이 아니라, 특정한 사회적·전문직적·제도적 역사들의 우연적 산물임을 인정한다.
아이러니적 단계는 여기에 온건한 비판성을 더한다. 즉, 현재의 배열이 가능한 유일한 배열은 아니며, 수정되거나 대체될 필요가 있을 수 있음을 인정한다. 그러나 그것들이 본질적으로 잘못되었거나 폐기되어야 한다고 전제하지는 않는다.

이 성찰적 공간에 위치함으로써 우리는 Hacking이 구분한 보다 급진적인 ‘개혁주의적(reformist)’, ‘반항적(rebellious)’, ‘혁명적(revolutionary)’ 단계의 관여를 피한다. 이러한 입장은 현 체제를 전면적으로 대체하려 하며, 기준설정 분야의 수많은 방법과 변형에 대해 Zieky가 표현한 ‘환멸(disillusionment)’의 감각을 오히려 강화할 수도 있다.

이러한 지향은 또한 Hacking의 ‘순환 효과(looping effects)’ 개념(Hacking, 1995)을 포용한다. 우리의 평가 결정은 우리가 측정하려는 현상 자체로 되돌아가 그것을 재구성한다. 즉, 학습자의 행동, 제도적 규범, 심지어 역량의 공유된 의미까지 변화시킨다.

기준설정의 구성적이고 인식론적인 성격을 동시에 인식하면, 우리는 맥락 속에서 그 권위를 더 잘 실질화할 수 있고, 그 가치 선택을 명시적으로 드러낼 수 있으며, 그 결과에 더 의도적으로 주의를 기울일 수 있다. 그렇게 함으로써 우리는 방법과 문턱은 변화할 수 있지만, 환자를 보호하고, 전문직 기준을 유지하며, 학습자의 발달을 지원해야 하는 근본적인 전문직적 책임은 지속된다는 점을 재확인한다.

💡 한 줄 요약

"합격선이 시대에 따라 만들어진 '인위적 도구'임을 알았다고 해서 기존 시스템을 다 갈아엎자는 게 아니라, 평가가 학생들에게 미치는 영향을 깊이 성찰하며 '환자 보호와 학생 성장'이라는 진짜 책임을 다하자는 것."

## 1. 성숙한 비판적 태도: '역사적'이면서 '아이러니적'인 관점

글쓴이는 기준설정(Standard Setting) 체제를 바라볼 때 다음 두 가지 유연한 태도를 취합니다.

역사적(Historical) 단계: "지금의 평가 방식(OSCE, 합격선 설정법 등)은 불변의 자연 법칙이 아니다. 특정한 시대적, 사회적, 제도적 필요가 맞물려 탄생한 우연한 결과물이다"라고 인정하는 것입니다.
아이러니적(Ironic) 단계: "이 방식이 완벽한 유일무이한 정답도 아니고 언젠가 바뀔 수 있지만, 그렇다고 해서 지금 당장 쓸모없다거나 완전히 폐기해야 한다는 뜻은 아니다"라는 온건한 비판 수용의 태도입니다.

## 2. 급진주의와 환멸에 대한 경계

기준이 인위적이라는 것을 깨달으면 종종 "이런 자의적인 엉터리 기준 다 없애버려!"라는 식의 '혁명적' 혹은 '반항적' 태도로 빠지기 쉽습니다.
하지만 이 글은 그러한 전면 부정의 입장을 명확히 거부합니다. 기존 시스템을 무조건 갈아엎으려 하면, 오히려 지금까지 의학교육계가 치열하게 발전시켜 온 수많은 평가 방법론 자체에 대한 '환멸(disillusionment)'과 냉소주의만 남길 위험이 있기 때문입니다.

## 3. 핵심 통찰: '순환 효과(Looping Effects)'

평가는 단순히 학생의 숨겨진 능력을 수동적으로 '측정'만 하고 끝나는 작업이 아닙니다.
우리가 어떤 잣대와 합격선을 세우면, 학생들은 그 기준에 맞춰 학습 행동을 바꿉니다. 교육기관의 커리큘럼도 변하고, 궁극적으로는 의료계가 합의하는 '유능한 의사'의 정의 자체도 재구성됩니다. 즉, 평가라는 행위가 평가 대상(학생과 역량의 개념)을 다시 빚어내는 역동적인 상호작용을 '순환 효과'라고 부릅니다.

## 4. 최종 결론: 방법론은 변해도, 본질적 책임은 남는다

기준설정이 인위적으로 구성된 것임을 투명하게 인정하면, 평가는 오히려 더 강력한 정당성을 얻습니다. 합격선 하나가 학생과 의료 현장에 어떤 '순환 효과'를 일으킬지 알기 때문에, 교육자는 더 신중하게 맥락을 살피고 의도적인 선택을 하게 됩니다.
결국, 시대의 인식론적 체제에 따라 평가 방법과 합격선(문턱)은 계속 변하겠지만, 그 바탕에 흐르는 의료 교육자의 궁극적인 목적—"환자를 안전하게 보호하고, 의료 전문직의 숭고한 기준을 유지하며, 학습자가 훌륭한 의사로 성장하도록 돕는다"—은 결코 변하지 않는다는 묵직한 선언입니다.

결론적 언급 Concluding remarks

이 기준설정의 역사적 인식론은 기준설정의 필요성을 축소하려는 것이 아니라, 그 권위가 어떤 조건에서 수립되고 지속되는지를 명확히 하려는 것이다. 우리는 기준설정의 구성된 성격을 인정하는 것이 그 실천을 약화시키는 것이 아니라, 오히려 그 가정(assumptions), 가치(values), 정당화의 토대(justificatory bases) 를 더 명시적으로 드러내기 때문에 그 실천을 강화할 수 있다고 주장한다.

이런 의미에서 기준설정의 실천은 철학적으로 명시되어야 하는 맥락 기반 타당도 논증(contextually grounded validity arguments) 을 통해 가장 잘 정당화된다(Pearce & Tavares, 2024; Tavares and Pearce, 2024). 어떤 방법을 선택하든, 그것은

무엇이 정당한 평가 증거로 간주되는지,
누구의 전문성이 인정되는지, 그리고
우리가 어떤 위험—오류, 불공정, 환자 위해의 위험—을 감수할 준비가 되어 있는지
- ...에 대한 결정을 반영한다.

기준설정에서 방어 가능성(defensibility) 은 여전히 중요한 고려사항이지만, 그것이 인식론적 성찰(epistemological reflection) 과 실제로 작동하는 기준설정의 역사적 우연성(historically contingent nature) 에 대한 이해를 희생시키면서 추구되어서는 안 된다. 우리는 기준설정을, 단지 지각된 객관성(perceived objectivity)을 통해서가 아니라, 그 토대를 질문하고, 가정을 이해하며, 맥락 속에서 정당화된 결정을 내리려는 우리의 의지를 통해 정당성을 획득하는 전문직 실천으로 재구성하였다.

평가 실천과 정책에 대한 함의는 중요하다. 여기에는 다음이 포함된다.

선택된 방법을 뒷받침하는 논리와 가치를 명시함으로써 성찰적 투명성(reflective transparency) 을 촉진하는 것
특정 맥락의 필요에 맞추어 충분한 정보에 근거해 선택하고 결합할 수 있는 접근의 다원성(plurality of approaches) 을 지지하는 것
전문직적 판단(professional judgement)을 단순한 오류의 원천으로 취급하지 않고, 그 중심적 역할을 수용하는 것

기준설정의 역사성에 주목하면, 그것이 단지 역량을 갖춘 자와 아직 갖추지 못한 자 사이의 선을 어디에, 어떻게 긋는가의 문제만은 아니라는 점을 깨닫게 된다. 그것은 공유된 책무(shared commitments) 에 뿌리를 두고 있으며, 역량에 대한 변화하는 해석(evolving interpretations of competence) 에 의해 형성되는 전문직 실천이기도 하다.

더 넓게 보아, 우리는 이 논문이 HPE에서 기준설정을 둘러싼 더 폭넓은 역사적 대화를 여는 데 기여하기를 바란다. 특정한 인식론적 체제를 더욱 면밀히 탐구하는 것은, 단지 무엇이 평가되는지를 밝히는 데 그치지 않고, 역량이 어떻게 알 수 있는 것이 되는지, 누구의 판단이 권위를 갖는지, 어떤 방법이 정당한 것으로 간주되는지를 조명하는 데 도움을 줄 수 있다.

향후의 역사 연구는 특정 인식론적 체제들이 구체적인 제도적·전문직적·과학적·사회적 조건과 관련하여 어떻게 등장하고, 중첩되며, 변화했는지를 분석함으로써 이 대화를 더 깊고 넓게 확장할 수 있다. 이렇게 볼 때, 기준설정이라는 실천은 그 기반이 되는 인식론적 책무(epistemological commitments) 와 그것을 형성해온 역사적 궤적(historical trajectories) 을 끊임없이 성찰해야 하는 지속적인 전문직적 책임을 요구한다.

'논문 읽기 (with AI)' 카테고리의 다른 글

사고는 글쓰기만이 아니다 (Nature reviews bioengineering, 2026) (0)	2026.05.17
배움의 과학: 7가지 학습전략 (J Contin Educ Health Prof.) (0)	2026.05.12
의대생의 전문직 정체성 형성을 지원하기 위한 근거 정보화된 교육학적 접근: AMEE Guide No. 171 (Med Teach. 2025) (0)	2026.05.10
의학교육에서 메타인지적 성찰의 기예 기르기 (Clin Teach. 2025) (0)	2026.05.10
메타인지적 성찰을 옹호하는 논거: 의학교육에 대한 함의를 지닌 이론 통합적 검토 (Adv Health Sci Educ Theory Pract. 2024) (0)	2026.05.01

의대에서 교육하고 있습니다.

우리가 긋는 선: 보건의료전문직 교육의 기준설정에서 변화하는 인식론적 체제 (Adv Health Sci Educ Theory Pract. 2026)

The line we draw: shifting epistemic regimes of standard setting in health professions education

들어가며 🎯

어떤 렌즈로 보는가: 역사인식론(historical epistemology) 🔍

Jardine의 '탐구의 장면(scenes of inquiry)'

Hacking의 '고리 효과(looping effects)'와 '추론의 양식(styles of reasoning)'

변하지 않는 질문 하나, 변하는 답의 방식 💭

1️⃣ 추정적 체제(Presumptive Regime) — 표준설정의 '선사 시대'

2️⃣ 규범적 체제(Prescriptive Regime) — 1960년대, 기준이라는 발명

3️⃣ 예측적 체제(Predictive Regime) — 1970년대, 심리측정학의 전성기

4️⃣ 수행적 체제(Performative Regime) — 1980년대, 실제 수행으로의 전환

5️⃣ 프로그램적 체제(Programmatic Regime) — 2000년대, 종단적·집단적 판단

그래서 이 분석이 우리에게 말하는 것은? 🤔

의학교육자에게 던지는 실천적 함의 💡

마무리하며 ✍️

서론 Introduction

역사적 인식론이란 무엇인가? What is historical epistemology?

역사적·인식론적 분석 Historical and epistemological analysis

기준설정의 다섯 가지 인식론적 체제 Five epistemic regimes of standard setting

표 1. 기준설정의 인식론적 체제 요약 Table 1. Summary of epistemic regimes of standard setting

추정적 체제 Presumptive regime

규정적 체제 Prescriptive regime

예측적 체제 Predictive regime

수행기반적 체제 Performative regime

## 수행기반적 체제가 기존 방식과 다른 점

## 합격선을 정하는 작동 원리 (투트랙 방식)

## 복잡한 통계 방법론들의 등장

## 이 체제의 한계와 다음 단계로의 예고

프로그램적 체제 Programmatic regime

논의 Discussion

💡 한 줄 요약

## 핵심 개념 풀이

## 평가 체제의 5단계 진화 과정

💡 한 줄 요약

## 1. 합격선은 '자연적 경계'가 아닌 '인식론적 도구'

## 2. "만들어졌다(Constructed)"는 것은 "대충 정했다(Arbitrary)"는 뜻이 아니다

## 3. 진정한 정당성은 '성찰(Reflection)'에서 온다

💡 한 줄 요약

## 1. 성숙한 비판적 태도: '역사적'이면서 '아이러니적'인 관점

## 2. 급진주의와 환멸에 대한 경계

## 3. 핵심 통찰: '순환 효과(Looping Effects)'

## 4. 최종 결론: 방법론은 변해도, 본질적 책임은 남는다

결론적 언급 Concluding remarks

'논문 읽기 (with AI)' 카테고리의 다른 글

+ Recent posts

티스토리툴바

표 1. 기준설정의 인식론적 체제 요약
Table 1. Summary of epistemic regimes of standard setting