Attending to Variable Interpretations of Assessment Science and Practice

우리는 정말 '같은 평가'를 말하고 있을까? 🤔
평가 과학과 실천에 숨어 있는 '철학'이라는 변수
같은 OSCE 영상을 두 명의 평가 전문가가 봤다고 해볼게요. 데이터도 똑같고, 쓰는 용어도 똑같아요. 타당도(validity), 신뢰도(reliability), 좋은 평가(good assessment)… 다 같은 단어를 씁니다. 그런데 두 사람이 내린 결론이 정반대예요. 한 명은 "평가자들 점수가 일치할수록 좋은 평가"라고 하고, 다른 한 명은 "오히려 의견이 다양하게 갈릴수록 좋은 평가"라고 합니다.
누가 틀린 걸까요? 사실 둘 다 틀리지 않았을 수 있어요. 두 사람이 서로 다른 철학적 입장(philosophical positions) 위에 서 있기 때문이거든요. 더 골치 아픈 건, 정작 본인들은 그 사실을 모르고 있는 경우가 많다는 점이에요.
이번 글에서 소개할 논문은 바로 이 지점을 정면으로 파고듭니다. 평가가 점점 더 "보는 눈에 따라 달라지는" 일이 되어 가는데, 정작 우리는 그 '보는 눈(=철학적 입장)'에 대해 충분히 이야기하지 않고 있다는 거죠.
🤔 무슨 문제일까요?
저자들이 던지는 핵심 문제의식은 이래요. 예전에는 평가 개념과 모델이 측정 패러다임, 행동심리학, 정신측정학(psychometrics)의 영역이라고 어느 정도 합의가 되어 있었어요. 그런데 지금은 그렇지 않습니다. 구성주의/해석주의(constructivism/interpretivism), 사회인지주의(socio-cognitivism), 실재론·반실재론(realist/anti-realist views), 실용주의(pragmatism) 등 다양한 철학적 입장이 '동시에' 평가 안에서 작동하고 있어요.
문제는 여기서 시작됩니다. 입장이 다르면 같은 단어도 다르게 해석되거든요.
- 어떤 사람에게 주관성(subjectivity)은 평가에서 끌어안아야 할 풍부함이고, 다른 사람에게는 방어 가능성을 위협하는 요소예요.
- 어떤 사람에게 평가자들의 의견 수렴(rater convergence)은 좋은 신호이고, 다른 사람에게는 평가자들의 의견 발산(rater divergence)이야말로 풍부함의 증거예요.
저자들은 이런 차이가 단순한 맥락 차이나 취향의 문제가 아니라고 못 박습니다. 평가를 어떻게 설계하고 실행할지에 대한 근본적이고 서로 다른 가정이라는 거죠. 그리고 이 논문의 가장 핵심적인 통찰이 여기 있어요. 바로 '안에서(within)' 벌어지던 논쟁이 '가로질러(across)' 벌어지는 논쟁으로 바뀌었다는 진단입니다.
평가에서 어느 정도의 논쟁은 불가피하지만, 지금까지의 논쟁은 대부분 하나의 철학적 입장 안에서 이루어졌습니다(예: 오차를 어떻게 최소화할 것인가). 반면 최근의 논쟁은 서로 다른 철학적 입장을 가로질러 벌어지고 있습니다(예: 오차라는 개념이 과연 유용한가).
"While some debate in assessment is inevitable, most have been within philosophical positions (e.g., how best to minimize error), whereas newer debates are happening across philosophical positions (e.g., whether error is a useful concept)."
차이가 느껴지시나요? "오차를 어떻게 줄일까"는 같은 운동장 안에서의 논쟁이에요. 그런데 "오차라는 개념 자체가 의미가 있나"는 아예 다른 운동장끼리 부딪히는 논쟁이죠. 후자는 한쪽을 이해하는 것이 오히려 다른 쪽을 오해하게 만들기도 해요.
참고로 저자들이 말하는 '철학적 입장'의 정의는 이렇습니다.
평가 연구자가 평가의 문제와 해법을 들여다볼 수 있도록 렌즈를 제공하는, 인정된 가정과 신념의 집합 또는 지적 틀.
"sets of recognized assumptions and commitments or intellectual frameworks that provide assessment scholars with lenses for examining assessment problems and solutions."
🕰️ 어쩌다 여기까지 왔을까요?
저자들은 이 변화를 토마스 쿤(Kuhn)의 패러다임(paradigm) 전환에 비유해요. 새로운 패러다임은 기존 방식에 대한 '불만'이 쌓이는 순간 등장한다는 거죠. 예를 들어 Hodges는 점수를 이리저리 합산해서 역량을 판정하는 방식에 강한 의구심을 표한 바 있어요.
다만 의학교육(HPE, health professions education)에는 한 가지 중요한 차이가 있다고 봅니다. 보통 패러다임 전환은 '낡은 것이 새것으로 교체되는' 모습인데, 평가 분야에서는 그게 아니라는 거예요. 옛 입장이 사라지는 게 아니라, 더 많고 더 다양한 입장이 한꺼번에 공존하게 됐다는 거죠.
그러니까 정신측정학·실증주의 뿌리가 사라진 게 아니에요. 거기에 구성주의, 사회인지주의, 실용주의가 '나란히' 얹힌 상태인 겁니다. 그리고 이 입장들은 저마다 "이게 좋은 평가야"라는 서로 다른 주장을 들고 있어요. 그러다 보니 이제는 평가에 대한 공통의 철학적 관습이 사라진 상태가 됐습니다. 이게 기회이면서 동시에 혼란인 거죠.
🔬 실전 예시 ① 평가자 데이터를 어떻게 읽을까
말이 추상적이니까 저자들이 든 구체적인 예시를 볼게요. OSCE에서 의사 평가자의 점수에 표준화 환자(SP)의 관점을 더하자는 연구가 하나 있었어요. 서로 다른 경험과 시각을 가진 평가자들의 점수와 서술을 합치자는 제안이었죠. 이 똑같은 연구를 두 독자가 정반대로 읽습니다.
독자 1번 (후기실증주의/실재론 관점) 🟦
- 역량(competence)은 관찰자와 무관하게 사람 안에 존재하는 안정적 특성이다(이른바 잠재특성 모델, latent-trait model).
- 평가를 잘하면 그 역량을 (약간의 오차는 있어도) 포착할 수 있다.
- 서로 다른 평가자 집단의 의견이 일치하면, 그건 진실에 더 가까워졌다는 뜻이다.
- 따라서 의견을 모으는(수렴) 활동은 바람직하고, 일치도가 높아질 때 "좋은 평가"라고 말할 수 있다.
독자 2번 (구성주의/반실재론 관점) 🟥
- 역량은 측정 대상이 아니라 사회적으로 구성되는 것이다. 관찰자와 학습자가 특정 시간·공간에서 상호작용하며 만들어진다.
- 역량은 내부에 고정된 특성이 아니라 상황적이고 관계적이다.
- 의견 일치를 인위적으로 유도하면(예: 훈련, 표준화 도구) 오히려 우리가 알 수 있는 것을 약화시킨다.
- 따라서 더 적은 게 아니라 더 많은 다양성을 추구해야 "좋은 평가"라고 말할 수 있다.
같은 연구, 같은 데이터인데 "좋은 평가"의 의미가 정반대로 갈리죠?
저자들이 여기서 강조하는 포인트가 세 가지예요.
- 평가자 의견을 합친다는 설계 자체가 이미 철학적으로 물든 선택이다.
- 이건 방법(method)의 문제가 아니다. 똑같은 방법도 서로 다른 철학적 입장과 연결될 수 있다.
- 어느 한쪽이 옳다는 얘기가 아니다. 핵심은 양쪽 모두 자신이 어떤 해석 위에 서 있는지 분명히 인식해야 한다는 것이다.
⚖️ 실전 예시 ② '타당도'마저 흔들린다
두 번째 예시는 평가의 가장 기본이라 할 수 있는 타당도(validity)예요. 타당도 근거(validity evidence)가 도대체 무엇을 의미하는지조차 해석이 갈립니다. 여기서 두 진영이 부딪혀요.
- Markus & Borsboom: Kane의 타당화(validation) 틀이 진리(truth)를 제대로 다루지 않는다고 비판해요. 이들은 진리를 주장하지 않는 정당화된 믿음(justified beliefs)과, 진리를 주장하는 정당화된 참된 믿음(justified true beliefs)을 구분합니다. 그리고 진리(실재와의 대응)가 중요하다고 봐요. 왜냐하면 우리는 틀린 주장도 충분히 정당화해 버릴 수 있기 때문이죠.
- Kane: 입장이 달라요. 과학자가 '지금 여기서' 합리적이고 잠정적으로 내릴 수 있는 결론에 집중합니다. 충분한 근거로 일관되게 뒷받침되면 그것으로 '정당화된 믿음'이 성립하고, 거기에 굳이 '진리'라는 딱지를 붙일 필요는 없다는 거예요. 중요한 건 그 정당화가 같은 생각을 공유하는 동료 공동체(like-minded community of peers)가 보기에 적절한가입니다.
결국 타당도 이론가들끼리도 '타당도가 무엇을 뜻하는가'를 다르게 해석한다는 거죠. 그래서 저자들은, 평가에서 그토록 널리 쓰이는 '타당도 근거'마저도 해석의 문제를 피해 갈 수 없다고 정리합니다. 무엇이 타당도의 정당한 근거인지조차 결국 여러 해석적 요인에 달려 있다는 거예요.
🧭 실용주의도 정답은 아니에요
여기서 많은 분들이 이렇게 생각하실 거예요. "복잡한 철학 얘기 말고, 그냥 실용적으로(pragmatic) 가면 되는 거 아냐?" 실제로 평가 현장에서 정말 자주 나오는 말이죠. 한 연구에서 프로그램 책임자들도 "저는 아주 실용적인 관점에서 봤어요"라고 말하면서, 마치 실용성이 모든 문제의 해법인 것처럼 여기곤 했어요.
그런데 저자들은 바로 이 지점을 날카롭게 찌릅니다.
더 깊은 해석상의 철학적 쟁점에서 실무자를 면제시켜 주기 위해 실용주의를 끌어오는 것은 강력한 수사적 전략이지만, 그렇다고 해서 해석 과정 자체를 우회할 수는 없습니다.
"The reference to pragmatism to absolve practitioners of deeper philosophical issues of interpretation is a powerful rhetorical move, but it cannot circumvent interpretative processes."
여기서 중요한 구분이 나와요. 일상어로서의 '실용적'(= 그냥 현실적으로 편하게)과, 고유한 역사·가정·신념을 가진 철학으로서의 실용주의(pragmatism)는 다르다는 거예요. 그리고 후자, 즉 진짜 실용주의 안으로 들어가 봐도 해석은 또 갈립니다. 저자들은 '진리(truth)'를 실용주의 철학자들이 어떻게 다르게 다루는지 보여줘요.
- 퍼스(Peirce): 진리란 모든 탐구가 끝난 지점에서 믿게 되는 것. 진리는 발견될 수 있고 시간이 지나도 유지된다고 봤어요(대응 이론, correspondence theory에 가까움).
- 제임스(James): 정합 이론(coherence theory)을 택했어요. 진리는 우리를 가치 있게 이끌어 주는, 믿음들 사이의 일관성. 꼭 실재를 반영하는 건 아니라고 봤죠.
- 듀이(Dewey): 한발 더 나아가요. 어떤 믿음도 틀린 것으로 드러날 수 있다며 '진리'를 아예 약화시킵니다. 퍼스의 대응 이론도, 제임스의 정합 이론도 거부하고, 앞으로의 행동을 이끄는 잠정적·실용적 판단을 선호했어요.
- 로티(Rorty): 우리가 생각하는 것과 별개로 존재하는 객관적 세계는 없다고 봤어요. 진리란 알 수 없는 것이라 별로 할 말이 없다는 거죠. 진리는 그저 모든 반박을 견뎌 낸 것일 뿐이에요.
보세요. '실용주의'라는 하나의 입장 안에서도 진리를 보는 눈이 이렇게나 다릅니다. 그러니 "우리 실용주의로 갑시다!"라고 선언하는 것만으로는 의도치 않은 해석을 막을 수 없어요. 오히려 철학적 입장을 어설프게 갖다 붙이면 명료해지기는커녕 더 흐려질 수도 있다는 게 저자들의 경고입니다.
💡 그래서 어쩌라는 걸까요?
"사람마다 해석이 다른 거, 뭐 새삼스럽냐?" 하실 수도 있어요. 저자들도 이 반응을 예상합니다. 그런데 핵심은, 지금 평가 현장에 서로 다른 '규칙'들이 동시에 굴러가고 있다는 데 있어요. 그래서 무엇이 좋은 평가인지 판단할 때 실질적인 불확실성이 생깁니다.
저자들이 정말 우려하는 건 이거예요.
우리가 우려하는 것은, 실제 현장에서 교육자들이 이런 서로 다른 가정과 방법론적·해석적 규범을 자기도 모르게(때로는 은밀하게) 적용한 끝에, 동일한 평가 프로그램이나 평가 상황을 두고도 무엇이 양질의 평가인지에 대해 서로 다른 입장에 도달할 수 있다는 점입니다.
"Our concern is that in practice educators may unknowingly or insidiously apply these different assumptions, methodological and interpretive norms, and therefore, settle on different views on what serves as quality assessment even for the same assessment program or event."
즉, '가정이 다른 것' 자체는 어쩌면 당연해요. 문제는 그 다름을 본인도 모른 채 적용한다는 데 있죠. 이게 방치되면 어떻게 될까요? 평가를 어떻게 진행해야 할지 혼란스러워지고, 심하면 어떤 평가 활동이나 결과든 그 정당성(legitimacy)을 의심받는 빌미가 됩니다. 또 이 문제는 단순히 과학이나 존재론·인식론의 문제가 아니라, 누구의 해석이 지배적인가, 왜 그러한가 하는 윤리와 가치, 위치성(positionality)의 문제이기도 해요.
그래서 저자들의 결론이자 제안은 명확합니다. 평가를 본질적으로 해석 과정(interpretive process)으로 인정하자는 거예요. 그리고 교육 연구자들이 연구에서 이론적·개념적 틀(theoretical/conceptual framework)을 분명히 밝히듯, 평가를 계획·설계·실행·평가하는 모든 단계에서 철학적 입장을 명시적으로(philosophically explicit) 드러내자는 겁니다.
평가의 해석 과정이 더 투명해지고, 이해와 공정한 비판에 열려 있을 수 있도록, 가정과 신념을 명시적으로 드러내야 합니다.
"assumptions and commitments should be made explicit so that the interpretive processes of assessment can be more transparent and open to understanding and fair criticism."
여기서 오해하면 안 되는 게, 저자들은 평가를 뒤엎자고 하는 게 아니에요. 평가를 어떻게 개념화하고 표현하는지에 좀 더 주의를 기울이자는 것뿐입니다. 숨은 가정을 꺼내 놓고 이야기하자는 거죠.
✏️ 마치며
읽으면서 우리 현장이 자연스럽게 떠오르지 않으셨나요? 같은 임상실습 평가를 두고도 어떤 교수님은 "평가자 간 일치도가 낮아서 문제"라고 하고, 어떤 분은 "다양한 시선이 담겨서 오히려 좋다"고 합니다. 역량위원회(competence committee)에서 점수 합산을 두고 의견이 갈리는 장면도 마찬가지고요. 이게 단순한 의견 차이가 아니라 서로 다른 철학적 입장이 부딪히는 순간일 수 있다는 거예요.
이 논문이 주는 실천적 메시지는 의외로 담백합니다. 평가를 설계하거나 그 결과를 해석할 때, "나는 지금 어떤 가정 위에 서 있지?"를 한 번 스스로에게, 그리고 동료에게 물어보는 것. 그 작은 명시화가 불필요한 소모적 논쟁을 줄이고, 우리가 진짜 같은 이야기를 하고 있는지 확인하는 출발점이 됩니다.
평가는 결국 숫자나 도구의 문제가 아니라, '우리가 무엇을 보려 하는가'에 대한 합의의 문제인지도 모르겠습니다.
보건전문직 교육(health professions education, HPE)에서 평가는 이제 더 넓고 더 다양한 해석 과정(interpretive processes)을 수반한다. 동등하게 자격을 갖춘 교육자나 연구자라 하더라도, 평가 문제에 접근할 때 사용할 수 있는 철학적 입장이 서로 다르기 때문에, 평가 과정과 평가의 질에 대해 서로 다른 결론에 도달할 수 있다.¹ 우리 분야에는 해석 과정이 실제 평가에 어떻게 영향을 미치는지를 보여주는 많은 사례가 있다.
- 예를 들어,
- 역량(competence)은 수련생 내부에 존재하는 인지적 구성개념(cognitive construct), 즉 잠재특성 모형(latent-trait model)으로 이해될 수 있다.
- ² 또한 역량은 둘 이상의 개인 사이의 상호작용의 산물, 즉 사회적으로 구성된 것(socially constructed)으로 이해될 수도 있다.³
- 또는 그 중간에 위치하는 것, 즉 사회인지적 과정(socio-cognitive process)으로 이해될 수도 있다.⁴
- 평가에서 실천적 해석과 질에 관한 해석도 현재 여러 방식으로 작동하고 있다.
- 어떤 사람들에게 평가 과정은 평가자 간 차이(rater divergence)를 활용할 때, 즉 평가자들이 보이는 차이를 풍부함으로 받아들일 때 ‘더 나은’ 것이 된다. 반면 다른 사람들에게 ‘더 나은’ 평가는 평가자 간 수렴(rater convergence)을 갖는 것, 즉 높은 합의도나 일관성을 선호하는 것이다.⁵
- 마찬가지로 주관성(subjectivity)은 평가 실천에서 받아들여야 할 것으로 논의되기도 하고, 방어가능성(defensibility)에 대한 위협으로 논의되기도 한다.⁶˒⁷ 우리는 신뢰도(reliability)를 지지하는 주장과, 중요한 타당도 지표로서 질적 엄격성(qualitative rigor) 개념을 지지하는 주장을 모두 찾을 수 있다.⁸˒⁹
- 어떤 사람들에게는 특정 통계적 접근, 예를 들어 베이지안 기법(Bayesian techniques)이 역량위원회(competence committee) 과정을 지원할 수 있지만, 다른 사람들에게는 그렇지 않다.¹⁰˒¹¹
- 이러한 차이는 맥락적 변이(contextual variations)나 단순한 선택 이상의 것이다. 오히려 이는 평가를 어떻게 가장 잘 설계하고 실행할 것인지, 그리고 무엇이 질 높은 평가 과학과 실천인지에 관한 논쟁을 형성하는 근본적이고 지침이 되는 서로 다른 가정(fundamental and guiding assumptions)을 나타낸다. 이러한 해석적 문제가 전면에 제기되지 않는다면, 논쟁은 비생산적인 상태로 남을 수 있다.
이러한 평가 관련 질문들과 다른 질문들에 대해 어떤 입장을 취하느냐는, 동일한 맥락에서도 서로 다른 교육자들에 의해 적절하다고 판단될 수도 있고 동시에 부적절하다고 판단될 수도 있다. 이는 좋은 평가를 구성하는 것이 무엇인지까지 포함하여 평가의 특징들이 확장되는 철학적 입장들에 의해 형성되고 있기 때문이다. 평가 지침도 일반적으로 이 문제에 대해서는 침묵한다.¹²˒¹³ 여기서 우리는 “철학적 입장(philosophical positions)”이라는 용어를 “평가 학자들에게 평가 문제와 해결책을 검토할 수 있는 렌즈를 제공하는, 인정된 가정과 헌신 또는 지적 틀의 집합”으로 사용한다.¹ 예를 들어, 실증주의(positivism)와 구성주의(constructivism)는 평가의 역할, 선택, 특징, 질에 대해 서로 다른 결론을 제공한다. 서로 다른 철학적 입장은 평가 과학과 실천의 계획, 수행, 평가에서 다양한 해석을 낳는다. 평가 실천에 정보를 제공해온 우리의 연구와 경험, 예를 들어 평가 실천에서 평가자를 어떻게 참여시켜야 하는지, 평가에서 심리측정학(psychometrics)의 역할은 무엇인지, 그리고 프로그램적 평가(programmatic assessment)와 평가 전반에서 이러한 문제를 탐구해온 이전 연구는, 철학적 다양성, 진화, 긴장이 유동적인 지금 평가 과학과 실천의 기저에 있는 긴장의 역할을 인식하게 해주었다.¹˒¹⁴–¹⁸ 철학적 관점에 의해 형성되는 해석은 많은 평가 작업 아래에 놓여 있는 것처럼 보이지만, 그 함의는 종종 숨겨져 있으며, 이로 인해 의도하지 않은 해석과 어떻게 나아가야 할지에 대한 혼란이 생긴다.¹⁶ 우리는 평가에 접근하는 새로운 방식들이 등장했지만, 그 기저에 있는 철학적 입장의 해석적 성격은 충분히 주목받지 못했다고 주장한다. 그 이유는 추가 조사가 필요하지만, 우리는 이전에 이 문제가 평가절하되고 있을 가능성, 철학적 헌신보다 방법에 초점이 맞추어져 있을 가능성, 경계가 불명확할 가능성, 그리고 아직 모범 실천(best practices)에 이러한 기대가 포함되어 있지 않을 가능성을 주장한 바 있다.¹⁶ 기존 지침은 이 주제를 우선순위에 두지 않으며,¹⁹ 최근 연구는 이러한 입장들이 여전히 충분히 보고되지 않고 있음을 시사했다.¹⁶
이 논문에서 우리의 목적은 이 해석적 문제를 드러내는 것이다. 우리는 HPE 평가의 현재 상태가 이를 요구한다고 본다. 평가에 대해 생각하는 방식의 발전은 평가 문제에 대한 해결책으로 볼 수도 있지만, 그 자체가 하나의 문제로 볼 수도 있기 때문이다. 평가에서 철학적 입장이 확장되면서, 교육자들은 유사한 평가 개념에 서로 다른 해석을 적용하고 있다. 그 결과, 유사한 활동과 언어를 사용함에도 불구하고, 평가를 통해 주장되는 것, 그리고 질로 간주되는 것은 사람마다 달라질 수 있다. 이는 어떻게 나아가야 할지에 대한 불확실성을 낳고 있으며, 더 나쁘게는 어떤 평가 활동이나 평가 결과의 정당성을 문제 삼을 기회를 제공하고 있다. 평가에서 어느 정도의 논쟁은 불가피하지만,
- 기존의 논쟁 대부분은 철학적 입장 내부에서 이루어졌다. 예를 들어, 오류를 가장 잘 최소화하는 방법이 그러하다.
- 반면 새로운 논쟁은 철학적 입장들 사이에서 일어나고 있다. 예를 들어, 오류가 유용한 개념인지 여부가 그러하다.
평가에 접근하는 새로운 방식들이 등장했지만, 그 기저에 있는 철학적 입장의 해석적 성격은 충분히 주목받지 못했다. 우리의 의도는 이 영역에서 대화와 발전을 촉진하여 교육자들이 서로를 이해하도록 돕는 것이다.
다음으로 우리는 철학적으로 형성된 이러한 해석 과정과 그것이 보건전문직 교육에서 어떻게 전개되고 있는지를 세 가지 방식으로 드러낼 것이다.
- 첫째, 우리가 어떻게 여기까지 오게 되었는지를 설명하기 위해, HPE의 현재 평가 맥락을 철학적 수준에서 간략히 요약한다. 특히 서로 다른 철학적 입장과 관련된 서로 다른 가정에 근거하여 평가 활동을 보고 주장하는 방식이 더 많아졌다는 점을 탐구한다.
- 둘째, 실천에서의 함의를 보여주기 위해 두 가지 예시를 제시한다. 하나는 HPE에서 이제 흔해진 서로 다른 철학적 가정을 적용함으로써 평가 연구물의 독자가 의도하지 않은 해석에 도달할 수 있는 방식이고, 다른 하나는 유사하게 강한 타당도 주장이 평가 자료의 의미와 자료가 함의하는 바에 대해 서로 다른 관점으로 이어질 수 있는 방식이다.
- 셋째, 철학적 입장을 그 가정과 헌신에 세심하게 주의를 기울이지 않고 단순히 불러오는 것, 즉 해결책으로 동원하는 것의 잠재적 어려움을 검토한다. 우리는 이 예시로 실용주의(pragmatism)를 선택했다. 왜냐하면 철학적 영향에 대해 질문받을 때, 교육자들이 평가에서 실천적이거나 실용적이라는 것이 받아들여지는 해결책이라고 주장하는 경향을 보고 있기 때문이다.¹ 철학적 입장을 일반적으로 공허하거나 잘못된 방식으로 사용하는 것을 반복하지 않기 위해, 우리는 실용주의를 하나의 예시로 검토한다. 이를 통해 특정 철학적 입장 내부에서도 추가적인 다양한 해석과 적용의 가능성이 존재함을 보여준다. 이러한 주장들은 본질적으로 존재론(ontology), 인식론(epistemology), 가치론(axiology)의 문제와 연결되어 있다. Varpio와 MacLeod를 보라.²⁰
- 마지막으로, 우리는 평가에 대한 철학적으로 명시적인 접근(philosophically explicit approach), 즉 메타 접근(meta-approach)을 요청하며 결론을 맺는다. 이 접근은 평가가 근본적으로 해석 과정이라는 점을 강조한다. 이는 맥락 안에서 가정을 세심하게 밝혀내고 정당화하는 작업을 요구한다.
동일한 평가 접근에 대한 다양한 해석: 우리는 어떻게 여기까지 오게 되었는가
Variable interpretations of the same assessment approaches: How we got here
한때 평가 개념과 모형은 측정 패러다임(measurement paradigms), 행동주의 심리학(behavioral psychology), 심리측정학(psychometrics)의 산물이라고 가정할 수 있었다. 그러나 이제 이는 더 이상 사실이 아니며, 보편적으로 받아들여지지도 않는다.²¹˒²² 지속적인 평가의 도전과제, 그리고 무엇이 평가되고 있는지, 평가가 무엇을 의미하는지, 평가가 실천에서 어떻게 실행되어야 하는지에 대한 비판적 검토는 평가 문제와 해결책을 바라보는 익숙한 방식 일부를 억제하고, 다른 방식을 도입하게 했다.⁶˒⁹˒²³
- 예를 들어 어떤 사람들은 “실증주의적 토대(positivist underpinnings)”를 줄일 것을 주장하고,²² 다른 사람들은 심리측정 정보가 정당화될 뿐 아니라 핵심적이라고 주장하며,¹⁵ 대부분은 철학적 입장을 전혀 언급하지 않는다.¹⁶ 평가에서 평가자들이 무엇을 어떻게 하는지를 검토하면서, 연구자들은 교수자를 오류의 원천, 즉 심리측정학적 원리로 보지 말고, 사회적으로 매개된 관찰자(socially mediated observers)로 생각하도록 촉구해왔다. 이들의 기여는 다르게, 예를 들어 질적이고 구성주의적인 접근을 사용하여 검토되어야 한다는 것이다.²²˒²⁴
- 다른 연구자들은 철학적 전환이 존재하는 지점이나 필요한 지점을 보여주고 있다. 예를 들어, 프로그램적 평가는 시간이 지나면서 서로 다른 철학적 입장에 의해 형성되어왔다.²⁵ 이 접근은 처음에는 향상된 신뢰도를 촉진하기 위해 더 많은 표집 시간과 자료 지점이 필요하다는 점을 강하게 강조하는 것으로 시작되었지만,²³ 이제는 판단(judgment)을 지지하고, 더 질적인 엄격성과 방어가능성 개념을 옹호하는 방향으로 주장하고 있다.²⁶ 이는 프로그램적 평가가 진화함에 따라, 새로운 통찰을 도출하기 위한 것이었든 그것을 정당화하기 위한 방식이었든, “작동 중인(in play)” 철학적 입장이 변화했음을 시사한다.
- 또한 역량위원회 맥락에서, 어떤 연구자들은 철학적 입장, 예를 들어 실증주의적 토대가 “수련생 수행평가의 복잡하고 사회적으로 상황화된 본질에는 적합하지 않다”고 강조해왔다. 이는 우리가 역량위원회 작업을 이끌고 있다고 가정해온 것이 도전받고 있음을 시사한다.¹⁰(p.732)
- 종합하면, 이러한 예시들은 평가 문제와 그 해결책이 다양한 철학적 입장의 적용에 의해 어떻게 주장되고 형성되어왔으며, 계속해서 그렇게 되고 있는지를 보여준다.
평가에 영향을 미치는 철학적 입장의 이러한 진화는 Kuhn이 제시한 생각과 유사하다.²⁷ Kuhn은 새로운 패러다임이 불만족의 순간에 담론으로 들어온다고 주장했다. 다만 HPE에는 중요한 차이가 있다. 예를 들어, Hodges는 “일련의 숫자 점수를 재조합하여 역량 판정에 도달하는 것에 대해 우리는 강한 유보를 가져야 한다”고 쓰면서, 심리측정학적 또는 측정 관점이 만족스럽지 않은 여러 이유를 제시했다.²¹(p.566) 그러나 현재 존재하는 것은 오래된 철학적 입장이 다른 하나로 대체되는 것이 아니라, 추가적이고 더 다양한 철학적 입장들이 동시에 작동하는 상황으로 보인다.¹
- 예컨대 측정, 심리측정학, 실증주의 또는 후기실증주의(post-positivism)의 뿌리에 더하여, 이제는 다양한 철학적 입장, 예를 들어 구성주의/해석주의(constructivism/interpretivism), 사회인지주의(socio-cognitivism), 실재론과 반실재론(realist and anti-realist views), 실용주의(pragmatism)에 의해 이끌리는 접근들이 존재한다.⁴˒²⁸–³¹
- 각각은 무엇이 좋은 평가로 간주되는지에 대해 저마다의 주장을 가지고 있다.
평가에 의해 계속 도전받고 평가 문제를 이해하고 해결하는 데 도움이 되는 방식을 찾는 과정에서, 더 많은 철학적 입장들이 존재하거나 앞으로 등장할 가능성이 크다.
- 평가의 여러 특징에 따라 후기실증주의/객관주의(post-positivism/objectivism)와 구성주의/해석주의(constructivism/interpretivism)를 나란히 비교한 것은 Tavares et al.¹을 보라.
- 관찰자가 이 두 입장에서 어떻게 개념화되는지에 관한 관점은 Govaerts et al.²²을 보라.
- 사회인지적 렌즈에서 평가가 무엇일 수 있는지에 대한 관점은 Mislevy⁴를 보라.
- 실재론과 반실재론의 함의는 Borsboom³⁰을 보라.
우리가 여기까지 오게 된 것, 즉 평가 실천과 담론에서 해석 과정이 세심한 주의를 요구하는 지점에 이르게 된 것은, 평가 문제를 이해하고 해결책을 제공하려는 노력의 결과이다. 이러한 노력은 오늘날 평가에 정보를 제공하는, 가능하고 이제는 “동등하게 관련성 있는(equally relevant)” 많은 철학적 입장을 낳았다.
실제로 작동하는 해석 과정 Interpretive processes in action
예시: 평가 근거에 대한 독자의 해석
Example: Reader interpretations of assessment evidence
예시로, 최근 발표된 “Augmenting Physician Examiner Scoring in Objective Structured Clinical Examinations: Including the Standardized Patient Perspective”라는 논문을 생각해보자.⁵ 이 연구는 고부담 OSCE(high-stakes OSCE) 맥락에서 채점 실천을 개선하는 방법을 탐구했다. 이 연구의 핵심 주장 중 하나는 동일한 사건과 동일한 응시자에 대해 서로 다른 경험, 전문성, 관점을 가진 의사와 표준화 환자(standardized patients)의 관찰자 기여, 이 경우 점수와 서술을 결합하는 것이 바람직하다는 것이었다. 이를 어떻게 적절히 수행할 것인지, 더 나아가 이를 아예 수행해야 하는지 여부조차도, 지식 생산자와 사용자가 모두 수행하는 해석 과정이다. 이 경우 그 해석 과정은 해당 아이디어를 고려할 때 사용되는 서로 다른 철학적 입장에 의해 형성된다. 두 가지 서로 다른 관점에서 이 연구를 검토하기 전에, 우리의 의도는 이 뛰어나고 시의적절한 연구의 질이나 기여를 비판하는 것이 아님을 밝힌다. 이 연구는 오직 시의적절한 주제를 대표하고, 질 높은 연구이며, 다른 곳에서 서로 다른 철학적 입장과 관련되어온 평가자 역할의 예시를 취할 기회를 제공하기 때문에 선택되었다.²⁴
위에서 설명한 연구를 서로 다른 철학적 입장에서 해석하는 두 명의 가상 독자를 생각해보자.
- 첫 번째 독자가 역량은 관찰자와 독립적으로 모든 사람 안에 존재하는 안정적인 특성(stable trait)이며, 잘 수행된 평가는 일정 정도의 오류를 수반하더라도 한 사람이 가진 역량의 정도를 포착하거나 대표할 수 있다고 본다고 가정하자.
- 이는 후기실증주의(post-positivist) 또는 실재론적 관점(realist perspective)과 일치할 것이다. 첫 번째 독자는 더 방어가능한 평가를 산출하는 것은 서로 다른 관찰자 집단이 수행이 역량과 관련하여 무엇을 의미하는지에 대해 동의할 때 달성된다고 주장할 수 있다. 그들이 동의한다면, 이는 평가받는 개인에 관한 진실에 대한 명확한 표상 또는 더 가까운 근사치(closer approximations of the truth)를 나타내는 것일 수 있다.
- 이 관점에서 해당 연구를 고려하면, 첫 번째 독자는 자신의 해석에 근거하여 서로 다른 평가자 관점이 함께 모이는 것이 저자들이 주장하듯이 바람직하다고 주장할 수 있다. 그리고 이를 지원하는 조치가 정당화되며, 평가자 간 합의가 향상될 때 좋은 평가 질에 대한 주장이 가능하다고 볼 수 있다.
- 그러나 다른 해석도 가능하다. 두 번째 독자는 역량은 측정될 수 있는 것이 아니라 사회적 구성물(social construction)이라고 믿을 수 있다. 즉, 역량은 특정 시간과 장소에서 관찰자와 학습자가 상호작용하는 것을 포함하는 것이다.
- 역량은 안정적인 내적 특성이 아니라 상황적이고 대인관계적이다. 이는 구성주의적(constructivist) 또는 반실재론적 관점(anti-realist perspective)과 일치할 것이다. 두 번째 독자는 평가 합의와 이를 촉진하려는 모든 노력, 예를 들어 훈련이나 표준화된 도구를 통한 노력은 우리가 역량에 대해 알 수 있는 것을 강화하기보다는 약화시킬 것이라는 관점을 취할 수 있다.
- 두 번째 독자에게는 다양한 관점을 촉진하고 수집하며, 맥락의 역할을 중요한 특징으로 허용하는 것이 더 유리하다. 이 둘을 오류의 원천으로 취급하기보다는 말이다. 여기서 두 번째 독자는 좋은 평가 질을 주장하기 위해서는 그러한 기여에서 더 적은 변이가 아니라 더 많은 변이를 추구해야 한다고 주장할 수 있다.
여기서 고려해야 할 세 가지 요점이 있다.
- 첫째, 평가 모형 설계에서 평가자 기여를 결합하는 것은 철학적으로 형성된 접근을 대표한다. 이는 평가자가 무엇을 제공하는지, 그들의 기여를 어떻게 가장 잘 사용하고 구조화해야 하는지, 그리고 좋은 또는 방어가능한 평가자 기반 평가 모형(rater-based assessment models)이 어떤 모습인지와 관련된 기저의 믿음, 가치, 가정에 의해 형성된 해석에 의존한다. 이루어진 해석과 선택을 정당화한다는 것은 이러한 관점과 정렬되는 특정 타당도 고려사항과 주장을 활용한다는 것을 의미한다.
- 둘째, 위의 예시와 우리의 일반적 주장은 방법의 문제가 아니다. 유사한 평가 방법이 서로 다른 철학적 입장과 관련될 수 있다. 강조점이 방법 자체에 놓이고, 그 방법이 어떻게 또는 왜 적절한지, 그것이 무엇을 의미하는지, 동일한 방법에 대한 서로 다른 해석이 어떻게 일어날 수 있는지에 놓이지 않는다면, 우리는 더 나아가지 못할 것이다.
- 셋째, 이 예시는 한 관점이 올바른 관점이라거나, 하나가 다른 것보다 더 낫다는 것을 시사하려는 것이 아니다. 오히려 우리는 이 맥락에서 어느 접근이든 그 해석적 성격(interpretive nature)에 명확하게 주의를 기울이는 것이 중요하다는 점을 강조하려 한다. 문제와 해결책을 다르게 볼 수 있는 이러한 기회는 혼합방법 연구(mixed methods research)에서 변증법적 입장(dialectical stance) 또는 다원주의(pluralism)로 설명되어 왔으며, 평가에서도 기회이자 도전이 된다.¹˒³²˒³³ 위협과 위험은 서로 다른 독자들이 서로 간에, 또는 저자가 의도한 기여와 다른 해석을 생성할 수 있다는 점이다. 이는 관련된 모든 사람에게 문제가 될 수 있다.
1. 평가자의 역할은 단순한 '기술'이 아니라 '철학'의 문제다
2. '어떤 평가 도구를 쓰는가'보다 '어떻게 해석하는가'가 더 중요하다
3. 정답은 없지만, '관점의 투명성'이 없으면 오해가 생긴다
|
예시: 진실의 지표로서의 타당도
Example: Validity as an indicator of truth
두 번째 예시는 특정 평가 프로그램에 대한 타당도 근거(validity evidence)가 무엇을 의미하거나 함의하는지에 관한 서로 다른 해석을 포함한다. 예를 들어
- 한 가지 해석은 그것이 속성(attributes)에 관한 어떤 종류의 “진실(truth)”을 대표한다는 것이다.²
- 다른 해석은 그것이 특정 맥락, 시간, 공간에서 유용한 주장, 즉 어떤 목적에 봉사하는 주장을 제공할 뿐, “진실”에 대해서는 어떠한 주장도 하지 않는다는 것이다.³⁴
여기서 우리의 의도는 ‘진실’이 평가나 타당도에서 유용한 구성개념인지 아닌지를 논쟁하는 것이 아니다. 또한 타당도 개념 일반과 그 철학적 토대에 대한 포괄적 분석을 제공하려는 것도 아니다. 오히려 이는 평가에서 매우 근본적인 것인 타당도 안에서도 또 다른 해석 과정이 존재한다는 점을 보여주기 위한 것이다.
연구자들은 타당도에서 진실에 대한 개념이 어떻게 다를 수 있는지, 그리고 그 결과 상응하는 타당도 주장이 어떻게 다르게 해석될 수 있는지를 논의해왔다.³³
- 이 문제에 대해 Markus와 Borsboom²은 Kane의 타당도 및 타당화(validity and validation) 틀이 진실의 역할을 고려하지 않는다고 비판한다. 타당도에서 철학적 토대가 부재한 상황은 HPE에서도 재생산되었으며, 충분히 주목받지 못했다. 여기서는 특정 선택이 왜 또는 어떻게 특정 관점과 대응하는지를 논의하기보다는 방법론적 접근에 더 초점을 두었다.⁸ Markus와 Borsboom²은 ‘진실’에 대한 주장을 하지 않는 정당화된 믿음(justified beliefs)과, 그러한 주장을 하는 정당화된 참된 믿음(justified true beliefs)을 구별한다. 그들은 진실, 즉 현실과의 대응(correspondence to reality)이 중요하다고 주장한다. 그 이유 중 하나는 우리가 틀린 타당도 주장을 충분히 정당화할 수도 있기 때문이다. 실용주의에 대한 주장을 예상하면서, 그들은 심지어 이 입장조차 최소한의 진실 개념을 정당화할 것이라고 주장한다. 다시 말해, Markus와 Borsboom은 타당도 결과를 해석할 때 진실에 대한 주장(claims to Truth)이 중요해야 한다고 제안한다.
- Kane은 타당도에 대해 다른 해석을 취한다. Kane에게 강조점은 과학자가 지금 여기에서 합리적이고 잠정적으로 결론 내릴 수 있는 것에 있다.³⁴ 이 관점에서, 그리고 실용주의가 설명되는 몇몇 방식과 일치하게, 해석이 충분한 근거, 어쩌면 사용 가능한 최대한의 근거에 의해 일관되고 정합적인 방식으로 뒷받침될 때 정당화된 믿음이 존재한다. 또한 이는 의도된 해석과 연결되어 있으며, 잘 확립되고 명확히 표현된 이론적 틀, 예를 들어 구성개념의 본질에 대한 입장을 설명하는 틀을 사용하면서 이루어진다.³⁴ 그렇게 하는 것은 진실에 대한 주장을 하지 않는다. 단지 현재의 주장이 다른 가능한 주장들에 비해 정당화될 수 있다는 사실만을 주장하며, 새로운 근거가 시간과 자료의 표지가 찍힌 타당도 주장에 대한 기존 정당화의 강도나 의미를 변화시킬 수 있음을 인정한다. 이 틀에서 더 중요한 것은 모든 정당화가 비슷한 생각을 가진 동료 공동체와 관련되어 있으며, 그 공동체에 의해 적절하다고 판단될 것이라는 점이다. 예를 들어, 우리가 평가에서 진실의 역할에 대해 유사한 해석을 가지고 있고, 공동체가 적절하다고 판단하는 방식으로 행동할 수 있다는 것이다. 여기서 Kane은 진실에 관심을 두지 않는다. 다시 말해, 핵심은 Kane이 Markus와 Borsboom과 비교할 때 타당도를 다르게 해석한다는 점이다.
학생의 임상 역량이나 전문직 정체성을 평가할 때, 우리가 내린 평가 결과가 '타당하다'는 것은 과연 무엇을 의미할까요? 학자들에 따라 이를 완전히 다르게 해석합니다. 핵심을 두 가지 관점으로 나누어 설명해 드리겠습니다.1. Markus & Borsboom의 관점: 타당도는 실제 '진실(Truth)'과 일치해야 한다이들은 타당도를 주장할 때 '현실과의 대응(현실을 얼마나 정확히 반영하는가)'이 필수적이라고 봅니다.
2. Kane의 관점: 타당도는 현재 시점에서의 '최선의 합리적 추론과 공동체의 합의'다보건의료교육 평가에서 널리 쓰이는 Kane의 프레임워크는 절대적인 '진실'을 찾는 데 큰 관심이 없습니다. 대신 실용적이고 잠정적인 합의에 초점을 맞춥니다.
💡 요약하자면이 글은 보건의료교육(HPE)의 평가 영역이 철학적 고민 없이 '어떤 평가 도구를 쓸 것인가'하는 방법론에만 치우쳐 있었음을 지적하며, 타당도에 대한 두 거장의 시각 차이를 보여줍니다.
|
그렇다면 타당도 이론가나 교육자들이 타당도의 행위와 의미를 다르게 해석할 때, 타당도에 대해 무엇을 말할 수 있는가? 타당도에서 진실과 관련하여 어떤 주장이 가능한지에 대해 서로 다른 해석을 적용할 때, 우리는 타당도 주장이 정당화되는지 여부를 서로 다르게 해석하게 된다. 평가에서 널리 받아들여지고 활용되는 개념인 타당도 근거조차 해석의 문제를 우회할 수 없다. 무엇이 타당도에 대한 정당한 근거를 구성하는지를 결정하는 것은 많은 해석적 요인에 달려 있다. 이를 HPE에 적용하면, 이는 해석 과정이 실제로 작동하고 있음을 보여주며, 무엇이 좋은, 방어가능한, 신뢰할 수 있는 평가 실천으로 인정되는지에 대한 함의를 가진다.
실용주의: 일관된 철학적 관점 내부에서도 존재하는 해석 과정
Pragmatism – interpretive processes even in a coherent philosophical perspective
이제 우리는 일관된 철학적 입장을 해결책으로 불러올 때에도 생기는 어려움을 검토한다. 평가 실천가들은 일상적으로 ‘실용적이기(being pragmatic)’라는 개념에 호소한다. 예를 들어, 대학원 의학교육에서 성과 틀(outcome frameworks)을 평가 계획(assessment plans)으로 번역하는 과정을 탐구한 최근 연구에서, 연구자들은 프로그램 디렉터들이 평가 계획에 영향을 미치는 경쟁적 영향들, 예를 들어 인증(accreditation), 기술(technology), 타당도(validity) 사이에서 협상해야 할 필요가 있음을 확인했다.³⁵ 평가 계획 설계를 고려하면서, 프로그램 디렉터들은 “나는 그것을 매우 실용적인 관점에서 보고 있었다”고 말하곤 했다.³⁵ 이는 실천적이라는 것이 평가 도전과제에 대한 해결책을 제공하며, 심지어 타당도를 핵심 영향요인으로부터 밀어낼 수도 있음을 시사한다. 따라서 실천적이라는 문제, 그리고 실천적 의도를 가지고 평가 선택을 협상하는 문제는 평가 전략에 대한 의도적 영향과 정당화로 확인되고 사용된다.³⁵
실용주의는 단순한 실천성(practicality)을 넘어서는 것을 포함한다. 어떤 접근이 다른 접근보다 더 적합한 이유를 생각하고, 평가 결과의 의미에 초점을 두며, 방법론을 넘어 탐구(inquiry)와 유용성(utility)을 정의적 특징으로 우선시하는 것이다. 그러나 아래에서 보여주듯이, 실용주의가 무엇을 의미하는지에 대한 암묵적 가정은 여전히 서로 다른 해석으로 이어질 수 있다. 여기서 우리는 일상적 용어로서의 실용주의, 즉 실용적이거나 실제적이라는 의미와, 고유한 역사, 가정, 헌신을 가진 실질적인 철학적 입장으로서의 실용주의를 구별한다. 실용주의를 언급하여 실천가들을 더 깊은 철학적 해석 문제로부터 면제시키는 것은 강력한 수사적 움직임이지만, 그것은 해석 과정을 우회할 수 없다.
우리가 강조했듯이, 실증주의/후기실증주의와 객관주의의 영향을 받은 심리측정학적 접근(psychometric approaches)은 역사적으로 HPE 평가를 지배해왔다. 이는 구성주의적 입장과 해석주의적 입장으로 대체되거나, 강화되거나, 보완되어왔다. 따라서 HPE 평가에는 더 이상 명확한 철학적 관습이 존재하지 않을 수 있다. 이는 하나의 기회를 제공하지만, 동시에 어떻게 나아가야 할지에 대한 불확실성도 도입한다. 현재 HPE 평가와 유사해진 혼합방법 연구는 비슷한 어려움을 경험해왔다. 혼합방법 연구의 일부에서는 실용주의가 실행 가능한 해결책을 제공한다.³⁶ HPE 평가 맥락에서 실용주의를 채택하는 것은 어떤 사람들에게는 논리적인 확장일 수 있다. Kane에게 그러했듯이 말이다. 그러나 그것의 함의가 해석에 대해 무엇을 의미하는지 이해하기 위해서는 그 뉘앙스와 가정에 주의를 기울여야 한다. 즉, 평가 맥락에서 실용주의나 다른 어떤 철학적 입장을 사용하는 것은 일부 철학적 긴장을 완화하는 데 도움이 될 수 있지만, 동시에 다른 긴장을 도입할 수 있다.
또 다른 해석 과정이 실제로 작동하는 모습을 보여주기 위해, 우리는 “진실(truth)” 개념으로 돌아가 실용주의에서 “진실”이 다루어지는 다양한 방식을 강조한다. 실용주의자들이 “진실”에 어떻게 접근하는지 생각하는 것은 유용하다. 이는 HPE에서 구성개념이나 역량의 본질에 관한 관점을 해석하거나, 타당도 주장을 형성하는 데 유비적으로 사용될 수 있기 때문이다. 많은 실용주의 철학자들은 “진실” 개념에 약간씩 다른 방식으로 접근한다.³⁷ 예를 들어
- Peirce는 ‘진실’을 가능한 모든 탐구의 끝에서 믿어지는 것으로 설명했다. 즉 참된 믿음(true beliefs)이다.³⁸ Peirce에게 진실은 발견될 수 있으며, 더 많은 경험에도 불구하고 시간이 지나도 유지될 수 있다.
- James는 정합 이론(coherence theory), 즉 믿음의 일관성을 강조하는 이론을 사용하여 “진실”에 접근했다.³⁹˒⁴⁰ James에게 “진실”은 우리를 가치 있는 방식으로 합리적이고 만족스럽게 이끄는 관념을 의미하지만, 그것이 반드시 현실을 나타내는 것은 아니다.
- Dewey는 한 걸음 더 나아갔다. 그는 어떤 믿음이든 거짓으로 드러날 수 있다고 주장했으며, 진실을 덜 강조했다.³⁷˒⁴¹ Dewey는 Peirce의 대응 이론, 즉 ‘참된 믿음’이 현실을 대표한다는 이론과 James의 정합 이론, 즉 ‘진실’이 믿음들 사이의 일관성 문제라는 이론을 거부했다. 대신 Dewey는 그 자체로 ‘진실’을 함의하지는 않지만 앞으로 나아가는 행동을 안내하는 데 유용성을 가진, 지적이고 잠정적이며 임시적인 판단에 대해 논의하는 것을 선호했다. 어떤 “진실”도 시간이 지나면서 우리가 그 판단으로 무엇을 하는지에 근거하여 출현한다.⁴²
- 마지막으로 Rorty는 우리가 그것에 대해 생각하는 것과 별개로 존재하는 객관적 세계는 없다고 주장했다.⁴³˒⁴⁴ 그는 Kane과 마찬가지로 “진실”에 대해 말할 수 있는 것은 아무것도 없다고 주장했다. 왜냐하면 그것은 알 수 없으며, 어떤 의미에서는 덜 의미 있기 때문이다. “진실”은 모든 반론에 대해 방어될 수 있는 것이다. 개인적이고 사회적인 사고 없이 진실을 발견하는 일은 없다.⁴²
실용주의 철학자 4명이 ‘진실(Truth)’을 어떻게 다르게 바라보았는지, 이를 “의대생의 임상 역량을 평가하는 상황”에 빗대어 알기 쉽게 풀어보겠습니다.1. Peirce (퍼스): "진실은 끝까지 탐구하면 결국 '발견'할 수 있는 것이다."
2. James (제임스): "진실은 현실의 복사판이 아니라, 논리적으로 '일관'되고 '유용'한 것이다."
3. Dewey (듀이): "고정된 진실은 없다. 오직 행동을 이끄는 '잠정적 판단'만 있을 뿐이다."
4. Rorty (로티): "객관적 진실은 없다. 공동체의 '방어 가능한 합의'가 진실을 대체한다."
💡 왜 이 이야기가 중요한가?
|
철학적 입장 내부, 이 경우 실용주의 내부에서도 그 핵심 특징에 대한 많은 서로 다른 해석이 존재한다. 평가 맥락에서 실용주의를 불러오는 것은 사람마다 많은 것을 의미할 가능성이 크다. 여기에는
- 활동이 구성개념의 “참된” 본질에 대한 주장을 허용한다고 제안하는 것, 즉 참된 믿음이 포함될 수 있다.
- 또한 우리의 주장이 합리적이고 정당화된 것으로 보아야 하지만 반드시 “참”이거나 현실에 대응한다고 볼 필요는 없다는 것, 즉 정당화된 믿음이 포함될 수 있다.
- 또는 “진실”에 관심을 두기보다는 우리의 주장과 결정이 앞으로 무엇을 의미하는지를 검토하는 것과 같은 중간적 입장도 포함될 수 있다.
- 또는 주장이 가장 강한 논증에 근거하여 이루어질 수 있으며, 그러한 주장은 사회적 맥락에 의존한다는 입장도 포함될 수 있다.
철학적 입장에 대한 해석 내부에서조차 존재하는 이러한 다양성은, 철학적 입장을 단순히 불러오는 것만으로는 의도하지 않은 해석을 막기에 충분하지 않다는 점을 시사한다. 이런 방식으로 철학적 입장의 적용은 의미와 이해를 명확히 하기보다는 오히려 더 가릴 수 있다. 평가 설계자가 평가 사용자가 자신의 평가 작업을 고려할 때 어떤 가정을 인정하기를 원하는지에 대해 더 명시적이고 주의 깊게 되는 것은, 의도하지 않은 해석을 방지하는 한 가지 방법일 수 있다.

논의 Discussion
HPE 평가에서 해석 과정의 개념을 부각시키려는 우리의 목적은 평가 프로그램이 논의되고 사용되는 방식의 명확성에 기여하는 것이다. Veen과 Cianciolo는 철학적 입장이 교육에서 얼마나 널리 퍼져 있는지, 그리고 “상황을 철학적으로 바라보는 것이 우리가 잠시 멈추어 주의를 집중하고, 당면한 문제를 재구성하며, 그에 따라 행동하도록 돕는다”는 근본적 이점을 상기시켰다.⁴⁵(p.338) 이는 해방적이면서도 생산적이었다. 평가에 철학적으로 접근하는 것은 지속적인 문제를 다르게 보기 위해 평가에 대해 생각하는 새로운 방식을 도입했고, 새로운 해결책을 밝혀내며 발전의 기회를 제공했다. 그러나 평가 과학과 실천이 그 철학적 토대에서 변화하고 있는 지금, 우리는 공통 개념과 언어에 대한 공유된 이해를 잃고 있다. 이는 우리가 그것들에 접근할 수 있는 다양한 방식 때문이다. 우리는 다음을 주장해왔다.
- 첫째, 평가에서의 다양한 해석은 보통 서로 다르며 대부분 암묵적인 철학적 입장에서 비롯되는데, 이러한 해석이 확장되었고, 그 결과 평가 과학과 실천에서 의도하지 않은 해석과 다양한 질 판단의 기회가 생겼다.
- 둘째, 평가의 핵심 특징, 예를 들어 평가자/관찰자의 활용과 타당도는 기저의 철학적 입장에 의해 부분적으로 형성되는 해석 과정이다.
- 셋째, 실용주의와 같이 일관된 철학적 입장을 불러오는 것조차도 의미와 이해를 드러내기보다는 오히려 더 감출 수 있는 또 다른 종류의 해석 과정을 포함한다.
어떤 사람은 이를 대수롭지 않게 여기며 “그래서 뭐가 문제인가? 사람들은 서로 다르게 해석한다”고 말할 수도 있다. 실제로 해석 과정의 역할이 반드시 새로운 것은 아니다. 그러나 이는 무엇이 좋은 평가를 구성하는지 고려할 때 실천적 불확실성을 도입하고 있다. 현재 하나 이상의 “규칙” 집합이 작동하고 있기 때문이다. 예를 들어
- Cizek은 “가장 포괄적인 타당화 노력조차도 동등하게 자격을 갖춘 평가자들을 서로 다른 결론으로 이끌 수 있는 모호한 근거를 산출할 수 있다. 그러한 결론은 종합될 타당도 근거에 대한 인식에 영향을 미치는 믿음, 가정, 가치에 달려 있다”고 썼다.⁴⁶
- 마찬가지로 이미 1975년에 Messick은 평가 논리와 의미를 더 잘 이해하기 위해, 평가 활동의 기저에 있는 핵심 가정과 주장에 주의를 돌릴 필요가 있다고 말했다.⁴⁷
실천에서 서로 다른 기저 가정은 해석을 형성하며, 따라서 평가가 어떻게 구조화되고 실행되며 방어가능하게 만들어져야 하는지에 관한 주장을 형성한다. 이러한 서로 다른 해석들은 교육자들 사이에서 유사한 평가 특징들에 적용되고 있으며, HPE에서 무엇이 좋은 평가를 구성하는지를 주로 보는 사람의 눈에 맡기고 있다. 또한 의도된 것과 해석된 것 사이에 잠재적 불일치를 만들 수 있다. 이러한 다양한 해석은 학생과 다른 사회적 책무성(social accountabilities)에 매우 큰 영향을 미칠 수 있다.
교육자와 HPE 평가 공동체를 위해 여러 함의를 도출할 수 있다.
- 첫째, 우리의 우려는 평가 설계자와 평가 사용자가 서로 다른 가정을 가지고 있다는 사실 자체가 아니다. 그들이 서로 다른 가정을 가질 것이라는 점은 거의 동어반복적이다. 우리의 우려는 실천에서 교육자들이 자신도 모르게 또는 은밀하게 이러한 서로 다른 가정, 방법론적 규범, 해석적 규범을 적용할 수 있으며, 따라서 동일한 평가 프로그램이나 평가 사건에 대해서도 무엇이 질 높은 평가로 기능하는지에 대해 서로 다른 관점에 도달할 수 있다는 점이다. 이는 평가의 여러 특징들 사이의 정합성(coherence), 그리고 궁극적으로 어떤 추론(inferences)을 도출할 수 있는지에 대한 우려를 제기한다.
- 둘째, 주목하지 않은 채 방치된다면 이러한 철학적으로 형성된 발전이 어떻게 나아가야 할지, 예를 들어 관찰자 자료를 어떻게 구조화하고 사용할지에 대한 불확실성을 낳고, 더 나쁘게는 어떤 평가 활동이나 결과의 정당성을 문제 삼을 기회를 제공할 수 있다는 우려가 있다.
- 셋째, 평가에서 어느 정도의 논쟁은 불가피하며, 오랫동안 존재해왔다. 그러나 이러한 논쟁들은 명시적이지 않았더라도 대체로 철학적 입장 내부에서 이루어져왔다. 예를 들어, 평가자 간 신뢰도(inter-rater reliability)를 어떻게 가장 잘 향상시킬 것인지에 관한 논쟁이 그러하다. 평가가 더 이상 하나의 지배적 철학적 입장에서만 바라보이지 않기 때문에,¹ 그리고 실천에서 서로 다른 해석 규범으로 이어지기 때문에, 오늘날의 논쟁은 철학적 입장들 사이에서 이루어진다. 이때 한 입장에 대한 이해가 다른 입장에 대한 오해로 이어질 수 있으며, 선택과 질에 대한 새로운 해석을 도입한다. 예를 들어 평가자 간 신뢰도가 중요한가라는 질문이 그러하다.
- 넷째, 평가 문헌은 방대하지만, 해석 과정이 그 작업에 어떻게 정보를 제공하고 있는지에는 거의 주의가 기울여지지 않았다.⁴⁸ 평가 실천과 결과적 주장을 구조화하고 방어하는 방식을 제공하는 평가 지침은 해석 과정이나 틀을 개괄할 필요가 있다. 이러한 관점은 주목된다 하더라도 여전히 암묵적이거나 가정된 상태로 남아 있다.¹⁶˒¹⁹
우리는 논의를 교육 및 평가 과학자, 평가 설계자, 또는 평가 결과나 자료의 사용자에게 초점을 맞추어왔다. 이러한 문제가 최전선 임상의(frontline clinicians)에게 어떻게 나타나는지에 대해서도 추가적인 고려가 필요하다. 그들 자신도 평가에 대한 철학적 가정을 가지고 있기 때문이다. 마찬가지로, 역량위원회에서 철학적 입장의 함의를 연구한 이들도 있지만,¹⁰ 학습자가 직접 영향을 받을 때 학습자에게 미치는 더 넓은 함의도 탐구될 필요가 있다.
이러한 철학적으로 형성된 해석적 문제는 평가 작업 아래에 놓여 있다. 이는 이미 일부 평가 프로그램의 가치 부여와 가치 절하로 이어졌으며,²² 무엇이 좋은 평가로 간주되는지에 대해 연구자와 교육자 사이의 순환적 논의와 논쟁을 낳았다. 그 사이에, HPE 평가가 계속 진화하는 동안 이러한 철학적 발전과 제안을 탐색하는 더 생산적인 방식이 필요할 수 있다.
결론: HPE 평가를 위한 철학적으로 명시적인 접근을 향하여
Conclusion: toward a philosophically explicit approach for assessment in HPE
평가에서 다른 사람들과 상호작용하기 시작할 때에야 비로소, 우리 각자의 평가 세계에 대한 어떤 형태의 조율이나 이해가 필요해진다. 우리의 의도는 평가에서 확장되고 더 다양해진 해석 과정의 불가피성과 그 함의를 강조하는 것이다. 전통적으로 그렇게 여겨지지는 않았지만, 우리는 평가가 과학철학(philosophy of science), 혼합방법 연구에서의 논쟁과 발전, 예를 들어 변증법적 다원주의(dialectical pluralism)의 영역에 속한다고 본다. 또한 평가는 평가 생산자와 사용자 사이에서 철학적 주장에 대한 합의가 형성되는 데 의존한다. 해석 과정에 대한 이러한 초점은 평가에서 윤리, 가치, 사회화의 역할도 도입한다. 이는 단지 과학적 추구나 존재론적 또는 인식론적 고려만의 문제가 아니다.⁴⁹ 이는 누가 해석을 하고 있는지, 누구의 해석이 지배적인지와 그 이유, 그리고 위치성(positionality)의 역할에 주의를 돌리게 한다. 이는 의도된 사용과 의미를 지원하기 위해 필요하다. 이 문제는 HPE 평가 틀에서 아직 충분히 밝혀지지 않았다.¹³˒¹⁹˒⁵⁰
따라서 우리는 평가 생산과 사용과 관련하여 철학적 전망(philosophical outlooks)을 밝혀내고 발전시키는 데 헌신함으로써, 평가를 해석 과정으로 널리 인정할 것을 요청한다. 따라서, 적어도 당분간은, 평가 실천과 과학에서 해석 과정에 주의를 기울이기 위해 평가 활동을 계획, 설계, 실행, 평가할 때 철학적으로 명시적(philosophically explicit)이어야 한다고 제안한다. 이는 교육 연구자들이 자신의 연구에서 이론(theory) 및/또는 개념적 틀(conceptual frameworks)을 밝혀내는 방식과 유사하다.⁵¹ 우리는 해석의 개념과 그 중대한 결과를 받아들이는 평가 접근, 또는 평가에 대해 생각하는 방식을 제안한다.
궁극적으로, 평가에서 공유되고 철학적으로 견고한 이해의 지평을 회복하기 위해, 우리는 평가 과학과 실천의 해석적 성격이 강조되어야 한다고 제안한다. 평가는 항상 철학적 입장에 의존하며, 그러한 입장들은 너무나 자주 완전히 암묵적이거나 주목받지 못한다.¹⁶ 그리고 이제 그것들은 다양하다. 이러한 철학적 전망들이 긴장 관계에 있을 때, 서로 통약 불가능한 입장(incommensurate positions)이 출현하고 평가 논쟁이 뒤따른다. 우리는 평가 자체의 급진적 변화를 요구하는 것이 아니다. 우리가 요구하는 것은 평가 과학, 실천, 담론이 개념화되고 표현되는 방식에 대한 주의이다. 암묵적 입장 내부에서 접근의 정당성을 논쟁하기보다는, 가정과 헌신을 명시해야 한다. 그래야 평가의 해석 과정이 더 투명해지고, 이해와 공정한 비판에 열릴 수 있다.
'논문 읽기 (with AI)' 카테고리의 다른 글
| 내가 “정체성”이라고 말할 때 … (Med Educ. 2023) (0) | 2026.06.07 |
|---|---|
| 관점주의와 보건의료전문직 평가(Acad Med. 2024) (0) | 2026.06.02 |
| AI가 유발하는 의학교육의 ‘Never-skilling’ (Nat Med. 2026) (0) | 2026.05.24 |
| 사고는 글쓰기만이 아니다 (Nature reviews bioengineering, 2026) (0) | 2026.05.17 |
| 배움의 과학: 7가지 학습전략 (J Contin Educ Health Prof.) (0) | 2026.05.12 |