Wilson Centre

[인증] 증명 또는 개선을 위해? 인증 상황에서 역설적인 긴장이 평가 관행을 어떻게 형성하는지 살펴보기

Meded. 2024. 7. 14. 09:53

출처: Onyura, B., Fisher, A. J., Wu, Q., Rajkumar, S., Chapagain, S., Nassuna, J., ... & Nirula, L. (2024). To prove or improve? Examining how paradoxical tensions shape evaluation practices in accreditation contexts. Medical Education, 58(3), 354-362.

https://asmepublications.onlinelibrary.wiley.com/doi/full/10.1111/medu.15218

1 서론
1 | INTRODUCTION

프로그램 평가가 보건 직업 교육(Health Professions Education, HPE)에서 소규모 프로그램과 대규모 기관 이니셔티브 모두에서 보편화되고 있습니다. 이러한 평가의 일상화는 부분적으로 품질 향상의 중요한 동인이라는 논리에 의해 추진됩니다.1, 2 또는 더 나아가 신뢰성을 유지하고 공공 책임성을 지원하며 사회적 발전을 촉진하는 메커니즘으로 작용합니다.1, 3, 4 This routinisation of evaluation is driven in part by the rationale that it is a valuable driver of quality improvement1,2 or— further still—a mechanism for maintaining credibility, supporting public accountability and driving societal improvement. 이는 고귀한 목표이지만, 현존하는 평가 관행이 주창된 목표를 달성하기에 충분한지에 대한 많은 비판이 있습니다.3-7 예를 들어, 학자들은 특정 성과 중심 모델이 과도하게 지배하는 문제5-7와 구현 평가의 빈번한 소홀8-10, 평가 질문의 범위가 좁다는 문제4, 11, 12에 대해 우려를 표명했습니다. 거의 예외 없이, HPE 평가에 대한 학술적 비판은 새로운 또는 더 넓은 평가 방법론과 프레임워크 채택을 통한 행동 촉구를 수반합니다Almost invariably,
scholarly critiques of evaluation in HPE are accompanied by calls to action via adoption of new or broader methodologies and frameworks for evaluation
.4, 5, 7, 9, 11 지난 10년 동안 HPE 평가 조사의 방법론적 확장을 촉구하는 목소리가 지속되었으나, 평가 연구의 방법론적 다양성에서는 큰 진전이 이루어지지 않았습니다.13 많은 현대적 평가 접근법14, 15이 여전히 채택되지 않았거나 필드에서 견고한 추진력을 얻지 못했습니다.13 이러한 진화의 망설임방법론적 갱신을 해결책으로 강조하는 것이 표현된 평가 문제에 대한 불충분함을 시사하며This hesitant evolution suggests that not only is emphasis of methodological renewal as the solution to expressed evaluation challenges inadequate, 이러한 강조가 평가 관행을 변혁하는데 내재된 장벽을 과소평가하게 만들 수 있습니다. 특히 평가 수행의 한계를 순수히 기술적 또는 방법론적 문제로만 규정하는 것은 평가를 복잡한 사회적 실천으로서 다양한 사회-정치적 이해관계의 영향을 받는 행위a complex social practice that is subject to a plurality of socio-political interests;로서의 검토를 제약합니다. 이러한 이해관계는 평가 관행을 형성하는 제약이나 긴장을 의미있게 이해하기 위해 경험적으로 검토되어야 합니다. 이에 따라, 우리의 연구는 이러한 긴장을 조명하고 그것들이 학술 보건 과학 시스템에서 평가 작업의 범위와 품질에 어떻게 영향을 미치는지 탐구하는 것을 목표로 합니다.

 

평가 작업과 관련된 사회-정치적 긴장에 대한 연구는 평가자에 대한 압력pressure on evaluators에 중점을 두어왔습니다.19-22 예를 들어, 이 개념의 발견적 모델은 이해 관계자 그룹이 평가 리드evaluation-leads에 영향을 미치는 다양한 방법을 강조합니다 (특히 평가 과정에서 개선, 약화, 지원 또는 왜곡 [BUSD 모델]Betterment, Undermining, Support, or Distortion [BUSD model]에 기여함으로써 직접적 또는 간접적으로 영향을 미치는 방식으로).23 다른 연구에서는 평가 문맥의 이해 관계자 결정이 고부담 및 저부담 문맥에서 어떻게 영향을 받는지 시뮬레이션 시나리오 연구를 통해 탐구했습니다.17 그들의 발견은 고부담 환경이 기술적으로 적절한 측정에 대한 의존을 줄이고 더 정치적으로 민감한 접근 방식을 채택할 가능성이 높음을 보여주었습니다.17 종합적으로, 제시된 연구는 문맥적 요구 사항 (특히 평가 작업의 계획된 활용) 및 직접적 및 간접적 이해 관계자 압력이 평가 수행 방식을 어떻게 형성하는지에 대한 증거를 제공합니다.

  • 그러나 이 연구는 광범위하게 구성되어 있으며 평가에 다양한 요구와 압력을 유발할 수 있는 특정 유형의 문제를 상세히 설명하지 않습니다.
  • 이러한 구체성의 부족은 이론이 평가 작업의 일상 현실과 추상적이거나 분리되어 보이게 만듭니다.
  • 더 나아가, 평가에 대한 압력을 단순히 긍정적 또는 부정적으로만 과소평가하여 평가 작업에 내재된 의사 결정의 복잡성을 오도합니다.

이에 따라, 반복적으로 발생하는 평가 관행의 긴장 아래에 놓여있는 문제를 의미있게 검토하기 위해 보다 정교한 이론적 모델이 필요합니다. 본 연구에서는 학술 보건 과학 시스템 내 인증을 추구하는 기관 문맥에서 평가 관행을 특징짓는 반복적 긴장을 탐구하기 위해 조직의 패러독스 이론을 활용합니다. 다음으로, 이 이론적 렌즈에 대한 간략한 개요를 제공하고 연구 문맥에 대한 상세한 설명을 이어갑니다.

1.1 패러독스 이론과 패러독스적 긴장
1.1 | Paradox theory and paradoxical tensions

우리는 조직의 현실에 내재된 긴장tensions that are inherent to the reality of organisations을 조사하는 유용한 프레임워크로 패러독스 이론을 확인했습니다.24, 25 패러독스적 긴장은 개별적으로는 논리적으로 보이지만 나란히 놓였을 때는 비합리적으로 보이는 잠재적 선택 상반된 요소로 정의된다.Paradoxical tensions are defined as opposing elements of potential choices that appear separately logical but are seemingly irrational when juxtaposed.24

 

지금까지 패러독스적 긴장은 네 가지 주요 범주로 분류되었습니다. 예를 들어,

  • 학습 패러독스혁신에 투자하는 것과 지속적인 운영을 유지하는 것 사이에 긴장이 발생할 때 표면화됩니다.
  • 성과 패러독스는 조직 내 주요 이해 관계자의 경쟁 요구를 어떻게 충족시킬 것인지에 대한 긴장으로 나타납니다 (예: HPE에서 교수진 대 학습자).
  • 소속 패러독스는 정체성에 대한 긴장으로 나타납니다.
  • 조직화 패러독스는 평가자를 위한 공간을 만드는 것과 기존 조직 구조 사이의 긴장으로 나타납니다.24
  • learning paradoxes, which surface when tensions arise between investing in innovation and maintaining ongoing operations;
  • performing paradoxes, which manifest via tensions about how to meet competing needs of key interest groups in an organisation (e.g. consider faculty vs. learners in HPE); 
  • belonging paradoxes, which manifest in tensions about identity; and
  • organising paradoxes, which surface in tensions about how to structure institutional functions (e.g. creating room for evaluators vs. preexisting institutional structure).24

특히, 다른 패러독스적 긴장은 복잡한 방식으로 교차할 수 있습니다. 긴장을 보는 다른 방식(예: 해결 가능한 딜레마로서)과 달리, 패러독스적 긴장은 조직 생활의 상대적으로 영구적인 특징으로, 완전히 해결되거나 제거될 수 없습니다paradoxical tensions are relatively permanent features of organisational life that cannot be wholly resolved or eliminated. 따라서 장기적 지속 가능성은 긴장의 불일치 요소를 지속적으로 관리하는 데 달려 있습니다. 한 요소를 다른 요소보다 영구히 우선시할 수는 없습니다.24, 26

 

종합적으로, 패러독스 이론은 다양한 영역에서 긴장을 연구하는 데 명확성과 일관성을 제공하는 유용한 프레임워크입니다. 비록 HPE에서는 그 사용이 드물지만, 최근 유럽 문맥에서 수술 교육에서 서비스와 훈련 간의 긴장을 조사하기 위해 적용되었습니다.27 그리고 병원 인증 시스템에서 발생하는 긴장을 조사하기 위해 사용되었습니다.28 여기에서는 평가 관행에 초점을 맞추어 중앙 연구 질문을 다룹니다: 인증된 (또는 인증을 추구하는) 기관 내에서 평가의 일상적 관행에서 어떤 패러독스적 긴장이 발생합니까? What paradoxical tensions are encountered in the routine practice of evaluation within accredited (or accreditation-seeking) institutions?

 

2 방법론
2 | METHODOLOGY

우리는 비판적 실재론 패러다임critical realist paradigm 내에 위치한 질적 접근을 채택했습니다. 이 패러다임은 지식 생산에 내재된 주관성을 인정하면서 지식을 개인의 인식과 독립적으로 존재하는 물질적 실재를 구성하는 것으로 간주합니다.29 따라서 비판적 실재론은 (다양한 관점이 있을 수 있는) 현실에 대한 현실주의 존재론과 지식의 구성에 대한 구성주의 인식론을 통합합니다.30,31

This paradigm positions knowledge as constituting a material reality that exists independently of individual perceptions, while acknowledging an inherent subjectivity to knowledge production.29 Critical realism thus integrates a realist ontology about a reality (on which there can be diverse perspectives) with a constructivist epistemology about the construction of knowledge.30,31

비판적 실재론은 이론적 (패러독스 이론) 및 분석적 선택 (프레임워크 및 매트릭스 분석)과 최적으로 조화됩니다. 우리는 참가자 데이터에서 나타나는 패러독스적 긴장을 그들이 일하는 실제 사회적 및 구조적 제도적 현실의 경험적 반영으로 위치시킵니다.

2.1 연구 문맥과 대상
2.1 | Study context and population

이 연구는 학술 보건 과학에서 인증을 추구하는 문맥에서 수행되었습니다. 인증은 일반적으로 프로그램이나 기관이 규제 기관이 설계한 고품질 성과의 지정된 표준과 체계적으로 비교되는 공식화된 과정으로 정의됩니다formalised process via which programmes or institutions are systematically compared against designated standards of high-quality performance that have been designed by regulatory bodies.32 따라서 이 환경에서 다양한 평가 전략을 통해 얻은 정보는 기관이 인증 표준을 충족하는지 여부에 대한 후속 결정을 알리는 데 사용될 수 있는 고부담 문맥입니다. 최근 연구는 인증 과정과 관련된 도전을 탐구했지만,28, 33-36 이 환경에서 평가 관행의 범위, 품질 또는 본질적 긴장에 초점을 맞춘 연구는 거의 없습니다.

 

연구 질문에 적합하게, 우리의 연구 대상은 평가 리드로 정의되었으며, 이는 학술 보건 과학 내에서 고용의 핵심 또는 할당된 책임으로 평가 활동을 이끌거나 지원하는 개인들입니다. 이러한 평가 리드는 모두 호주, 캐나다, 홍콩 및 미국의 대학 보건 과학 학부, 학술 병원 및 관련 교육 병원을 포함한 학술 보건 과학 시스템 내에 위치하고 있었습니다. 데이터는 2021년 6월부터 8월까지 수집되었습니다. 이 프로젝트에 대한 윤리적 승인은 토론토 대학 연구 윤리 위원회로부터 #37695 프로토콜 참조 하에 승인되었습니다.

2.2 데이터 수집 도구
2.2 | Data collection tools

데이터는 (i) 인구통계학적 설문조사와 (ii) 반구조화된 인터뷰를 통해 수집되었습니다. 인구통계학적 설문조사는 개인의 기관 소속과 업무 역할에 대한 정보를 수집하기 위해 설계되었으며, 나이, 인종화 상태 및 성 정체성에 대한 사회 인구학적 데이터를 포함했습니다. 설문조사는 이러한 범주에 대한 다양한 응답 옵션을 포함했습니다(부록 S1 참조). 인구통계학적 설문조사는 인터뷰 후 참가자들이 완료했습니다. 우리는 또한 반구조화된 인터뷰 가이드를 개발했으며(부록 S2 참조), 참가자들의 평가 관행과 일상 업무에서의 긴장 경험에 대한 여러 가지 지침 질문을 포함했습니다multiple guiding questions about participants' evaluation practices and their experiences with tensions in day-to-day work.. 각 질문에는 여러 잠재적 탐구 질문potential probing questions이 함께 제공되었습니다. 제시된 질문의 예로는 ‘지난 몇 년 동안의 평가 프로젝트를 돌아보면, 이해관계자 간에 긴장을 경험한 상황이 있었나요?’와 ‘평가자로서 요구받은 것의 윤리에 대해 걱정한 적이 있나요?’ 등이 있습니다.

2.3 샘플링, 모집 및 데이터 수집
2.3 | Sampling, recruitment and data collection

우리는 연구 참가자를 모집하기 위해 목적 표본 추출 및 편의 표본 추출 전략을 사용했습니다. 목적 표본 추출은 관심 현상에 대해 깊은 지식이나 경험을 가진 개인이나 그룹을 우선적으로 선택하여 잠재적 참가자를 식별하는 방법입니다.37 편의 표본 추출의 요소, 예를 들어 가용성과 참여 의사도 포함될 수 있습니다.38, 39

 

잠재적 참가자를 식별하기 위해 우리는 먼저 표본 프레임(학술 보건 과학의 다양한 평가 리드로 구성된 대상 인물 데이터베이스) sampling frame (a database of individuals from the target population of diverse evaluation-leads in the academic health sciences)을 개발했습니다.40, 41 표본 프레임은 여러 가지 방법으로 작성되었습니다.

  • 첫째, 우리는 공공적으로 이용 가능한 온라인 정보를 검색했습니다(즉, LinkedIn 및 Google을 사용하여 대학 및 병원 웹사이트를 검색함).
  • 둘째, 우리는 전문 평가 학회(미국 평가 협회, 유럽 평가 협회 및 호주 평가 학회)에 연락하여 회원들에게 연구 모집 이메일을 배포해 줄 것을 요청했습니다.
  • 셋째, 연구 팀원들에게 선정 기준을 충족할 수 있는 잠재적 연락처의 이름을 생성하도록 요청했습니다.
  • 마지막으로, 연구 팀원의 트위터 계정을 통해 온라인으로 모집 메시지를 게시했습니다.

연구 보조원들은 표본 프레임에 지역 및 기관 전반에 걸쳐 다양한 잠재적 참가자가 포함되었는지 반복적으로 검토했습니다. 잠재적 참가자는 모집 이메일을 통해 직접 연락을 받거나 위의 대체 방법을 통해 연구에 대해 알게 된 후 참여 의사를 표시한 경우 연락을 받았습니다. 그런 다음 그들에게는 서면 동의서와 반구조화된 인터뷰에 참여할 선호 시간대를 표시할 수 있는 온라인 일정 관리 소프트웨어42 링크가 이메일로 전송되었습니다.

 

인터뷰가 예약되면 참가자에게 온라인 회의 소프트웨어 링크가 포함된 공식 이메일 캘린더 초대장이 전송되었습니다.43 모든 인터뷰는 가상으로 진행되었으며 Zoom을 통해 디지털로 녹음되었습니다. 오디오 녹음은 처음에 NVivo의 인공지능 전사 기술을 사용하여 텍스트로 전사되었으며,44 이후 연구 보조원이 내용을 명확히 하고 조직하며 익명화하기 위해 전사본을 검토했습니다.

 

2.4 참가자 인구통계
2.4 | Participant demographics

총 4개 지역(호주, 캐나다, 홍콩 및 미국) 26개 기관에서 29명의 개인이 우리 연구에 참여했습니다. 인구통계학적 설문조사의 완료율은 96.6%(n = 28)였습니다. 참가자 중 8명(28.6%)은 자신을 남성으로, 20명(71.4%)은 여성으로 식별했습니다. 다른 성 정체성 옵션(예: 트랜스 여성, 트랜스 남성, 논바이너리, 투스피릿 및 확실하지 않음/질문 중)을 선택한 참가자는 없었습니다. 참가자의 평균 연령은 47.33세(SD = 10.75)였습니다. 약 18%(5명)만이 인종화된 것으로 식별되었으며, 20명(71.4%)은 그렇지 않았고, 3명(약 10%)은 확실하지 않거나 말하기를 꺼렸습니다. 여기서 인종화란 민족, 조상 또는 피부색에 따라 전통적으로 지배적이거나 특권을 가진 집단 또는 우세한 집단에 의해 인종적/문화적 정체성을 부여받은 개인을 의미합니다. 여기서는 '인종'의 사회적 구성을 강조하기 위해 인종 대신 인종화라는 용어를 사용합니다.45 Racialised, here, refers to individuals who are ascribed a racial/cultural identity by traditionally dominant or privileged or predominant groups based on their ethnicity, ancestry or colour of their skin. We use racialised here instead of race to emphasise the social construction of ‘race’.45

참가자 중 어느 누구도 원주민으로 식별되지 않았습니다. 참가자들은 평균 11년 동안 평가 업무를 수행했습니다(M = 11.22, SD = 7.76). 75%는 또한 교수직을 보유하고 있었습니다. 몇몇 참가자들(n = 15)은 대학과 병원 모두와 관련이 있었고, 21.4%는 병원만 관련이 있었으며, 25%는 대학만 관련이 있었습니다.

2.5 분석 접근법
2.5 | Analytic approach

이 연구에서는 프레임워크 분석과 매트릭스 분석을 모두 사용했습니다. 

  • 프레임워크 분석은 일반적으로 데이터의 특징적이거나 반복적인 패턴을 식별하기 위해 기존의 코드 또는 아이디어 세트와 관련하여 질적 데이터를 주제별 또는 사례별로 코딩하는 것을 포함합니다.46 이러한 연역적 추론 과정은 연구자가 선험적 프레임워크에 표현되지 않은 데이터를 관찰하고 코딩하는 귀납적 과정으로 보완할 수 있습니다. 
  • 행렬 분석은 행렬을 사용하여 데이터 집합의 두 개 이상의 차원 요소 간의 관계를 식별하고 묘사하는 것을 포함합니다.47 행렬은 두 개 이상의 범주가 현상이나 관심사를 설명하거나 이론적 개념과 관련되는 방식을 조사하는 데 도움이 됩니다.47 
  • 비판적 현실주의의 분석 도구를 활용한다는 것은 연구자가 이론과 데이터 사이를 이동하면서 초기 이론적 전제를 벗어난 데이터를 식별하고 재개념화하여 기존 이론을 확장하는 abductive inference추론도 포함한다는 의미입니다.29,48

We employed both framework and matrix analyses in this study.

  • Framework analysis generally involves the thematic—or case-based—coding of qualitative data in relation to a pre-existing set of codes or ideas to identify distinctive or recurrent patterns in the data.46 These deductive processes of inference can be complemented by inductive processes whereby the researcher observes and codes for data that are not represented by the a priori framework.
  • Matrix analysis involves the use of matrices to identify and delineate relationships across two or more elements of dimensions of a set of data.47 The matrices help in examining how two or more categories interrelate to explain phenomenon or interest or relate to theoretical concepts.47
  • Leveraging the analytical tools of critical realism means that such analysis includes abductive inferences as well, whereby the researcher moves between theory and data, identifying and reconceptualising data that are beyond initial theoretical premises, thus expanding on existing theory.29,48 

초기 프레임워크 분석보다 광범위한 평가 작업에 내재된 패러독스적 긴장을 분석하는 광범위한 지속적인 연구의 일부였습니다(즉, 인증에 국한되지 않음). 초기 연구 분석에서는 패러독스 이론 개념에 의해 알게 된 코드 프레임워크와 관련하여 데이터를 코딩하는 것이 포함되었습니다. 그런 다음 코드는 반복적으로 전사본에 적용되었으며, 여러 귀납적 코드는 주제적 덩어리로 조직되었습니다(그러나 이는 전반적인 패러독스 범주에 국한되지 않음). 이러한 초기 분석을 통해 우리는 인증이 참가자 인구가 경험한 긴장에 미치는 독특한 영향을 식별했습니다. 이에 따라, 우리는 여기에서 인증 문맥에서 평가 긴장을 조사하는 데 초점을 맞췄습니다.

 

우리는 매트릭스 분석을 사용하여 전반적인 패러독스 범주 아래 패러독스적 긴장을 구체화했습니다. 이는 기존 코드가 교차할 수 있는 위치를 식별하기 위해 코드 범주 또는 초기 주제를 매트릭스 내에서 그룹화하는 것을 포함했습니다. 예를 들어, 학습 긴장성과 긴장에 대한 데이터가 양 축에 있는 2x2 매트릭스를 사용하여 교차 데이터/코드를 시각화, 비교 및 세밀화하여 고유한 긴장의 존재를 식별합니다. 교차하는 코드와 새로 나타나는 긴장은 이 매트릭스 접근법을 사용하여 반복적으로 검토되어 차이점과 수렴점을 식별하고 더 넓거나 전반적인 긴장 아래의 '하위 긴장'을 구체화합니다.

 

가추 분석을 통해 역설적 긴장에 대한 초기 코드와 일치하지 않는 평가 긴장에 대한 데이터를 매핑하고, 역설적 긴장의 새로운 주요 범주에 대한 개념화가 필요한지 또는 언제 필요한지를 고려하여 기존 이론을 확장하기 위해 노력했습니다Through abductive analysis, we mapped data on evaluation tensions that were inconsistent with the initial codes on paradoxical tensions, working to extend existing theory by considering if or when the conceptualisation of new overarching categories of paradoxical tensions may be required.

 

팀원 간의 반성적 토론을 통해 분석된 데이터를 종합하여 인증 문맥에서 평가에 대한 긴장을 넓고 깊게 나타내는 긴장의 집합으로 수집했습니다. NVivo 1244는 데이터 관리 도구로 사용되었습니다.

3 결과
3 | RESULTS

우리의 결과는 두 부분으로 구성됩니다. 첫째, 파트 I에서는 프레임워크 분석 결과에서 도출된 전반적인 주제를 제시합니다. 다음으로, 파트 II에서는 매트릭스 분석 결과에서 도출된 패러독스적 평가 긴장을 상세히 설명하고 지원 데이터를 제공합니다.

3.1 파트 I: 프레임워크 분석
3.1 | Part I: Framework analysis

우리는 보건 직업 인증을 추구하는 문맥evaluation practice within the health professions accreditation-seeking
context에서 평가 관행에 대한 세 가지 전반적인 내러티브를 나타내는 주제를 도출했습니다.

 

1. 평가에 대한 집단적 일관성의 부재

1. Absence of collective coherence about evaluation

 

평가 업무는 일반적으로 잘 이해되지 않는 업무로 특징지어졌습니다. 평가 책임자들은 평가의 목표, 방법론, 가치 또는 유용성에 대한 집단적 일관성이나 공유된 이해가 부족한 환경에서 업무를 수행한다고 답했습니다.

 

"나는 사람들이 평가에 대한 깊이를 얼마나 이해하고 있는지 잘 모르겠어요... 여전히 평가가 그냥 세션이 끝난 후에 학생들에게 종이 한 장을 건네주고, 그들이 몇 가지 상자를 체크하면 모두가 행복해하고 그걸로 충분하다고 생각하는 사람이 있어요." (참가자 15)

 

"평가에 대한 지식이 정말 부족한 사람들에게 내 좌절감을 반복할 수 있을 것 같아요. 그들은 단지 무언가를 종이에 적으면 내가 마법처럼 그것을 유용하게 만들 수 있다고 생각합니다." (참가자 1)

 

2. 전문가 실습의 권한 박탈

2. Disempowerment of expert practice

 

평가 담당자들은 평가 업무를 이끄는 데 필요한 전문성이 저평가되는 환경에서 일한다고 답한 경우가 많았습니다.

평가는 실제 전문 분야로서 과소평가되고 있습니다Evaluation is really underappreciated as an actual field of expertise. 평가에는 훈련과 이해, 경험이 필요합니다... '평가는 내가 할 수 있는 것이 아니라 내가 하는 것'이라고 생각하는 사람을 실제로 채용할 수 있으면 좋겠습니다. (참가자 21)

 

 

특히, 평가 관행에 대한 전략적 조치에 영향을 미칠 수 있는 의사결정 테이블에서 배제되었다는 보고도 있었습니다.

저는 엄밀히 말하면 [조직의] 경영진에 속해 있지만, 평가자라는 이유로 멋진 아이 테이블에 초대받지 못합니다. (참가자 8)

 

3. 평가 관행에 일상화된 역설적 긴장감
3. Paradoxical tensions as routine to evaluation practice

 

우리는 참가자들의 평가 업무 전반에 걸쳐 몇 가지 긴장이 일상적으로 드러난다는 사실을 발견했습니다. 이러한 긴장은 파트 2에서 자세히 설명합니다.

 

3.2 파트 II: 매트릭스 분석
3.2 | Part II: Matrix analysis

우리의 분석은 네 가지 주요 패러독스적 긴장의 범주를 드러냈으며, 여기에는 새로운 패러독스 범주인 '공표 패러독스publicising paradox'가 포함됩니다(요약은 표 1 참조).

표 1. 인증 문맥에서 평가에 대한 패러독스적 긴장에 대한 연구 결과 요약

패러독스적 긴장의 유형 정의
   
성과 주어진 프로그램/조직의 주요 이해관계자의 다양한 또는 경쟁하는 관심사를 충족시키려는 노력에서 발생하는 긴장
성과 ↔ 학습 성과 요구가 보다 포괄적인 학습을 유도할 수 있는 평가 전략과 상충됨
공표a 기관이 어떤 정보를 내부 기밀로 유지해야 할지, 그리고 어떤 정보를 공공 또는 광범위한 이해관계자에게 공개해야 할지에 대한 결정에서 발생하는 긴장
성과 ↔ 학습 ↔ 공표 지식 획득에 대한 투자가 결과적으로 획득된 지식이 광범위한 이해관계자에게 공개될 경우 주요 기관 성과 목표를 저해할 수 있는지 여부에 대한 긴장
  a 조직 패러독스 이론 프레임워크에 새로운 패러독스 범주 추가.25

 

인증 문맥에서 평가에 대한 성과 패러독스
A. Performing paradoxes for evaluation in accreditation contexts

성과 패러독스는 평가 리드가 인증 평가를 수행하는 요구와 겉보기에 상충되는 우선순위를 조정해야 할 때 발생했습니다.

인증 자원 vs 평가 자원
i. Resourcing accreditation versus resourcing evaluation

인증 활동은 평가를 위한 전반적인 주의와 자원을 많이 차지하는 것으로 인식되었습니다. 이에 따라 다른 유형의 평가 작업은 자원이 부족하거나 우선순위에서 밀려났습니다.

"우리 작업의 많은 부분은 그 인증 기준을 충족하는 데 의해 주도됩니다... 솔직히 말해서 그 이상으로 갈 시간이나 인력이 많지 않습니다." (참가자 12)

성과–학습 패러독스
B. Performing–learning paradoxes

앞서 언급한 성과 긴장은 후속 긴장과 관련이 있었습니다. 특히, 인증 요구를 충족시키기 위한 평가 수행은 학습을 위한 평가(즉, 프로그램 기능에 대한 더 깊거나 새로운 통찰을 생성할 수 있는 평가 전략)에 투자하는 것과 상충되는 것으로 보였습니다. 이 긴장이 평가 작업에서 나타나는 구체적인 예는 다음과 같습니다:

i. 인증 보장을 위한 설계 vs 비효율적 요소의 바람직하지 않은 결과 표면화 설계
i. Design to guarantee accreditation versus design to surface dysfunctional elements' undesirable findings 

인증을 보장하기 위해 데이터를 생성해야 하는 압박은 평가 전략의 범위를 프로그램의 긍정적인 특징을 부각시키는 방향으로 왜곡하여 개입의 덜 최적화된 측면에 대한 검토를 제한했습니다.

 

"인증을 향한 많은 추진력은 프로그램을 가장 긍정적으로 보여주고 잘하는 것을 강조하려는 것입니다. 그리고 좋은 평가는 때때로 도전과제, 발생하지 않는 것들을 드러냅니다And good evaluation sometimes also, reveals challenges, things that are not happening. 그래서 이것은 평가 작업을 하는 우리에게 긴장을 줄 수 있습니다... 이것은 초기 평가 질문과 계획을 생각하는 것에도 영향을 미칠 수 있습니다." (참가자 10)

ii. 요약 결과 확인 vs 포괄적인 평가 전략
ii. Summative outcome verification versus comprehensive evaluation strategy

요약 평가(즉, 결과 확인)에 대한 비례적으로 많은 주의가 포괄적이거나 이론적으로 정보가 제공되는 평가 전략more comprehensive or theoretically informed evaluation strategy.보다 우선되었습니다.

"이것은 학생의 스마일리 시트가 아닙니다, 그렇죠? ... 모든 사람이 4를 체크합니다.... 그리고 우리는 그것을 인증 요구 사항이기 때문에 그렇게 합니다.... 하지만 우리는 아직 이용 중심 평가, 개발 평가 및 원칙 중심 평가utilisation focused evaluation, developmental evaluation and principal focused evaluation의 힘을 우리 시스템의 변화를 유도하는 데 활용하지 못했습니다." (참가자 30)

 

유사하게, 평가 리드는 프로그램 구현의 평가evaluation of programme implementation work가 종종 인증 평가 명령에 포함되지 않는다는 우려를 제기했습니다.

 

"인증 문서에서 사용되는 평가를 볼 때, 그들은 정말로 결과만을 말하고 있습니다. 우리가 아는 바와 같이, 결과는 여기에 도달한 구현의 질만큼만 좋을 수 있습니다the outcomes can only really be as good as the implementation that got it here." (참가자 8)

 

평가 리드는 다양한 결과가 달성된 방법 또는 이유에 대한 보다 복잡한 평가 질문을 탐구할 필요성과 가치를 잘 알고 있었습니다. 그러나 그들의 기관이 인증 표준의 결과 확인을 평가의 성과 목표로 구현했기 때문에, 이 문맥의 평가자들은 학습을 우선하는 방식으로 평가를 수행하는 데 큰 제약을 겪었습니다:

"[인증]은 평가자가 작동하는 방식을 정말로 변화시켰습니다.... 우리는 왜 그런지 정말로 묻지 않고 '그 기준을 충족하는 것'에 모든 에너지와 노력을 쏟고 있습니다we're spending all of our energy and effort worrying about ‘meeting that standard’ without really asking why.." (참가자 2)

 

"나는 국가 평가를 하고 있었고, 인증 기준을 살펴보았습니다. 그리고 내가 정말 중요한 발견이라고 생각한 것을 가지고 그들에게 돌아갔을 때 [문화, 환경, 자원 장벽], 그들은 그 측면에 대해 듣는 데 관심이 없었습니다.... 그들 중 일부는 그저 '사이트가 그것을 할 수 있었나요, 예 아니오?were sites able to do it, yes or no'에만 관심이 있었습니다. 그것이 얼마나 잘 되었는지, 그리고 어떤 곳은 작동하고 어떤 곳은 작동하지 않았는지에 대한 질문이 아니었습니다." (참가자 9)

공표 패러독스: 선택적 접근 vs 광범위한 공개
C. Publicising paradoxes: Selective access versus broad dissemination

공표 패러독스는 평가 데이터를 선택된(내부) 청중에게만 제한할지 아니면 모든 이해관계자에게 공개할지에 대한 긴장에서 나타났습니다.

 

더 포괄적인 평가 전략은 선택된 이해관계자/이해 그룹select stakeholder/interest groups(예: 교수진)에서 평가 데이터를 소싱하는 것을 포함할 수 있습니다. 그러나 이는 광범위한 이해관계자에게도 관련될 수 있습니다that are, however, of relevance to broader stakeholders or interest groups.. 여기에서 데이터가 공개적으로 접근 가능해야 하는지 또는 접근이 선택된 그룹으로 제한되어야 하는지에 대한 긴장이 발생했습니다.

"우리는 학생 리더십이 모든 것을 완전히 인식하기를 원합니다.... 그러나 동시에, 우리는 학생들이 [일부] 평가 결과를 보는 것을 원하지 않습니다.... 그것은 정말로 교수진만을 위한 것입니다, 그래서, 알다시피, 그건 어색할 수 있습니다." (참가자 3)

학습–성과–공표 패러독스
D. Learning–performing–publicising paradox

우리는 학습–성과–공표 긴장을 다음 세 가지가 상호작용하는 압력의 교차점에서 발견했다.

  • 기관의 인증을 손상시키지 않기 위해(수행)
  • 특정 평가 데이터를 대중의 감시로부터 보호하려는 노력(공개)
  • 프로그램 또는 시스템 수준의 변화를 위한 귀중한 동인으로 인식되어 해당 데이터를 수집하고 사용하기 위한 노력(학습)

at the juncture of interacting pressures of

  • trying to protect certain evaluative data from public scrutiny (publicising)
  • so as not to compromise an institution's accreditation (performing)
  • while still striving to collect and use said data because it is recognised as a valuable driver of programme- or system-level change (learning).

아래의 인용문은 평가 리드가 공표 및 성과 긴장과 관련된 상호 작용하는 제약을 탐색하면서 학습을 촉진하는 평가에 투자하는 방법을 보여줍니다.

"그들은 우리가 프로그램에서 수집하고 있는 데이터가 [인증 기관]에 전달되지 않도록 하고 싶었습니다. 그렇게 하면 [인증 기관]이 정보를 받으면 감점될 수 있기 때문입니다. 그래서 우리는 프라이버시 구성 요소를 매우 신중하게 다루어야 했고 프로그램과 책임자의 신뢰를 얻어 당신이 평가의 일부라는 것을 보장해야 했습니다. 그러나 그것은 인증 데이터와는 별개입니다." (참가자 16)

4 논의
4 | DISCUSSION

이 연구는 인증 문맥이 학술 보건 과학 시스템 전반의 평가 관행을 어떻게 형성하는지에 대한 새로운 탐구를 제공합니다. 더 넓게는, 연구 결과는 인증을 추구하는 활동과 관련된 복잡성과 양면성the complexity and ambivalence that is often associated with accreditation-seeking activities을 강조하는 인증에 관한 연구와 관련이 있습니다.28, 49, 50 예를 들어, 연구자들은 인증이 의과대학 교수진과 운영에 미치는 긍정적 영향(예: 프로그램 및 정책 개선, 참여도 및 책임성 증가)과 부정적 영향(예: 번거로운 문서화, 인건비 및 부적절한 훈련)을 모두 발견했습니다.33-36 적절하게, 학자들은 인증을 독특한 규제 과정으로 자리매김하려고 시도했으며, 일부는 인증을 프로그램 평가나 품질 보증/개선 관행과 다른 사회적 실천으로 개념화했습니다.32 그러나 인증이 어떻게 위치하든 간에, 우리의 연구는 인증을 추구하는 것이 평가 작업을 (범위, 품질, 공공 가용성 및 유용성 등의 측면에서) 어떻게 제한하는지 강조합니다the significant constraints that accreditation seeking imposes on evaluation work, including how it constrains the scope, quality, public availability and thus utility of evaluation work.. 비판적으로, 이 연구는 평가 관행을 풍부하게 하기 위한 방법론적 갱신(또는 새로운 평가 방법의 홍보)을 요구하는 것이 충분하지 않다는 증거를 제공합니다. 실제로, 우리의 연구 결과는 평가 리드가 그들의 관행에서 더 풍부한 평가 조사와 더 넓은 방법론을 원하거나 추천하는 경우가 많다는 것을 시사합니다. 그러나 평가 방법론과 범위를 확장하려는 이러한 노력은 환영받지 못하거나, 자원이 부족하거나, 우선순위에서 밀려나거나 심지어 적극적으로 무시되는 경험을 했습니다. 대신, 에너지와 노력이 주로 기존 성과 목표(인증)를 달성하기 위해 평가 장치를 사용하는 데 집중되었습니다. 이러한 상황은 평가 조사의 신뢰성에 대한 냉소와 불신cynicism and distrust about the credibility of the evaluative inquiry과 관련이 있어 다소 역효과를 내는 것으로 보입니다.

 

부인할 수 없게도, 인증에서 요구하는 특정 개입 결과의 체계적 검증은 유능한 평가 관행의 핵심 책임 중 하나입니다. 그러나 이는 유능하고 견고한 평가 전략을 위한 많은 중요한 책임 중 하나일 뿐입니다.51, 52 이러한 평가의 다른 책임에는 구현 평가,9, 10 윤리적53 및 반성적 평가 관행,53-55 해방적이고 형평성 인식 관행56 및 기술적, 실행 가능성 및 사회적 책임성 문제 탐색이 포함됩니다.52

  • evaluation of implementation,9,10
  • ethical53 and reflective evaluation practice,53–55
  • emancipatory and equityconscious practices56 and
  • navigating technical, feasibility and social accountability concerns.52

후자의 평가 기능이 소홀히 여겨지면 기관 기능에 잠재적으로 문제가 될 수 있습니다. 실제로, 패러독스 이론가들은 기관이 긴장의 한 요소(예: 특정 성과 목표 달성)에 지속적으로 과도하게 투자하는 것을 다른 요소(예: 학습 및 갱신)의 대가로 할 수 없으며, 그렇지 않으면 지속적인 성공이나 지속 가능성이 위협받을 수 있다고 경고합니다.institutions cannot perpetually overinvest in one element of a tension (e.g. meeting specified performance target) at the expense of another (e.g. learning and renewal) without compromising their enduring success or sustainability.24, 25 우리의 연구 결과는 해결되지 않은 긴장이 가져올 수 있는 위험을 예시합니다. 예를 들어,

  • 인증 표준의 달성을 증명proving하는 것이 표면적 결과 확인을 통해 이루어질 때, 모든 다른 유형의 평가 접근법(예: 구현의 주요 변동성을 검토할 수 있는 평가)이 해고되는 경우 학습learning이 위험에 처합니다.
  • 형평성Equity특정(또는 일관되게 더 강력한) 이해 관계자를 위해 정보를/프라이버시를 보호하는 것이 지속적으로 유지되기 위해서는 공공 정보 공유를 통해 다양한 이해 관계자의 비판적 통찰을 초대하는 것을 희생하게 된다.
  • 또한, 인증 표준을 충족하지 못할 가능성의 압박이 기관이 잠재적으로 바람직하지 않은 결과를 낳을 수 있는 평가를 최소화하거나 투명성과 공공 책임성을 저해하게 만들 때 학습learning형평성Equity 모두가 위험에 처합니다.
  • learning is at risk when proving the accomplishment of an accreditation standard—via superficial outcome verification—occasions the dismissal of all other types of evaluative approaches (e.g. that can scrutinise key variabilities in implementation). 
  • Equity is at risk when securing information/privacy for select (or consistently more powerful) interest groups is routinely upheld at the expense of publicly sharing information in ways that invite the critical insights of diverse
    interest groups. 
  • Moreover, both learning and equity are at risk when the pressure of potentially failing to meet an accreditation standard can compel institutions to minimise evaluation that may yield potentially undesirable findings or compromise transparency and public accountability.

4.1 실천 및 향후 연구에 대한 시사점
4.1 | Implications for practice and future research

여기에서 우리의 연구 결과는 인증을 부여하는 기관과 인증을 추구하는 기관이 이러한 평가 긴장을 더 잘 관리하고 신뢰할 수 있고 견고한 조사 과정을 채택할 수 있는 방법에 대한 질문을 제기합니다. 이러한 노력은 인증 자격을 결정하는 데 사용되는 평가 조사 과정의 신뢰성에 대한 회의론이 이러한 조사를 이끄는 사람들 사이에서 발견된다는 사실에 의해 나타납니다. 특히, 인증 과정의 신뢰성에 대한 회의론은 일부 교수진 및 학습자 연구에서도 발견되었으며,35 인증 표준을 설정하는 데 사용되는 기준의 한계에 주목하는 연구에서도 발견되었습니다.57, 58 따라서 기관은 인증 과정 및 결정의 신뢰성을 유지할 수 있도록 보장하는 데 실용적이고 윤리적으로 동기부여되어야 합니다Correspondingly, institutions should be practically and ethically motivated to invest in ensuring they can uphold public trust in the credibility of accreditation processes and decisions..

 

낙관적으로, 패러독스적 긴장을 더 잘 관리하기 위해 제안된 여러 전략이 있습니다.59

  • 예를 들어, 수용Acceptance은 긴장의 다양한 측면을 인식하는 것을 포함합니다.60, 61 예를 들어, 기관 지도자들에게 단일 평가 전략에 과도하게 투자하는 장기적 비용을 인식시키면서 인증의 본질적인 압박과 필요성을 인정하는 것은 방어적 태도를 최소화하면서 대안에 대한 창의적 고려를 초대할 수 있습니다.60, 61
  • 다른 전략은 인증을 위한 평가보다 견고한 평가 접근법과 관련된 작업 프로세스 또는 노력을 의도적으로 분리하는 것입니다.
    • 이러한 분리는 공간적spatial(예: 긴장의 다른 요소를 위해 다른 조직 단위가 분산되거나 구별된) 또는
    • 시간적temporal(예: 인증 평가에 집중하는 시간과 다른 평가 작업에 집중하는 시간이 구별된)일 수 있습니다.
  • 또 다른 전략은 긴장의 경쟁 요소 간의 유사성을 식별하고 활용하는 종합synthesis입니다(예: 일부 문제에 대해 더 의미 있는 확장 접근 방식을 설계하고 단절된 우선순위에 대한 노력을 제한하기 위해 인증 요구 사항을 활용).
    (e.g. capitalising on accreditation requirements to design more meaningful expansive approach for some issues and limiting effort on disjointed priorities)
    • Jung 등62이 제안한 것처럼, 종합synthesis을 전략으로 사용할 때, 신뢰, 상호 피드백 및 인증 표준과 관련된 사회문화적 다양성을 수용하는 협력적 교육 동맹이 의료 학교, 인증 기관 및 관련 규제 기관 또는 학술 사회 간에 형성될 수 있다면 성공 가능성이 높아집니다. 낮은 위험의 평가 노력과 시정 기회 또는 수정 진행 인정을 통해 신뢰할 수 있는 기관 간 동맹을 육성할 수도 있습니다.

향후 연구는 상기한 전략을 인증 문맥 내에서 평가 조사의 범위와 질을 풍부하게 하는 데 활용할 수 있는지 여부를 평가하거나 탐구할 수 있습니다. 평가 관행의 광범위한 역량 강화(예: 교수진 또는 전문 개발을 통해)는 평가 긴장과 가능성에 대한 집단적 일관성을 배양하고 이 문맥에서 평가 관행에 대한 협력적 문제 해결을 촉진하는 데 도움이 될 수 있습니다.

4.2 결론, 강점 및 한계
4.2 | Conclusion, strengths and limitations

인증을 추구하는 것은 학술 보건 과학 시스템 전반에서 평가가 실천되는 방식에 큰 제약을 가합니다. 학습, 진화, 형평성 및 투명성learning, evolution, equity and transparency을 위한 평가 작업은 인증을 위한 결과 확인에 지속적으로 단일한 평가 초점과 본질적으로 상충될 수 있습니다. 평가 리드는 이러한 문제를 인식하고 있음에도 불구하고, 종종 더 포괄적이고 견고한 전략을 향해 평가 조사를 주도할 직업적 지위나 기관의 권한이 부족합니다. 평가 환경의 의미 있는 변화는 인증을 추구하는 것이 평가 조사의 질과 신뢰성을 어떻게 제한할 수 있는지에 대한 기관의 인식과 필요한 경우 이를 수정할 수 있는 정치적 의지가 필요합니다. 이 새로운 연구는 세 대륙에 걸친 학술 보건 과학에서 일하는 평가 리드의 경험을 다루며, 인증이 평가 관행에 미치는 영향을 공통적으로 주장하는 데 신뢰성을 부여합니다. 그럼에도 불구하고, 모든 참가자의 설정은 중상위 소득 국가 내에 있습니다. 확인된 긴장은 자원이 제한된 환경에서 다르게 나타나거나 더 부정적인 영향을 미칠 수 있습니다.