[프로그램 평가] 평가 사용의 역사적 발전

Wilson Centre

[프로그램 평가] 평가 사용의 역사적 발전

Meded. 2024. 5. 31. 08:51

출처: Alkin, M. C., & King, J. A. (2016). The historical development of evaluation use. American Journal of Evaluation, 37(4), 568-579.

https://journals.sagepub.com/doi/10.1177/1098214016665164

역사적 평가 활용의 발전

서문

이 논문은 평가 활용(use) 개념의 역사적 발전을 추적하는 세 편의 논문 중 첫 번째입니다. 이 시리즈의 첫 번째 논문에서는 교육 테스트 및 측정에서 비롯된 하나의 발전 흐름과 사회 과학에서 비롯된 다른 발전 흐름을 문서화하면서, 초기부터 평가의 유용성(utility)이 중심이었음을 강조합니다. 또한, 평가 활용에 대한 진화하는 사고, 그 발생 빈도에 대한 경쟁적인 관점, 그리고 문헌에서 전통적으로 다루어온 평가 결과와 과정 활용의 범주를 설명합니다.

시리즈의 두 번째 논문은 세 가지 목적을 다룹니다: 평가 활용의 정의와 그것의 바람직하지 않은 동반자, 오용(misuse)을 명확히 설명하는 것; 활용과 평가 영향(influence)을 포함하는 평가 영향의 확장된 개념을 논의하는 것; 그리고 시간에 걸쳐 평가 활용과 관련된 요인들을 연구가 보여준 것을 식별하는 것입니다.

마지막 논문은 평가 활용에 대한 이론과 연구의 진화를 제시합니다. 먼저, Alkin의 평가 이론 나무의 사용 지점에 제시된 규범적 이론을 검토합니다(Alkin, 2013). 그 다음, 평가 활용에 대한 실증 연구를 요약하고 비판하며, 활용에 대한 경쟁적인 이해가 미치는 영향을 논의합니다.

주요 내용 요약

평가 활용의 중앙성
- 평가 분야가 시작된 이래로 유용성이 중심적인 역할을 해왔습니다.
- 초기에는 두 가지 주요 발전 흐름이 있었습니다:
  - 교육 테스트 및 측정
  - 사회 과학
평가 활용에 대한 진화하는 사고
- 평가 활용의 개념은 시간이 지남에 따라 발전해왔습니다.
- 평가 활용의 빈도에 대한 서로 다른 관점이 존재합니다.
- 문헌에서 전통적으로 다루어온 평가 활용의 범주:
  - 평가 결과 활용
  - 평가 과정 활용
평가 오용과 평가 영향의 확장된 개념
- 평가 활용과 오용의 정의를 명확히 합니다.
- 평가 영향의 개념을 확장하여 활용과 평가 영향 모두를 포함합니다.
- 시간에 따라 연구가 평가 활용과 관련된 요인들을 어떻게 밝혀왔는지 설명합니다.
평가 활용에 대한 이론과 연구의 진화
- Alkin의 평가 이론 나무에서 규범적 이론을 검토합니다.
- 평가 활용에 대한 실증 연구를 요약하고 비판합니다.
- 평가 활용에 대한 다양한 이해가 미치는 영향을 논의합니다.

결론

이 논문은 평가 활용의 역사적 발전을 이해하는 데 중요한 기초를 제공합니다. 유용성은 평가 분야에서 중요한 역할을 했으며, 평가 활용의 개념은 지속적으로 발전해왔습니다. 다음 두 편의 논문에서는 평가 활용의 정의, 오용, 그리고 평가 영향의 개념을 확장하여 논의할 것입니다. 마지막 논문에서는 평가 활용에 대한 이론과 연구의 진화를 다룰 것입니다.

평가 활용의 기원과 개념적 기초

평가 활용의 역사적 맥락

평가 활용의 역사는 프로그램 평가의 일반 역사와 밀접하게 연관되어 있습니다. 그 발전과 의미를 이해하기 위해서는 역사적 맥락 내에서 이를 고찰하는 것이 도움이 됩니다. Shadish와 Luellen (2005)은 평가의 역사가 인간 활동의 역사만큼이나 오래되었다고 언급했습니다: "인간은 (a) 문제를 식별하고, (b) 증상을 줄이기 위해 대안을 생성하고 실행하며, (c) 그 대안을 평가한 후, (d) 문제를 만족스럽게 줄일 수 있다고 제안된 대안을 채택합니다" (p. 183). 즉, 사람들은 "활용"을 촉진하기 위해 평가라고 부르는 활동에 참여합니다.

Shadish와 Luellen은 평가가 수천 년 전으로 거슬러 올라간다는 증거를 제시합니다. 성경 다니엘서 1장에 나오는 히브리 식단 평가와 4,000년 전 중국의 인사 평가가 그 예입니다. 이러한 예는 평가의 깊은 역사적 뿌리를 이해하는 데 중요한 기초를 제공합니다. 많은 학자들은 평가 활용이 사람들이 평가를 수행하기 시작한 이래로 중요한 문제였다고 주장합니다. Riecken (1953/1972)도 이에 대해 깊이 논의하고 있습니다. 평가의 존재 이유는 더 나은 프로그램 운영에 기여하는 것입니다. 평가의 주요 목적은 의사 결정을 합리화하는 데 기여하는 실용적인 작업이라는 점을 Weiss (1972)가 잘 설명했습니다:

"평가의 기본 논리는 그것이 행동을 위한 정보를 제공한다는 것입니다. 주요 정당성은 그것이 의사 결정의 합리화에 기여한다는 것입니다 ... 프로그램 결정이 내려질 때 진지하게 고려되지 않으면, 그것은 주요 목적에서 실패합니다." (p. 318)

Cronbach와 Suppes (1969)는 평가의 기대가 중요한 부분임을 이해하기 위한 추가적인 기초를 제공했습니다. 그들은 평가와 연구를 "훈련된 탐구"의 형태로 언급하면서 두 가지 유형의 탐구 사이의 차이점을 설명했습니다. "결정 지향적" 연구는 "조사자가 의사 결정자가 원하는 정보를 제공하도록 요청받는 연구: 학교 관리자, 정부 정책 결정자, 새로운 생물학 교과서를 개발하는 프로젝트의 관리자 등"이라고 했습니다 (1969, p. 20). 반면 "결론 지향적" 연구는 조사자의 약속과 직감에 의해 방향이 정해지며, 학문적 기반을 추가하려는 욕구에 의해 이끌립니다. 따라서 평가들은 현재의 프로그램과 시점을 다루며, 결과를 통해 프로그램 개선을 위한 의사 결정 또는 더 나은 프로그램 이해를 위한 통찰을 제공하려고 합니다.

Michael Scriven (1967)의 평가 정의—"가치와 장점의 판단"—는 추가적인 통찰을 제공합니다. 가치(merit)는 본질적 가치를, 가치(worth)는 외재적 가치를 의미합니다. 어떤 것은 본질적으로 좋지만 개인이나 조직에게는 가치가 없을 수 있습니다. 즉, 프로그램은 좋은 품질로 간주될 수 있지만 특정 맥락에서는 가치가 없을 수 있습니다. 본질적으로 Scriven은 평가가 맥락에 의해 좌우된다고 말했습니다. 연구가 다른 장소에서 이루어진다면, 그것은 다른 맥락입니다. 심지어 같은 장소라 하더라도 다른 시간에 이루어진다면, 맥락이 달라질 수 있습니다. "가치(worth)"의 개념은 본질적으로 평가가 "유용성(utility)"—주어진 맥락에서 주어진 시간에 활용될 수 있는 잠재력—을 가져야 한다는 아이디어입니다.

요약

평가 활용의 역사적 뿌리
- 평가의 역사는 인간 활동의 역사만큼이나 오래되었습니다.
- 평가의 초기 예로는 성경의 히브리 식단 평가와 고대 중국의 인사 평가가 있습니다.
평가의 존재 이유
- 평가의 주요 목적은 프로그램 운영을 개선하는 것입니다.
- 평가의 실용성은 의사 결정의 합리화에 기여하는 데 있습니다.
평가의 유형
- 결정 지향적 연구: 의사 결정자가 원하는 정보를 제공하는 연구
- 결론 지향적 연구: 조사자의 직감과 약속에 따라 진행되는 연구
Scriven의 평가 정의
- 평가의 본질적 가치와 외재적 가치를 구분
- 평가가 맥락에 의해 좌우되며, 맥락에 따른 유용성을 강조

이 요약을 통해 원문을 읽지 않은 사람도 평가 활용의 기원과 개념적 기초를 충분히 이해할 수 있을 것입니다.

평가 활용에 관한 두 가지 역사적 흐름

오늘날 우리가 알고 있는 평가의 광범위한 역사는 두 가지 주요 흐름을 따릅니다. 하나는 교육 분야와 깊이 연관되어 있는 테스트와 측정에 중점을 둔 흐름입니다. 다른 하나는 사회 과학 연구 방법론의 사용에 중점을 둔 사회 과학 흐름입니다. Shadish와 Luellen의 예시는 이 두 가지 흐름을 잘 보여줍니다. 중국의 인사 평가에서 실시된 테스트는 임명 결과로 이어졌으며, 이는 그 목적이었습니다. 다니엘서에 묘사된 실험은 평가 정보와 식단 변경의 사용으로 이어졌습니다.

이 두 흐름은 초기 평가 활용 역사에서 매우 구별되었지만 현대에 와서는 상당히 융합되었습니다. 1986년 평가 연구 협회(Evaluation Research Society)와 평가 네트워크(Evaluation Network)의 합병으로 미국 평가 협회(American Evaluation Association)가 형성된 것이 전환점이 되었을 수 있습니다. 이제 각 흐름의 초기 역사를 살펴본 후, 최근의 발전을 반영하는 추가 개념으로 넘어가겠습니다.

측정 흐름

Travers (1983)는 1800년대 중반에서 1900년대 초반까지의 테스트 흐름에서의 평가 활동을 충분히 문서화했습니다. 그는 Horace Mann이 매사추세츠 주 교육위원회(Board of Education of the Commonwealth of Massachusetts)에 12년 동안 연례 보고서를 준비한 초기 작업을 언급했습니다. 이 보고서는 여러 학교 교육 측면에 중점을 두었으며, 그 결과 보스턴 설문조사(The Boston Survey)의 개발을 촉진했습니다. 보스턴 학생들 샘플을 대상으로 다양한 학교 과목에 대해 테스트가 이루어졌습니다. Travers (1983)는 테스트 결과가 사용되지 않았기 때문에 2년 후 테스트가 중단되었다고 기록했습니다. 이는 초기 "비사용(nonuse)"의 기록된 사례입니다. 1897년 Joseph Rice는 여러 미국 학교 시스템에서 표준화된 테스트를 사용한 평가 프로그램을 수행했다고 보고했습니다. 그는 오늘날 우리가 적대적 또는 사법적 평가라고 여기는 것의 초기 버전을 제안하기도 했습니다 (Fitzpatrick, Sanders, & Worthen, 2004).

1900년대 초반, Edward Lee Thorndike의 저작은 학교 테스트 운동에 특별한 자극을 주었습니다. Thorndike는 'An Introduction to the Theory of Mental and Social Measurements'(1913)을 썼으며, 그 후 다른 측정 주제에 관한 책들과 학교 테스트 및 특정 과목에 대한 테스트에 관한 수많은 저널 기사를 저술했습니다. 이러한 기술적 성취에 자극받아, 제1차 세계 대전까지 40개 이상의 대규모 학군이 학생 성취도에 대한 대규모 평가를 수행하는 학교 연구 단위를 운영했습니다 (Madaus, Arasian, & Kellaghan, 1980). 이러한 평가는 학교 성과 평가를 포함한 다양한 목적에 사용되었습니다. 많은 대규모 학군이 여전히 이러한 단위를 운영하고 있습니다. Fitzpatrick, Sanders, 및 Worthen (2004)는 다음과 같이 언급했습니다:

"이 기간 동안, 측정과 평가는 거의 동의어로 간주되었으며, 평가라는 용어는 가장 자주 성적을 부여하거나 테스트에서 학생 성과를 요약하는 것을 의미했습니다. 오늘날 우리가 알고 있는 평가의 개념은 여전히 진화 중이었습니다." (p. 14)

1930년대는 평가의 측정 흐름에 또 다른 영향을 미친 시기였습니다. John Dewey의 저작 등은 진보적 교육 운동에 자극을 주었습니다. 학교들은 새로운 교육 방법과 교육과정을 실험했지만, 회의론자들은 전통적인 Carnegie 단위 교육과정과 비교하여 그 가치를 비판했습니다. 이는 시카고 대학의 유명한 8년 연구(The Eight Year Study)로 이어졌습니다 (Smith & Tyler, 1942). 체계적인 목표 기반(또는 기준 참조) 테스트 절차가 이 교육과정을 평가하기 위해 개발되었습니다. 8년 연구는 사용 강조를 제시했으며, 저자들은 "평가 결과의 해석과 사용에 대한 교사 및 학교 관리자 교육 제공"의 필요성을 인정했습니다 (Madaus & Stufflebeam, 1989, p. 113). 이러한 테스트 절차는 오늘날에도 여전히 전문적인 영향을 미치고 있습니다. 예를 들어, 국가 교육 성과 평가(National Assessment of Educational Progress)의 초기 책임자였던 Ralph Tyler는 8년 연구의 주요 지도자 중 한 명이었습니다.

두 세기 후, Cronbach의 기사 "Evaluation for Course Improvement" (1963)는 평가 사용에 대한 관심을 더욱 증진시켰습니다. Cronbach는 소련의 스푸트니크 1호 발사에 대한 대응으로 수학과 과학 교육과정 프로젝트의 다양성을 고려했습니다. 이 영향력 있는 기사에서, 그는 이러한 프로젝트의 평가의 적절성을 비판했습니다. 그는 평가의 목적 중 하나로 교육 과정 개선 목표를 제시했습니다. 이는 평가의 적절한 역할이 단순히 교육과정의 효능에 대한 최종 판단을 내리는 것뿐만 아니라 개발 중인 교육 과정의 수정을 돕기 위한 정보를 제공하는 것이라는 의미였습니다. Cronbach의 교육 과정 개선이 평가 활동의 적절한 결과라는 아이디어는 이후 Scriven (1967)이 만든 형성적/총괄적 구별의 기초가 되었습니다. 본질적으로, Cronbach의 처방적 공식은 단순히 최종 프로그램 결과를 보는 것 이상의 적절한 평가 사용의 개념을 확장시켰습니다. 방법론자로서의 Cronbach의 존경 덕분에 이 기사의 영향과 자극은 상당했습니다.

이후 평가와 성공 부족에 대한 집중이 증가하면서 사용에 대한 우려도 커졌습니다. 1960년대는 평가 수가 크게 증가한 시기였습니다. 주요 사회 프로그램들이 시작되었으며, 종종 연말 평가 보고서를 요구했습니다. 1960년대 중반은 미국 의회가 수많은 "위대한 사회" 프로그램을 제정한 시기였습니다. 교육에서는 1965년 초등 및 중등 교육법의 여러 섹션이 교육적으로 불리한 청소년의 프로그램적 요구를 충족하기 위해 추가적인 연방 자원을 제공했습니다. 이 법은 자금 수혜 학교 구역이 이러한 프로그램의 영향을 입증하기 위해 평가를 수행하거나 계약하도록 요구했습니다. 그 법의 일환으로, Robert Kennedy 상원 의원 등은 평가의 중요한 목적이 부모와 지역 교육자가 학교 프로그램을 개선하기 위해 사용하는 것이라고 생각했습니다. 따라서 법의 요구사항 중 하나는 학부모, 교사 및 행정가로 구성된 지역 학교 사이트 협의회(School Site Councils)를 설립하는 것이었습니다. 또한, 평가자는 이러한 협의회에 보고서를 제출해야 했습니다. 따라서 프로그램에 이해관계가 있는 다양한 사람들에게 평가가 관련 있고 잠재적으로 유용하다는 개념이 정치적 자극을 받았습니다.

좋은 소식은 이러한 "위대한 사회" 프로그램에서 평가에 대한 관심이 많은 측정 전문가나 학술 연구자를 끌어들였다는 것이지만, 나쁜 소식은 이 연구자들이 평가가 이루어질 맥락을 제대로 이해하지 못하는 경우가 많았다는 것입니다. 그들의 테스트 절차를 단순히 실행하거나 학교에서 연구를 시도하는 것은 대체로 실패했습니다. 그 결과, 프로그램이나 프로그램 인력에게 의미가 없는 것으로 인식된 학교 평가 보고서가 다수 생성되었습니다. 이는 특히 지역 프로그램 수준에서 수행된 평가에 해당됩니다. 따라서 많은 평가 보고서는 평가 요구사항을 충족했지만, 그 결과로 무언가를 할 권한이 있는 사람들에 의해 대체로 무시되거나 무시되었습니다. 테스트는 실시되었지만, 테스트와 평가의 차이를 이해하지 못했습니다.

이해 부족은 이후 측정 교과서의 변화에서도 나타났습니다. Google Ngram (Michel et al., 2010)을 통해 1940년부터 2000년까지 책에서 'measurement'와 'evaluation'이라는 단어를 검색한 결과, 1965년에서 1980년 사이에 'evaluation'이라는 단어를 사용하는 출판된 책의 비율이 두 배로 증가한 반면, 'measurement'를 포함한 책의 비율은 거의 동일하게 유지되었습니다. 실제로 당시 현장에서 일하는 몇몇 지도자들은 많은 측정 텍스트가 제목에 '평가'라는 단어를 추가했지만 내용에는 거의 또는 전혀 변함이 없었다는 우리의 견해를 확인하는 것처럼 보였습니다 (David Berliner, 개인 통신, 2016년 4월 21일; James Popham, 개인 통신, 2016년 4월 25일; John McNeil, 개인 통신, 2016년 5월 2일).

기존 평가 방법에 대한 일반적인 신뢰 부족으로 Scriven 및 Stake와 같은 학자들은 프로그램 평가를 수행하는 더 나은 방법을 제안했습니다. 또한 Stufflebeam (1971), Provus (1971), Cooley 및 Bickel (1986), Worthen 및 Sanders (1987) 등 여러 저자가 더 관련성 있는 평가 수행 방법, 즉 "처방 이론"을 제시하는 교과서를 작성했습니다. Patton은 두 흐름을 융합한 작업으로도 유명했으며, 1978년 'utilization-focused evaluation'에 대한 첫 번째 판을 출판했습니다.

Social Science Stream

사회 과학 스트림의 프로그램 평가 역사는 주로 사회 과학 연구 방법의 적용에 의해 정의되었습니다. Shadish와 Luellen (2005)은 경험적 연구 방법의 상당한 성장과 정제가 평가 활동의 증가에 기여했다고 언급했습니다. Caro (1971)는 1920-1950년 사이에 Elton Mayo, Fritz Roethlisberger, William Dixon, Stuart Dodd에 의해 수행된 연구들을 예로 들었습니다.

그러나 이러한 연구들은 Franklin Roosevelt 시대에 사회 과학 연구를 사용하여 '지식 사용'을 생성하는 데 중점을 두었습니다. 이 문헌은 결론 지향적인 정보를 생성하는 것, 즉 지식을 다루고 있습니다. 이러한 지식은 일반적으로 특정 시점에 수행된 연구의 결과입니다. 또는 다른 시점에 수집(또는 획득)되어 현재 상황을 밝히는 데 잠재적으로 적용될 수 있는 연구 정보를 사용하는 것을 의미할 수도 있습니다. 일반적으로 사회 과학자들은 그들의 노력이 정책 개발 과정에 영향을 미치고 궁극적으로 사회적 기능과 인간 복지의 개선에 기여하기를 희망했습니다. 이러한 연구들 중 대부분은 프로그램의 질을 결정하는 데 직접적인 초점을 두지 않았습니다. Fitzpatrick et al. (2004)에 따르면, 대부분의 사회 과학자들은 "기관의 필요와 개인적 관심의 교차점에서 응용 연구를 추구하여, 사회학자들은 사회학 분야와 기관에 관심 있는 질문을 추구했습니다"(p. 33).

앞서 언급했듯이, 1960년대와 1970년대 초반은 평가에 대한 진지한 관심이 다시 증가한 시기였습니다. 평가의 측정 분과에서와 마찬가지로, 위대한 사회 프로그램들의 도입은 사회 연구 분과에도 영향을 미쳤습니다. 연방 프로그램의 풍부함(예: Manpower Development and Training Act, Economic Opportunity Act)은 기존의 평가 수행 능력을 압도했습니다. 사회 연구 학자들은 이 공백을 메우려 했습니다. 이전 시기와 마찬가지로, 많은 연구가 높은 학문 기반을 가지며 이해관계자들에 의해 관련성이 없는 것으로 인식되었습니다.

따라서, 1960년대와 1970년대 동안 전국적으로 사회 연구 프로그램에 대한 연방 자금이 증가했음에도 불구하고, 사회 과학자들과 정부 관리들은 연구 노력들이 크게 주목받지 못하고, 정책들이 반대 연구 결과에도 불구하고 논의되고 통과되는 것에 대해 우려했습니다 (Bogenschneider & Corbitt, 2010; Gray & Lowery, 2000; Knorr, 1980). 지식이 정책 결정자들에게 영향을 미쳤다는 명확한 증거가 없다는 인식, 즉 잠재적 비사용에 대한 인식은 추가 연구의 추진력을 제공했습니다 (Weiss, 1989).

지식 활용 개념에 대한 초기 체계적인 고려는 미시간 대학교의 과학 지식 활용 연구 센터에서 Nathan Caplan과 National Opinion Research Center의 Robert Rich에 의해 수행되었습니다. Caplan, Morrison, Stambaugh (1975) 및 그 동료들은 사회 과학 지식이 연방 의사 결정 과정에 어떻게 영향을 미쳤는지 조사했습니다. 그들은 '하드' 지식과 '소프트' 지식 사이의 초기 구별을 했습니다. 전자는 연구 기반, 보통 정량적이며 과학적 언어로 표현된 것이고, 후자는 연구 기반이 아닌 정성적이며 일반 언어로 표현된 것입니다. 그들은 "우리의 데이터는 소프트 정보의 광범위한 사용이 있으며, 그 영향이 종종 간접적이긴 하지만 하드 정보의 영향보다 크거나 더 클 수 있음을 시사합니다"(p. 47)라고 언급했습니다.

비슷한 시기에 Rich는 연방 의사 결정에서 데이터 사용을 조사하면서 행동을 위한 지식(그가 '도구적 활용'이라고 부른 것)과 이해를 위한 지식(개념적 활용)을 구별하는 것이 유용하다는 것을 발견했습니다 (Rich, 1977).

전자는 오늘날 우리가 도구적 사용이라고 부르는 것으로, 연구 참가자들이 사회 과학 지식을 의사 결정이나 문제 해결 목적으로 사용한 구체적인 방법을 문서화할 수 있는 경우를 나타냅니다.
개념적 사용은 특정, 문서화 가능한 행동으로 정보를 사용하지 않았지만, 지식이 정책 결정자의 사고에 영향을 미친 경우를 나타냅니다.

Pelz (1978)는 Caplan과 Rich의 연구를 종합하여 지식 사용을 측정하는 개념적 어려움을 강조했습니다.

Carol Weiss (1977)은 개념적 사용의 이해를 증폭시켜 사회 과학 지식이 의사 결정에서 의도적이고 측정 가능한 역할을 하기보다는 정책 결정자들을 “계몽”한다고 주장했습니다. Weiss에 따르면, 정책 결정자들은 문제를 다르게 바라보도록 자극하고, 개혁에 대한 아이디어를 정당화하며, 현 상태에 도전하고, 변화의 필요성을 제안하는 연구를 가치 있게 여겼습니다. 따라서 계몽(enlightenment)이라는 용어는 지식 문헌과 평가 문헌 전반에서 표준적인 표현의 일부가 되었습니다. 계몽이라는 개념은 사회 과학 연구의 지식이 정책 결정의 유일한 원천이 아닌, 정책 결정을 “정보화”한다는 것을 시사합니다. 더 나아가, 지식은 Weiss (1977)가 “상호작용적”이라고 부른 더 미묘한 방식으로 사용될 수 있습니다. 이 모델에서 지식은 의사 결정자의 개인적 통찰, 경험, 전달된 정보와 함께 사용됩니다.

개념적 사용과 도구적 사용 외에도, Karin Knorr (1977)은 사회 과학 데이터의 세 번째 사용 모드인 “상징적 사용”을 식별했습니다. 그녀는 상징적 사용의 두 가지 형태를 고려했습니다. 하나는 정부 관리가 평가를 발표함으로써 문제가 해결되고 있다는 신호를 보내는 경우로, 실제로 취해야 할 적절한 조치가 연기되거나 완전히 무시되는 경우입니다. 두 번째, 더 일반적인 상징적 사용의 측면은 정당화 역할입니다. 이 경우, 데이터는 다른 기반에서 또는 이미 가지고 있는 의견을 공적으로 지지하는 데 사용됩니다.

Pelz는 세 가지 사용 범주 간의 구분이 명확하지 않다고 언급했습니다. 그가 제공한 예는 다음과 같이 설득력이 있었습니다:

증거가 의사 결정자를 옵션 A 대신 B를 채택하도록 설득하면, 그 사용은 명백히 도구적입니다.
만약 그가 이미 옵션 B를 채택했고, 증거가 이 옵션에 대한 그의 신념을 강화하면, 그 사용은 개념적입니다.
개념적 사용과 상징적 사용의 경계도 모호합니다. 정보가 의사 결정자의 상황 판단을 확인하는 데 사용되면, 이는 개념적 사용입니다. 증거가 그가 자신의 입장을 입법위원회나 공공 그룹과 같은 다른 사람에게 정당화하는 데 도움을 주면, 그 사용은 상징적입니다. (1978, p. 352)

지식 사용 연구에 참여한 다른 중요한 기여는 사회 과학 지식과 “일상 지식”의 연계였습니다. 이러한 지식은 일상적인 개인 경험에서 발생하여 의사 결정 과정을 정보화하는 데 사용되며, “상식, 비공식적 경험주의, 또는 사려 깊은 추측과 분석”에서 찾아집니다 (Lindblom & Cohen, 1979, p. 12). “일상 지식을 사회 과학 지식과 구별하는 것은 사용자가 그것을 어떻게 검증하는지입니다. 따라서 그것은 비체계적인 관찰과 검증 전략에서 유래되므로 잘못되거나 거짓일 수 있습니다” (Lindblom & Cohen, 1979, p. 201). 많은 면에서, 이것은 Weiss가 지식의 상호작용적 사용에 대한 논의에서 제안한 것과 Caplan et al. (1975)이 이전에 제안한 것과 유사한 아이디어입니다.

Kennedy (1983)는 “작업 지식”을 “맥락 의존적이며, 새로운 사회 과학 증거를 해석하고 그 유효성과 유용성을 판단하는 필터로서 기능하는 지식”으로 식별하여 일상 지식의 개념을 작업 환경으로 확장했습니다 (p. 202).

지식 활용에 대한 이 연구는 평가 사용 개념의 발전을 이해하는 데 매우 관련이 있습니다. 지식 활용과 관련된 많은 아이디어는 평가 사용에 대한 연구에 큰 영향을 미쳤으며, 두 스트림의 학자들이 연구를 시작하는 출발점이 되었습니다. 그러나 이러한 초기 연구의 영향에도 불구하고, Leviton과 Hughes (1981)는 지식 활용 문헌에서 너무 큰 추론을 하지 말 것을 경고했습니다. 왜냐하면 프로그램 평가가 정부에서 일반적으로 사용되는 사회 연구와 다르기 때문입니다. 정부는 더 자주 정치적 제약에 묶여 있기 때문입니다.

평가 사용에 대한 진화하는 사고

1970년대 초부터 평가의 두 흐름은 평가 사용의 개발, 연구 및 연구와 관련하여 수렴하기 시작했습니다. 특히 Carol Weiss의 초기 작업, 특히 그녀의 장 "Utilization of Evaluation: Toward Comparative Study" (Weiss, 1972)는 평가 사용 연구에 대한 더 집중된 관심을 크게 영향을 미쳤습니다. 이 기사는 평가 사용에 대한 연구 의제를 설정하는 데 있어 수년간 큰 영향을 미친 고전적인 작품이 되었습니다.

사용의 보편성에 대한 경쟁적인 인식

Carol Weiss는 평가 활용 문제에 대한 초점을 요청하면서(1972), 평가 정보의 비사용이 널리 퍼져 있다고 인식했기 때문에 연구가 필요하다고 언급했습니다. 그녀는 일부 효과적인 활용 사례가 존재하지만 비활용 비율이 훨씬 더 높다고 지적했습니다. 이 문제는 Davis와 Salasin(1975)도 고려했으며, 그들은 문헌에서 언급된 것보다 더 자주 사용되었지만, 기대치가 너무 높고 시간 프레임이 짧아서 인식되지 못했다고 의견을 제시했습니다. 그러나 비사용 문제는 해결되지 않았고 실제로 지속되었습니다. Guba는 "The Failure of Educational Evaluation"(1969)이라는 제목의 기사를 발표했으며, Rippey(1973)는 다음과 같이 언급했습니다:

“현재로서는 평가가 연구자에게 두통을 주고, 혁신자에게 위협을 가하며, 평가에 헌신된 저널에 우울한 기사를 제공하는 것 외에 교육 실습에 기여하는 증거가 없습니다.” (p. 9)

사용의 보편성 문제는 1987년 캘리포니아 말리부에서 열린 소규모 3일 회의에서 다루어졌습니다(Alkin, 1990). 특히, Michael Quinn Patton과 Carol Weiss는 평가 사용의 발생 정도에 대해 열띤 토론을 벌였습니다. 이 논쟁은 1987년 미국 평가 협회 연례 회의에서 각자의 주요 발표에서 더 격렬하게 재연되었습니다(Patton, 1988; Weiss, 1988). 두 사람은 평가가 의사 결정(프로그램 수정 및 태도 변화 포함)으로 이어진 사례가 많다는 데 동의했지만, 말리부 토론을 고려할 때 서로의 견해를 더 잘 이해하지 못한 것에 놀랐습니다. Weiss는 평가가 결정의 유일한 근거이거나 가장 중요한 고려사항인지 여부를 사용의 보편성 지표로 보았습니다. Patton은 더 관대한 영향의 정의를 사용했습니다(오늘날 문헌에서 사용되는 용어와는 다름).

Alkin(1990)은 이 논쟁에 대해 언급하면서 그들의 차이를 정의하는 주요 문제가 각자가 다루는 평가의 범위와 관련이 있다고 지적했습니다. Weiss는 주로 대규모 기관, 입법부, 의회 등을 중심으로 평가를 수행했습니다. 이러한 평가는 높은 가시성과 다수의 이해관계자를 가지고 있었습니다. 따라서 정보의 점진적 집합을 의미하는 Weiss가 사용하는 용어인 "accrete"가 더 큰 정도로 발생했습니다(Weiss, 1980). 반면 Patton은 주로 더 작고 지역 프로그램 지향적인 평가에 참여했으며, 이는 일반적으로 정치적으로 덜 부담되고, 가시성이 낮으며, 의사 결정에 관여하는 사람이 적었습니다. 이러한 경우 토론은 "go/no go"보다는 작은 프로그램 수정과 같은 형성적 성격을 띠는 경향이 있었습니다. 평가 사용의 정도에 대한 인식 차이는 프로그램 규모와도 부분적으로 관련이 있을 수 있습니다. 또한, 다양한 프로그램 유형의 맥락(예: 정부 수준, 규모, 정치적 영향력)이 평가가 사용된 것으로 인식되는 정도에 영향을 미쳤습니다.

후속 연구와 평가 사용 개념의 가시성을 고려할 때, 그 논쟁이 일어났던 시기보다 현재 사용의 보편성이 더 크다는 것을 알 수 있습니다.

과정 사용(Process Use)

평가 사용 역사에서 또 다른 중요한 발전은 과정 사용(process use)의 추가였습니다. 평가 문헌에서는 이 아이디어를 오랫동안 언급해 왔습니다(Rippey, 1973 등). King과 Pechman(1984)은 학교 구역의 연구 및 평가 부서에 대한 사례 연구에서 사용 과정(use process)이라는 용어를 사용하여 평가 과정 자체가 평가 커뮤니티에 유익한 활동으로 인식될 수 있도록 하는 방법을 설명했습니다.

평가 과정 자체가 영향을 미칠 수 있다는 인식은 Cousins와 Earl(1992), Greene(1988), King(1988) 등이 암묵적으로 논의했습니다. 그러나 이 개념을 명명하고 평가 커뮤니티의 주목을 받게 한 사람은 Michael Patton이었습니다(1994). 그는 1998년 American Journal of Evaluation에 실린 기사에서 이 아이디어가 어떻게 떠올랐고 왜 중요한지 설명했습니다:

"저는 의도된 사용자들에게 실제 사용에 대해 물었습니다. 그들이 일반적으로 말하는 것은 '네, 결과는 이런저런 방식으로 도움이 되었고, 우리는 그것을 이렇게 사용했습니다'라는 것이었습니다. 권고사항이 있었다면, 그 후의 조치가 있었는지 물어보았습니다. 하지만, 결과와 권고사항 외에도 그들이 거의 예외 없이 덧붙이는 것은 '사실 결과 자체가 그렇게 중요한 것은 아니었고, 과정을 겪는 것이 더 중요했습니다'라는 것이었습니다." (Patton, 1998, p. 225)

따라서 과정 사용은 평가의 결과보다는 평가가 수행되는 활동이 개인과 조직에 미치는 영향을 다루는 용어로 등장했습니다. Patton은 과정 사용을 "평가 과정 중에 발생하는 학습 결과로 인해 평가에 참여한 사람들의 사고와 행동의 변화"로 정의했습니다(1997, p. 90). 그는 또한 "프로그램이나 조직 절차 및 문화의 변화도 과정 영향의 한 형태일 수 있다"고 설명했습니다(Patton, 1998, p. 225).

예를 들어, 평가에 참여하면서 얻은 사고 과정으로 인해 프로그램이 변경되었다면 이는 과정 사용의 한 사례입니다. 또는 평가의 일환으로 특정 종류의 데이터를 수집해야 한다고 평가자가 지적했을 수 있습니다. 사용할 측정 방법에 대한 이해는 평가 데이터가 수집되기 전에 프로젝트의 결함을 인식하게 할 수 있습니다.

일부 저자들은 과정 사용을 도구적 사용이나 개념적 사용과 병행하는 일종의 사용으로 잘못 식별했습니다. 중요한 것은 과정 사용이 추가적인 사용 범주가 아니라는 것입니다. 오히려 그것은 자극의 출처, 즉 과정 자체와 관련이 있습니다. 따라서 결과 사용과 마찬가지로 과정 사용도 도구적 및 개념적 결과를 가질 수 있습니다(Alkin & Taut, 2002). 즉, 과정은 의사 결정이나 프로그램 조치로 이어질 수 있으며, 자신, 프로그램 또는 조직에 대한 사고와 이해의 변화로 이어질 수 있습니다.

결과 사용과 과정 사용 사이에는 각기 도구적 또는 개념적으로 사용될 수 있는 구별이 있습니다. 또한, 앞서 설명한 상징적 사용과 정당화적 사용도 평가 과정에서 비롯될 수 있습니다. 정당화적 사용은 이전 결정을 합리화하기 위해 평가 결과에 의존하기 때문에 결과 사용 범주에 속합니다. 반면, 과정 자체에 의존하는 상징적 사용은 과정 사용 범주에 속합니다.

과정 사용의 확장

과정 사용도 결과 사용처럼 다양한 시점에서 발생할 수 있습니다. 도구적 또는 개념적 과정 사용은 평가 과정 중이나 평가가 끝난 후에 발생할 수 있습니다. 후자의 경우, 전체 평가 과정에 참여한 결과와 영향을 고려할 수 있습니다. 예를 들어, 참여적 평가에서는 평가 과정이 끝날 때 평가 기술을 습득하는 것이 기대되며(도구적 과정 사용), 사람들의 태도가 다른 상황에도 적용될 수 있도록 변화할 수 있습니다(개념적 과정 사용).

다른 저자들(Cousins, 2007; Owen & Lambert, 1995; Preskill & Torres, 1999, 2000)은 과정 사용의 개념을 팀과 조직 수준으로 확장했습니다. Amo와 Cousins(2007)은 과정 사용을 조직 역량 강화 및 궁극적으로 추가 평가 사용으로 전환하는 메커니즘에 대해 언급했습니다. 그들은 "과정 사용은 평가를 수행하고 사용하는 조직의 역량을 증진하여 조직의 평가 준비도를 향상시키는 것으로 생각된다"고 썼습니다(p. 6). 평가 과정이 조직 개발에 미치는 영향은 평가 과정 중이나 평가가 끝난 후에 발생할 수 있습니다. 마찬가지로, 평가 과정에 참여하는 것의 가치를 높이 평가하는 것도 과정 중이나 평가가 끝난 후에 획득될 수 있습니다.

평가자들은 일반적으로 과정 사용을 "부수적"으로 생각할 수 있습니다. 즉, 평가가 진행되었고 사람들의 참여로 인해 어떤 형태의 과정 사용이 발생한 것입니다. 이는 Michael Patton이 과정 사용을 발견한 방법을 설명한 이전 인용문으로 잘 설명됩니다. 평가자들이 조직 학습과 조직 역량 강화에 더 많은 관심을 가지게 되면서, 이러한 목표를 달성하기 위해 평가 의제를 계획하는 것이 더 빈번해졌습니다. "계획된 과정 사용(Planned Process Use)"(King, 2007)은 평가 활동에 사람들을 참여시켜 지속 가능한 조직 프로세스를 만드는 잠재적인 수단으로 등장했습니다. 개발 타임라인에서 평가 역량 구축이라는 개념에 대한 학술적 논의는 과정 사용의 개념이 등장한 후 몇 년 후에 나타났습니다(Gilliam et al., 2003; McDonald, Rogers, & Kefford, 2003; Stevenson, Florin, Mills, & Andrade, 2002; Stockdill, Baizerman, & Compton, 2002).

이러한 목적 있는 과정 사용은 윤리적 차원을 가지고 있습니다. Patton(1998)은 이렇게 썼습니다:

"우리는 중립적인 활동이나 직업이 아닙니다. 과정 사용의 잠재적 힘—좋은 일이나 나쁜 일에 영향을 미칠 수 있는 힘—때문에 우리는 먼저 해를 끼치지 말라는 경고에 대해 걱정해야 합니다." (p. 232)

우리는 과정 사용을 촉진하려 할 때, 그 목표가 프로그램의 가치를 반영해야 한다는 것을 인식해야 합니다. 이는 평가자의 가치나 사람들이 가져야 한다고 생각하는 가치가 아니라 프로그램의 가치를 반영해야 합니다.

요약 및 결론

평가의 실천은 그 과정과 결과의 유용성에 중점을 두며, 평가 사용은 평가 역사에서 핵심적이고 근본적인 특징입니다. 이 글은 평가 사용의 기원을 두 가지 평행한 흐름에서 추적했습니다: 하나는 교육 측정과 의사 결정자에게 유용한 정보를 제공할 필요성에서 비롯되었고, 다른 하나는 사회 과학 연구와 잘 만들어진 지식이 의사 결정을 알릴 수 있는 잠재력에서 비롯되었습니다. 시간이 지남에 따라 평가 결과를 기반으로 한 세 가지 일반적으로 수용되는 사용 범주가 등장했습니다: 도구적, 개념적, 상징적 사용. 이후 평가에 참여함으로써 얻은 것을 기반으로 한 추가적인 범주인 과정 사용이 용어에 추가되었습니다. 결과 사용의 세 가지 범주는 과정 사용에도 동일하게 적용되었습니다. 평가 사용에 대한 고려를 조직 수준으로 확장하면서 평가 과정에서 평가 역량을 창출하는 방법에 대한 생각이 포함되었습니다.

이 시리즈의 두 번째 글에서는 평가 사용과 오용의 정의를 검토하고 평가 영향의 더 넓은 개념의 기원과 효과를 논의할 것입니다. 또한 평가 사용과 관련된 요인들을 실증적으로 지원하는 요인들을 탐구할 것입니다.

'Wilson Centre' 카테고리의 다른 글

[프로그램 평가] 평가적 사고의 진화에 대한 역사적 관점 (0)	2024.06.01
[프로그램 평가] 평가 사용 및 오용의 정의, 평가 영향력 및 사용에 영향을 미치는 요인 (0)	2024.05.31
[Indigenous] 원주민의 지혜와 HPE 이론 및 실천 (0)	2024.05.29
[Indigenous] 원주민과 고등 교육: 네 가지 R - 존중, 관련성, 호혜성, 책임성 (0)	2024.05.27
[Indigenous] 균형 잡기: 정신 건강 연구에서 공동 제작의 미묘한 차이 탐색하기 (0)	2024.05.27

현재글[프로그램 평가] 평가 사용의 역사적 발전

한양의대 의학교육학교실 김도환 dohwan.kim@gmail.com

전공의, 실패, 의학교육학술대회, USMLE, 질적연구, ASK2019, 타당도, 평가인증, 평가, 한양의대, 수월성, 성찰, 의사국가시험, 의사면허시험, Feedback, 강의, WFME, 전문직정체성, 형성평가, 전문직정체성형성, 의학교육, PIF, 신임교수, 프로페셔널리즘, 출석, 혁신, 시험, KMEC2022, accreditation, 정의, 연구, 교수개발, 의사국시, 팀워크, 문화, 피드백, 의학교육평가인증, 전문직업성, 의과대학, 학습, 교육과정, PBL, 의예과, USMLE Step 1, 의정사태, 지역의료, assessment, 총괄평가, 선발, 유급,

Today :
Yesterday :

의대에서 교육하고 있습니다.