[프로그램 평가] 평가 사용 및 오용의 정의, 평가 영향력 및 사용에 영향을 미치는 요인

Wilson Centre

[프로그램 평가] 평가 사용 및 오용의 정의, 평가 영향력 및 사용에 영향을 미치는 요인

Meded. 2024. 5. 31. 09:12

출처: Alkin, M. C., & King, J. A. (2017). Definitions of evaluation use and misuse, evaluation influence, and factors affecting use. American Journal of Evaluation, 38(3), 434-450.

https://journals.sagepub.com/doi/abs/10.1177/1098214017717015

서문

이 글은 평가 사용 개념의 발전을 40년 이상 연구한 두 학자의 관점에서 추적하는 세 가지 기사 중 두 번째입니다. 첫 번째 글에서는 평가 사용의 기원과 개념적 기반을 논의했습니다. 이 두 번째 글에서는 사용/오용에 대한 우리의 견해와 시간이 지남에 따라 그것에 영향을 미친 다양한 관점에 대해 논의합니다. 또한, 평가 영향력의 개념적 논쟁과 사용과 관련된 실증적 요인에 대해서도 다룹니다. 마지막 세 번째 글에서는 평가 사용 이론과 연구를 다룰 예정입니다.

평가 사용과 오용 정의

첫 번째 글(Alkin & King, 2016)에서는 "평가 사용"에 대해 논의했지만, 이 용어에 대한 공식적인 정의는 없었습니다. 평가 사용을 고려할 때, 평가 정보는 어떤 형태로든 결과를 가져와야 한다는 의미가 있는 것 같습니다. 그러나 사용이 정확히 무엇을 의미하며, 그 부정적인 상대인 오용은 무엇일까요? 이 질문들은 쉽게 답할 수 없습니다. 연구자들은 시간이 지나면서 평가의 사용과 오용이 모두 발생한다는 데 동의하는 것처럼 보이지만, 아직 합의된 정의는 없습니다.

배경

먼저 "평가"라는 용어가 사람마다 다르게 이해된다는 점을 언급해야 합니다(King & Stevahn, 2013, p. 12). 우리는 이 차이에 집중하지 않고, 평가 과정과 결과를 전제로 합니다. 또한, 평가 과정이 기술적으로 적절하고 신뢰할 만하며 그 결과가 사용할 가치가 있다고 가정합니다. 그렇다면 평가의 적절성이 의문시되는 상황은 어떨까요? 여기서 우리는 사소한 기술적 어려움이 아닌, 평가 과정과 결과의 유효성에 대한 큰 우려를 불러일으킬 정도로 평가가 부적절한 상황을 말합니다. 우리는 이러한 저품질 평가를 "오평가(misevaluation)"라고 부릅니다. 어떤 경우에는 오용처럼 보이는 것이 평가자의 무능력 때문일 수 있습니다. Cousins(2004)는 "[오평가는 평가자의 무능력, 평가자의 악행, 설계 악화로 이어지는 예기치 않은 상황 등 다양한 원인으로 발생할 수 있다](p. 393)"고 언급합니다. 우리는 다음과 같은 상황에서 오평가의 사례를 볼 수 있습니다:

평가의 기술적 측면이 적절하게 수행되지 않았을 때(예: 데이터 수집이 부실하거나 통계 분석이 잘못된 경우)
평가자가 평가 맥락을 제대로 이해하지 못해 평가를 잘못 이끌 때
평가자가 잠재 사용자에게 적절한 의사소통을 할 의무를 제대로 인식하지 못할 때(Alkin, 1990, p. 290)

이 목록에는 평가자가 잘못된 질문을 할 때도 포함될 수 있습니다(Posavac, 1994). 평가자가 부적절한 방법을 사용하여 데이터 수집 기술을 잘못 적용하거나 결과를 제대로 설명하지 못할 때도 마찬가지입니다. 의학 분야에서의 의료 과실처럼, 이러한 모든 상황은 잘못된 실무를 반영하며, 따라서 오평가가 발생한 것입니다. 잠재 사용자는 잘못된 평가 과정에 참여하거나 기술적으로 부적절한 연구의 결과를 사용해서는 안 됩니다. 오래전 Davis와 Salasin(1975)은 "평가가 방법론적으로 부실하고 그 평가에 근거하여 프로그램을 종료하거나 축소하는 결정이 정당화될 때, 이는 사용의 적절한 사용을 강조해야 한다는 분명한 교훈을 준다"고 지적했습니다(p. 622).

기술적 적절성의 가정 외에도, 우리는 평가자가 평가 실무의 윤리 강령을 준수하고, 미국 평가 협회(AEA, 2004)의 지침 원칙을 적용하며, 프로그램 평가 기준(Yarbrough, Shulha, Hopson, & Caruthers, 2010)을 충족하고, 평가에서의 문화적 역량에 관한 AEA 성명서(2011)를 준수한다고 가정합니다. 이러한 성명서들은 많은 중복된 내용을 가지고 있으며, 평가자가 평가 사용을 촉진하려고 할 때 암묵적 및 명시적 지침을 제공할 수 있습니다. 예를 들어, 평가자가 프로그램 관리자들의 요청에 따라 부정적인 결과를 조작하거나 수정할 때, 자신과 프로그램의 입지를 개선하기 위해 결과를 변경할 때, 또는 프로그램의 의도와 대상에 대한 강한 동정심으로 인해 결정을 내릴 때 이러한 부적절한 행동은 절대 용납될 수 없으며, 이는 특히 우려스러운 형태의 오평가입니다. 우리는 나중에 이 점에 대해 다시 논의할 예정이지만, 이들은 우리의 논의를 위한 중요한 기반을 제공합니다.

주요 용어의 정의

핵심 용어, 특히 오랜 세월 동안 정의 없이 존재해온 두 가지 용어에 대한 합의된 정의를 도출하는 것은 생각보다 간단하지 않습니다. Patton(1988, p. 304)은 Samuel Butler의 말을 인용하며 "정의는 일종의 긁기이며, 일반적으로 긁은 자리를 더 아프게 만든다"고 말했습니다. 추가적인 아픔을 피하기 위해, 사용(use)과 오용(misuse)은 별개의 차원이라는 점을 먼저 언급해야 하며, 따라서 두 가지를 별도의 연속체로 조사하는 것이 더 나은 이해를 제공합니다. 사용 연속체는 비사용(nonuse)에서 사용까지 확장되며, 누군가가 평가를 가지고 무엇을 하는 정도를 반영합니다. 일반적으로 우리는 평가자의 노력의 결과로 어떤 사용이 발생했는지 여부에 대한 증거만을 찾습니다. 비슷하게, 오용 연속체는 비오용(nonmisuse)에서 오용까지 확장되며, 오용은 반드시 윤리적 차원을 반영하며, 부적절하거나 비윤리적인 사용 방식을 측정합니다. 사용과 마찬가지로, 오용의 정도를 연속체로 판단하는 것은 어렵고 중요한 의미에서 필요하지 않습니다; 누군가가 평가를 오용하는지 여부는 명확합니다.

사용과 오용 모두에서 사용자의 의도를 고려하는 것이 중요합니다. 평가 사용과 오용 연속체는 능동적(active) 또는 수동적(passive)일 수 있습니다. 여기서 능동적이란 사용자의 의도적 참여를 요구하는 것을 의미하며, King과 Pechman(1982)은 이를 "충전된 사용(charged use)"이라고 부릅니다. 사용은 일반적으로 사용 연속체의 능동적 극단입니다. 오용은 일반적으로 오용 연속체의 능동적 극단입니다. 아이러니하게도, 비사용은 능동적일 수 있습니다(예: 사용자가 연구 결과를 무시하기로 선택한 경우). 비오용—어색한 용어이지만—도 능동적일 수 있습니다(예: 사용자가 평가 정보를 남용하지 않도록 주의하는 경우). 그러나 이들 모두는 수동적일 수도 있습니다(예: 사용자가 연구가 진행되었음을 인식하지 못한 경우). 다음 섹션에서는 이러한 아이디어의 발전에 대한 우리의 관점을 제시할 것입니다. 많은 초기 평가 작가들(예: Michael Scriven과 Daniel Stufflebeam)은 평가 사용과 관련된 문제에 대해 피할 수 없이 썼지만, 우리는 여기서 사용에 대해 광범위하게 쓰거나 연구를 수행한 학자들에 초점을 맞춥니다.

평가 사용

첫 번째 글에서는 평가 사용의 다양한 형태, 즉 도구적(instrumental), 개념적(conceptual), 상징적(symbolic) 사용을 설명하고, 사용의 보편성에 대한 논쟁이 평가 결과로 인한 행동의 성격과 정도와 관련이 있음을 문서화했습니다. 또한 이 불안정한 개념으로 레이블된 사용 사례가 평가 결과뿐만 아니라 평가에 참여하는 과정에서 비롯될 수 있음을 언급했습니다.

평가 사용에 대한 초기 논의 이후, 대부분의 평가 작가들은 이 용어에 대한 정확한 정의를 제공하지 않고, 대신 무엇이 사용으로 간주되는지에 대한 구성 요소에 대해 언급했습니다. 예를 들어, Braskamp(1982)는 정확한 정의를 피하고 "사용은 단일하게 정의될 수 없다; 네 가지 주요 유형의 사용이 있다. 평가의 사용은 다음 조건 중 하나가 존재할 때 발생한다"고 말합니다. 그는 "배분적, 직접적 사용"(도구적 사용), "개념적 계몽"(개념적 사용), "평가의 위협으로 인한 조직 정책 및 관행에 대한 영향"(상징적 사용), "조직 관리에 대한 기여"(조직 학습 또는 역량 구축)를 명시합니다. 그는 Pelz의 작업(1978)을 확장한 이 정의가 개인적 사용과 조직적 사용 모두를 포함한다고 언급합니다.

Weiss(1990)는 개념적 사용뿐만 아니라 도구적 사용과 관련된 사용의 잠재적 정의를 강조합니다. 그녀는 다음과 같이 언급합니다:

“…평가 결과를 프로그램 결정에 직접적이고 즉각적으로 적용하는 것이 유일한 사용은 아니다. [이러한 결과는 새로운 아이디어를 알리고, 문제를 생각하는 대안적인 방법을 보여주며, 불가피하다고 여겨지는 것과 변화 가능한 것으로 여겨지는 것을 바꾼다. 평가 결과는 사람들이 프로그램이 무엇을 하고 있었는지에 대한 이해에 영향을 미친다…실제로, 이는 사람들이 생각하는 것과 그것을 생각하는 방식을 변화시키는 데 도움을 줄 수 있다. 이러한 개념적 사용은 장기적으로 중요한 프로그램 개혁을 이끄는 중요한 기여이다(p. 22)”

이러한 프레이밍은 Patton et al.(1977)이 적용하는 기준과 유사하며, 이는 직접적인 행동, 태도 변화, 주장의 강도를 증가시키는 것을 강조합니다.

평가 사용 정의: Guttman-스케일 매핑 문장 활용

평가 사용의 정의는 단순히 권고 사항이 실행되거나 정보에 기반한 즉각적인 결정이 내려지는 것을 의미하지 않습니다. Braskamp와 Brown(1980)은 "효과적인 활용은 관련 청중이 프로그램, 그 맥락, 그리고 자금 지원, 실행, 변경 가능성에 대한 제약 조건을 더 잘 인식하게 만드는 것을 중요한 결과로 간주한다"고 언급합니다(p. viii). Leviton과 Hughes(1981)는 사용에 대한 정의의 시작으로 "최종 기준(bottom line criteria)"을 논의합니다. 그들은 Cook과 Pollard의 정의(1977)를 참조하며, 평가 결과를 프로그램 실행에 대한 함의로 번역하는 심도 있는 논의를 강조합니다. Cousins와 Leithwood는 사용이 "결정, 행동 지시 또는 사고 변경을 반드시 수반하지 않는 평가 결과의 단순한 심리적 처리"를 포함한다고 동의합니다(1986, p. 332).

Hendricks(1990)는 이 아이디어를 한 단계 더 발전시켜, "우리의 평가가 활용된다는 것은 평가 결과와 권고 사항이 행동할 위치에 있는 사람들에 의해 진지하게 고려될 때"라고 설명합니다(p. 23). Stake는 "결정 및 정책 설정이 평가 연구의 중요한 결과이지만, 이해 자체가 평가 연구에서 유용성을 나타내는 결과이다"라고 씁니다(1986, p. 141). Leviton과 Hughes는 추가 기준을 제시하며, "사용된 것으로 간주되기 위해서는 연구 정보가 없었다면 정책 또는 프로그램 활동에 참여한 사람들이 다르게 생각하거나 행동했을 것이라는 증거가 있어야 한다"고 언급합니다(1981, p. 527).

1979년, Alkin, Daillak, 그리고 White는 그 당시 유행하던 정의들을 통합하려 시도했습니다. 그들의 정의는 이론적 묘사로서 유용한 Guttman-매핑 문장 형태를 취했습니다. 40년 후, 현재 우리가 알고 있는 바를 기반으로, 우리는 이 형식을 통해 평가 사용의 정의를 제공합니다(그림 1 참조) 그리고 사용 사례를 정의하는 Guttman-매핑 문장의 다섯 가지 "매트릭스"를 검토합니다.

그림 1 설명

그림 1은 Guttman-스케일 매핑 문장을 사용하여 평가 사용을 정의한 것입니다.

획득된 평가 정보:
- 어떤 자극? 평가 결과로서 또는 평가 참여의 결과로서.
- 누가 사용했는가? 관심 있는 주요 사용자, 다른 지역 사용자, 외부 사용자.
어떤 방식으로?
- 주요 영향 또는 다수의 누적 영향 중 하나로서.
어떤 프로그램 측면과 관련이 있는가?
- 평가 대상 프로그램, 그 구성 요소, 조직과 관련된 개인의 역할, 조직과 관련된 개인의 견해 및 이해.
어떤 목적으로?
- 결정 내리기, 태도 설정 또는 변경, 이전 결정 또는 행동을 뒷받침, 개인 또는 조직의 평가 역량 구축.
평가 사용 정의:
- 평가 사용의 정의를 구성하는 요소들을 명확히 하기 위한 이론적 구조로 활용됩니다.

이러한 매트릭스는 평가 사용을 정의하고 평가 결과가 어떻게 사용되는지 이해하는 데 중요한 틀을 제공합니다.

이 요약을 통해 평가 사용의 정의와 개념에 대한 깊은 이해를 얻으셨기를 바랍니다. 추가 질문이나 더 필요한 정보가 있으시면 알려주세요.

자극 (Stimulus)

첫 번째 매트릭스는 잠재적 사용을 이끄는 자극을 고려합니다. 사용의 잠재력은 평가 결과나 평가 과정에서 비롯될 수 있습니다. 결과(또는 결과물)는 일부 유형의 보고서(예: 중간, 최종; 구두, 서면, 실행된 형태)에서 제공되는 요약 평가 정보입니다. 대안으로, 자극은 평가에 참여한 결과로 파생된 정보나 이해를 포함할 수 있습니다.

사용자 (User)

두 번째 매트릭스는 "고려한 사람"이라는 표현을 사용합니다. 이는 잠재적 사용자가 평가 정보나 과정을 진지하게 고려하는 것과 관련이 있습니다. 결과를 고려하는 것은 이해하기 쉽지만, 과정을 고려할 때의 함의를 생각하는 것은 더 어렵습니다. 이러한 것들은 개인의 반성, 대화, 행동에서 인식될 수 있습니다.

두 번째 매트릭스의 내용은 자극에 반응하는 사람들을 나타냅니다. 다양한 잠재적 이해관계자가 결과나 과정 정보를 검토할 수 있습니다. 주요 관심사는 평가 정보에 기반하여 결정을 내릴 위치에 있는 프로그램과 밀접하게 관련된 주요 사용자들입니다. 주요 사용자 외에도 다른 지역 프로그램 사용자들이 결정, 행동, 또는 이해에 영향을 미칠 수 있습니다. 예를 들어, 프로그램 운영에 대한 책임을 맡고 있는 다른 직원들을 생각해 볼 수 있습니다. 우리는 이들을 "다른 지역 사용자"라고 부릅니다. 이들 외에도 평가 정보나 과정의 추가적인 잠재 사용자들이 있습니다. 여기에는 프로그램을 포괄하는 더 큰 조직, 프로그램을 지원하거나 자금을 지원한 기관의 직원, 프로그램에 관심을 갖는 커뮤니티 전체 또는 일부가 포함됩니다. 마지막으로 프로그램의 클라이언트들도 있습니다. 이 모든 개인들은 평가 자극에 반응할 위치에 있습니다. Greene(1988)은 이해관계자 참여의 중요성을 강조하며, "매우 참여하는 사람," "어느 정도 또는 가끔 참여하는 사람," "약간 참여하는 사람"을 구분합니다. 이들이 잠재적 사용에 영향을 미칠 정도와 방식이 이 정의의 일부로 포함되는 정도를 결정합니다.

영향 유형 (Type of Influence)

세 번째 매트릭스는 평가가 프로그램에 영향을 미칠 수 있는 세 가지 방법을 제안합니다: 주요 영향으로서, 주어진 시점의 여러 영향 중 하나로서, 시간이 지남에 따라 여러 누적된 영향 중 하나로서. 어떤 유형의 평가 정보든, 결과든 과정이든, 잠재적 행동이나 이해에 대한 주요 영향일 수 있습니다. 가장 명확한 예는 최종 보고서에 권고 사항이 포함되어 있고, 잠재 사용자가 그 권고 사항을 구체적으로 고려하는 명시적 도구적 사용입니다.

그러나 평가 정보가 프로그램 결정이나 다른 사용에 유일한 입력으로서의 역할을 하는 이상적인 관점은 대부분의 경우 실용적이지 않습니다. "일반 지식"(Lindblom & Cohen, 1979)과 "작업 지식"(Kennedy, 1983)의 역할에 대한 이전 논의는 결정에 대한 잠재적 입력의 다양성을 증명합니다. 요약하면, 행동에 대한 유일한 입력은 실제로 존재하지 않습니다. 사람들은 평가 외의 모든 자극이 없는 세상에 살고 있지 않습니다. 평가 정보는 주어진 시점의 여러 영향 중 하나일 수 있습니다. 예를 들어, 주 전체 테스트 데이터에서 제공된 결과가 평가 보고서에 제시된 것과 일치할 수 있으며, 의사 결정자들이 프로그램 비용이나 지역 자원과 같은 비평가적 입력과 함께 평가 정보를 사용할 수 있습니다. 마지막으로, 평가가 여러 누적된 영향 중 하나일 수 있습니다. 예를 들어, 평가는 이전 보고서의 결과를 뒷받침할 수 있으며, 이는 이해관계자들이 행동하도록 충분할 수 있습니다.

프로그램 측면 고려 (Program Aspect Considered)

네 번째 매트릭스에서는 잠재적 사용자가 고려할 수 있는 정보가 프로그램 전체, 프로그램의 구성 요소, 또는 프로그램 내에서 일하는 개인과 관련이 있을 수 있음을 보여줍니다.

프로그램 전체: 프로그램이 제대로 작동하는지 여부를 묻는 질문과 관련됩니다.
프로그램의 구성 요소: 특정 활동이 의도대로 작동하지 않거나 적절한 단기 결과를 달성하지 못하는지 여부를 묻는 질문과 관련됩니다.
개인들의 역할: 프로그램 활동을 적응시키는 직원처럼 프로그램과 직접 관련된 사람들.
책임이 있는 개인들: 프로그램에 영향을 미칠 수 있는 위치에 있는 영향력 있는 커뮤니티 구성원처럼 간접적으로 관련된 사람들.

목적 (Purpose)

다섯 번째 매트릭스에서는 평가 정보와 그 잠재적 사용이 여러 다른 행동과 관련될 수 있음을 보여줍니다. 사람들은 평가 정보를 다음과 같은 방식으로 사용할 수 있습니다:

결정 내리기: 평가 정보가 의사 결정에 사용되는 경우.
태도 설정 또는 변경: 프로그램에 대한 의견 기후를 변경하기 위해 평가 정보를 사용하는 경우.
이전 결정 또는 행동 뒷받침: 평가 정보를 사용하여 이전 결정을 재확인하는 경우.
평가 역량 구축: 개인 또는 조직의 평가 과정과 결과를 실행하고 사용하는 역량을 개발하기 위해 평가 정보를 사용하는 경우.

의사 결정은 일반적인 목적이지만, 때로는 실제로 결정할 필요가 없는 경우도 있습니다. 중요한 결정(예: 프로그램 설립)은 이미 내려졌을 수 있으며, 프로그램 결정을 내릴 긴급한 필요가 없을 수 있습니다. 그러나 사람들은 평가 정보를 사용하여 태도를 바꾸거나 프로그램을 둘러싼 의견 기후를 변경할 수 있습니다. 네 번째 목적은 개별 사람이나 조직 전체에 적용될 수 있으며, 평가 과정과 결과를 실행하고 사용하는 역량의 명시적 개발과 관련됩니다.

모든 경우에 잠재적 사용자의 동기와 의도를 파악하는 것이 도움이 됩니다. 예를 들어, 평가 보고서가 상징적인 행위로만 의뢰되었다면, 이는 행동 지향적 목적이 아니므로 평가 사용의 사례로 간주되지 않습니다. 반면, 누군가가 열린 마음을 가진 사람들에게 보고서를 제공하여 이전 결정을 재확인하려는 경우, 잠재적인 수정이 발생할 가능성이 있는 한 이는 사용으로 간주됩니다.

평가 사용의 정의 (Evaluation Use Definition)

이 포괄적인 Guttman-스케일 정의의 다섯 매트릭스를 종합하면, 평가 사용의 사례를 명확히 정의할 수 있습니다. 다음은 두 가지 예입니다:

프로그램 수정 결정: 관리자가 평가 데이터를 기반으로 프로그램의 한 측면을 수정해야 하는 경우 ("관심 있는 주요 사용자가 특정 프로그램 구성 요소와 관련된 주요 영향으로서 평가 결과로 획득된 정보를 결정 내리기에 고려하는 경우").
평가 역량 구축: 내부 평가자가 커뮤니티 구성원들을 평가에 참여시켜 평가 역량을 구축하는 경우 ("외부 사용자가 평가에 참여한 결과로 획득된 정보를 조직의 평가 역량을 구축하는 프로그램과 관련된 여러 영향 중 하나로 고려하는 경우").

이 기능적 정의는 각 사용 사례의 고유성을 강조하며, 맥락에 따른 구체적인 특성을 강조합니다. 이는 평가자에게 매우 유용하여 평가 사용이 어떻게 보이는지 명확히 설명합니다. 신중한 평가자는 이 정의의 다섯 가지 구성 요소를 활용하여 평가를 수행할 때 이를 참고할 수 있습니다. 실제로 Patton의 활용 중심 평가(Patton, 2008)는 처음 출판된 1978년 이후, 각 구성 요소에 체계적으로 주목하여, 주요 의도된 사용자를 식별하고, 그들의 주요 의도된 사용을 상세히 설명하며, 평가 과정에서 그들과 상호 작용하여 신뢰할 수 있는 정보를 생성하고 의미 있는 사용을 가능하게 합니다.

오용 (Misuse)

1960년대부터 평가가 증가하고 평가 사용에 대한 관심이 높아지면서, 오용 사례에 대한 관심도 함께 증가했습니다. 이와 관련하여 Donald Campbell은 강력한 경고를 내렸습니다. “어떤 양적 사회 지표가 사회적 의사결정에 사용될수록, 그것은 부패 압력에 더 취약해지고, 그것이 감시하려는 사회적 과정을 왜곡하고 부패시키기 쉽다” (Campbell, 1988, p. 306). 최근 Patton(2015)은 “사용이 증가함에 따라, 오용도 증가할 것이다”라고 확인했습니다(p. 142).

따라서, 오용의 개념은 최근의 현상이 아니며, Borgatta(1966), Suchman(1967), Weiss(1972) 등에 의해 초기부터 언급되었습니다. 1973년 Mushkin은 “평가자들이 그들의 진술을 오해로부터 충분히 보호하지 않았다”고 경고했습니다(p. 34). 1977년 Cook과 Pollard는 네 가지 연구에서 "오용(misutilization)"의 측면을 식별했습니다. King과 Pechman(1982)은 학교 구역에서 연구를 수행하여 오용의 사례를 포함하는 복잡한 차트를 만들었습니다. 이후, Alkin과 Coyle(1988)은 사람들이 평가 결과를 오용할 수 있는 일곱 가지 방법을 묘사하는 매트릭스를 개발했고, Christie와 Alkin(1999)은 이를 확장했습니다. Stevens와 Dial(1994a)은 오용 주제를 다룬 New Directions for Evaluation 볼륨을 편집했습니다.

그렇다면, 오용이란 무엇일까요? 오용은 대부분의 평가 윤리 문헌이 평가자의 관행과 원칙에 초점을 맞추는 것과 달리 평가 윤리를 다른 시각에서 검토합니다(예: Newman & Brown, 1996; Morris, 2008). 여기서 우리는 주로 평가를 사용할 잠재력이 있는 클라이언트의 윤리를 고려합니다. 위에서 언급한 것처럼, 오용은 비오용에서 오용까지 확장되는 별개의 연속체를 구성합니다. 이는 비윤리적이며 따라서 부적절한 사용을 의미하며, 일반적으로 평가 결과나 평가 과정을 개인적 이유로 조작하는 사용자를 중심으로 합니다. 오용의 한 정의는 평가의 일부 측면(예: 평가 결과)을 의도적으로(심지어 악의적으로) 조작하여 무언가를 얻는 것(예: 지위 또는 지원)입니다. Stevens와 Dial(1994a)은 “평가 오용이란 평가가 잘못된 목적으로 사용되었거나 평가 결과가 잘못 적용되었거나 부적절하게 사용된 것을 의미한다”고 동의합니다(p. 3). 또한, 오용은 사용하지 않음으로 인해 발생할 수도 있습니다. 그러나 단순한 비사용은 실제로 오용이 아니며, 이는 의도하지 않은 수동적 활동이기 때문입니다. 오용은 이해관계자가 평가 결과를 의도적으로 무시할 때, 예를 들어, 평가 결과의 타당성이나 다른 설득력 있는 데이터 소스의 가용성에 기반하지 않고 윤리적 우려로 인해 비사용이 적극적으로 발생할 때만 존재합니다.

Guttman-스케일의 평가 사용 정의는 한 가지 변경을 제외하고 평가 오용 정의에도 적용됩니다. 사용과 마찬가지로, 자극, 사용자, 영향 유형, 프로그램 측면의 범주는 맥락을 한정합니다. 오용 사례에서 다른 점은 사용자의 목적입니다. 오용의 경우, 이는 항상 비윤리적이며, 즉, 자기 이익과 개인적 이득을 위한 것입니다. 다음은 두 가지 오용 사례입니다:

관리자가 비효율적인 프로그램에 자금을 계속 지원받기 위해 연구 결과를 선택적으로 사용하는 경우 (비효율적인 프로그램을 홍보하기 위해 평가된 프로그램과 관련된 주요 영향으로서 관심 있는 주요 사용자가 평가 결과를 고려하는 경우).
직원들이 자신이 싫어하는 프로그램 활동에 대한 부정적인 데이터를 강조하기 위해 평가 과정에 참여하는 경우 (프로그램 구성 요소와 관련된 여러 영향 중 하나로서 지역 사용자가 평가 과정을 조작하는 경우).

수년 동안 학자들은 오용이 평가 참여의 다양한 단계에서 발생할 수 있음을 문서화했습니다. 여기에는 (1) 평가를 의뢰할 때, (2) 평가 과정 자체에서, 또는 (3) 평가 결과를 다룰 때 포함됩니다(Christie & Alkin, 1999). 오용은 또한 누군가가 부실하게 수행된 평가 연구의 결과를 사용하기로 선택할 때(즉, 오평가) 발생할 수 있습니다. 이러한 각 경우를 검토해 보겠습니다. 표 1은 이러한 가능성을 요약합니다.

표 1: 평가 오용의 가능성

평가 의뢰 시: 평가 의뢰자가 특정 결과를 얻기 위해 평가를 조작하는 경우.
평가 과정에서: 평가 과정 중에 데이터 수집이나 분석을 의도적으로 왜곡하는 경우.
평가 결과 처리 시: 평가 결과를 의도적으로 왜곡하거나 잘못 해석하여 부적절한 결정을 내리는 경우.

이러한 요약을 통해 평가 오용의 다양한 형태와 발생 가능성을 이해하는 데 도움이 되었기를 바랍니다. 추가적인 질문이나 더 필요한 정보가 있으시면 언제든지 알려주세요.

표 1: 평가 오용의 유형

평가 의뢰 시 (Commissioning)

정치적 목적: 사용자가 평가를 정치적 쇼나 지연 행동으로 의뢰하는 경우, 이는 평가의 상징적 사용에 해당합니다.
정당화 목적: 사용자가 이미 내려진 결정을 정당화하기 위해 평가를 의뢰하고, 그 결과에 대해 변경 가능성을 열어두지 않는 경우, 이는 정당화 사용이지만 오용의 한 형태로 간주될 수 있습니다.

평가 과정 (Process)

과정 방해: 사용자가 평가 과정을 방해하는 경우, 예를 들어 평가에 대한 자금을 삭감하거나, 데이터 소스 또는 기존 데이터에 대한 접근을 제한하는 경우, 이는 평가 과정을 왜곡하는 행위입니다.

평가 결과 (Findings)

데이터 수정 및 선택: 사용자가 데이터를 수정하거나 보고서 내용을 의도적으로 선택하여 사용하는 경우, 이는 평가 결과의 왜곡을 의미합니다.
정보 왜곡: 사용자가 평가 정보를 적극적으로 왜곡하는 경우, 예를 들어 정보를 변경하거나 불완전한 결과를 배포하는 경우, 이는 평가 오용의 명확한 사례입니다.
결과 무시: 사용자가 개인적 이익을 위해 평가 결과를 의도적으로 무시하는 경우, 이는 평가 결과의 오용입니다.
부정확한 정보 사용: 사용자가 부정확하거나 무효한 것으로 알려진 평가 정보를 적극적으로 사용하는 경우, 이는 평가 오용에 해당합니다.

평가 의뢰 오용 (Commissioning Misuse)

평가가 프로그램 결정을 돕기 위한 목적 이외의 목적으로 시작되거나 의뢰될 때, 이는 평가 의뢰 오용의 사례입니다. 이러한 행동에는 평가 결과나 과정을 실제로 사용할 의도가 없다는 사용자의 의도가 암시됩니다. 평가를 의뢰할 때, 사용자는 프로그램에 대한 결정을 이미 내렸거나 평가 결과를 사용할 진정한 의지나 의도가 없을 수 있습니다.

표 1에서 보듯이, 두 가지 일반적인 사용 유형이 잠재적인 오용을 초래할 수 있습니다. 사실, 우리는 상징적 "사용"이 궁극적으로 사용의 한 유형이 아니며, 오용이라고 믿습니다. 여러 저자들은 정치적 이익이나 홍보를 위해, 또는 단순히 자금을 얻기 위해 평가를 의뢰하는 상징적 이유에 대해 언급했습니다(Weiss, 1973; Duffy, 1994; Stevens & Dial, 1994b). 평가 의뢰자는 평가나 그 사용에 실제로 주의를 기울일 의도가 없는 경우, 단지 정치적 목적으로 평가를 후원할 수 있습니다. 또 다른 정치적 목적은 자신의 전문적 명성을 높이기 위해 대중의 눈에 띄고자 하는 것입니다(Alkin et al., 1979). 이러한 평가의 결과는 무의미하게 됩니다. 이는 본질적으로 상징적 사용이라고 불렸던 유형으로, 윤리적 의무의 결여와 조직 자원의 잠재적 낭비로 인해 실제로 오용의 한 형태입니다.

또 다른 상징적 사용 형태는 이해관계자와 다른 잠재적 사용자들이 결과를 사용할 의도 없이 행동을 지연시키거나 책임을 회피하기 위해 평가를 의뢰하는 경우입니다(Suchman, 1967; Weiss, 1973). 이 경우, 잠재적 사용자는 결정을 내려야 하는 상황에 직면했지만 이를 다루지 않기로 선택할 수 있습니다. 그들은 평가를 의뢰하는 것을 진행을 피하기 위한 대기 행동으로 볼 수 있습니다. 평가 결과는 중요하지 않으며, 평가 의례의 수행이 중요합니다. 이것도 오용에 해당합니다.

Owen(2002)이 "정당화 사용(legitimative use)"이라고 부르는 또 다른 일반적인 시나리오는 사람들이 이미 내린 결정을 정당화하기 위해 평가를 의뢰할 때 발생합니다. 자주, 그러나 항상 그런 것은 아니지만, 정당화 사용은 오용입니다. 평가 결과가 이전 결정을 재고할 가능성이 거의 없거나 전혀 없는 경우, 그것도 오용에 해당합니다. 그러나 정당화 사용이 결정을 확인하거나, 그 결과로 결정을 수정할 가능성이 있는 경우, 정당화 사용은 오용이 아닙니다.

평가 과정 오용 (Evaluation Process Misuse)

표 1은 또한 평가 과정 중에 오용이 발생할 수 있음을 보여줍니다. 관리자들은 평가 과정에서 중요한 결정을 지연시키기 위해 행동할 수 있습니다(Christie & Alkin, 1999). King(1988)은 과정 오용과 관련하여 의사 결정자들이 평가 과정의 다양한 요소를 지원하지 않음으로써 정치적 영향력을 사용하여 평가를 방해하거나 훼손할 수 있다고 언급했습니다. 이는 관리자들이 불만족스러운 결과를 예상하거나 두려워할 때 종종 발생합니다. 사람들은 불만족스러운 결과가 프로그램의 생명, 기관의 평판, 또는 관리자의 정치적 지위를 위태롭게 할 수 있다고 생각할 수 있습니다. 평가 과정 중 일부를 방해하면 평가가 덜 의미 있게 되고, 그 신뢰성이 공격을 받을 수 있습니다. 과정 오용은 또한 평가 수행과 관련된 재정적 측면과 관련하여 발생할 수 있습니다. 예를 들어, 의사 결정자들은 평가를 지원하기 위해 의도된 자금을 다른 노력을 지원하기 위해 전용할 수 있습니다(Christie & Alkin, 1999). 이러한 자금은 프로그램 지원을 늘리는 데 사용되거나, 우리가 때때로 보아온 바와 같이 다른 프로그램에 직접 배정될 수 있습니다.

평가 결과 오용 (Findings Misuse)

평가 결과의 오용은 아마도 가장 일반적인 오용 유형일 것입니다. 평가 결과의 적절한 사용 사례는 결과나 권고 사항(있는 경우)을 완전히 따를 필요가 없다는 점을 다시 한 번 강조합니다. 중요한 점은 잠재적 사용자가 의사 결정 과정의 일부로 평가 결과를 고려하는 것입니다. 결과의 오용은 종종 평가가 사용자가 바람직하지 않거나 불편하게 여기는 결과를 도출할 때 발생합니다. 이러한 형태의 오용은 평가 증거가 누군가의 사전 결정된 의제에 맞지 않을 때 발생합니다. 표 1은 이러한 결과 오용이 발생할 수 있는 네 가지 일반적인 방법을 포함합니다.

첫 번째로, 사용자는 자신의 의제에 가장 잘 맞는 결과를 수정하거나 선택할 수 있습니다. 이 경우, 사용자는 평가 결과를 맥락에서 벗어나거나 오해하여 자신에게 유리하게 해석합니다. 예를 들어, 프로그램 디렉터는 평가 결과의 일부를 발췌하여 주석과 단서를 생략하고 더 긍정적인 결과를 제시할 수 있습니다. Chelimsky(2011)는 이를 "단일 서사(single narrative)"라고 부릅니다.

두 번째로, 결과를 완전히 잘못 전달하는 더 노골적인 접근 방식이 있습니다. 잠재적 사용자는 결과를 과장하거나 부정확하게 전달할 수 있습니다(Weiss & Bucuvalas, 1980). 이 경우, 그들은 실제 결과와 다른 결과를 제시할 수 있습니다(Cook & Pollard, 1977). 대안으로, 잠재적 사용자는 평가 결론을 재형성하고 다시 작성할 수 있습니다(House, 1980). 또 다른 오용 형태는 사람들이 최종 평가 보고서가 완료되기 전에 불완전하고 오해의 소지가 있는 결과를 배포할 때 발생합니다(Cook & Pollard, 1977). 평가자의 경고에도 불구하고, 결과의 조기 발표는 잘못된 의사 결정을 초래할 수 있습니다.

사용자가 평가 결과를 의도적으로 무시하는 경우도 있습니다. 이러한 비사용은 (또는 아닐 수도 있지만) 오용일 수 있습니다. 만약 이러한 사례에 윤리적 차원이 없다면, 이는 단순한 비사용 사례입니다. 그러나 사용자가 개인적 이익을 위해 평가 결과를 의도적으로 무시할 때 윤리적 문제가 발생합니다. 이것도 오용입니다.

또 다른 오용 사례(또는 아마도 잘못된 사용)는 평가가 항상 정치적 맥락에서 발생한다는 이해를 바탕으로 합니다(Palumbo, 1994; Patton, 2008; Weiss, 1973). 사용자의 행동이 오용처럼 보일 수 있지만, 맥락을 이해하면 그 개념을 버릴 수 있습니다. 오용은 완전히 이해할 만하고 무고한 이유로 발생할 수 있습니다. 예를 들어, 오평가가 발생한 경우, 부정확한 결과를 사용하지 않는 것이 적절한 선택일 수 있습니다(King, 1988). 부적절한 평가를 사용할 의도는 사용자의 기술적 지식과 능력, 즉 오평가가 발생했음을 분별할 수 있는 능력에 달려 있습니다. 누군가가 기술적으로 능숙하지 않거나 품질 평가의 속성을 인식하지 못하는 경우, 우리는 그들의 잘못된 연구 사용을 오용으로 공정하게 분류할 수 없습니다. 오히려 이는 잘못된 사용입니다.

반대로, 사용자가 정보에 밝고 평가의 낮은 품질을 분별할 방법론적 능력을 가지고 있지만 여전히 그것을 사용하는 경우, 이는 오용 사례로 분류되어야 합니다. 이러한 경우, 사용자는 개인적 이익을 위해 부적절한 결과를 사용하는 것을 알고도 선택합니다. 예를 들어, 관리자가 설문조사가 나쁜 항목들로 가득 차 있고 응답률이 매우 낮다는 것을 알면서도 그 결과를 결정을 정당화하기 위해 사용하는 것은 오용입니다. 따라서 오평가의 경우 오용의 주요 결정 요인은 사용자의 기술적 정교함과 관련이 있습니다.

이 기사의 시작 부분에서 언급한 것처럼, 평가 작가들은 공통된 정의 없이 평가 사용의 유형을 기술해 왔습니다. 이 도전에 대한 우리의 해결책은 Guttman-형 스케일을 사용하여 기능적 정의에 포함할 구성 요소를 명확히 정의하는 것입니다. 앞서 설명한 바와 같이, 평가 사용의 철저한 정의에는 다섯 가지 구성 요소가 포함됩니다: (1) 초기 자극(즉, 평가 결과 또는 과정), (2) 사용자, (3) 자극이 미치는 영향의 종류, (4) 고려된 프로그램 측면, (5) 사용의 목적. 사용의 원치 않는 동반자인 오용의 정의와 논의는 주어진 정치적 맥락에서 사용자를 비윤리적으로 행동하게 하는 동기를 강조하여 두 가지를 구별합니다. 다음 섹션에서는 평가 사용에 대한 사고에 최근 추가된 내용으로서 평가 영향의 개념을 넓히는 가치에 대해 논의할 것입니다.

넓어진 평가 영향에 대한 생각: 평가 영향력 (Evaluation Influence)

초기에는 학자들(예: Leviton & Hughes, 1981; Weiss, 1972)이 프로그램 평가가 개별 프로그램을 넘어서는 영향을 가질 수 있는 잠재력을 인식했습니다. 그러나 평가 사용에 관한 대부분의 글과 연구는 특정 프로그램 평가와 설정에 집중했습니다. 즉, 평가 결과나 과정의 직접적인 사용 또는 오용에 초점을 맞추었습니다. 2000년대 초반에 평가 사용의 확장된 개념은 이 분야의 영향을 이해하려는 시도를 재구성했습니다(King & Stevahn, 2013). 거의 20년 전, Kirkhart는 평가 사용과 오용의 오랜 개념을 확장하고 개선한 평가 영향력이라는 용어를 도입하면서 평가의 효과와 결과에 대해 더 넓게 생각할 필요성을 강조했습니다. 그녀는 평가 사용이라는 용어가 너무 제한적이라고 주장하며, 평가가 많은 방법, 많은 장소, 많은 시간에 걸쳐 영향을 미친다고 믿었습니다. 평가 영향력은 "사람이나 사물이 무형적이거나 간접적인 방법으로 다른 사람에게 영향을 미치는 능력 또는 힘"입니다(Kirkhart, 2000, p. 7). Kirkhart는 평가가 사회 전체에 어떻게 영향을 미치고 변화시키는지를 조사하려면 사용에 대한 좁은 초점에서 벗어나 이 보다 넓은 기반의 개념을 선호해야 한다고 주장했습니다. 그녀는 특정 예시에 대해 용어 사용을 유지하고, 평가의 영향을 더 잘 이해하기 위해 영향력이라는 용어를 추가할 것을 제안했습니다(Kirkhart, 2000, p. 5). Herbert(2014)는 Kirkhart의 제안을 요약하며, "평가 영향력은 기존의 통찰과 접근을 포괄하며, 평가가 가질 수 있는 의도된 및 의도되지 않은 영향을 고려할 수 있는 포괄적인 틀을 제공한다"고 말했습니다(p. 393).

처음 구상했을 때, 평가 영향력은 평가 연구가 개인, 프로그램, 커뮤니티, 시스템에 미칠 수 있는 간접적이고 무형적인 영향을 강조했습니다. 이는 평가 결과나 과정의 직접적인 사용에 대한 초점에서 벗어나 가능성을 확장하려는 의도였습니다. Kirkhart(2000)은 세 가지 주요 변수를 포함한 "평가 영향력의 통합 이론"을 개요로 설명했습니다: 출처(과정/결과), 의도(의도된/의도되지 않은), 시간(즉각적인/주기 종료/장기적인). 평가 영향력을 통합하는 개념으로 적용하면, 연구는 시간이 지남에 따라 평가의 결과에 대한 더 철저하고 통합된 이해로 이어질 수 있습니다. Kirkhart는 "이 통합된 영향력 이론은 평가 실무가 이전에 인식한 것보다 더 광범위한 영향을 미쳤음을 인식하는 데 도움을 준다"고 요약했습니다(p. 20). Alkin과 Taut(2003)는 Kirkhart의 "이론"을 수정하여 인식을 변수로 추가하고, 평가 과정과 결과 모두의 즉각적 및 주기 종료 사용을 평가자가 다룰 것을 제안했습니다. 그들은 평가자의 관심에서 통제할 수 없고 인식할 수 없는 의도되지 않은 결과와 관련된 영향력을 제거했습니다.

Henry와 Mark(2003) 및 Mark와 Henry(2004)는 두 개의 자주 인용되는 논문에서 "이 분야를 사용을 넘어 평가 영향력에 초점을 맞추도록" 옮기는 방법을 설명하며, Kirkhart의 개념이 평가가 여러 시스템에 들어갈 때 발생하는 일에 대한 연구를 어떻게 발전시킬 수 있는지 상세히 설명했습니다. Henry와 Mark에게 평가란 의미를 파악하는 것이며, 이는 사회적 개선으로 가는 경로에서 다른 경로를 취할 수 있습니다. 그들은 "사용에 대한 이전 작업에서 중요한 단점이 여전히 존재한다"(Mark & Henry, 2004, p. 35)고 지적하며, 평가 사용에 대한 이해는 "과도하게 발전된" 동시에 "미개발된" 것이라고 주장했습니다. 이러한 이해는 중복된 사용 형태, 모호한 개념, 지표 부족 등으로 인해 과도하게 발전되었으며, "현재 사용 모델은 평가가 영향을 미칠 수 있는 다양한 기본 메커니즘에 대해 일반적으로 침묵한다"(Mark & Henry, 2004, p. 37)고 설명했습니다. 그들의 생각에서, "영향력은 메커니즘 세트 및 중간 결과와 결합되어 평가의 결과와 사회적 개선과의 관계에 대한 증거 기반을 생각하고, 소통하고, 추가하는 더 나은 방법을 제공한다"(Henry & Mark, 2003, p. 293)고 강조했습니다.

리얼리스트 평가 접근을 적용하여, 그들은 평가 영향력을 매개할 수 있는 "대체 메커니즘" 모델(일반, 인지 및 정서적, 동기 부여, 행동)을 제안했으며, 이는 개인, 대인관계, 집단 수준에서 적용될 수 있습니다. 그런 다음, 평가 논리 모델(Cousins, 2003)을 확장하여, 평가 입력, 활동, 출력, 일반 메커니즘, 중간 및 장기 결과를 포함하는 "평가 영향력의 개요 이론"을 제안했으며, 이는 환경적 상황을 기반으로 사회적 개선으로 이어지는 모델입니다.

Nunneley, King, Johnson, 및 Pejsa(2015)는 Henry와 Mark 논쟁에 내재된 세 가지 문제점을 상세히 설명했습니다. 첫째, 영향력에 대한 정의가 불명확하고 모호합니다. 둘째, 개요 이론은 강력한 이론의 속성(예: 예측 및 설명의 유용성)을 결여하고 있습니다. 셋째, 아이러니하게도 영향력에 대한 논의는 평가 사용을 널리 정의해야 영향력이 발생한다는 논리적 전제를 포함하고 있습니다. 영향력의 경우, 누군가는 평가의 일부 과정이나 산물에 어떤 방식으로든 반응해야 합니다(그림 1 참조). 즉, 그들은 평가를 사용해야 하며, 이는 영향력의 필수적인 부분이지, 그것과 구별되는 것이 아닙니다.

그렇다면 평가 영향력을 포함하는 넓어진 평가 영향 개념의 잠재적 가치는 무엇일까요? 영향력은 평가 사용 개념에 도움이 되는 추가 사항인가요? 우리의 대답은 그렇다는 것입니다. 이는 평가의 광범위한 영향을 생각하는 데 자극을 주었고, 특히 더 넓은 시스템 사고 측면에서 중요한 진전을 이끌어냈기 때문입니다. 그러나 우리는 평가 사용에서 영향력으로의 완전한 용어 전환이 필요하다고 믿지 않습니다. 이 시리즈의 세 번째 기사에서 더 논의할 것입니다.

평가 사용과 관련된 요인 (Factors Associated With Evaluation Use)

Weiss(1972)는 평가 사용에 관한 연구를 제안하면서 평가와 관련된 요인에 대한 연구 의제를 설정했습니다. Weiss가 제안한 많은 연구 영역이 이후 연구의 주요 발견으로 입증되었습니다. 1970년대와 1980년대 연구자들은 평가 사용을 고려하도록 자극받았고, 미국 전역의 평가 학자 팀들은 사용과 관련된 요인들에 대한 중요한 초기 연구를 수행했습니다: Alkin et al. (1979), Braskamp, Brown, and Newman (1978; Brown, Braskamp, & Newman, 1978), King, Pechman, and Thompson (King & Pechman, 1984; King & Thompson, 1983), Patton과 동료들(1977). 다양한 관점에서 연구가 축적되기 시작하면서, 평가 학자들은 이러한 연구를 통합하고 실질적인 가치를 제공하기 위해 사용에 영향을 미치는 요인 목록을 작성하려고 했습니다.

Leviton과 Hughes(1981)의 논문은 평가 사용과 관련된 요인들에 대한 문헌을 종합하려는 초기 시도 중 하나입니다. 이 작업은 연구와 개념 문헌에서 도출된 저자들의 중요한 요인들에 대한 인식을 기반으로 했습니다. 주요 카테고리는 다음과 같습니다: 사용자 요구에 대한 평가의 관련성, 평가 수행자와 사용자 간의 의사소통, 결과를 실행 가능한 함의로 번역하는 정도, 평가의 신뢰성, 사용자 의지.

Alkin(1985)은 평가 사용 요인에 초점을 맞춘 또 다른 초기 연구 모음집입니다. 이 분석은 주로 Alkin et al.(1979)의 주요 정성 연구 결과에서 도출되었습니다. 주요 카테고리에는 인간 요인: 사용자, 인간 요인: 평가자, 평가 활동, 조직적/사회적/정치적 요인이 포함되었습니다. 특히 중요한 요소는 평가자와 주요 이해관계자의 사용에 대한 의지였습니다. 후자의 경우, 이해관계자를 사용자로 교육하는 것이 중요한 요인으로 확인되었습니다.

이후 몇 년 동안, 평가 사용 요인에 대한 세 가지 주요 편집본이 문헌에 등장했으며, 각각은 개념적 내용에서 제외하고 검증 가능한 연구만을 포함했습니다:

Cousins와 Leithwood(1986): 이 철저한 분석은 평가 사용의 65개 실증 연구를 검토하여 12개의 요인을 사용하여 리뷰를 구성했습니다. 6개는 평가 실행 요인(평가 품질, 신뢰성, 관련성, 의사소통 품질, 결과, 시의성)으로, 나머지 6개는 의사결정 또는 정책 설정 요인(정보 필요성, 결정 특성, 정치적 기후, 경쟁 정보, 개인 특성, 사용자 의지 및/또는 평가 수용성)으로 그룹화했습니다. Cousins와 Leithwood는 각 요인의 결과를 논의하며, 요인이 연구된 비율(40% 이하)과 결과의 확실성을 제공했습니다. 그런 다음 요인의 상대적 영향을 계산하여 "사용 유형에 따라 달라졌다"고 언급했습니다(Cousins & Leithwood, 1986, p. 359).
Shulha와 Cousins(1997): 이 연구는 Cousins와 Leithwood 리뷰 이후 수행된 연구를 검토했습니다. 네 가지 변화와 발전을 강조했습니다: (1) 사용을 고려할 때 맥락의 중요 변수로서의 등장, (2) 잠재적으로 영향을 미치는 과정 사용의 식별, (3) 개인에서 조직 수준으로의 사용 개념 확장, (4) 촉진자와 교사로서 평가자의 역할 부각.
Johnson, Greenseid, Toal, King, Lawrenz, 그리고 Volkov(2009): Cousins와 Leithwood의 동일한 프레임을 사용하여(즉, 평가 실행 및 의사결정/정책 설정 요인에 그룹화된 12개 요인), Shulha와 Cousins 리뷰 이후 수행된 평가 사용 요인에 대한 연구를 분석했습니다. 이전 리뷰 이후 주요 변화는 이해관계자 참여의 증가된 강조였습니다.
- 이해관계자 참여는 평가 과정이나 설정의 그러한 측면을 촉진하는 메커니즘으로, 더 큰 사용으로 이어질 수 있습니다. 단순히 이해관계자나 의사결정자만의 참여를 넘어서, 문헌 리뷰 결과는 평가 클라이언트와 평가자 간의 참여, 상호작용, 의사소통이 장기적으로 평가 사용을 극대화하는 데 중요한 역할을 한다는 것을 시사합니다(Johnson et al., 2009, p. 389).

평가 사용과 관련된 요인 (Factors Associated With Evaluation Use)

위에서 언급된 공식적인 연구 편집본 외에도, Program Evaluation Standards (Yarbrough et al., 2010)도 실증 연구에 근거한 요인의 또 다른 출처입니다. 유용성 기준의 서문에서는 "가장 간단히 말해, 평가의 유용성에 대한 판단은 프로그램 이해관계자가 평가 과정과 산물이 그들의 요구를 충족시키는 데 얼마나 유용한지를 기반으로 한다"고 설명합니다(Yarbrough et al., 2010, p. 4). 세 번째 판의 유용성 기준은 평가자가 유용한 평가를 계획하고 실행할 때 고려해야 할 여덟 가지 요소를 명시적으로 제시합니다: U1 평가자 신뢰성, U2 이해관계자에 대한 관심, U3 협의된 목적, U4 명시적 가치, U5 관련 정보, U6 의미 있는 과정과 산물, U7 시기적절하고 적절한 의사소통 및 보고, U8 결과와 영향에 대한 관심.

세 가지 주요 연구와 Standards의 목록을 비교해 보면 많은 중복이 있음을 알 수 있습니다. 그러나 전체 중복 정도를 표로 작성하는 것은 어려운데, 이는 연구들이 때때로 동일한 개념을 설명하는 데 다른 용어를 사용하기 때문입니다. Johnson et al.(2009)은 평가 사용에 관한 실증 연구를 요약하면서 이러한 상황의 실질적인 결과에 대해 다음과 같이 말합니다: "평가 사용을 증가시키는 데 가장 관련된 특성이 무엇인지를 단순 명료하게 답하는 것은 불가능하다"(Johnson et al., 2009, p. 388). 그럼에도 불구하고, 식별된 요인들에 대한 분석을 통해 우리는 시간이 지남에 따라 평가 사용과 관련된 문헌 전반에 걸쳐 지배적인 주제를 개발할 수 있습니다.

평가 프레임워크의 일반적인 요소(commonplaces)를 적용하여(King, 1988), 우리는 평가 사용 요인을 네 가지 그룹으로 분류했습니다: (1) 사용자 요인, (2) 평가자 요인, (3) 평가 요인, (4) 조직적/사회적 맥락 요인. 실제로, 이 네 가지 카테고리 모두는 모든 평가의 맥락의 일부입니다. 이러한 요인을 실제로 적용하는 데 관심이 있는 사람들은 Patton(2008, 2012) 또는 King and Stevahn(2013)을 참조하면 도움이 될 것입니다.

네 가지 그룹의 평가 사용 요인

사용자 요인 (User Factors):
- 평가 결과를 사용하는 사람들의 특성과 관련된 요인들입니다. 여기에는 사용자의 이해도, 평가 결과에 대한 관심, 사용자 의지 및 평가 결과를 실행할 능력 등이 포함됩니다.
평가자 요인 (Evaluator Factors):
- 평가를 수행하는 사람들의 특성과 관련된 요인들입니다. 평가자의 신뢰성, 경험, 평가 방법론에 대한 숙련도, 그리고 이해관계자와의 의사소통 능력 등이 포함됩니다.
평가 요인 (Evaluation Factors):
- 평가 자체의 특성과 관련된 요인들입니다. 평가의 품질, 관련성, 시의성, 평가 과정과 산물의 명확성 및 의미 등이 포함됩니다.
조직적/사회적 맥락 요인 (Organizational/Social Context Factors):
- 평가가 이루어지는 조직적 및 사회적 환경과 관련된 요인들입니다. 여기에는 조직의 문화, 정치적 기후, 정보 요구, 의사결정 특성, 그리고 평가에 대한 조직의 전반적인 태도 등이 포함됩니다.

이 요약을 통해 평가 사용과 관련된 다양한 요인과 그 중요성을 이해하는 데 도움이 되었기를 바랍니다. 추가적인 질문이나 더 필요한 정보가 있으시면 언제든지 알려주세요.

사용자 요인 (User Factors)

Patton et al.(1977)의 미네소타 대학교에서의 연구는 평가 사용 여부를 결정하는 중요한 요소로 "개인적 요소"를 식별하며, 평가 커뮤니티의 주의를 사용자에게 집중시켰습니다. Patton의 연구와 다른 연구자들의 초점은 "사용자 요인" 범주 내에서 주요 요소로서 사용자의 평가에 대한 태도, 일반적으로나 현재 평가에 대한 태도를 정의했습니다. 이러한 관심은 부분적으로 사용자가 평가에 의미 있게 참여한 결과에서 비롯됩니다(Johnson et al., 2009). 사용자가 평가에 대해 긍정적인 경험을 바탕으로 한 선입견은 평가에 대한 관심을 좌우합니다(Alkin et al., 1979). 이 범주 내에서 식별된 다른 요인들도 있었지만, 명시적인 사용 의지의 중요성이 우선되었습니다.

평가자 요인 (Evaluator Factors)

"평가자 요인" 범주에서 특히 중요한 것은 평가자가 사용을 촉진하고 자극하려는 헌신과 의지였습니다. Alkin, Daillak, 그리고 White(1979)가 식별한 이 평가자의 개인적 요소, 즉 대인관계 요소(King & Stevahn, 2013)는 Patton이 언급한 사용자에 대한 개인적 요소와 유사합니다. 또한, 평가자는 정치적 민감성을 보여야 했고, Utility Standard 1에서 확인하듯이 신뢰성을 가져야 했습니다. 마찬가지로 중요한 것은 평가자가 잠재적 사용자를 어떻게 참여시키고 관여시키는지였습니다. 여기에는 잠재적 사용자를 평가의 다양한 측면에 참여시키는 것과 그 사용자들과의 좋은 작업 관계를 구축하는 것이 포함되었습니다(Johnson et al., 2009). 이 모든 요소들은 평가자의 신뢰성에 영향을 미쳤습니다. 실제로, 식별된 많은 요인들이 강한 상호 관계를 가지고 있습니다.

평가 요인 (Evaluation Factors)

세 번째 주요 범주는 평가와 그 내의 활동을 평가자의 개별적인 독특한 역할과 구분하는 것입니다. 여기에서 문헌은 평가 절차, 평가 정보의 관련성, 평가 보고를 포함한 의사소통 품질 등에 대해 언급합니다(Shulha & Cousins, 1997). 평가 절차의 경우, 연구는 기술적 우수성과 필요한 엄격함이 중요하지만, 가장 관련 있는 것은 사용된 방법의 적절성과 잠재적 사용자에게 신뢰받는지 여부라고 보여줍니다. "관련성"이라는 요인은 프로그램의 정보 요구를 충족시키는 정도를 나타냅니다(King & Pechman, 1982; Yarbrough et al., 2010). 평가 정보가 사용자의 인식된 필요를 충족시키지 못하면, 당연히 사용되지 않을 가능성이 높습니다.

이 범주에서 마지막으로 중요한 것은 의사소통 품질의 문제입니다. 이는 일부 방식으로는 방법의 적절성에 대한 이전 논의와 유사합니다. 보고는 사용자가 이해할 수 있는 형태로 제공되어야 합니다. 또한, 보고될 평가 정보는 시의적절해야 하며, 그렇지 않으면 잠재적 이해관계자에게 아무런 소용이 없을 수 있습니다(Alkin, Kosecoff, Fitzgibbon, & Seligman, 1974). 또 다른 요인은 약간 더 복잡한데, 특히 중요한 것은 평가와 기존 또는 경쟁 정보와의 관계입니다. 이 정보는 일반적으로 이용 가능하거나 프로그램 내 주요 사용자의 작업 지식의 일부일 수 있습니다.

조직적/사회적 맥락 요인 (Organizational/Social Context Factors)

네 번째 주요 범주는 "조직적/사회적 맥락 요인"입니다. 여기에서 연구된 여러 요인은 평가가 수행되는 조직의 성격이 평가 사용의 성공적인 달성에 상당한 영향을 미친다는 것을 인식했습니다. 이러한 다양한 요인에는 프로그램의 조직적 특성뿐만 아니라 그 프로그램을 포함하는 더 큰 프로그램적 실체의 특성도 포함됩니다(Johnson et al., 2009). 또한, 여기에는 단위 수준 자율성과 다양한 제도적 배치와 같은 문제도 포함되었습니다. 프로그램의 연령과 발전 정도에 대한 문제도 사람들이 평가를 생산적으로 사용할 수 있는 정도에 영향을 미쳤습니다. 또한, 다양한 외부 요인, 즉 커뮤니티, 프로그램에 대한 영향력, 다른 기관의 역할 등이 이 범주에 포함됩니다(Alkin et al., 1979). 그러나 아마도 가장 중요한 것은 의사 결정을 내릴 때 평가 외의 정보 출처들일 것입니다(Patton et al., 1977).

이러한 개별 요인에 대한 연구가 평가 사용에 대한 완전한 이론을 구성하는 것은 아니지만, 사용과 관련된 요인에 대한 일반적인 이해는 중요한 성과입니다. 실제로, Lincoln과 Guba(2004)는 Abraham Kaplan의 작업에 대해 설득력 있게 논평하며, 다른 종류의 이론, 즉 인식 가능한 패턴을 형성하는 방식에 대한 패턴 이론이 있음을 강조합니다. "이 패턴은 행동과 활동, 사회적 또는 전문적 구성체, 또는 조직 생태계일 수 있습니다. 이들의 특징은 예측을 약속하는 일련의 법칙이 아니라, 공동 적용에서 의미를 가지는 일련의 '경향성 진술'입니다"(Lincoln & Guba, 2004, p. 227). 따라서 우리는 이 다양한 연구된 요인들이 평가 사용에 대한 패턴 이론을 형성한다고 믿습니다. 더욱이, 이 시리즈의 마지막 기사에서 논의될 것처럼, 우리는 이 확장된 요인 목록이 주제에 대한 추가 연구의 유용한 출발점을 제공한다고 믿습니다.

요약 및 결론 (Summary and Conclusion)

이 두 번째 글을 마무리하면서, 평가 실무는 본질적으로 그 과정과 결과의 유용성에 관한 것이며, 평가 사용은 평가 실무와 이론화의 필수적인 특징임을 다시 한 번 강조합니다. 이 글은 평가 사용과 오용 모두에 적용 가능한 발전 배경과 기능적 "정의", 확장된 평가 영향력 개념, 그리고 연구가 평가 사용과 연관시킨 네 가지 범주의 요인(사용자 관련 요인, 평가자 관련 요인, 평가 과정 및 결과 관련 요인, 조직적/사회적 맥락 요인)을 제시했습니다. 이 시리즈의 세 번째이자 마지막 글은 평가 사용 이론에 초점을 맞추어, 평가 사용 이론과 연구의 역사적 진화를 추적할 것입니다. 여기에는 Alkin의 평가 이론 나무(2013)에서 사용 가지에 제시된 처방적 이론들과 Kirkhart의 평가 영향력 통합 이론 및 Henry와 Mark의 평가 영향력 개요 이론 두 가지 평가 영향력 이론이 포함될 것입니다.

'Wilson Centre' 카테고리의 다른 글

[프로그램 평가] 평가적 사고의 정의와 가르치기: 비판적 사고 연구의 인사이트 (0)	2024.06.02
[프로그램 평가] 평가적 사고의 진화에 대한 역사적 관점 (0)	2024.06.01
[프로그램 평가] 평가 사용의 역사적 발전 (1)	2024.05.31
[Indigenous] 원주민의 지혜와 HPE 이론 및 실천 (0)	2024.05.29
[Indigenous] 원주민과 고등 교육: 네 가지 R - 존중, 관련성, 호혜성, 책임성 (0)	2024.05.27

현재글[프로그램 평가] 평가 사용 및 오용의 정의, 평가 영향력 및 사용에 영향을 미치는 요인

한양의대 의학교육학교실 김도환 dohwan.kim@gmail.com

출석, 총괄평가, 의정사태, KMEC2022, 의사국시, 의과대학, 성찰, PIF, 강의, 문화, 학습, accreditation, ASK2019, 유급, 전문직정체성형성, 실패, 의사국가시험, 평가, WFME, 선발, assessment, Feedback, 신임교수, 타당도, 의사면허시험, 질적연구, 피드백, PBL, 혁신, USMLE, 지역의료, 의학교육, 정의, 의학교육학술대회, 의학교육평가인증, 교수개발, 시험, USMLE Step 1, 연구, 의예과, 전공의, 평가인증, 전문직업성, 수월성, 형성평가, 프로페셔널리즘, 한양의대, 전문직정체성, 팀워크, 교육과정,

Today :
Yesterday :

의대에서 교육하고 있습니다.