연구방법론으로부터 연구질문이 만들어지는 연구을 좋은 연구라 할 수 없으며, 먼저 검사를 한 뒤 감별진단을 끌어낸 진료를 좋은 진료라 할 수 없다. 반대로, 감별진단으로부터 검사계획을 수립해야 하고, 연구질문에 따라 적절한 연구방법론을 활용해야 한다.
평가도 마찬가지이다. 바람직한 평가의 기본은 평가도구를 고르기에 앞서서 평가의 목적과 대상을 결정하는 것이다. 더 나아간다면, 하나의 도구만으로는 교육의 질에 대한 복합적인 질문에 모두 답할 수 없기 때문에 다양한 도구를 사용해야 한다.
어떤 평가든 수행에 앞서 목적을 분명히 해야한다. 목적이 분명하지 않으면 수집된 데이터는 물론이고 그 해석도 완전히 뒤바뀔 가능성이 있다. 예를 들어 평가의 목적이 약점을 찾아 개선하는 것이라면 학생은 자신의 약점을 드러내고자 할 것이다. 그러나 합-불합 결정을 위한 평가라면 학생은 자신의 약점을 최대한 숨기려고 할 것이다.
효과적인 형성평가는 일반적으로 저부담 평가이며, 주로 비공식적/기회적opportunistic이고, 학습을 촉진하는 의도를 가지고 있다. 형성평가의 정의상, 형성평가를 특징짓는 좋은 평가의 기준은 촉매 효과catalytic effect이다. 형성평가는 다음의 경우에 가장 잘 작동한다.
(1) 교육 과정 또는 작업 흐름work flow에 내포되어 있다embed.
(2) 구체적이고 실행 가능한 피드백을 제공한다.
(3) 지속적ongoing이다.
(4) 시기 적절timely하다.
따라서 덜 중요해지는 기준에는 동등성equivalence, 재현성-일관성reproducibility-consistency이 있다.
반면 더 중요해지는 기준에는 타당성-일관성validity-coherence, 교육 효과educational effect, 구현가능성feasibility (지속적, 시의적절성, 학습자 수준에 적절성이 필요하므로), 수용가능성acceptability (교수와 학생이 형성평가에 헌신commit하는 데 필요하고, 피드백에 대한 신뢰성을 부여함)이 있다.
2
효과적인 총괄평가는 일반적으로 중부담이거나 고부담이며, 기본적으로 (의과대학 또는 의과대학생에게 기대되는) 책무에 대한 요구에 응하려는 의도를 가지고 있다. 총괄평가는 일관된 고품질의 시험 자료, 높은 수준의 내용전문성, 체계적인 합격선 설정 프로세스, 시험 보안 관리가 필요하다.
따라서 가장 중요한 기준은 타당성-일관성, 재현성-일관성, 동등성과 같은 기준이다.
반면, 구현가능성, 수용 가능성, 교육적 효과 등은 중요하긴 하나 심리측정적 준거만큼 중요하지는 않다. 또한 총괄평가에도 촉매 효과가 있으면 좋긴 하겠지만, 덜 강조되는 편이다.
출처:
Norcini, J., Anderson, B., Bollela, V., Burch, V., Costa, M. J., Duvivier, R., ... & Roberts, T. (2011). Criteria for good assessment: consensus statement and recommendations from the Ottawa 2010 Conference.Medical teacher,33(3), 206-214.
우선, 다양한 이해 관계자가 평가 및 결과에 관련되거나 영향을 받기 때문이다. 이해 관계자에는 환자, 일반 대중, 보건의료계 고용주, 전문직 및 규제 기관, 대학, 의과 대학, 교육 기관, 개별 교사/교수자, 수험자(examinee)가 포함된다. 이해관계자들은 동일한 평가를 서로 다른 용도로 사용하며, 당연히 평가를 판단하는 준거에 대해서도 서로 다른 우선순위를 가지고 있다.
3
좋은 평가의 기준은 평가의 퀄리티 향상 뿐만 아니라 평가의 의도하지 않은 결과를 피하기 위해서도 중요하다. 평가와 교육과정의 불일치는 학생 행동에 바람직하지 않은 영향을 미칠 수 있다. 예를 들어, 교육과정을 강의 중심에서 병동 중심 교육으로 바꾸었더라도, 강의식 수업에서 교재 학습(book learning)에 많은 시간을 쏟게끔 요구한다면 학생들을 병동에서 찾아보기는 점점 더 어려워진다. 즉, 기관 수준에서 본다면 평가 방법이 기관의 사명과 교육 프로그램의 목표를 훼손하고 있다고 볼 수 있다. 이렇든 평가를 교육 실무와 조화시키는 것이 중요하다.
4
가치의 발견(discovering worth)과 품질의 향상(improving quality)라는 두 가지 목표를 달성하기 위해서는 학습의 평가(Assessment of learning)가 중요하다. 교육기관과 교육자들은 평가를 책무성을 위한 도구로만 간주하는 것에서 벗어나, 개선을 위한 방법으로 보기 시작했다.
5
단, 좋은 평가의 기준이 있더라도 하나의 기준이 모든 상황에 똑같이 적용되지 않을 것이다. 오히려 동일한 기준이라도 평가의 목적과 맥락에 따라 중요성이 달라진다. 예를 들어, 의과대학생이 갖춰야 할 지식을 확인할 책무성에 대한 필요성에 따라 설계된 우수한 총괄시험(예: 면허 시험)이, 이와 동시에 미래의 학습이나 교육과정 개혁을 가이드할 상세한 피드백을 줄 것으로 기대할 수 없다.
마찬가지로, 동일한 평가에 대해 여러 기준이 적용될 수 있지만, 이 기준이 모든 이해 관계자에게 동일한 가중치를 갖지 않는다.예를 들어, 환자에게는 면허 시험의 타당성 및 일관성coherence이 더 중요하며, 면허 시험을 응시하는 학생이나 운영하는 정부에게 얼마나 비용이 드는지는 주된 관심사가 아니다. 이렇듯 기준의 중요성은 이해 관계자의 관점에 따라 달라질 것이다.
6
좋은 평가의 기준은 다음의 일곱 가지가 있다.
(1) 타당성 또는 Coherence.
(1) Validity or coherence.
(2) 재현성 또는 일관성.
(2) Reproducibility or consistency.
(3) 동등성. 동일한 평가는 다른 기관 또는 시험 사이클에서 동등한 점수 또는 결정을 산출해야 한다.
(3) Equivalence. The same assessment yields equivalent scores or decisions when administered across different institutions or cycles of testing.
(4) 적용가능성. 주어진 환경과 상황에서, 평가는 현실적이고 현실적이며 합리적이어야 한다.
(4) Feasibility. The assessment is practical, realistic, and sensible, given the circumstances and context.
(5) 교육적 효과. 평가는 시험을 준비하는 사람에게 교육적 이득이 있어야 한다
(5) Educational effect. The assessment motivates those who take it to prepare in a fashion that has educational benefit.
(6) 촉매 효과. 평가는 교육을 창출하고, 향상시키고, 지원하는 방식으로 결과와 피드백을 제공해야 한다. 미래의 학습을 앞으로 이끌어나가야 한다.
(6) Catalytic effect. The assessment provides results and feedback in a fashion that creates, enhances, and supports education; it drives future learning forward.
(7) 수용 가능성. 이해 관계자가 평가 프로세스 및 결과를 신뢰할 수 있어야 한다.
(7) Acceptability. Stakeholders find the assessment process and results to be credible.
출처:
Norcini, J., Anderson, B., Bollela, V., Burch, V., Costa, M. J., Duvivier, R., ... & Roberts, T. (2011). Criteria for good assessment: consensus statement and recommendations from the Ottawa 2010 Conference.Medical teacher,33(3), 206-214.
좋은 평가의 기준으로부터 각 이해관계자를 위한 행동 지침을 아래와 같이 정리해볼 수 있다.
1
피험자(Examinees)
• 수험생은 자신이 받는 평가의 목적을 알아야 한다.
• 수험생은 그들이 받는 평가의 질을 확신해야assured한다.
• 수험생은 지속적인 학습을 유도하는 피드백을 받아야 한다.
• 수험생은 피드백을 받고 행동하는 데 적극적으로 참여해야 한다.
• 수험생은 적절한 시기에 채점scoring 및 합격선 설정standard setting 과정에 대한 정보를 받아야 한다.
2
환자(Patients)
• 환자의 역할이 환자의 전문성(예 : 의사 소통 기술)과 일치한다면 환자는 평가자로 포함되어야 한다.
• 환자는 역량 및 성과의 여러 측면facet에 대한 나은 이해를 만들어가는 데 기여해야 한다.
• 환자는 trainee가 거쳐가는 평가의 질을 확신assured할 수 있어야 한다.
• 환자가 환자의 전문성 범위 내에서 평가의 교육적 효과에 기여할 있다면, 교육자로 포함되어야 한다.
3
교수자(Teachers)
• 교수자는 학습을 극대화하는 방식으로 평가를 설계해야 한다.
• 교수자는 가르침 속에서 학습 목표를 다루어야 한다.
• 교수자는 평가 결과를 사용하여 미래 학습future learning의 질을 향상시켜야 한다.
4
교육 기관(Educational institutions)
• 교육 기관은 교수자에게 평가를 위한 교육을 제공해야 한다.
• 교육 기관은 평가가 잘 수행되도록 자원(직원 등)을 배정해야 한다.
• 교육 기관은 교육의 퀄리티 모니터링 프로세스의 일환으로 평가의 퀄리티를 분석해야 한다.
• 교육 기관은 자신의 커리큘럼이 평가와 일치하도록consistent해야 한다.
5
의료 시스템(Healthcare system)
• 의료 시스템은 지속적인 형성평가ongoing formative assessment를 위한 기회를 제공해야 한다.
• 의료 시스템은 형성평가에 대한 대답response to을 장려하는 문화를 촉진해야 한다.
• 의료 시스템은 직무 환경workplace setting에서의 평가 연구를 촉진해야promote 한다.
6
규제 기관(Regulators)
• 규제 기관은 평가의 교육적 효과를 고려해야take account of 한다.
• 규제 기관은 지속적으로 역량을 확인하는 평가(assessments which ensure ongoing competence)를 제공해야 한다.
• 규제 기관은 평가가 교육 및 의료 시스템에 대해 가지는 촉매 효과를 인식해야 한다.
출처:
Norcini, J., Anderson, B., Bollela, V., Burch, V., Costa, M. J., Duvivier, R., ... & Roberts, T. (2011). Criteria for good assessment: consensus statement and recommendations from the Ottawa 2010 Conference.Medical teacher,33(3), 206-214.
Epstein은 평가assessment에 대해서 “다양한 방법을 사용하여, 자주 건설적인 피드백을 제공함으로써, 다양한 역량의 영역을 통합적이고, 일관성있고, 종단적으로 평가해야 한다”고 권고했다.
Ericsson은 교수자가 학생을 자기주도적인 학습자가 되도록 도와주는 방법에 대해서 설명했다. 이 때 수행능력에 대한 피드백을 줌으로써 전문성 개발을 위한 의도적 연습deliberate practice으로 이어지게 만드는 것을 강조했다.
2
Van der Vleuten은 평가를 세 가지로 분류했다:
> assessment for learning (AfL)
> assessment of learning (AoL)
> assessment as learning (AaL)
2-1
AfL은 종종 형성평가라고도 불린다. AfL에서 학생은 메타인지 전략에 초점을 둔 과정에 몰입한다. 학생들이자신의 생각에 대해서 생각해보려는 노력을 지지해줘야 한다. 자신의 수행능력과, 자신의 현재 이해상태와, 명확히 정의된 성공의 준거 사이의 관계를 이해하는 것이다. 즉, 자신의 학습을 개선하고 시작하는 주체가 되는 것이다. 형성성(the formative)을 강조하는 평가 시스템은 개선(improvement)를 포용하고 지지하는 문화 속에서만 성장할 수 있다.
2-2
AoL은 종종 총괄평가라고도 불린다. 역량을 기준으로 현재 진행상태가 어느 정도인지에 대한 판단을 강조한다. 형성평가와 총괄평가는 별개의 목표로 간주되는 경우가 많지만, 두 가지가 중복되는 영역도 많다. 예를 들어, 형성 평가에서 중대한 결함이 발견된 학생에게는 재교육remediation이 필요할 수 있지만, 어떤 경우에는 완전히 퇴출dismiss해야 할 수도 있다.
2-3
AaL에는 평가 프로세스가 전체 프로그램 및 교육과정에 지니는 함의programmatic and curricular implication가 담겨 있다. 즉, 평가 시스템의 관점에서 교육과정상의 학습경험과 교육 프로그램의 목적을 돌아보는 것이다. 또한 AaL은 평가자와 학생 사이의 영향도 고려해볼 수 있다.
3
평가에 대해 다섯 가지를 권고한다.
3-1
첫째, 의학 교육의 목적은 충분히 명확하게 표현되어 학습의 평가assessment of learning와 일치해야한다.단순히 ‘후속 단계(전공의 수련)를 위한 준비’라고만 하는 것은 불충분하다. 교육의 후속 단계의 준비는 물론 중요하지만, 그 자체가 목표가 될 수는 없다. 각 교육 단계 이후 학생들이 취할 수 있는 방향성이 다양하기 때문이다. 의학교육의 목적이 명확하게 합의되지 않으면 점점 늘어나는 의료지식의 우선 순위를 정하는 것이 어려워진다. 환자안전은 하나의 목적이 될 수 있다. 의학 교육의 목적을 무엇으로 합의하든지, 교육의 목표는 평가의 목표와 대체로 일치할 수 있도록 조정이 필요하다.
3-2
둘째, 총괄평가(AoL)가 미치는 효과(선발,고용,면허,증명에)를 인정하고 관리해야 한다.특히 형성평가(AfL)가 매우 중요하다는 것을 고려한다면, 총괄평가가 형성평가에 부정적인 영향을 미치지 않아야 한다. 말은 간단하지만, 실천은 그렇지 않다.
3-3
셋째, AfL은 평가 프로그램의 근간이 되어야 한다. 평가 프로그램의 근간이 되기 위해서는 여러 출처의 피드백이 포함되어야 하고, 자기주도학습을 강조해야 하며, 교수와 학생 간 신뢰와 장기적인 관계가 만들어질 수 있도록 해야하고, 언제 형성 평가가 사용될 것인지(특히 진급 등의 결정과 관련하여)에 대한 명확한 가이드라인이 있어야 한다. 평가 프로세스의 신뢰가 쌓이면, 학생이 건설적인 피드백을 잘못 해석할 가능성이 낮아진다. 반대로, 학생 입장에서 비판적인 코멘트가 미래에 악영향을 미칠 수 있다고 느껴진다면, 학생은 그런 코멘트는 포트폴리오에 표시하지 않으려고 할 것이다.
3-4
넷째, 교육 프로그램의 개발 전반에 걸쳐서 평가가 결정적 역할을 함을 인식해야 한다. 평가는 학습 환경, 교육과정 개발, 학습자와 교사와의 관계, 기관 문화에 큰 영향을 미친다. 평가에 대한 전문성은 중요하지만, 평가는 고립되어 존재하는 것이 아니다. 평가는 반드시 프로그램의 목표 및 목적과 통합integrate되고, 정렬align되어야 한다.
3-5
다섯째, 평가에 관한 교수개발은 교수의 핵심 역량이 되어야 한다.교수개발이 필요한 영역에는 다음이 있다.
(1) 관찰 기술(training in observation skills in authentic settings (workplace-based assessments))
(2) 피드백과 코칭 기술 (feedback and coaching skills),
(3) 자기평가와 성찰 기술 (self-assessment and reflection skills)
(4) 실천공동체를 통한 동료 지도 기술 (peer guidance skills developed through a community of practice.)
출처:
Sklar, D. P. (2017). Assessment reconsidered: Finding the balance between patient safety, student ranking, and feedback for improved learning.Academic Medicine,92(6), 721-724.
밀러의 피라미드에서 마지막 한 층(Does)의 평가를 보자. 'Does' 수준의 평가는 본질적으로 전문가가 정보에 의존하여 성과를 판단하는 방식이다. 이 때 전문가란, 동기 및 선후배, 동료직원, 상급자, 교수자 등을 비롯하여 피평가자의 업무 또는 교육성과에 대해 잘 아는 사람을 광범위하게 포함하는 단어로 해석해야 한다.
2
Does 평가의 자극 형식은 실제적 맥락Authentic context이며, 비표준화, 비구조화 되어있다. Does 평가의 응답 형식은 다소 일반적generic이며, 특정한 맥락에 따라 재단tailored되어있지 않다.예를 들어 CanMEDS의 Collaborator와 Communicator 역량이 있다. 이런 역량이 어느 정도 generic할지 몰라도, 평가를 할 때는 맥락-특이적이 된다. Generic skill을 평가하는 것은 필수적이지만, 정의하기 어렵다는 문제도 있다.
결국 이러한 영역-독립적(domain-independent) 역량을 평가하려면, 전문가 판단에 의존할 수 밖에 없다.즉, Does 수준에서 효과적인 평가의 핵심은 전문가의 판단expert judgement이며, 내용특이성의 문제를 해결하려면 표본 추출이 중요하다. 합산 정보aggregate information가 개별 평가의 주관성을 극복하기 위해서는 두 가지가 필요한데, 다양한 교육적/임상적 맥락에 걸친 표본추출과 다양한 평가자로부터의 표본추출이다.
그렇다면 Does 수준의 평가에서 고려해야 할 것은 무엇일까?
3
신뢰할 수 있는 추론을 위해서는 일정 수의 표본이 필요하다(A feasible sample is required to achieve reliable inferences): 현실적으로 가능한 표본수(very feasible sample)로도 신뢰할 수 있는 추론이 가능하며, 대체로 어떤 평가도구를 사용하든, 무엇을 측정하든 8 ~ 10 사이의 어딘가에 있는 듯 하다.이는 신뢰도는 평가의 표준화나 구조화의 문제가 아니라, 표본 추출의 문제임을 다시 한번 확인시켜준다.
4
편견은 전문가 판단의 본질적인 특성이다 (Bias is an inherent characteristic of expert judgement): 평가 점수의 인플레이션이 생기기도 하고, 평가자가 어떤 배경을 가지고 있는지에 따라서도 영향을 받는다. 평가자가 학습자와의 관계를 지나치게 신경쓰거나, 귀찮은 일을 피하려고 할 때에도 편향이 생긴다.
평가자의 역할이 무엇인지 다시 한 번 생각해봐야 한다. 평가자의 임무는 학습자가 훌륭한 의사인지 판단하는 것이 아니다. 특정 사건에서 어떤 일이 발생했는지 판단하고, 학습자의 수행능력 향상에 도움이 되는 피드백을 주고, 차후에 유의미한 검토에 사용될 수 있도록 적절히 문서화하는 것이다. 고부담 의사결정은 여러 방법으로부터, 여러 출처의 평가를 기반으로 내려져야 견고robust해지기 때문이다.
같은 맥락에서 자기평가를 생각해볼 수 있다. 연구에서 명백하게 확인되는 것은 우리는 (과대평가든, 과소평가든) 자기평가를 매우 못한다는 것이다.샘플링 관점에서 볼 때 이것은 전혀 놀랍지 않다. 자기평가의 N은 1이기 때문이다.다른 평가도 N이 1이라면 자기평가보다 딱히 낫지는 않을 것이다. 문제는, 다른 평가와 달리, 자기평가에서는 표본 크기를 늘릴 수 없다는 것이다. 즉, 자기평가는 결코 독자적으로 의미를 지닐 수 없으며, 반드시 다른 정보와 삼각검증triangulation 되어야한다.
5
타당도는 어떤 도구를 사용하느냐보다, 누가 사용하느냐에 달려있다 (Validity resides more in the users of the instruments than in the instruments that are used): 밀러의 피라미드의 아래 단계에서는 평가도구를 더 날카롭게(sharpen)하는 것이 가능하지만, Does 수준에서 평가의 퀄리티는 딱 평가자의 퀄리티 만큼만 우수하다.지저분한 현실세계를 표준화/구조화/객관화를 통해 통제하려는 것은 답이 되지 못한다. 이는 평가의 질을 떨어뜨릴 뿐만 아니라, 평가를 경시하게 만든다trivialize. 더 바람직한 전략은 평가도구가 아니라 평가자를 더 날카롭게 하는 것이다.평가에 필요한 기술, 피드백을 주고 받는 기술은 의사-환자 사이에 필요한 기술과 유사한데, 그럼에도 불구하고 모든 교수자가 이걸 갖추고 있지는 않다. 이런 기술은 육성되어야 하며, 육성될 수 있다.
6
평가는 일반적으로 형성적 기능과 총괄적 기능을 모두 갖는다(Formative and summative functions are typically combined): 학습자가 평가에서 학습적 가치를 얻지 못하는 한, 평가는 사소한 것 취급된다(trivialize). 예를 들어, 포트폴리오에 포함되는 성찰글쓰기의 목적이 ‘평가자의 기분 맞추기’가 되면, 포트폴리오는 의미를 상실한다. 평가의 유용성utility을 확보하려면, 학습을 유도할 수 있어야 하며, 궁극적으로 학습에 필수불가결한 것으로 여겨져야 한다. 평가가 효과적이려면, 피드백이나 학습환경과 같은 조건이 갖춰져야 하며, 이 중 피드백에는 특히 사회적 상호작용(코칭/멘토링/토론)이 중요하다.
7
질적, 서사적 정보가 중요하다 (Qualitative, narrative information carries a lot of weight): 평가의 중심에 피드백이 있고, 효과적인 피드백에 사회적 상호작용이 중요하다면, 숫자와 정량 정보는 한계가 명확하다. 의사소통에서 5점 중 2점을 받았다는 것 만으로는, 학습자에 대해 우려를 자아냄에도, 실제로 무엇을 했는지, 개선을 위해서는 무엇을 해야 하는지를 알려주지 않는다. 점수는 그 자체만으로는 저질의poor 피드백일 뿐이며, 학습자에게 거의 영향을 미치지 못한다. 언어를 활용하여 평가를 더 풍부하게 해야 한다. 질적으로 풍부한 정보가 뒷받침되어야 형성평가가 효과적으로 기능한다. 따라서 모든 평가도구에 정성 정보를 포함시킬 수 있는지 확인하고(예: 주관식 코멘트 기입 공간), 평가자가 이러한 정보를 정기적으로 제공하고 문서화하도록 유도해야 한다.
8
총괄적 결정이 질적 연구 절차로 더욱 견고해질 수 있다(Summative decisions can be rigorous with non-psychometric qualitative research procedures): 우리는 일반적으로 무언가를 정량화한다. 그리고 계산하고, 평균을 내고, 학점을 준다. 하지만 이것 만으로 충분한 경우는 거의 없다. 견고함(rigour)는 trustworthiness 전략에 달려있다. internal validity는 credibility로, external validity는 transferability로, reliability는 dependability로, objectivity는 conformability로 대체하는 것이다. 다음과 같은 전략이 가능하다. 다만 합격선 결정과 마찬가지로 ‘gold standard’란 존재하지 않으며, 모든 기준standard과 그에 따른 결정에는 일정정도의 추상성이 존재한다. 결국 얼마나 기준을 신뢰할 수 있느냐credible는, 얼마나 절차에 충실했느냐에 달려있다. Trustrowthiness를 높이기 위한 전략으로는 아래와 같은 것들이 있다.
•To achieve rigour in the judgement of a learner’s portfolio in a work-based setting, it is wise to have a committee judge the portfolio (structural coherence and peer examination).
•The committee receives input froma mentor who is familiar with the learner and his or her portfolio (prolonged engagement).
•Depending on how much one wants to protect the learner–mentor relationship this input may be limited, for example, to a declaration of the mentor that the portfolio provides authentic evidence of the learner’s progress.
•The committee uses predefined criteria to make their judgement more transparent, for example, in the form of rubrics describing decision categories (audit).
•The committee deliberates and justifies its decisions in a written motivation (audit).
•If the decision is difficult to make, the committee deliberates more and justifies more and perhaps even invites additional committee members or consults relevant parties (triangulation).
•In preparing the portfolio for submission, the learner is aware of the criteria and will have had feedback on earlier drafts of the portfolio with some form of social interaction (i.e., with peers or a mentor) so that the committee’s judgement will only rarely come as a complete surprise to the learner (and mentor) (member checking).
•Both learner and mentor are trained for their tasks; committee members are (re)trained (periodically) and use benchmark portfolios to calibrate their decision making (prolonged engagement and member checking).
•Committee decisions are documented (audit), and appeal procedures for learners are in place (audit).
•The more procedures and measures, the more trustworthy the resulting decision will be.
9
Does 수준에서는 평가는 전문가의 판단에 의존하게 된다. 그리고 이처럼 평가가 전문가의 판단에 의존할 경우, 개별 평가자의 독특하고 고유한 판단이 중요해진다.평가자마다 각자 구성한 실제constructed realities가 다르며, 이는 서로 일치하지 않을 수 있다.그렇다고 이것이 도움이 되지 않는 것은 아니다. 오히려 학습자가 서로 다른 여러가지 관점에 노출되는 것은 고도로 relevant하며, beneficial 할 수 있다. 따라서 합산 의사 결정aggregate decision making을 가이드하기 위하여 삼각측량과 정보포화가 필요하다. 새로운 정보를 찾을 가능성이 매우 낮아졌을 때, 포화가 달성되었다고 볼 수 있고, 이는 추가적인 근거의 수집 노력의 중단을 정당화해줄 것이다.
출처:
Van der Vleuten, C. P. M., Schuwirth, L. W. T., Scheele, F., Driessen, E. W., & Hodges, B. (2010). The assessment of professional competence: building blocks for theory development.Best practice & research Clinical obstetrics & gynaecology,24(6), 703-719.
우리가 학습자를 평가할 때, 우리는 주로 '숫자'를 생성한다.그러나 숫자는 중간과정일 뿐이다. 우리가 진짜로 원하는 것은 그 학습자에 대한 '판단decision'이며, 예컨대 '합격인가?' 하는 것이다. 따라서 궁극적으로 보았을 때, 타당화validation라는 것은 결국 '최종 판단의 방어가능성defensibility를 지지하는 근거'를 수집하는 것이다.
2
임상적 예시를 들어볼 수 있다. PSA검사가 전립선암 진단에 유용한가?근거를 살펴보면, 재검사에 대한 결과가 reproducible하고 매년 측정한 결과도 그렇다. 그러나 이러한 긍정적 결과에도 불구하고 대부분의 남성에 대해서는 검사를 권고하지 않는다. 불일치의 원인은 PSA에 뒤따르는 추가 검사에서 발생할 수 있는 의도하지 않은 부정적 결과 때문이며, 더 중요하게는 대규모 무작위연구의 결과가 상충했기 때문이다.
3
이 예시의 교훈은 다음과 같다.
첫째, 모든 평가가 다 도움이 되는 것은 아니다. (예: 낮은 점수가 불필요한 재교육활동으로 이어질 수 있다)
둘째, 사람들은 동일한 근거를 두고도 서로 다른 결론에 이를 수 있다.
셋째, 어떤 맥락에서는 유용한 평가가 다른 맥락에서는 그렇지 않을 수 있다(예: PSA검사의 특성은 연령에 따라 다르다. 교육 시에 체크리스트는 절차적 기술의 평가에는 적합하나, 임상현상의 미묘한 차이를 잡아내지는 못한다.)
넷째, 시험(검사)의 유용성은 목적에 따라 다르다(예: PSA검사는 일반적으로 암의 재발을 보는데 좋다. mini-CEX는 총괄적 목적보다 형성적 피드백 제공에 유용하다)
다섯째, 평가 행위 자체가 개입intervention이다. 시험-강화 학습Test-enhanced learning이 그 예시이다.
4
평가에 관하여 어떤 근거를 수집하고 어떻게 해석할 것인지는 타당도 주장validity argument에 따라 달라진다. 다만 오직 조각의 근거만으로 결론을 내릴 수 있을 정도로 명백한 경우는 거의 없다. 보통, 타당도 주장에는 각각의 근거는 불완전하더라도, 종합적으로 판단을 내리기에는 충분한 다수의 근거가 필요하다. 법정에 비유하자면, 얼마나 많은 근거가 필요할지는 그 결정의 ‘무게’에 달렸다. Kane은 validation의 과정을 ‘첫째, 의도나 해석에 관한 주장을 기술한다(interpretation/use argument, IUA). 둘째, 이 주장을 평가한다(validity argument)’라고 요약했다.이와 같은 두 단계 접근법은 일상적으로 연구에서 가설을 검증하는 것과 다르지 않다.
5
가설의 가장 취약한 고리를 찾아내고, 그것을 평가할 검사를 계획해야 한다. 가장 취약한 고리를 찾아내려고 할 때 참고할 수 있는 Kane은 타당도주장에 대한 프레임워크는 다음의 네 단계로 나눠져있다.
(1) 단일한 관찰결과(객관식 문항, OSCE, 포트폴리오)에서 점수를 얻는 과정 (Scoring)
(2) 관찰에 대한 점수를 시험 상황에서의 일반적 수행능력을 대표하는 점수로 일반화 (Generalisation),
(3) 시험 상황에서의 점수를 실제 상황에서의 수행능력으로 추론하는 외삽 (Extrapolation)
(3) 정보를 해석하고, 해석한 의미를 바탕으로 결정을 내리는 것 (Implications)
6
타당도 주장에서 중요한 것은, 여러 단계에 필요한 여러 추론inference을 포괄할 수 있도록 다양한 출처의 근거를 포함하는 것이다. 또한 가장 취약한 고리에 초점을 맞추는 것도 중요하다. 이런 점에서 Kane의 프레임워크가 가지는 장점 중 하나는 심리측정자료psychometric data에 지나치게 의존하지 않기에, 비정량적 평가에도 적용가능하다는 점이다.
출처:
Cook, D. A., Brydges, R., Ginsburg, S., & Hatala, R. (2015). A contemporary approach to validity arguments: a practical guide to K ane's framework.Medical education,49(6), 560-575.