当代欧洲的现实主义评估方法论

来源：学术堂作者：周老师
发布于：2015-08-13 共6488字

　　评估方法论问题是教育评估理论与实践中一个基本问题。古巴（Guba,E.G.）和林肯（Lincoln, Y.S.）（1981）曾分别从基本假设、一般特点和方法论的特点等三个方面，[1]着重讨论了在评估活动中的科学主义和自然主义的方法论的差异，并进一步讨论了两者整合的问题。两位作者（1989）随后出版专着（FourthGeneration Evaluation），进一步提出了所谓“第四代评估”思想，并探讨了其方法论的含义。通过对相关问题进一步的学习和研究，笔者发现，欧洲当代学者的现实主义评估范式的研究，与美洲的一些学者强调的面向真实世界的评估，反映了当代评估方法论发展的重要方向。此外，现实主义评估的研究者多次提到理论驱动的评估研究的价值。本文尝试对此进行摘要评析，以期引起国内同行们的关注。有关内容摘自笔者于2011年出版的拙着，[2]在此基础上做了增删和修改，特此注明。

　　一、多目标“理论驱动”的评估研究

　　在评估方法论的演进中，多目标“理论驱动”的评估思想（The Multi-Goal, Theory-Driven Approach toEvaluation）占有一定的地位。其基于一个现实问题的思考，即在评估实践中，评估者往往会面对一个令人困惑的问题，即所评估的活动没有出现预期的效果。

　　一些研究者发现，其原因可能是评估方法论存在问题。活动的结果是存在的，只是与错误的或模糊的预期目标不相关。传统的评估方法论无法解决这个问题。斯克里文（Scriven,M）对此进行了思考，提出了解决方案，即目标游离的评估模式，建议评估者忽略预期目标。陈（Chen, H）则提出多目标“理论驱动”的评估观点，[3]建议评估方案提高敏感性和应答性；评估者应预先界定出一套产出结果，其中有些来自预期的政策目标，有些则来自社会科学知识和与评估问题有关的理论所做出的推断。

　　在陈看来，预期的政策目标通常反映社会的需求，但可能缺少足够的理论支持和预估，而社会需求是变化的，其关注点也在变化，预期的目标可能很快显得不合时宜和不合逻辑。目标本身存在问题，发挥了错误的指引作用；缺少社会科学和相关理论的支撑等，这些都是预期结果没有产生的重要原因。于是，陈希望通过理论的驱动，拓宽对结果的理解，加深对所评估的活动的认识。其提出两个基本假设：第一，任何有计划的活动都会产生某种结果，包括那些微不足道的结果；第二，理论和社会科学能够预估特定的社会活动的结果，这些基于理论的推断结果能够被适当的评估系统检测和评估。

　　一项多目标的“理论驱动”的评估，可以提供有关活动的多维信息，包括预期效果、潜在效果与实际效果的信息。根据陈的观点，该评估具有以下优势：第一，可以提供更多的机会来探查“无效”活动的成效；第二，可以提供更多的信息帮助管理者或政策制定者更好地做出决策；第三，可以加深对评估对象的理解，发展社会科学理论；第四，从长期看，可以降低评估的使用成本，提高社会资源的利用效率；第五，对评估的抵制会减少。该评估方法不只是关注狭窄的政策目标，有助于全面测量活动的成效，减轻人们的焦虑。

　　多目标的“理论驱动”的评估强调理论推断潜在目标的价值，而这些目标在评估中可以转化为指标或准则，因此，其对于多指标评估设计有指导意义，但是，理论本身需要得到证明，这是值得评估设计者思考的问题。陈在其随后出版的《理论驱动的评估》（Theory-Driven Evaluations）专着中，进一步完善了“理论驱动”的评估思想。在《实践性评估》（PracticalProgram Evaluation）专着中，陈一方面强调利益相关者的逻辑，即其观点、兴趣（concerns）和需要对于评估的意义，另一方面依然强调理论的价值和科学逻辑的方法论的意义。在评估活动中，考察这两种逻辑有现实意义。

　　二、当代欧洲的现实主义评估方法论

　　现实主义在现代西方哲学和社会科学中占有重要地位。波森（Pawson, R.）和蒂利（Tilley, N.）认为，[4]现实主义作为一种科学哲学，它是现代欧洲人占据着支配地位的思维方式之一。

　　现实主义评估方法论吸收了现实主义哲学的思想，其代表人物波森和蒂利于1997年出版了《现实主义的评估》（Realistic Evaluation）专着，尝试在评估领域提出并讨论一种科学的现实主义的方法论。卡兹（Kazi, M.A. F.）则于2003年出版了专着《实践中的现实主义评价》（Realist Evaluation in Practice），讨论与说明如何将现实主义评估的方法论运用于实践之中。

　　现实主义试图在避免认识论上的实证主义和相对主义的两极之争中寻找自己的科学的解释模型，其关键特征是强调“机制”（mechanisms,简称M）的解释。[5]

　　机制体现了系统或事物的内部潜力和因果关系，体现了系统或事物内部的结构，具有生成性。理解机制的关键就是理解生成的概念，即产出结果（outcomes,简称O）是由系统或事物内部机制的活动而产生的。因此，产出不是由外部投入或输入带来的，外部投入或输入只是激发机制发生作用的条件之一，是机制生成了产出，理解产出的关键，应从系统或事物的内部理解“.产出结果是由特定情境下特定机制的活动来解释的……”

　　但是，机制只有在一定情境（context,简称C）下才能生成产出结果。这意味着机制与其产出结果之间的关系是或然的，[5]不是固定不变的。

　　情境显得如此重要，那么如何理解情境呢？理解情境的前提是理解嵌入的概念。现实主义者认为，一定的人类行为是嵌入在比其范围更广的社会过程中的，这就是社会现实的分层（stratified）性质。理解人类行为需要理解他们在分层的社会现实中所处的位置。这是理解社会系统的出发点。[5]因此，评估对象是与人相关的，总是处于分层的社会关系和组织结构之中。不同的情境实际上反映了一定时间条件下的不同的位置关系和结构关系，也体现了利益相关者的选择和能力。评估方案要获得成功也必须置于一定的情境之中，即置于一定的分层结构之中，在这个结构中找到适当位置。机制为何具有生成功能？因为其含有“潜在”的“因力”,如火药所具有的化学成分。[4]在一定情境（社会关系和组织结构）下，这种力量得以释放出来，生成了产出结果。因此，产出结果 = 机制 + 情境。参见图1.

　　机制是潜在的，需要解释。“潜在机制”是一个重要隐喻，而“可以解释的机制”是一个重要概念，就是要求评估者要深入可以观察到的表象之下，探究其内部隐藏的活动方式。

　　那么，究竟应该怎样理解现实主义的解释的基本策略或逻辑呢？波森和蒂利指出，[5]现实主义社会调查的基本任务就是解释有趣的、令人困惑的和有重要社会意义的产出结果（O）。这种解释采取了针对潜在的规则生成机制，提出假设的形式，并由此探究结构与单元之间的相互作用而带来产出结果的活动方式。现实主义调查还探究该机制是如何表现为或然性的和有条件的，并由此探究其在特定的、地方性的、历史的和制度的情境中如何得以被激活的。显然，解释是现实主义评估的基本目的。

　　机制实际上是指潜在的因果关系机制，对机制进行解释就是解释其生成规则或产出模式，也就是机制如何在一定情境下生成一定的产出结果，它揭示了机制“在什么条件下为谁”而发生了作用（which works forwhom in what conditions）。

　　因此，也可以认为，规则 =机制 + 情境，参见图2.由于我们面对的分层社会是一个开放系统，是变化的，这意味着M、C、R三者之间的平衡要适应“变革”的需要。

　　那么，如何运用现实主义思想进行评估设计呢？

　　波森和蒂利借鉴了华莱士（Wallance,W.）（1971）的“科学之轮”的构想，提出了现实主义评估环，参见图3.该图不同于“科学之轮”一个重要之处在于，它寻求的目标是“阐明”而不是“概括”具有普遍意义的一般原理。

　　现实主义评估不同于自然科学的实验性研究，而是在一定社会情境中的应用性研究，强调评估的发现应该采用“阐明”的形式，即阐明我们目前对于M和C的理解所支撑的那些R或O模式。

　　于是关于理论的认识出现了。究竟应该怎样理解理论？波森和蒂利总结了三位学者的研究成果，认为“理论”可以被理解为以下13种含义，即方法论、具有普遍性的导向、概念的分析、专门的或事后进行的事实的阐释、经验总结、推导和整理、公理系统、假设、解释、范式、概念框架、因果假说、中层理论（middle-rangetheory）等。

　　现实主义评估研究的知识积累过程，由具体到抽象，依次包含5个元素，即进行评估案例研究（聚焦于C、M、O结构）、从经验中发现一致性（针对问题领域中的产出与规则）、形成中层理论（有关风险估计的假设）、构造分析框架（根据理性选择情境分析方案）、形成方法论（生成性因果关系的假说）。前两个属于经验调查领域，后三个是理论家感兴趣的范畴。

　　在数据采集上，波森和蒂利认为，社会科学中关于数据搜集的方法论的思考方面存在缺陷。不管是“教条主义者”还是“实用主义的多元论者”所使用的方法，都在调查的目的方面存在误区。正式的结构性访谈、非正式的开放性访谈、半结构性访谈和采用多方法（the multi-method approach）搜集数据的策略都是“数据驱动”的，其任务是查明能够忠实地体现被调查者思想和行为的信息，因此，其假设是：被调查者的思想和调查的主题是“一回事”.现实主义的调查则是“理论驱动”的，“研究者的理论是访谈的主题，而被调查者（利益相关者）的任务是证实和证伪，最重要的是改进研究者的理论。”

　　这个理论当然是围绕现实主义所关注的C、M、O展开的。由于现实主义评估强调理论的价值，陈指出，[4]现实主义评估可以被视为“理论驱动”的评估观点的家族成员之一。

　　教育评估具有重要的研究功能，评估不应满足于判断，应以此为基础，探究事物的内在活动机理，积累评估的发现与知识，现实主义评估思想为此提供了有益的方法论思考。现实主义评估实际上并不反对观察输入与输出或投入与产出的关系，但是提出了如何解释的问题。研究产出，就要研究机制；输入实际上也是一个机制；解释机制，就是要解释规则；理解规则，需要理解情境。在现实世界中，解释不是唯一的目的，但是其是深刻理解社会活动的基础。

　　现实主义评估的基本思想的参考价值，确实值得进一步深入研究。

　　三、面向真实世界的评估

　　评估作为对世界进行考察的一种方式，是在其所处的真实世界之中进行的。班贝格（Bamberger,M.），鲁（Rugh,J.）和马布里（Mabry,L.）等认为，在真实世界中的大多数评估都会受到实际存在的预算、时间、数据和政治因素等四个方面的约束。

　　他们提出的面向真实世界评估的思想，就试图解决客观条件约束的问题。其方法模型包括以下7个步骤，每一步骤主要关注点如下。

　　第一步，计划与探查（planning and scoping），即理解评估委托人的信息需求和评估活动运作的政治情境；界定对评估对象活动的目标和方法有解释力的理论模型；澄清在预算、时间、数据和政治因素等四个方面影响评估的实施、信息发布和结果利用的约束条件；将以上信息与随后进行的第二阶段至第五阶段的初步分析连接起来，并选择在实际约束条件下能够最佳满足委托人需求的评估方案。

　　第二步，处理预算约束因素（addressing budgeconstraints），即通过改善评估的设计降低成本；合理确定数据的需求；寻求可信的第二手数据；修正和完善抽样设计；利用多种技术提高采集数据方法的效率，更经济地进行数据的采集与分析。

　　第三步，处理时间约束因素（addressing timeconstraints），即采用前一阶段可以利用的方法技术处理时间上的约束问题；委托进行预研究；在处理好预算约束的前提下，雇佣更多的信息采集员；修订方案的记录格式，以采集关键数据，用于对评估对象活动的影响进行评估分析；采用新的数据采集和分析技术，促进评估团队与相关部门的人员之间的互动等。

　　第四步，处理数据约束因素（addressing dataconstraints），即重新构造基线数据；重新构造比较组或控制组；充分利用可以获得的数据；采集来自最恰当的人员、很难接触的群体或敏感话题的数据资料；采用多种方法。

　　第五步，处理政治影响因素（addressing politicalinfluences），即理解来自财政部门、评估设计委托人的压力或其他关键人物的政治观点；应对利益相关者的偏好；考虑专业研究方式的影响。

　　第六步，增进评估的设计和结论的效度，即识别定量评估设计存在的问题；评估质性设计的恰当性；开发混合方法设计的问题检查单；处理定量设计的问题；处理质性设计的恰当性问题；处理混合方法设计的问题。

　　第七步，帮助评估委托人利用评估。即保证评估委托人从一开始就积极参与评估活动；采用形成性评估的方法；在整个评估阶段保持与利益相关者的交流，以形成各方了解的评估最终报告；建设评估能力；采用不同的利益相关者偏好的适当方式，交流评估的发现；开发并监控后续行动计划。

　　高等教育领域的评估在实践中往往也会面对缺少足够的时间、金钱、信息和利益相关者的支持的问题。在这种情形下如何进行西蒙式的满意决策，面向真实世界的评估思想为我们提供了有益的思维材料和技术参考点。现实世界中的评估往往需要建立一定的理论模型，对真实世界中的要素进行必要的简化或转化处理，并基于政治和评估成本的考虑，确立可以操作的恰当的专业化评估方案。评估受到政治因素和成本因素的影响，这可能是面向真实世界的评估研究所揭示的最大真相之一。

　　四、结语

　　古巴（Guba,E.G.）和林肯（Lincoln, Y.S.）的“第四代评估”思想曾经在国内外产生较大影响，其在一定程度上反映了评估方法论由测量学模式转向政治学和社会学模式的趋势。但笔者以为，当代评估方法论多元化发展趋势是十分清晰的。在欧美国家，受新公共管理的反思和基于证据的管理思想的影响，评价方法论似乎又在经历一次科学主义的复兴。因此，我们可以采用下图描述评估方法论的演进历程。

　　如果说A是测量时代，B是描述时代，C是判断时代，则D是多元主义时代的各种方法论的指称。

　　早在二十多年前，斯克里文（Scriven,M.,）指出，评价学科具有跨学科性质，就像逻辑学和统计学一样，作为一门独立学科存在，又可以为其他学科服务，并成为其他学科活动的一部分；评价学科目前还不是一门真正的学科，但达到这种状态已经触手可及；来自实践中的评价思想经由方法论的提升，可以逐渐演化为一门学科。

　　豪斯在引介和评述斯克里文思想的基础上指出，每一门学科都有自己的大宅（Great House），这所大宅的第一层是各种应用性工作，第二层是各种方法和技术，第三层是理论构建工作，阁楼（即第四层）是元理论。

　　从广义上看，方法论的构建、提升和反思应该是后三层分别要涉及或要做的工作。

　　教育评价在我国已经作为一种建制而存在，有专门的评估机构，有相关的法规，在大学中也有自己的课程和专业，但在方法论问题上可能还缺少建构和反思的意识。我们在教育评价这所大宅的第一层已经做了很多工作，因为我们相信任何教育活动和现象都可以成为评价的对象，为此我们不断开拓，辛苦劳作，几乎湮没在大量事务性工作中。我们在第二层也在积极探索和创新，逐渐形成包括指标体系构建在内的一套程式化的评估方法技术，社会科学甚至自然科学所发现的一些新方法和新技术也得以引入评价领域，但是往往忽略诸如这些通用的方法技术如何能够与教育的情境相适应或相结合之类的问题，教育评估方法论的意识相对而言不够强。这种状态直接影响到了第三层的教育评估方法论的争论和理论工作，也延缓了第四层阁楼的搭建。在斯克里文看来，由于教育评价实践有漫长的历史，教育工作者熟悉多学科领域，教育评价者在评价元理论构建方面有出色的生产力。

　　如果我们相信斯克里文的论断，那么教育评价有理由成为一门学科，而方法论的构建与反思可以使这门学科获得自我认同而加速走向成熟。

　　参考文献

　　[1] Guba E. G. and Lincoln,Y.S. Effective Evaluation[M]. SanFrancisco: Jossey-Bass,1981:57-65.

　　[2] 童康。高等学校内部院系效益评估研究[M].上海：华东师大出版社，2011:49-59.

　　[3] Chen, H. and Rossi, P.H. The Multi-Goal, Theory-DrivenApproach to Evaluation [J]. Social Forces,1980 （1）：106-122.

　　[4] Pawson R. and Tilley, N. （a）。 An Introduction to ScientificRealist Evaluation Chelimsky, E, Shadish W.（eds.[）M]. E-valuation for the 21 Century. London:SAGE,1977:405-418,412,413.

　　[5] Pawson,R.and Tilley. N. Realistic Evaluation[M]. London:SAGE,1997:55,59,69,64,71,72,155.

　　[6] Bamberger, M., Rugh,J. & Mabry,L. Realworld Evalua-tion[M]. London: SAGE,2006:1,3-10.

　　[7] House, E.R. Professional Evaluation[M]. London & NewDelhi: SAGE（1993）：86, 87, 88-89.

相关内容推荐