1. 引言
定量研究质量评估近年来越来越受到学术界的重视,尤其表现在系统评价和元分析中(Lazaraton2000;Plonsky 2014;郑新民 2009;李德俊,洪艳青2012;鲍贵 2014a,2014b)。基于某个研究课题的系统评价和元分析包括两大类。一类是囊括关联性研究和实验研究的系统评价和元分析(Plonsky & Gass2011;Plonsky 2013;何家宁,张文忠 2009);另一类是对实验研究的元分析(Norris & Ortega 2000;Huang etal. 2012)。较为全面的、不限于某个研究课题的实验研究系统评价则很少(吴旭东 2002)。这在一定程度上说明综合评价实验研究难度很大。
系统回顾和元分析的价值取决于各项实验研究的质量。鉴于实验各个环节所包含的要素的复杂性,前期研究评价主要就实验的若干要素进行评估,致使评价难免以偏概全。应用语言学界似乎普遍缺乏实验研究的系统知识,对实验研究的系统评价体系了解或应用不足。本文主要以应用语言学为背景评述 实 验 研 究 最 有 代 表 性 的 评 估 体 系-坎 贝 尔(Campbell)开创的效度框架(validity framework),为全面评估语言学实验研究的质量提供必要的参考依据。
2. 坎贝尔实验研究效度框架
Campbel(l1957)首次在实验研究的评估中引入“效度”的概念,将之二分为内部效度(internalvalidity)和外部效度(external validity)。历经半个多世纪,坎贝尔效度研究传统的发展大致经历了三个阶段,每个阶段的发展集中体现为 Campbell 及其同事的代表作。第一个阶段为上个世纪 60 年代,代表作是 Campbell & Stanley(1966)的实验和准实验设计研究。第二阶段为上个世纪 70、80 年代,代表作是Cook & Campbel(l1979)关于准实验设计的研究,提出了效度四分法,即内部效度、统计结论效度(statistical conclusion validity)、构念效度(constructvalidity)和外部效度。本世纪初为 Campbell 效度研究发展的第三个阶段,代表作是 Shadish et al(。2002)关于广义因果推断的实验和准实验设计研究,继承与发展了前一个阶段的效度理论。坎贝尔效度评估框架以效度分类和效度威胁(threats to validity)清单为特色,注重推广理论的构建。下面以 Shadish et al.(2002)为主评述坎贝尔实验研究效度框架。
2.1 效度类型
效度指推断的近似真实性(Shadish et al. 2002:34)。“近似”这一限制语表明,我们绝不可能知道什么是真实的,充其量只能知道什么还没有作为错误被排除(Cook & Campbell 1979:37)。效度是推断的属性,不是研究设计或方法的属性 (Shadish et al. 2002:34)。在效度分类上,Shadish et al(。2002)沿用了 Cook& Campbell(1979)的效度四分法。
根据 Cook & Campbel(l1979:41),统计结论效度推断在 α 的某个水平上,由方差推定协变异的合理性。Shadish et al。(2002)对 Cook & Campbel(l1979)的统计结论效度的定义做了拓展,包括他们没有给予足够重视的实验效应量(effect size)的大小。
内部效度推断观察到的操纵变量 A(推定的处理)和测量变量 B(推定的结果)之间的协变异是否由A 导致了 B(Shadish et al. 2002:38)。这一定义强调推断处理变量 A 和结果变量 B 之间的因果关系,且在A 和 B 之间加上了限制语“推定的”(presumed)。“推定的”处理和“推定的”结果隐含着实际的研究操作未必就是计划的研究操作,可能还包括外扰因素。
Cook & Campbel(l1979:38)将构念效度的指称范围限制为处理和结果(或结果测量),但是 Shadishet al(。2002:38)扩大了指称范围,将构念效度定义为从研究中对人、场景、处理和结果的操作向这些操作可能代表的构念所做推断的合理性。Shadish et al.(2002:38-39)认为,虽然 Cook & Campbel(l1979)将构念效度的应用范围限制在处理和结果测量有一定的道理,但是这种对因果构念效度的重视有时让人觉得对人和场景总体的概括不重要,构念效度理应包括这两个层面。
Cook & Campbell(1979:38-39)将外部效度的指称范围限制为人、场景和时间。Shadish et al。(2002:38)则不将时间维度单列,将外部效度定义为在人、场景、处理和结果测量发生变化时推断因果关系成立的有效性。Shadish et al。(2002)定义中的外部效度指称范围等同于构念效度的指称范围,包括 Cook &Campbel(l1979)提到的两类推广---向总体的推广和在子总体之间推广。
2.2 效度威胁种类
效度威胁是使推断失效的因素。效度威胁可以从不同角度去理解。它们是合理的对立假 设(plausible rival hypotheses),即与实验处理有效应假设相对立的假设,也是混淆变量(confounds),或是无效度的来源(sources of invalidity)。
2.2.1 统计结论效度威胁Shadish et al。(2002:42-52)列出九个统计结论效度威胁。这些威胁及其描述如表 1 所示。表 1 中,第一、二个威胁涉及处理变量操作和结果变量测量的信度问题。信度是效度的前提条件。没有信度,就谈不上效度。第三至第五个威胁是统计分析存在的问题,如错误使用统计分析和效应量估计方法或没有对异常值进行必要的诊断与处理。统计效力低不仅与处理和结果测量的信度有关,而且可能是第七至第九个威胁的直接结果。
2.2.2 内部效度威胁Shadish et al。(2002:54-61)也列出九个内部效度威胁。这些威胁及其描述如表 2 所示。原因变量在前,结果变量在后,这是推断因果关系的必要条件之一。在实验研究中,处理变量的操纵发生在因变量的测量之前,研究者不必担心模糊的时序性威胁。表 2 中的第二至第五个威胁与被试特征有关。第六至第八个威胁与实验程序有关。
第九个威胁反映不同威胁的交互作用。譬如,在包括两个非对等(nonequivalent)组的准实验中,如果一个组的前测成绩不仅明显好于另一个组,而且成绩随时间提升的速度也更快,那么选择和成熟就有可能会加倍提升其后测成绩,产生选择与成熟叠加效应。
2.2.3 构念效度威胁Shadish et al。(2002:72-81)列出十四个构念效度威胁。表 3 概括了十一个构念效度威胁。表 3 中前五个威胁,既适用于处理和结果变量,又适用于人和场景,其他威胁主要针对结果变量的构念效度问题,尤其针对处理变量的构念效度问题。Shadish et al。(2002:73)列出的最后四个威胁(补偿性平等、补偿性竞争、怨恨性怠工和处理扩散)在表中被统称为污染威胁。这样做的目的是减少读者的记忆负荷。当实验处理向处理组提供合意的物品或服务时,管理者或相关人员或许认为控制组受到不平等待遇,于是向控制组提供一些物品或服务作为补偿,这些补偿就会成为实际的处理构念的一部分,由此产生(目标)处理的构念效度威胁。
补偿性竞争威胁指没有接受处理的参与者通过努力试图证明自己的表现不亚于接受处理的参与者。
这种补偿性竞争包括在实际的处理过程中,对(目标)处理构念的效度构成威胁。参与者的行为结果被公开,表现不佳会产生不良后果,通常都会引发补偿性竞争。怨恨性怠工在某些方面与补偿性竞争相反。处于不利的条件可能激发控制组加倍努力赶上或超过处理组,也可能使控制组产生怨气,消极怠工,削弱行为表现的结果。在外语教学实验研究中,处于不利条件中的控制组意识到隔壁班级的学生得到有利的处理时可能会垂头丧气,对教学产生对立情绪,故意表现不佳或捣乱。这些因素有可能导致实验组和控制组后测的差异。如果把后测差异仅归因于(目标)处理,那就大错特错了。当处理组和控制组距离很近,而且能够与控制组交流处理的信息时,就有可能产生处理扩散威胁。出现处理扩散时,实验结果就会无效,因为处理扩散与(目标)处理构念相混淆。
表 3 列出的威胁中,不好理解的威胁可能是单一操作偏差、单一方法偏差和对处理敏感的因子结构。
单一操作偏差和单一方法偏差是由不充分的构念操作引起的效度威胁。单一操作可能不足以代表构念,且包含无关因素。假设你认为男性学生更愿意向女性教师求教外语学习方法,于是将一批男生随机分成两组被试,检验假设的合理性。一组被试阅读关于一位女性教师的文字描述(包括女性化姓名),并附上照片。另一组被试则阅读关于一位男性教师的文字描述(包括男性化姓名),并附上照片。被试随后填写问卷,表明他们向男性或女性教师求教的意愿性程度。由于该例对性别的操作只限于一次描述、一个姓名和一张照片,因而性别的操作定义偏窄,研究发现也许只适合于这一特殊的操作范例。一个更好的操作方法是使用多个描述、多个姓名和多张照片。使用多个范例有助于发现范例的变化是否对测量结果产生影响。实际研究中,自变量的多元操作常常很难实施。相比之下,对因变量进行多个测量则较为容易。