现有统计数据都属于二次数据,有两类来源:一类是组织内部,如企业财务报表、市场调查报告等;另一类是政府公共组织和咨询机构公布的资料。原始数据的优点是可以完全按研究者的要求去收集数据,贴近操作变量的含义,并可监控外部的干扰因素,以保证数据的信度和效度。缺点是费时、成本高。二次数据优缺点正好相反。二次数据由于成本低、费时少,吸引研究者优先考虑采用。如果研究对象是过去的事件,那更要依赖二次数据。
应用现有统计数据进行论证, 一定要服从研究假设的要求和操作变量的含义。由于二次数据原收集者的意图与二次数据引用者所欲达到的目的不可能相同,这会导致在应用中出现问题,研究者需要心中有数,多加辨别,消除偏差。值得注意的问题有研究对象错位,以及信度和效度不足。
一、区位谬误
统计报表的数据一般都经过分类,多半是以地域、组织等群体为分析单位,但许多研究者又期望使用这些数据来作出以个体为分析单位的论断。这种由于分析单位引起的偏差称为区位谬误( ecological fllacy)。 例如,城市人口比重大的省份,其大学升学率也高,但这组数据并不能作为“城市学生的大学升学率高于农村学生的大学升学率”这个假设的论据。因为这组统计数据是以“省份”为分析对象,而后者的结论是以“学生”为分析对象得出的,不能以“省份”的数据推出“学生”个体的结论。如果要做比较研究的话,就须将“学生”作为分析对象,从农村学生和城市学生中抽样,在两组样本符合同一性和环境条件同一性的情况下进行测试,才可能对农村学生和城市学生升人大学可能性的差异作出科学判断。
同样,以个体为分析单位的数据用来推断以群体为分析单位的论断也会引起个体谬误( individualistic fllacy)。例如,数据显示大学本科毕业生的创业成功率大于博士毕业生的创业成功率,如用此数据来推论博士创业的企业要比本科生创业的企业绩效差,这就不确切了,前者分析单位是毕业生个体,而后者分析单位是企业。博士创业可能成功率低,但创业成功后,企业绩效未必就比较差,至少要另行研究才能得出结论。
分析单位的错位,不仅发生在个体与群体之间,个体与另一个体,群体与另一群体之间也可能出现类似情况。
二、信度和效度
现有统计数据能否应用,要考察所提供的数据是否信度合格,即数据是否精确地描述了某个变量的属性。为此,要了解这些数据是由谁收集的,收集的目的何在,并分析所用的收集方法是否存在什么缺陷。
从效度出发,首先要考察数据的时间幅度和空间范围。查看数据是何时收集的,是否适用于本研究。如果用10年前的调研统计数据去说明当前的消费行为;用江苏企业的数据来说明山西或黑龙江企业的问题;企业的数据用于学校,那效度就差。其次,数据是代表某个变量的属性,应用数据时要考虑到数据背后的变量是什么,原研究者对该变量赋予了怎样的含义,与本研究对此变量的定义是否一致。
一些公共组织发布的各种指数(生活质量指数、满意度、集聚度、透明度和廉政指数等),其实都是变量或变量组合。如果某项研究对这些指数赋予不同的含义,又用这些数据来论证自已的假设,那效度势必打折扣。