三、数据和计量模型
1. 数据收集
本研究的样本来自 2010 年山东省济南市 9 个区县的 25 所公立普通高中的学生个体数据,抽样策略是分层不等比聚类抽样。抽样覆盖 15 所城市学校,8 所县级学校,2 所农村学校。在每所高中内随机抽取 3 -5 个班级,以保证收集到不同类型的班级( 文科班、理科班、普通班、重点班) ,每个被抽取到的班级中的所有学生都参与调查( 每班大约 50 -60 人) ,本研究共发放问卷 6474 份,其中有效问卷 5840 份,问卷有效回收率 90. 21%.山东省是中国高考大省之一,并且是中国教育政策研究的代表性省份,济南市作为山东省的省会城市,其社会及经济发展具有一定的代表性。
由于部分样本在不同变量存在数据缺失情况,如果简单将带有 1 个或多个缺失值的样本点剔除,会损失大量样本。为了更加充分地利用所有观察到的数据,避免现有数据与未观察到的数据间存在较大差异,保证研究结果的准确性,本文采用国际通用的多次估算( Multiple Imputation,MI) 方法对缺失数据进行填补。MI 法是由 Rubin 在 1987 年首先提出的,该方法的推断原理如下:⑥( 1) 基于对各个变量之间的相关关系的估算,为每个缺失值估算一个可能的填补值 + 随机扰动项,从而产生一个完整数据集; ( 2) 多次重复步骤( 1) ,从而产生多套完整的数据集; ( 3) 在每一套填补完整的数据集上进行计量分析,并得出参数估计值、标准误以及相关统计量; ( 4) 对来自各填补数据集的结果进行综合,得出最终的一组参数估计值,标准误以及相关统计量。
2. 变量设定
影响高中生家庭教育支出的因素有很多,本文结合前人研究以及实际情况,从以下角度选取自变量:
( 1) 家庭年收入( Yearly income) : 问卷中为家庭月收入分类变量,分为 12 个等级: 500 元以下,500 ~1000 元,1000 ~ 2000 元,2000 ~ 3000 元,3000 ~ 4000 元,4000 ~ 5000 元,5000 ~ 6000 元,6000 ~ 7000 元,7000 ~ 9000 元,9000 ~ 11000 元,11000 ~ 15000 元,15000 ~ 20000 元。本研究将其转换为连续变量,分别取每个等级的上限作为家庭收入的真实值。家庭年收入 = 家庭月收入 ×12.
( 2) 中考成绩( ZHSEESUM) : 中考成绩是中考总分标准化成均值为 0 标准差为 1 的标准化分数。
( 3) 性别( Female) : 设定为虚拟变量,女性为 1,男性为 0.
( 4) 城乡生源( Rural) : 设定为虚拟变量,农村生源为 1,城市生源为 0.
( 5) 兄弟姐妹数( SibNo) : 设定为有序类属变量,分为 0 个、1 个、2 个、“3 个及以上”四个等级。
( 6) 单亲家庭( SINGP) : 设定为虚拟变量,单亲家庭为 1,非单亲家庭为 0.
( 7) 社会经济地位( SES) : 连续变量,通过主成分分析法把父母受教育程度、父亲/男监护人和母亲/女监护人的职业社会地位排序这四个变量合成为一个 SES 指标。
本研究对因变量“高三家庭教育成本”的衡量包括以下几个统计口径: “家庭教育支出”,“自报家庭教育支出”,“家庭教育净成本”,“学校相关的家庭教育支出”,“家庭教育负担”,“自报家庭教育负担”.
各项统计指标计算方法如下:( 1) 学校相关的家庭教育支出 =择校费3+ 学费 + 住宿费( 2) 家庭教育支出 =择校费3+ 学费 + 住宿费 + 课外补习支出 + 其他支出( 3) 家庭教育净成本 = 家庭教育支出 - 奖学金 - 助学金( 4) 家庭教育负担 =家庭教育支出家庭年收入( 5) 自报家庭教育负担 =自报家庭教育支出家庭年收入其中,择校费是一次性付清三年的费用,因此高三当年的成本为其 1/3.
3. 实证模型
本研究的回归模型可以表达为:Log = β0+ β1log( yearlyincome) + β2ZHSEESUM + β3Female+ β4Rural + β5SES + β6SibNo + β7SINGP + ε其中 exp 是因变量,根据情况选取不同的因变量进行回归,即“家庭教育支出”,“自报家庭教育支出”,“家庭教育净成本”,“学校相关的家庭教育支出”,“家庭教育负担”,“自报家庭教育负担”,βiX 是回归系数和自变量。
回归分析通过计量分析软件 Stata 13. 0 进行。相关数据描述和回归结果报告如下。