3.2 京广两地的新词语词种分布考察
从上一节对语料规模的统计结果来看,通常语料规模越大,年度新词语的词种数量则会越大。另一方面,语料规模越大,则越能反映语言使用的最真实的面貌。对一个地域来说,语料覆盖面越广,规模越大,则越能真实地反映该地区语言使用的状况。那么,在一个较大规模语料库的基础上,年度新词语词种的地域分布会呈现出什么差异和特点呢?本节主要对京广两地的大规模报纸媒体语料进行调查与分析。其中,北京地区的语料包括 2006-2011 年《北京青年报》《北京日报》和《北京晚报》六年的共时和历时语料,总文本数 933,427 个,共1,331,985,774 字节。广州地区的语料有 2006-2011 年《广州日报》《南方周末》和《羊城晚报》六年的共时和历时的语料,总文本数 1,191,476 个 ,共计1,792,556,886 字节。
3.2.1 两地词种分布的总体情况
从五年的总体情况看,京广两地的新词语总量随着年度新词语总量的增加而增加,北京地区五年的新词语词种总量高于广州地区的词种总量。其中,北京地区五年的新词语词种总量平均约占年度新词语词种总量的 52.2%,广州地区五年的新词语词种总量平均约占年度新词语词种总量的 47.9%。
从两地共用新词语的使用情况来看,2006-2010 年京广两地共用新词语的词种覆盖率不足年度新词语总数的一半,平均为 35.2%。从两地独用新词语的使用情况来看,2006-2010 年北京地区的独用新词语词种总数占年度新词语词种总数的平均比例约为 17%;广州地区的独用新词语词种总数占年度新词语词种总数的平均比例约为 12.7%。具体如表 3.8 所示:
表3.8 2006-2010 京广两地年度新词语分布情况从大规模语料的调查结果来看,除 2010 年外,北京地区的年度新词语词种数量均高于广州地区。这与北上广三地晚报的调查结果截然相反。从年度新词语词种的地域分布上看,北京地区五年的词种覆盖率平均超过 52%,而广州地区五年的词种覆盖率平均不足 48%。可见,北京地区的年度新词语词种的使用程度较高。
3.2.2 共用新词语词种分布情况
从大规模语料的统计结果上看,共用新词语的词种覆盖率随着语料规模的增大而增大,2006-2010 年京广两地的共用新词语占年度新词语总数的比例平均约为 35.2%,其中,词种覆盖率最高的 2010 年,占年度新词语总数的 42.7%;词种覆盖率最低的是 2007 年,占年度新词语总数的 30.2%,两地共用新词语的词种覆盖率保持在 35%左右,总体上相对稳定。
从新词语词种的地域分布上看,共用新词语是京广两地年度新词语的主要形式,共用新词语在京广两地占有较大比重。其中,2006-2010 年北京地区的共用新词语平均约为 67.4%,广州地区的共用新词语平均约为 73.7%。具体数据如表3.9 所示:
表3.9 共用新词语占各地词种总数的比例从表 3.9 的数据可以看出,共用新词语在地域分布上具有绝对的优势,共用现象仍然是京广两地年度新词语的主要特征。这在一定程度上表明大部分年度新词语都具有较好的地域流通性。
3.2.3 独用新词语词种分布情况
从词种的地域分布情况来看,京广两地独用新词语的词种数量相对较小。总体上,独用新词语和共用新词语一样,随着年度新词语词种总量的增加而增加,并保持相对稳定的状态。其中,2006-2010 年北京地区的独用新词语占该地新词语总数的比例平均约为 32.6%,占年度新词语总数的比例约为 17%;2006-2010年广州地区的独用新词语占该地年度新词语总数的比例平均约为 26.3%,占年度新词语总数的比例约为 12.7%。具体数据如表 3.10 所示:
表3.10 独用新词语占各地词种总数的比例可见,在大规模语料的基础上,独用新词语在京广两地的年度新词语中占有较大的比重。独用新词语的词种数量差异决定了京广两地的新词语词种总量的差异,换句话说,独用新词语数量越大,该地区的年度新词语总量也就越大。
3.2.4 京广新词语历时考察
从历时的角度看,由于每个时点上的新增词种数量相对较小,因此,年度新词语在各个时点上的累计词种数变化与新词语的活跃程度有一定的关系。一般来说,如果某一个时点上的累计词种数与它上一个时点的累计词种数相差越大,那么,该时点上的新词语活跃程度就越高。那么,京广两地年度新词语词种的历时分布情况有什么特点呢?
3.2.4.1 共用新词语历时变化情况
累计词种数指的是某一个时点上出现的新词语总数,是新词语使用和活跃程度的一种反映。从累计词种数的分布情况来看,共用新词语总体上呈现“逐渐上升”的趋势。
从各时点的词种平均值上看,2006 年京广两地分别为 18.3 条和 17.5 条;2007 年分别为 37.3 条和 34.8 条;2008 年分别为 41 条和 43.8 条;2009 年分别为 48.5 条和 46.2 条;2010 年分别为 52.1 条和 59.8 条。其中,平均值差值最大的是 2010 年,其次是 2008 年,差值最小的是 2006 年。具体数据如表 3.11 所示:
表3.11 京广共用新词语累计词种数历时使用情况在同一年度中,如果不同地域的平均累计词种数相差越大,则表明共用新词语词种使用的地域差异相对越大。反之,共用新词语词种使用的地域差异相对较小。表 3.11 可以看出,2006 年京广两地的平均累计词种数差值最小,而 2010年差值最大。以下分别是 2006 年和 2010 年京广两地的共用新词语的累计词种数历时变化曲线,如图 3.3、图 3.4 所示:
图3.3 2006 年共用新词语的累计词种数历时曲线图
从图 3.3 可以看出,两条曲线在各个时点上都较为接近,并且整条曲线变化较为平缓,这说明 2006 年京广两地共用新词语的词种累计没有明显的地域差异。
图3.4 2010 年共用词词种累计曲线图
图 3.4 中两条曲线清晰可辨,并且整个曲线呈“曲折上升”的趋势,这说明2010 年广州地区的共用新词语活跃程度高于北京地区,但两条曲线在各个时点上的变化趋势基本一致。
3.2.4.2 独用新词语历时变化情况
从北上广三地晚报独用词的调查结果可知,大部分独用词仅仅在某个地域中昙花一现,使用频次较低,并且绝大多数的独用词在时点散布上比较单一。那么,对于较大规模语料来说,京广两地的独用新词语具有什么特点呢?
从累计词种数的历时分布情况上看,独用新词语在各个时点上的地域差异比较明显。从平均累计词种数来看,2006-2010 年北京地区的独用词词种使用程度高于广州地区,并且各个时点上的词种使用程度差异也较为明显。具体数据如表3.12 所示:
表3.12 独用新词语累计词种数历时使用情况为了便于观察,以下分别是京广两地 2006-2010 年的独用新词语累计词种数的历时分布曲线图,如:
图3.5 2006 年京广两地独用新词语词种累计曲线图
图3.6 2007 年京广两地独用新词语词种累计曲线图
图3.7 2008 年京广两地独用新词语词种累计曲线图
图3.8 2009 年京广两地独用新词语词种累计曲线图
图3.9 2010 年京广两地独用新词语词种累计曲线图
从历时的角度看,各地独用新词语的累计词种数并不是“逐渐上升”的,而是呈现出了“起伏跌宕”的特点。这是因为大多数独用新词语的时点散布比较单一,很多新词语都具有临时使用的特点,因此,独用新词语具有明显的偶发性和临时的语用功能。
3.3 本章小结
本章主要对北上广三地晚报和京广两地大规模语料的年度新词语分布情况进行了统计分析,从共时和历时的角度考察了各地共用新词语和独用新词语的使用情况,主要得出以下结论:
第一,年度新词语在不同的地域媒体上出现的数量不足年度新词语总数的一半。其中,2009-2010 年北上广三地晚报的年度新词语总数占年度新词语总数平均保持在 38%左右;2006-2010 年京广两地的年度新词语总数占年度新词语总数平均保持在 47%左右。
第二,各地区的年度新词语中,共用新词语占绝对优势。其中,2009-2010年北上广三地晚报中的共用新词语占各地区的年度新词语总数平均为 75.4%;2006-2010 京广两地的共用新词语占各地区的年度新词语总数平均为 70.5%。这是由于共用新词语通常具有较好的地域流通性,地域分布较广泛,使用频次较高的原因等。
第三,从独用新词语的角度看,2009-2010 年北上广三地晚报的独用新词语总数占年度新词语总数的比例平均为 9.2%,占各地区的年度新词语总数的比例平均为 24.4%。2006-2010 年京广两地的独用新词语总数占年度新词语总数的比例平均为 14.3%,占各地区的年度新词语总数的比例约为 26.7%。
第四,从新词语的历时(年度内)情况来看,各地区的共用新词语词种分布相对平衡,各个时点上的词种数量相对较稳定;各地区的独用新词语在时点上的分布呈“散点式”,时点分布单一。