第三章 年度新词语词种的数量分布统计分析
年度新词语随着社会的发展而不断涌现,年度新词语的词种在不同地域媒体上的分布具有一定的时空差异。本章以地域空间为观察点,分别选取了北上广三地晚报语料和京广两地大规模语料,对年度新词语词种的地域分布情况进行定量统计与描写分析,以探讨年度新词语词种的地域分布差异和特点。那么,年度新词语的词种在不同的地域媒体上的分布有什么差异和特点呢?
3.1 北上广三地的新词语词种分布考察
晚报通常以城市市民作为主要读者对象,注重报道社会新闻和文化,内容丰富,语言生动活泼,是年度新词语使用和传播的重要载体。那么,年度新词语词种在不同地域上的分布具有什么差异和特点呢?本节主要基于 2009-2010 年《北京晚报》《新民晚报》和《羊城晚报》语料,对年度新词语词种的地域分布情况进行共时和历时的考察与统计分析。
3.1.1 各地词种分布的总体情况
从总体上看,年度新词语在不同地域媒体上的词种分布量受到年度新词语总量的影响。年度新词语总数越大,各地域媒体的词种分布量也相应地增大,并保持一定的稳态增长。从词种覆盖率上看,年度新词语在不同地域媒体上出现的词种数量不足年度新词语总数的一半。2009-2010 年北上广三地晚报的新词语总数占年度新词语总数的比例平均约为 38.3%。
具体来看,2009 年北上广三地晚报出现的词种数分别为 192 条、213 条、242条,占 2009 年度的新词语总量的比例分别为 34%、37.7%、42.8%;2010 年北上广三地晚报出现的新词语词种数分别为 213 条、247 条、261 条,占 2010 年度的新词语总量的比例分别为 34.2%、39.6%、41.9%。具体情况如表 3.1 所示:
表3.1 北上广晚报的新词语词种分布量统计从表 3.1 可以看出,2009-2010 年北上广各地年度新词语的词种覆盖率是相对稳定的,两年的覆盖率均保持在 33%—43%之间,词种覆盖率变化均保持在 2%以内。另一方面,2009-2010 年新词语在《北京晚报》《新民晚报》和《羊城晚报》中的词种分布量呈递增的趋势,按地区从低到高依次为北京、上海和广州。
总的来说,新词语的地域分布量随着年度新词语总量的变化而变化,并保持相对稳定的状态。那么,这些年度新词语中哪些是北上广三地的共用新词语?哪些是三地的独用新词语?共用新词语和独用新词语的分布有什么特点呢?
3.1.2 共用新词语词种分布情况
共用新词语主要指的是相同的新词语词种出现在不同的地域媒体之中。从语言监测的角度来看,共用新词语在一定程度上反映的是年度新词语词种分布的地域差异。一般来说,每个地域媒体中出现的年度新词语总量是确定的,如果共用新词语的分布量占各地域媒体的新词语总量的比例越大,那么,新词语词种分布的地域差异越小。反之,则地域差异越大。
从地域分布的角度看,北上广三地的共用新词语主要有两种情况:一是北上广“三地共用”的新词语;二是“部分共用”的新词语。其中,部分共用又包括北上共用新词语、北广共用新词语和上广共用新词语。总体上,北上广共用新词语词种分布的特点是:“三地共用”新词语占年度新词语总数的比例较大,平均超过 16%;“部分共用”新词语占比较小,平均占年度新词语总数的比例约为 6%。
具体情况如表 3.2 所示:
表3.2 北上广晚报的共用新词语分布情况从地域媒体的角度看,共用新词语词种分布量占北上广各地的新词语词种总数的比例较大。具体来看,2009 年北上广三地晚报的新词语词种总数分别为193 条、214 条、243 条,其中,共用新词语(三地共用+部分共用)词种总数分别为 160 条、158 条、179 条,分别占各地晚报新词语总数 82.9%、73.8%、73.7%。
2010 年北上广三地晚报的新词语词种总数分别为 213 条、247 条、261 条,其中,共用新词语词种总数分别为 173 条、177 条、184 条,分别占各地晚报新词语总数的 81.2%、71.7%、70.5%。具体数据如表 3.3 所示:
表3.3 北上广晚报年度新词语的共用情况由表 3.3 可以看出,除 2009 年北京地区之外,共用新词语在北上广三地晚报中的分布量呈递增趋势,与此同时,共用新词语占各地新词语总数的比例呈递减的趋势。总体上,2009-2010 年北上广三地的年度新词语以共用新词语为主,共用新词语在地域分布上具有绝对的优势。这表明:在一个相对的共时范围内,年度新词语具有较好的流通性,地域分布较为广泛,时空差异并不明显。
3.1.3 独用新词语词种分布情况
独用新词语指在一定的时间范围内,仅出现在某个地域媒体中的新词语,是语言使用的一种相对稳态。独用新词语一旦传播到其它地域媒体,便成了共用新词语。因此,大部分独用新词语往往具有使用频率低,流通能力弱等特点。从某种意义上说,独用新词语本身就具有一定的地域差异。那么,北上广独用新词语的词种分布有什么特点呢?
从总体上看,独用新词语的词种分布量随着各地域媒体的新词语词种总数的增加而增加,北上广三地晚报的独用新词语词种分布量呈递增的趋势。其中,2009年北上广三地晚报的独用新词语分别为 33 条、56 条、64 条,占各地晚报年度新词语总数的比例分别为 17.1%、26.2%、26.3%;2010 年北上广三地晚报的独用新词语分别为 40 条、70 条、77 条,占各地晚报的年度新词语总数的比例分别为18.8%、28.3%、29.5%。具体数据如表 3.4 所示:
表3.4 北上广晚报年度新词语的独用情况从表 3.3 和表 3.4 不难看出,独用新词语和共用新词语一样,都随着年度新词语总量的增加而增加,实际上,这种变化受到了语料规模的影响。我们对北上广三地晚报的语料规模进行了统计,统计结果表明:语料规模越大,年度新词语的词种数量则会越大,反之则越小。如表 3.5 所示:
表3.5 年度新词语词种数量与语料规模统计从表 3.5 的数据变化情况可以看出,除 2009 年《北京晚报》的共用新词语外,共用新词语和独用新词语都与语料规模成正比关系,语料规模增大的同时,共用新词语和独用新词语的词种数量也随之增大,并保持着相对稳定的增长速度。
3.1.4 北上广新词语历时考察
张普教授(2003)指出:“共时状态强调的是时点,历时状态强调的是时段。”时段是由多个较小颗粒度的时点排列而成的一个时间序列,语言的发展贯穿于整个时间序列,并在这个序列上呈现出一定的特征或规律。从语言监测的角度看,年度新词语是不断产生、使用并传播开来的,不同新词语在产生、使用和传播的过程中存在一定的时空差异,如有些新词语出现得比较早,有些新词语持续使用的时间比较长等等。那么,年度新词语词种的历时分布情况有什么特点呢?
3.1.4.1 共用新词语历时变化考察
从历时的角度看,年度新词语的产生和使用具有持续性和稳定性的特点。持续性表现在时间上的不间断性或延续性,即每个时段或时点上都有新词语不断产生。稳定性表现在时段与时段之间,或时点与时点之间产生的新词语数量总是处于一个稳定的变化范围。
从语言监测的数据上看,各个时点上都有一定数量的新增新词语词种出现,新增词种数主要集中在 5-10 个之间。这表明年度新词语的产生具有一定的持续性和稳定性。如表 3.6 所示。其中,新增词种是指该时点上第一次出现和使用的新词语,不包括上一个时点的累计词种数。
表3.6 共用新词语的新增词种数量分布情况由此可见,2009-2010 年北上广共用新词语随着时间的发展而不断出现,各个时点上的新增词种数量变化较为稳定。那么,年度新词语出现以后能否被持续使用呢?各地域媒体使用的新词语词种什么特点呢?
我们对 2009-2010 北上广三地晚报的年度新词语的新增词种数与累计词种数进行了历时地跟踪与考察,获得了各个时点上的新增词种数与累计词种数的动态数据。为了进一步反映年度新词语词种的持续使用情况,我们将各个时点上的累计词种数与新增词种数作差,获得词种差的历时变化曲线图。基本的数据计算方法如下:
时点={m|m=1,2,……,12},其中,规定月份为一个时点,每年共 12 个时点。新增词种数:指该时点上首次出现和使用的新词语。累计词种数:指该时点上使用的所有词种数,不考虑词种是否首次出现。时点 m 的词种差=时点 m 的词种累计数-时点 m 的新增词种数+时点 m 的初始值。其中,时点 m 的初始值反映的是不同地域媒体的词种差曲线的最低点,能进一步反映出不同地域媒体间词种差曲线的变化差异。
2009 年和 2010 年北上广共用新词语词种差的历时曲线图,如图 3.1 和图 3.2所示:
图3.1 2009 年北上广共用新词语词种差历时曲线
词种差反映的是新词语词种的持续使用程度和丰富程度。一般地,随着新词语的不断出现和使用,词种差的历时曲线呈现“逐渐上升”的趋势。词种差的历时曲线变化越平缓,新词语的持续使用程度就越低,反之,持续使用程度则越高。
从图 3.1 可以看出,2009 年北上广三地晚报中,《羊城晚报》新词语的持续使用程度最高,《北京晚报》和《新民晚报》的持续使用程度相当,词种的丰富程度较为接近。
图3.2 2010 年北上广共用新词语词种差历时曲线
图 3.2 显示,2010 年北上广三地晚报中,《北京晚报》的新词语持续使用程度最低,在十月至十二月期间出现了陡增的态势。一月至八月,《新民晚报》的新词语持续使用程度最高,《羊城晚报》次之。这与上海世博会的举办有一定的关系,一些反映“世博会”的新词语的持续使用程度较高,如“世博护照”、“小白菜”、“蓝精灵”、“七彩之心”、“志愿彩”和“绿羊羊”等。十二月,北上广三地晚报都出现了较为明显的“陡增”态势。这主要是因为一些新用法、新概念和新事物在这一时期得以广泛使用。如一些新用法主要有:“糖高宗”、“苹什么”、“姜你军”、“豆你玩”、“蒜你狠”、“油你涨”、“药你苦”等;一些新概念主要有:“给力”、“神马”等;一些新事物主要有:“羊羔体”、“孔雀哥”、“裸账”、“偷票房”、“智障包身工”等。因此,年度新词语的持续使用程度的差异与社会热点、新事物、新现象的关注程度有密切的关系。
3.1.4.2 独用新词语历时变化情况
大部分独用新词语都是临时性用词,由于受到时空的限制,仅仅在某个地域中昙花一现,便悄然消亡了。从历时的角度来看,绝大部分独用新词语仅仅在某一两个时点上出现,具有散点分布的特点。我们对 2009-2010 年北上广各地晚报中独用新词语的散布情况进行了统计,平均有 79.5%的独用词仅在一个时点上使用,平均有 14.3%的独用新词语只在两个时点上使用,而散布在 1-2 个时点的独用新词语占各地独用新词语词种总数的比例高达 93.8%。如表 3.7 所示:
表3.7 北上广独用新词语时点散布情况从历时的角度看,大部分独用新词语都不是持续使用的,而是呈现出“散点式”分布状。因此,独用新词语在各个时点上的词种使用度较低,具有明显的偶发性特点和语词功能。