一、引言
音高是语音的基频心理对应物,即基频的知觉相关物。 频率越高,音高也越高,但它们的关系是非线性的[1]205. 音高是研究声调的重要参量,音高取决于基频。 本文关于普通话声调调素的音高实验也是通过提取基频值完成的。
调素是声调的最小单位,它既可以表示音长,又可以表示音高。 林华(1998)提出调素理论,认为普通话音高可用高、中、低三个调素表示,分别标作 H、M、L. 普通话四个调类用调素表示为:阴平=HHH,阳平=MHH,上声=LLM,去声=HML[2]. 对调素理论,张旭(2000)[3]和刘俐李(2004)[4]134有过补充或修订,郑新春等(2000)还把调素理论应用于语音合成研究,大大提高了合成语音的自然度[5]. 笔者曾用实验的方法研究普通话声调调素的音长,认为声调内部可分为弯头段-非核心调素段-核心调素段-非核心调素段-降尾段五个部分,且得出普通话不同声调五个部分的比例关系。 调素既可以表示音长,也可以表示音高,本文就在音长研究的基础上探讨普通话声调调素的音高特性。
二、样本标注
从《普通话水平测试实施纲要》所附光盘中选择实验样本,共 12 个,分别为:依、淤、阿,遗、鱼、吴,以、语、舞,议、寓、物。 使用 Praat 软件对样本进行标注,每个样本标两层,分别是音节层和分析层,用它们汉语拼音的缩写 yj 和 fx 来标记。音节层标出样本的全部音节范围,分析层是研究的主要对象。分析层标出五个部分:弯头段(w)、首调素段(q)、中调素段(z)、尾调素段(h)和降尾段(j)。 为了使标注更准确,样本的前后两头加了 50 ms 的静音段, 在语图上表现为音节两头的空白段。
三、实验结果与讨论
利用 Praat 软件的脚本程序提取各个标注段的基频数据。 本实验对各个标注段提取五个基频点的数据,将每个调类所辖样本的各调素基频数据汇总,利用 Excel 软件求出它们的均值和标准差。 实验数据见表 1.
从表 1 中的数据计算得出, 阴平调的首调素、中调素和尾调素五个基频点的均值接近, 分别为186.6 Hz、185.6 Hz 和 182 Hz,都超过 180 Hz. 阳平调的首调素均值较低, 为 145.4 Hz; 尾调素均值较高,为 211.2 Hz,比阴平调三个调素的均值都高。 上声调的中调素均值最低,只有 107.2 Hz;首调素均值也很低,有 110.8 Hz,只比中调素的均值多了 3.6 Hz;尾调素均值在三个调素中最高,有 152 Hz,但与阴平调和阳平调各调素的均值相比,152 Hz 仍较低。去声调三个调素中首调素均值最高,有 243.4 Hz;尾调素均值最低,只有 104.2 Hz.
根据各调素总的均值数据, 可以把它们分为三个不同的层次:阴平调的三个调素、阳平调的中调素和尾调素、去声调的首调素总的均值都很高,处在调域高层;上声调的首调素和中调素、去声调的尾调素总的均值都很低,处在调域低层;阳平调的首调素、上声调的尾调素、 去声调的中调素总的均值处在中间,属于调域中层。
通过均值比较得出来的结论是有用的, 但是这些实验数据较杂乱,需要把它们统一,转换成相对的值,这就要对数据进行归一化处理。目前关于基频归一处理的方法主要有 LZ 法、T 值法和 Z 五度法等,刘俐李(2008)比较上述三种基频归一法,认为 T 值法在五度值转换之后的一致度最高[6]. 这里我们也用 T 值法对基频进行归一化处理。
T 值法是石锋(1986)[7]提出来的,数值采用常用对数表示,具体公式表达如下:T=logx-logbloga-logb×5其中 a 为调域上限,b 为调域下限,x 为 a 和 b 之间的测量点。 把上面的实验数据转换成 T 值后所得到的基频归一数值见表 2.
用图形表示见图 1.
音区属性和曲拱属性是声调的两个基本属性[8]. 利用基频归一表和普通话声调调素分布图可以研究各调素的音区属性和曲拱属性。 音区是调域的分区,调域即声调音高的活动范围,存在于最高音高和最低音高之间。 调域可分区, 一般分为五个音区,通常用五度制标记,也可分为高(H)、低(L)两区,或高(H)、中(M)、低(L)三区。 如果把五度制转换成高中低三区, 可以得到:4 度和 5 度属于高音区,3 度属于中音区,1 度和 2 度属于低音区。体现声调音区特征的基本单元是调素,大体说来,用五度制描述的声调调值,一个数值就相当于一个调素。也就是说,如果某个调类的调值是 51,那它就是由两个调素组成,5 是一个调素,1 是一个调素。 据此可以把普通话各调素的五度制分布情况转写到不同的音区里。
阴平的首调素、中调素和尾调素用五度制表示,都是 4 度,属于高音区,都记作 H. 阳平调的首调素第一个基频点的 T 值为 1.9, 按照约定应该属于低音区; 后面四个基频点的 T 值都超过 2, 属于中音区,这样一个调素分布在两个不同的音区里,不能用同一个符号来标记。 刘俐李(2008)在处理五度边界值的归属问题时,提出了“界域”策略[6],她把“界域”定义为±0.1 五度值, 即每度边界有 0.1 的浮动域,T值转为五度的区间为:T 值 0-1.1 0.9-2.1 1.9-3.1 2.9-4.1 3.9-5五度 1 2 3 4 5T 值为 1.9,根据“界域”策略可归入 3 度,属于中音区,所以阳平调的首调素属于中音区,记作 M;阳平调的中调素第一个基频点的 T 值为 2.94,根据“界域”策略可以归入 4 度,属于高音区,后面四个基频点的 T 值在 3-3.15 之间,都是 4 度,处于高音区,所1调素 T 值都在 4-4.35 之间,都是 5 度,也都属于高音区,记作 H. 上声调的首调素和中调素的 T 值都小于 1,转为五度制时都是 1 度,都处于低音区,可以记作 L. 但是从两者的 T 值上看,首调素多数大于1感上上声调的首调素要比中调素高一点。 上声调的尾调素的 T 值都在 2.12-2.54 之间,都是 3 度,处于中音区, 记作 M. 去声调的首调素的 T 值都超过4.8,都是 5 度,处于高音区,记作 H;中调素的 T 值在 2.48-2.95 之间,都是 3 度,处于中音区,记作 M;尾调素的 T 值都大于 0 而小于 0.5,是 1 度,处于低音区,记作 L. 所以普通话各声调用调素的音区属性表示为:阴平 HHH、阳平 MHH、上声 LLM、去声HML.
音高向不同音区的滑动变化构成了声调曲拱。
汉语声调共有平、降、升、凹、角、凸、零 7 种曲拱样态[9]. 调素组成声调,可以体现出声调的曲拱形态。
根据上面的研究,普通话阴平调由三个高调素构成,形成一个平拱; 阳平调由一个中调素和两个高调素构成,而前一个高调素比后一个高调素稍低,形成一个升拱;上声调由两个低调素和一个中调素构成,前一个低调素比后一个低调素稍高,形成一个凹拱;去声调由一个高调素、一个中调素和一个低调素构成,形成一个降拱。所以普通话有平拱、升拱、凹拱、降拱4 种曲拱样态。
由调素组合可以看出曲拱形态, 但调素本身也占有一定的时长, 且调素首尾的 T 值并不相同,存在一定的差距, 调素也可以理解成由音高的滑动变化形成,那么调素本身也有曲拱形态。观察普通话各声调调素分布图可以发现, 同一个调素的五个基频点处在不同的音区里, 例如阳平调的首调素和中调素;处在同一个音区里的调素五个基频点走势不同,例如上声调的尾调素和去声调的中调素, 这些都是曲拱形态的复杂表现。为了处理曲拱中的这些问题,刘俐李(2008)提出了“曲拱斜差策略”[6]:“斜差 ”是以 T 值为基础的声调曲线斜率, 推导出的公式为:k=yw-ys(yw和 ys是指声调曲线首尾点 T 值)。 根据平拱以及凹拱低点斜差均值进行综合考虑, 文章取 k为|0.5|作为平拱和凹凸拱的临界值, 并且规定:(1)在同一五度音区内, 若声调两端点的斜差均超过|0.5|,定为凹凸拱;(2)若声调曲线在相邻音区的五度边界,其斜差在|0.5|以内,定为平拱。 这里我们用“曲拱斜差策略”检验各个调素的曲拱表现。 具体数据见表 3.
取各个调素第一个基频点的 T 值和最后一个基频点的 T 值,两者差的绝对值作为斜差。 从表中的数据可以发现, 各声调的三个调素的斜差都小于0.50,最大的才达到 0.47. 其中阴平调的三个调素斜差最小,分别是 0.04、0.03 和 0.05;阳平调的首调素斜差在三个调素里最大,为 0.40,中调素斜差在三个调素里最小,为 0.21;上声调的尾调素斜差在三个调素里最大,为 0.43,中调素斜差在三个调素里最小,为 0.24;去声调的中调素在所有调素斜差里最大,为0.47,尾调素斜差也很大 ,达到 0.46,首调素斜差很小,只有 0.12. 根据“曲拱斜差策略”,普通话各声调的三个调素都可以认为是一个平拱。所以可以认为,所有的调素都是平拱, 各种曲拱样态是由平拱组合而成。很早已有学者提出这种看法,陆致极(1986)指出,所有的调素(toneme)都是平调,而调形为升、降或曲的声调是由不同高低的调素组合起来的[10]. 王洪君(1999)认为,只有单值的平调才是声调的最小的单位, 斜调需再分析为几个平调的组合[11]231.
Moira Yip(2005)也指出,Contour tones are sequencesof level tones realized on a single segment[12]47,她认为曲调是平调的组合。 本文根据实验数据得出相同的结论,证明调素也有曲拱,每个调素都是平拱,各声调的曲拱样态由平拱的组合而成。
四、结论
音区特征和曲拱特征是声调的两个基本属性,作为声调最小单位的调素也具有这两个属性。 本文通过实验手段提取了各个调素的基频数据, 然后对实验数据进行归一化处理, 得出了各个调素的 T值,转换成五度值之后,可以看出各个调素的音区属性。把音区分为三个部分:高音区、中音区和低音区,分别记作 H、M、L. 普通话各个声调用调素的音区属性表示为:阴平 HHH、阳平 MHH、上声 LLM、去声HML. 分析各个调素的曲拱形态,利用“曲拱斜差策略”得出的结论是:所有的调素都是平拱,各声调曲拱样态是由平拱组合而成。
参考文献:
[1] [英]R·L·特拉斯克。 语音学和音系学词典[K]. 北京:语文出版社,2002.
[2] 林 华 . “ 调 素 ” 论及普通话连读变调 [J]. 中 国语文 ,1998,(1):31-39.
[3] 张旭。 汉语语流变调的理论释说问题刍议 [J]. 天津师范大学学报(社科版),2000,(1):69-75.
[4] 刘俐李。 汉语声调论[M]. 南京:南京师范大学出版社,2004.
[5] 郑新春,柴佩琪。 “调素”论与普通话合成自然度的提高[J].中文信息学报,2000,(3):42-45.
[6] 刘俐李。 基频归一和调系