一、引言
近年来,关于法庭科学证据鉴定意见的表述问题已经成为一个非常热门的话题,很多专家和团体都对法庭科学证据传统意义上的意见表述形式提出了批评,从中我们不难看出作者都将DNA的分析体系看做其他所有法庭科学证据(包括指纹、足迹、油漆、纤维、笔迹等)的典范,当然声纹鉴定1也包括其中。目前,声纹鉴定意见如何表述无论在国外还是国内都处在激烈的争论之中,其中争论的焦点主要是围绕基于量化的似然比(LikelihoodRatio,缩写为LR)的意见表述形式是否适用于声纹鉴定展开的。国际上以澳大利亚的Rose和Morrison等人为代表,鲜明地支持和倡导量化的LR体系在声纹鉴定中的应用,而英国的French、Nolan、Foulkes、Harrison和McDougall等绝大多数从业人员却明确反对量化的LR体系在声纹鉴定中的使用,提倡采用包含贝叶斯原理现代思想的英国立场声明形式,荷兰的Broeders以及瑞典的Eriksson等学者也表达了对使用LR体系的忧虑。2011年国际声纹鉴定协会(IAFPA)年会2中甚至专门设置了关于“在法庭上展示证据”的讨论专题,遗憾的是支持LR体系的学者并未在此会议上就此发表文章。近年来,国内也有专家讨论LR体系在声纹鉴定中的应用问题,然而观点并不一致。为此,本文将在介绍国内外相关研究成果的基础上,谈谈对该问题的一些看法。由于鉴定意见的表述与鉴定所依据的具体方法是密不可分的,下面先从声纹鉴定的方法谈起。
二、声纹鉴定的方法
从历史上讲,声纹鉴定的分析方法有听觉分析、声谱比对分析、声学分析、听觉-声学分析、说话人自动识别等几种方法,很多教科书和文章中都有对这几种方法及主要分析参数的详细描述,下面仅作简单介绍。
(一)听觉分析
法在古代,由于分析技术的局限,说话人鉴定只能通过听觉进行,当时的说话人鉴定也就是今天我们所指的耳闻证据(ear-witnessevidence),从技术的角度讲,此类证据只是基于证人对声音的记忆进行的。目前,实施听觉分析的主体多是经过一定专业(语音学、语言学)训练、具备一定经验的语音学家,他/她们常常都具备使用国际音标对语音进行严式或宽式记音的能力.
听觉分析法(auditoryapproach),也称听觉语音学分析法(auditory-phoneticapproach)或听觉-感知分析法(auditory-perceptualapproach),该方法可以分为整体(holistic)感知和解析(analytical)感知两个层面,其中后者应用更为普遍。整体感知就是要集中精力着重分析检材语音与样本语音是不是一个人说的,而不是努力去做成分分析,该方法类似于非专业人员进行的说话人鉴定,但相比之下,语音专家比普通人具有更大的优势。与整体感知相反,解析感知需要对语音材料进行成分分析,而这通常可以从音段层面(segmentallevel)和超音段层面(supra-segmentallevel)两个方面进行,有时还要涉及到一些超出语音学和音系学的非语言学特征(non-linguisticfeatures)。
实践中,常常首先从超音段层面对发声音质(voicequality)进行评估。德国和英国的鉴定专家通常使用Laver提出的嗓音分析框架对语音的发声类型(如气嗓音、挤喉音、粗糙嗓音和假声等)进行评估和打分,其中英国JPFrenchAssociates实验室的专家在鉴定中考虑的嗓音参数多达38维然后还要对整个语料的韵律模式、语速和语调等特点进行检验。比如英语中不标准的重音模式和汉语普通话说话人不标准的声调模式等。音段层面的感知主要分析元音和辅音发音的具体实现情况,鉴定人员常需要根据检材(和样本)语音的音系标准去分析和比较某特殊音段/音素的各种变体,多数时候还需要使用(严式的)国际音标对其进行描述和记录。同时,鉴定人员还常检验语音的一些动态特点,如说话人在相邻音节中是否出现同化、增音或减音的现象。除此之外,说话人在特殊的言语缺陷(如口吃)、方言、外国口音、不常见的发音错误、词汇选择、语法使用、讲话模式、话语标记(如“啊”、“嗯”、“唉”、“是不是”等)使用的频率和分布、语码转换、停顿行为(无声或填声停顿、停顿的时长和位置、停顿时带不带鼻辅音,有没有出现声门化、鼻化等)等特点上的具体表现也是必须要分析的,人们在说话时常常意识不到自己会出现类似的特点,即便是意识到了,很大程度上也控制不了,因此在实际鉴定中,这些因素有时会起到决定性的作用,这种情况并不罕见。最后,还要检验一些非语言学的听觉特征,像呼吸、清嗓、咂舌、笑声的模式等。上述很多特征也是声学分析的内容,但在听觉阶段也应该进行前期的分析和评估,两种方法分析的侧重点不同。
(二)声谱比对法
声谱比对法(spectrographic/voiceprint/voicegramapproach)的产生得益于20世纪40年代美国贝尔实验室的一项重要发明---声谱仪(Sonagraph),该仪器可以将声音信号转换成可见的语言(visiblespeech),常常以声谱图(spectrogram,即三维语图---声音的时间、频率和振幅信息)的形式表现出来。
最早提出将声谱图用于说话人鉴定的是贝尔实验室的工程师L·G·Kersta,他将说话人鉴定与指纹鉴定相类比,认为可以依据人们言语中独一无二的特征(uniquefeatures)---声谱痕迹(spectrographicimpression)进行说话人鉴定。语音与指纹之间存在明显的区别,前者是说话人发音器官结构和发音习惯的间接反映,具有很大的灵活性,稳定性也是相对而言的5,后者是手指正面皮肤花纹的总称,具有终身基本不变的基本属性,对于非严重变形的指印(指纹与客体接触留下的印迹)一般采用形象比对的方式进行鉴定。然而,作为工程师的Kersta并没有深刻认识到这一点,尽管他声称声谱(纹)比对法的准确率高达99%,也有坚定的支持者,但是该方法还是受到很多专家的批评(综述性的评论可以参见)。文献中关于该方法的详细介绍并不多见,但是其核心是只利用声谱图对语音进行模式匹配(pattern-matching),由于该方法仅对声谱图进行整体性的视觉比对,忽略了语音自身及其他因素引起的变化属性,其有效性和可重复性较差。2007年IAFPA年会中更是通过会议公告的形式给Tosi提倡的声谱(纹)比对法定性:“该方法对于说话人鉴定来讲是整体性地,换言之非解析性地,比较言语图谱,对于图谱模式与发音动作的声学反映及声道结构之间的关系缺乏理解和解释。本协会考虑到该方法缺乏科学基础,认为它不应该用于鉴定实践。”
值得一提的是,20世纪70年代,美国的声谱比对分析人员注意到听觉分析在说话人鉴定中也有很重要的作用,便开始从只注重声谱的视觉比对,发展为“视听”结合的方法(aural-spectrographicapproach),即听觉分析与视觉比对两种方法并用(该方法不同于听觉-声学分析方法,详见下文)。不可否认对于声谱比对分析方法来说,这是很大的进步,但是其科学基础依旧没有得到完全认可,1979年的一份很有影响力的科学报告(也称为“Bolt报告”)曾指出:“委员会已经注意到,用视-听方法进行嗓音鉴别在实验室条件下,可以达到很高的精度。在可控制的非法庭的情况下,误差率可低到1-2%……与此同时,委员会已经注意到了科学家们对涉及法庭条件下的嗓音鉴别在精确度的估计方面很不一致。目前有关误差率的实验可用证据是来自数量相对较少的、孤立的、互相之间不合作的那些实验结果。单凭这些结果不能对实践中经常遇到的、各种条件下的误差率进行估计。”
问题的关键在于,这里所谓的“视听”结合的方法依旧是对声谱图的模式进行整体性的视觉匹配与整体性的听觉印象之间的结合,并非解析性的方法,因此也没有得到学术界的普遍认可,不少人依旧将“视听”方法与声谱比对法视为同种性质。IAFPA在公告中显然回避了对此问题的看法,只是否定了对图谱进行单纯视觉比对的方法,并非否定“视听”方法7.关于该方法较详细的介绍,可以参见.
实际上,美国联邦调查局(FBI)在1979年“Bolt报告”发表后的近三十多年来一直使用“视听”结合的声谱比对分析法,但是只用于侦查目的,并不将其结果作为证据在法庭上使用,同时美国的部分私人实验室也仍在使用该方法,而且声谱比对证据在美国部分州中仍然是可采的,但是由于司法界对该技术方法科学基础的怀疑,声谱比对技术的从业人员从原来的五六十人萎缩到只有大约十几人.可以预见的是“视听”结合的声谱比对分析法在短期内并不会退出历史舞台(比如在美国的情况参见文献)。
由于在该方法在名称上与国内“声纹鉴定技术”的名称有一定的关联性,因此有必要澄清的是,目前我国声纹鉴定技术的方法并非单纯、机械的声谱图比对,而是语音学分析法(听觉-声学分析法)。同时不可否认,针对学科名称,学界存在不同的观点,但是按照国内法庭科学中多个学科的命名习惯和特点,我国业内绝大多数人主张不妨延用“声纹鉴定”一词.
(三)声学分析法
声学分析法(acousticapproach),也称声学语音学分析法(acoustic-phoneticapproach),是指借助计算机技术对特定语音单元的声学特性进行定量测量的方法,分析对象常常是由听觉分析挑选出的音素、音节、韵律短语或句子等特定的语音单元,具体可以测量语音单元的频率、时长和/或振幅等信息。实践中常用的声学分析参数有很多,如基频的均值、标准差、中位数、众数、范围、长时基频分布情况;共振峰的频率、轨迹的动态特性及长时共振峰的分布情况,共振峰参数可以提供说话人的很多发音和音系模式的细节信息,对于说话人鉴定来讲非常重要。除了上述频率维度的信息之外,一般还要测量嗓音起始时间(VOT)、语音单元(如元音、辅音等)的时长(或时长比例)、整个语料的发音速率等。在分析过程中不仅会涉及到数学计算和数据统计方面的知识,而且常常还会用到很多现代语音信号处理的技术,如比较常用的线性预测技术(LPC)和快速傅里叶变换方法(FFT),由于整个过程都需要大量的人工干预,一般来讲需要花费较长的时间。值得注意的是,声学分析与声谱比对分析不同,前者是解析分析方法,后者则是“格式塔”式的整体分析方法,同时,声学分析并不排斥利用声谱图特征来分析语音,很多情况下,声谱图对于提取部分声学参数(如共振峰)来说是不可或缺的。
(四)听觉-声学分析法
顾名思义,听觉-声学分析法(auditory-acousticapproach)11是听觉分析与声学分析两种方法的结合,之所以在此将其单独论述,不仅是因为两种方法在实践中密不可分,而且目前这种“结合”使用的方法在世界范围内得到了广泛认可。国内专家提到的“语音学分析法”,其基本内容包括了听觉鉴定、视谱比较和定量比对三个方面,其实质与国外学者提到的听觉-声学分析法是一致的。
尽管有时为了论述方便,将听觉分析与声学分析分开来讲,但实际上两者之间是共生的、互补的关系,两种方法能够捕捉到的语音特征信息各有侧重点,不能互相替代,而且在实际分析过程中往往是交替进行、循环使用的。听觉分析的主观性较强,很多内容还常常涉及到心理感知的问题,声学分析一方面可以为部分听觉分析的结果提供量化的支持,另一方面还可以提供新的特征。实践证明单独依靠任何一种方法都是不可取的,两种方法同等重要,均不可或缺,这一点已经成为国内外声纹鉴定从业者的一个基本共识。声学分析不能单独进行,理由很简单,鉴定中有必要先听录音,判断语音质量,理解语音内容,在此基础上选出相同的分析对象(例如相同音系环境中相同音节中的相同元音)进行进一步的比对,很明显这是声学分析的前提,如果没有这种听觉分析的选择和控制,鉴定意义上的声学分析便无从谈起.王英利更是认为“鉴定意义上的相同音节是指调音音质完全相同的音节。具体到鉴定实践中就是人耳无法辨识调音音质有何不同的音节。因为,到目前为止,还没有发现比人耳性能更好的辨音仪器.”这些鉴定意义上的相同音节应该成为声学分析的重点对象。另一方面,在综合评断环节,由于对检材语音和样本语音进行声学分析的结果往往不会完全相同,在对差异点进行分析的时候,听觉分析的结果无疑会提供直接的佐证。
如今在声纹鉴定实践中该方法无疑是占主导地位的,欧洲和其他地区的大多数语音鉴定专家都使用该方法,IAFPA的绝大多数成员也都在该框架下工作,国内的情况亦是如此.值得注意的是,该方法既非听觉分析与单纯视觉比对形式的声谱分析法的简单相加,亦非“视听”结合形式的声谱比对分析法,原因在于该方法更加注重从听觉和声学上对语音进行解析式的分析,并未局限在整体性的“语图”特征上。值得一提的是,Jessen将国外语音比对(forensicvoicecomparison)中使用的方法分为“解析法”和“整体分析法”两个层面,并认为应该综合使用这两个层面的方法,而非仅仅使用“解析”层面的方法.的确,我们不应该因为声谱比对分析给人留下的“格式塔式”的整体分析的错误印象,就一味地排斥所有的整体性分析方法,毕竟综合运用各种方法是明智的选择。
(五)说话人自动识别
尽管广义的说话人自动识别技术(automaticspeakerrecognition)可以追溯到20世纪60年代,但是该技术在声纹鉴定领域的应用却只有10年左右的时间。该方法不同于传统意义上由人工实施的声学分析法,多是自动完成的,其基本原理是,由语音信号处理工程师设计一定的程序和算法,对语音中说话人的特征参数分离提取,然后针对特征建立语音模型,进行距离计算,最后确定与其最为接近的一个已知说话人的语音模型。目前,最常用的声学特征参数是美尔倒谱系数(MFCC)和线性预测倒谱系数(LPCC),最常用的语音模型是高斯混合模型(GMM)。说话人自动识别方法的优点是自动化程度高,需要较少的人工干预,一旦建立比较省时省力;缺点是具体分析参数在语音学上很难得到解释,而且更为重要的是,尽管近年来该方法已经取得了很大进步,不少国家的侦查部门已经(或准备)用来帮助侦查活动,但是该技术针对实际案件的正确识别率还不是很高,远没有达到可以为法庭提供可靠证据的程度,至少目前是这样。或许,说话人自动识别的最终发展趋势还是需要与上述几种专家方法相结合,形成半自动综合识别的方法。
(六)各种方法在鉴定中的应用
最近,Gold与French通过对5大洲13个国家的36位声纹鉴定专家进行了一项有关说话人鉴定的国际调查,调查发现,仅就鉴定方法而言,有2人单独使用听觉分析法(约占6%),1人单独使用声学分析法(约占3%),25人使用听觉-声学分析法(约占71%),7人使用说话人自动识别并加人工分析的方法(占20%),没有人单独使用说话人自动识别的方法(占0%).很明显可以看出,目前听觉-声学分析法在世界范围是使用最广泛的方法。尽管Gold与French在调查中并没有将声谱比对分析法作为调查的选项,但是并不意味着该方法在实践中已经消失了,只不过该方法早已不是鉴定方法的主流,哪怕是在其诞生地美国。据笔者所知,我国大陆地区开展声纹鉴定业务的鉴定机构主要使用听觉-声学分析法,拥有自动识别系统的鉴定机构多将其识别结果作为参考使用,极少数鉴定机构也有使用说话人自动识别技术作为主要鉴定方法的16,目前缺乏类似的准确统计。
三、现有声纹鉴定意见的表述方式
Gold与French在文中也对不同国家/专家的声纹鉴定意见的具体表述方式进行了调查,结果发现不同国家/专家的表述情况存在很大差别,相关科学团体就此问题的观点也很不一致。调查发现13个国家的36位专家使用的意见表述形式主要有以下5种:二元判决形式(binarydecision)、经典的可能性等级形式(classicalprobabilityscale)、数字似然比形式(numericalLR)、文字表述似然比形式(verbalLR)、英国立场声明形式(UKPositionStatement)。上述5种意见表述形式分别有(巴西、中国)、(澳大利亚、奥地利、巴西、德国、荷兰、韩国、瑞典、英国、美国)、(澳大利亚、德国、意大利、西班牙)、(荷兰、美国)和(德国、西班牙、土耳其、英国、美国)国家的从业人员所使用。尽管意见表述方式与具体的鉴定方法密切相关,但也并非一一对应,比如在使用听觉-声学分析方法的25位专家中,就有10人使用经典的可能性等级表述、10人使用英国立场声明形式、2人使用二元判决形式、2人使用文字表述LR形式、1人使用数字LR形式。同时使用经典可能性等级表述的14位专家中,有1人使用听觉分析法、10人使用听觉-声学分析法、3人使用自动识别加人工分析的方法。下面对各种意见表述形式进行介绍:
(一)二元判决形式
二元判决,即在表述意见时只有两种选择,要么绝对认定,要么绝对否定,没有中间选项。
(二)经典的可能性等级表述形式
鉴定专家依据听觉-声学分析方法(如上文所述,也有少部分专家单独使用听觉分析法和自动识别加人工分析的方法)进行检验,通过比较检材和样本的语音特征,分别从听觉上和声学上对这些语音特征之间的相似性/差异性进行判断,最后对所分析到的语音特征组合进行综合评估,在充分考虑特征质量和数量限制的基础上,得出鉴定专家对检材语音与样本语音是否是同一人所说的确信程度。通常这种确信程度由不同等级的可能性来表述,尽管不同国家/专家划分等级的数量可能不同(从5级到11级不等),具体叫法也有差异,但是基本原则都是一样的.如瑞典警察就推荐使用9个等级的分类体系:
+4结果支持假设接近确定(supportthehypothesiswithnearcertainty)
+3结果很强地支持假设(stronglysupportthehypothesis)
+2结果支持假设(supportthehypothesis)
+1结果在某种程度上支持假设(supportthehypothesistosomedegree)
0无结果(inconclusive)
-1结果在某种程度上不支持假设(contradictthehypothesistosomedegree)
-2结果不支持假设(contradictthehypothesis)
-3结果很强地不支持假设(stronglycontradictthehypothesis)
-4结果不支持假设接近确定(contradictthehypothesiswithnearcertainty)
这里的“假设”是指检材语音与样本语音是同一人所说。
德国的政府机构和大部分或所有的私人专家、芬兰的鉴定专家也采用相同的9级分类体系;法国则采用7级分类体系;美国以“视听”结合方法进行鉴定的专家有的将意见分为7级,有的则采用5级分类体系;中国大陆则多采用5级的分类体系;其他大多数国家也应该是这样的。
(三)似然比(LR)形式
在声纹鉴定领域中,LR反映了对认定说话人的两个竞争性假设---起诉假设(检材语音和样本语音同源,即是同一人所说)和辩护假设(检材语音和样本语音不同源,即是不同人所说)---之间的关系,在数值上等于同源和不同源两种可能性的比值。另外也经常用语音特征之间的相似性(simi-larity)和普遍性(typicality)的比值来表示。相似性是指检材语音和样本语音在我们比较的语音维度上相似或不同的程度有多大。二者越相似,它们源自同一说话人的可能性就越大。同时,所选语音特征在所有人(或一定群体,如按方言或性别进行分类)的说话特点中可能比较常见,也可能比较罕见,这种普遍性越低,语音证据的证明力就越强。
【公式1】
该公式中,p表示概率(probability),E表示证据(evidence),Hp表示起诉假设(prosecutionhypoth-esis),Hd表示辩护假设(defensehypothesis),当起诉假设正确时,分子表示获取已知语音证据E的概率;当辩护假设正确时,分母表示获取相同证据的概率。如果LR大于1,说明有相对更多的证据支持检材语音与样本语音是同一人所说,反之,如果LR小于1,说明有相对更多的证据支持二者是不同人所说。分子代表比对的相似性层面,分母则代表普遍性层面,如果检材语音与样本语音的相似程度高,那表明二者是同一人所说的可能性也相对较大,反之亦然;当普遍性较高时,检材语音来自其他说话人的可能性也就会相对较大,反之,当普遍性较低时,除了样本语音的说话人以外,其他说话人涉案的可能性也相对较小。如果LR等于1,说明检材语音与样本语音源自同一说话人和不同说话人的可能性是一致,此时的语音证据就起不到作用了。
LR方法的一个优点是可以对特征的价值进行量化,在综合各个特征的LR数值的基础上,给出语音证据力度的量化值(各个LR数值相乘),用完全数字的形式表现出来(数字LR形式)。鉴于LR的数字形式可能不能被法庭所充分理解,有学者提出了LR相应的文字化分级形式(文字表述LR形式),或者是将LR数值取对数,换算成对应的较小数量级的数值,见表1.至于在法庭上采用何种形式的LR体系进行表述,目前没有一致性的意见.
由于LR体系是基于贝叶斯理论(BaysTheorem)的方法,在此有必要对贝叶斯理论做简要介绍。
贝叶斯理论可以用公式(2)进行表示:
【公式2】
可以看出,后验概率是先验概率与LR的乘积。后验概率是整合案件中所有证据之后得到的概率(事实审判者最后的内心确信程度)。先验概率则表示事实审判者在鉴定专家展示以LR形式表现的语音证据(其他证据也一样)之前对上述两个竞争性假设之间的内心确信程度。要得到后验概率,必须知道先验概率,而先验概率的获取可能会受到案件中其他证据或案情的影响,如DNA、指纹、证人证言等。显然,在贝叶斯理论框架下,声纹鉴定专家没有能力也不应该获取先验概率,继而也无法对后验概率做出评价。关于LR体系在语音证据运用上的详细介绍,可以参考.
【表1】
(四)英国立场声明形式
英国立场声明形式是指由英国专家PeterFrench在2005年的IAFPA年会上提出,后经约克大学和剑桥大学的声纹鉴定专家讨论,最后于2007年形成的一份关于语音证据如何在英国法庭上表述的立场声明,除一人之外,英国所有的声纹鉴定专家都签名表示支持,该声明可以在期刊和网络上查询到。按照该形式,专家需要作出两方面的判断:一致性(consistency)和独特性(distinctiveness)。首先判断检材语音与样本语音的一致性,一致性是指检材语音和样本语音在来自同一说话人方面是否是一致的(consistent)或符合的(compatible),一致性判断有以下三种可能的形式:
一致(consistent)
不一致(notconsistent)
无结论(nodecision)
1.如果在一致性方面得出的是“一致”的结果,专家还要进一步对语音特征的独特性进行整体评估,并将其分为以下5个等级:
格外特殊(exceptionallydistinctive)---其他说话人同时享有这些特征组合的可能性是极其微小的。
高度特殊(highlydistinctive)
特殊(distinctive)
适度特殊(moderatelydistinctive)
不特殊(notdistinctive)
这其中有一个例外情况,即对少数有独立证据(比如视频监控)显示已知说话人出现并参与了谈话的闭集比对(closedsetcomparison)的案件,如果几个声音之间的差别足够明显,可以做出绝对认定的结论。
2.如果在一致性方面得出的是“不一致”的结果,专家既可以得出明确的排除结论也可以采用可能性等级的形式进行表述。
(五)中国大陆现有的形式
目前中国大陆声纹鉴定意见为可能性等级表述形式,可能性等级为5级,该观点在众多文章和着作中都有所体现。近年来公布(推荐)实施的两个鉴定方法是关于此问题最为详细的介绍,一个是公安部物证鉴定中心制定的“语音同一认定方法(IFSC11-01-01-2010)”(下称公安部方法),另一个是司法部司法鉴定管理局公布的《录音资料鉴定规范(SF/ZJD0301001-2010)》(第3部分《语音同一性鉴定规范》)(下称司法部规范).据笔者所知,我国大陆地区的公安、检察和安全机关下属的开展声纹鉴定业务的鉴定机构基本上都采用了公安部方法,而面向社会的开展声纹鉴定业务的鉴定机构大多采用了司法部规范。公安部方法(左)和司法部规范(右)均将声纹鉴定的意见划分成5个等级并给出了具体的划分标准:
+2 认定同一 肯定同一
+1倾向认定同一 倾向同一
0无结论无法判断 是否同一
-1倾向否定同一 倾向不同一
-2否定同一 否定同一
虽然具体叫法上与国外部分国家采用的可能性等级表述有所不同,其内涵是基本一致的。值得注意的是,上述两种方法在具体等级的划分标准上有所不同,公安部方法对等级划分有明确的特征“数量”要求,如对“认定同一”的要求是:“此结论要求检材、样本中可供比对的音节有10个以上,每个音节有3条以上有效共振峰;所有可供比对音节的特征符合率超过90%.或者可供比对的音节有6个以上,每个音节有4条以上有效共振峰,特征符合率超过95%.如果检材有严重伪装,则不能下此结论。”相比之下,司法部规范给鉴定人员的自由度较大,没有硬性的“数量”要求,以“认定同一”为例:检材语音与样本语音:存在足够的符合特征,且符合特征的价值充分反映了同一人的发音特点;没有本质的差异特征;同时差异或变化特征能得到合理的解释。
四、对各种意见表述形式的评价
(一)二元判决形式
理论上说,就说话人进行鉴定,其结论无外乎两种---认定或否定,但在实际办案中,鉴定人员会受到各种条件的局限,这种局限性一方面体现在说话人语音自身的变化性上,另一方面诸如噪音、传输信道(如电话)等外在因素也会引起语音质量的下降,有时还会使听觉和/或声学分析受限或无法进行,同时,检材语音的时长如果很短的话,常常也不能充分体现说话人的语音特点。因此,基于上述众多局限性,针对所有情况只对语音做出绝对认定或否定的结论是不客观的,实践中鉴定人常常做出多个等级的可能性判断。Gold与French在调查中提到巴西和中国的学者至少还有人在使用这种二元判决形式,但是这种形式并非中国大陆声纹鉴定从业人员的主流选择(详见前引17)。
(二)经典的可能性等级表述形式
在排除了二元判决形式之后,我们似乎必然转向可能性等级表述形式,这种依据文字描述来区分各种可能性等级的形式,其优点很明显:无论是对专家而言,还是对法官、陪审团和普通民众来说都是很容易理解的,同时也被世界上大多数国家(无论何种司法体系)的政府机构和专家所广泛使用。采用这种意见表述形式的绝大多数专家都使用听觉-声学分析法进行鉴定,少数专家也有使用其他方法的,但都存在人工分析的成分。
尽管该形式被广泛使用,但并不代表它没有任何瑕疵,其不足之处突出表现在两个方面:主观性较强和逻辑上存在缺陷。
第一,该形式有较强的主观性。首先,在听觉分析中对各种语音特征的评价很多都是基于心理的主观感知,即使是在受过专业训练的语音专家之间也会存在一定的不确定性。对听觉特征之间的相似或特异程度做出数字形式的量化,继而做出统计分析,是一件非常困难的事情,或者说基本是不可能的,因为不同鉴定人(普通人也一样)对同一特征的感知未必完全相同.其次,在对多个参数、多种方法的分析结果进行权重和综合分析时,主观性也是不可避免的。通过上文的分析,我们知道听觉分析和声学分析相辅相成,缺一不可,但是并不是说这两种分析方法一定会得出意见一致的结果,如果两者出现矛盾应该如何取舍?同样的困惑还可能会出现在解析分析与整体分析、人工分析与自动识别分析产生不一致结果的情况中。对此,我们常常依据现有的语音学/语言学理论作为评判标准,对特征的符合和差异程度做出是本质的/非本质的判断,其实这种是否“本质”的判断依然不是想象中的客观。再次,可能性等级划分的主观性体现在三个方面:(一)等级划分的具体数量不统一,不同国家/专家之间使用的数量形式不尽相同,选择几级的可能性表述是由专家自己决定的;(二)不同等级之间的划分没有具体的界限,很多情况下,鉴定意见的等级划分主要取决于专家对所选语音特征数量和质量的评估,由专家最后形成的不同的内心确认来表述意见的不同等级。尽管有的可能性程度划分有“客观”依据可循,如美国IAI和录音证据委员会公布的表述形式中有细化的划分标准,但是未见有得出此标准的科学论证.
意见主观常常成为LR体系拥护者批评经典可能性等级表述形式的主要论点之一,其实,我们有必要将鉴定意见表述形式的主观性和鉴定方法的主观性区分开来,上文提到的除了说话人自动识别之外的其他方法无一不是具有主观性的,正如Broeders所言:“只要明确该方法是主观的,这种主观的判断就不应该受到责备,原因在于它就是主观的。关键的问题不是专家得出的结论是主观的还是客观的,而是该方法是否可信。”方法的主观性并非必然意味着分析是不准确的,对于实践中大多数案件而言,不同经验丰富的鉴定专家分析同一语料得到的鉴定意见常常是相同的。以Eriksson为例,他与其他专家进行合作分析的时候,就很少出现结论不一致的情况.
第二、逻辑上存在缺陷是可能性等级表述形式备受批评的另外一个缺点。可能性等级表述形式的一个问题是让鉴定专家重点分析语音材料之间的相似性(和差异性),然而对特征之间的相似性在整个参考背景人口中的分布情况(即上文提到的普遍性)却关注太少.而且在一些鉴定专家中普遍存在一种误解,即认为只要确定两种语料之间具有较强的相似性,就可以做出认定意见,面对质疑一些鉴定人可能会说“我只是被要求对检材语音和样本语音进行比较,并没有被要求要把检材语音与所有人的声音都进行比较,因此检材语音与整个人口中其他人的声音是否相似是无关的。”实际上,如果只关注特征之间的符合程度(相似性)而忽略该特征符合在整个参考人口中的分布的话,我们便会不可避免地出现逻辑上的错误,即如果该符合特征在人口分布中非常罕见,由此得出认定意见的准确性会比较高,如果该符合特征在(除了被鉴定人以外的)其他人的声音中也非常普遍的话,再得出认定意见的出错率就会很高。正如LR形式反映的认定说话人的两个竞争性假设,忽略任何一个假设,都会在逻辑上出错。
(三)似然比(LR)形式
相对于经典的可能性等级表述方法而言,LR体系在逻辑上没有缺陷,该方法要求在说话人鉴定中同时考虑两个竞争性假设的做法使其在逻辑上是正确的。该形式不对检材语音和样本语音是否是同一人所说做出绝对的后验性的判断,而只是对语音证据的力度进行描述,且使用量化的“客观”数字说话,既能有效降低鉴定的主观性,又能避免鉴定专家“代替”事实审判者做出最后的结论24.假如LR体系支持者们果真能够达到这些目标,那将是声纹鉴定领域的巨大成就,然而,该体系是否真如其支持者所言是最科学、最可靠的形式呢?事实可能并非如此,原因主要有以下三点:
第一、LR体系支持者使用的鉴定方法具有主观性,并无创新。必须强调的是,任何意见表述形式都不等同于具体的鉴定方法,LR形式也不例外,评价该形式是否准确可靠,要先从其所依据的方法入手来看。Morrison与Morrison曾在介绍各种鉴定方法的基础上,对其与LR体系的适用性进行过较详细的评论,作者认为声学分析方法和自动识别的方法可能适合LR体系,相反,由于听觉分析法(和听觉-声学分析法)与声谱比对分析法都是基于经验的主观性判断,从而认为这些方法与LR体系并不相容。LR体系的支持者之所以青睐声学分析方法,原因在于声学分析能够提供“客观的”量化数据,是最容易进行统计计算的部分,然而声学分析法并非完全客观。如上文所述,在鉴定实践中声学分析与听觉分析是互补的、共生的(再强调一下,绝大多数专家都坚持应该将听觉分析与声学分析结合使用,而不是单独使用任何一种方法!)。如果通过听觉分析发现检材语音和样本语音中体现出根本性的方言差异,基本可以排除两者是由同一人所说,就没有进一步分析的必要了,如果检材和样本中说话人的情绪状态差异较大(如愤怒的大声说话与正常讲话),语音特征之间往往变得不具可比性,也就是说,声学分析最终选择的分析对象往往是在听觉分析中被判断为是相近或相同的特征,这种基于听觉分析结果的声学分析不会是完全客观的,原因很简单,因为被LR体系所排斥的听觉分析是主观的,很难想象LR支持者认识不到听觉分析与声学分析之间的密切关系25,之所以排斥听觉分析的原因多半是由于很多听觉特征是定性的,无法满足LR体系要求特征必须被量化的要求。同时,即使是声学分析中,鉴定人使用的软件不同,同种软件的算法、设置不同等,都会带来一定的误差或错误,换句话说,鉴定人员在声学测量时所做的类似选择都带有一定的主观性,继而也会影响到结果的“客观性”.在声纹鉴定领域,LR形式最早同时也是主要应用在说话人自动识别上的,问题的关键是,尽管说话人识别技术取得了很大的进步,在少数国家(如西班牙和法国)也得到了认可,但是到目前为止,依旧无法广泛且准确地应用到鉴定实践中去,其识别结果还远达不到为法庭提供可靠证据的程度。由此可见,在实际鉴定中,LR形式支持者使用的鉴定方法并无创新,与可能性等级表述形式的拥护者相比,前者对听觉分析的排斥,必然导致鉴定结果不准确的可能性增加。如前文所述,目前在众多鉴定方法中,听觉-声学分析方法仍然占据主导地位,那些认为构建可以被视为具有可行性的、严密的、排他的定量LR鉴定方法之前,仅仅是时间和研究问题的观点是不现实的,更不用说该方法的可靠性了.
第二,众多特征,尤其是听觉特征很难被量化。稍微看一下LR支持者的研究成果就会发现,其研究主要集中在声学分析中的共振峰频率和轨迹等方面,对其他特征少有论及。本文在听觉分析法部分比较详细地列举了听觉分析方法需要(或能够)分析的特征,French等更是明确列举了声纹鉴定中常用的11种特征,很明显,这些特征的涵盖范围很广,有语音学的、语言学的也包括非语言学的特征,远远超过了仅对共振峰的分析结果,问题的关键是其中的很多特征是很难对其实施量化统计的。在实际鉴定中,鉴定专家必须要考虑到送检材料的各个方面,进行全面而系统的分析。尽管已经有研究发现部分元音的共振峰模式具备较强的话者区分能力,但这并不意味着鉴定人员就可以忽略其他方面的特征,因为基于其他很多特征的分析结果可能是决定性的,而且不一定与对共振峰的分析结果一致.
第三、相关参考人口统计数据缺乏。创建或获准使用有关言语特性的人口统计数据,是对LR中普遍性进行量化的必要前提。然而,目前鲜有与语音有关的参考人口数据却是不争的事实,对此有几个方面的问题值得大家注意:首先,相关人口如何定义?LR支持者承认这是一个紧迫的现实理论问题,认为相关的参考人口应该因个案而定,一般来讲,需要考虑说话人的性别、所说语言、方言等因素建立参考数据库,至于参考人口中取多少样本为宜的问题,答案是取决于要求的精度.如此原则性的说法操作性很差,当然Rose推荐了一种收集参考数据的方法,即让鉴定专家们将他们的参考人口数据汇集到一起,从而满足每个特殊案件的需要,当然可能还需要收录其他说话人的语料。由于不同专家的选择标准和数据范围很难保持一致,因此这种方法看似容易,但其随意性很强,而且从可行性的角度讲,这种方法能够考虑到可以被量化的特征只有非常有限的一部分,忽视了在对话交流过程中其他丰富而复杂的信息,以及对其进行解析分析的可能性。而且Rose的例证只是对30个说话人的数据进行了分析,从说话人讲“yes”单词中提取元音共振峰轨迹的角度说明了收集数据的可能性,并未论及其他特征。其次,更为重要的是所建数据库中应该包括哪些特征、控制哪些因素等问题难以给出准确的具有可操作性的答案。如上文所述,鉴定中可能涉及到的特征涵盖范围很广,远远超出了共振峰特征的范畴,试图收集和分析足够多的能够包含全部(或绝大部分)特征的参考数据基本是不可能的。收集数据过程中同时必须考虑的一个问题是录音方式(或信道问题),实践中的录音方式非常多,有麦克风、录音笔、录音机等直接录音的,也有固定电话、手机(GSM、CDMA、3G、小灵通)、IP网络电话之间不同组合通话录音的(以后还会出现新的形式,如最近流行的微信留言形式),很难想象制作参考数据时能够包含上述全部录音方式。而且说话人的说话状态(大声说话、吸烟和醉酒等)和健康情况等因素都必须加以控制。再次,在像中国这样语言环境非常复杂,包含众多语言、方言和次方言的国家,要想建立全面的参考人口数据是非常困难的,同时技术、资金都是非常大的限制因素。最后,还需要考虑的是参考数据的“保鲜”问题,不可否认所有的语言和方言都处在不断变化之中,因此任何参考数据就其适用性而言,其“保质期”都是有限的,如果将检材语音与过时的参考数据进行比较的话,无疑会带来很大的风险,对于检材语音中的某一关键特征来说,参考数据库中的数据可能不一定会有充分的代表性.上述担心是必要的,因为众多因素都会对说话人的语言学/语音学特征模式产生显着影响,无法想象汇集或创建能够包含各种语音特征、考虑各种影响因素的合适的参考人口统计数据是可行的,即使是从长远的角度看。
综上,尽管LR体系在逻辑上没有错误,但是由于声纹鉴定专家一般无法量化大部分语音特征,使得LR的准确计算并不现实,而且“对于绝大多数语音特征而言,都缺乏相应的参考人口数据,那种用数字表示的似然比只会对分析提供虚假的量化表象,实际上分析还是严重依靠(人为)判断”.尽管如此,我们也不能完全排斥LR体系(包括贝叶斯原理),其现代思想已经得到了广泛认可,并在DNA证据中得到了很好的应用,然而,将此模式强加给包括声纹鉴定在内的其他所有的法庭科学证据是否合适是我们值得考虑的问题,正如很多专家提到的:对于声纹鉴定而言,贝叶斯原理的价值或许不在于直接应用,而在于给鉴定人员提供一个有用的概念性框架,使得专家和事实审判者之间责任区别开来.
对于声纹鉴定专家来说,尽管的确应该向使意见描述更严密的方向努力奋进,但是我们也必须要知道什么是现实的,什么是不现实的,这可能也是促使英国立场声明产生的动机之一。
(四)英国立场声明形式
在英国立场声明形式产生之前,通常情况下,在英国的法律体系中,语音学家常用诸如经典的可能性等级表述方法来表达专家意见,之所以实现这种转变,主要是受贝叶斯理论(包含LR体系)的影响,英国的专家们不仅认识到经典的可能性等级表述形式中存在的逻辑缺陷---只考虑到两个竞争性假设中的一个假设,同时也意识到了LR方法中存在的诸多无法克服的现实问题(见似然比形式部分),继而在广泛讨论的基础上提出了英国立场声明形式。值得肯定的是,该形式吸收了贝叶斯理论的主要思想,要求鉴定人同时考虑认定说话人过程中的两个竞争性假设,然而正如French等在给Rose和Morrison的回应中表述的:“文件中提出的框架为的是提醒鉴定专家需要判断检材语音和样本语音中特征的独特性(相当于普遍性),这就意味着要与更多的人进行比较,虽然这种比较是非正式的,常通过分析人员的经验和一般的语言学知识进行的,而不是正式的、定量的。”不难看出,这是一种折中的做法,在既有鉴定方法(主要是听觉-声学分析法)的基础上融合了贝叶斯原理的基本思想来表述鉴定意见,该形式依旧不可避免的存在一定的主观性,不等同于定量化的LR体系。由此,也受到了LR体系支持者的批评。
第一,该形式中两个阶段---一致性和独特性---的划分相当但不等价于LR体系中的相似性和普遍性,两者不是并列平行的,而是连续有序的,独特性分析只是在判断为“一致”的基础上再进行,而且两者的划分等级标准也不相同(前者分为三级,后者则分为五级),两者也不直接相关。对此,Rose和Morrison批评说该方法实际上无法测量出检材语音和样本语音来源于同一说话人还是不同说话人的可能程度是否相等。
第二,能否做出绝对的认定/否定意见?按照贝叶斯原理的规定,对于声纹鉴定专家来说,任何绝对肯定和否定都是基于后验概率的,在逻辑上都是错误的,因为先验概率并不可知。对此,LR体系支持者和英国立场声明形式拥护者们互相指责对方都曾犯过这样的逻辑错误。首先英国立场声明形式在谈到“不一致”的结果时,认为“当语料之间不一致时,得出语料是不同人所说的判断在逻辑上是没有缺陷的。”对此,其拥护者后来承认这种论述是有问题的,但是强调这种做法在实际情况中是合理的,同时指出其批评者在论述中也存在同样的缺陷,即“当然,可以想象,在特定情况下,语音比对也可以得出明确的排除结论,如一个幼小儿童的声道不可能产生典型成年男性较低的共振峰,但是这种情况下,两个语音听起来会明显不同,以至于向鉴定专家咨询这样的案件几乎是不可能的。”对此论述的反对意见是LR体系支持者自己也得出了一个绝对的(明确的)结论,而不是通过得出一个比率来支持说话人是一个成年男性而非一个儿童的假设.英国立场声明形式中还规定了闭集鉴定的特殊例外情况,“在这种案件中,比对任务就变成了哪个人说了什么话。此时,如果几个声音之间的差别足够明显,我们认为可以做出绝对认定的判断。”.Rose和Morrison批评该做法依然违背贝叶斯原理,并认为应该将此闭集情况同样作为开集来进行检验。其实,在实践办案中常常遇到推定某些语料是被鉴定人所说的情况,比如送检人常提出的鉴定要求是对一段语料中的“男性/女性/被称为XX’的/打电话的/报警的”等类型的说话人的声音是不是张三所说,其中检材语音往往都是对话的形式,鉴定专家在选择分析对象(特定语音片段)的时候,不得不将无关的(对应上文)“女性/男性/被称为YY’的/接电话的/接警的”说话人的声音排除掉,这个过程实际上就是推定某些语音是一个人(与是哪个具体的个体无关)说的,其他语音不是这个人说的,这种推定的绝对认可与排除是必须的,否则鉴定专家将无法适从,到底应该对哪些语音进行分析呢28?总不能让事实审判者充当送检人的角色,来指定就某一句话进行鉴定吧?对于检材语音中包含多个对话人的情况(嫌疑人可能是一个或几个),更是需要对其中的“不同”语音进行分类,然后再根据鉴定要求对其中的一个或多个分类后的语音(语音片段)进行进一步的分析,这其中都暗含了(闭集)绝对肯定和否定的思想。从这个角度看,英国立场声明形式中规定的闭集鉴定的特殊例外也不无道理。
第三,没有解决针对多个特征进行综合评价的问题。鉴定中需要使用多个特征是一个不争的事实,如果多个特征指向一致还好说,但是如果出现“九个特征上判定为一致,而一个特征上判定为不一致时,该如何处理?”对于这样的情况,英国立场声明形式和经典的可能性等级表述形式似乎都没有给出很好的说明,一般的做法是按照现有的语音学/语言学模型进行检验,看特征之间的相似或差异是否可以得到合理解释,然而这种解释无疑可能会在不同水平的鉴定人之间出现差异,这也是主观性的体现。
第四,没有明确给出不同等级间的划分依据。不难看出,英国立场声明形式没有给出区分不同等级的具体标准,语音特征组合之间的相似/差别多大才能判定为“一致/不一致”?特征组合需要多特殊才能达到“高度特殊”?不同鉴定人基于自己的经验及所掌握的语言学知识,对同一特征组合能否得出同样的“独特性等级”?英国立场声明形式的拥护者无法准确回答这些问题,当然他/她们并不否认这些问题的存在,然而问题还是应该回归到其拥护者使用的鉴定方法上来,比如听觉-声学分析法会带有鉴定专家的主观判断,由此方法得出的英国立场声明形式(其他形式也一样)的鉴定意见也不可避免的带有主观成分。换句话说,就目前掌握的知识程度和技术方法来讲,实际上很难给出一个明确的划分依据。
(五)选择鉴定意见表述形式中的价值问题
由于目前我们所掌握的技术水平和鉴定方法的限制,加之不同鉴定专家在鉴定中选择不同特点的鉴定方法(或组合),使得各种意见表述形式都存在着各自的优点和不足,迄今还没有任何一种表述形式是无争议的,那些被称为无论是“最科学的”还是“最可靠的”叫法都是自封的,违背了科学的精神。对于任何法庭科学来说,其鉴定意见不仅要体现在其“科学”的一面,还必须能够同时被“法庭”(或特定国家的“司法体系”)这一领域所利用,在“法庭”与“科学”二者结合的时候,必然不是1+1=2这样简单的数学运算,会涉及到很多社会学方面的价值判断。即使不同国家之间的技术水平相同,如果其他条件不同的话,做出的价值选择也可能不同。对于声纹鉴定(其他法庭科学也一样)而言,使用何种意见表述形式,不仅是一种科学技术问题,同时还是一种法律上的价值判断问题,在做价值选择的时候,需要考虑以下几点:表述的科学性、现实性(能否达到预期目标)、实用性、代价高低、事实审判者(法官或陪审团)的接受程度、与本土法律体系相融合的协调性等。合理的意见表述形式应该尽可能多地满足上述众多价值选项。
LR形式在逻辑上没有错误,符合法庭科学的现代思想,然而由于目前其所用鉴定方法的限制,加之缺乏量化所必须的参考人口数据,使得在目前的条件下该方法的“现实性”大打折扣,LR支持者反复强调其优势是用量化的数值只对证据的力度做出评估,然而,很难想象对于既非语音学家/信号处理专家,又非统计学家的事实审判者来说能够真正理解一个数字(如LR=123)的内涵,那些让统计学家对每个案件都出庭帮助解释LR的建议也不具可操作性。同时,这种只关注“完全量化”的数据,忽视法庭对其接受程度的做法,可能会陷入“物理嫉妒”或“科学至上”的怪圈,现实中并不可取。不得不提的是,LR形式的支持者常常以“Daubert”规则30作为必须采用LR体系的主要法律依据,殊不知“Daubert”规则的适用并非像LR体系支持者宣扬的那样死板,实际情况是“审判法官可以考虑Daubert案中提到的一个或多个更为具体的因素,如果这么做将有助于确定证言可靠性的话。可靠性的标准是灵活的,Daubert案关于具体因素的清单,既非必要性也非排他性地适用于所有的专家或者每个案件。”最新修改的美国联邦证据规则第702条32也并未将“已知的或者潜在错误率”写进条文中去。其实,由于价值选择的不同,在美国只有部分州法院采用了该规则33(截止2004年,有11个州采用了“Daubert”规则),其他国家也并无此同样要求的证据规则。尽管我们不应该排斥吸收其中的科学成分完善自己国家的证据采信规则,但是将其作为任何国家法庭科学从业者的行动纲领也不是应有的态度,更何况是片面而错误的理解。
经典的可能性等级表述形式易于理解,实用性很强,目前被众多国家/专家广泛采用也证明了这一点,然而其在逻辑上存在着缺陷,也受到不少学者的批评,但是这种批评并非是广泛的,至少目前是这样。尽管其表述形式是基于后验概率的,在LR体系支持者看来,鉴定专家侵犯了事实审判者的最终裁定权,但是实践中并非所有的事实审判者都反对专家的这种“侵权”行为,至少在中国大陆的情况是,一方面很多时候部分法官会期待这种“侵权”的发生,因为他们更喜欢“明确/绝对”的鉴定意见,另一方面,即使是鉴定专家给出了“明确/绝对”的“鉴定结论”,该“结论”实际上只是专家的判断意见,不一定就会成为法官最后定案的裁定结论,鉴定专家很可能需要就其鉴定意见进行出庭作证,接受当事人(鉴定结果对其不利的一方)、律师和法官多方面的质疑,专家意见是否得到采信的最终决定权还在法官手中。在采用可能性等级表述形式的国家(如德国),经过长期的司法实践,法官常常习惯于这种后验的表述形式,并对此表示满意。如果事实审判者基于该形式的实用性保持这种满意态度,那么改革或摒弃这种逻辑上存在缺陷的形式将失去根本动力,“逻辑正确”的价值选择将让位于“实用性”的价值选择。
英国立场声明形式是一种“折中”的价值选择。之所以做出这种选择,是因为它必须纠正可能性等级表述形式中存在的逻辑缺陷,同时基于现有科学技术、鉴定方法在“科学性”上的局限性,认识到LR形式主张的“完全量化”的“客观”表述并非完全客观,且在实践中不具现实性,所以不得不仅在概念上引入了贝叶斯原理的现代思想,使得该形式在逻辑上变得正确。尽管该形式并未改变其表述存在主观性的本质,但是其现实性和实用性却得到了英国各界的广泛认可。
各国在基本国情、司法体系和技术水平等方面存在的差异,决定了在科学证据上采取的价值取向也不尽相同,无论何种形式的声纹鉴定意见归根结底还是要为本土法律服务,为现实服务,那种脱离实际仅停留在理想层面的鉴定意见不应该成为我们的价值选项。
(六)我国现有形式是完美的吗?
公安部方法和司法部规范的颁布对于规范我国的声纹鉴定技术起到了非常重要的作用,因为之前(2006年左右)很少有对该问题进行过详细的文件化的描述。然而,正如上文所述,作为典型的可能性等级表述形式都存在逻辑上的缺陷和表述上的主观性,我国现行的两个方法中对鉴定意见的表述也都存在这样的问题,针对此问题,目前的情况是,除了个别LR体系支持者对其进行批评之外,大部分声纹鉴定从业人员和法官对现有模式表示满意,并未对其提出整改要求。当然,在我们认识到国内外现有鉴定意见表述形式的优缺点之后,还是需要再做出一次价值选择,是固守或调整逻辑上有缺陷但实用性很强的可能性等级表述形式,还是转向逻辑正确但难以真正实现的量化的LR形式?或许英国立场声明形式会给我们一些启示。
五、未来方向
声纹鉴定仍然是一门比较新的技术,尽管业内很多专家和学者已经积累了丰富的经验,得出了许多研究成果,但是还有很多领域值得做进一步的研究。今后重点研究的任务是寻找那些个体稳定性更强、人际差异性更大的语音特征;在现有鉴定方法的基础上,整合各种方法对说话人鉴定的技术优势,重点开展一些合作性的基础研究;有可能的话,我们更期待创建新的更可靠的分析方法,尽管这是很难的事情。对于传统的听觉-声学分析法而言,由于目前很多研究依旧是基于较少发音人、孤立的、零散的、不合作的研究,对提高声纹鉴定的技术水平贡献有限。一个比较好的研究方式是首先尝试建立一些较大规模的数据库,限定发音人的方言、地域、年龄、性别等基本条件,人数在百人(或数百人)以上,使用多种信道进行录音,包含多种实验设计,设定数据共享机制,在此基础上展开实验室间合作性的基础研究。剑桥大学Nolan教授最近主持的一个研究项目“语音的动态性变化研究”就是很好的范例。另外我们也期待说话人自动识别技术在不远的将来取得更大的发展,技术的进步可能会得益于语音分析专家与信号处理工程人员的深入结合,在解决文本内容、信道鲁棒性、检索速度等关键问题的基础上,建立大规模的声纹数据库。然而,在可预见的时间内,实践中说话人自动识别技术依旧要依靠鉴定专家的广泛参与。总之,只有从特征上、方法上创新,才能真正提高声纹鉴定的科学性和准确性,鉴定意见的表述则应该是下位的问题,因为只有从技术方法的基础研究中入手,才有可能从根本上解决鉴定中的诸多问题,如特征变化、特征价值、特征数量、特征量化、不同方法各自及整合后的准确率等等,只要这些问题解决了,关于鉴定意见如何表述才是更加科学的、可靠的、客观的、可行的问题就不难找到答案了;反之,在没有鉴定方法科学性的基础上,只谈鉴定意见表述的科学性注定难以达到科学性的目标。
六、结论
本文针对目前讨论比较热烈的声纹鉴定意见表述问题进行了评述,首先比较全面地介绍了目前实践中正在使用的5种鉴定方法,指出了各种鉴定方法的优缺点,然后对现存的4种鉴定意见表述形式进行了介绍和评析。本文无意在此将鉴定意见到底应该如何表述的问题彻底解决,只希望本文的论述能够引起读者的思考,相信关于该问题的争论还会继续。最后将几点重要结论总结如下:
第一,经典的可能性等级表述形式简单易懂,目前被大多数国家的声纹鉴定人员所采用。然而,使用该表述形式的鉴定人主要考虑了检材语音和样本语音特征之间的相似性,没有将特征的相似性放到整个参考人口中去考查其分布问题(特征的普遍性),由此得出的鉴定意见在逻辑上存在一定的缺陷,而且主观性较强,因此也受到很多专家的批评。
第二,似然比(LR)形式由于在鉴定中同时考虑了两个竞争性假设,即对特征的相似性和普遍性都进行了考查,而且该形式不对检材语音与样本语音是否是同一人所说做出绝对判断,只是使用量化的LR数值对语音证据的证明力度做出评价,因此在逻辑上是正确的。然而,由于缺乏相关的参考人口统计数据,使得完全量化的LR方法在鉴定实践中不具现实性;同时,在目前现有的鉴定方法中,听觉-声学分析方法仍然占据主导地位,大多数非声学语音特征无法得到准确的量化统计,目前基于某种特定分类的小样本的参考人口数据,仅仅使用声学分析对部分特征进行量化便得出结论的做法是不负责任的。进一步说,由于语音的特殊性,那些认为构建可以被视为具有可行性的、严密的、排他的定量LR方法之前,仅仅是时间和研究问题的观点是不现实的。然而,LR体系毕竟是个新生事物,对此我们也要保持足够的开放心态,其适用性与可靠性最终需要实践来检验。
第三,随着时代的进步和技术的发展,我们似乎不得不在“简单易懂但逻辑上有瑕疵的”形式与“逻辑正确且须具有切实可行性的”表述方式之间做出价值选择,由于完全量化的LR形式在复杂多变的语音证据上难以真正实现,我们可能不得不另寻途径吸收和体现贝叶斯原理的现代思想,或许在不久的将来,我们也可能会转向使用LR方法,但不是完全数字的量化形式,可能只是主观的、定性的。此时,英国立场声明形式或许能够给我们一些启示。然而,不同国家的司法体系和现实国情不同,鉴定意见的表述可以有本土化的体现,做出不同的调整。
第四,要提高鉴定意见表述的科学性和可靠性,我们不仅要吸收贝叶斯原理的现代思想,更应该从语音特征和鉴定方法的创新中入手,我们期待不同语音分析专家之间、语音分析专家与信号处理工程师之间开展合作性的基础研究,在不久的将来有成形的研究出现,或许到那个时候关于鉴定意见如何表述才是更加科学可靠、客观可行的问题才更容易回答。
致谢
感谢施少培(正)高级工程师、李英浩副教授、王虹副教授、许毅教授对本文初稿提出的很有价值的修改意见,感谢MichaelJessen博士与PaulFoulkes教授在IAFPA2013年会期间就此问题与作者的有益讨论。文中错误之处由本文作者承担,与上述专家无关。
参考文献
[1]Saks,M.J.andKoehler,J.J.,Thecomingparadigmshiftinforensicidentificationscience[J].Science,2005,309(5736):892-895.
[2]NationalReasearchCouncil.StrengtheningforensicscienceintheUnitedStates:Apathforward[M].Washington,DC:TheNationalAcademiesPress,2009.
[3]LawCommission.ExpertEvidenceinCriminalProceedingsinEnglandandWales(LawCom.No.325)[M].London:TheStationeryOffice,2011.
[4]王英利,李敬阳,曹洪林。声纹鉴定技术综述[J].警察技术,2012(04):54-56.
[5]Rose,P.,Forensicspeakeridentification[M].LondonandNewYork:CRCPress,2002.
[6]Rose,P.,Technicalforensicspeakerrecognition:Evaluation,typesandtestingofevidence[J].ComputerSpeech&Lan-guage,2006,20(2-3):159-191.
[7]Rose,P.andMorrison,G.S.,AresponsetotheUKpositionstatementonforensicspeakercomparison[J].InternationalJournalofSpeech,LanguageandtheLaw,2009,16(1):139-163.
[8]Morrison,G.S.,Forensicvoicecomparisonandtheparadigmshift[J].Science&Justice,2009,49(4):298-308.
[9]Morrison,G.S.,CommentsonCoulthard&Johnsons(2007)portrayalofthelikelihood-ratioframework[J].AustralianJournalofForensicSciences,2009,41(2):155-161.
[10]Morrison,G.S.,Forensicvoicecomparison[A],inExpertEvidence[M],Freckelton,I.andSelby,H.Editors.2010.
[11]French,P.andHarrison,P.,PositionStatementconcerninguseofimpressionisticlikelihoodtermsinforensicspeakercom-parisoncases[J].InternationalJournalofSpeechLanguageandtheLaw,2007,14(1):137-144.
[12]French,P.,Nolan,F.,Foulkes,P.,etal.,TheUKpositionstatementonforensicspeakercomparison:arejoindertoRoseandMorrison[J].InternationalJournalofSpeechLanguageandtheLaw,2010,17(1):143-152.
[13]Nolan,F.,Speakeridentificationevidence:itsforms,limitations,androles[A].inProceedingsoftheconferenceLawandLanguage:ProspectandRetrospect[C].2001,Levi(FinnishLapland)。
[14]Nolan,F.,Voice[A],inIdentification:Investigation,trialandscientificevidence[M],BoganP.S.,andRoberts,A.,Editors.2011,381-390.
[15]Foulkes,P.andFrench,P.,Forensicspeakercomparison:alinguistic-acousticperspective[A],inTheOxfordHandbookofLanguageandLaw[M],Tiersma,P.andSolan,L.,Editors.2012,557-573.
[16]Broeders,A.P.A.,Someobservationsontheuseofprobabilityscalesinforensicidentification[J].ForensicLinguistics,1999,6(2):228-241.
[17]Broeders,A.P.A.,Forensicspeechandaudioanalysis,forensiclinguistics.Areview:2001to2004[A].in14thINTER-POLForensicScienceSymposium[C].2004,Lyon,France.
[18]Eriksson,A.,Aural/Acousticvs.AutomaticMethodsinForensicPhoneticCaseWork[A],inForensicSpeakerRecogni-tion:LawEnforcementandCounter-Terrorism[M],NeusteinA.andPatilH.A.,Editors.2011,Springer.41-69.
[19]Eriksson,A.,Presentingevidenceincourt–somefundamentalproblemstobeconsidered[A].inProceedingofInterna-tionalAssociationforForensicPhoneticsandAcousticsAnnualConference[C].2011,Vienna,Austria.
[20]张翠玲,Rose,P.,基于似然率方法的语音证据评价[J].证据科学,2008(03):337-342.
[21]张翠玲。法庭语音技术的最新发展[A].第二届证据理论与科学国际研讨会[C].2009.中国北京。
[22]张翠玲。法庭语音比较的科学性和可靠性[A],见:常林,张中主编。证据理论与科学:第三届国际研讨会论文集[C],北京:中国政法大学出版社,2012.
[23]张翠玲。法庭语音技术研究[M].北京:中国社会出版社,2009.
[24]季云起。声纹鉴定结论的科学性表述模式[J].西南大学学报(社会科学版),2009(05):122-125.
[25]Jessen,M.,曹洪林,王英利(译)。法庭语音学[J].证据科学,2010(06):712-738.
[26]K觟ster,O.andK觟ster,J.,Theauditory-perceptualevaluationofvoicequalityinforensicspeakerrecognition[J].ThePho-netician,2004,89(1):9-37.
[27]K觟ster,O.,Jessen,M.,Khairi,F.,etal.Auditory-perceptualidentificationofvoicequalitybyexpertandnon-expertlis-teners[A].inProceedingsofthe16thinternationalcongressofphoneticsciences(ICPhSXVI)[C].2007.Saarbrücken.
[28]Laver,J.,Thephoneticdescriptionofvoicequality[M].Cambridge:CambridgeUniversityPress,1980.
[29]Nolan,F.,Auditoryandacousticanalysisinspeakerrecognition[A],inLanguageandthelaw[M],Gibbons,J.Editor.Longman:London/NewYork.1994:326-345.
[30]Nolan,F.,Forensicspeakeridentificationandthephoneticdescriptionofvoicequality[A],inAFigureofSpeech:aFestschriftforJohnLaver[M].Hardcastle,W.J.andBeck,J.M.,Editors.LawrenceErlbaumAssociates,Inc.:NewJerseyandLondon.2005:385-411.
[31]Kersta,L.G.,VoiceprintIdentification[J].Nature,1962,196(4861):1253-1257.
[32]Tosi,O.,Oyer,H.,Lashbrook,W.,etal.,ExperimentonVoiceIdentification[J].TheJournaloftheAcousticalSocietyofAmerica,1972,51(6B):2030-2043.
[33]Tosi,O.,Voiceidentification:theoryandlegalapplications[M].Baltimore:UniversityParkPress,1979.
[34]Nolan,F.,Thephoneticbasesofspeakerrecognition[M].Cambridge:CambridgeUniversityPress,1983.
[35]Hollien,H.F.,Theacousticsofcrime:Thenewscienceofforensicphonetics[M].NewYork:PlenumPress,1990.
[36]Hollien,H.F.,Forensicvoiceidentification[M].SanDiego:AcademicPress,2002.
[37]InternationalAssociationforForensicPhoneticsandAcoustics,IAFPAResolution-Voiceprints[EB/OL],2007.[cited2013August24]
[38]美国国家研究理事会,丁宁(译)。嗓音鉴别的理论与实践[M].北京:群众出版社,1989.
[39]Morrison,G.S.,Distinguishingbetweenforensicscienceandforensicpseudoscience:Testingofvalidityandreliability,andapproachestoforensicvoicecomparison(inpress)[J].Science&Justice,2013.
[40]Koenig,B.E.,Spectrographicvoiceidentification:Aforensicsurvey[J].TheJournaloftheAcousticalSocietyofAmerica,1986,79:2088-2091.
[41]VoiceIdentificationandAcousticAnalysisSubcommitteeoftheInternationalAssociationforIdentification.VoiceCom-parisonStandards[J].JournalofForensicIdentification,1991,41(5):373-396.
[42]Cain,S.,AmericanBoardofRecordedEvidence-VoiceComparisonStandards.[EB/OL],1998.[cited2013August24].
[43]Maher,R.,Audioforensicexamination:Authenticity,enhancement,andinterpretation[J].SignalProcessingMagazine,IEEE,2009,26(2):84-94.
[44]Nakasone,H.andBeck.S.D.,Forensicautomaticspeakerrecognition[A].inProceedingofSpeakerOdysseySpeakerRecognitionWorkshop[C]2001.
[45]Coulthard,M.andJohnson,A.,Anintroductiontoforensiclinguistics:languageinevidence[M].LondonandNewYork:Routledge,2007.
[46]Archer,C.,HSNWconversationwithHirotakaNakasoneoftheFBI:VoicerecognitioncapabilitiesattheFBI-fromthe1960stothepresent[EB/OL],2012.[cited2013August24].
[47]Branca,A.,ZimmermanCase:Dr.HirotakaNakasone,FBI,andthelow-quality3-secondaudiofile[EB/OL].2013.[cited2013August24].
[48]Solan,L.M.andTiersma,P.M.,Hearingvoices:Speakeridentificationincourt[J].HastingsLJ,2002,54(2):373-435.
[49]Solan,L.M.andTiersma,P.M.,Speakingofcrime:Thelanguageofcriminaljustice[M].ChicagoandLondon:UniversityofChicagoPress,2005.
[50]Tiersma,P.M.andSolan,L.,Thelinguistonthewitnessstand:forensiclinguisticsinAmericancourts[J].Language,2002,78(2):221-239.
[51]Schwartz,R.,VoiceprintsintheUnitedStates-Whytheywontgoaway[A].inProceedingofInternationalAssociationforForensicPhoneticsandAcousticsAnnualConference[C].2006,G觟teborg,Sweden.
[52]王英利。关于声纹鉴定技术的若干问题[A].第九届中国语音学学术会议论文集[C].2010.中国天津。
[53]Gfroerer,S.,Auditory-instrumentalforensicspeakerrecognition[A].inProceedingsofEurospeech2003[C].2003.Geneva,Switzerland.
[54]李敬阳。说话人鉴定概述[A],第一届全国视听技术检验学术交流会论文选[C],公安部物证鉴定中心,北京:中国人民公安大学出版社,2007:281-286.
[55]李敬阳,音像物证技术(二):声音及其鉴定[A],见:李学军,刘晓丹主编。物证技术学(第四版)[M],中国人民大学出版社:北京。2011:266-284.
[56]Nolan,F.,ForensicPhonetics[J].JournalofLinguistics,1991,27(2):483-493.
[57]李敬阳,胡国平,王莉。声纹自动识别技术与声纹库建设应用[J].警察技术,2012(04):66-69.
[58]Gold,E.andFrench,P.,InternationalPracticesinForensicSpeakerComparison[J].InternationalJournalofSpeechLan-guageandtheLaw,2011,18(2):293-307.
[59]司法部司法鉴定科学技术研究所,2010司法鉴定能力验证鉴定文书评析[M].北京:科学出版社,2011.
[60]Utl览tandeskalan/SKL/Utlatandeskalan.pdf)[EB/OL].2008.[cited2013August24].
[61]Jessen,M.,ConclusionsonvoicecomparisonevidenceinGermanyandachallengingcase[A].inProceedingofInterna-tionalAssociationforForensicPhoneticsandAcousticsAnnualConference[C].2011.Vienna,Austria.
[62]Bo觕,L.-J.,ForensicvoiceidentificationinFrance[J].SpeechCommunication,2000,31(2-3):205-224.
[63]McDermott,M.C.,Owen,T.andMcDermott.F.M.,VOICEIDENTIFICATION:TheAural/SpectrographicMethod.[EB/OL].1996.[cited2013August24].
[64]王宁敏。司法语音与声学检验[M].北京:中国检察出版社,2009.
[65]王虹,案件言语识别与鉴定技术规范[M].北京:中国人民公安大学出版社,2012.
[66]曹巧玲,视频中的声音运用[A],杨洪臣编着。视频检验技术规范[M].北京:中国人民公安大学出版社。2012.
[67]Cambier-Langeveld,T.,Currentmethodsinforensicspeakeridentification:Resultsofacollaborativeexercise[J].Interna-tionalJournalofSpeechLanguageandtheLaw,2007,14(2):223-243.
[68]Champod,C.andEvett,I.W.,CommentaryonAPABroeders(1999)Someobservationsontheuseofprobabilityscalesinforensicidentification,ForensicLinguistics6(2):228–41[J].ForensicLinguistics,2000,7(2):239-243.
[69]Forensic-Speech-Science.info,[EB/OL].2007.[cited2013August24]
[70]公安部物证鉴定中心,语音同一认定方法(IFSC11-01-01-2010)[S],2010.
[71]中国人民共和国司法部司法鉴定管理局,录音资料鉴定规范(SF/ZJD0301001-2010)[S],2010.
[72]Nolan,F.andOh,T.,Identicaltwins,differentvoices[J].ForensicLinguistics,1996,3:39-49.
[73]Rose,P.,Goingandgettingit–Forensicspeakerrecognitionfromtheperspectiveofatraditionalpractitioner-researcher[A].intheAustralianResearchCouncilNetworkinHumanCommunicationScienceWorkshop:FSInotCSI–Perspec-tivesinState-of-the-ArtForensicSpeakerRecognition[C].2007.Sydney.
[74]Coulthard,M.,Expertsandopinions:Inmyopinion[A],inTheRoutledgeHandbookofForensicLinguistics[M],Coulthard,M.andJohnson,A.,Editors.Routledge.2010:473-486.
[75]Lindh,J.,Eriksson,A.andNelhans.G.,MethodologicalIssuesinthePresentationandEvaluationofSpeechEvidenceinSweden[A].inProceedingofInternationalAssociationforForensicPhoneticsandAcousticsAnnualConference[C].2010.Trier,German.
[76]徐继军。专家证人研究[M].北京:中国人民大学出版社,2004.
[77]王进喜。美国《联邦证据规则》(2011年重塑版)条解[M].北京:中国法制出版社,2012.
[78]AdmissibilityofScientificEvidenceUnderDaubert[EB/OL].[cited2013August24].
[79]Nolan,F.,McDougall,K.,DeJong,G.,etal.,TheDyViSdatabase:style-controlledrecordingsof100homogeneousspeakersforwforensicphoneticresearch[J].InternationalJournalofSpeechLanguageandtheLaw,2009,16(1):31-57.