所谓语料库是指以计算机为载体承载语言知识的基础资源。如果学习者对某词、短语或句子的用法和意思不是很肯定时,可以借助这些语料库强大的检索功能来得到这些词在日语文章中的用法等信息,这样大多数疑难问题都可以采取类比的方面迎刃而解。语料库可以分为母语语料库与学习者语料库。[1]
其中最受语言研究者重视的则是学习者语料库。语料库按照语料的收集原则可分为四类:①异质的。即不以收集特定的语料为目标,大量收集不同种类的语料。②同质的。即只收集具有同一属性的语料。③系统的。即按照制定的原则与比例收集语料,使得收集的语料具有系统性。④专用的。只收集某一特定的语料。此外,按照语料的语种,语料库还可以分成单语的、双语的和多语的。本文要研究的正是双语语料。
1 徐一平等学者对中日对译语料库的研究
早在1999年,北京外国语大学的日语系教授徐一平就组织了题为《中日对译语料库的研制与应用研究》的研究项目,并在 2003 年成功地建立了中日对译语料库。这一研究成果可谓是世界首创,对于中日的对译工作可以说有划时代的意义。[2]
1.1丰富的内容和高效的检索功能。该项目的研究成果《中日对译语料库》收录中文和日文的文本语料达到了2013万余字。在语言资料的收集上,它不仅满足了自然语言处理研究应用的实际需要,重视原文和译文的质量,还收录了各种体裁的语料文本,经过大量专家对原文文本和译文文本的层层筛选,最终收集的中日文各种原文文本和译文文本多达 80篇以上。[3]
它所收集的体裁不再局限于中日对译文章中常见的小说文本,还包括了其他体裁的语料文本,如诗词、散文、人文传记等。再者,为了确保语料的实用价值,它所涵盖的时代包括了近代和现代的各个时期。此外,语料的录入也经历了多次校对,出错率低于万分之五,收录语料的可信度极高。为了便于学习者更好地学习,徐一平等学者还针对中日对译语料库开展了中日语料对齐、句法标注等工作。①原文和译文对齐。原文和译文对齐是形成双语平行语料库的前提条件。然而现有的计算机还不能让中日双语语料自动对齐。所以该研究团队人为地创造了对齐方法,对该语料库中的所有语料进行了人工对齐,最后使得该语料库中的所有语料在段落上能保持100% 的对齐。它为后继的研究者利用计算机实现中日双语语料段落自动对齐,甚至是句对齐打下了坚实的基础。[4]
②词性和句法标注方面。自然语言处理技术、分词技术以及词性标注技术发展迅速,并且日趋成熟。该研究团队利用已开发的先进分词、词性标注技术以及句法分析系统,对中日对译语料库中的语料文本进行了整体的分词、词性标注以及初级句法标注。就中文而言,有北京大学开发的汉语分词标注系统SLEX;就日文而言,有日本开发的日语分词标注系统CH ASEN。这些系统加工分词与词性标注的准确率几乎接近百分之百,它们的统计模型都是建立在纯母语语料基础上的,而某些译文语料中留有原文的“记号”,这些“记号”包括人物名称、地方称谓等专有名词,是很多基于母语语料的现有系统无法克服的问题。因此,该研究团队在开发和研制该语料库时,分别在这些系统中建立了对译语言的中日文人物名称、地方称谓等专有名词词典。此外,该研究团队还采用了机器自动分词、词性标注与人工校准相结合的研究方法,使中日双语语料的分词和词性标注的准确率几乎接近百分之百。
同时,该研究团队也对少数双语语料进行了初级的句法标注,结果显示无论是中文还是日文,其标注准确率都较高,在60% 以上。语料库最重要的应用功能是检索功能。
为了满足学习者对检索的需要,该研究团队与日本日立公司中央研究所开展了合作,研发出了一套既符合中日对译双语平行语料库特征,又满足学习者使用需要的检索工具。使得使用者能够对中日文语料进行双向检索,获得和检索原文相对应的译文语料,并且实现中日文在同一屏幕内显示。
由于windows平台能够支持多国语言,所以研究者把windows系统作为开发中日对译语料库的平台。
不仅如此,为了提高中日对译语料库的通用性,研究人员还利用GB2312的内码存储汉语语料,利用日本电脑系统常用的编码表ShiftJIS存储日文语料。语料库能满足中日双方学习者的学习需要,并适用于不同版本的windows平台。语料库的实用性和学术价值得以体现,实现了多功能检索。[5]
该中日对译语料库提供的检索工具是利用数据库技术研发的,主要是在windows2000系统和InternetExplorer6的基础上运行的。为语料库数据的再次开发和利用打下了坚实的基础。另外,由于语料库主要用于语言研究,所以语料库提供的检索工具除了拥有普通语料库所具备的简易字符串检索功能外,还可以方便使用者进行句型检索、使用频率检索以及特殊句式检索等各种复杂检索,检索速度十分迅速。
1.2在应用中验证和提高研究成果。对于中日对译语料库的研制来说,重点在“用”,而不是“形”。为了使得开发研制的中日对译语料库能更好地为中日两国语言研究服务,验证和提高其应用功能。该研究团队在中日对译语料库拥有相关检索功能后,就开始利用该语料库开展实践活动,并为此进行了两次大型的国际学术研讨会。如在2001年,中国和日本的研究专家就针对中日对译语料库在中文语言学研究、日文语言学研究以及中日文对比语言学研究等众多领域的应用问题进行了深入研讨,这些研究涉及了很多方面,如句法、词汇以及翻译等,为研究团队修缮中日对译语料库提供了宝贵的参考意见。再比如2002年,中、日、韩三国的研究专家,就中日对译语料库的建设现状、语料库在语言学研究中的作用以及口语语料库的建设和应用等问题,进行了广泛交流和探讨。这一系列检验和校准措施使得语料库的学术价值能得到广泛认同,实用性大幅提升。[6]
此外,为了反映这些应用研究成果,该研究团队还利用中日对译语料库对中文的语气助词“吗”和日语助动词“か”的对比研究、对中文的语气助词“呢”和日语助动词“でしょう”的对比研究以及对中日文完成时的对比研究等,获得了许多实用性强的新结论,对于深入开展中日两国语言研究有着重要作用。
1.3该中日对译语料库的意义。语料库的应用不仅局限于语言测试方面,还对词典的编纂有着重要作用1的基本前提,它的优点在于:它能对变化中的词义进行描写、分析语法信息以及描述习语的实际用途等方面。在自然语言处理方面,很多机器翻译系统的核心模型是建立在语料库的基础上的。[7]
在中日交流日益密切的今天,构建一个完善的中日机器翻译系统是非常有必要的,而中日对译语料库是构建这类翻译系统的基本前提。
2 长沙民政职业技术学院对中日对译语料库的研究
长沙民政职业技术学院相对于徐一平等学者对中日对译语料库的研究更晚,始于2008 年9 月。该研究项目主要分为四个步骤:①收集语言资料,②开发各种工具,③研制语料库,④分析语料库。
2.1构建语料库的意义。它是服务于中国学习者的语料库,让使用者能利用计算机同时检索中日文语料中的信息。虽然很多日语专家已经开发了很多不同种类的日语教学系统。但这些日语教学系统很少考虑到学习者母语与目的语的差异。因此,开发和研制以中文为第一语言、以日文为目的语的日语教学系统势在必行,而日语教学系统的开发前提是构建一个适用于中国日语学习者的语料库。
2.2研究方法。
2.2.1 收集语言资料。
相对单语语料库来说,中日对译语料库的优点在于中日双语性与平行性。该学院的研究团队构建了一个大型的中日双语平行语料库,收录的中日文语料超过1000 万字。
再者,大量实践例子表明合理地使用译例,往往会得到事半功倍的效果。因此,该学院的研究团队将对译语料进行了分类,并根据不同目的重新组合使用。
为了满足各种研究目的,他们收录的内容除了众多有研究价值的中日文学着作外,还包括部分剧本、政府报告等文章。此外,为了满足翻译学习者的学习需要,部分被收录的着作还涵盖了多个译本,并且语料的出错率低于5%。[8]
2.2.2检索工具的研制和语料库的编辑过程。该语料库为学习者提供了一个高效、反应敏捷的检索工具。此检索工具具备双语平行检索、关键词检索以及抽象句型检索等实用性强的功能。该检索工具属于窗口操作,界面清晰,容易辨认,它不但集成了现有检索工具所有实用功能,还比照中日双语语料库的特点增加了很多新功能。如在语料库的编辑方面,它将人工手写的译本电子化,使得它成为逐句对译的文件。
2.3分析语料库。开发和研制中日对译语料库,涉及众多学科,如翻译学、信息工程学以及计算机科学与技术。因此,所采取的研究方法必须遵循社会科学和自然科学。在选取语料、原文和译文对齐以及语料检索方面,该研究组织认为首先要对文本语言作深层次的研究,提炼文学、翻译学等学科中包含的语言知识。在运用语料库进行语言研究时,要结合信息工程学的研究方法和计算机科学的最新技术,以得到更高的研究效率和最新的研究成果。
3 我国在研究语料库方面存在的问题
①研究的主要方向主要放在语言描述上,而对语言的解释和应用没有做过多的研究。显然,仅靠语言描述,很难获得实用性强的研究价值。
②对学习者语言的对比分析没有做系统研究。
③缺少相关语料库语言学体系理论,这是今后语料库研究需要解决的重大课题。④在技术开发层面,表现不够积极。后继的语料库研究者需要加大技术开发力度,重视技术方法培训,对语料库进行深加工。
4 结论
尽管我国对日语语料库的研究起步较晚,现有的中日对译语料库在规模、系统性、可靠性等方面还存在很多不足,不能完全满足对日语语言研究的需要。但是只要我们加大语料库的建设力度,在语料采集、后期加工、检索工具设计方面不断创新,我们终能建立起更加完善的语料库,更好地推动日语语言学以及相关专业的发展。
参考文献
[1]蔡强,张建.平学术期刊论文摘要汉英双语语料库的建设与应用[J].前沿,2014,1.
[2]曹大峰.汉日平行语料库与翻译研究[J].外语教学与研究,2006,5.
[3]唐静.浅谈关于中国日语学习者的中日对译语料库构建的研究[J].群文天地,2011,9.
[4]余一骄,刘芹.基于语义的中文网页检索[J].计算机科学,2001,8.
[5]李战军,梁晓晖,王新文,马晓涛.基于.NET 的新能源中日对译语料库设计与实现[J].河北软件职业技术学院学报,2012,3.
[6]鞠玉华,卢小花.公共外交视野下的日本华文传媒———以日本侨报社为研究案例[J].八桂侨刊,2012,2.
[7]罗选民,董娜,黎土旺.语料库与翻译研究———兼评 Maeve Olohan 的《 翻译研究语料库入门》[J].外语与外语教学,2005,12.
[8]张威.近十年来口译语料库研究现状及发展趋势[J].浙江大学学报(人文社会科学版),2012,2.