中国语言资源保护工程是我国目前和今后一个时期实施的一项重大工程。尽管与其他领域的工程相比,规模并不算太大,但在语言文字领域,无论是层次、规模还是经费投入,都是史上罕见的。如此重要和浩大的工程,顶层设计的重要性不言而喻。自2014年初以来,我们一直致力于中国语言资源保护工程(以下简称语保工程)的论证和设计工作。本文主要论述语保工程的定位、目标与任务。
一 定位
(一)定位依据
定位是对工作的基本认识,或者说是根本认识。语保工程定位的依据主要来自以下两个方面。
1.党和政府有关政策和指示
2011年10月,党的十七届六中全会报告《中共中央关于深化文化体制改革推动社会主义文化大发展大繁荣若干重大问题的决定》指出要"大力推广和规范使用国家通用语言文字,科学保护各民族语言文字",首次提出"科学保护各民族语言文字"的要求,并与"大力推广和规范使用国家通用语言文字"这一基本语言政策并列;同时提出要"维护民族文化基本元素","抓好非物质文化遗产保护传承","弘扬中华优秀传统文化".2012年11月,党的十八大报告特别强调要"弘扬中华优秀传统文化","繁荣发展少数民族文化事业".2014年初,国务院有关领导对汉语方言保护工作做出重要批示,指出汉语方言是中华传统文化的载体和地方历史文化的见证,是宝贵的文化财富,要加强对其研究、总结,不能使之消失,这与推广普通话并不矛盾。并要求要作为抢救工程,制定时间表,切实做好汉语方言和少数民族语言的整理,包括方言故事的收集,要注意依法应对外国人对我语言的搜集。
毫无疑问,"科学保护各民族语言文字"是语保工程的纲领,对此进行全面、深入、准确的理解至关重要。就针对语言文字而言,"保护"一词有狭义和广义之分。狭义的"语言保护",是指通过各种有效的政策、措施、手段,保持语言、方言的活力,使其得以持续生存和发展,尤其是要避免弱势和濒危的语言、方言衰亡。广义的"语言保护",既包括保护,也包括保存。"语言保存"是指通过全面、细致、科学的调查,把语言、方言的实际面貌记录下来,并进行长期、有效的保存和展示。(曹志耘,2009)"科学保护各民族语言文字"里的"保护"应作广义的理解,即既指维护语言的活力,也指语言的记录保存。否则,在现阶段,"保护"工作难以落到实处。
"科学"一词可以有多种解读。针对语言的记录保存而言,主要是指整体保护工作的科学规划和具体调查记录、整理加工技术手段的科学性和先进性。我国历史上曾经开展过几次大规模的语言方言普查工作,取得很大成绩,但出于种种原因,在整体规划以及规范性、前瞻性等方面都存在不少问题,这些问题直接影响到调查结果的价值和作用,留下的遗憾、造成的损失是无法弥补的。因此,在新形势下开展语言保护工作,"科学"是一个前提性要求,必须高度重视,不容含糊。在十七届六中全会报告中,"科学保护各民族语言文字"一句后面紧跟着"繁荣发展少数民族文化事业,开展少数民族特色文化保护工作,加强少数民族语言文字党报党刊、广播影视节目、出版物等译制播出出版",可见"各民族"与"少数民族"是作为两个不同的概念使用的,或者说,这里使用"各民族",意在强调并非限于少数民族,而是包括所有民族使用的所有语言、方言、文字,其中当然包括汉语及其众多的汉语方言,也包括汉族使用的少数民族语言、少数民族使用的汉语以及各种类型的混合语等等。
2.我国语言资源现状和保护需求
目前,我国语言资源有两个基本事实,一是丰富性,二是濒危性。丰富性是指语言种类繁多,方言复杂悬殊,文化底蕴丰厚。我国拥有汉藏、阿尔泰、南岛、南亚和印欧五大语系的135种语言,十大汉语方言,方言土语难以计数,是当今世界上语言资源最丰富的国家之一。(中国社会科学院语言研究所等,2012)濒危性是指在现代化和城镇化的高速进程中,随着我国各项事业的飞速发展,我国少数民族语言和汉语方言正以前所未有的速度发生变化,许多语言和方言趋于濒危或面临消亡,珍贵的语言文化资源快速流失,形势十分严峻。这方面已有很多论述,在此不再展开。(孙宏开等,2007;曹志耘,2014)。
显而易见,我国语言资源保护的任务极为艰巨,也极为紧迫。与此同时,地方政府和社会大众对保护当地语言方言及其文化给予了极大的关注和很高的期待。然而,目前我国从事语言资源调查保护的专业力量极为有限,有的省区甚至难以组建起一支调查团队;调查保护经费完全依靠政府投入,金额有限,也难以保证长期持续支持。语言资源调查保护工作是在和时间赛跑,但由于各方面条件限制,调查保护的速度远远赶不上语言资源衰亡和流失的速度,和时间相比,我们注定是输者。这是我们必须面对的现实。
(二)工程定位
鉴于上述背景和原因,语保工程确定了三个定位:国家工程,社会化,科学性。
1.国家工程
语保工程拟对全国各民族的语言、各地的汉语方言展开统一调查,涉及全国56个民族、2000多个县。如此浩大的规模,如此艰巨、紧迫的任务,只有政府牵头才有可能实施完成。而出于我国的体制特点,例如设有专门的国家语言文字工作委员会、国家民族事务委员会及其地方管理部门,政府也完全有能力担负此历史使命。如果在其他国家,也许就难以组织实施这种性质的工程。
语言资源是文化资源的重要组成部分,是传承优秀传统文化和保持文化多样性的重要前提,也是决定国家软实力和国际影响力的重要因素。对于如此重大的问题,仅靠学者之力、仅当作科研项目来研究显然是远远不够的。学者在长期的研究工作中,往往会形成自己个人的研究兴趣和习惯,这与国家急需未必能完全吻合。在目前时不我待的形势下,必须依靠行政力量,统一思想、统一行动,以达到贯彻政府意志、实现社会需求的目的。
2.社会化
国家工程的定位意味着语保工程不是学术象牙塔里的工作,需要发动社会各界参与,同时也要为社会服务。不过,社会化定位的更深刻的动因源自以下两个方面。首先是调查保护工作的艰巨性和紧迫性,促使我们必须面向社会开放,吸引社会大众参与。专家固然是调查保护的重要力量,但目前在全国范围内能够而且愿意从事语言资源调查保护工作的专业人员数量,与保护需求相比可谓杯水车薪,从新培养则是远水救不了近火。与此同时,社会大众对保护自己的母语文化热情高涨,其中很多人也具备一定程度的专业和技术能力(尤其是在技术方面,很多人实际上远胜于语言调查研究人员),能够完成或协助完成部分语言材料的调查采集和加工处理工作。如能发动广大的社会力量参与和分担语保工程任务,则可从根本上解决人力不足、经费匮乏、时间紧迫等问题。其次是科研理念方面,在当今中国,语言学作为与社会生活密切相关的一门学科,语言学工作者应该树立"学术为社会服务"的理念,应该自觉地把自己的研究工作与社会结合起来,自觉地去思考解决社会问题,积极地去推动社会发展和进步。
在我国语言文字领域,虽然也实施过一些大型项目,但绝大多数都属于专家项目,即由专家组织课题组合作完成。因此,对于我们大多数人来说,社会化是一个新课题,是一项新挑战。
在这方面我们需要放下姿态,多向社会化、市场化专家学习,积极与社会化公司和专业人员合作,不断摸索,积累经验,加速转型。事实上,近年来国内外已有不少人在进行语言保护社会化的尝试,例如采用志愿者上传录音文件方式的汉语方言网站"乡音苑"就取得了很大的成功,产生了很大的影响。最近,中央电视台下属中央新闻纪录电影制片厂和中国社会科学院语言研究所联合主办的"中国微乡音"汉语方言大赛,利用微信平台开展方言比赛活动,也是一个十分有益的尝试。当今飞速发展的网络、通讯技术为语言资源调查保护的社会化提供了巨大的空间和可能性,从这个角度来说,则是一个极好的机遇。
3.科学性
国家工程、社会化都要以科学性为基础,这是"科学保护"所规定的。当然,如此浩大和复杂的工程,如果没有科学性作保障,也是难以想象的。所谓科学性,主要体现在以下三个方面:
一是专业性,即整个工程的规划、设计都由专家负责,培训、监督、实施、验收等也都由专业团队和技术人员把关。二是规范性,在工程实施之前,要在充分论证的基础上,确定工程的实施方案、管理办法和技术规范,管理办法包括立项、中期检查、结项、培训、试点、预验收、验收等,技术规范如调查规范、语料整理规范、各种语言方言调查表、资源编码规范、音像加工规范、属性标注规范、专用摄录软件、校验软件、标注软件,等等。三是前瞻性,要站在历史的角度,面向未来设计工程的内容、方法和技术标准,要满足长久保存和使用的要求。这一次全国性、全面性的调查保护工作属于"一次性抢救"的性质,不可能若干年后再进行重新调查(因为到那时很多语言方言或许已经不存在了)。
2007年以来,国家语委和教育部语信司组织有关专家开展中国语言普查、中国语言资源有声数据库建设项目的论证和规范研制工作,先后完成"中国语言普查论证报告---汉语方言""汉语方言语音调查表和调查规范""汉语方言词汇调查表和调查规范""汉语方言语法调查表和调查规范""中国语言普查论证报告---地方普通话测试表研制""录音和记音规范""机助调查和校验规范""普查资料整理及建库规范""汉语方言用字规范"等一系列研究课题,并于2010年编写出版了《中国语言资源有声数据库调查手册·汉语方言》一书。2014年,国家科技支撑计划项目"三方工程中国语言资源有声数据库技术规范与平台研发"获批立项,该项目旨在为中国语言资源有声数据库建设提供全面先进的技术支撑,主要研究内容包括有声数据库技术规范研究、技术工具研发、平台技术研发等。2014年初,又组织专家开展中国语言资源保护工程的全面论证,论证工作持续一年之久,有关规范的研制工作则延续至今。可见,语保工程的科学性问题一直得到有关部门和专家的高度重视,并已具备良好的基础。
二 目标与任务
语保工程的目标是,贯彻落实十七届六中全会以来党中央关于"科学保护各民族语言文字"的精神,针对现代化背景下汉语方言和少数民族语言迅速衰变的严峻形势,统筹规划、整体推进,利用现代化技术手段,全面调查我国当今语言状况,收集记录汉语方言、少数民族语言和口头文化的实态语料,进行科学整理和加工,建成大规模、可持续增长的多媒体语言资源库,并开展语言资源保护研究工作,形成系统的基础性成果,进而进行深度开发和展示,全面提升我国语言资源保护和利用的水平,为传承中华优秀传统文化、促进民族团结、维护国家安全服务。
该目标可以分解为四个部分:调查、保存、研究、开发。实际上这也是工作的四个步骤。首要工作是调查,收集语料,汇聚资源,这是最重要的工作,也是所有工作的基础;其次是平台建设和资源保存,实现语言资源的信息化和高效管理;在此基础上可进行各种保护研究,编写出版相关成果。而开发应用是在语言资源保护工作完成以后才能开展的工作,可视为语保工程的延续。
根据上述定位和目标,语保工程的主要任务简述如下。
(一)中国语言资源调查
1.田野调查
田野调查分为五大部分:语言国情,汉语方言,少数民族语言,语言文化,边疆、港澳台和海外华人语言状况。"语言国情"调查全国各省(区、市)各县的语言方言种类、分布、使用人口、使用情况、变化情况等。
"汉语方言"调查全国汉语地区约500个方言点的语音、词汇、语法基本面貌以及话语、口头文化(包括歌谣、故事、口彩、禁忌语、隐语、骂人话、顺口溜、谚语、歇后语、谜语、曲艺、戏剧、吟诵、祭祀词等)、地方普通话,同时针对其中约50个濒危方言点进行全面系统的抢救性调查。"少数民族语言"按语种及其方言设点,共计约400个点,调查其语音、词汇、语法基本面貌以及话语、口头文化、地方普通话,同时针对其中约100个濒危语言点进行全面系统的抢救性调查。"语言文化"调查100个点(汉语方言80点、少数民族语言20点)的房屋建筑、日常用具、服饰、饮食、农工百艺、日常活动、婚育丧葬、节日、说唱表演等语言文化现象。
"边疆、港澳台和海外华人语言状况"调查我国边疆少数民族地区(黑龙江、吉林、辽宁、内蒙古、新疆、西藏、云南、广西等)、港澳台地区和海外华人聚居地区(共20个地区)的语言分布、语言政策、语言生活、语言态度等。
2.在线采录
在线采录是本工程长期大规模收集语言资源的重要方式。采录地点不限,争取逐步覆盖全国所有行政村和自然村,远期争取涵盖中国周边国家。采录对象不限。
采录内容包括限定性和非限定性两类。限定性内容是指事先设置好的采录条目,非限定性内容是指用户通过系统前台上传端口自由上传的任意条目。采录方式包括在线即时采录和批量上传线下采录并已规范加工的数据,数据形式包括文本、音频、视频、照片等。采录标准分为专业标准和通用标准。
3.文献典藏(已有资源汇聚)
对已有汉语方言和少数民族语言"语料"类纸质文献资源(例如字汇、词汇、字典、词典、调查报告、语言志、方言志等)先进行图片化和文本化,再进行规范加工使之数据化并入库。
(二)中国语言资源平台建设
1.中国语言资源库
语言资源库包括语言国情库、汉语方言库、少数民族语言库、语言文化库,分别对田野调查中获得的分县语言国情材料、汉语方言语料、少数民族语言语料、语言方言文化材料进行电子化并导入资源库中。
2.中国语言资源采录展示系统
中国语言资源采录展示系统是基于中国语言资源库开发的语言数字博物馆,其核心功能是语言资源采录、加工和展示。"采录"通过多种渠道向广大互联网用户收集语言资源,包括Web网页、移动App以及其他开放应用平台(如微信、微博等)。"加工"分为自动处理、众包标注和专家审核三个层次。自动处理主要是对采集到的原始数据进行基础加工;众包标注是利用互联网用户的协同参与,对已有数据进行人工再处理;专家审核由专业人员负责,旨在保证数据质量。"展示"可以通过多种检索方式获取数据内容,例如基于文本的全文检索,基于图像分析的图形检索,以及基于语音识别技术的音频检索等。也可以结合地理信息系统(GIS)展示语言资源的地理分布,生成语言地图,进行语言地理标注或统计分析。
(三)中国语言资源保护研究
1.语言志
包括中国语言志、中国方言志、中国文字志、中国方言文化典藏四大系列。"中国语言志"包括汉语和少数民族语言(包括濒危语言、跨境语言)志,一语一志,共135册。内容包括社会人文(民族概况、民族居住地区概况、民族文化习俗)、语言使用(母语与当地其他语言的使用情况、语言态度、语言生活)、语言本体(语音、词汇、语法面貌,研究现状)、语料(词汇、语法、话语、口头文化)以及音像材料(语料的录音、发音视频)等方面。
"中国方言志"为汉语方言(包括濒危方言)志,官话分8区,一区一志;晋语一志;东南方言各区共有52个方言片,一片一志;语保工程设50个濒危方言点,每点一志,以上共111册。内容包括社会人文(历史沿革、地理交通、居民人口、文化习俗)、语言使用(母语与当地其他语言方言的使用情况、语言态度、语言生活)、语言本体(语音、词汇、语法面貌,研究现状)、语料(音系、单字、词汇、语法、话语、口头文化)以及音像材料(语料的录音、发音视频)等方面。
"中国文字志"包括传统文字、民间文字和新创制文字,共30册。"中国方言文化典藏"调查汇编语言文化现象的名称、读音、解说和图片,电子版还包括音像材料(语料的录音、发音视频和文化活动视频),每点收图600幅左右,共100册。
2.语言地图
包括中国分县语言分布地图集、中国语言地图集、汉语方言地图集三大系列,均包括纸版和电子版两种形式;电子版拟结合中国语言地理信息系统,把历史行政区划、地理地形、交通、人口等参数与语言方言分布情况结合在一起,制成三维立体语言地图。"中国分县语言分布地图集"以县为单位绘制语言分布图,一县一幅,共2000多幅。"中国语言地图集"以语种为单位(汉语还以方言区为单位)绘制语言分布图,共计145个单位,一种(区)一幅,共145幅。"汉语方言地图集"在全国汉语地区方言点调查的基础上,结合以往调查材料,绘制语言特征分布图,约500幅。
3.语言报告包括边疆少数民族地区、港澳台地区和海外华人聚居地区三类,共20册。
4.中国语言文化遗产名录整理研究我国语言、方言、文字、口头文化等非物质文化遗产状况,编写保护名录,指定传承人。
(四)中国语言资源开发应用(后续任务)
中国语言资源开发应用是本工程的后续任务,需在完成第一期工程的基础上进行。内容包括中国语言计算,汉语方言和少数民族语言语音技术、在线翻译、在线学习,公安刑侦和国安用语言鉴别系统等。以上是从全面、理想的角度设计的工程任务。由于工程实施的各种条件和因素尚未完全确定,语言资源等客观情况也处于变动之中,具体任务和工作内容将会随着工程的开展而加以调整。2015年的主要任务包括汉语方言调查(42点)、少数民族语言调查(62点)、濒危汉语方言调查(11点)、濒危少数民族语言调查(19点)、语言文化调查(32点)以及中国语言资源采录展示平台建设、已有资源汇聚、顶层设计等,已在全国有序展开。
三 结语
语保工程定位高、目标大、任务重,如要按时保质保量完成任务,必须进行科学规划、合理安排实施,特别要重视突出重点、强化特色。
(一)整体规划,分步实施
语保工程按照5年规划分步实施。2015年为开局之年,也是试点之年。主要任务是制定工程实施方案、管理办法以及经费管理办法;进行顶层设计;展开汉语方言、少数民族语言、濒危语言方言、语言文化等项目的先期调查和试点研究;开展已有资源汇聚前期准备和技术研发工作;开展中国语言资源保护平台建设工作,推出初级版的语言资源展示系统和在线采录系统。
2016年至2019年为工程实施的主体阶段。主要任务是通过田野调查和互联网在线采录两种方式,在全国范围内展开大规模语言资源调查工作;对已有语言资源进行电子化、规范加工并入库;逐步建成规模最大、技术最先进的中国语言资源大数据博物馆和在线采录系统。在调查和建库的基础上,开展中国语言资源保护研究成果的编写工作,包括编写出版中国语言志、中国方言志、中国文字志、中国方言文化典藏、中国分县语言分布地图集、中国语言地图集、汉语方言地图集、中国语言文化遗产名录,以及边疆、港澳台和海外华人语言报告等,这部分工作将延续至2019年以后。
从2020年开始,在完成工程任务的基础上,整合相关专业技术力量、企业和社会力量,大力开展中国语言资源开发应用工作,例如开发中国语言计算、汉语方言和少数民族语言语音技术、汉语方言和少数民族语言在线翻译、汉语方言和少数民族语言在线学习、面向公安刑侦和国家安全需求的语言鉴别系统等,这方面的工作空间巨大,目前尚难以全面规划。
在各项工作的实施过程中,必须整合全国现有资源和力量,避免重复建设。
(二)突出重点,强化特色
语保工程的重点是语言资源汇聚,或者说是建设中国语言资源库(该资源库也可视为语言数字博物馆)。语保工程实现语言资源汇聚的途径包括三个方面,一是田野调查,二是在线采录,三是文献典藏。田野调查是语言资源保护的基础,其重要性不必多言。不过,在当今网络、通讯技术高度发达的情况下,在我国语言资源快速流失的严峻形势下,在线采录(实际上也包括离线采录在线上传)必须作为语言材料采录收集的重要途径,甚至是更为重要的途径。
此外,自20世纪初以来,在几代语言学家的努力下,汉语方言、少数民族语言的调查成果已极为可观,把这批珍贵的资料纳入中国语言资源库,使之发挥更大的作用,也是一项重大任务。在全面开展田野调查的同时,充分重视开辟在线采录模式,充分重视利用已有资源,三条渠道齐头并进,最终汇入中国语言资源大海。
语保工程的特色可体现在多个方面,例如社会化定位,全媒体和网络技术综合运用,汉语方言、少数民族语言、语言文化同时展开,田野调查、在线采录、已有资源多头并进,等等。与其他相关工作和科研项目相比,语保工程最根本的特色在于社会化的理念和工作模式。社会化的理念和工作模式体现在工程设计和实施的各个方面,最主要的是体现在语言资源保护参与者、保护内容、服务对象三个方面。从参与者来说,每个调查点都需要由当地母语人担任发音人和语料提供者,在线采录不限地点、性别、年龄、职业,面向全国全社会开放,从理论上说全国每一个村的人都可以采集自己的语料上传入库,众包转写工作也需要各行各业的人参与分担。
从保护内容来说,除了语言本体以外,还包括口头文化、语言文化等方面的内容,并采用音频、视频、图片等形式保存展示它们的"实态"面貌,以让社会大众喜闻乐见,容易接受。从服务对象来说,调查成果除了用于学术研究以外,更重要的是要用于普及推广、产品开发、文化传承等方面,直接为社会大众服务,为经济建设和文化建设服务。当然,这也是我们的弱项,需要我们转变观念,积极探索。
参考文献:
[1]曹志耘。论语言保存[J].语言教学与研究,2009,(1)。
[2]曹志耘。方言濒危、文化碎片和方言学者的使命[J].中国语言学报,2014,(16)。
[3]李宇明。论中国语言资源有声数据库的建设[J].中国语文,2010,(4)。
[4]孙宏开,胡增益,黄行。中国的语言[M].北京:商务印书馆,2007.
[5]中国社会科学院语言研究所等。中国语言地图集(第2版)[M].北京:商务印书馆,2012.
[6]中国语言文字使用情况调查领导小组办公室。中国语言文字使用情况调查资料[R].北京:语文出版社,2006.