古籍数字化过程中汉字字库不足的解决思路

来源：学术堂作者：姚老师
发布于：2015-01-06 共3295字

　　古籍数字化是加快古籍流通，有效保护古籍的重要手段。中文古籍数字化肇始于 1978 年，美国人P·J·Ivanhoe 使用电子计算机编制了《戴震孟子字义疏证索引》《王阳明大学问索引》《王阳明传习录索引》《朱熹中庸章句索引》《朱熹大学章句索引》机读目录。

　　目前在美国，由北美 36 家图书馆组成的美国图书馆研究学会，拥有 25 000 条数据的数据库做到了馆际资源共享，并还在不断地扩充完善中。哈佛燕京图书馆拥有的“线装古籍计算机检索系统”中的 1 000 余种家谱的资料，目前已经编目完成。在英国，大量中国珍贵文献和古籍收藏在大英图书馆，大英图书馆开发的“古版书简明标题目录”是当前全球古籍文献数据库最大的联机数据库。以上这些成果为我国古籍数字化建设提供了宝贵的经验。

　　据 2010 年不完全统计，我国大陆地区有 179 家单位从事古籍数字化，形成各类数据库（包括各种古籍书目数据库、古籍全文数据库等）415 个，许多数据库的字数都在 1 亿以上。较权威的统计表明，2012年我国公藏机构已经拥有超过 20 亿字的数字化文本格式的古籍。一些已成规模的大型古籍数据库还在原有基础上不断拓展和完善。

　　中国大陆地区开始中文古籍数字化工作以来，制约古籍数字化进程的主要问题是汉字字库问题。业界就这一问题进行了深入的研究和探讨。

　　1 国内外古籍数字化过程中对汉字字库问题的研究概况

　　1.1 汉字字库的研究情况

　　我国从20世纪50年代就开始了计算机中文信息处理的理论和技术的研究，自 20 世纪 70 年代中期开始，我国逐渐加快在计算机中文信息处理方面的发展步伐，在汉字键盘输入技术、汉字输出技术、汉字编码技术、汉字储存、检索和识别、电子照排、中文平台等多方面取得了一系列重大成就。陆续开发的汉字键盘输入方法，解决了汉字进入计算机的难题；汉字输出实现了多字体、多字号；汉字字库的制作也由点阵字库、矢量字库逐步过渡到曲线轮廓字库；汉字自动识别技术达到国际先进水平，并有商品投入市场；ISO/IEC 10646 的 CJK 字符集，由早期的 20 902个 CJK 统一汉字逐步扩充，扩充集 A 和扩充集 B 已经完成，现在正讨论扩充集 C1。待扩充集 C1 完成后，中日韩编码汉字已经 7 万多。这些成就，促进了中国计算机的普及，为发展计算机应用技术和信息化创造了基本条件。

　　1.2 汉字字库的不足

　　中国古籍数字化经过近 30 年的努力，汉字字库得到了飞速发展，并开发出了超大字符集字库。在汉字信息化标准制定方面，国内外相继制定了多个汉字编码标准。最新的 GB 18030－2005 标准可以涵盖 70 244 个汉字。然而，古籍中的汉字大约有 10 万多个，GB 18030－2005 的字库还是远没有覆盖所有汉字。因此，在古籍数字化时依然会碰到不少缺字现象，补字工作不可避免。汉字字库的不足是影响古籍数字化质量及进程的主要问题之一。

　　2 我馆古籍数字化过程中应对汉字字库问题的策略

　　井冈山大学地处素称“江南望郡”、“金庐陵”、“文章节义之邦”的吉安，一直以来注重庐陵文化相关文献资料的购买和收藏，为充分挖掘庐陵文化的精髓和内涵，又组织力量对相关的馆藏资源进行数字化加工，建成了特色数据库，为研究者提供了更快捷、更丰富、更深层次的服务。

　　所谓庐陵文化，主要是指读书人多，建功立德者多，文教设施多，发表著述多等等。在数字化庐陵文化名人的古籍作品时，比如在《欧阳修文萃》的数字化过程中，尽管安装了超大字符集字库，对计算机也作了相应的设置，但还是碰到不少问题。故笔者将三年来数字化庐陵古籍文献中的实践经验进行总结，希望对从事古籍数字化的同仁有所启发和帮助，以期更多的古籍文化得以展示和传承。

　　2.1 选择合适的输入法

　　在古籍数字化过程中，安装大的汉字字体库，能解决大部分汉字的输入与显示问题。目前比较成熟的输入法有很多，但任何一种输入法都难以囊括字体库中的所有汉字。因此，对输入法的选择至关重要。合适的输入法，不但决定了汉字的输出能力，更影响着古籍数字化的效率。

　　笔者建议选择“极点五笔”输入法，其一，此输入法既可单独进行“五笔字形、拼音输入法”的选择，也可选择“五笔拼音输入法”，在这种输入状态下，对于那些目前还不能通过五笔输出的汉字，可直接输入该字的拼音进行输出，省去了在五笔和拼音之间来回切换的操作；其二，该输入法的繁简切换非常直观、明了、方便，对于那些不是很熟悉的繁体字，通过输入其简体字就能显示对应的繁体字，这样建库人员能很快地确定其正误。比如“齋”和“齊”，不仔细区别感觉像是同一个字，但实际上它们分别是“斋”和“齐”的繁体字。

　　2.2 偏僻字的录入技巧

　　目前汉字字库中有大量的生僻字，无法通过五笔输入法输出，需通过拼音输入法才能输出，此时可在Word 中输入与生僻字偏旁和笔画相近的字，并选定该字，点击右键，在弹出菜单中选择“符号”，便很快能找到所需文字，双击该字，即可直接输入到 Word中，这样建库人员在不知道其读音的情况下，也能很快地输入该字，从而提高古籍数字化的进程。

　　2.3 自造古字

　　目前在古籍文献数字化处理的过程中，通用于业界的 Uni-code 字符集具有近 7 万字的容量，但在古籍数据库建设中还是不够用。因此，我们使用微软操作系统自带的“TrueType”造字程序进行造字，避免数据库中使用符号或说明性文字代替目前输入法无法正常输出的文字现象。

　　3 古籍数字化汉字处理过程中需注意的问题及对策

　　古籍数字化汉字处理过程中遇到的最大障碍是汉字字库问题，它不但影响着古籍数字化的进程，还制约着古籍数字化的发展。汉字字库问题多年来经过专家学者的研究，正在不断的完善中，但仍未囊括古籍中的所有汉字，在进行古籍数字化时仍有不少字需要利用相关程序进行造字。目前有一些具备造字功能的程序，笔者主要介绍使用微软操作系统自带的“TrueType”造字程序进行造字时需要注意的问题及解决方法。

　　3.1 造字时截取字库中已有字的有关部位

　　在造字时，最好截取现成字中需要的部分进行造字，这样比分别输入所造字的各个部分而造出的字要美观。比如：我们通过截取“映”的左半部和“换”的右半部造出的字比直接输入“日”和“奂”字而造出的字，看上去要自然美观。

　　3.2 自造字大小的调节

　　自造的字如果不通过区位码输入法进行输出，而是直接将其复制粘贴到 Word 或 Excel 文档中的话，字号大小的调节不要在造字程序中进行，而应在Word或 Excel 文档中进行，否则字的笔划线条太粗，放入相应文档中也会显得很不协调。

　　3.3 自造字的输出

　　将自造字直接放入 Excel 单元格中时，单元格的状态应处于编辑状态（即单击该单元格）而不是可修改状态（即双击单元格），否则无法将自造字粘贴到指定位置。但这种直接将自造字复制粘贴到 Excel 或Word 文档中的操作，当需对其进行排版时，它不会随之移动，要人工调整它所在的位置，故生僻字造好后，应利用区位码输入法输出到相应文档中，这样排版时就不会出现自造字不随文移动的现象了。

　　3.4 自造字的显示

　　自造的字缺乏通用性，因此若要在不同的计算机上都可以正常显示 Excel 或数据库中的自造字，就必须将eudc.euf和eudc.tff这两个自造字库文件拷贝到字体目录下。需要指出的是，将这二个文件拷贝到指定目录时，根据计算机设置的不同，其拷贝方法也不同。即：操作系统中没有携带 TrueType 造字程序，只需直接将自造字的二个文件粘贴到指定目录，重启计算机就行了；其他情况就只有通过 command 命令进行拷贝操作，当然如果造字程序或自造字文件处于运行状态，则拷贝操作无法进行。

　　4、结语
　　
　　古籍数字化建设是一项艰巨而复杂的系统工程，尽管目前古籍数字化建设中还存在一些问题，但随着国家“中国古籍数字化工程”的启动及数字化技术的发展与完善，相信在不久的将来，古籍数字化过程中所遇到的问题都将逐步得到解决。

　　参考文献：
　　[1]赵雪云，刘宗利，赵瑞生.浅谈我国古籍数字化[J].才智,2012(12):115-116.
　　[2]高娟，刘家真.中国大陆地区古籍数字化问题及对策[J].中国图书馆学报,2013,39(4):110-119.
　　[3]黄坚.无字库智能造字系统在计算机上的实现[D].广州：华南理工大学,2010:1-89.
　　[4]李宇明.搭建中华字符集大平台[J].中文信息学报,2003,17(2):1-6,53.
　　[5]李实明，李玖蔚，傅林红，等.宋代庐陵文化名人研究数据库建设概述[J].井冈山学院学报（哲学社会科学）,2009,30(11):9-11.
　　[6]郭伟玲，戴艳清.论古籍数字化的检索问题[J].图书馆理论与实践,2011(10):13-16.

相关内容推荐