1 引言
公共文化机构拥有类型多样、质量较高的文化资源,然而用户在访问和获取公共文化机构的实体资源时往往受到时间、空间等诸多因素的限制,这极大地影响了公共文化资源的利用率。近年来,公共文化机构逐步开展馆藏实体资源数字化工作,旨在建设完备的馆藏资源体系,提高公共文化服务水平。随着数字资源规模的不断扩大,不同主题不同形式的异构资源存储在不同文化机构的不同数据库中,使信息资源的管理和共享在一定程度上受到阻碍,信息孤岛现象时有发生。[1]
因此,进行公共数字文化资源整合以最大限度利用现有资源,实现数字资源共建共享成为了公共文化机构所面临的重要课题之一。常见的数字资源整合方式主要有模式集成和数据复制。[2]
模式集成(SchemaIntegration)起步较早,是其它整合方式的基础。模式集成是指在数字资源整合过程中将来源于不同数据库的数据视图集成为全局模式(GolobalSchema),以帮助用户无限制地访问各数据库的数字资源。[3]
而数据复制则是通过对各数据库的异构数据进行复制以完成对数字资源的整合,为用户提供一站式服务,满足用户信息需求,提升用户浏览和获取信息资源的体验,其代表方式是建立数据仓储(DataWarehouse)。
资源整合方式的选择直接影响着资源整合的成败,对公共数字文化资源整合方式的研究已成为该领域面临的重要课题。本文将重点分析基于元数据仓储的数字资源整合方式及其在公共数字文化资源整合领域的实现方式,希望能为公共数字文化资源整合提供某些参考。
2 基于元数据仓储的数字资源整合方式
2.1 数据仓储与元数据仓储
数据复制是物理整合方式之一,即对各数据库的资源进行复制和转换,统一存储到数据仓储中供用户检索、浏览和获取。数据仓储在资源整合过程中扮演着重要角色,将分散的、异构的资源整合为集中的、同构的资源为用户提供一站式服务。在传统的资源检索中用户需要分别登录不同的数据库,根据各数据库的检索规则构建不同的检索式来检索所需的资源,而在数据仓储中用户只需要进行一次身份验证便可以无障碍地检索和获取众多数据库中的资源,访问效率和用户体验大大提升。然而,构建数据仓储对本地存储容量、资源获取能力和更新维护效率要求较高,普通机构由于自身人力、物力和财力有限很难完成数据仓储的建立和维护,因而元数据仓储随之产生。与数据仓储不同,元数据仓储不是直接将异构数据库中的资源内容复制到仓储中,而是将资源的元数据复制到仓储中,从而有效减少了所占存储空间,减轻了机构的维护负担。
元数据仓储目前在图书馆领域应用较多,如美国密歇根大学数字图书馆建立的 OAIster 系统就是利用 OAI-PMH 协议收割元数据并建立元数据仓储。[4]我国高校图书馆间的 CALIS 系统也是采用构建本地元数据仓储的方式建设而成,为用户提供异构数据库的资源检索、获取和文献传递服务。[5]
2.2 基于元数据仓储的数字资源整合方式
基于元数据仓储的数字资源整合方式的基本原理是:通过在用户和数据库之间增加一个数据层以存储来自数据库的元数据信息并对用户的检索请求做出回应将检索结果返回至用户界面[6],用户通过元数据及其链接实现对资源的获取。由于该方式没有破坏数据库本身的体系结构,原有的分布式数据库仍然保持独立,这使得它能够同时在不同数据库中进行检索,支持并发用户的检索请求,因此特别适用于大规模异构资源的整合。该整合方式使得资源的浏览和检索独立于原数据库,具有较强的稳定性,资源获取效率也得以提高。
通过建立元数据仓储可以实现结构化数据与非结构化数据的整合,为异构数据的获取和共享提供统一视图,有效提高检索效率。此外,由于元数据仓储集成了来自不同数据库的资源,在支持跨库检索的同时还能够进行高级检索和二次检索,为数据挖掘和知识发现服务奠定了基础。[7]
但是该整合方式在元数据获取和维护方面也存在一定的困难。元数据的获取对资源提供者的依赖程度较高,只有当其提供数据接口和访问许可时才能够获取元数据信息,但部分商业数据库基于自身利益的考虑不愿提供接口供外部使用。而在元数据维护方面,元数据仓储中的数据必须定期进行更新才能够为用户提供实时的检索结果,保证检索的精确性。
3 公共数字文化资源特点及其元数据标准
3.1 公共数字文化资源的特点
公共数字文化资源整合领域的资源来自于图书馆、博物馆、档案馆、美术馆及艺术馆等公共文化机构,这些机构的内容特色、服务对象、服务形式和管理方式各不相同,因此不同的机构大多拥有不同的元数据标准,甚至同一机构的不同数据库间元数据标准也存在差异,机构间的资源整合面临着诸多挑战。
异构性是公共数字文化资源最显着的特点,具体表现在以下几个方面:①来源机构异构。这些数字资源来源于不同文化机构的不同部门,部分资源是文化机构自建所得,也有部分资源来自于文化机构所购买的商业数据库。②数据库模式异构。数据库模式种类众多,常见的有关系型数据库、面向对象型数据库、网络型数据库等,不同模式数据库间的互操作较为困难。③元数据标准异构。各文化机构所采用的元数据标准本身各有差异,在面对具体资源的描述时文化机构往往会考虑资源的类型和内容,在现有元数据标准的基础上根据本机构的实际情况加以调整。④资源获取方式异构。各数据库所支持的协议也有所差别,多数数据库支持用户采用 HTTP 协议访问数据库资源,部分文化机构支持 Z39.50 协议、OAI-PMH 元数据收割协议等。
分散性是公共数字文化资源的又一特点。首先是文化资源的管理相对分散。各文化机构由于社会职能不同而具有不同的核心价值观和组织文化,数字资源的管理理念存在很大差异,如图书馆旨在最大限度地利用本馆数字资源突破时间和空间限制,满足用户的信息需求,而档案馆则是通过资源数字化来打破存储空间的限制,实现档案和史料资源的长期保存,较少关注用户对数字资源的利用。其次是文化资源的存储较为分散。各文化机构通过本馆馆藏数字化、购买商业数据库、收集整合互联网资源等方式来建设本机构的数字资源,这就使得资源的存储相对分散,不利于信息资源的共享。此外,公共数字文化资源还具有数量巨大、种类繁多、更新速度较快等特点。在进行公共数字文化资源整合时必须充分考虑这些特点,保证资源整合系统的运行效率。
3.2 公共数字文化资源的元数据标准
公共文化机构根据自身资源特点确立本机构的资源描述标准和组织体系,不同类型的机构间甚至同一类型的不同机构间在资源描述及元数据标准选择上都存在着较大差异。表 1 列出了部分文化机构常用的元数据标准及其用途。
由表 1 可知,以图书馆、博物馆和档案馆为代表的公共文化机构在长期发展中形成了众多用途各异的元数据标准,如何解决现有数字资源元数据标准不统一问题成为了公共数字文化资源整合需要面对的重要难题。基于元数据仓储的数字资源整合方式通过建设数据仓储存储不同来源的元数据信息,消除异构数据差异,是实现公共数字文化资源整合的有效途径。