4 元数据仓储技术在公共数字文化资源整合领域的实现
4.1 基于元数据仓储的公共数字文化资源整合框架
信息孤岛的存在严重影响了文化机构现有资源的利用率,资源整合能够将分布在各数据库的文化资源按照一定的规则组织起来提供再利用,通过对资源进行深度链接来实现知识挖掘,提升公共文化服务水平。
公共数字文化资源整合的总体目标是实现不同来源、形式、具有不同物理或逻辑特征的异构资源的有机整合,消除各类资源间差异,实现公共文化机构间数字资源的可视化和共享。
具体目标包括为用户提供统一的资源检索入口和检索结果显示、确保数据库之间既各自独立又相互联系、保证整合平台中的资源实时更新等。
基于元数据仓储的公共数字文化资源整合框架及其体系结构如图 1 所示。
基于元数据仓储的公共数字文化资源整合的基本流程(如图 2 所示):首先对不同机构的文化资源进行元数据采集,然后利用数据抽取技术对采集好的元数据进行抽取和规范化处理,再利用数据转换技术消除异构资源间的差异,将处理好的元数据信息装载到元数据仓储中,当用户在资源检索平台发出检索请求时,由平台将检索请求传递给元数据仓储,元数据仓储将检索结果返回给用户,最终用户通过元数据提供的相关链接从原数据库中获取资源。
4.2 公共数字文化资源整合框架的体系结构
4.2.1 数据层
数据层是文化资源整合系统的基础,它一方面负责实现本地数字资源的保存,另一方面响应用户的资源获取请求并将满足用户需求的资源传递给用户。首先,数据层由分布在不同文化机构的多个异构数据库构成,而公共数字文化资源整合所涉及的机构数量较多、范围广泛、学科类别多样,因此数据层的资源内容形式各不相同,资源质量也有所不同。其次,元数据仓储存储的是来自数据库的元数据资源而不是资源内容本身,当用户发出资源获取请求时,数据库需要及时做出响应将资源内容传递给用户,该动作主要由 OpenURL 链接完成。OpenURL 链接通过带有元数据信息和资源地址信息的 URL,解决资源整合平台中的元数据描述到原数据库中的资源定位的问题。
其具体原理是当用户发出资源传递请求,链接服务器便启动,在不同数据库中检索该资源标识符的有关信息,检索完成后在资源整合平台上显示一个 OpenURL 链接,以帮助用户完成对资源的获取。这种方式的优点在于资源内容的变动不会影响到资源的 URL,减轻了资源整合系统的维护负担,提高了系统的稳定性。
4.2.2 元数据仓储层
元数据仓储层反映了元数据从采集到装载的过程,是公共数字文化资源整合的关键环节。要建立元数据仓储,首先要进行元数据采集。根据资源结构的特点采用相应的资源采集方式是保证采集质量和效率的前提,公共文化机构经常采用 ODBC/JDBC 接口、OAI-PMH 协议、Z39.50 资源适配器等方式进行元数据采集。
使用频率最高的是 OAI-PMH 协议,凭借其简单性、易用性和多元化等特点在数字资源整合领域中备受青睐。
OAI-PMH 协议最初被应用于学术信息资源的共享,随后逐步推广到多个信息资源整合领域。采用 OAI-PMH元数据收割协议能够实现异构数据间的互操作,使资源检索和获取不再受到元数据标准、操作系统、学科领域和语言等的限制,实现资源共享。
采用该协议进行元数据采集时需要指定对象提供支持该协议的收割接口,但公共文化机构在这方面投入较少尚不能提供支持服务,而部分商业数据库基于自身利益考量不愿提供相应接口,要实现对分布数据库资源的元数据收割还需要各文化机构的共同努力。
ETL 是数据抽取(Extract)、转换(Transform)和装载(Load)的统称。数据抽取即统一抽取不同数据库资源的元数据的过程,系统通过预先定义好的抽取规则来定义目标数据、抽取内容、数据构成及抽取方式等进而实现元数据抽取。该过程过滤了多余的内容信息,实现了元数据格式转换,为元数据仓储的建立奠定了基础。数据转换通常包括转换和清洗两个步骤,数据转换主要解决由于数据结构不一致、定义不规范等原因造成的数据不一致问题,使异构元数据形式统一;数据清洗工作则主要解决数据冗余问题和元数据信息缺失问题,形成同构的、完整的元数据集合。数据装载是指把经过转换和清洗的元数据信息装载到元数据仓储中的过程。数据装载主要有两种技术:一是利用数据库商提供的专业工具进行装载,如 Oracle 数据库提供专业工具包,帮助用户实现数据迁移,二是利用数据库商提供的应用程序接口(API)来完成数据装载工作。
元数据仓储负责管理和存储元数据信息,使用户能够流畅地浏览、检索、获取所需资源,最终实现资源整合目标。元数据仓储中存储的元数据经过专业的分类和组织,不仅能够及时满足用户的检索需求,还能够为用户提供深层次的数据挖掘和知识发现服务,为公共数字文化服务平台的建设提供新思路。
4.2.3 应用层
应用层是公共数字文化资源整合成果的具体表现,通过建立资源整合平台来实现资源导航、资源检索、资源获取和个性化服务等功能,使用户在统一的界面上对不同公共文化机构间的数字资源进行统一检索、浏览和利用。该平台应具备的功能需求及其描述如表 2 所示。
5 元数据仓储在公共数字文化资源整合中的应用前景
5.1 元数据仓储的应用
数据仓储这一概念由来已久并且被广泛应用于各个领域中。在生物医疗领域,科研人员往往需要通过组织和查询大量异构实验信息来推导科学结论,为此有学者提出使用 SB-KOM(System Biology Khaos Ontology-based Mediator)系统完成对实验数据的抽取并存储在本地数据仓储“PseudomonasDW”中保持数据一致性,为科学分析奠定基础。
美国梅约诊所建立了数据仓储“Mayo Clinc's Enterprise Data Trust”,存储诊所运营过程中所产生的数据以支持诊所的日常工作及决策制定。
该系统由信息管理、数据建模、词汇系统以及元数据管理等部分构成,旨在通过整合现有数据资源实现诊疗数据深度开发,为诊断提供真实可靠的数据支持,值得一提的是该系统还相当重视对病人隐私信息的保护,取得了较好的效果,是在该领域资源整合的代表项目之一。在商业科技领域,诸如微软、IBM 等大公司近年来也逐步开始关注资源整合中数据仓储的建设问题。
IBM 一直十分关注数字资源整合领域的研究进展,曾发表白皮书探讨大数据环境下的数据仓储建设及资源整合问题,指出应当构建基于可信信息的数据仓储并将数字资源转换为统一格式存储,完成资源整合以支持企业决策。
元数据仓储是在数据仓储的理念上提出,在资源整合领域逐步受到关注。基于元数据仓储的数字资源整合方式相较于其它方式有显着的特点,在公共数字文化资源整合领域有良好的应用前景,它的出现将为该领域带来新的变化:
首先,通过建立元数据仓储将异构资源的元数据信息统一存储,在减轻各文化机构资源维护负担的同时还有效提高了用户的检索效率。随着数字资源数量剧增,采用传统数据仓储的方式存储所有文化机构的资源已经难以实现,公共文化机构开始探索新的资源整合方式,元数据仓储应运而生。通过建立一套完整的元数据选择标准作为范式,将数字资源的元数据信息抽取出来存储在数据仓储中,供用户统一浏览和查询。由于资源信息被集中存储,该方式能够有效地缩短用户获得检索结果所需时长,且对网络环境的依赖程度相对较低,不会受各机构数据库本身状态的限制,能够保证资源整合平台的流畅性,提高用户使用体验。
其次,元数据仓储经过元数据采集、抽取、转换、清洗和装载工作完成了对文化资源的标准化描述,对不同形式的文化资源进行了很好的聚类,有利于文化资源的深层次开发。知识挖掘服务近年来逐步受到公共文化机构的关注,将机构自身所存储的海量数字文化资源转换为用户需要的信息是公共文化机构的使命之一,也是公共数字文化资源整合的最终目标。尽管现有资源整合平台大多仍停留在初级阶段,其现阶段的研究重点是如何为来自不同机构类型各异的资源构建整合平台从而为用户提供一站式服务,尚未开展有效的知识发掘服务,但元数据仓储为该服务奠定了基础。
元数据仓储中汇集了不同机构数字资源的元数据信息,可以预见的是,公共数字文化资源整合在未来将会更多地关注于资源的深度整合,致力于提供包括机构资源库、主题资源库、资源订制及推送服务在内的多项知识挖掘服务,实现数字资源的深层次整合与无缝链接。
5.2 元数据仓储存在的问题及对策
基于元数据仓储的公共数字文化资源整合尽管存在上述优势,但也不可避免地有着相应的问题,具体表现及解决对策如下:
第一,资源更新不及时,整合平台尚未完全实现自动化。元数据仓储是经过元数据采集、抽取、转换、清洗和装载完成对资源的标准化描述而建成,其建设初期需要分别采集各机构的文化资源,在后期维护中也要时刻关注各机构资源更新情况。这就容易导致信息资源更新不及时的问题,各数据库同资源整合平台的资源列表间存在一定的时滞。这就要求资源整合平台内置有效的响应机制能够定期对各数据库资源更新情况进行检查,及时更新元数据信息,保证用户能够及时获取最新最准确的资源信息。此外,基于元数据仓储的资源整合平台往往对人工操作的依赖程度较高,不能完全实现自动化。由于各公共文化机构在社会职能、机构文化乃至资源描述标准方面都存在较大差异,因而进行元数据信息采集和抽取时往往需要人工辅助完成,以最大程度保障数据的统一性和规范性。因此,在元数据仓储建设的初始阶段就必须充分考虑各机构资源的具体情况,在抽取及转换环节中要不断优化算法以提高自动化程度,节约资源整合过程中的人力成本,提高资源整合平台的运行效率。
第二,元数据采集难度高,资源描述标准较难统一。元数据采集首先需要获得各文化机构及数据库商的许可,其次要针对不同的数据库选择不同的资源采集方式,常见的有 ODBC/JDBC 接口、OAI-PMH 协议、Z39.50 资源适配器等等。公共文化机构在公共数字文化资源整合中应当建立有效的元数据仓储建设机制,寻找各机构及其数据库间的共同点,调动文化机构的积极性,加强机构间的合作,积极寻求同数据库商、出版社的合作,为元数据采集创造条件,确保元数据仓储的持续发展。元数据描述标准不统一是公共数字文化资源整合的障碍之一,其具体表现包括:相同资源在不同数据库有不同的名称、相同字段在不同数据库中表示不同内容、不同字段有语义交叉、DC 元数据与 MARC的映射问题和参考标准不一致等,这些都是元数据仓储建设中亟待解决的问题。
在元数据仓储的建设中,各文化机构还应该不断加强元数据互操作研究,实现对不同标准的元数据的访问和存储,致力于异构数据的整合研究,消除数据结构差异,早日实现公共数字文化资源整合的目标。
参考文献:
1. Chen Z, Wu D, Lu J, et al. Metadata-based InformationResource Integration for Research Management. Procedia ComputerScience,2013 :54-61
2. 史超 . 电子政务信息资源整合方案与框架研究 . 西安:西安电子科技大学硕士论文,2009
3. Alon Y. Halevy. Theory of Answering Queries Using Views.SIGMOD Record. 2000,29(4):40-47
4. 王静,阎雅娜 . OAIster--开放存取数字资源的一站式检索平台 . 图书馆杂志,2009(5):23-26
5. 李鹏云 . 基于元数据仓储的图书馆数据整合实践--以国家图书馆“文津搜索”项目为例 . 图书馆学刊,2013(8):46-49