目前Internet迅猛发展,由此而崛起的信息技术正在深刻地改变着我们的社会。历史步入了信息时代,/无纸办公0、/虚拟空间0等新的生活方式正逐步席卷全球。今天,图书馆正在与信息技术紧密结合,它的某些传统功能正在弱化,而它许多新的功能在人们的学习和生活中正在起着重要的作用。
1 现代化图书馆是数字图书馆与传统图书馆的融合
数字图书馆是目前组织电子资源、提高信息检索水平的最佳机构。由传统图书馆向数字图书馆转化是大势所趋。
随着信息时代的到来,基于Internet的/数字图书馆0概念由美国学者在20世纪90年代首先提出。它是一种由巨型数据库为支撑的,以网络技术为建设手段的大型、开放、分布式的多媒体信息库。数字图书馆的出现从根本上改变了人们的阅读和学习习惯,将/无纸时代0这一抽象概念变为现实。数字图书馆是一个电子化信息的仓储,能够存储大量各种形式的信息,用户可以通过网络方便地访问它,以获得这些信息,并且其信息存储和用户访问不受地域限制和时间限制。
传统图书馆应该适应社会的发展,数字图书馆也是在传统图书馆的基础上建设的。在未来的一段时间内,二者会逐渐走向融合。数字图书馆可以解决传统图书馆难以克服的困难:新书的采购、编目、典藏等环节是传统图书馆不可或缺的工作,这样虽然可以维护图书的秩序,却也不可避免地增加了新书的时滞。数字化图书馆的建设恰好解决这个问题。随着书籍的出版,其电子版也同时产生,读者可以通过图书馆选择阅读书籍的不同版本,在新书进入图书馆的同时阅读其电子版,最大限度地限制了时滞。
图书的复本也是传统图书馆面临的主要问题,既要占用大量的资金,又不可能满足所有读者的需求。数字化图书馆的建设使这个问题迎刃而解,不同读者可以在局域网内借阅同一种图书的电子版,复本数量可以不限;数字图书馆在书目检索方面也较传统图书馆优越,它本身就是基于电子文本的,检索点必然比较丰富、灵活。这样,依照信息的可近性原则,读者对电子文本的使用率必然较高;传统图书馆不能及时了解读者的需求,数字图书馆却可以通过对流通部门的数据检索快速了解这些问题。现代化图书馆建设需要应用大量的信息技术,这里我们主要讨论数据仓储与数据挖掘技术的应用,因为这些技术促成了传统图书馆向现代化图书馆的转化。
2 数据仓储技术
20世纪60年代,大的信息流令传统文件方式不能适应数据处理的需求,于是数据库技术应运而生。90年代,信息爆炸使得人们之间的数据交换量激增,大有陷入汪洋大海之感,这种数据的海洋对人的判断力会产生负面的影响,使人不能很好地进行决策,于是人们不断地扩大数据库能力。随着Internet的出现,计算机网络和通讯技术合二为一,使得人类对数据的运用达到了里程碑式的转变。
2.1.1 数据仓储的概念
数据仓储概念的创始人W.H.Inmom认为:数据仓储(Data Warehouse)是面向主题的、集成的、稳定的、随时间变化的数据集合。它是一种概念,可以体现为一种网络应用或是一种电子实体,它包括电子文献、语音文档、CD-ROM、E-mail文件、多媒体电子产品等。
与传统数据库不同,数据仓储技术的产生是源于网络思想的,目的是要建立一种体系化的信息存储环境,是对原来数据库中的数据进行二次加工,形成一个综合的、适合分析的数据环境。具体做法就是,将大量的数据进行有效聚类,将它们从传统的操作环境中分离出来,是分散的、不规范的数据规划为集成的、统一的数据。不同用户都可以在各自的工作环境下,通过运用其中的数据,发现新的问题,展现全新的视野,进行新的分析,产生决策意志。因此,基于数据仓储技术的数据仓库是建立在信息应用的基础上的,不同于基础数据库,通常是建立在几个数据库基础之上的。
2.2 数据仓储技术在现代化图书馆中的应用
基于数据仓储技术的数据仓库对图书馆的基础工作有决定性作用。图书订购是图书馆采访部门的主要工作,它是图书馆工作链的开端,也是现代化图书馆资源建设的开始。传统图书馆的订购信息大多来源于出版社和书商,信息量有限,这样会导致重复订购和馆藏资源不足的矛盾现象出现。通过数据仓储技术可以解决这个问题,数据仓库可以提供多种图书订购渠道,包括专家订书、光盘检索、电子文献、借阅数据库查询等。
通过联机分析系统OLAP、决策支持系统DSS、网络搜索引擎Google、Inforseek等方式以及后面将要提到的数据挖掘技术可以为图书采购提供科学的、合理的分析和预测。图书编目是图书馆的基础建设工作,它所建立的数据库是支持图书馆工作的基础。西文编目工作中所采用的数据仓库一般有两大类:一类是光盘集成系统,另一类是在线巨型数据库。由于是西文文献,我们大多采用国外数据资源。曾经使用的美国国会图书馆光盘检索系统就是数据仓库的一种,它的1975年以后出版的图书数据集成很全面,且每年更新。目前我们在工作中使用的是在线巨型数据库,它是基于数据仓储技术的,我们访问这些资源,提取有用元数据,建设我们的数据库。
数据仓库为图书馆信息咨询和检索部门提供了数据支持。目前,读者提出的检索要求具有涉及知识领域广泛、知识难度加强等特点,这既要求图书馆从业人员本身知识面广、专业技术强,更重要的是能够很好地掌握信息技术。一般的数据库技术不能满足专业程度高的读者的需求,采用基于数据仓储技术的数据仓库这种多维数据存储方式,能够向读者提供大量的可分析数据,同时还保证了数据的一致性和完整性。
基于数据仓储技术的数据仓库,为数字图书馆的建立和发展提供技术支持。数据仓库的建设是一个复杂的工程,它的基本结构是典型的C/S结构(客户机/服务器结构)。其客户端的工作主要是用户查询、检索、生成结果、报表打印等;服务器端主要完成基于SQL的辅助决策、复杂计算等。数据仓库的特点是数据对于最终用户而言是只读的,而且随时更新,这就要求其管理者定期维护,将数据不断剔旧,使数据仓库保持清新。