本篇论文目录导航:
【题目】档案学视角下网站信息资源保存探究
【第一章】档案部门对网站信息资源的保存分析绪论
【第二章】网站信息资源保存的几个基本问题
【第三章】档案部门开展网站信息资源保存工作的必要性和可行性
【第四章】开展网站信息资源保存工作面临的问题
【第五章】网站信息资源保存对策分析
【结语/参考文献】网站信息资源采集保存研究结语与参考文献
第 5 章 网站信息资源保存对策分析
本章针对上一章节中提出的部分问题,分别从标准、职责分工、安全、法律、深层网络信息资源、合作、新技术这七个方面提出行之有效的解决对策,推进档案部门顺利开展网站信息资源保存工作。
5.1 统一信息资源采集标准
第一,采集频率的确定。可关注信息从产生到消亡的时间周期,确定采集频率。目前实施的网站信息资源保存项目,如美国互联网档案馆,中国 Web 信息博物馆,其采集频率大多数为一年不超过 4 次。参考这一标准,根据网站信息的更新频率与重要程度,可以每半年或每一年定期采集一次,对一些有特殊性质或重大意义的网站,则根据网站的性质区别对策。例如,大型新闻门户网站,其网站信息每天更新一次,我们就应每天对其采集,而每周更新一次的新闻网站,应每周对其采集,同时,特殊事件时期则应根据事件本身来确定网站的采集频率,如 2014 年巴西世界杯期间,针对此次事件的采集应该至少每天采集一次,以确保完整记录每天的赛事和比分情况,使其能够得到及时、准确、完整地保存。
第二,采集范围。采集范围的确立,可以参考档案部门的归档原则:一,以网站为单位,将该网站所包含的所有信息归为一个全宗保存起来,为了保证全宗的完整性,网站中所有的层级与相关链接都应该保存起来,以维持网站的“本来面目”.二,以事件为基本单位,将网站中所报道的同一事件的所有信息收集起来并保存,保证能够全面展示该事件的整个发展过程。在具体的采集过程中,不论是基于网站还是基于事件采集,都应该选择更有权威性、学术性强、公众依赖度较高的网页,以保证采集信息的可信度。
关于可信度的确定,国际上正在致力于成立一些审核机构,这些机构拥有评价和认证信息可信度的专业人士,以便这些机构能够在网络采集内容可信度的确认上做出贡献。同时,确定采集范围,信息老化程度也是一个可参考的指标。信息老化是指信息存在的时间过长,信息的有效价值降低,带来利用率下降,最终导致信息被存档或销毁。因此,对于一些利用率低、信息发布时间久远的网站,就可以不予采集。
第三,采集方式。信息资源的采集方式,可以分为选择性和完整性采集这两种采集方式。选择性采集,即是由于保存经费和存储空间的限制等,认为不是所有的网站资源都具有采集并保存的价值,而是基于某种标准或是针对某些事件,对那些“认为有价值”的信息进行采集。例如,澳大利亚的 PANDORA 项目就是采用了选择性的采集方式,该项目制订了信息选择指南,只采集澳大利亚站点内和与澳大利亚相关的网站信息。这种采集方式避免了采集网络上大量无用的广告、垃圾、虚假信息,确保了信息采集的价值,保障人力、经费的高效利用,同时,由于采集范围较小,工作人员可在信息采集前就征得网站所有者的同意,避免产生更多的法律问题。
完整性采集,即没有制订任何采集标准与原则,对所有信息进行采集。选择这种采集方式,是由于工作人员目前还不能确定什么样的信息对未来有价值,于是就不加选择地采集所有信息。完整性采集能够保证信息的全面性,但由于当前理论与技术方面的不足,还无法实现真正的完整性采集,目前所说的完整性采集方式只是相对于选择性采集而论的,即不设定网络爬虫的采集标准,任由网络爬虫去采集信息。美国的互联网档案馆是完整性采集地代表,其最终目标是采集整个互联网上可获取的信息。相关资料显示,截至 2008 年 6 月,其完成了对 60 多个国家 18000 个站点的采集。[24]
此采集方式有较大弊端:由于不加挑选地采集信息,使得采集时间久,信息更新会比较慢,而且收集的大量无用信息,造成人力与经济资源浪费。完整采集由于一次采集需要很长时间,因此在采集频率上都是每年一次或每半年一次,一般最多不超过 10 次。
不论是选择性采集还是完整性采集,它们都有各自方式的优缺点,因此,档案部门在开展这项工作的过程中,应该将这两种方式结合起来,以期同时利用两种方式的优点,避开某一种方式的缺点,即混合采集。具体说来,就是可以完整采集某国家域的站点,对于其中的重要站点或事件进行深度采集,保证其完整性。丹麦就是利用了混合采集的方式,完整采集国家域的网站信息资源,采集频率设为每年四次,同时选择了频繁采集国家域内约八十个重点网站。[25]
5.2 信息安全风险防范
档案部门开展网站信息资源保存工作的重中之重是要考虑安全问题,安全得不到保障,这项工作的意义就无从说起。
首先,确保信息保存环境安全。环境安全包含硬件环境安全与软件环境安全。硬件环境中,要确保计算机、硬盘等硬件设备的安全,注意防火、防潮、防盗等硬件安全问题,根据硬件自身的特性制定相应的安全防范标准。软件环境安全,软件环境的安全问题相较硬件环境显得更加复杂和棘手,保存网站资源的最终目的是为公众提供利用,就必然要开发公众利用平台并将这些信息资源存放于平台数据库中以供使用,然而,当前互联网环境很不安全,时常面临着各种新旧病毒与网络黑客的攻击,所以,我们应该与安全技术公司合作,确保网络数据库的安全。如设置信息平台访问权限、开发利用防火墙技术等,更要在后期不断更新升级防病毒软件,让“猫”能及时抓住“老鼠”.
其次,建立风险管理与灾难恢复机制。档案部门不仅要在保存网站信息资源期间就做好安全防护,更要在这些信息资源遭到破坏后有能力对数据进行恢复,这就需要档案部门既要建立风险管理体系,又要设置灾难恢复机制。在风险管理体系方面,档案馆已经有相当丰富的经验,如档案部门除了在修建档案馆时做出了一些避免风险发生的防潮、通风、避光、防震等安全措施,更是针对不同档案馆的自身情况做出了应急预案,以便于在风险发生的第一时间利用应急预案将损失降至最小。为了保障网站信息资源安全,也应该设置类似的应急预案。在灾难恢复方面,可借鉴当前档案数字化所应用的措施--异地备份,将采集到的网站信息资源分不同地域进行保存,以实现在某一地域数据遭到损坏后能够重新恢复完整数据。
5.3 呼吁完善法律条文
互联网是一个庞大的信息系统,一个网页往往会有多个链接,这就意味着其版权所有人可能会有多个,确定版权所有者有很大难度,造成信息采集时会触犯到相关人的权益,带来了众多的法律问题。因此,相关法律部门应从以下几个方面着手,尽快完善相应的法律条文,为档案部门对网站信息资源保存工作的顺利开展保驾护航。
第一,赋予档案部门保存网站信息资源的权利,规定其义务。因为除了图书馆和档案馆这样的文化保存机构外,任何商业团体、个人对网络资源进行保存都是站在自身利益的前提下才进行这项工作的,只有公共的文化保存机构才会站在公众角度,站在为现实和长远提供利用的角度开展这项工作。因此,有必要将这些公共文化保存机构作为网站资源保存的责任主体并让其领导相关工作。因此,国家法律应授予档案馆相应的权力来开展网络信息资源保存工作。不仅如此,在对网络信息保存时,或多或少地会对这些信息做相应的更改操作,例如,对网络资源原始链接的更改、修改网络资源的格式、对保存环境进行仿真操作等等,这些操作在当前《着作权》法的环境下规定仅可由着作权人来进行的,图书馆、档案馆这些机构都没有相应的权力,因此,借新的《图书馆法》正在筹备之机,可以赋予这些机构对网络信息资源的采集、更改、保存和提供利用多方面的权利,当然,也应明确限定其义务,以免损害着作权人的利益。
第二,在立法公正的前提下,尽可能保障各方利益。网络资源的保存工作是一个系统并且长久的工作,不可能由单方面负责就能在较短的时间内实现这一工程,它需要政府、学校、慈善机构、团体、个人多方面的共同努力,因此,在立法时应尽可能地了解各方利益需求,平衡公众利益,从而使各方利益都能充分得到保障。
第三,充分了解当前的法律现状,站在现状的基础上对法律做出完善,并尽快制订出网络信息资源保存的专门法律。当前的我国已经制定的《着作权法》、《图书馆法》、《中华人民共和国版权法》等法律中虽然已有部门内容涉及到网络资源保存的相关方面,但都还没有具体全面的规定。因此,档案部门有义务呼吁我国法律部门,制订一项专门的法律用于解决网络信息资源保存工作中的具体法律困境,以期让网络资源保存工作有法可依,有法必依。
5.4 开发并保存深层网站信息资源
通常,通过普通搜索引擎能够直接搜索到的信息属于网络中的表层信息,而深层网络信息是相对于表层信息而言的,它指的是无法被网民所使用的普通搜索引擎直到搜索到的有价值的网络资源。例如,有时我们需要查询某高校老师的简历,以此来了解该校的师资力量,在百度和 google 这样的搜索引擎上键入某老师的姓名后可能根本查询不到,而我们可以进入该高校主页中的师资力量网页,查询到该老师的简历,且这些信息具有较高可信度。档案部门收集并保存这样的深层网站信息资源,便可以大大丰富名师档案信息资源库。相关学术研究成果显示,深层网络信息远远超过普通网民所接触到的表层网络信息资源的总量,可达到表层网络信息总量的四百到五百倍之多。[26]
可见网络中大多数的信息资源是深层资源,想要提高档案部门保存网站信息资源的总量和价值,就必须注重对深层网站资源的开发。由此,许多问题诸如“某城市建筑物 2008 年是什么样式”、“2014 年的埃博拉病情实况是什么”就可能在所保存的网站信息资源库中得到有效回答。
开发深层网站信息资源,即从海量互联网信息中挖掘出深层信息资源,并将其重新加工与整理,满足不同用户需求。该工作可从以下两方面入手。
专题性资源开发。现今的互联网用户,需要的不再是网络中海量杂乱的信息,而是需要高效地查阅到专题性的信息,从而快速解决自身问题。根据这一需求,工作人员可针对网站中用户的查询记录,将这些记录分门别类、收集并重组能够解决这些问题的信息源,形成主题性的信息资源,满足用户在紧急情况下快速检索到有效信息的需求。不仅如此,在收集并重组深层网络资源的过程中,我们要注重对那些看似联系性不大的跨学科、跨领域的信息收集并整理,保障用户对高质量信息的需求。
预测性资源开发。我们上淘宝时经常有这样的经历:如果近期我们经常在搜索框中搜索“家具”,就会发现再次打开淘宝时,淘宝的推送图片上就会不断显示出不同品牌家具的推送图片,这便是预测性资源开发的一个实例。在进行深层网站资源开发时就应参考这一功能,工作人员应该记录用户的查询记录,如果某领域的词汇查询量较大,说明这一领域是近期的研究热点,工作人员可以将相关领域中时间跨度大的研究成果收集并汇总,预测该领域的发展方向,时刻走到用户需求的前端。
当然,开发并保存深层网站信息资源也面临着诸如法律、责任分工、标准制定等多方面的问题,以目前档案部门的水平还无法考虑到对这些问题的解决,但不可置疑的是,对深层网站信息资源的开发是未来网站信息资源保存工作的发展方向。
5.5 建立行之有效的合作模式
国际合作方面,美国、法国、澳大利亚等国于共同成立了国际互联网保存联盟,保存国际间有价值的互联网信息,共同致力于国际间的理论与实践事项,快速发展网络信息资源保存事业。综观国内外所开展的相关研究,大多数都是由图书馆、档案馆、商业性的组织和研究机构等共同参与合作来推进的。[27]
然而,我国国内项目主要由国家图书馆来承担,并没有形成多方合作的态势。作为历史文化机构的档案馆也没有加入。在合作方面,还有很大的努力空间。
因此,档案部门在与众多机构组织合作之前,首先应该考虑建立何种合作模式。主要有三种模式,分别是责任高度集中的合作模式、责任平等的合作模式、责任高度分散的合作模式。其中责任高度集中的合作模式是指确定出一个责任组织,该组织负责对整个项目的统筹规划,将具体工作分配给其它合作者。澳大利亚的 PANDORA 项目就采用了责任高度集中的合作模式,它是由澳大利亚图书馆与 9 个其它图书馆、文化组织合作建设。其 9 个成员单位分别负责部分资源的选择及初步加工,通过多家合作共建共享的数字资源归档系统进行分布式存档及远程传输,澳大利亚图书馆的职责则是存取与管理信息资源库。[17]
根据我国目前的情况,档案部门即可借鉴这种责任高度集中的合作模式,倡导建立一个国家网站信息资源保存中心,由该中心负责全局监督管理工作,图书馆和档案馆作则是行动主体,负责收集、保存与管理各自的网络信息资源,政府机关、企事业单位、学术机构和个人作为图书馆和档案馆的辅助者,档案馆和图书馆在自动收集或人工采集这些机构和个人所产生网络信息资源的同时,这些辅助者也有一定的缴存责任。如此以来,形成具有我国特色的合作模式。具体情况如图 1:
5.6 重视新技术应用
在采集与存储网站信息资源的过程中会遇到了一系列的问题,包括软硬件更新造成原始资源不可读取、格式老化、存储空间不足等问题,这一系列的问题,档案部门可以采取新的技术手段不断解决。
一是云存储。网站信息资源总量浩大,有限的存储空间无法满足存储所需,加之存储设备价格高昂,给档案部门的存储工作带来了巨大的挑战。对于存储空间不足这一问题,云存储技术是值得考虑的方向。云存储是指利用多种技术手段,将存在于网络中的多种存储设备集合成一体,相互协作,一致对外进行数据存储和访问。目前,该技术正逐渐被利用起来,电子邮箱和一些通讯工具等都利用这一技术来免费供用户存储信息。
这种技术的优势是不需要租用或购买服务器,节约成本,可更好地备份本地数据并进行异地访问。档案部门对网络信息资源的存储不同于普通信息的存储,它在信息安全性上有较高的要求,因此,这种技术还没有被广泛应用。我们在使用新技术方面应该持开放并谨慎的态度。
二是开发开源软件,让软件可定期更新,“永不过时”.开源软件是其软件源码可被公开获取与利用,不受许可证的限制,需要这一软件的人员可随意获取、修改并对其功能进一步完善,使得软件的长期通用性增强。例如,IIPC 就资助其成员开发了从网络资源采集到提供访问服务的一系列高质量、易用的开源软件工具,包括选择性网络 WCT、Heritrix、DeepArc、Smart、Crawler 等采集工具,NutchWAX、XTF、BAT 等索引工具,WERA、Xing 等访问工具。[28]方便了不同成员国基于自身情况保存网络资源的需要,便于国际间交流与合作。