本篇论文目录导航:
【题目】档案学视角下网站信息资源保存探究
【第一章】档案部门对网站信息资源的保存分析绪论
【第二章】网站信息资源保存的几个基本问题
【第三章】档案部门开展网站信息资源保存工作的必要性和可行性
【第四章】开展网站信息资源保存工作面临的问题
【第五章】网站信息资源保存对策分析
【结语/参考文献】网站信息资源采集保存研究结语与参考文献
第 1 章 绪 论
中国互联网络信息中心(CNNIC)每半年发布一次的《中国互联网络发展状况统计报告》以客观严谨的数据记录着中国互联网发展的历程,对网站资源、网民规模、结构特征、接入方式和网络应用等基础数据进行着持续地关注。《报告》中显示,截至到 2014年 12 月为止,域名注册者在中国境内的网站数量为 335 万个,其年增长率为 4.6%.从档案学的角度观察,各类型网站中大量有价值的信息资源亟待保存,一是由于众多网站内容客观上记录着历史和社会进程,二是由于这些网站信息资源的更新与消失速度极快。可见,网站信息资源的保存工作亟待开展,这一紧迫性也正体现出这项工作的历史意义。本章在此背景下介绍了网站信息资源保存工作的国内外现状及本文的写作内容、写作方法及创新点。
1.1 研究背景
互联网(Internet)1969 年始于美国,目前已经成为一种被公众认可的、全球性的信息载体,成为了社会中的主流媒体。互联网正在快速、普遍地渗入到人们的各种社会活动中来:查看学术资料、获取社会热点信息、办公交流、网上购物等等,这些活动无不需要互联网作为支持。
当前,互联网正在加快速度发展,据 CNNIC 的统计显示,截至 2014 年 12 月,域名注册者在中国境内的网站数量为 335 万个,年增长实现了 4.6%.互联网发展速度不仅快,其存储的信息数量也是非常庞大的。美国加州大学在 2003 年的一项相关研究中显示出:到 2002 年,互联网中的网页信息总量已达到大约 92PB,在这大量的网页信息资源中,普通公众非常容易搜索到的表层网页中就有将近 167TB 的信息,可见信息数量之庞大。[1]
不幸的是,网上所发布的这些有价值的论坛与学术信息,并没有以纸质的形式对其长远地备份保存,它们存在着极大的快速消逝的危险性。网页中的信息存在时间极其短暂,这些信息每时每刻都在更新与消逝:据相关资料显示,互联网中的网页总量每周会更新大概 8%,其平均生命时长约为 44 到 75 天。[1]
可见网页更新与消失速度之快,许多我们现在能在网站上浏览到的信息,几天甚至几十天之后可能就再也找不到了。如果我们现在不能够立刻采取有效保存措施,在这些信息消逝后人们将再也无法搜集并利用它们。因此,网站信息资源的保存工作亟待引起相关人员的重视,互联网信息资源保存工作的开展已经迫在眉睫。
1.2 研究目的及意义
综观国内外对网站信息资源保存方面的研究,国内所开展的工作在理论和实践方面都与国外有一定的差距,而且开展这项研究工作的行为主体主要是图书界,作为历史文化的保存机构档案馆并未过多地参与,或仅仅是以辅助者的身份参与,未成为开展这项工作的有效力量。本文的目的是将档案部门作为开展网站信息资源保存工作的主力体,研究档案部门开展这项研究工作的必要性和可行性,结合当前档案部门的实际情况有选择性地确定网站的保存范围,进一步提出开展这项工作所面临的问题及一些相应的解决策略。
不论从现实角度还是从长远的角度来看,开展这项工作都具有极其重大的意义。从现实角度来看,冯惠玲教授在 2010 年底的“档案工作者年会”发表了一篇主题演讲--“‘中国记忆’与数字档案资源建设”,这一演讲主要倡导档案工作者应该构建一个国家性的数字形式档案资源库,即“中国记忆”.[3]
城市记忆再次被重视起来,各个城市先后建设了城市记忆工程,寻找城市文化、历史脚印,构建城市记忆。档案是建构集体记忆重要且不可替代的要素,数字档案是档案资源的重要组成,对其进行收藏与开发是构建档案资源的基本途径。[2]
网络上所形成的人们社会活动的历史记录正是对数字档案资源的丰富。当前,大到六七十岁的老人,小到七八岁的孩子,无时不刻地在利用社交网络、个人主页记录着自己的生活,书写着对社会事件的看法,这些信息反映着不同时期的家庭状况、思想意志和社会现状,是不同家庭的记忆。类似于个人,组织机构也开办了公共网站,介绍公司的发展现状、创立便民服务窗口等,网络记录了这些机构的发展过程与兴衰,这是不同组织机构的记忆。这千千万万的个人与集体正是城市的不同元素,家庭记忆与机构记忆即是城市记忆的组成,也是社会记忆的一部分。这些网络信息资源都应该作为“中国记忆”被保存起来,为我们的下一代留下许多珍贵的数字遗产,发挥这些网络资源的长远价值。
1.3 国内外研究现状
1.3.1 国外研究现状
相较于国内的研究时间,国外很早就开始着手于网站信息资源保存方面的研究了,这些研究主要围绕于几个方面:网站信息的时效性:1996 年,首先提出“保存网站信息资源”这一观点的布鲁斯特。卡尔(Brewster Kahlo)曾经估计说:网页基本上在其产生 75 天后就会消失。美国的 NDIIPP 项目(全称 National Digital Information Infrastr-ucture and Preservation Program,数字信息基础架构和保存项目)报告中给出的数字则更加惊人,内容显示出网站信息资源大概只有 44 天的平均寿命。
不仅如此,更有众多学者认为互联网上庞大的网站资源每周以 8%的速度在更新。这些数据给许多人带来紧迫感,带给人一种危机意识,也正是这种危机意识推动着网站资源保存工作的快速发展。
法律方面:保存网站信息资源触及到许多法律问题,目前许多国家已将网络资源的呈缴工作法律化,包括丹麦、英国、新西兰等国家。英国于 2003 年制定了新呈缴法案:
规定出版社有义务将数字信息提交给来自英国的 6 个图书馆,以便于这些图书馆存储这些信息。新西兰则对电子文档作出规定,要求新西兰的图书馆采集并保存来自新西兰电子文档,以便将这些信息资源提供利用。[4]2004 年时,丹麦通过了《出版资料法定缴存法》,这项缴存法中规定,凡是为域名。dk 的网站和针对丹麦民众提供查阅的信息资源都应该缴存。[5]
这样,丹麦就以法律形式规定了需要定期上缴并保存的网络资源范围,便于资源的收集,推动了这项工作的发展。此外,在立法方面,《英国着作者、设计和专利法案 1988》、《澳大利亚着作权法案 1968》中也都明确了保存中所涉及到的知识产权问题。在法律建设方面,国外的进程要远远超越国内进程。
关于网站信息资源采集与保存策略:采集策略上,澳大利亚(Australia)国家图书馆和档案馆共同制定了一项标准--《联邦出版者指南》,这项标准的制定是为了保存政府的在线出版产品,这一标准规定出信息采集原则,以便于指导工作人员采集更有价值和保存意义的资源,避免全部采集互联网上的信息所带来的资源浪费。保存策略上,美国空间数据系统咨询委员会(Consultative Committee for Space Data Systems,即CCSDS)制定了一项标准--开放档案信息系统(OpenArchival Information System,即OAIS),这个标准针对长期保存信息资源的系统,为系统创建一个参考模型,以便于对数字信息的长期保护和可存取,这个标准在 2003 年最终作为 ISO 的标准(ISO14721:2003)颁发。[6]
自这一标准颁发以来,许多国外项目都基于 OAIS 标准建立,其中包括美国的“数字信息的基础设施与保存计划”(NDIIP,National Digital InformationInfrastructure and Preservation Program)、加利福尼亚大学数字保存仓储(DPR,DigitalPreservation Repository)计划等。
合作方面:网站资源的保存工作是一项长远的、较为系统的工程,它不可能由独立的组织或个人在较短时间内完成,而是需要国际不同组织机构、集体和个人的共同参与与合作。在合作方面,首先要提到的就是国际互联网保存联盟(International Internet Preservation Consortium,简称 IIPC)。IIPC 这个合作机构,是由澳大利亚、加拿大、丹麦、美国等 12 个国家的图书馆和美国互联网档案馆于 2003 年联合组成的。这些机构联合起来共同致力于国际网络资源保存研究工作。不仅限于国际间的合作,各国国内在相关研究项目中也开展了广泛的合作,如美国互联网档案馆的大部分数据就是来自网络导航服务公司 Alexa Internet 的捐赠,而它们的经费主要来源于基金与公司赞助,如Kahle/Austin 基金会和昆腾公司,它是一个国内合作的典型。
国外开展项目如表 1:
综观国外所开展的项目,其研究主体集中在图书馆,档案馆并未过多参与这项工作,或是仅在工作中起一定的辅助合作作用。
1.3.2 国内研究现状
目前为止,我国研究人员在网站信息资源保存方面进行了以下研究:
网站资源的采集。网站信息资源的采集主要研究了采集的内容、范围和方式这三个方面。付光宇列举了当前网站资源保存项目所采用的信息采集方式并对比分析了全采集、选择性采集、联合采集这三种方式,最后针对国内的采集工作提出了合理化建议。
吕淑萍提出了网站信息资源采集应遵循的方针与几项原则,并对我国国家图书馆所开展的 WICP 项目作出分析;裴世荷探讨了隐蔽网站资源(隐蔽网站资源: 互联网中存在的信息资源,但网民无法通过普通的百度、谷歌等搜索软件简易搜索到的高质量和相较而言更具权威性的信息资源。)的采集问题。[7]
网站资源的保存。例如如何构成网站信息资源的保存体系、保存政策、方法、费用等。梁伟针构建了国内外发生重大事件的信息资源的保存体系;权丽桃提出政府网站资源归档时的责任体系及采集与利用的问题;郎玉林列举了 OCLC 数字保存政策、澳大利亚 PANDORA 项目保存政策、荷兰国家图书馆的政策并分析这些政策存在的不足。
涉及的法律问题。如钟常青、杨道玲从网站资源的采集、保存和利用服务三个环节分析了各环节中所涉及到的法律问题;张晓艳在其所撰写的硕士论文中对保存网站信息资源的过程中所涉及到的知识产权问题进行了研究;翟建雄列举出来六个国家的网站信息采集和缴存法案现状,这六个国家分别是丹麦、德国、法国、意大利、奥地利和英国;刘可静道出国外的图书馆在对网站资源进行采集与保存时所面临的隐私权问题。不同学者对比分析了国内外在该项目中的立法情况并提出了合理化法律建议。
技术问题。吴振新、向菁分析了当前国内外项目中采用的检索系统架构,以便于了解到这一检索系统的各项性能指标和工作效率,可供相关研究机构与人员参考;吴振新从数据挖掘的角度来更进一步探讨了网站资源保存后如何对其应用的问题;刘兰介绍了保存网站信息时所用到的开源软件,介绍了这些开源软件的现状并分析了它们在未来应如何改进。
国内开展项目:
我国于 2000 年后才着手相关方面的研究,2003 年,中国国家图书馆创立了网络信息资源采集与保存试验项目 WICP(Web Information Collection and Preservation) 和网络数据库导航项目 ODBN(On-line Database Navigation),这两个项目是分别针对容易获得的表层网页和较难获得的深层网页进行信息资源的采集,这些项目的信息采集对象总共为 500 家网站,这些网站分别是政府网站、大学网站、电子期刊网站、企业网站和其他类型的网站,诸如新闻门户网站、电台网站和报纸网站等,每个类型的网站分别为 100家。[2]
2009 年,国家图书馆为了更高效、规范地开展这项保存工作,成立了国家图书馆互联网信息资源保存保护中心,这一中心的成立是为了促进我国的网络资源采集和保存事业的发展,它将我国的图书馆、档案馆结合起来,以便尽最大努力保存完整的中文网络信息资源。
2002 年,北京大学开发并建设了“中国 Web 信息博物馆”,中国网页信息博物馆开展了存储和展示历史网页的信息资源。 截止到 2014 年 5 月 22 日 9:30,系统已维护 8,987,121,378 网页。从功能方面来讲,该博物馆到目前为止已经可以进行网页搜索、历史事件回放及申请网页数据等活动。开放性方面,该博物馆允许普通公民随时进入网站,检索利用历史网页。
1.4 研究内容与方法
1.4.1 研究内容
本文是在档案学的视角下,研究档案部门作为行动主体开展网站信息资源保存工作的必要性和可行性,结合当前档案部门的实际情况有选择性地确定网站信息资源的保存范围,划分出档案部门与图书馆的保存范围分工,进一步提出档案部门的保存的难点和相应的解决策略。
第一章介绍这项工作开展的背景和目前国内外开展的情况,同时介绍了本文研究这项工作的主要内容、方法与创新点。
第二章介绍网站信息资源的概念,对本文中的行动主体档案部门做出界定,提出档案部门采集并保存网络信息资源的标准,以此为依据,划分出档案部门的保存范围,并提出档案部门与图书馆保存范围的分工。
第三章分别从三方面说明档案部门有必要也完全有能力开展网站信息资源保存工作,即必要性和可行性。开展网站资源保存工作是档案部门强化档案价值、保存数字遗产、配合将来“中国记忆”数字资源库建设与充实档案学学科体系的需要,因此,档案部门应尽快加入到保存工作队伍中去。同时,档案部门也已经具备开展这项工作的可行性,包括充实的档案学科理论、档案数字化工作可提供技术支撑,以及当前国内外已经开展的保存项目可为其提供经验借鉴。
第四章介绍了档案部门在开展这项工作的过程中所面临的一系列问题,诸如网站信息资源自身的易逝性、研究经费匮乏、信息采集与保存面临的问题、法律的缺失以及领导机构的不完善。
第五章针对面临的问题提出了一定的解决对策,包括明确了采集中的关键性问题,确定了防范信息安全风险、完善法律条文、建立行之有效的合作模式等。
1.4.2 研究方法
本文在阅读大量研究成果并对比分析国内外理论研究和所开展的实践项目基础之上,主要使用了以下方法作出研究:
文献研究法。通过查询网址并登录国内外相关的大型网站查看国内外现状,结合网络搜索引擎与中国知网(CNKI)、万方网、维普网等国内大型论文数据库中的若干文章,研究这一方向的国内外发展现状,捕获发展前沿,总结出国内外相关研究的问题与对策。
案例分析法。分析美国互联网档案馆、澳大利亚Pandora项目、英国Britain on the web项目等案例中所使用的信息采集、保存与长期维护的方式、方法,便于及时发现这些项目在开展过程中所面临的难题,提出更好的改进对策。
经验总结法。通过查看中外网站资源保存研究内容,对比网站信息资源采集、保存、后期维护等环节的不同方式、方法,总结出不同方法的优劣势,以便档案部门顺利开展相关工作。
1.5 创新点
本文的创新之处体现在研究视角和研究内容两个方面:
研究网站信息资源保存工作的行为主体为档案部门,呼吁档案部门形成这项工作的有效力量。将网站中的信息资源保存工作与“城市记忆”、“数字遗产”和“中国记忆”数字资源库的建设这三个相关问题结合起来,探讨网站信息资源保存的必要性与可行性,而不是限于当前的研究现状,仅把图书馆作为行为主体来研究这一问题。
从档案学的角度提出档案部门采集网站信息资源所应依据的标准,进而有选择性地划分出档案部门所保存网站的类型范围。
提出档案部门开展这项工作所面临的一系列问题,在此基础之上,提出有针对性的解决对策。