随着大数据时代的到来,大数据已经渗透到图书馆管理、运营、服务和变革过程的每一个环节,成为关系图书馆基础设施建设、服务模式与内容变革、读者个性化服务有效性保障和可持续发展的重要因素。
图书馆大数据环境具有数据量大(VOlume)、类型繁多(Vanety、价值密度低(Value、处理速度快和时效高(Velocity)的4个特征。如何在复杂的大数据环境中高效搜索、抓取、管理和处理价值数据,是图书馆准确配置服务资源、提高服务效率与能力、即时发现读者个性化需求,以及增强市场竞争力和用户满意度的关键。因此,大数据时代图书馆应加强以用户为核心的搜索引擎建设,为图书馆运营管理和用户服务提供可靠的大数据搜索、数据价值发现支持。
1 大数据时代数字图书馆数据搜索的需求与特点
1.1 读者的个性化搜索需求
大数据时代,以读者为核心的用户个性化需求发现和数据价值挖掘,成为搜索引擎设计与应用的重要依据。自-先,搜索引擎应根据采集的读者阅读行为与个人特征大数据信息,准确判定用户数据搜索的内容需求、兴趣爱好与价值特征,确保为读者提供可定制的个性化数据搜索服务。
其次,搜索引擎必须改变依据用户输入“关键字”进行数据检索的传统模式,应具备用户语意分析和人机对话的功能。通过人机信息交勺_保证个性化数据搜索内容全而、准确、经济和可用。第三,搜索引擎应准确跟踪、分析和判定读者需求变化,可依据读者需求对搜索引擎系统参数、搜索算法和用户需求进行动态调整,保证搜索引擎的读者个性化搜索活动具有较强的自适应能力。
1.2 搜索引擎依据读者需求实时优化的需求
图书馆大数据环境除数据海量、类型繁多、价值密度低、处理速度快和时效高外,还具有数据结构复杂和信息更新速度快的特点。因此,图书馆应根据数据环境和读者搜索需求变化趋势,按照读者需求对搜索引擎实时优化,确保搜索引擎安全、高效、可用和经济。
首先,图书馆应根据搜索引擎运行效率和可用性评估结果,提高搜索引擎对高数据价值网站搜索的频率和准确性,保证读者数据搜索过程能够预测、控制和搜索效率最优。其次,搜索引擎在对图书馆和第三方服务商资源检索时,须准确判定所搜索内容是否依据数据价值量和读者需求进行自然排序,而不是依靠用户点击率和关键词竞价排名。第三,图书馆应根据读者数据搜索习惯来优化网站和大数据资源,提高价值关键词在搜索引擎的排名,增强搜索引擎的易用性。
1.3 阅读终端具有移动搜索功能需求
大数据时代,图书馆应支持任意读者可在任何时间、任何地点以任何方式进行阅读。因此,用户终端的移动阅读和移动搜索能力,将会严重影响读者的阅读有效性和满意度。
首先,基于网页的传统搜索模式因资源数据量巨人和检索过程操作复杂,并对数据传输网络与阅读终端性能要求高,导致传统的搜索引擎技术无法满足阅读终端的移动搜索需要。其次,基于Web协议的传统搜索引擎无法全而索引来自客户端应用和网页的内容,难以直接调用客户端应用程序而有效读取已检索数据。第三,用户使用搜索引擎的便捷性、个性化服务能力、响应速度和读者隐私保护能力需求,人幅度增强了搜索引擎设计与应用的难度。
1.4 以用户为核心的搜索引擎设计需求
大数据时代,读者在年龄、文化水平、阅读需求和阅读社会关系上具有较人差异性。因此,不同的读者具有不同的阅读与大数据搜索需求。图书馆可依据读者的不同需求,将读者划分为不同的用户群,并提供可定制的个性化月民务。
以用户为核心的搜索引擎设计,自一先,须准确理解读者数据检索的个性化需求,保证所搜索的内容精确和满足用户需求,具有安全、全而、精确和快速的特点。其次,搜索引擎应根据所采集的读者阅读行为大数据信息,准确预测、判定和识别用户的数据搜索真实意图,并对所搜索到的相关海量数据进行查找与匹配,以及依据用户需求和价值可用性对已搜索数据进行排序。第三,搜索引擎应准确判断拟检索网站、大数据库资源的可信度和用户相关性,并结合读者个性化搜索需求对图书馆服务资源、第三方服务商和相关网站的可用性进行排名,利用排名结果来确定数据搜索和内容展示的次序,不断提高搜索引擎的智慧搜索能力。
1.5 搜索引擎应具备“机器学习”的智慧功能
大数据时代,准确理解读者数据搜索意图、直接制定与表现搜索策略、可提供场景式对话搜索功能,是图书馆智慧搜索引擎的卞要特征。
首先,图书馆应实现搜索引擎“机器学习”的智慧功能。搜索引擎可根据读者关键词输入和用户语意分析与表现,准确分析、判定和补充读者的真实语意,并解决数据搜索过程中的多文本近义问题。其次,搜索引擎应通过“机器学习”过程,实现图像数据的准确识别和搜索,并对所搜索数据进行准确的内容表示、语意判定、图片分类与存储,为读者提供“即搜即得”的服务。第三,搜索引擎应通过“机器学习”过程,当大数据平台有新的数据注入时进行自我补充和完善,保持一个不断验证和更新的动态数据缓存,确保数据搜索过程随着“机器学习”的深入,而更加实时、精确和具有相关性。
2 基于大数据的数字图书馆高效搜索引擎设计
2.1 基于读者个性化需求的搜索引擎设计
大数据时代,图书馆搜索引擎由搜索器、索引器、检索器和用户接口4个部分组成。搜索过程卞要通过网络爬虫自动获取网页内容,然后对检索内容进行信息提取、建立索引和对原有索引库更新,最后根据用户输入的关键字在索引库检索数据,并将输出结果排序后交给发起请求的终端。
基于读者个性化需求的搜索引擎设计,应根据用户搜索需求和习惯,定制具有个性化特征的读者数据搜索模型。当不同的用户输入相同关键词时,图书馆搜索引擎会为不同读者反馈精确、惟一、高价值和个性化的数据查询结果。
首先,个性化的读者数据搜索模型定制,应构建于对所采集的读者搜索历史数据、读者网络浏览记录、用户阅读关系数据、读者在论坛与博客发表信息分析的基础上,明确用户的搜索需求、检索兴趣与习惯、检索行为和搜索策略之间的关联性,保证搜索过程安全、高效、易控和经济。
其次,搜索引擎应根据读者需求和搜索行为评估数据,通过构建空间向量模型来保证在用户需求、检索效率、搜索成本和数据可用性上的最优化配置。第三,搜索引擎须保证大数据复杂环境下的图书馆管理与读者阅读需求,应具备用户需求发现、搜索有效性评估、新信息与热点发现、搜索内容分析与统计、分类过滤、文档去重与信息自动摘要·数据模式自动识别与转换等功能。
2.2 突出搜索引擎的用户个性化服务功能
大数据时代,图书馆应加强搜索引擎的个性化服务功能,才能提高读者在复杂大数据环境下信息检索的安全性、效率、价值密度、经济性和可用性。
首先,图书馆在搜索引擎检索算法设计中,应将读者数据搜索的效率和价值密度放在首位。确保数据搜索过程能够以读者需求为依据,为与读者有较高价值关联性和价值密度的数据,分配相应的搜索和优先展示权重,保证用户具有较高的搜索体验度。其次,搜索引擎应根据读者数据检索习惯和爱好,由用户自卞个性化定制检索界而和检索模式。此外,搜索引擎还应具备较强的人机对话功能,能够为读者提供个性化数据搜索推荐服务。第三,搜索引擎应通过对读者阅读和数据检索行为的准确分析,更深入、细致地掌握用户检索的需求与过程,在保证搜索平台开放性和公平性的前提下,降低搜索成本和提高数据搜索效率。
2.3 实现搜索引擎的智慧搜索功能
大数据时代,数据存储的模式和表示方式呈现复杂、多样化特征,不同读者在搜索数据语意表示上具有多样性、隐性、抽象和基于对话的特点。因此,实现搜索引擎的智慧搜索功能,是明确读者数据搜索意图和实现精确查询的关键。
首先,图书馆应利用分词技术,根据用户服务信息的类别和表示模式进行分类归档。当读者搜索信息时,可依据信息所处索引库的位置,而实现数据的快速、准确搜索。
其次,图书馆搜索引擎应具备用户语义发现、分析和判断功能,可通过对读者输入词的分析而明确用户真实意图,并在索引库中查询与用户搜索日标最接近的文档和数据。
第三,图书馆应根据大数据信息库数据、第三方服务商网站资源、用户社会关系表示,构建一个以读者为中心的巨人信息关系图谱。当读者搜索未知数据和隐性信息时,可通过“图谱搜索”检索出与所搜索内容相关的文本、图片、音频、视频和数据关系等信息,确保用户个性化搜索数据具有全而、精确、深度和可靠的特点。
2.4 确保搜索引擎的有效性评估内容全面、易控和可操作
图书馆应量化搜索引擎检索过程的安全性、效率、检索价值密度、用户相关性、检索结果、用户友好性与交勺_}N}等指标内容,为搜索引擎设计与优化提供可靠的数据支持,保证搜索引擎评估具有科学性、可控性和可操作性。
根据大数据时代复杂数据环境和读者个性化检索需求,搜索引擎评估卞要可分为检索安全可靠性、检索界而友好性、数据搜索性能、检索的输入与输出模式4个方而内容。
检索安全可靠性卞要由搜索引擎系统结构的科学性、安全健壮性、安全防御能力、用户隐私保护性等方而组成。检索界而友好性卞要分为用户可操作性、系统可管与可控性、数据搜索成本、用户相关性、用户满意度等。数据搜索性能卞要分为检索相关度、精确度、时效性、检索数据的价值密度、用户检索成本等。检索的输入与输出模式,卞要指搜索引擎输入与输出界而的友好性、语义表现能力、管理与使用复杂度、用户交互性。
2.5 利用搜索引擎检索规则来优化图书馆大数据资源
图书馆大数据环境具有海量、复杂、价值密度低和处理时效高的特点。因此,如果图书馆不依据搜索引擎运行规则,对管理与服务大数据资源库进行优化,将会导致搜索引擎查询数据量巨人、检索深度与精度不高、成本上升和用户满意度下降的情况出现。因此,必须利用搜索引擎运行规则对图书馆大数据资源进行优化。
首先,图书馆应认真分析搜索引擎的检索算法和运作规则,并以读者需求为核心加强大数据资源库的科学和结构化水平,提高所查询数据的价值密度和用户相关性。其次,搜索引擎应根据用户使用有效性评估结果,依据读者阅读模式、内容和需求变化趋势,及时调整搜索引擎检索对象的排名算法,使搜索引擎更适应大数据复杂环境特点和读者个性化需求。第三,图书馆在网站建设中,应提高网站资源信息结构的科学性和数据可获取性,卞动为用户提供具有个性化特征的站外二次链接服务,确保读者具有更愉悦的用户检索体验。
2.6 突出搜索引擎的移动检索功能
大数据时代,随着读者移动阅读终端智能化和集成度的提高,移动检索将成为个人阅读终端的卞要服务与阅读方式。
首先,读者移动检索具有无线网络数据传输环境复杂、读者阅读需求高、数据传输海量和数据类型多的特点。因此,图书馆在读者移动阅读模式保障中,应采取搜索代理服务器和阅读终端的结构模式,当搜索代理服务器接收到移动终端发来的搜索请求后,由搜索代理服务器端完成数据的搜索、用户相关性分析与评估、数据模式转变和加工,并将最终结果通过无线信道传输到用户端上。此外,用户阅读终端的移动搜索引擎还应和第三方服务商平台结合,支持诸如阅读论坛与博客管理、读者群交友和地理位置查询等增值服务,为读者提供可定制的个性化移动增值服务。第三,搜索引擎移动检索功能的建设,应以贴近读者实际需求和增强用户体验为中心,逐渐向语音搜索、场景化搜索、微博搜索等多种模式转变,以提高搜索服务的可用性和趣味性。
3 结束语
随着大数据时代的到来,图书馆数据环境而临的安全威胁和复杂性人幅增加。此外,图书馆大数据平台的高效管理与读者个性化阅读服务需求,也对大数据资源的采集、管理、控制和搜索提出了更高要求。
因此,图书馆管理者必须从读者个性化阅读需求和用户满意度保障出发,坚持科学技术应用与大数据复杂环境特点相结合的原则。同时,在搜索引擎设计中应保证搜索算法与大数据复杂环境相适应,搜索引擎应用具有安全、高效、智能、经济和移动服务的特点,才能为读者提供具有个性化特征的大数据搜索服务。
参考文献
[1]中国互联网络中心,2010年中国搜索引擎用户行为研究报告[R],2012一02一08.
[2]尤川川,张桂刚,一种基于大数据的有效搜索方法[J],计算机科学2013,40(6):183一186.
[3]叶育鑫,欧阳丹彤,基于语义的主题爬行策略[J],软件学报,2011,22(9):2075-2088.
[4]丁军平,蔡皖东,而向P2P特定信息的爬虫改进技术[J],计算机工程与应用2011,47(29):23-26.
[5}杨艺,周元,基于用户查询意图识别的搜索优化模型[J],计算机科学2012,39(1):264-267.
[6}王珊,王会举.覃雄派等,架构大数据:挑战、现状与展望[J],计算机学报2011,34(10):1741一1752.