摘要:为解决传统校内搜索的完整性和准确性不高、性能较差等问题,文中借助智慧校园基础平台建设优势,构建面向校内资源的垂直搜索引擎。首先,以通用的开发框架为基础,融合校内领域特征,优化搜索引擎技术中的信息采集、数据索引、信息检索模块;然后,结合资源整合和爬虫两种方式进行信息采集,并在数据索引中引入全量数据平台的语义知识库进行信息抽取、语义优化,增加扩展查询、统一身份认证等信息检索因素;最后,在超融合数据中心的硬件基础上,以跨平台门户为入口,提出覆盖率、准确率、检索速度更为优化的校内智能搜索方案。以江苏师范大学校内搜索平台为例验证该方案的可行性,得出建立个性化、精确化、智能化的校内垂直搜索服务,能够提升智慧校园进程中教学、科研和管理工作的效率。
关键词:搜索引擎;智慧校园;信息采集;信息检索;垂直搜索;智能搜索;
随着信息技术的迅猛发展,互联网上的各种信息也呈爆炸式的增长,如何快速的从海量的网络数据中获取到用户所需要的信息成为一个迫切需要解决的问题,而搜索引擎的出现则为这一需求提供了一种可能。通用的搜索引擎如百度、谷歌等更注重资源的广度,往往难以满足专业用户对于目标化、特定化资源的需求,因此,面向某一特定领域的垂直搜索引擎应运而生[1]。
高校作为人才培养的重要基地,在从数字校园向智慧校园发展的过程中也积累了大量的网络资源[2],这些资源分散在学校的各个部门,却又无法被通用的搜索引擎获取。相比网络上大量的浅资源,对于师生用户来说,校内的资源才更为准确和精细,缺少的是一个快速定位所需信息的入口,面向校内资源建立垂直搜索引擎为这一问题的解决提供了有效途径。本文将以高校为范围,对校内搜索展开研究。
1 研究现状
1.1垂直搜索引擎技术研究现状
垂直搜索引擎也称专业搜索引擎,主要针对于某个特定的领域进行搜索,相对传统搜索引擎覆盖率低、信息不准确、信息数量过大等问题,垂直搜索引擎具有“专、精、深”的特点,同时带有一定的领域性,更多地面向特定人群。国外的购物类垂直搜索引擎如:eBay、亚马逊,旅游垂直搜索引擎如:Momondo、SkyScanner,科技类的有Scirus等,国内应用较广的垂直搜索引擎如:淘宝、京东、智联、途牛等,涉及招聘、购物、电子商务、房地产等多个行业。
国外对垂直搜索引擎的研究相对成熟,自第四代搜索引擎技术出现后,大量面向某一领域的垂直搜索引擎应运而生。Woo等通过社交搜索分析预测疫情[3];Müller等对药品垂直搜索引擎进行探索[4];Pirouz等研究搜索引擎相关算法[5]。国内对垂直搜索引擎的研究也从未止步,张弘弦等探究搜索引擎实现过程[6];李全等设计并实现了面向MOOC领域的垂直搜索引擎系统[7];张会清等以水环境为范围展开垂直搜索引擎研究[8];闫机超利用RFID技术对搜索引擎进行优化[9]。
1.2校内搜索引擎存在的问题
校内搜索引擎作为垂直搜索技术在高校的重要应用,是师生查找校内资源,进行办公、科研等活动的重要手段。《教育信息化2.0行动计划》中提到:全面推进各级各类学校智慧校园建设与应用。作为重要的发展任务,各个高校都加快了从数字校园向智慧校园的转型步伐[10]。然而实际的困难是当前的校内搜索大多基于数字校园的大环境而建,存在完整性、准确性、安全性等多方面的问题。
1)完整性问题。数字校园的发展使得校内各个部门更加注重信息化与业务的融合,各种各样的平台系统被快速引入上线,质量和功能也参差不齐,针对检索方面,有内置系统检索、目录导航或模块检索。数字校园以业务为主导的模式很难使搜索全面覆盖校内资源,缺少一个面向全校的企业级搜索引擎。
2)准确性问题。师生使用校内搜索引擎的目的就是为了准确定位校内信息,由于校内搜索技术限制,当前搜索引擎存在返回无用信息过多、重复率高、信息失效等现象。这也是所有搜索引擎不断改进的目标。
3)安全性问题。当前国内有相当一部分高校的搜索引擎引入了Google、Baidu等商用引擎,而高校内部也存在一些敏感信息、文件资源等仅仅希望被校内的师生用户访问,商用搜索引擎的引入增加了校内信息安全的不确定性。
4)性能问题。搜索引擎的检索速度也是用户的重要体验之一,传统的数据中心主要通过虚拟化技术实现高可用的服务和动态的资源分配,面对搜索引擎处理数据量的骤增,数据中心存储、网络以及硬件性能等瓶颈也越发凸显。
2 智慧校园中校内搜索新思考
智慧校园作为当前高校的热门工作,是指以促进信息技术与教育教学融合、提高学与教的效果为目的,以物联网、云计算、大数据分析等新技术为核心技术,提供一种环境全面感知、智慧型、数据化、网络化、协作型一体化的教学、科研、管理和生活服务[11]。智能化是智慧校园的一项重要目标,当前的校内搜索大多是以关键词为依据的机械搜索,校内搜索也亟需向智能搜索迈进[12]。
2.1全量数据平台
全量数据平台可以理解为智能化、知识化的共享库。不同于传统的共享数据平台,全量数据平台中融合了大量的校内实体与实体间的相互关系,是一个全方位的校内语义知识库,作为全校的数据中枢,具有数据收集、数据治理、数据分析、数据输出的能力,是各类数据事务的底层平台。全量数据平台的数据经过治理重构,已经相当的准确,如果能够应用到校内搜索中,将会大大提高搜索的准确度。利用平台底层的语义知识还能够感知用户意图,探究智能搜索[13]。
2.2超融合数据中心
高校智慧校园建设模式的改变,使集中共享式的传统虚拟化架构在可靠性、扩展性、高可用性等方面已经无法满足需求。各个高校开始利用计算与存储集中控制的超融合架构来提升数据中心的性能,快速地实现资源横向和纵向扩展,降低数据中心建设维护成本的同时也大大提升了运行质量[14]。这些基础环境的升级改造为校内搜索性能的提升提供了强有力的硬件支撑。
2.3桌面端与移动端的互通
智能手机的普及使得移动应用的作用达到甚至超越了桌面端应用[15],而智慧校园中新型应用的核心优势就是实现应用层的跨平台融合。以新型的移动门户、PC门户为基础,打通应用在各种终端和各种场景下的跨平台使用,为用户提供更为便利和友好的搜索体验,实现掌上搜索和桌面搜索的无缝对接。
2.4统一身份认证
作为数字校园的支撑平台之一,统一身份认证在智慧校园的建设中仍然扮演着重要的角色。传统的校内搜索主要使用单点登录功能,避免重复登录的同时保证校内资源安全;而在智慧校园的背景下需要充分挖掘用户的身份信息,及时捕捉角色转换、岗位变动等对搜索期许的影响,动态追踪用户意图,优化提升智慧搜索[16]。
3 概要设计
3.1系统结构
智慧校园环境中软硬件的不断发展为优化传统的搜索引擎问题带来了机遇,本文借助基础平台的建设优势,构建智慧校园背景下的校内垂直搜索引擎,形成由基础层、数据层、平台层到应用层自下向上的一体化层次结构。系统结构如图1所示。
图1 系统结构
基础层是校内搜索引擎构建的硬件平台,包括主机、网络、存储等多种资源在内的超融合数据中心建设。数据层是全量数据平台、认证数据库等校内底层的共享数据平台,与搜索需要的整合数据库一起向上层提供数据服务。平台层有面向全校师生的PC门户、移动门户、统一身份认证等。应用层主要对接各种校内应用系统,针对本文的校内搜索引擎应用,包括从信息抽取到用户接口的整个过程。
3.2系统流程
为提升校内师生用户体验,本文结合当前智慧校园的基础设施建设,在研究垂直搜索引擎技术的基础上,设计校内搜索引擎原型系统。该系统总体可以分为信息采集、建立索引、信息检索和用户接口四大模块,系统的总体流程如图2所示。
信息采集是一个信息收集的过程,主要是对校内未整合的各种网页资源进行查找、下载、解析并存储在本地,结合校内地址特征构建主题爬虫;采集到的信息以网页的形式存储在本地,在用户搜索前必须对这些内容进行清洗并建立索引,即词与文档之间的映射关系,利用全量数据平台知识库提高页面抽取和分词精度;信息检索需要分析用户输入,匹配相关联的文档,融合扩展查询和角色分配模块,提升搜索结果的全面性和准确性;用户接口以新型的融合门户为依托,构建PC端和移动端融会互通的校内搜索平台,接收用户查询输入并将最可能的查询结果倒排输出。
图2 总体流程
4 模块设计
4.1信息采集
分析校内现有的资源分布,高校对内部的网络资源都进行了一定程度的整合,但是随着智慧校园的发展,网络资源整合的速度远远小于资源系统上新速度。而作为面向全校的搜索引擎,信息的覆盖率是搜索引擎优劣的重要指标,因此对校内的信息采集主要采用两种方式:一种为资源整合模式,一种为主题爬虫模式。
资源整合模式是指部分校内的分散资源以及独立资源系统已经通过数据、功能、关系、服务等方式进行了融合重组。这些网络资源的内容以数据库的形式存储在服务器中,有序准确,无需治理操作,可直接利用API接口获取。
主题爬虫模式主要针对那些没有整合或者整合存在一定困难的网络资源,通过网络爬虫技术进行网页内容采集。本文选用网络爬虫工具Heritrix,通过限制爬取规则设计校内主题爬虫。各个高校都有自己的域名和校内地址库,通过对提取URL的判断决定是否爬取该网页。Heritrix中的Frontier(链接制造工厂)组件负责所有链接的处理,通过扩展Frontier Scheduler类定制爬虫,具体算法流程如下:
4.2 索引模块
索引是一种特殊的数据结构,是特征词向文档的映射,任何搜索引擎在搜索之前都需要对被搜索内容进行索引。本文选取开源的搜索引擎框架Lucene研究索引和检索模块,其丰富的API接口为后续的研究提供了技术基础。索引模块具体流程如图3所示。
图3 索引流程
主题爬虫爬取到本地的网页包含有正文信息、噪声信息,这些信息未经处理还不能直接用于搜索。经过网页预处理、抽取有用信息、语义优化等前期操作后才能建立索引。而全量数据平台作为一个全方位的校内语义知识库,将其应用到索引的关键技术中会有效提升系统准确性。
4.2.1 页面提取
页面提取模块使用网页解析工具Jsoup,它有丰富的API功能。去除HTML网页噪声如<script>标签、<style>标签、<!-->标签等,利用DOM方法解析URL地址、HTML文本并存储在数据库中。抽取的结构化信息有:URL、作者、发布时间、标题、正文等,具体数据库设计如表1所示。
表1中:发文单位抽取利用全量数据平台中的全校单位名称知识库;来源主要用于后续师生搜索权限的判断;文号由发文机关代字、年份、发文顺序号组成。整理全校的《发文机关代字表》,以发文机关代字Dep为触发关键字,匹配文号的正则表达式抽取文号,校内发文文号正则表达式为:
表1 数据库设计
4.2.2 语义优化
中文分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,分词的优劣会直接影响搜索结果的好坏。对抽取出的结构化信息,如标题、内容、作者等,进行分词处理,并按照倒排索引的策略建立索引数据库,索引结构为:关键词-关键词频-出现的网页。整理学校常用简称、固定称谓表等信息,同时将全量数据平台中的知识如:姓名、课程、单位、职务、教室、楼宇等信息以自定义的形式加入分词系统,提高分词的准确性。然后,利用全量数据平台中相互之间的语义关系提升智能查询效率。如:化工学院的教师检索“学术报告”,在得知教师的专业为化学时,应判断该教师更倾向于获取化学专业的学术报告信息;计算机学院的学生检索“计算机网络”课程资源时,应更倾向于获取该学生当前任课教师的视频、教案、PPT等教学资源。全量数据平台中的部分知识结构如图4所示。
图4 部分知识结构
4.3信息检索
信息检索主要是根据用户输入的查询词,计算相关的文档得分,并倒序返回查询结果。这一过程中,要在Lucene默认评分的基础上,结合语义知识库,综合考虑用户的查询意图,同时,通过扩展查询、对接统一身份认证等,进一步明确权限,获取角色化数据。默认的评分公式[17]为:
式中:coord(q,d)为评分因子,文档中出现查询项个数越多,说明文档的匹配程度越高;t(ft in d)指项t在文档d中出现的次数frequency;id(ft)为反转文档频率,出现项t的文档数docFreq。
4.3.1扩展查询词
校内的师生在查询输入时,极易使用简称、缩写等进行检索,如以简称“公管学院”来搜索“公共管理学院”;同时由于历史的沿革,用旧称来代替修改后的新称谓,如以“化工学院”来搜索“化学与材料科学学院”。如果以“字”为检索项将会返回大量无关的信息,如果以“词”为检索项则无法准确匹配,此时,就需要对查询词进行预扩展,将简称转变为正常称谓进行查询,构建校内《简称-规范称谓对应表》规范用户查询,具体如表2所示。
表2 分词对照表
与通用的搜索引擎不同,校内的资源规模有限,同时主要集中在教学、科研、工作、生活等与师生相关的方面。受领域的限制,由上述评分公式可知,如果关键词没有匹配到内容,词频为0,则最后的评分也为0,就出现无返回结果的情况。为了提高查询的覆盖率,利用《哈工大信息检索研究室同义词词林扩展版》对查询词进行扩展,并以推荐搜索的形式引导用户规范查询。具体算法流程如下:
4.3.2结合认证的分角色检索
校内检索主要面向校内师生,需要与统一身份认证系统对接,默认有认证账号的校内师生才有权限使用。利用老师和学生的不同身份信息,按角色划分搜索范围,并根据角色变化动态调整搜索权限。如:教师可以检索到OA系统中的文件,本科平台发布的信息给本科生检索用,研究生检索将不提供本科平台的检索结果,从本科生升为研究生之后搜索的范围就从本科平台转变为研究生平台等。
此处利用索引模块的“来源”字段判断资源属于哪一系统平台,对学生和教师的检索权限分类管理,根据用户角色提供更精准的搜索服务,与当前检索角色无关的系统,将不提供检索结果。
4.4用户接口
建设一个集中的校内搜索入口,接受用户的查询输入请求,并发送至搜索引擎服务器,经过后台处理将与用户搜索有关的结果数据集中展示,向用户提供一站式查询服务。校园门户是集校内信息资源、应用系统于一身的校内共享平台,作为师生日常工作、生活、学习访问最多的系统,为校内搜索引擎的使用提供了良好的平台基础和用户基础。利用智慧校园跨平台融合的优势,以新型的PC门户和移动门户为基础,构建面向校内师生的垂直搜索应用。
智慧校园建设为校内搜索引擎问题的解决提供了良好的契机。本文所设计的校内搜索引擎以超融合数据中心作为硬件基础,能够提升搜索性能;构建校内主题爬虫与资源整合数据库结合增加搜索的完整性;引入全量数据平台、扩展查询词等优化搜索准确性;结合统一身份认证进行搜索权限分配,保障搜索的安全性;最终借助用户接口向校内师生提供全方位、跨平台、高效率、规范化的搜索服务。结合本研究提出的校内搜索引擎方案,搭建江苏师范大学校内搜索平台,目前对接业务系统23个,平台在校内资源的查全率和查准率上较之前的校内搜索都有所提升,系统截图如图5所示。
图5 校内搜索引擎系统界面
5 结语
信息技术的发展为校园环境带来了巨大的变革,高校信息技术经历了从网络到系统再到数据的过程,环境也从基础网络发展到数字校园再到今天的智慧校园。智慧校园建设的推进,让校内的软硬件基础设施发生了改变,同时师生对校内搜索的需求也从最初的机械式转变为智能式,用户往往希望通过简单的检索词让系统了解自己的真正意图,尽可能返回期望的结果。本文以垂直搜索引擎技术为基础,借助智慧校园建设的优势,结合全量数据平台、统一身份认证、新型融合门户、超融合数据中心等,构建面向校内资源的垂直搜索引擎,在提升搜索效率和质量的同时为师生的智能检索提供了一种可能的途径,但是对搜索引擎覆盖率、准确率、响应时间等的优化探索仍需深入。
参考文献
[1]杨和平,陈瑜,张志强网站简约本体垂直搜索系统的设计与实现[J].计算机工程与应用, 2017,53(19):257-264.
[2]蒋东兴,付小龙,袁芳,等.大数据背景下的高校智慧校园建设探讨[J]华东师范大学学报(自然科学版) , 2015(21):119-125.
[3] WOOH Y,CHOY T,SHIME Y,et al. Estimating influenza outbreaks using both search engine query data and social media data in South Korea[J]. Journal of medical internet research,2016, 18(7):e177.
[4] MULLER B,POLEY C,POSSEL J,et al. LIVIVO-the vertical search engine for life sciences[J]. Datenbank,2017,17(1):29-34.
[5] PIROUZ M,ZHAN J. Toward efficient hub-less real time personalized pagerank[J]. IEEE access, 2017, 5:26364-26375.
[6]张弘弦,田玉玲.Web垂直搜索引擎实现过程的研究[J]现代电子技术, 2016,39(8)-55-59.
[7]李全,林松,田俊,等.面向MOOC的垂直搜索引擎[J].计算机与现代化, 2017.12(4):32-37.
[8]张会清,张乐基于Elasticsearch的京津冀水环境搜索引擎的设计与实现[J].自动化技术与应用, 2020,39(11):29-36.
[9]闫机超基于RFID技术的网络搜索引擎自适应优化[J]现代电子技术, 2020,43(19):62-64.
[10]郑旭东.智慧教育2.0 :教育信息化2.0视域下的教育新生态:《教育信息化2 .0行动计划》解读之二[J]远程教育杂志, 2018,36(4):11-19.
[11]赵磊磊,代蕊华,赵可云.人工智能场域下智慧校园建设框架及路径[J]中国电化教育, 2020,12(8):100-106.
[12] GUPTA S.AGRAWAL N,GUPTA s. A review on search engine optimization:basics[J]. International journal of hybrid information technology,2016,9(5):381-390.
[13]姜恩波,覃琳基于结构化数据的搜索引擎[J]现代情报, 2019,39(2):66-72.
[14]王家兵,王成彦超融合架构图书馆数据中心构建探索[J].中国教育信息化,2019(19);:94-96.
[15]刘敏基于用户体验的品牌搜索引擎服务评价及优化[J]图书馆学研究, 2020(19):41-49.
[16]周伟,谭振江,朱冰基于差分进化算法的大数据智能搜索引擎研究[J]情报科学, 2018,36(5):85-89.
[17] XIAO X, WANG Q, YANG Y, et al. Design and implementation of Graphene Chinese literature search engine based on Lucene[J]. Computer science and application,2019,9(1):96-105.