4.2实例抽取技术
实例抽取采用自动方式,主要实现非结构化数据向结构化数据转变和结构化数据抽取为实例两个过程。
非结构数据向结构化数据的转换常采用基于特征提取的方法。非结构化数据虽然形式多样,种类很多,但是拥有两个特点是:
1)存在大量的冗余的信息;2)信息通过各种特征表现出来。通过对非结构化数据进行合理的分类,对每类数据进行特征抽取,这些特征来源于特征库中定义的特征类型。通过对提取的特征进行值域分析,进行信息转换和去除无用信息[11].通过特征提取,将非结构化数据中信息转变为结构化数据,如图2所示。
格式化数据由于采用固定的格式,所以可以直接通过程序自动抽取为信息的本体描述。针对结构化数据和非结构化提取后的结构化数据,按照领域本体库中建立的本体框架,对结构数据中的信息进行抽取,形成实例,并存储到数据库中。
例如非结构化数据的输入为“2014年9月1日11:00,卫星拍摄到某舰船的画面(附照片),并通过定位确定其经纬度为120.20-29.51,高度为0”. 图片信息中通过图像处理算法获取到该舰船为航空母舰,数量为1.通过该数据信息中文字信息和图片信息的特征提取,获得信息见表2.
对获取的特征信息中的部分信息抽取,获得信息实例的描述,用RDF描述如下。
非结构化数据具有数据量大、信息组织松散等特点,计算机难以直接处理。将非结构化数据的特征进行提取形成结构化数据,使得非结构化数据转化成为计算机可理解的本体实例。实例抽取技术为智能信息检索提供了数据基础。
4.3语言转换技术
语言转换实现非规范检索语言与语义网检索语言之间的转换。非规范检索语言可以是自然语言、其他系统检索语言等。自然语言的处理方法主要有基于关键词匹配的方法、基于模式匹配的方法、以句法-语义分析为主的方法、基于大规模语料库的自然语言处理等。
本文所介绍的体系结构中,使用以句法-语义分析为主的方法作为自然语言处理技术,借助对查询语句的语义理解,按照语义网检索语言的格式和规则,进行转换。例如要将以汉语形式表述的查询语句“我想查找关于智能检索领域的最新论文”转换为语义网查询语言SPARQL.首先对查询语句采用分词技术(通常采用最大匹配度算法)对查询语句分词,得到的结果是“我、想、查找、关于、智能检索、领域、的、最新、论文”.通过对分词以后的查询语句进行语义分析,分析得出检索的结果为论文,属性中类别为智能检索领域,并且按照时间倒序排 列,最 终 返 回 结 果 为 下 载 地 址。 转 化 为SPARQL语言如下。
由于自然语言在使用中具有语义上下文相关、模糊、语法不准确等特点,这导致计算机对自然语言理解困难。但强制使用者学习使用语义检索语言(例如SPARQL等)进行检索,会很大程度降低系统的易用性。在具体领域应用中,一方面通过培训和锻炼可以提高使用者的表达能力,另一方面使用自然语言识别技术提高计算机对自然语言的理解能力。
4.4基于自然语言的智能信息检索流程
本文设计基于语义网的智能信息检索系统的流程,如图3所示。由于自然语言识别技术不能做到100%的准确识别,为防止自然语言理解的歧义,将检索语句转换为SPARQL语句后,再次逆向生成自然语言,并与查询结果一起返回给用户作为参考。
4.5检索应用技术
智能信息检索系统为上层的应用提供信息的组织、表示和检索功能,为应用提供信息保障。本文体系结构中的应用层为基本应用,为更高层的应用提供基本的接口模块。其中典型的应用为搜索引擎、订阅、信息呈现等。
搜索引擎是使用自然语言进行信息检索的接口。根据搜索引擎的检索方式和范围可以分为全文检索引擎和目录式搜索引擎。全文检索引擎通过对整个知识库的检索来实现知识发现。目录式搜索引擎是针对专门的领域或主题,采用树状结构建立索引,检索时实际是对已建立好的索引的分层式浏览。两种检索方式都是基于知识库中已形成的信息,相比目录式搜索引擎,全文检索引擎的检索范围广,信息更新快,但是检索效率和准确度低。
订阅主要是针对领域内一些基于订制或者主动推动的业 务。互联网中的 订 阅应用往 往基于SOAP协议实现。典型的应用有RSS订阅,信息实时订阅反馈等。基于语义网的智能体系结构为支持模糊订阅和基于用户特性的订阅提供支撑,通过机器学习和智能代理等技术的引入,实现订阅内容的智能化组织、订阅条件自动生成、信息及时更新等。订阅服务为用户查看信息提供了个性化的选择。
根据体系结构的不同,信息呈现主要分为B/S结构和C/S结构。特别是Web 2.0等技术的引入,使得B/S结构的展现形式更丰富多样化,文档、多媒体等多种信息的显示都提供了很好的支持。B/S虽然广泛支持信息的呈现,但对于具体应用的信息呈现缺少针对性,具体业务领域的理解无法深入。C/S结构解决了B/S的这个问题,它面向具体的业务应用,信息呈现的专业化程度更高,更符合用户使用习惯等。
5结语
基于语义网的智能信息检索技术为解决信息的表示、组织和检索提供了一种解决方案。在未来应用中,智能信息检索技术将结合其他智能技术共同在智能判断、辅助决策、综合分析等多个应用领域发挥重要作用。智能信息检索系统将推动数据中心向知识中心的转变。
参考文献
[1]曹强,黄建忠,万继光,等。海量网络存储系统原理与设计[M].武汉:华中科技大学出版社,2014:1-5.
[2]W3C.Linked Open Data[EB/OL].[2014-6-20].
[3]陈沈焰,吴军华。基于本体的智能信息检索系统研究[J].微处理机,2009,5:89-91.
[4]陈晓金,王兵。信息检索技术研究与实践[J].情报资料工作,2008,3:33-35.
[5]许 鑫,黄 仲 清。垂 直 搜 索 引 擎 应 用 中 的 若 干 策 略 探讨---以12580餐饮垂直搜索为例[J].知识组织与知识管理,2009,175(2):62-70.
[6]张玥杰,连理,吴立德。一种新型的跨语言信息检索技术[J].计算机科学,2002,29(8):66-72.
[7]贾宏。基于搜索引擎的数字图书馆智能信息检索[J].图书馆学研究,2006,3:28-31.
[8]谢圣献,谢光。语义检索在电子商务中的应用研究[J].微计算机信息,2008,12:135-136.
[9]韩娇红。我国智能化信息检索发展及研究现状[J].图书馆学刊,2012,1:49-51.
[10]Grigoris Antonios,Frankvan Harmelen:A SematicWeb Primer(Cooperative Information Systems)[M].Cambridge:The MIT Press,2008:204-218.
[11]田万鹏,王建民。一种基于特征的非结构数据演变管理建模框架[J].计算机研究与发展,2010,47(suppl):394-399.