垂直搜索引擎与计算机领域多个方面的发展与应用息息相关,其关键技术更是促进计算机领域进一步发展的重要突破口。所以,对于垂直搜索引擎关键技术的研究具有十分重要的意义。我国计算机领域虽然对垂直搜索引擎关键技术方面进行了一定的研究,并且其研究应用在实际的计算机应用中也取得了十分有效的成绩。然而,随着科学技术的发展,对计算机技术要求不断提高的同时,对于垂直搜索引擎的关键技术也有了新的要求。因此,在今后的发展中,相关领域的专业人士要加强对垂直搜索引擎关键技术的重视和研究,进而在更大程度上提高垂直搜索引擎关键技术的应用水平。
一、垂直搜索引擎概述
1. 垂直搜索引擎的概念
所谓的垂直搜索引擎实际上就是搜索引擎的一个分支、是搜索引擎的细化。也就是说,垂直搜索引擎所搜索的信息更加具有行业性,更加具有专业化。用计算机领域的专业术语来讲就是“对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户”.因而,垂直搜索引擎更加受到某些专业性、行业性比较强的用户的欢迎。
2. 通用搜索引擎与垂直搜索引擎的不同
垂直搜索引擎与通用搜索引擎最大的区别和不同就是对于搜索信息范围的不同。我们从字面上来理解通用二字就可以知道,通用搜索引擎适用于任何一类信息的搜索,只不过其缺点就是搜索的范围比较大,需要操作者在搜索之后对信息进行进一步的筛选。而垂直搜索引擎则能很好的避免这一问题,其搜索都是针对于某一行业的专业搜索,因而能够在最快的时间内为操作者提供最有效的信息。从当前社会的发展来看,人们对计算机要求的不断提升,相信这种垂直搜索引擎将会受到越来越多人的喜爱。
二、垂直搜索引擎的关键技术
从上述分析中可知,垂直搜索引擎是计算机领域中的一个发展重点,并且垂直搜索引擎相比于通用搜索引擎而言,更加适合于未来人们对计算机应用的需要。所以,对垂直搜索引擎关键技术的研究势必要提上日程。笔者在此主要从以下几个方面对垂直搜索引擎的关键技术进行了研究,希望以下这些研究能够为垂直搜索引擎关键技术的研究发展提供一些参考。
1. 网络爬虫技术
网络爬虫技术是垂直搜索引擎中一项十分重要的关键技术,该技术是一种能够自动抓取网页程序的技术,因而是搜索引擎中的重要组成成员。而也是这一重要地位决定了网络爬虫技术工作流程的复杂性。该技术在具体的工作过程中是需要对网页进行大量的分析后,来丢掉每一个与搜索信息无关的连接,与从同时,将分析后留下的连接在放入等待抓取的地方,进而进行下一步的抓取与筛选。
广度优先和深度优先是网络爬虫技术的两个策略,两种策略以其各自的优势为该技术的应用提供便捷。此外,在使用网络爬虫技术的过程中,还需要意识到一点,即每一个被该技术抓取的网页都将会被计算机的系统储存,并且这些网页会通过多个方面的分析和过滤后建成相应的索引。
2. 网页信息抽取技术
所谓的网页信息抽取技术指的就是用网页作为信息源头,在网页中搜索计算机使用者需要的或者是感兴趣的信息。网页信息抽取技术的优势是其所搜索出的信息经过了多个方面的处理,将原有网页上的信息处理的更具有结构化、清晰化,切格式也比较统一。现有的网页信息抽取技术主要有三种抽取方法:基于自然语言处理的方式、基于包装器归纳的方式、基于 HTML 结构的信息抽取。三种方法都为垂直搜索引擎做出了突出的贡献。并且随着未来电子商务领域的不断发展,这种网页信息抽取的搜索引擎方法将发挥更大的应用价值。
3. 中文分词技术
除了以上两种垂直搜索引擎关键技术外,中文分词技术也是最为常用的一种垂直搜索引擎技术。该种技术对于文本的处理速度是十分快速的,而该种技术也是由于其快速性被广泛的应用。中文分词技术的方法有很多,如基于字符串的匹配、基于统计的方法等,都是垂直搜索殷勤中的重要方法。然而,在实际中文分词技术的应用中,由于网络语言发展的比较快,各种新颖的网络新词层出不穷,而这一点也成为了中文分词技术应用的重要挑战。
三、垂直搜索引擎的发展空间
从上述垂直搜索引擎关键技术的研究中我们可以发现,当前的关键技术的应用已经取得了很大的成就,并且随着关键技术的进一步研究,将会有越来越多的行业意识到垂直搜索引擎价值性。同时,随着当前市场发展的多元化、专业化,垂直搜索引擎这种适合专业性、行业性领域发展的技术势必会在未来的搜索行业中占有举足轻重的地位,并且将计算机领域的发展推向另一个高潮。
以上仅仅只是笔者对于垂直搜索引擎关键技术的几个主要方面的分析,然而,事实上,其关键技术涉及的方面比较多,再加之笔者对于垂直搜索引擎方面的研究能力有限,因而仅仅凭借以上对于垂直搜索引擎关键技术的研究来促进该方面技术的发展和应用是远远不够的。因此,对于垂直搜索引擎关键技术的研究还有待进行进一步的探索。
四、结语
综上所述,对于垂直搜索引擎关键技术的研究不仅仅有利于提高该技术在计算机领域的进一步应用,同时更有利于促进计算机领域的全面发展。然而,垂直搜索引擎关键技术的研究涉及的内容比较多,并且每一项关键技术都十分复杂,再加之垂直搜索引擎相关领域工作人士对于其关键技术的研究还没有达到一定的深度和广度,因而不利于实际关键技术的应用和发展。所以,在今后垂直搜索引擎领域的发展中,要加强对其关键技术的重视和研究,并且要从其关键技术的多个角度、多个方面进行分析,从而研究出更好、更有利于促进垂直搜索引擎关键技术应用与发展的方法与措施。
参考文献:
[1] 王晓伟 . 垂直搜索引擎若干关键技术的研究 [J]. 浙江大学学报 ,2007,(5)。
[2] 李副铭 . 垂直搜索引擎的研究与设计 [D]. 电子科技大学学报 ,2009,(9)。
[3] 刘世涛 . 简析搜索引擎中网络爬虫的搜索策略 [J]. 阜阳师范学院学报 ,2006,(9)。