近几年来,随着互联网技术的迅猛发展,网络信息也几乎以几何数级的增长速度不断地充斥着网络有限的空间,面对如此浩繁、杂乱无序的信息,如何保障网络用户获取信息的准确性、及时性成为了现在搜索引擎行业需要注意的问题。搜索引擎的灵魂在于它包含各个组件中所运用的算法和模型。好的算法和模型可以直接影响用户使用满意度。
因此,搜索引擎中所运用到的模型、算法成为了与计算机领域相关的行业里研究以及开发的重点。不仅如此,搜索引擎未来的发展都是围绕用户为中心,用户的使用建议是促进搜索引擎改变的最直接原因。本文从理论层面以及应用层面对搜索引擎中涉及的部分算法和模型进行阐述,并且围绕用户满意度为中心研究对搜索引擎具有积极促进作用的应用类因素。
1 三大主流搜索引擎
1.1 Google 搜索引擎
1.1.1 Google 的功能
(1)网页快照。Google 是网页快照功能的先驱者。网页快照的原理是在进行网页遍历的时候,会将遍历到的网页进行搜集并且形成一个索引快照,将这些索引存储在Google服务器中,以防止网页中部分被删除后,用户想访问这些网页却找不到资源,使得用户能够迅速读取历史网页。网页快照和备份的原理相似,不同之处在于网页快照所需要的存储空间更少,在查询的时候读取速度更快。
(2)Google半智能化的翻译功能。Google的网页翻译功能在一定程度上突破了以往纯粹式的机器翻译功能。这种半智能化的翻译功能不仅考虑了翻译模型并且会根据不同的句型采取不同的语言模型。
目前,在学术界比较流行的语言模型是N元语法模型,虽然简单,但这样简单、操作性强的模型,却为搜索引擎的翻译带来了曙光。现在对于语言模型的研究还依然处于初级发展阶段,不过对翻译模型的研究却在如火如荼地进行中。
1.1.2 Google 核心技术
Google之所以成为搜索引擎行业内的领头人物,不仅仅是因为 Google 专注技术的发展,更是因为 Google 注重与时俱进,善于使用差异化来保持自己的行业地位。下面是 Google 采取的两种基本核心技术:
(1)关于 Page Rank 网页排名算法。超链接分析其实是一种引用投票机制,也就是说如果一个网页被另外一个网页链接一次就相当于另一网页对其投了一票,其重要性被肯定了一次。人们在浏览网页的时候,链接提供了强大的导航系统,同时也帮助搜索引擎理解网页之间的关系,这种关系帮助搜索引擎更有效地对网页进行排序。
(2)关于超文本匹配分析技术。Google搜索引擎在计算网页排名的同时,Google运用的技术不是单纯地将网页文本扫描一次,会根据内容重要度对关键词的字体、字号、位置等因素进行考虑。
1.2 百度搜索引擎
1.2.1 百度成功的关键因素
(1)百度在地理位置上具有优势
因为百度在很大程度上符合中国人的搜索习惯以及思维习惯,再加上自己到位的宣传方式,百度从此在中国搜索引擎行业中声名鹊起。
(2)百度关注细节
一是自动纠错:当用户在输入拼音时,百度搜索引擎会将该拼音转换成中文关键词。
二是自动提醒功能:
当百度搜索引擎在一个导航网页中出现,如百度搜索出现在360导航网页,在使用时,搜索框自动显示出当前热点检索话题列表,如图1 所示。
1.2.2 百度现在所面临的挑战
百度文库的出现在一定程度上满足了广大网民的搜索需求,但是在另一方面却引起了一部分文章作者的不满。在 2011年3月15日的时候,韩寒、郭敬明、方舟子等被现在年轻人所熟知的作家联合署名发布了《三一五中国作家讨百度书》,这一创举也成了中国文学界一次维护自身利益的重要行动。
虽然百度在这次事件中受到了很大的负面影响,不过这也给百度一个启示:数字化一定是出版产业今后的总体趋势,但并非所有的出版社转型数字出版都要闯同一条道路,不同的数字出版模式适合于不同的企业背景,出版社进军数字出版,应该根据自己的资源、优势,选择最切合自己实际的模式,这样才可能尽快取得成效。