随着互联网的快速发展,人们已经离不开从互联网上获取信息。但是这些信息浩如烟海,同事又夹杂着大量的有害信息。搜索引擎技术就是完美利用这些资源的有效手段。搜索引擎可以说是一个网站,这些网站通过网络搜索软件( 也称网络搜索机器人) 或网站登录等方式,将互联网上大量网站收集到本地,经过一定的处理后放入自己的资料库。用户对其进行各种查询,搜索引擎给出响应,提供用户所需的信息。有调查显示,搜索是继电子邮件之后的第二大互联网应用。 因此,建立搜索引擎综合评价体系,完整、客观地对搜索引擎进行综合评价,具有较大的社会意义和研究前景。而针对这个问题目前已经有很多学者做出一些卓有成效的研究,统计了大量数据,运用了大量分析研究方法,信息技术的逐渐发展,客观有效地评价搜索引擎,得出有意义排名,并且设计个性化搜索引擎,对于提高工作效率,实现时间价值最大化,具有重要意义。
为了确定搜索引擎的性能,我们要根据搜索引擎和用户之间的相互关系,以第三方身份确定评价搜索引擎性能优劣的关键因素,通过建立权重子模型,确定每个环节的权重大小。再进一步实际试验,统计数据,采用多目标决策法,统计搜索引擎的最终得分,进行排名。
1 模型假设
1)假设所参与评价的搜索引擎性能稳定,服务器无故障,且短时间内不会升级,状态保持。
2)假设模型衡量的因素就是参与评价的关键因素,其 他变量设为无关变量,它们的变化不影响评价最后评价结果的准确度。
3)假设网络速度的状况的变化与不影响结果。
4)假设参与评价的因素之间相互独立。
2 符号说明
Mij:第i个搜索引擎在第j项的得分;éx ù:大于等于x的最小整数;Mij:第i个搜索引擎在第j项的平均得分;Wj:第j项的权重;
2 模型建立与求解
2.1 对现有的搜索引擎进行分析
在对互联网搜索引擎的优劣进行评价时,所建立的数学模型中涉及许多决策变量。这些变量有繁多、结构复杂、不确定性等特点。为了解决这一问题,我们有必要对描述目标的相对重要度做出正确的估价。而各因素的重要程度是不一样的,为了反映因素的重要程度,需要对各因素相对重要性进行估测(即权数),由各因素权数组成的集合就是权重集。权重是指标本身的物理属性的客观反映,是主客观综合量度的结果。
系统工程理论中的层次分析法(Analytic Hierarchy Process,简称AHP)是一种较好的权重确定方法。它是把复杂问题中的各因素划分成相关联的有序层次,使之条理化的多目标、多准则的决策方法,是一种定量分析与定性分析相结合的有效方法。而本模型将使用层次分析法对问题的决策变量确定其权重。给出问题的层次结构模型:
搜索引擎b;准确性b1、安全性b2、完整性b3;非歧义b11、去重复b12、优先度b13、无毒b21、社会影响b22、内容原创b31、更新频率b32.
下面阐述AHP确定权重的基本过程。
1)分层。首先将搜索引擎的评价方式分层,第一层包括3个因素,即U ={b1,b2,b3};第二层包括7个因素,即b1 = {b11,b12,b13},b2 = {b21,b22},b3 = {b31,b32}.各层因素的实际意义和关系如上述所示。定义第一层次权重集 A =(a1,a2,a3),第二层次权重集A1 =(a11,a12,a13);A2 =(a21,a22);A3 =(a31,a32)
2)确定各层次判断矩阵P.构造第一层次的判断矩阵P,如表1所示。构造第二层次的判断矩阵,如表2、表3、表4所示。(注:表格)
表1:T b1 b2 b3;b1 1 0.5 0.33;b2 2 1 0.5;b3 3 2 1;
5)计算第二层次的权重集。按照上述方法,可以计算出第二层次权重集:
A1 =(0.3255,0.6044,0.0701),A2 =(0.6135,0.3865),A3=(0.7159,0.2841)
6)确定各项权重。由以上数据可得权重分布图:搜索引擎b;准确性(0.1634)、安全性(0.2970)、完整性(0.5396);非歧义(0.0532)、去重复(0.0988)、优先度(0.0115)、无毒(0.1822)、社会影响(0.1148)、内容原创(0.3863)、更新频率(0.1533)。
7)得到各决策变量的权重分布后,建立数学模型来分析一个搜索引擎的优劣。将各个搜索引擎的检验结果进行计分。
由表1得,检测项目有7项,分别对百度、搜狗、谷歌、爱问、雅虎、搜搜等6个搜索引擎进行检测。记Mij表示第i个搜索引擎在第j项的得分。现对分数的得出建模,令每项分数最高分为10分。为非歧义、去重复、优先度、无病毒、社会影响、内容原创、更新频率(记为n1~7)给定得分函数,如表1.
8)从政治、财经、科技、教育、娱乐等5个方面选取50个关键词在6个搜索引擎上进行搜索,统计出50次搜索的平均得分。得出各个搜索引擎的各项平均分Mij(Mij表示第i个搜索引擎在第j项的平均得分),分别乘以权重W(jWj表示第j项的权重),得出最后得分,排序,得出搜索引擎的优劣。这里只给出最终得分。
百度 搜狗 谷歌 爱问 雅虎 搜搜;n1 10/e 10/e 10 10 10/e^310/e;n2 10 10 10 10 8 10;n3 9 10 9 5 3 10;n4 10 10 10 10 1010 ;n5 7 10 8 6 5 10;n6 8 9 7 8 5 9;n7 10/e^3 10/e 10 10/e^2 10/e^5 10/e;总分 47.1767 56.3576 64 50.3534 31.5624 56.3576.
根据以上分数可求出前五名的搜索引擎排序为:谷歌、搜狗、搜搜、爱问、百度。
4 结束语
本文使用层次分析法比较全面的研究了关于搜索引擎的评价问题,利用多目标决策理论建立搜索引擎性能的综合评价数学模型,得出最终评分。但各大搜索引擎都在迅速发展,各自的搜索引擎的性能也在进一步提升,这些都会影响到本文所确定的评价指标的适用性。并且层次分析法存在其天然的缺点,比如其定量数据较少,定性成分多。所以,如何建立一个合理的评价模型仍需进一步研究。
参考文献:
[1] 刘正春。 搜索引擎综合评价模型研究[J]. 数学的实践与认识, 2004,34(9)。
[2] 徐俊, 刘娜。 层次分析法的基本思想与实际应用[J]. 情报探索, 2008(12)。
[3] 郭金玉, 张忠彬, 孙庆云。 层次分析法在安全科学研究中的应用[J]. 中国安全生产科学技术, 2008(2)。