第 5 章 实证研究
在选取变量,构建模型,提出假设的基础上,进行本文的实证研究。首先是收集数据,并采用 SPSS16.0 软件对收集的数据进行分析,主要包括描述性统计分析、因子分析、相关分析,最后运用 SPSS16.0 统计软件软件对数据进行回归分析,对本文提出的假设进行检验。
5.1 数据收集。
5.1.1 确定搜索关键词。
为了搜索到合适的网站,获取较为有效的数据,首先要确定搜索关键词。该搜索关键词在百度搜索中要有代表性,还能较为全面的反映企业搜索引擎优化的效果。搜索关键词确定的主要依据有以下几方面:
(1)为数据统计的精确和方便,该搜索关键词作为标题、长尾关键词、Meta描述中的核心关键词,是独立的词,不能再分词。如果关键词还可以分词,容易产生异议,因为我们不能确切知道每个网站要优化的重点关键词,仅以该搜索关键词来作为研究的核心关键词。研究用户按该关键词进行搜索时,百度搜索引擎自然排名靠前的网站具体的搜索引擎方法是怎样的,以及会带来什么优化效果。
(2)该关键词应能反映企业搜索引擎优化的效果。大型品牌企业本身有知名度,网站即使不做过多优化,也能在搜索引擎搜索结果中取得好排名。因此,研究排名靠前的中小企业的搜索引擎优化更有意义。
(3)该关键词在搜索引擎中的搜索量很大,搜索结果页面多。据中国互联网络信息中心(CNNIC)发布的《2014 年中国网民搜索行为研究报告》显示,目前用户搜索引擎使用场景偏休闲和娱乐。当用户在查找或下载电影、音乐、小说、游戏等娱乐资源时,进行搜索的比例达到 79.7%,利用搜索引擎查找购物信息的用户占 70.9%,仅次之查找下载娱乐资源的使用率。因此,该关键词涉及的范围主要是娱乐和购物信息,考虑到娱乐的实时性,排名在不同时间会有很大的区别,于是将关键词锁定在购物方面。
(4)百度搜索风云榜中与购物相关的栏目有:生活类、汽车、科技、家电等。其中只有生活类中的"旅游"、"团购"、"奢侈品"、"美食"、"化妆品"五个榜单,是按照用户在百度搜索输入框中对关键词的检索次数,按搜索量排名获得的搜索指数,构建了相应的榜单。
综合以上分析,确定"化妆品"为搜索关键词。该关键词涉及的产品没有严格地域性,搜索用户群广泛。"化妆品"没有分词,在百度搜索引擎中搜索量很大,能较为充分的反映用户的搜索行为。按该关键词进行百度搜索,搜索结果出现的企业类型也有很大差异,因此能反映一定的搜索引擎优化效果,那么探究搜索引擎优化方法与效果就变得有意义。
5.1.2 企业界定。
本文主要是关于企业的搜索引擎优化方法与效果的实证研究,因为中小企业资金、品牌号召力、市场占有率都不如大企业,搜索引擎优化凭借费用低、高灵活性的优势对于中小企业来说是更合适的。通过搜索引擎优化,使网站在搜索引擎中的排名提高,让搜索引擎给企业带来用户,因此我们研究的重点是中小企业的搜索引擎优化。
在界定大中小企业的类别时,主要参考的是国家统计局制定的大中小微型企业的划分办法。按照行业类别,依据从业人员、营业收入、资产总额等指标来判定企业的类型 . 具体划分标准见附录一 , 数据来源于国家统 计局。因为本文主要研究的是中小企业的搜索引擎优化方法与优化效果的关系。在选取统计数据时候,查找到企业的从业人员、营业收入、资产总额等指标要按行业类别来判定企业的类型,不能记录大型网站的排名等内容。
目前对于企业类型的划分,仅仅是按行业类别来进行界定的,还没有具体到按某一品类来划分。因此本文在对企业进行界定时,主要参考的是国家统计局制定的大中小微型企业划分标准。如按照"化妆品"这一关键词进行百度搜索,在收集数据时,首先查找相关化妆品企业所从属的行业。然后整理归纳该企业的从业人员,营业收入等指标。最后按照这些企业所从属的行业类别和区分指标,来判定化妆品企业的企业类型。
5.1.3 数据收集过程。
确定好搜索关键词后,界定好企业,就要进行数据收集。本文是研究基于百度的搜索引擎优化方法研究,所以网站是从百度搜索引擎收集得到的,网站的相关数据是从 Web 服务器和权威的第三方网站收集得来的。收集数据选择的是 360安全浏览器,百度搜索引擎平台、站长工具-站长之家等第三方网站。
数据收集过程主要包括:百度搜索,记录网站网址;获取网站相关数据;数据筛选,获得最终实证分析的数据。
(1)百度搜索,记录有效网站地址。以"化妆品"为关键词进行百度搜索,选取搜索结果页面的前 60 页,记录搜索结果中获得自然排名的网站对应的相关网址。在这个过程中不记录百度推广网址和百度旗下的网址,如百度贴吧,百度文库,百度糯米等百度产品,最后得到 400 个网址。
(2)获取网站相关数据。搜索引擎优化方法和效果相关的数据,主要由站长工具-站长之家中的 SEO 综合查询获得,部分数据通过网速测试网站等补充查询。收集搜索引擎优化的相关数据,有以下几个注意事项:搜索结果显示的是网站的普通页面。对于导入链接、百度收录数、日均 IP访问量三个指标记录的是网站总体数据,长尾关键词、Title 中关键词的个数、Meta 描述中关键词的个数、内部链接、百度自然排名五个指标记录的是搜索结果百度快照页面的数据。关键词密度记录的是搜索关键词的个数与所在页面总文字数的比值,用百分比表示。
页面打开速度,指的是打开网站首页的速度,使用第三方测试网站,输入网站域名地址获得。该工具测试的是作者所使用的浏览器发起连接到搜索企业网站服务器发出响应的响应速度。对于 404 错误页面的数据获取方法是,分别打开搜索到的 400 个网站地址所对应的网页,在网址末端随意添加字符(如添加 000),再刷新重新打开,直到出现 404 错误页面为止,记录 404 错误页面的类型。如果出现的 404 错误页面是服务器默认的,则记为"0".如果是客制化的,有错误信息提示或能引导浏览者继续浏览的,则记为"1".
由于数据在不断变化,因此,本研究的数据均在 2015 年 9 月 29 日收集。
(3)数据筛选。对搜集到的 400 组数据进行筛选,删除重要变量缺失的网址,相同网站的不同网页,只保留第一次出现的网页的网址。同时,删除阿里巴巴、58 同城、赶集网、知名化妆品品牌、国家食品药品监督管理总局等网站网址,最后得到 115 组数据,对应的网址见附录二。这 115 组数据各项指标基本能反映企业搜索引擎优化的方法与效果,具有一定的代表性。
5.2 描述性统计分析。
收集整理完数据后,就要对数据进行实证分析。本文研究的是企业搜索引擎优化方法中的关键词密度、长尾关键词的个数、Title 中关键词的个数、Meta 描述中关键词的个数、搜索结果所对应页面的内部链接、网站导入链接、404 错误页面、网站首页打开速度八种方法,与搜索引擎优化效果百度收录数、百度自然排名所在的页数、日均 IP 访问量的关系,先对搜索引擎优化的八种方法进行描述性统计分析,主要做的是频数分析,判断原始数据的大致情况,描述数据的集中趋势和离散趋势。考虑到搜索引擎方法中内部链接、外部链接和搜索引擎效果中百度收录数、日均 IP 访问量数据比较大,为了降低异方差性[57],对这四个数据取自然对数,得到搜索引擎优化方法的描述性统计分析。
关键词密度的均值为 2.558%,标题和 Meta 标签中含有的长尾关键词约为 5 个,Title 中关键词的个数约为 1 个,Meta 描述中关键词的个数约为 2 个,搜索结果对应的百度快照页面大约有 187(e5.23)个内部链接,网站导入链接大约为 59(e4.07)个,404 错误页面的均值为 0.57,网站首页打开速度均值为 0.3036s.这些数据反映了 115 个网站搜索引擎优化方法基本的数值,为接下来的分析做准备。
5.3 因子分析。
(1)KMO 和 Bartlett 球形检验。
在进行因子分析前,先要判断变量是否适合做因子分析,主要通过 KMO 和Bartlett 球形检验来测量。本研究首先对搜索引擎优化的方法,关键词密度、长尾关键词、Title 中关键词的个数、Meta 描述中关键词的个数、内部链接、导入链接、404错误页面和页面打开速度八个变量进行KMO检验和Bartlett球形检验,来判断这八个变量是否适合做因子分析。
搜索引擎优化方法的八个变量的 Bartlett 球形检验卡方值为 280.599,相应的显着性概率 P 值为 0.000<0.05,因此可拒绝原假设相关系数矩阵为单位阵,各个变量相互独立。同时,KMO 值为 0.558>0.5,因此搜索引擎优化方法的八个变量可以进行因子分析,并进一步完成主成分分析。
(2)主成分分析。
进行因子分析最常用的是主成分分析法,主成分分析就是考虑各变量之间的相互关系,利用降维的方法将多个变量转化为少数几个互不相关的因子,得到公因子,从而使进一步研究变得简单。本文进行主成分分析的主要目的就是选取公因子,查看初始因子载荷矩阵。如果初始始载荷矩阵不能让变量在公共因子的贡献程度上产生比较明显的分级,再进行因子旋转,通过旋转因子载荷矩阵查看。
提取公因子主要通过特征值及累积方差贡献率来进行。
表中第一列有八个因子,一般选择特征值大于 1 的因子作为主因子,前四个因子满足条件,特征值分别为 2.491、1.452、1.196、1.013.且前四个因子累积解释 76.909%的方差,所以总体来看效度较好,能够准确测量各变量的含义。
通过 SPSS16.0 对数据进行主成分分析,提取公因子,并得到初始因子载荷矩阵。
影响第一个因子的四个主要变量是关键词密度、长尾关键词、Title 中关键词的个数和 Meta 描述中关键词的个数,它们的主成分因子载荷量分别为 0.565、0.914、0.729 和 0.850,这四个变量主要是关于关键词的描述。
因为标题和 Meta 标签都有一定的长度限制,过长就会被搜索引擎截取掉,所以企业要考虑在这些地方的靠前位置放置自己要重点突出的、符合用户需求的关键词,提高被用户查找到的概率。当用户输入关键词进行搜索时候,搜索引擎快速地查找与用户所输关键词相匹配的网页,并按照相应的排名算法进行先后排名,在搜索结果页面显示相应的结果列表,用户看到自己的搜索关键词,就会点击进去,浏览访问或者达成购买意向。放上长尾关键词的目的是,提高转化率。长尾关键词一般较长,最少是两个关键词的组合,使用该关键词的客户一般有比较明确的需求,因此营销目的是比较容易实现的。当然要控制关键词的数量,控制关键词的密度,不可堆砌关键词,优化过度,第一个因子较好地衡量了搜索引擎优化方法中的关键词数量这一指标。
影响第二个因子的变量是内部链接,这个变量的主成分因子载荷量为 0.850,它也就是对内部链接的描述。网站的内部链接由网站管理者自己部署,可控性大。
内部链接不仅会影响搜索引擎对网站的爬行索引效率,还会影响用户的体验度,因此企业网站一定要做好内部链接优化。部署优秀的内部链接越多,页面被点击的机会就越大,页面浏览量的增加越显而易见,如在网站内添加相关文章和热门文章,定期更新文章内容等的内部链接很容易提高用户的访问体验。网站每一个页面的内部链接数都有一定的限制,内部链接数过多可能会被搜索引擎忽略。基于此,第二个因子较好地衡量了搜索引擎优化方法中的内部链接数量这一指标。
影响第三个因子的变量是导入链接,这个变量的主成分因子载荷量为 0.696,它也就是对导入链接、反向链接的描述。导入链接是别的网站为自己的网站投票,会增加自己网站在搜索引擎中的权重,从而提高在搜索引擎中的自然排名。这一指标可以反映调查企业导入链接数量的情况,可以作为搜索引擎优化的一重要方法。
影响第四个因子的变量是 404 错误页面和页面打开速度,这两个变量的主成分因子载荷量分别为 0.705 和 0.565,它们主要是对页面设计的描述。404 错误页面是指返回给用户网页无法访问,或域名错误等信息的页面。客制化的 404 错误页面可以引导用户继续访问网站其他内容,而不是关闭网站离开。网站建设者应提高对页面设计的重视,设计客制化的 404 错误页面,提高网页打开速度等,第四个因子可以较好的反映网站页面设计的情况。
通过以上分析可以看出,未旋转的公共因子的实际意义已经得到了很好的解释,有较强的现实意义,因此不用再进行因子旋转。本文提取公因子的主要目的是为了检测搜索引擎方法的各维度是否有严重的交叉性,但通过主成分分析发现各维度大部分是比较合理的,只是为统计数据需要在划分变量时存在一定的偏差,这对于衡量搜索引擎优化效果的影响比较小,可以不予以考虑。因此,在接下来的实证分析过程中,仍然对搜索引擎优化方法的八个维度进行研究。
5.4 相关分析。
为了探讨影响搜索引擎优化效果的优化方法,有必要对搜索引擎优化方法变量与搜索引擎优化效果变量进行相关分析。相关分析是用来研究两个或多个变量之间是否存在相关关系,并对具体有相关关系的现象探讨其相关方向及相关程度的一种分析方法[58](马国庆,2002)。因为变量值的总体分布不明,本文采用spearman 系数对变量进行相关分析计算。
(1) 搜索引擎优化方法与百度收录数的相关分析。
关于搜索引擎优化方法中的关键词密度、长尾关键词、Title 中关键词的个数、Meta 描述中关键词的个数、内部链接、导入链接、404 错误页面、页面打开速度与百度收录数的相关分析结果。关键词密度、Meta 描述中关键词的个数与百度收录数在 0.05 的水平上显着正相关,Title 中关键词的个数、内部链接、导入链接、404错误页面与百度收录数在 0.01 的水平显着正相关。因此,关键词密度、Title 中关键词的个数、Meta 描述中关键词的个数、内部链接、导入链接、404 错误页面与百度收录数有一定相关性。
(2)搜索引擎优化方法与百度自然排名的相关分析。
关于搜索引擎优化方法中的关键词密度、长尾关键词、Title 中关键词的个数、Meta 描述中关键词的个数、内部链接、导入链接、404 错误页面、页面打开速度与百度自然排名的相关分析结果.
内部链接、404 错误页面、页面打开速度与百度自然排名在 0.05 的水平上显着负相关,导入链接与百度自然排名在 0.01 的水平显着负相关。因此,内部链接、导入链接、404 错误页面、页面打开速度与百度自然排名有相关关系,其中导入链接和 404 错误页面相关系数的绝对值较大。
(3)搜索引擎优化方法与日均 IP 访问量的相关分析。
关于搜索引擎优化方法中的关键词密度、长尾关键词、Title 中关键词的个数、Meta 描述中关键词的个数、内部链接、导入链接、404 错误页面、页面打开速度与日均 IP 访问量的相关分析结果。
Title 中关键词的个数、内部链接、导入链接与日均 IP访问量在 0.01 的水平显着正相关。因此,Title 中关键词的个数、内部链接、导入链接与日均 IP 访问量有相关关系。
相关分析只能简单判定变量之间是否具有相关关系,但无法区分自变量和因变量,同时变量间的相关分析没有排除其他因素对变量关系的影响,它只是提供给我们一个参考。本文虽然提出了搜索引擎优化的八个方法,但是它们带来的影响很模糊,通过相关分析可以初步判定搜索引擎优化方法与效果间有无关系。相关分析是回归分析的基础,假设的验证还需要回归分析来进一步判定。