网络爬虫作为搜索引擎技术的核心技术,是按一定遍历策略,以网页之间的链接为路径,抓取网页必要信息,并将其下载到本地存储设备上,以便进行信息预处理的程序或脚本。随着互联网的普及与搜索引擎技术的不断发展,网络爬虫技术作为搜索引擎的核心技术,已被越来越多的企业重视。面向网络爬虫的企业网站,优化策略研究成为企业网站优化推广众多手段中最节约成本且效果最好的方法。
一、面向网络爬虫的企业网站优化策略
(一)网站导航
结构清晰的网站导航为网络爬虫层层深入访问网站提供了很大便利,是网络爬虫比较重视的内容之一。可从以下几方面对网站导航进行优化设置,以便网络爬虫更好地抓取收录网站。
1. 用文字链接设置导航
基于目前的技术水平,网络爬虫能够识别的内容大多是文字内容,而无法识别 flash 和 JS 等,因此,用文字链接设置导航对网络爬虫来说比较合适。
2. 导航关键词的设置
导航关键词一般选用目标关键词的长尾词,避免和首页目标关键词冲突。导航上的锚文字也可看做是一些很有价值的关键词,可按照从左至右,重要性依次降低的方法进行设置。此外,尽量避免使用一些没有实际作用的栏目。
3. 网站地图的设置
网站地图也可看做是一种良好的网站导航,其作用不可小觑。无论是 html 还是 xml,现在的主流搜索引擎都支持。良好的网站地图导航可在一定程度上弥补网络爬虫无法识别图片和动态网页造成页面不可见的情况,当站点栏目或内容过多时,可借助网站地图导航方便用户访问。同时,这样也更有利于网络爬虫的爬行和抓取。
以文安县丽祥彩钢防盗门厂网站为例,本站导航如图 1 所示,共有二级,层次较浅,并且采用文本链接,这种树状结构不管是从深度优先还是广度优先的算法,都大大降低网络爬虫的工作难度,有利于网络爬虫在短时间内更快、更准确地对网站内容进行抓取和收录。
(二)关键词
关键词是搜索引擎优化的核心,是网络爬虫用来判断网站主题及核心内容的重要指标。关键词的研究和选择是搜索引擎优化至关重要的一步。
首先,在选择关键词时应该站在用户搜索的角度,选择与企业网站方向和产品相关且比较具体的、具有针对性的词语。其次,为避免同行之间的激烈竞争,尽量不要选择热门关键词,在实际操作过程中可通过查询百度指数观察关键词的搜索量,以及某个关键词的百度索引结果的量。再次,还可参考同类型网站,分析研究其关键词的选择和设定,并结合自身网站方向或产品特点,合理设置自己网站的关键词。最后,合理设置关键词的长度和个数,合理添加关键词 alt 属性,提升关键词密度,增加网站权重,便于网络爬虫检索。例如,文安县丽祥彩钢防盗门厂网站中,其关键词为:彩钢房防盗门,快装房防盗门,雅致房防盗门,彩钢房专用门,文安县丽祥彩钢防盗门厂。
(三)网站内容
网站的发展靠内容,网站内容也是网络爬虫比较重视的。网络爬虫在爬行和抓取文件时会进行一定的复制内容检测,遇到权重低的网站上大量的转载或抄袭内容时,很可能不再继续爬行。因此,网站内容最好是原创,且具有丰富内容,这样的网页被爬行的深度较高,被收录的内页也较多。当然,在保持文章意思不变的前提下,通过对文章标题及内容进行修改,达到伪原创的目的也是很多SEO 人员常用的手法之一。在实际操作中,可根据自己的情况进行适当的伪原创。
(四)Alt 属性
由于图片或 flash 能带来良好的视觉效果,很多企业在进行网站设计时,往往倾向于通过图片或者 Flash 等形式展示企业形象。但由于网络爬虫往往只能识别网页中的文本信息而无法识别图片或Flash 信息,因此,用户无法通过网络爬虫发现含有图片或 Flash 信息内容的网站,alt 属性为解决这一问题提供了方法。由于 alt 属性是用来对网页上的图片进行描述的,是网络爬虫唯一能识别的图片信息,因此,可在所有图片的 Alt 属性中都添加文字描述,并将该页面的关键词放在其中,如:<imgsrc=“/uploads/allimg/141217/1-14121H320193P.jpg”?alt=“ 活动房专用防盗门 ”/>.
(五)合理的链接
链接是网络爬虫爬行的路径,因此,在网站建设期间,要保证在任何一个页面上一级栏目可互通,一级栏目下的二级栏目也可互通,站内文章最好带上一篇和下一篇,或是相关、类似文章,确保网站内的页面互相通达,避免死链,确保网络爬虫能够通过站内链接,顺利爬行网站。链接分析是搜索引擎排名算法中很重要的部分,一个网站如果能获得大量其他网站给出的、能被网络爬虫识别的大量高质量的链接,搜索引擎就认为该网站是受欢迎的,这样的网站一般都会在搜索结果中获得较好的排名。
因此,寻找和自己网站内容相关的、权重或 pr 值高的网站进行链接,对提升自己网站在搜索引擎中的排名有一定作用。此外,由于一些大型论坛、门户网站空间博客更新速度快,网络爬虫的爬虫比较频繁,在这些站上留链接,也有利于网络爬虫迅速抓取并收录。
(六)页面更新频率
网页更新频繁会使网络爬虫更加频繁地进行访问,页面上出现的新链接,也会被网络爬虫更快地抓取。因此,很多企业网站都会有行业动态、新闻动态这一板块。除用于发布相关消息外,其最主要的目的是时常保持更新,吸引网络爬虫来访。
二、企业网站搜索引擎优化效果分析
网站主要通过关键词密度检测、关键词排名、SEO 综合信息查询等方面对搜索引擎优化效果进行检测,通过优化前后数据对比,可见文安县丽祥彩钢防盗门厂网站取得显着效果。关键词密度主要用来测量关键词在网页上出现的总次数与其他文字的比例,一般用百分比表示。关键词密度越大,说明其出现频率越高。通过 SEO 综合查询得知,经过近一个月的优化,“彩钢房防盗门”的关键词百度排名由优化前的第八位上升到第七位,站内链接由优化前的 85 上升到 88,最近一周收录优化前为49,优化后为 69( 如图 2)。
三、结语
基于网络爬虫的检索原理,并以文安县丽祥彩钢防盗门厂网站优化为例,通过对该企业网站的网站导航、关键词、网站内容、robots 协议、ALT 属性、更新频率、网站链接等关键要素的分析及优化设计,具体介绍并分析企业网站面向网络爬虫的优化策略,并通过 SEO 综合信息检测关键词密度、链接数、收录情况等,通过搜索引擎效果检测得知,该网站在进行优化后,取得了一定效果。
参考文献
[1]赵茉莉 . 网络爬虫系统的研究与实现[D]. 成都:电子科技大学,2013.
[2]张磊,钟联炯 .SEO 技术研究与应用[J]. 电脑开发与应用,2010,(3):22-23.
[3]邝楚文 . 基于关键词策略的搜索引擎优化[J]. 硅谷,2012,(6):1.
[4]王春艳,王雷。SEO策略研究[J].科技创新导报,2012,(2):49-50.
[5]徐晓力 .SEO 及其策略研究[J]. 电脑知识与技术,2010,(9):24-25.