首页 > 行业资讯 > 正文

网站抓取测试:提高抓取效率的技巧

网站抓取测试:提高抓取效率的技巧

一、通过网站robots文件设置,查看源代码是不是合理,站长在robots文件中设置禁止抓取的文件,设置规则,通常是文件不能超过50K字节。

二、链接是不是有效,不要设置错误,为了提高抓取效率,可设置页面访问URL,对于网站链接的设置不要过多,链接文字也需要设置正确。

三、网站的404页面和301重定向,可以正确的指导蜘蛛的抓取,如果网站没有404,就不要设置,另外需要提交给百度。

四、恰当的增加robots.txt文件,将重要的文件屏蔽掉,让蜘蛛认为网站的结构是合理的,可以更快的爬取。

五、合理利用robots.txt来屏蔽搜索引擎,一般网站地图分为xml和html两种格式,主要目的是方便蜘蛛抓取,但是你没有robots.txt,那么蜘蛛是无法抓取的。

六、我们建议站长在网站页面head部分,增加一个nofollow的标签,把重要的页面nofollow掉。

七、如果你网站的url已经设置好了,那就在你的网站head标签和robots文件中,设置好参数,禁止蜘蛛抓取。

八、尽可能避免把同一个网站的栏目和文章放在同一个网站,这会导致网站重复页面过多,网站优化效果不佳,就会直接影响到蜘蛛对网站的抓取效率,降低网站的权重。

九、我们都知道robots文件是在网站后台打开的,如果不及时打开网站,可能是错误的,也有可能是写在路径里面,蜘蛛抓取网站内容,是从这一个网站中获取信息。

十、robots文件是不允许抓取的,所以需要在后台使用robots文件禁止蜘蛛抓取。

十一、对于网站页面里的广告、联系方式、QQ、电话这些不用的,我们建议站长删除或屏蔽,这可降低蜘蛛的抓取频率。

十二、如果网站有比较多的文章,需要在文章底部加一个导航,让蜘蛛可以知道这一个页面的层次在哪。

十三、很多站长会在网站后台使用自动生成html的功能,在文章页面添加上nofollow的标签,这种做法是搜索引擎最不喜欢的,搜索引擎不认识js代码,但是可以识别这一个标签,所以这种做法的蜘蛛喜欢。

十四、网站的首页尽可能不要出现任何链接,很多站长为了提高首页权重,大量的在首页加入了很多的flash或JS,这种做法会让搜索引擎把首页权重分散,导致首页权重被其他页面所占,这样会导致首页权重被其他页面所占。

以上所转载内容均来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2020@163.com,本人将予以删除。

猜你喜欢
文章评论已关闭!
picture loss