百度spider对常用的http返回码的处理逻辑 不指定

郝聪 , 2011/08/17 02:49 , 搜索引擎研究 , 评论(25) , 阅读(21264) , Via 本站原创 | |


更多



百度爬虫在进行抓取和处理时,是根据http协议规范来设置相应的逻辑的,因此,如果网站/页面发生一些特别状况或者网站某类页面集存在特殊性的时候,我们必须知道如何处理才能更符合百度爬虫,以避免错误的举措给网站SEO带来不必要的风险。百度站长俱乐部管理员Lee的在http状态码使用方面做了说明,主要涉及到常见的301、404、403、503状态码的处理建议,非常实用,结合这些知识以及以往遇到的实际情况我会做一点补充应用说明。

百度spider对常用的http返回码的处理逻辑:

1、404
    404返回码的含义是“NOT FOUND”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内spider再次发现这条url也不会抓取。

2、503
     503返回码的含义是“Service  Unavailable”,百度会认为该网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503,百度spider不会把这 条url直接删除,短期内会再访问。届时如果网页已恢复,则正常抓取;如果继续返回503,短期内还会反复访问几次。但是如果网页长期返回503,那么这 个url仍会被百度认为是失效链接,从搜索结果中删除。

3、403
     403返回码的含义是“Forbidden”,百度会认为网页当前禁止访问。对于这种情况,如果是新发现的url,百度spider暂不会抓取,短期内会 再次检查;如果是百度已收录url,当前也不会直接删除,短期内同样会再访问。届时如果网页允许访问,则正常抓取;如果仍不允许访问,短期内还会反复访问 几次。但是如果网页长期返回403,百度也会认为是失效链接,从搜索结果中删除。  

4、301
     301返回码的含义是“Moved  Permanently”,百度会认为网页当前跳转至新url。当遇到站点迁移,域名更换、站点改版的情况时,推荐使用301返回码,尽量减少改版带来的 流量损失。虽然百度spider现在对301跳转的响应周期较长,但我们还是推荐大家这么做。

百度对于某些常见情况的使用建议:

1、如果站点临时关闭,当网页不能打开时,不要立即返回404,建议使用503状态。503可以告知百度spider该页面临时不可访问,请过段时间再重试。

2、如果百度spider对您的站点抓取压力过大,请尽量不要使用404,同样建议返回503。这样百度spider会过段时间再来尝试抓取这个链接,如果那个时间站点空闲,那它就会被成功抓取了。

3、有一些网站希望百度只收录部分内容,例如审核后的内容,累积一段时间的新用户页等等。在这种情况,建议新发内容暂时返回403,等审核或做好处理之后,再返回正常状态的返回码。

4、站点迁移,或域名更换时,请使用301返回码。

案例:

我曾经为一家电子商务网站提供SEO顾问服务,网站每日新增商品由商家发布,商品发布后便成为一个有效的商品,并会出现到网站平台的商品检索结果以及商品列表中, 同时,平台运营方需要对商品进行审核,对于没有审核通过的商品则进行删除操作;于是,会出现一些情况:新增商品页面被百度爬虫抓取,但随之该页面被删除。

由于网站在百度的权重比较高,几乎每日新增商品页都会很快收录,因此,在这批新收录的商品页面中有一定比例的页面很快不存在了,即:一批刚被收录的页面又向百度Spider返回了404状态码,简单以蔽之,“让百度收了再让百度删”,我觉得百度可能会“很生气,后果很严重”。

为解决这个问题,我之前采取了如下方法:

既然将商家发布的商品包含两种状态:已审核和未审核,那么就为商品页面设计2种URL规则,如果商品未审核,则使用第1套URL规则,同时,利用robots协议限制百度Spider爬虫抓取这些页面;如果商品已审核,那么就与已有商品一样,使用第2套URL规则。这样就可以确保百度Spider抓取到的商品页面都是有效页面,不会由于商品审核不通过而单日内出现大量404页面。

是否可以利用403状态码来解决该问题?思路如下:

判断商品是否通过平台运营方审核,是的话,页面就返回200,否的话,就返回403;对于正常的商品页面,可以确保百度Spider正常抓取;对于新增商品,百度新发现的URL是返回403的,当再次回访这些页面时,由于商品已经审核通过,返回的状态码由403变成了200,则百度仍可抓取到;方法仍然有待实验,毕竟之间存在一个时间差以及百度对于返回403的页面是否存在收录效果不佳的风险。

对于301状态码,在以往的SEO交流中,大家一致认为百度对301并不感冒,而且反应速度超级慢,Lee在帖子中也证实了这一点,但无论怎样,301仍然是其推崇的一种规范的处理方式,宗旨,做网站优化,良好的规范是必要的。

相关日志
PHP判断来路是手机端还是PC端,并根据终端配置不同301跳转页面
DeDeCMS默认首页及WWW域的301跳转
【301跳转】如何实现两个域名内页之间的301跳转
几个主流搜索引擎的404页面
404错误的处理方式及对SEO的影响(更新)
301永久重定向实现方式及302重定向(再次更新)
通过HTTP状态代码查看搜索引擎蜘蛛如何爬行你的网站
广州婚纱摄影 Email
2012/10/26 17:06
第一次到访博主你的博客,文章写的很不错。
广州婚纱摄影
2012/09/07 11:34
博主广收门徒吧 太崇拜你了
广凌电子 Email
2012/01/05 15:30
http返回码很少用,很多都搞不懂,能说得详细一点吗?
van-vincent Email
2011/12/27 16:41
很好,给力,值得学习学习
清河吧
2011/12/23 11:15
分析的很透彻,谢谢楼主的分享
数码彩印 Email
2011/12/20 14:09
好久没看到你的博客更新了
北京网站优化 Email
2011/12/10 14:13
嗯,来好好学习下
北京婚纱摄影 Email
2011/12/10 14:12
挺不错,支持下
北医三院挂号 Email
2011/11/16 13:53
感谢分享
宁波礼品公司 Email
2011/10/24 10:51
成败在于细节,坚持是关键
快播影院 Email
2011/09/29 21:44
分析的很透彻。。学习了
碎碎冰SEO Email
2011/09/28 09:45
学习了。自己的博客才开始几天,现在还没被百度收录  ~~~~(>_<)~~~~ ,谢谢博主分享~~
毕江飞 Email
2011/09/17 14:23
一直想搞清楚301是怎么回事情
淘宝减肥产品排行榜 Email
2011/08/28 21:58
不错。觉得楼主很牛逼啊
沈阳seo Email
2011/08/20 01:49
沈阳seo畅畅老师来这里留个链接了
奶粉热卖排行榜10强 Email
2011/08/19 09:37
写的很棒啊,,,高手[emot]grin[/emot]
北京SEO Email
2011/08/18 22:49
这种百度官方的知识和问答,一般在哪里可以找到。
美女 Email
2011/08/18 15:19
到处都是高手,学习学习!
小军 Email
2011/08/18 13:39
学习了。
www.woaiy.com Email
2011/08/18 08:30
拜读了,学习中
分页: 1/2 第一页 1 2 下页 最后页
发表评论

昵称

网址

电邮

打开HTML 打开UBB 打开表情 隐藏 记住我 [登入] [注册]