百度spider对常用的http返回ç 的处ç†é€»è¾‘
百度爬虫在进行抓å–和处ç†æ—¶ï¼Œæ˜¯æ ¹æ®httpå议规范æ¥è®¾ç½®ç›¸åº”çš„é€»è¾‘çš„ï¼Œå› æ¤ï¼Œå¦‚果网站/页é¢å‘生一些特别状况或者网站æŸç±»é¡µé¢é›†å˜åœ¨ç‰¹æ®Šæ€§çš„时候,我们必须知é“如何处ç†æ‰èƒ½æ›´ç¬¦åˆç™¾åº¦çˆ¬è™«ï¼Œä»¥é¿å…错误的举措给网站SEO带æ¥ä¸å¿…è¦çš„风险。百度站长俱ä¹éƒ¨ç®¡ç†å‘˜Lee的在http状æ€ç 使用方é¢åšäº†è¯´æ˜Žï¼Œä¸»è¦æ¶‰åŠåˆ°å¸¸è§çš„301ã€404ã€403ã€503状æ€ç 的处ç†å»ºè®®ï¼Œéžå¸¸å®žç”¨ï¼Œç»“åˆè¿™äº›çŸ¥è¯†ä»¥åŠä»¥å¾€é‡åˆ°çš„实际情况我会åšä¸€ç‚¹è¡¥å……应用说明。
百度spider对常用的http返回ç 的处ç†é€»è¾‘:
1ã€404
404返回ç çš„å«ä¹‰æ˜¯“NOT FOUND”,百度会认为网页已ç»å¤±æ•ˆï¼Œé‚£ä¹ˆé€šå¸¸ä¼šä»Žæœç´¢ç»“æžœä¸åˆ 除,并且çŸæœŸå†…spiderå†æ¬¡å‘现这æ¡url也ä¸ä¼šæŠ“å–。
2ã€503
503返回ç çš„å«ä¹‰æ˜¯“Service Unavailable”,百度会认为该网页临时ä¸å¯è®¿é—®ï¼Œé€šå¸¸ç½‘站临时关é—,带宽有é™ç‰ä¼šäº§ç”Ÿè¿™ç§æƒ…况。对于网页返回503,百度spiderä¸ä¼šæŠŠè¿™ æ¡urlç›´æŽ¥åˆ é™¤ï¼ŒçŸæœŸå†…会å†è®¿é—®ã€‚届时如果网页已æ¢å¤ï¼Œåˆ™æ£å¸¸æŠ“å–;如果继ç»è¿”回503,çŸæœŸå†…还会åå¤è®¿é—®å‡ 次。但是如果网页长期返回503,那么这 个urlä»ä¼šè¢«ç™¾åº¦è®¤ä¸ºæ˜¯å¤±æ•ˆé“¾æŽ¥ï¼Œä»Žæœç´¢ç»“æžœä¸åˆ 除。
3ã€403
403返回ç çš„å«ä¹‰æ˜¯“Forbidden”,百度会认为网页当å‰ç¦æ¢è®¿é—®ã€‚对于这ç§æƒ…况,如果是新å‘现的url,百度spideræš‚ä¸ä¼šæŠ“å–,çŸæœŸå†…会 å†æ¬¡æ£€æŸ¥ï¼›å¦‚果是百度已收录url,当å‰ä¹Ÿä¸ä¼šç›´æŽ¥åˆ 除,çŸæœŸå†…åŒæ ·ä¼šå†è®¿é—®ã€‚届时如果网页å…许访问,则æ£å¸¸æŠ“å–;如果ä»ä¸å…许访问,çŸæœŸå†…还会åå¤è®¿é—® å‡ æ¬¡ã€‚ä½†æ˜¯å¦‚æžœç½‘é¡µé•¿æœŸè¿”å›ž403,百度也会认为是失效链接,从æœç´¢ç»“æžœä¸åˆ 除。
4ã€301
301返回ç çš„å«ä¹‰æ˜¯“Moved Permanently”,百度会认为网页当å‰è·³è½¬è‡³æ–°url。当é‡åˆ°ç«™ç‚¹è¿ç§»ï¼ŒåŸŸåæ›´æ¢ã€ç«™ç‚¹æ”¹ç‰ˆçš„情况时,推è使用301返回ç ,尽é‡å‡å°‘改版带æ¥çš„ æµé‡æŸå¤±ã€‚虽然百度spider现在对301跳转的å“应周期较长,但我们还是推è大家这么åšã€‚
百度对于æŸäº›å¸¸è§æƒ…况的使用建议:
1ã€å¦‚果站点临时关é—,当网页ä¸èƒ½æ‰“开时,ä¸è¦ç«‹å³è¿”回404,建议使用503状æ€ã€‚503å¯ä»¥å‘ŠçŸ¥ç™¾åº¦spider该页é¢ä¸´æ—¶ä¸å¯è®¿é—®ï¼Œè¯·è¿‡æ®µæ—¶é—´å†é‡è¯•ã€‚
2ã€å¦‚果百度spider对您的站点抓å–压力过大,请尽é‡ä¸è¦ä½¿ç”¨404,åŒæ ·å»ºè®®è¿”回503ã€‚è¿™æ ·ç™¾åº¦spider会过段时间å†æ¥å°è¯•æŠ“å–这个链接,如果那个时间站点空闲,那它就会被æˆåŠŸæŠ“å–了。
3ã€æœ‰ä¸€äº›ç½‘站希望百度åªæ”¶å½•éƒ¨åˆ†å†…å®¹ï¼Œä¾‹å¦‚å®¡æ ¸åŽçš„内容,累积一段时间的新用户页ç‰ç‰ã€‚在这ç§æƒ…况,建议新å‘内容暂时返回403,ç‰å®¡æ ¸æˆ–åšå¥½å¤„ç†ä¹‹åŽï¼Œå†è¿”回æ£å¸¸çŠ¶æ€çš„返回ç 。
4ã€ç«™ç‚¹è¿ç§»ï¼Œæˆ–域åæ›´æ¢æ—¶ï¼Œè¯·ä½¿ç”¨301返回ç 。
案例:
我曾ç»ä¸ºä¸€å®¶ç”µå商务网站æä¾›SEO顾问æœåŠ¡ï¼Œç½‘ç«™æ¯æ—¥æ–°å¢žå•†å“由商家å‘布,商å“å‘布åŽä¾¿æˆä¸ºä¸€ä¸ªæœ‰æ•ˆçš„商å“,并会出现到网站平å°çš„商å“检索结果以åŠå•†å“列表ä¸ï¼Œ åŒæ—¶ï¼Œå¹³å°è¿è¥æ–¹éœ€è¦å¯¹å•†å“è¿›è¡Œå®¡æ ¸ï¼Œå¯¹äºŽæ²¡æœ‰å®¡æ ¸é€šè¿‡çš„å•†å“åˆ™è¿›è¡Œåˆ é™¤æ“作;于是,会出现一些情况:新增商å“页é¢è¢«ç™¾åº¦çˆ¬è™«æŠ“å–,但éšä¹‹è¯¥é¡µé¢è¢«åˆ 除。
由于网站在百度的æƒé‡æ¯”è¾ƒé«˜ï¼Œå‡ ä¹Žæ¯æ—¥æ–°å¢žå•†å“é¡µéƒ½ä¼šå¾ˆå¿«æ”¶å½•ï¼Œå› æ¤ï¼Œåœ¨è¿™æ‰¹æ–°æ”¶å½•çš„商å“页é¢ä¸æœ‰ä¸€å®šæ¯”例的页é¢å¾ˆå¿«ä¸å˜åœ¨äº†ï¼Œå³ï¼šä¸€æ‰¹åˆšè¢«æ”¶å½•çš„页é¢åˆå‘百度Spider返回了404状æ€ç ,简å•ä»¥è”½ä¹‹ï¼Œ“让百度收了å†è®©ç™¾åº¦åˆ ”,我觉得百度å¯èƒ½ä¼š“很生气,åŽæžœå¾ˆä¸¥é‡”。
为解决这个问题,我之å‰é‡‡å–了如下方法:
既然将商家å‘布的商å“包å«ä¸¤ç§çŠ¶æ€ï¼šå·²å®¡æ ¸å’Œæœªå®¡æ ¸ï¼Œé‚£ä¹ˆå°±ä¸ºå•†å“页é¢è®¾è®¡2ç§URL规则,如果商å“æœªå®¡æ ¸ï¼Œåˆ™ä½¿ç”¨ç¬¬1套URL规则,åŒæ—¶ï¼Œåˆ©ç”¨robotsåè®®é™åˆ¶ç™¾åº¦Spider爬虫抓å–这些页é¢ï¼›å¦‚果商å“å·²å®¡æ ¸ï¼Œé‚£ä¹ˆå°±ä¸Žå·²æœ‰å•†å“ä¸€æ ·ï¼Œä½¿ç”¨ç¬¬2套URLè§„åˆ™ã€‚è¿™æ ·å°±å¯ä»¥ç¡®ä¿ç™¾åº¦Spider抓å–到的商å“页é¢éƒ½æ˜¯æœ‰æ•ˆé¡µé¢ï¼Œä¸ä¼šç”±äºŽå•†å“å®¡æ ¸ä¸é€šè¿‡è€Œå•æ—¥å†…出现大é‡404页é¢ã€‚
是å¦å¯ä»¥åˆ©ç”¨403状æ€ç æ¥è§£å†³è¯¥é—®é¢˜ï¼Ÿæ€è·¯å¦‚下:
判æ–商å“是å¦é€šè¿‡å¹³å°è¿è¥æ–¹å®¡æ ¸ï¼Œæ˜¯çš„è¯ï¼Œé¡µé¢å°±è¿”回200,å¦çš„è¯ï¼Œå°±è¿”回403;对于æ£å¸¸çš„商å“页é¢ï¼Œå¯ä»¥ç¡®ä¿ç™¾åº¦Spideræ£å¸¸æŠ“å–;对于新增商å“,百度新å‘现的URL是返回403的,当å†æ¬¡å›žè®¿è¿™äº›é¡µé¢æ—¶ï¼Œç”±äºŽå•†å“å·²ç»å®¡æ ¸é€šè¿‡ï¼Œè¿”回的状æ€ç ç”±403å˜æˆäº†200,则百度ä»å¯æŠ“å–到;方法ä»ç„¶æœ‰å¾…实验,毕竟之间å˜åœ¨ä¸€ä¸ªæ—¶é—´å·®ä»¥åŠç™¾åº¦å¯¹äºŽè¿”回403的页é¢æ˜¯å¦å˜åœ¨æ”¶å½•æ•ˆæžœä¸ä½³çš„风险。
对于301状æ€ç ,在以往的SEO交æµä¸ï¼Œå¤§å®¶ä¸€è‡´è®¤ä¸ºç™¾åº¦å¯¹301并ä¸æ„Ÿå†’,而且å应速度超级慢,Lee在帖åä¸ä¹Ÿè¯å®žäº†è¿™ä¸€ç‚¹ï¼Œä½†æ— è®ºæ€Žæ ·ï¼Œ301ä»ç„¶æ˜¯å…¶æŽ¨å´‡çš„一ç§è§„范的处ç†æ–¹å¼ï¼Œå®—旨,åšç½‘站优化,良好的规范是必è¦çš„。
PHP判æ–æ¥è·¯æ˜¯æ‰‹æœºç«¯è¿˜æ˜¯PCç«¯ï¼Œå¹¶æ ¹æ®ç»ˆç«¯é…ç½®ä¸åŒ301跳转页é¢
DeDeCMS默认首页åŠWWW域的301跳转
ã€301跳转】如何实现两个域å内页之间的301跳转
å‡ ä¸ªä¸»æµæœç´¢å¼•æ“Žçš„404页é¢
404错误的处ç†æ–¹å¼åŠå¯¹SEOçš„å½±å“(æ›´æ–°)
301永久é‡å®šå‘实现方å¼åŠ302é‡å®šå‘(å†æ¬¡æ›´æ–°)
通过HTTP状æ€ä»£ç 查看æœç´¢å¼•æ“Žèœ˜è››å¦‚ä½•çˆ¬è¡Œä½ çš„ç½‘ç«™