æœç´¢å¼•擎蜘蛛åŠç½‘ç«™robots.txt文件详解
我们知é“,æœç´¢å¼•擎都有自己的“æœç´¢æœºå™¨äººâ€ï¼ˆROBOTS),并通过这些ROBOTS在网络上沿ç€ç½‘页上的链接(一般是httpå’Œsrcé“¾æŽ¥ï¼‰ä¸æ–抓å–资料建立自己的数æ®åº“。
对于网站管ç†è€…和内容æä¾›è€…æ¥è¯´ï¼Œæœ‰æ—¶å€™ä¼šæœ‰ä¸€äº›ç«™ç‚¹å†…容,ä¸å¸Œæœ›è¢«ROBOTS抓å–而公开。为了解决这个问题,ROBOTSå¼€å‘界æä¾›äº†ä¸¤ä¸ªåŠžæ³•ï¼šä¸€ä¸ªæ˜¯robots.txt,å¦ä¸€ä¸ªæ˜¯TheRobotsMETAæ ‡ç¾ã€‚
注æ„:robots.txtå†™æ³•æ˜¯å¦æ£ç¡®å¯¹æœç´¢å¼•擎抓å–网站至关é‡è¦ï¼Œæˆ‘们尽釿Œ‰ç…§æ ‡å‡†çš„æ ¼å¼å†™è¯å¥ï¼Œå¦åˆ™å‡ºçŽ°çš„é”™è¯¯å¯èƒ½ä¼šå¯¼è‡´æœç´¢å¼•擎ä¸èƒ½æ£å¸¸çˆ¬è¡Œç«™ç‚¹ï¼›æˆ‘们å¯ä»¥é€šè¿‡google sitemapä¸çš„robots.txtæ£€æµ‹å·¥å…·æ¥æ£€æŸ¥ç½‘站上是å¦å˜åœ¨robots.txt文件以åŠè¯¥æ–‡ä»¶å†™æ³•æ˜¯å¦æ£ç¡®
一ã€robots.txt
1ã€ä»€ä¹ˆæ˜¯robots.txt?
robots.txt是一个纯文本文件,通过在这个文件ä¸å£°æ˜Žè¯¥ç½‘ç«™ä¸ä¸æƒ³è¢«robotsè®¿é—®çš„éƒ¨åˆ†ï¼Œè¿™æ ·ï¼Œè¯¥ç½‘ç«™çš„éƒ¨åˆ†æˆ–å…¨éƒ¨å†…å®¹å°±å¯ä»¥ä¸è¢«æœç´¢å¼•擎收录了,或者指定æœç´¢å¼•æ“Žåªæ”¶å½•指定的内容。
当一个æœç´¢æœºå™¨äººè®¿é—®ä¸€ä¸ªç«™ç‚¹æ—¶ï¼Œå®ƒä¼šé¦–å…ˆæ£€æŸ¥è¯¥ç«™ç‚¹æ ¹ç›®å½•ä¸‹æ˜¯å¦å˜åœ¨robots.txt,如果找到,æœç´¢æœºå™¨äººå°±ä¼šæŒ‰ç…§è¯¥æ–‡ä»¶ä¸çš„内容æ¥ç¡®å®šè®¿é—®çš„范围,如果该文件ä¸å˜åœ¨ï¼Œé‚£ä¹ˆæœç´¢æœºå™¨äººå°±æ²¿ç€é“¾æŽ¥æŠ“å–。
robots.txtå¿…é¡»æ”¾ç½®åœ¨ä¸€ä¸ªç«™ç‚¹çš„æ ¹ç›®å½•ä¸‹ï¼Œè€Œä¸”æ–‡ä»¶å必须全部å°å†™ã€‚
网站URL
相应的robots.txt的URL
http://www.w3.org/
http://www.w3.org/robots.txt
http://www.w3.org:80/
http://www.w3.org:80/robots.txt
2ã€robots.txtçš„è¯æ³•
"robots.txt"文件包å«ä¸€æ¡æˆ–更多的记录,这些记录通过空行分开(以CR,CR/NL,orNL作为结æŸç¬¦ï¼‰ï¼Œåœ¨è¯¥æ–‡ä»¶ä¸å¯ä»¥ä½¿ç”¨#进行注解,具体使用方法和UNIXä¸çš„æƒ¯ä¾‹ä¸€æ ·ã€‚该文件ä¸çš„记录通常以一行或多行User-agent开始,åŽé¢åŠ ä¸Šè‹¥å¹²Disallow行,详细情况如下:
User-agent:
该项的值用于æè¿°æœç´¢å¼•擎robotçš„åå—,在"robots.txt"文件ä¸ï¼Œå¦‚果有多æ¡User-agent记录说明有多个robot会å—到该å议的é™åˆ¶ï¼Œå¯¹è¯¥æ–‡ä»¶æ¥è¯´ï¼Œè‡³å°‘è¦æœ‰ä¸€æ¡User-agent记录。如果该项的值设为*,则该åè®®å¯¹ä»»ä½•æœºå™¨äººå‡æœ‰æ•ˆï¼Œåœ¨"robots.txt"文件ä¸ï¼Œ"User-agent:*"è¿™æ ·çš„è®°å½•åªèƒ½æœ‰ä¸€æ¡ã€‚关于æœç´¢å¼•擎robotsçš„åå—,请å‚è€ƒæ–‡ç« "æœç´¢å¼•擎蜘蛛程åºå称大全"
Disallow:
该项的值用于æè¿°ä¸å¸Œæœ›è¢«è®¿é—®åˆ°çš„一个URL,这个URLå¯ä»¥æ˜¯ä¸€æ¡å®Œæ•´çš„路径,也å¯ä»¥æ˜¯éƒ¨åˆ†çš„,任何以Disallow开头的URLå‡ä¸ä¼šè¢«robot访问到。例如"Disallow:/help"对/help.htmlå’Œ/help/index.html都ä¸å…许æœç´¢å¼•擎访问,而"Disallow:/help/"则å…许robot访问/help.html,而ä¸èƒ½è®¿é—®/help/index.html。
任何一æ¡Disallow记录为空,说明该网站的所有部分都å…许被访问,在"robots.txt"文件ä¸ï¼Œè‡³å°‘è¦æœ‰ä¸€æ¡Disallow记录。如果"robots.txt"是一个空文件,则对于所有的æœç´¢å¼•擎robot,该网站都是开放的。
䏋颿˜¯ä¸€äº›robots.txt基本的用法:
ç¦æ¢æ‰€æœ‰æœç´¢å¼•擎访问网站的任何部分:
User-agent: *
Disallow: /
å…许所有的robot访问
User-agent: *
Disallow:
或者也å¯ä»¥å»ºä¸€ä¸ªç©ºæ–‡ä»¶:robots.txt
ç¦æ¢æ‰€æœ‰æœç´¢å¼•æ“Žè®¿é—®ç½‘ç«™çš„å‡ ä¸ªéƒ¨åˆ†ï¼ˆä¸‹ä¾‹ä¸çš„cgi-binã€tmpã€private目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
ç¦æ¢æŸä¸ªæœç´¢å¼•擎的访问(下例ä¸çš„BadBot)
User-agent: BadBot
Disallow: /
åªå…许æŸä¸ªæœç´¢å¼•擎的访问(下例ä¸çš„WebCrawler)
User-agent: WebCrawler
Disallow:
3ã€å¸¸è§æœç´¢å¼•擎机器人Robotsåå—
åç§°æœç´¢å¼•擎 URL
Baiduspider http://www.baidu.com
Scooter http://www.altavista.com
ia_archiver http://www.alexa.com
Googlebot http://www.google.com
Inktomi Slurp http://www.yahoo.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com
MSNbot http://search.msn.com
4ã€robots.txt举例
䏋颿˜¯ä¸€äº›è‘—å站点的robots.txt:
http://www.google.com/robots.txt
http://www.ibm.com/robots.txt
http://www.sun.com/robots.txt
http://www.eachnet.com/robots.txt
看看百度的robots.txt:http://www.baidu.com/robots.txt
黑色梦ä¸SEOåšå®¢çš„robots.txt文件:http://www.bloghuman.com/robots.txt
5ã€å¸¸è§robots.txt错误
Â·é¢ å€’äº†é¡ºåºï¼š
错误写æˆ
User-agent: *
Disallow: GoogleBot
æ£ç¡®çš„应该是:
User-agent:GoogleBot
Disallow: /
Â·æŠŠå¤šä¸ªç¦æ¢å‘½ä»¤æ”¾åœ¨ä¸€è¡Œä¸ï¼š
例如,错误地写æˆ
Disallow:/css//cgi-bin//images/
æ£ç¡®çš„应该是
Disallow:/css/
Disallow:/cgi-bin/
Disallow:/images/
Â·è¡Œå‰æœ‰å¤§é‡ç©ºæ ¼
例如写æˆ
Disallow:/cgi-bin/
å°½ç®¡åœ¨æ ‡å‡†æ²¡æœ‰è°ˆåˆ°è¿™ä¸ªï¼Œä½†æ˜¯è¿™ç§æ–¹å¼å¾ˆå®¹æ˜“出问题。
·404é‡å®šå‘到å¦å¤–一个页é¢ï¼š
当Robot访问很多没有设置robots.txt文件的站点时,会被自动404é‡å®šå‘到å¦å¤–一个Html页é¢ã€‚这时Robot常常会以处ç†robots.txt文件的方å¼å¤„ç†è¿™ä¸ªHtml页颿–‡ä»¶ã€‚è™½ç„¶ä¸€èˆ¬è¿™æ ·æ²¡æœ‰ä»€ä¹ˆé—®é¢˜ï¼Œä½†æ˜¯æœ€å¥½èƒ½æ”¾ä¸€ä¸ªç©ºç™½çš„robots.txtæ–‡ä»¶åœ¨ç«™ç‚¹æ ¹ç›®å½•ä¸‹ã€‚
·采用大写
USER-AGENT:EXCITE
DISALLOW:
è™½ç„¶æ ‡å‡†æ˜¯æ²¡æœ‰å¤§å°å†™çš„,但是目录和文件å应该å°å†™ï¼Œï¼š
User-agent:GoogleBot
Disallow:
Â·è¯æ³•ä¸åªæœ‰Disallow,没有Allowï¼
错误的写法是:
User-agent: Baiduspider
Disallow: /john/
Allow: /jane/
·忘记了斜æ /
错误的写åšï¼š
User-agent: Baiduspider
Disallow: css
æ£ç¡®çš„应该是
User-agent: Baiduspider
Disallow: /css/
下é¢ä¸€ä¸ªå°å·¥å…·ä¸“门检查robots.txt文件的有效性:
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
二ã€Robots Metaæ ‡ç¾
1ã€ä»€ä¹ˆæ˜¯Robots Metaæ ‡ç¾
Robots.txtæ–‡ä»¶ä¸»è¦æ˜¯é™åˆ¶æ•´ä¸ªç«™ç‚¹æˆ–者目录的æœç´¢å¼•擎访问情况,而Robots Metaæ ‡ç¾åˆ™ä¸»è¦æ˜¯é’ˆå¯¹ä¸€ä¸ªä¸ªå…·ä½“的页é¢ã€‚和其他的METAæ ‡ç¾ï¼ˆå¦‚使用的è¯è¨€ã€é¡µé¢çš„æè¿°ã€å…³é”®è¯ç‰ï¼‰ä¸€æ ·ï¼ŒRobots Metaæ ‡ç¾ä¹Ÿæ˜¯æ”¾åœ¨é¡µé¢çš„ä¸ï¼Œä¸“门用æ¥å‘Šè¯‰æœç´¢å¼•擎ROBOTS如何抓å–该页的内容。
2ã€Robots Metaæ ‡ç¾çš„写法:
Robots Metaæ ‡ç¾ä¸æ²¡æœ‰å¤§å°å†™ä¹‹åˆ†ï¼Œname=â€Robotsâ€è¡¨ç¤ºæ‰€æœ‰çš„æœç´¢å¼•æ“Žï¼Œå¯ä»¥é’ˆå¯¹æŸä¸ªå…·ä½“æœç´¢å¼•擎写为name=â€BaiduSpiderâ€ã€‚content部分有四个指令选项:indexã€noindexã€followã€nofollow,指令间以“,â€åˆ†éš”。
index指令告诉æœç´¢æœºå™¨äººæŠ“å–该页é¢ï¼›
follow指令表示æœç´¢æœºå™¨äººå¯ä»¥æ²¿ç€è¯¥é¡µé¢ä¸Šçš„é“¾æŽ¥ç»§ç»æŠ“å–下去;
Robots Metaæ ‡ç¾çš„缺çœå€¼æ˜¯indexå’Œfollowï¼Œåªæœ‰inktomi除外,对于它,缺çœå€¼æ˜¯indexã€nofollow。
éœ€è¦æ³¨æ„的是:上述的robots.txtå’ŒRobots Metaæ ‡ç¾é™åˆ¶æœç´¢å¼•擎机器人(ROBOTS)抓å–ç«™ç‚¹å†…å®¹çš„åŠžæ³•åªæ˜¯ä¸€ç§è§„åˆ™ï¼Œéœ€è¦æœç´¢å¼•擎机器人的é…åˆæ‰è¡Œï¼Œå¹¶ä¸æ˜¯æ¯ä¸ªROBOTS都éµå®ˆçš„。
ç›®å‰çœ‹æ¥ï¼Œç»å¤§å¤šæ•°çš„æœç´¢å¼•æ“Žæœºå™¨äººéƒ½éµå®ˆrobots.txt的规则,而对于RobotsMETAæ ‡ç¾ï¼Œç›®å‰æ”¯æŒçš„å¹¶ä¸å¤šï¼Œä½†æ˜¯æ£åœ¨é€æ¸å¢žåŠ ï¼Œå¦‚è‘—åæœç´¢å¼•æ“ŽGOOGLE就完全支æŒï¼Œè€Œä¸”GOOGLEè¿˜å¢žåŠ äº†ä¸€ä¸ªæŒ‡ä»¤â€œarchiveâ€ï¼Œå¯ä»¥é™åˆ¶GOOGLE是å¦ä¿ç•™ç½‘页快照。例如:
表示抓å–该站点ä¸é¡µé¢å¹¶æ²¿ç€é¡µé¢ä¸é“¾æŽ¥æŠ“å–,但是ä¸åœ¨GOOLGE上ä¿ç•™è¯¥é¡µé¢çš„网页快照。
例å:
#robots,scram
最后编辑: 郝聪 编辑于2008/02/19 16:53
对于网站管ç†è€…和内容æä¾›è€…æ¥è¯´ï¼Œæœ‰æ—¶å€™ä¼šæœ‰ä¸€äº›ç«™ç‚¹å†…容,ä¸å¸Œæœ›è¢«ROBOTS抓å–而公开。为了解决这个问题,ROBOTSå¼€å‘界æä¾›äº†ä¸¤ä¸ªåŠžæ³•ï¼šä¸€ä¸ªæ˜¯robots.txt,å¦ä¸€ä¸ªæ˜¯TheRobotsMETAæ ‡ç¾ã€‚
注æ„:robots.txtå†™æ³•æ˜¯å¦æ£ç¡®å¯¹æœç´¢å¼•擎抓å–网站至关é‡è¦ï¼Œæˆ‘们尽釿Œ‰ç…§æ ‡å‡†çš„æ ¼å¼å†™è¯å¥ï¼Œå¦åˆ™å‡ºçŽ°çš„é”™è¯¯å¯èƒ½ä¼šå¯¼è‡´æœç´¢å¼•擎ä¸èƒ½æ£å¸¸çˆ¬è¡Œç«™ç‚¹ï¼›æˆ‘们å¯ä»¥é€šè¿‡google sitemapä¸çš„robots.txtæ£€æµ‹å·¥å…·æ¥æ£€æŸ¥ç½‘站上是å¦å˜åœ¨robots.txt文件以åŠè¯¥æ–‡ä»¶å†™æ³•æ˜¯å¦æ£ç¡®
一ã€robots.txt
1ã€ä»€ä¹ˆæ˜¯robots.txt?
robots.txt是一个纯文本文件,通过在这个文件ä¸å£°æ˜Žè¯¥ç½‘ç«™ä¸ä¸æƒ³è¢«robotsè®¿é—®çš„éƒ¨åˆ†ï¼Œè¿™æ ·ï¼Œè¯¥ç½‘ç«™çš„éƒ¨åˆ†æˆ–å…¨éƒ¨å†…å®¹å°±å¯ä»¥ä¸è¢«æœç´¢å¼•擎收录了,或者指定æœç´¢å¼•æ“Žåªæ”¶å½•指定的内容。
当一个æœç´¢æœºå™¨äººè®¿é—®ä¸€ä¸ªç«™ç‚¹æ—¶ï¼Œå®ƒä¼šé¦–å…ˆæ£€æŸ¥è¯¥ç«™ç‚¹æ ¹ç›®å½•ä¸‹æ˜¯å¦å˜åœ¨robots.txt,如果找到,æœç´¢æœºå™¨äººå°±ä¼šæŒ‰ç…§è¯¥æ–‡ä»¶ä¸çš„内容æ¥ç¡®å®šè®¿é—®çš„范围,如果该文件ä¸å˜åœ¨ï¼Œé‚£ä¹ˆæœç´¢æœºå™¨äººå°±æ²¿ç€é“¾æŽ¥æŠ“å–。
robots.txtå¿…é¡»æ”¾ç½®åœ¨ä¸€ä¸ªç«™ç‚¹çš„æ ¹ç›®å½•ä¸‹ï¼Œè€Œä¸”æ–‡ä»¶å必须全部å°å†™ã€‚
网站URL
相应的robots.txt的URL
http://www.w3.org/
http://www.w3.org/robots.txt
http://www.w3.org:80/
http://www.w3.org:80/robots.txt
2ã€robots.txtçš„è¯æ³•
"robots.txt"文件包å«ä¸€æ¡æˆ–更多的记录,这些记录通过空行分开(以CR,CR/NL,orNL作为结æŸç¬¦ï¼‰ï¼Œåœ¨è¯¥æ–‡ä»¶ä¸å¯ä»¥ä½¿ç”¨#进行注解,具体使用方法和UNIXä¸çš„æƒ¯ä¾‹ä¸€æ ·ã€‚该文件ä¸çš„记录通常以一行或多行User-agent开始,åŽé¢åŠ ä¸Šè‹¥å¹²Disallow行,详细情况如下:
User-agent:
该项的值用于æè¿°æœç´¢å¼•擎robotçš„åå—,在"robots.txt"文件ä¸ï¼Œå¦‚果有多æ¡User-agent记录说明有多个robot会å—到该å议的é™åˆ¶ï¼Œå¯¹è¯¥æ–‡ä»¶æ¥è¯´ï¼Œè‡³å°‘è¦æœ‰ä¸€æ¡User-agent记录。如果该项的值设为*,则该åè®®å¯¹ä»»ä½•æœºå™¨äººå‡æœ‰æ•ˆï¼Œåœ¨"robots.txt"文件ä¸ï¼Œ"User-agent:*"è¿™æ ·çš„è®°å½•åªèƒ½æœ‰ä¸€æ¡ã€‚关于æœç´¢å¼•擎robotsçš„åå—,请å‚è€ƒæ–‡ç« "æœç´¢å¼•擎蜘蛛程åºå称大全"
Disallow:
该项的值用于æè¿°ä¸å¸Œæœ›è¢«è®¿é—®åˆ°çš„一个URL,这个URLå¯ä»¥æ˜¯ä¸€æ¡å®Œæ•´çš„路径,也å¯ä»¥æ˜¯éƒ¨åˆ†çš„,任何以Disallow开头的URLå‡ä¸ä¼šè¢«robot访问到。例如"Disallow:/help"对/help.htmlå’Œ/help/index.html都ä¸å…许æœç´¢å¼•擎访问,而"Disallow:/help/"则å…许robot访问/help.html,而ä¸èƒ½è®¿é—®/help/index.html。
任何一æ¡Disallow记录为空,说明该网站的所有部分都å…许被访问,在"robots.txt"文件ä¸ï¼Œè‡³å°‘è¦æœ‰ä¸€æ¡Disallow记录。如果"robots.txt"是一个空文件,则对于所有的æœç´¢å¼•擎robot,该网站都是开放的。
䏋颿˜¯ä¸€äº›robots.txt基本的用法:
ç¦æ¢æ‰€æœ‰æœç´¢å¼•擎访问网站的任何部分:
User-agent: *
Disallow: /
å…许所有的robot访问
User-agent: *
Disallow:
或者也å¯ä»¥å»ºä¸€ä¸ªç©ºæ–‡ä»¶:robots.txt
ç¦æ¢æ‰€æœ‰æœç´¢å¼•æ“Žè®¿é—®ç½‘ç«™çš„å‡ ä¸ªéƒ¨åˆ†ï¼ˆä¸‹ä¾‹ä¸çš„cgi-binã€tmpã€private目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
ç¦æ¢æŸä¸ªæœç´¢å¼•擎的访问(下例ä¸çš„BadBot)
User-agent: BadBot
Disallow: /
åªå…许æŸä¸ªæœç´¢å¼•擎的访问(下例ä¸çš„WebCrawler)
User-agent: WebCrawler
Disallow:
3ã€å¸¸è§æœç´¢å¼•擎机器人Robotsåå—
åç§°æœç´¢å¼•擎 URL
Baiduspider http://www.baidu.com
Scooter http://www.altavista.com
ia_archiver http://www.alexa.com
Googlebot http://www.google.com
Inktomi Slurp http://www.yahoo.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com
MSNbot http://search.msn.com
4ã€robots.txt举例
䏋颿˜¯ä¸€äº›è‘—å站点的robots.txt:
http://www.google.com/robots.txt
http://www.ibm.com/robots.txt
http://www.sun.com/robots.txt
http://www.eachnet.com/robots.txt
看看百度的robots.txt:http://www.baidu.com/robots.txt
黑色梦ä¸SEOåšå®¢çš„robots.txt文件:http://www.bloghuman.com/robots.txt
5ã€å¸¸è§robots.txt错误
Â·é¢ å€’äº†é¡ºåºï¼š
错误写æˆ
User-agent: *
Disallow: GoogleBot
æ£ç¡®çš„应该是:
User-agent:GoogleBot
Disallow: /
Â·æŠŠå¤šä¸ªç¦æ¢å‘½ä»¤æ”¾åœ¨ä¸€è¡Œä¸ï¼š
例如,错误地写æˆ
Disallow:/css//cgi-bin//images/
æ£ç¡®çš„应该是
Disallow:/css/
Disallow:/cgi-bin/
Disallow:/images/
Â·è¡Œå‰æœ‰å¤§é‡ç©ºæ ¼
例如写æˆ
Disallow:/cgi-bin/
å°½ç®¡åœ¨æ ‡å‡†æ²¡æœ‰è°ˆåˆ°è¿™ä¸ªï¼Œä½†æ˜¯è¿™ç§æ–¹å¼å¾ˆå®¹æ˜“出问题。
·404é‡å®šå‘到å¦å¤–一个页é¢ï¼š
当Robot访问很多没有设置robots.txt文件的站点时,会被自动404é‡å®šå‘到å¦å¤–一个Html页é¢ã€‚这时Robot常常会以处ç†robots.txt文件的方å¼å¤„ç†è¿™ä¸ªHtml页颿–‡ä»¶ã€‚è™½ç„¶ä¸€èˆ¬è¿™æ ·æ²¡æœ‰ä»€ä¹ˆé—®é¢˜ï¼Œä½†æ˜¯æœ€å¥½èƒ½æ”¾ä¸€ä¸ªç©ºç™½çš„robots.txtæ–‡ä»¶åœ¨ç«™ç‚¹æ ¹ç›®å½•ä¸‹ã€‚
·采用大写
USER-AGENT:EXCITE
DISALLOW:
è™½ç„¶æ ‡å‡†æ˜¯æ²¡æœ‰å¤§å°å†™çš„,但是目录和文件å应该å°å†™ï¼Œï¼š
User-agent:GoogleBot
Disallow:
Â·è¯æ³•ä¸åªæœ‰Disallow,没有Allowï¼
错误的写法是:
User-agent: Baiduspider
Disallow: /john/
Allow: /jane/
·忘记了斜æ /
错误的写åšï¼š
User-agent: Baiduspider
Disallow: css
æ£ç¡®çš„应该是
User-agent: Baiduspider
Disallow: /css/
下é¢ä¸€ä¸ªå°å·¥å…·ä¸“门检查robots.txt文件的有效性:
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
二ã€Robots Metaæ ‡ç¾
1ã€ä»€ä¹ˆæ˜¯Robots Metaæ ‡ç¾
Robots.txtæ–‡ä»¶ä¸»è¦æ˜¯é™åˆ¶æ•´ä¸ªç«™ç‚¹æˆ–者目录的æœç´¢å¼•擎访问情况,而Robots Metaæ ‡ç¾åˆ™ä¸»è¦æ˜¯é’ˆå¯¹ä¸€ä¸ªä¸ªå…·ä½“的页é¢ã€‚和其他的METAæ ‡ç¾ï¼ˆå¦‚使用的è¯è¨€ã€é¡µé¢çš„æè¿°ã€å…³é”®è¯ç‰ï¼‰ä¸€æ ·ï¼ŒRobots Metaæ ‡ç¾ä¹Ÿæ˜¯æ”¾åœ¨é¡µé¢çš„ä¸ï¼Œä¸“门用æ¥å‘Šè¯‰æœç´¢å¼•擎ROBOTS如何抓å–该页的内容。
2ã€Robots Metaæ ‡ç¾çš„写法:
Robots Metaæ ‡ç¾ä¸æ²¡æœ‰å¤§å°å†™ä¹‹åˆ†ï¼Œname=â€Robotsâ€è¡¨ç¤ºæ‰€æœ‰çš„æœç´¢å¼•æ“Žï¼Œå¯ä»¥é’ˆå¯¹æŸä¸ªå…·ä½“æœç´¢å¼•擎写为name=â€BaiduSpiderâ€ã€‚content部分有四个指令选项:indexã€noindexã€followã€nofollow,指令间以“,â€åˆ†éš”。
index指令告诉æœç´¢æœºå™¨äººæŠ“å–该页é¢ï¼›
follow指令表示æœç´¢æœºå™¨äººå¯ä»¥æ²¿ç€è¯¥é¡µé¢ä¸Šçš„é“¾æŽ¥ç»§ç»æŠ“å–下去;
Robots Metaæ ‡ç¾çš„缺çœå€¼æ˜¯indexå’Œfollowï¼Œåªæœ‰inktomi除外,对于它,缺çœå€¼æ˜¯indexã€nofollow。
éœ€è¦æ³¨æ„的是:上述的robots.txtå’ŒRobots Metaæ ‡ç¾é™åˆ¶æœç´¢å¼•擎机器人(ROBOTS)抓å–ç«™ç‚¹å†…å®¹çš„åŠžæ³•åªæ˜¯ä¸€ç§è§„åˆ™ï¼Œéœ€è¦æœç´¢å¼•擎机器人的é…åˆæ‰è¡Œï¼Œå¹¶ä¸æ˜¯æ¯ä¸ªROBOTS都éµå®ˆçš„。
ç›®å‰çœ‹æ¥ï¼Œç»å¤§å¤šæ•°çš„æœç´¢å¼•æ“Žæœºå™¨äººéƒ½éµå®ˆrobots.txt的规则,而对于RobotsMETAæ ‡ç¾ï¼Œç›®å‰æ”¯æŒçš„å¹¶ä¸å¤šï¼Œä½†æ˜¯æ£åœ¨é€æ¸å¢žåŠ ï¼Œå¦‚è‘—åæœç´¢å¼•æ“ŽGOOGLE就完全支æŒï¼Œè€Œä¸”GOOGLEè¿˜å¢žåŠ äº†ä¸€ä¸ªæŒ‡ä»¤â€œarchiveâ€ï¼Œå¯ä»¥é™åˆ¶GOOGLE是å¦ä¿ç•™ç½‘页快照。例如:
表示抓å–该站点ä¸é¡µé¢å¹¶æ²¿ç€é¡µé¢ä¸é“¾æŽ¥æŠ“å–,但是ä¸åœ¨GOOLGE上ä¿ç•™è¯¥é¡µé¢çš„网页快照。
例å:
#robots,scram
User-agent:*
Disallow:/cgi-bin
Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
Disallow:/cgi-bin
Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
User-agent:Mozilla/3.01(hotwired-test/0.1)
Disallow:/cgi-bin
Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
Disallow:/cgi-bin
Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
User-agent:Slurp
Disallow:/cgi-bin
Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
User-agent:Scooter
Disallow:/cgi-bin
Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
Disallow:/cgi-bin
Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
User-agent:Scooter
Disallow:/cgi-bin
Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
User-agent:Ultraseek
Disallow:/cgi-bin
#Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
Disallow:/cgi-bin
#Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
User-agent:smallbear
Disallow:/cgi-bin
Disallow:/java
Disallow:/images
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/webmaster_logs
Disallow:/virtual
Disallow:/shockwave
Disallow:/TRANSCRIPTS
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
Disallow:/alt_index.html
User-agent:GoogleBot
Disallow:/cgi-bin
Disallow:/java
Disallow:/images
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/webmaster_logs
Disallow:/virtual
Disallow:/shockwave
Disallow:/TRANSCRIPTS
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
Disallow:/alt_index.html
Disallow:/cgi-bin
Disallow:/java
Disallow:/images
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/webmaster_logs
Disallow:/virtual
Disallow:/shockwave
Disallow:/TRANSCRIPTS
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
Disallow:/alt_index.html
User-agent:GoogleBot
Disallow:/cgi-bin
Disallow:/java
Disallow:/images
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/webmaster_logs
Disallow:/virtual
Disallow:/shockwave
Disallow:/TRANSCRIPTS
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
Disallow:/alt_index.html
相关日志
è°·æŒç©¿è¶Šæœç´¢-è°·æŒå®˜æ–¹æ„šäººèŠ‚çŽ©ç¬‘
Google将在æœç´¢ç»“果排å算法ä¸è€ƒè™‘æ¥è‡ªTwitterã€Quoraç‰ç¤¾ä¼šåŒ–网络社区的内容
桥页SEO:网站自我æ¯ç工具
《Google官方SEO入门指å—》å四: 对网站管ç†å‘˜æœ‰ç”¨çš„资æº(完)
《Google官方SEO入门指å—》å三:充分利用网站分æžå·¥å…·
《Google官方SEO入门指å—》å二:充分利用å…费的网站管ç†å‘˜å·¥å…·
《Google官方SEO入门指å—》å一:以æ°å½“çš„æ–¹å¼æŽ¨å¹¿ä½ çš„ç½‘ç«™
《Google官方SEO入门指å—》åï¼šä¸ºé“¾æŽ¥æ·»åŠ nofollow属性
《Google官方SEO入门指å—》ä¹ï¼šæœ‰æ•ˆä½¿ç”¨robots.txt
《Google官方SEO入门指å—》八:网页图片优化
è°·æŒç©¿è¶Šæœç´¢-è°·æŒå®˜æ–¹æ„šäººèŠ‚çŽ©ç¬‘
Google将在æœç´¢ç»“果排å算法ä¸è€ƒè™‘æ¥è‡ªTwitterã€Quoraç‰ç¤¾ä¼šåŒ–网络社区的内容
桥页SEO:网站自我æ¯ç工具
《Google官方SEO入门指å—》å四: 对网站管ç†å‘˜æœ‰ç”¨çš„资æº(完)
《Google官方SEO入门指å—》å三:充分利用网站分æžå·¥å…·
《Google官方SEO入门指å—》å二:充分利用å…费的网站管ç†å‘˜å·¥å…·
《Google官方SEO入门指å—》å一:以æ°å½“çš„æ–¹å¼æŽ¨å¹¿ä½ çš„ç½‘ç«™
《Google官方SEO入门指å—》åï¼šä¸ºé“¾æŽ¥æ·»åŠ nofollow属性
《Google官方SEO入门指å—》ä¹ï¼šæœ‰æ•ˆä½¿ç”¨robots.txt
《Google官方SEO入门指å—》八:网页图片优化
最后编辑: 郝聪 编辑于2008/02/19 16:53
有个建议:在贵站的æœç´¢ç»“æžœé‡Œä½¿ç”¨æ–°çª—å£æ‰“开网页更方便æµè§ˆè€…查找资料。