æœç´¢å¼•æ“Žèœ˜è››åŠç½‘ç«™robots.txt文件详解
我们知é“,æœç´¢å¼•æ“Žéƒ½æœ‰è‡ªå·±çš„“æœç´¢æœºå™¨äººâ€ï¼ˆROBOTS),并通过这些ROBOTS在网络上沿ç€ç½‘页上的链接(一般是httpå’Œsrc链接)ä¸æ–抓å–资料建立自己的数æ®åº“。
对于网站管ç†è€…和内容æ供者æ¥è¯´ï¼Œæœ‰æ—¶å€™ä¼šæœ‰ä¸€äº›ç«™ç‚¹å†…容,ä¸å¸Œæœ›è¢«ROBOTS抓å–而公开。为了解决这个问题,ROBOTSå¼€å‘ç•Œæ供了两个办法:一个是robots.txt,å¦ä¸€ä¸ªæ˜¯TheRobotsMETAæ ‡ç¾ã€‚
注æ„:robots.txt写法是å¦æ£ç¡®å¯¹æœç´¢å¼•æ“ŽæŠ“å–网站至关é‡è¦ï¼Œæˆ‘们尽é‡æŒ‰ç…§æ ‡å‡†çš„æ ¼å¼å†™è¯å¥ï¼Œå¦åˆ™å‡ºçŽ°çš„错误å¯èƒ½ä¼šå¯¼è‡´æœç´¢å¼•æ“Žä¸èƒ½æ£å¸¸çˆ¬è¡Œç«™ç‚¹ï¼›æˆ‘们å¯ä»¥é€šè¿‡google sitemapä¸çš„robots.txt检测工具æ¥æ£€æŸ¥ç½‘站上是å¦å˜åœ¨robots.txt文件以åŠè¯¥æ–‡ä»¶å†™æ³•æ˜¯å¦æ£ç¡®
一ã€robots.txt
1ã€ä»€ä¹ˆæ˜¯robots.txt?
robots.txt是一个纯文本文件,通过在这个文件ä¸å£°æ˜Žè¯¥ç½‘ç«™ä¸ä¸æƒ³è¢«robotsè®¿é—®çš„éƒ¨åˆ†ï¼Œè¿™æ ·ï¼Œè¯¥ç½‘ç«™çš„éƒ¨åˆ†æˆ–å…¨éƒ¨å†…å®¹å°±å¯ä»¥ä¸è¢«æœç´¢å¼•æ“Žæ”¶å½•äº†ï¼Œæˆ–者指定æœç´¢å¼•æ“Žåªæ”¶å½•æŒ‡å®šçš„内容。
当一个æœç´¢æœºå™¨äººè®¿é—®ä¸€ä¸ªç«™ç‚¹æ—¶ï¼Œå®ƒä¼šé¦–å…ˆæ£€æŸ¥è¯¥ç«™ç‚¹æ ¹ç›®å½•ä¸‹æ˜¯å¦å˜åœ¨robots.txt,如果找到,æœç´¢æœºå™¨äººå°±ä¼šæŒ‰ç…§è¯¥æ–‡ä»¶ä¸çš„内容æ¥ç¡®å®šè®¿é—®çš„范围,如果该文件ä¸å˜åœ¨ï¼Œé‚£ä¹ˆæœç´¢æœºå™¨äººå°±æ²¿ç€é“¾æŽ¥æŠ“å–。
robots.txtå¿…é¡»æ”¾ç½®åœ¨ä¸€ä¸ªç«™ç‚¹çš„æ ¹ç›®å½•ä¸‹ï¼Œè€Œä¸”æ–‡ä»¶å必须全部å°å†™ã€‚
网站URL
相应的robots.txt的URL
http://www.w3.org/
http://www.w3.org/robots.txt
http://www.w3.org:80/
http://www.w3.org:80/robots.txt
2ã€robots.txtçš„è¯æ³•
"robots.txt"文件包å«ä¸€æ¡æˆ–更多的记录,这些记录通过空行分开(以CR,CR/NL,orNL作为结æŸç¬¦ï¼‰ï¼Œåœ¨è¯¥æ–‡ä»¶ä¸å¯ä»¥ä½¿ç”¨#进行注解,具体使用方法和UNIXä¸çš„æƒ¯ä¾‹ä¸€æ ·ã€‚è¯¥æ–‡ä»¶ä¸çš„记录通常以一行或多行User-agent开始,åŽé¢åŠ 上若干Disallow行,详细情况如下:
User-agent:
该项的值用于æè¿°æœç´¢å¼•æ“Žrobotçš„åå—,在"robots.txt"文件ä¸ï¼Œå¦‚果有多æ¡User-agent记录说明有多个robot会å—到该å议的é™åˆ¶ï¼Œå¯¹è¯¥æ–‡ä»¶æ¥è¯´ï¼Œè‡³å°‘è¦æœ‰ä¸€æ¡User-agent记录。如果该项的值设为*,则该å议对任何机器人å‡æœ‰æ•ˆï¼Œåœ¨"robots.txt"文件ä¸ï¼Œ"User-agent:*"è¿™æ ·çš„è®°å½•åªèƒ½æœ‰ä¸€æ¡ã€‚关于æœç´¢å¼•æ“Žrobotsçš„åå—,请å‚è€ƒæ–‡ç« "æœç´¢å¼•æ“Žèœ˜è››ç¨‹åºå称大全"
Disallow:
该项的值用于æè¿°ä¸å¸Œæœ›è¢«è®¿é—®åˆ°çš„一个URL,这个URLå¯ä»¥æ˜¯ä¸€æ¡å®Œæ•´çš„路径,也å¯ä»¥æ˜¯éƒ¨åˆ†çš„,任何以Disallow开头的URLå‡ä¸ä¼šè¢«robot访问到。例如"Disallow:/help"对/help.htmlå’Œ/help/index.html都ä¸å…许æœç´¢å¼•æ“Žè®¿é—®ï¼Œè€Œ"Disallow:/help/"则å…许robot访问/help.html,而ä¸èƒ½è®¿é—®/help/index.html。
任何一æ¡Disallow记录为空,说明该网站的所有部分都å…许被访问,在"robots.txt"文件ä¸ï¼Œè‡³å°‘è¦æœ‰ä¸€æ¡Disallow记录。如果"robots.txt"是一个空文件,则对于所有的æœç´¢å¼•æ“Žrobot,该网站都是开放的。
下é¢æ˜¯ä¸€äº›robots.txt基本的用法:
ç¦æ¢æ‰€æœ‰æœç´¢å¼•æ“Žè®¿é—®ç½‘站的任何部分:
User-agent: *
Disallow: /
å…许所有的robot访问
User-agent: *
Disallow:
或者也å¯ä»¥å»ºä¸€ä¸ªç©ºæ–‡ä»¶:robots.txt
ç¦æ¢æ‰€æœ‰æœç´¢å¼•æ“Žè®¿é—®ç½‘ç«™çš„å‡ ä¸ªéƒ¨åˆ†ï¼ˆä¸‹ä¾‹ä¸çš„cgi-binã€tmpã€private目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
ç¦æ¢æŸä¸ªæœç´¢å¼•æ“Žçš„访问(下例ä¸çš„BadBot)
User-agent: BadBot
Disallow: /
åªå…许æŸä¸ªæœç´¢å¼•æ“Žçš„访问(下例ä¸çš„WebCrawler)
User-agent: WebCrawler
Disallow:
3ã€å¸¸è§æœç´¢å¼•æ“Žæœºå™¨äººRobotsåå—
å称æœç´¢å¼•æ“Ž URL
Baiduspider http://www.baidu.com
Scooter http://www.altavista.com
ia_archiver http://www.alexa.com
Googlebot http://www.google.com
Inktomi Slurp http://www.yahoo.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com
MSNbot http://search.msn.com
4ã€robots.txt举例
下é¢æ˜¯ä¸€äº›è‘—å站点的robots.txt:
http://www.google.com/robots.txt
http://www.ibm.com/robots.txt
http://www.sun.com/robots.txt
http://www.eachnet.com/robots.txt
看看百度的robots.txt:http://www.baidu.com/robots.txt
黑色梦ä¸SEOåšå®¢çš„robots.txt文件:http://www.bloghuman.com/robots.txt
5ã€å¸¸è§robots.txt错误
Â·é¢ å€’äº†é¡ºåºï¼š
错误写æˆ
User-agent: *
Disallow: GoogleBot
æ£ç¡®çš„应该是:
User-agent:GoogleBot
Disallow: /
·把多个ç¦æ¢å‘½ä»¤æ”¾åœ¨ä¸€è¡Œä¸ï¼š
例如,错误地写æˆ
Disallow:/css//cgi-bin//images/
æ£ç¡®çš„应该是
Disallow:/css/
Disallow:/cgi-bin/
Disallow:/images/
·行å‰æœ‰å¤§é‡ç©ºæ ¼
例如写æˆ
Disallow:/cgi-bin/
å°½ç®¡åœ¨æ ‡å‡†æ²¡æœ‰è°ˆåˆ°è¿™ä¸ªï¼Œä½†æ˜¯è¿™ç§æ–¹å¼å¾ˆå®¹æ˜“出问题。
·404é‡å®šå‘到å¦å¤–一个页é¢ï¼š
当Robot访问很多没有设置robots.txt文件的站点时,会被自动404é‡å®šå‘到å¦å¤–一个Html页é¢ã€‚这时Robot常常会以处ç†robots.txt文件的方å¼å¤„ç†è¿™ä¸ªHtml页é¢æ–‡ä»¶ã€‚è™½ç„¶ä¸€èˆ¬è¿™æ ·æ²¡æœ‰ä»€ä¹ˆé—®é¢˜ï¼Œä½†æ˜¯æœ€å¥½èƒ½æ”¾ä¸€ä¸ªç©ºç™½çš„robots.txtæ–‡ä»¶åœ¨ç«™ç‚¹æ ¹ç›®å½•ä¸‹ã€‚
·采用大写
USER-AGENT:EXCITE
DISALLOW:
è™½ç„¶æ ‡å‡†æ˜¯æ²¡æœ‰å¤§å°å†™çš„,但是目录和文件å应该å°å†™ï¼Œï¼š
User-agent:GoogleBot
Disallow:
·è¯æ³•ä¸åªæœ‰Disallow,没有Allowï¼
错误的写法是:
User-agent: Baiduspider
Disallow: /john/
Allow: /jane/
·忘记了斜æ /
错误的写åšï¼š
User-agent: Baiduspider
Disallow: css
æ£ç¡®çš„应该是
User-agent: Baiduspider
Disallow: /css/
下é¢ä¸€ä¸ªå°å·¥å…·ä¸“门检查robots.txt文件的有效性:
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
二ã€Robots Metaæ ‡ç¾
1ã€ä»€ä¹ˆæ˜¯Robots Metaæ ‡ç¾
Robots.txt文件主è¦æ˜¯é™åˆ¶æ•´ä¸ªç«™ç‚¹æˆ–者目录的æœç´¢å¼•æ“Žè®¿é—®æƒ…况,而Robots Metaæ ‡ç¾åˆ™ä¸»è¦æ˜¯é’ˆå¯¹ä¸€ä¸ªä¸ªå…·ä½“的页é¢ã€‚和其他的METAæ ‡ç¾ï¼ˆå¦‚使用的è¯è¨€ã€é¡µé¢çš„æè¿°ã€å…³é”®è¯ç‰ï¼‰ä¸€æ ·ï¼ŒRobots Metaæ ‡ç¾ä¹Ÿæ˜¯æ”¾åœ¨é¡µé¢çš„ä¸ï¼Œä¸“门用æ¥å‘Šè¯‰æœç´¢å¼•æ“ŽROBOTS如何抓å–该页的内容。
2ã€Robots Metaæ ‡ç¾çš„写法:
Robots Metaæ ‡ç¾ä¸æ²¡æœ‰å¤§å°å†™ä¹‹åˆ†ï¼Œname=â€Robotsâ€è¡¨ç¤ºæ‰€æœ‰çš„æœç´¢å¼•æ“Žï¼Œå¯ä»¥é’ˆå¯¹æŸä¸ªå…·ä½“æœç´¢å¼•æ“Žå†™ä¸ºname=â€BaiduSpiderâ€ã€‚content部分有四个指令选项:indexã€noindexã€followã€nofollow,指令间以“,â€åˆ†éš”。
index指令告诉æœç´¢æœºå™¨äººæŠ“å–该页é¢ï¼›
follow指令表示æœç´¢æœºå™¨äººå¯ä»¥æ²¿ç€è¯¥é¡µé¢ä¸Šçš„链接继ç»æŠ“å–下去;
Robots Metaæ ‡ç¾çš„缺çœå€¼æ˜¯indexå’Œfollow,åªæœ‰inktomi除外,对于它,缺çœå€¼æ˜¯indexã€nofollow。
需è¦æ³¨æ„的是:上述的robots.txtå’ŒRobots Metaæ ‡ç¾é™åˆ¶æœç´¢å¼•æ“Žæœºå™¨äººï¼ˆROBOTS)抓å–站点内容的办法åªæ˜¯ä¸€ç§è§„则,需è¦æœç´¢å¼•æ“Žæœºå™¨äººçš„é…åˆæ‰è¡Œï¼Œå¹¶ä¸æ˜¯æ¯ä¸ªROBOTS都éµå®ˆçš„。
ç›®å‰çœ‹æ¥ï¼Œç»å¤§å¤šæ•°çš„æœç´¢å¼•æ“Žæœºå™¨äººéƒ½éµå®ˆrobots.txt的规则,而对于RobotsMETAæ ‡ç¾ï¼Œç›®å‰æ”¯æŒçš„并ä¸å¤šï¼Œä½†æ˜¯æ£åœ¨é€æ¸å¢žåŠ ,如著åæœç´¢å¼•æ“ŽGOOGLE就完全支æŒï¼Œè€Œä¸”GOOGLEè¿˜å¢žåŠ äº†ä¸€ä¸ªæŒ‡ä»¤â€œarchiveâ€ï¼Œå¯ä»¥é™åˆ¶GOOGLE是å¦ä¿ç•™ç½‘页快照。例如:
表示抓å–该站点ä¸é¡µé¢å¹¶æ²¿ç€é¡µé¢ä¸é“¾æŽ¥æŠ“å–,但是ä¸åœ¨GOOLGE上ä¿ç•™è¯¥é¡µé¢çš„网页快照。
例å:
#robots,scram
最后编辑: 郝聪 编辑于2008/02/19 16:53
对于网站管ç†è€…和内容æ供者æ¥è¯´ï¼Œæœ‰æ—¶å€™ä¼šæœ‰ä¸€äº›ç«™ç‚¹å†…容,ä¸å¸Œæœ›è¢«ROBOTS抓å–而公开。为了解决这个问题,ROBOTSå¼€å‘ç•Œæ供了两个办法:一个是robots.txt,å¦ä¸€ä¸ªæ˜¯TheRobotsMETAæ ‡ç¾ã€‚
注æ„:robots.txt写法是å¦æ£ç¡®å¯¹æœç´¢å¼•æ“ŽæŠ“å–网站至关é‡è¦ï¼Œæˆ‘们尽é‡æŒ‰ç…§æ ‡å‡†çš„æ ¼å¼å†™è¯å¥ï¼Œå¦åˆ™å‡ºçŽ°çš„错误å¯èƒ½ä¼šå¯¼è‡´æœç´¢å¼•æ“Žä¸èƒ½æ£å¸¸çˆ¬è¡Œç«™ç‚¹ï¼›æˆ‘们å¯ä»¥é€šè¿‡google sitemapä¸çš„robots.txt检测工具æ¥æ£€æŸ¥ç½‘站上是å¦å˜åœ¨robots.txt文件以åŠè¯¥æ–‡ä»¶å†™æ³•æ˜¯å¦æ£ç¡®
一ã€robots.txt
1ã€ä»€ä¹ˆæ˜¯robots.txt?
robots.txt是一个纯文本文件,通过在这个文件ä¸å£°æ˜Žè¯¥ç½‘ç«™ä¸ä¸æƒ³è¢«robotsè®¿é—®çš„éƒ¨åˆ†ï¼Œè¿™æ ·ï¼Œè¯¥ç½‘ç«™çš„éƒ¨åˆ†æˆ–å…¨éƒ¨å†…å®¹å°±å¯ä»¥ä¸è¢«æœç´¢å¼•æ“Žæ”¶å½•äº†ï¼Œæˆ–者指定æœç´¢å¼•æ“Žåªæ”¶å½•æŒ‡å®šçš„内容。
当一个æœç´¢æœºå™¨äººè®¿é—®ä¸€ä¸ªç«™ç‚¹æ—¶ï¼Œå®ƒä¼šé¦–å…ˆæ£€æŸ¥è¯¥ç«™ç‚¹æ ¹ç›®å½•ä¸‹æ˜¯å¦å˜åœ¨robots.txt,如果找到,æœç´¢æœºå™¨äººå°±ä¼šæŒ‰ç…§è¯¥æ–‡ä»¶ä¸çš„内容æ¥ç¡®å®šè®¿é—®çš„范围,如果该文件ä¸å˜åœ¨ï¼Œé‚£ä¹ˆæœç´¢æœºå™¨äººå°±æ²¿ç€é“¾æŽ¥æŠ“å–。
robots.txtå¿…é¡»æ”¾ç½®åœ¨ä¸€ä¸ªç«™ç‚¹çš„æ ¹ç›®å½•ä¸‹ï¼Œè€Œä¸”æ–‡ä»¶å必须全部å°å†™ã€‚
网站URL
相应的robots.txt的URL
http://www.w3.org/
http://www.w3.org/robots.txt
http://www.w3.org:80/
http://www.w3.org:80/robots.txt
2ã€robots.txtçš„è¯æ³•
"robots.txt"文件包å«ä¸€æ¡æˆ–更多的记录,这些记录通过空行分开(以CR,CR/NL,orNL作为结æŸç¬¦ï¼‰ï¼Œåœ¨è¯¥æ–‡ä»¶ä¸å¯ä»¥ä½¿ç”¨#进行注解,具体使用方法和UNIXä¸çš„æƒ¯ä¾‹ä¸€æ ·ã€‚è¯¥æ–‡ä»¶ä¸çš„记录通常以一行或多行User-agent开始,åŽé¢åŠ 上若干Disallow行,详细情况如下:
User-agent:
该项的值用于æè¿°æœç´¢å¼•æ“Žrobotçš„åå—,在"robots.txt"文件ä¸ï¼Œå¦‚果有多æ¡User-agent记录说明有多个robot会å—到该å议的é™åˆ¶ï¼Œå¯¹è¯¥æ–‡ä»¶æ¥è¯´ï¼Œè‡³å°‘è¦æœ‰ä¸€æ¡User-agent记录。如果该项的值设为*,则该å议对任何机器人å‡æœ‰æ•ˆï¼Œåœ¨"robots.txt"文件ä¸ï¼Œ"User-agent:*"è¿™æ ·çš„è®°å½•åªèƒ½æœ‰ä¸€æ¡ã€‚关于æœç´¢å¼•æ“Žrobotsçš„åå—,请å‚è€ƒæ–‡ç« "æœç´¢å¼•æ“Žèœ˜è››ç¨‹åºå称大全"
Disallow:
该项的值用于æè¿°ä¸å¸Œæœ›è¢«è®¿é—®åˆ°çš„一个URL,这个URLå¯ä»¥æ˜¯ä¸€æ¡å®Œæ•´çš„路径,也å¯ä»¥æ˜¯éƒ¨åˆ†çš„,任何以Disallow开头的URLå‡ä¸ä¼šè¢«robot访问到。例如"Disallow:/help"对/help.htmlå’Œ/help/index.html都ä¸å…许æœç´¢å¼•æ“Žè®¿é—®ï¼Œè€Œ"Disallow:/help/"则å…许robot访问/help.html,而ä¸èƒ½è®¿é—®/help/index.html。
任何一æ¡Disallow记录为空,说明该网站的所有部分都å…许被访问,在"robots.txt"文件ä¸ï¼Œè‡³å°‘è¦æœ‰ä¸€æ¡Disallow记录。如果"robots.txt"是一个空文件,则对于所有的æœç´¢å¼•æ“Žrobot,该网站都是开放的。
下é¢æ˜¯ä¸€äº›robots.txt基本的用法:
ç¦æ¢æ‰€æœ‰æœç´¢å¼•æ“Žè®¿é—®ç½‘站的任何部分:
User-agent: *
Disallow: /
å…许所有的robot访问
User-agent: *
Disallow:
或者也å¯ä»¥å»ºä¸€ä¸ªç©ºæ–‡ä»¶:robots.txt
ç¦æ¢æ‰€æœ‰æœç´¢å¼•æ“Žè®¿é—®ç½‘ç«™çš„å‡ ä¸ªéƒ¨åˆ†ï¼ˆä¸‹ä¾‹ä¸çš„cgi-binã€tmpã€private目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
ç¦æ¢æŸä¸ªæœç´¢å¼•æ“Žçš„访问(下例ä¸çš„BadBot)
User-agent: BadBot
Disallow: /
åªå…许æŸä¸ªæœç´¢å¼•æ“Žçš„访问(下例ä¸çš„WebCrawler)
User-agent: WebCrawler
Disallow:
3ã€å¸¸è§æœç´¢å¼•æ“Žæœºå™¨äººRobotsåå—
å称æœç´¢å¼•æ“Ž URL
Baiduspider http://www.baidu.com
Scooter http://www.altavista.com
ia_archiver http://www.alexa.com
Googlebot http://www.google.com
Inktomi Slurp http://www.yahoo.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com
MSNbot http://search.msn.com
4ã€robots.txt举例
下é¢æ˜¯ä¸€äº›è‘—å站点的robots.txt:
http://www.google.com/robots.txt
http://www.ibm.com/robots.txt
http://www.sun.com/robots.txt
http://www.eachnet.com/robots.txt
看看百度的robots.txt:http://www.baidu.com/robots.txt
黑色梦ä¸SEOåšå®¢çš„robots.txt文件:http://www.bloghuman.com/robots.txt
5ã€å¸¸è§robots.txt错误
Â·é¢ å€’äº†é¡ºåºï¼š
错误写æˆ
User-agent: *
Disallow: GoogleBot
æ£ç¡®çš„应该是:
User-agent:GoogleBot
Disallow: /
·把多个ç¦æ¢å‘½ä»¤æ”¾åœ¨ä¸€è¡Œä¸ï¼š
例如,错误地写æˆ
Disallow:/css//cgi-bin//images/
æ£ç¡®çš„应该是
Disallow:/css/
Disallow:/cgi-bin/
Disallow:/images/
·行å‰æœ‰å¤§é‡ç©ºæ ¼
例如写æˆ
Disallow:/cgi-bin/
å°½ç®¡åœ¨æ ‡å‡†æ²¡æœ‰è°ˆåˆ°è¿™ä¸ªï¼Œä½†æ˜¯è¿™ç§æ–¹å¼å¾ˆå®¹æ˜“出问题。
·404é‡å®šå‘到å¦å¤–一个页é¢ï¼š
当Robot访问很多没有设置robots.txt文件的站点时,会被自动404é‡å®šå‘到å¦å¤–一个Html页é¢ã€‚这时Robot常常会以处ç†robots.txt文件的方å¼å¤„ç†è¿™ä¸ªHtml页é¢æ–‡ä»¶ã€‚è™½ç„¶ä¸€èˆ¬è¿™æ ·æ²¡æœ‰ä»€ä¹ˆé—®é¢˜ï¼Œä½†æ˜¯æœ€å¥½èƒ½æ”¾ä¸€ä¸ªç©ºç™½çš„robots.txtæ–‡ä»¶åœ¨ç«™ç‚¹æ ¹ç›®å½•ä¸‹ã€‚
·采用大写
USER-AGENT:EXCITE
DISALLOW:
è™½ç„¶æ ‡å‡†æ˜¯æ²¡æœ‰å¤§å°å†™çš„,但是目录和文件å应该å°å†™ï¼Œï¼š
User-agent:GoogleBot
Disallow:
·è¯æ³•ä¸åªæœ‰Disallow,没有Allowï¼
错误的写法是:
User-agent: Baiduspider
Disallow: /john/
Allow: /jane/
·忘记了斜æ /
错误的写åšï¼š
User-agent: Baiduspider
Disallow: css
æ£ç¡®çš„应该是
User-agent: Baiduspider
Disallow: /css/
下é¢ä¸€ä¸ªå°å·¥å…·ä¸“门检查robots.txt文件的有效性:
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
二ã€Robots Metaæ ‡ç¾
1ã€ä»€ä¹ˆæ˜¯Robots Metaæ ‡ç¾
Robots.txt文件主è¦æ˜¯é™åˆ¶æ•´ä¸ªç«™ç‚¹æˆ–者目录的æœç´¢å¼•æ“Žè®¿é—®æƒ…况,而Robots Metaæ ‡ç¾åˆ™ä¸»è¦æ˜¯é’ˆå¯¹ä¸€ä¸ªä¸ªå…·ä½“的页é¢ã€‚和其他的METAæ ‡ç¾ï¼ˆå¦‚使用的è¯è¨€ã€é¡µé¢çš„æè¿°ã€å…³é”®è¯ç‰ï¼‰ä¸€æ ·ï¼ŒRobots Metaæ ‡ç¾ä¹Ÿæ˜¯æ”¾åœ¨é¡µé¢çš„ä¸ï¼Œä¸“门用æ¥å‘Šè¯‰æœç´¢å¼•æ“ŽROBOTS如何抓å–该页的内容。
2ã€Robots Metaæ ‡ç¾çš„写法:
Robots Metaæ ‡ç¾ä¸æ²¡æœ‰å¤§å°å†™ä¹‹åˆ†ï¼Œname=â€Robotsâ€è¡¨ç¤ºæ‰€æœ‰çš„æœç´¢å¼•æ“Žï¼Œå¯ä»¥é’ˆå¯¹æŸä¸ªå…·ä½“æœç´¢å¼•æ“Žå†™ä¸ºname=â€BaiduSpiderâ€ã€‚content部分有四个指令选项:indexã€noindexã€followã€nofollow,指令间以“,â€åˆ†éš”。
index指令告诉æœç´¢æœºå™¨äººæŠ“å–该页é¢ï¼›
follow指令表示æœç´¢æœºå™¨äººå¯ä»¥æ²¿ç€è¯¥é¡µé¢ä¸Šçš„链接继ç»æŠ“å–下去;
Robots Metaæ ‡ç¾çš„缺çœå€¼æ˜¯indexå’Œfollow,åªæœ‰inktomi除外,对于它,缺çœå€¼æ˜¯indexã€nofollow。
需è¦æ³¨æ„的是:上述的robots.txtå’ŒRobots Metaæ ‡ç¾é™åˆ¶æœç´¢å¼•æ“Žæœºå™¨äººï¼ˆROBOTS)抓å–站点内容的办法åªæ˜¯ä¸€ç§è§„则,需è¦æœç´¢å¼•æ“Žæœºå™¨äººçš„é…åˆæ‰è¡Œï¼Œå¹¶ä¸æ˜¯æ¯ä¸ªROBOTS都éµå®ˆçš„。
ç›®å‰çœ‹æ¥ï¼Œç»å¤§å¤šæ•°çš„æœç´¢å¼•æ“Žæœºå™¨äººéƒ½éµå®ˆrobots.txt的规则,而对于RobotsMETAæ ‡ç¾ï¼Œç›®å‰æ”¯æŒçš„并ä¸å¤šï¼Œä½†æ˜¯æ£åœ¨é€æ¸å¢žåŠ ,如著åæœç´¢å¼•æ“ŽGOOGLE就完全支æŒï¼Œè€Œä¸”GOOGLEè¿˜å¢žåŠ äº†ä¸€ä¸ªæŒ‡ä»¤â€œarchiveâ€ï¼Œå¯ä»¥é™åˆ¶GOOGLE是å¦ä¿ç•™ç½‘页快照。例如:
表示抓å–该站点ä¸é¡µé¢å¹¶æ²¿ç€é¡µé¢ä¸é“¾æŽ¥æŠ“å–,但是ä¸åœ¨GOOLGE上ä¿ç•™è¯¥é¡µé¢çš„网页快照。
例å:
#robots,scram
User-agent:*
Disallow:/cgi-bin
Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
Disallow:/cgi-bin
Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
User-agent:Mozilla/3.01(hotwired-test/0.1)
Disallow:/cgi-bin
Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
Disallow:/cgi-bin
Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
User-agent:Slurp
Disallow:/cgi-bin
Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
User-agent:Scooter
Disallow:/cgi-bin
Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
Disallow:/cgi-bin
Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
User-agent:Scooter
Disallow:/cgi-bin
Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
User-agent:Ultraseek
Disallow:/cgi-bin
#Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
Disallow:/cgi-bin
#Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
User-agent:smallbear
Disallow:/cgi-bin
Disallow:/java
Disallow:/images
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/webmaster_logs
Disallow:/virtual
Disallow:/shockwave
Disallow:/TRANSCRIPTS
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
Disallow:/alt_index.html
User-agent:GoogleBot
Disallow:/cgi-bin
Disallow:/java
Disallow:/images
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/webmaster_logs
Disallow:/virtual
Disallow:/shockwave
Disallow:/TRANSCRIPTS
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
Disallow:/alt_index.html
Disallow:/cgi-bin
Disallow:/java
Disallow:/images
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/webmaster_logs
Disallow:/virtual
Disallow:/shockwave
Disallow:/TRANSCRIPTS
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
Disallow:/alt_index.html
User-agent:GoogleBot
Disallow:/cgi-bin
Disallow:/java
Disallow:/images
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/webmaster_logs
Disallow:/virtual
Disallow:/shockwave
Disallow:/TRANSCRIPTS
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
Disallow:/alt_index.html
相关日志
è°·æŒç©¿è¶Šæœç´¢-è°·æŒå®˜æ–¹æ„šäººèŠ‚玩笑
Google将在æœç´¢ç»“果排å算法ä¸è€ƒè™‘æ¥è‡ªTwitterã€Quoraç‰ç¤¾ä¼šåŒ–网络社区的内容
桥页SEO:网站自我æ¯ç工具
《Google官方SEO入门指å—》å四: 对网站管ç†å‘˜æœ‰ç”¨çš„资æº(完)
《Google官方SEO入门指å—》å三:充分利用网站分æžå·¥å…·
《Google官方SEO入门指å—》å二:充分利用å…费的网站管ç†å‘˜å·¥å…·
《Google官方SEO入门指å—》å一:以æ°å½“çš„æ–¹å¼æŽ¨å¹¿ä½ 的网站
《Google官方SEO入门指å—》åï¼šä¸ºé“¾æŽ¥æ·»åŠ nofollow属性
《Google官方SEO入门指å—》ä¹ï¼šæœ‰æ•ˆä½¿ç”¨robots.txt
《Google官方SEO入门指å—》八:网页图片优化
è°·æŒç©¿è¶Šæœç´¢-è°·æŒå®˜æ–¹æ„šäººèŠ‚玩笑
Google将在æœç´¢ç»“果排å算法ä¸è€ƒè™‘æ¥è‡ªTwitterã€Quoraç‰ç¤¾ä¼šåŒ–网络社区的内容
桥页SEO:网站自我æ¯ç工具
《Google官方SEO入门指å—》å四: 对网站管ç†å‘˜æœ‰ç”¨çš„资æº(完)
《Google官方SEO入门指å—》å三:充分利用网站分æžå·¥å…·
《Google官方SEO入门指å—》å二:充分利用å…费的网站管ç†å‘˜å·¥å…·
《Google官方SEO入门指å—》å一:以æ°å½“çš„æ–¹å¼æŽ¨å¹¿ä½ 的网站
《Google官方SEO入门指å—》åï¼šä¸ºé“¾æŽ¥æ·»åŠ nofollow属性
《Google官方SEO入门指å—》ä¹ï¼šæœ‰æ•ˆä½¿ç”¨robots.txt
《Google官方SEO入门指å—》八:网页图片优化
最后编辑: 郝聪 编辑于2008/02/19 16:53
有个建议:在贵站的æœç´¢ç»“果里使用新窗å£æ‰“开网页更方便æµè§ˆè€…查找资料。