Google工程师解释Googlebot抓å–网页的原ç†
  å‰å‡ 天我们报é“了Googleçš„Matt Cutts确认了AdSenseçš„Mediabot的确是会帮助Googlebot抓å–网页的消æ¯ï¼Œä½†æœ‰éƒ¨åˆ†äººä¸ç›¸ä¿¡Matt Cutts,或者ä¸ç›¸ä¿¡ä»–能代表Google官方。作为Matt Cuttsçš„blog的一åå¿ å®žè¯»è€…ï¼Œæˆ‘è§‰å¾—å®Œå…¨æ²¡å¿…è¦èŠ±è´¹ç¯‡å¹…å†åŽ»ç‰¹åˆ«è¯´æ˜ŽMatt Cuttsçš„æƒå¨æ€§ã€‚我想说的是,Matt Cutts在是Googleå“质管ç†éƒ¨é—¨çš„一åé«˜çº§è½¯ä»¶å·¥ç¨‹å¸ˆï¼Œå¤–ç•Œæ‰€çŸ¥çš„æ˜¯ä»–è´Ÿè´£ç ”å‘阻æ¢Spam与æ¶æ€§æŽ§åˆ¶æŽ’åçš„æŠ€æœ¯ã€‚å› æ¤ï¼Œä¿¡ä¸ä¿¡å½“ç„¶ç”±ä½ ã€‚
  其实上次Matt所é€éœ²çš„仅仅是其ä¸ä¸€æ–¹é¢çš„内容。今天,Mattå†æ¬¡å†™äº†ä¸€ç¯‡éžå¸¸è¯¦ç»†çš„æ–‡ç« ï¼Œè§£é‡Šäº†Googleçš„å„ç§botæ˜¯æ€Žæ ·æŠ“å–网页的,以åŠGoogle最新的BigDaddy在抓å–网页方é¢æœ‰ä»€ä¹ˆæ–°çš„å˜åŒ–ç‰ç‰ï¼Œå†…容éžå¸¸çš„精彩,所以和大家分享一下。
  首先è¦ä»‹ç»çš„是Googleçš„"crawl caching proxy"(爬行缓å˜ä»£ç†ï¼‰ã€‚Matt举了一个ISP与用户的例åæ¥è¯´æ˜Žå®ƒã€‚用户上网时,总是先通过ISP获å–网页内容,然åŽISP就会把用户访问过的网页缓å˜èµ·æ¥å¤‡ç”¨ã€‚比如说,当用户A访问了www.kenwong.cn,那么ä¸å›½ç”µä¿¡ï¼ˆæˆ–网通ç‰ï¼‰å°±ä¼šæŠŠ"å¹»ç的麦克风"å‘é€ç»™ç”¨æˆ·A,然åŽå°†"å¹»ç的麦克风"缓å˜èµ·æ¥ï¼Œå½“用户B在下一秒钟里å†è®¿é—®www.kenwong.cn,那么ä¸å›½ç”µä¿¡å°±ä¼šæŠŠç¼“å˜é‡Œçš„"å¹»ç的麦克风"å‘é€ç»™ç”¨æˆ·Bï¼Œè¿™æ ·å°±èƒ½èŠ‚çœäº†å¸¦å®½ã€‚
  æ£å¦‚本站之å‰æ‰€æŠ¥é“çš„é‚£æ ·ï¼ŒGoogle最新的软件层é¢çš„å‡çº§ï¼ˆè½¬ç§»è‡³BigDaddy)已ç»æŽ¥è¿‘完æˆï¼Œå› æ¤å‡çº§åŽçš„Googleå„æ–¹é¢çš„èƒ½åŠ›éƒ½å°†å¾—åˆ°åŠ å¼ºã€‚è¿™äº›åŠ å¼ºåŒ…æ‹¬äº†æ›´æ™ºèƒ½åŒ–çš„googlebot爬行ã€æ”¹è‰¯çš„规范性以åŠæ›´å¥½çš„收录网页能力。而在Googlebot爬行抓å–网页方é¢ï¼ŒGoogle也采å–了节çœå¸¦å®½çš„方法。Googlebot也éšç€BigDaddyçš„å‡çº§è€Œå¾—到了å‡çº§ã€‚æ–°çš„Googlebotå·²ç»æ£å¼æ”¯æŒäº†gzipç¼–ç ï¼Œæ‰€ä»¥å¦‚æžœä½ çš„ç½‘ç«™å¼€å¯äº†gzipç¼–ç 功能,那么就能节çœGooglebotçˆ¬è¡Œä½ çš„ç½‘é¡µæ—¶æ‰€å 的带宽。
  除了改良的Googlebot外,å‡çº§åŽçš„Google将会采用上é¢æ‰€è¯´åˆ°çš„crawl caching proxyæ¥æŠ“å–网页,以进一æ¥èŠ‚çœå¸¦å®½ã€‚下é¢æ˜¯ä¸€ä¸ªç¤ºæ„å›¾ï¼Œæ˜¾ç¤ºäº†ä¼ ç»Ÿçš„Googlebotæ˜¯æ€Žæ ·çˆ¬è¡Œä¸€ä¸ªç½‘ç«™çš„ï¼š
  从上图å¯è§ï¼Œä»¥Googlebot爬行为主,Server A指的是AdSense,而Server N则å¯ä»¥æ˜¯Googleçš„blogsearch或其它。我们å¯ä»¥çœ‹å‡ºï¼ŒåŒä¸€ä¸ªç½‘站,Googlebot与AdSenseçš„Mediabotã€blogsearchçš„bot都爬行过了,其ä¸æœ‰å¾ˆå¤šé‡å¤çš„爬行。上图抓å–网页的总数一共是23次。我们æ¥çœ‹ä¸€ä¸‹å‡çº§åŽçš„Google所采用的crawl caching proxyåˆæ˜¯æ€Žæ ·çš„情形:
ã€€ã€€å¾ˆæ˜Žæ˜¾ï¼Œå› ä¸ºcrawl caching proxyå°†å„ç§bot的抓å–都缓å˜èµ·æ¥ï¼Œå› æ¤å½“Googlebotå·²ç»æŠ“å–过æŸäº›ç½‘页,而Mediabot或其它botå†æ¬¡æŠ“å–é‡å¤çš„网页时,crawl caching proxy就会å‘挥作用,直接将缓å˜é‡Œçš„网页返回给Mediabotç‰ï¼Œè¿™æ ·å°±ä½¿å¾—实际爬行次数å‡å°‘,节çœäº†å¸¦å®½ã€‚
  从Matt的分æžå¯ä»¥çœ‹å‡ºï¼ŒGoogleè¿™æ ·åšçš„确是能节çœè‡ªå·±åŠç½‘站的带宽,好处是能让Googleçš„å„ç§bot在一定的时间里爬行更多的网页,以方便收录。我的ç†è§£æ˜¯ï¼Œè™½ç„¶å¥½å¤„是相当明显,但å处也是有的。比如,当一个网站它以AdSense的广告费为生,那么它就需è¦AdSenseçš„Mediabotä¸åœåœ°å…‰ä¸´ï¼Œä»¥åˆ†æžå®ƒçš„更新网页的内容,投放更相关的广告。但当这个网站是一个PR值ä¸é”™çš„网站,那么Googlebot很å¯èƒ½ä¼šå¤©å¤©éƒ½æ¥çˆ¬è¡Œå®ƒï¼Œè¿™æ ·ä¸€æ¥ï¼Œcrawl caching proxy就会把Googlebot的爬行缓å˜èµ·æ¥ï¼Œç‰Mediabotå†æ¥çˆ¬è¡Œçš„时候,它就直接把缓å˜çš„内容返回给Mediabotã€‚è¿™æ ·ä¸€æ¥å°±å‡å°‘了Mediabot爬行该网站的次数。由于两ç§bot并ä¸æ˜¯é‡‡ç”¨å®Œå…¨ç›¸åŒçš„å·¥ä½œæœºåˆ¶ï¼Œå› æ¤è¿™ä¸ªç½‘站有å¯èƒ½å› æ¤Mediabot的爬行次数的å‡å°‘而使得显示的AdSense广告的相关性å‡å¼±ã€‚å› æ¤ï¼Œè¿™ç§æ”¹è¿›æœ‰å¯èƒ½å¸¦æ¥ä¸€å®šçš„ä¸å…¬å¹³ã€‚
转载:G速客
最后编辑: 郝聪 编辑于2008/02/19 16:39
  其实上次Matt所é€éœ²çš„仅仅是其ä¸ä¸€æ–¹é¢çš„内容。今天,Mattå†æ¬¡å†™äº†ä¸€ç¯‡éžå¸¸è¯¦ç»†çš„æ–‡ç« ï¼Œè§£é‡Šäº†Googleçš„å„ç§botæ˜¯æ€Žæ ·æŠ“å–网页的,以åŠGoogle最新的BigDaddy在抓å–网页方é¢æœ‰ä»€ä¹ˆæ–°çš„å˜åŒ–ç‰ç‰ï¼Œå†…容éžå¸¸çš„精彩,所以和大家分享一下。
  首先è¦ä»‹ç»çš„是Googleçš„"crawl caching proxy"(爬行缓å˜ä»£ç†ï¼‰ã€‚Matt举了一个ISP与用户的例åæ¥è¯´æ˜Žå®ƒã€‚用户上网时,总是先通过ISP获å–网页内容,然åŽISP就会把用户访问过的网页缓å˜èµ·æ¥å¤‡ç”¨ã€‚比如说,当用户A访问了www.kenwong.cn,那么ä¸å›½ç”µä¿¡ï¼ˆæˆ–网通ç‰ï¼‰å°±ä¼šæŠŠ"å¹»ç的麦克风"å‘é€ç»™ç”¨æˆ·A,然åŽå°†"å¹»ç的麦克风"缓å˜èµ·æ¥ï¼Œå½“用户B在下一秒钟里å†è®¿é—®www.kenwong.cn,那么ä¸å›½ç”µä¿¡å°±ä¼šæŠŠç¼“å˜é‡Œçš„"å¹»ç的麦克风"å‘é€ç»™ç”¨æˆ·Bï¼Œè¿™æ ·å°±èƒ½èŠ‚çœäº†å¸¦å®½ã€‚
  æ£å¦‚本站之å‰æ‰€æŠ¥é“çš„é‚£æ ·ï¼ŒGoogle最新的软件层é¢çš„å‡çº§ï¼ˆè½¬ç§»è‡³BigDaddy)已ç»æŽ¥è¿‘完æˆï¼Œå› æ¤å‡çº§åŽçš„Googleå„æ–¹é¢çš„èƒ½åŠ›éƒ½å°†å¾—åˆ°åŠ å¼ºã€‚è¿™äº›åŠ å¼ºåŒ…æ‹¬äº†æ›´æ™ºèƒ½åŒ–çš„googlebot爬行ã€æ”¹è‰¯çš„规范性以åŠæ›´å¥½çš„收录网页能力。而在Googlebot爬行抓å–网页方é¢ï¼ŒGoogle也采å–了节çœå¸¦å®½çš„方法。Googlebot也éšç€BigDaddyçš„å‡çº§è€Œå¾—到了å‡çº§ã€‚æ–°çš„Googlebotå·²ç»æ£å¼æ”¯æŒäº†gzipç¼–ç ï¼Œæ‰€ä»¥å¦‚æžœä½ çš„ç½‘ç«™å¼€å¯äº†gzipç¼–ç 功能,那么就能节çœGooglebotçˆ¬è¡Œä½ çš„ç½‘é¡µæ—¶æ‰€å 的带宽。
  除了改良的Googlebot外,å‡çº§åŽçš„Google将会采用上é¢æ‰€è¯´åˆ°çš„crawl caching proxyæ¥æŠ“å–网页,以进一æ¥èŠ‚çœå¸¦å®½ã€‚下é¢æ˜¯ä¸€ä¸ªç¤ºæ„å›¾ï¼Œæ˜¾ç¤ºäº†ä¼ ç»Ÿçš„Googlebotæ˜¯æ€Žæ ·çˆ¬è¡Œä¸€ä¸ªç½‘ç«™çš„ï¼š
  从上图å¯è§ï¼Œä»¥Googlebot爬行为主,Server A指的是AdSense,而Server N则å¯ä»¥æ˜¯Googleçš„blogsearch或其它。我们å¯ä»¥çœ‹å‡ºï¼ŒåŒä¸€ä¸ªç½‘站,Googlebot与AdSenseçš„Mediabotã€blogsearchçš„bot都爬行过了,其ä¸æœ‰å¾ˆå¤šé‡å¤çš„爬行。上图抓å–网页的总数一共是23次。我们æ¥çœ‹ä¸€ä¸‹å‡çº§åŽçš„Google所采用的crawl caching proxyåˆæ˜¯æ€Žæ ·çš„情形:
ã€€ã€€å¾ˆæ˜Žæ˜¾ï¼Œå› ä¸ºcrawl caching proxyå°†å„ç§bot的抓å–都缓å˜èµ·æ¥ï¼Œå› æ¤å½“Googlebotå·²ç»æŠ“å–过æŸäº›ç½‘页,而Mediabot或其它botå†æ¬¡æŠ“å–é‡å¤çš„网页时,crawl caching proxy就会å‘挥作用,直接将缓å˜é‡Œçš„网页返回给Mediabotç‰ï¼Œè¿™æ ·å°±ä½¿å¾—实际爬行次数å‡å°‘,节çœäº†å¸¦å®½ã€‚
  从Matt的分æžå¯ä»¥çœ‹å‡ºï¼ŒGoogleè¿™æ ·åšçš„确是能节çœè‡ªå·±åŠç½‘站的带宽,好处是能让Googleçš„å„ç§bot在一定的时间里爬行更多的网页,以方便收录。我的ç†è§£æ˜¯ï¼Œè™½ç„¶å¥½å¤„是相当明显,但å处也是有的。比如,当一个网站它以AdSense的广告费为生,那么它就需è¦AdSenseçš„Mediabotä¸åœåœ°å…‰ä¸´ï¼Œä»¥åˆ†æžå®ƒçš„更新网页的内容,投放更相关的广告。但当这个网站是一个PR值ä¸é”™çš„网站,那么Googlebot很å¯èƒ½ä¼šå¤©å¤©éƒ½æ¥çˆ¬è¡Œå®ƒï¼Œè¿™æ ·ä¸€æ¥ï¼Œcrawl caching proxy就会把Googlebot的爬行缓å˜èµ·æ¥ï¼Œç‰Mediabotå†æ¥çˆ¬è¡Œçš„时候,它就直接把缓å˜çš„内容返回给Mediabotã€‚è¿™æ ·ä¸€æ¥å°±å‡å°‘了Mediabot爬行该网站的次数。由于两ç§bot并ä¸æ˜¯é‡‡ç”¨å®Œå…¨ç›¸åŒçš„å·¥ä½œæœºåˆ¶ï¼Œå› æ¤è¿™ä¸ªç½‘站有å¯èƒ½å› æ¤Mediabot的爬行次数的å‡å°‘而使得显示的AdSense广告的相关性å‡å¼±ã€‚å› æ¤ï¼Œè¿™ç§æ”¹è¿›æœ‰å¯èƒ½å¸¦æ¥ä¸€å®šçš„ä¸å…¬å¹³ã€‚
转载:G速客
相关日志
è°·æŒç©¿è¶Šæœç´¢-è°·æŒå®˜æ–¹æ„šäººèŠ‚玩笑
Google将在æœç´¢ç»“果排å算法ä¸è€ƒè™‘æ¥è‡ªTwitterã€Quoraç‰ç¤¾ä¼šåŒ–网络社区的内容
桥页SEO:网站自我æ¯ç工具
《Google官方SEO入门指å—》å四: 对网站管ç†å‘˜æœ‰ç”¨çš„资æº(完)
《Google官方SEO入门指å—》å三:充分利用网站分æžå·¥å…·
《Google官方SEO入门指å—》å二:充分利用å…费的网站管ç†å‘˜å·¥å…·
《Google官方SEO入门指å—》å一:以æ°å½“çš„æ–¹å¼æŽ¨å¹¿ä½ 的网站
《Google官方SEO入门指å—》åï¼šä¸ºé“¾æŽ¥æ·»åŠ nofollow属性
《Google官方SEO入门指å—》ä¹ï¼šæœ‰æ•ˆä½¿ç”¨robots.txt
《Google官方SEO入门指å—》八:网页图片优化
è°·æŒç©¿è¶Šæœç´¢-è°·æŒå®˜æ–¹æ„šäººèŠ‚玩笑
Google将在æœç´¢ç»“果排å算法ä¸è€ƒè™‘æ¥è‡ªTwitterã€Quoraç‰ç¤¾ä¼šåŒ–网络社区的内容
桥页SEO:网站自我æ¯ç工具
《Google官方SEO入门指å—》å四: 对网站管ç†å‘˜æœ‰ç”¨çš„资æº(完)
《Google官方SEO入门指å—》å三:充分利用网站分æžå·¥å…·
《Google官方SEO入门指å—》å二:充分利用å…费的网站管ç†å‘˜å·¥å…·
《Google官方SEO入门指å—》å一:以æ°å½“çš„æ–¹å¼æŽ¨å¹¿ä½ 的网站
《Google官方SEO入门指å—》åï¼šä¸ºé“¾æŽ¥æ·»åŠ nofollow属性
《Google官方SEO入门指å—》ä¹ï¼šæœ‰æ•ˆä½¿ç”¨robots.txt
《Google官方SEO入门指å—》八:网页图片优化
最后编辑: 郝聪 编辑于2008/02/19 16:39
åšçˆ±
2008/12/25 18:00
ä½ åœ¨æ”¾çš„ä»€ä¹ˆå±å•Š
d
2007/04/21 19:14
d
2007/04/21 19:14
æ€äººæ¸¸æˆ
2007/02/14 09:59
æ–‡ç« å¾ˆå¥½ï¼Œæƒ…äººèŠ‚å¿«ä¹!
分页: 1/1 1