Google一直在致力于æ高æœç´¢ç»“果的准确性ã€åˆç†æ€§ã€å…¬æ£æ€§ã€‚举两个例å,比如,早å‰é’“鱼网站盛行时期,Google有效识别了钓鱼站点并æˆåŠŸé˜»æ¢äº†æ¨¡ä»¿ç«™ç‚¹åœ¨æœç´¢ç»“果获得较好的排åï¼Œæ— è®ºæ˜¯åˆ©ç”¨äººå·¥æ•°æ®åº“还是å¤åˆ¶ç½‘页ã€ç½‘ç«™æƒå¨åº¦è¿™æ ·çš„ç³»æ•°ï¼Œè¿™æ ·çš„è°ƒæ•´çš„ç¡®é™ä½Žäº†æœç´¢ç”¨æˆ·å—到利益å±å®³çš„å¯èƒ½æ€§ï¼›å†æ¯”如,Googleä¸æ–惩罚SPAM SEOç«™ç‚¹ï¼Œå¯¹æ— å®žé™…ä»·å€¼çš„ç«™ç‚¹è¿›è¡Œé™ä½Žæƒé‡æˆ–直接在数æ®åº“ä¸åˆ é™¤ï¼Œè¿™æ— ç–‘éƒ½æ˜¯åœ¨åŠ›æŠ¥æœç´¢ç»“果质é‡ã€‚
在SEOä¼˜åŒ–ç ”ç©¶ä¸ï¼Œæˆ‘需è¦ä¸æ–了解æœç´¢ç»“果的å˜åŒ–趋势,这个过程也使我切身感å—到Google在æ高用户æœç´¢ä½“验的过程ä¸å¯è°“ä¸æ–¼ä½™åŠ›ã€‚这的确需è¦æ¯ä¸ªSEO人都认真æ€è€ƒï¼Œåˆ°åº•æ˜¯SEO在改å˜æœç´¢ç»“果还是æœç´¢ç»“果在改å˜SEOï¼
互è”网ä¼ä¸šæ£æˆä¸ºå½“下的市场çƒç‚¹———就在阿里巴巴赴港IPO进入倒计时之际,å‰æœŸè‚¡ä»·æ¥æ¥é£™å‡çš„百度(BIDU.US)åˆæŠ›å‡ºäº†é‡ç£…炸弹:百度宣布进军C2C市场,与阿里巴巴集团旗下的淘å®ç½‘和腾讯旗下的æ‹æ‹ç½‘展开争夺战。至æ¤ï¼Œä¸‰å®¶å¸‚值最大的ä¸å›½äº’è”网公å¸ï¼ˆçš†è¶…过百亿美元)都将目光瞄å‘了å‘å±•æ½œåŠ›æ— é™çš„C2C市场。
iResearchè‰¾ç‘žå’¨è¯¢æ ¹æ®Hitwiseå‘布的美国æœç´¢å¼•æ“Žæœç´¢é‡å¸‚场份é¢æ•°æ®å‘现,2007å¹´7月美国æœç´¢å¼•æ“Žæœç´¢é‡å¸‚场份é¢ä¸Googleå æ®äº†64.4%;雅虎æœç´¢å±…其次,å æ®æœç´¢é‡å¸‚场份é¢çš„22.1%;而MSN/Liveæœç´¢å 市场份é¢çš„8.8%ï¼›ASKæœç´¢åˆ™å æœç´¢é‡å¸‚场份é¢çš„3.2%.
è°·æŒç½‘站管ç†å‘˜å·¥å…·ä¸ä»…能帮助我们和网站管ç†å‘˜æ²Ÿé€šï¼Œä¹Ÿæä¾›äº†ä¸¾æŠ¥åžƒåœ¾ç½‘ç«™çš„åœ¨çº¿æ¸ é“。感谢我们的用户,我们收到了很多垃圾网站举报。这些举报对我们改进æœç´¢è´¨é‡ï¼Œç»™å‡ºæ›´ç›¸å…³ã€æœ‰ç”¨çš„结果有很大帮助。谷æŒç”¨æˆ·å¯ä»¥å¾ˆæ–¹ä¾¿åœ°é€šè¿‡ä¸¤ä¸ªæ¸ é“(认è¯çš„å’Œä¸éœ€è®¤è¯çš„)进行垃圾网站举报。我们往往优先处ç†é€šè¿‡è®¤è¯çš„æ¸ é“(è¬å¦‚ç«™é•¿å·¥å…·ï¼‰é€’äº¤çš„åžƒåœ¾ç½‘ç«™ã€‚å½“ç„¶ï¼Œä½ ä¹Ÿå¯ä»¥æ交未ç»è®¤è¯æŠ¥å‘Šã€‚由于未ç»è®¤è¯æŠ¥å‘Šæ˜¯åŒ¿å举报,我们给他们赋予的优先级会相对较低。这里我们想讲一讲我们是如何处ç†ä»Žç«™é•¿ç®¡ç†å‘˜å·¥å…·å¾—到的垃圾网站举报的。
通常我们对于文本信æ¯ä¹‹é—´å¾—相关性得计算都是采用å‘é‡çš„办法,我在以å‰çš„PPT里曾ç»æ到过。然而对于文本信æ¯æ›´æ·±å±‚次的分æžä¸èƒ½å•çº¯ä»Žå—é¢ä¸Šåˆ†æžä¸€ç¯‡æ–‡ç« 的关键è¯ï¼Œæ›´é‡è¦çš„是它éšå«çš„扩展的æ„义。
ä¼ ç»Ÿçš„å…³äºŽè®¡ç®—æ–‡æœ¬ç›¸å…³åº¦å’Œã€ç½‘页和查询的相关性】的计算都是采用匹é…çš„æ–¹å¼è¿›è¡Œçš„,然而这åªèƒ½æ˜¯åŸºäºŽå—é¢æ„义上的统计计算。这里介ç»çš„åšæ³•æ˜¯é‡‡ç”¨å…³é”®è¯ç›¸å…³æ€§æ‰©å±•çš„åšæ³•ä»Žè€Œå¾—åˆ°æ›´åŠ ç²¾ç¡®çš„ç›¸å…³åº¦è®¡ç®—ã€‚
ã€æœ€çŸè·¯å¾„】 圆明å›çš„北部有一个迷宫,æ®è¯´å¤æ—¶å€™æ¯æ¬¡æœ‰åº†å…¸åœ¨åœ†æ˜Žå›çš„时候,皇å¸ä¼šæ´¾ä¸€äº›å®«å¥³èµ°è¿·å®«ï¼Œçœ‹è°æœ€å…ˆèµ°åˆ°è¿·å®«å†…çš„äºå,会有ä¸é”™çš„奖èµã€‚ 迷宫问题对数å¦å®¶ä»¬æ¥è®²è™½ç„¶æ˜¯å°å„¿ç§‘但在计算机课程上å´éžå¸¸é‡è¦ï¼Œå› 为ä¸åŒçš„求解会涉åŠåˆ°é€’归,广度优先和深度优先ç‰ç®—法。 迷宫毕竟是一个放置在2维空间的有é™è”系的网络,也就是说,迷宫里的æ¯ä¸€ä¸ªç‚¹ï¼Œæœ€å¤šåªå’Œå‘¨å›´çš„4个点(上下左å³)å‘生关系,而且这些点的ä½ç½®æ˜¯å›ºå®šçš„。
ç†è§£åˆ†è¯æŠ€æœ¯å¯¹SEO工作具有æžå¤§æ„义,å¯ä»¥ä»Žç§‘å¦çš„角度æ¥åˆ†æžå…³é”®è¯ï¼Œå¹¶æž„想关键è¯éƒ¨ç½²ç–略;如果æ£å‘最大匹é…算法的结论是æ£ç¡®çš„,那基本上å¯ä»¥æ–定,切è¯åŽçš„分è¯çš„æƒé‡æ˜¯æŒ‰ç…§æ£å‘排åºçš„
我还想æžæ˜Žç™½çš„是专用è¯å…¸å’Œæ™®é€šè¯å…¸ï¼Œå“ªä¸€ä¸ªæƒé‡ä¼šæ›´é«˜ï¼Ÿ
好网站的特性
好的网站通常内容丰富ã€æ›´æ–°åŠæ—¶ã€‚好的网站往往链接其他好网站,åŒæ—¶ä¹Ÿå¸å¼•æ›´å¤šç‚¹å‡»ã€‚自然的链接是谷æŒé¡µé¢æŽ’å算法决定排åçš„å› ç´ ä¹‹ä¸€ï¼Œä½†æ˜¯ï¼Œå¾ˆå¤šç½‘ç«™ç®¡ç†å‘˜è®¤ä¸º“åå‘链接越多,网站的排å越高”。这一ç†è®ºæ˜¯é”™è¯¯çš„。 è°·æŒçš„排å算法对网站的评价是一个多元化的系统。在考虑åå‘链接的åŒæ—¶ä¼šç”„别有效链接和自动产生的链接。一个明显的例å就是 2007 å¹´ 5 月份结æŸçš„渡虎谷大赛,谷æŒæŽ’å第一的网站的åå‘链接总数是 3,600 个左å³, 其他许多低排å网站的åå‘链接超过了 10,000 个,大多数的链接是程åºäº§ç”Ÿçš„链接。
éšç€åœ¨çº¿å¹¿å‘Šçš„æµè¡Œï¼Œpay by per click (æ¯æ¬¡ç‚¹å‡»ä»˜é’±)çš„æ¨¡å¼ é€æ¸è¢«å¤§å®¶æŽ¥å—。å¯æ˜¯éšä¹‹è€Œæ¥çš„问题就是fraud clicking的预防迫在眉æ·ï¼Œå› 为这将直接关系到这ç§å¹¿å‘Šæ¨¡å¼èƒ½å¦é•¿ä¹…生å˜å’Œèƒ½å¦æˆä¸ºä¸€ç§çœŸæ£çš„网站拥有者的收入æ¥æºã€‚
下é¢ä»‹ç»Google Adsense系统如何从系统角度出å‘防æ¢ç‚¹å‡»æ¬ºéª—,希望对其它的在线广告系统防æ¢è™šå‡ç‚¹å‡»èƒ½æœ‰å¾ˆå¥½çš„指导作用:
  æ®æ‚‰ï¼Œè°·æŒç½‘站优化器是一款多功能的登陆页é¢ä¼˜åŒ–工具,å¯ä»¥è®©è¥é”€äººå‘˜å¾—以测试å„ç§æœ‰å…³ç½‘é¡µå†…å®¹çš„æƒ³æ³•ï¼Œä¾‹å¦‚æ ‡é¢˜ã€ä¿ƒé”€æ€§å‰¯æœ¬æˆ–图åƒç‰ã€‚该应用æ供了易于阅读的报告,让广告主清晰地看到究竟哪一ç§å˜åŒ–最能引起站点访问者的共鸣。它是一ç§è‡ªåŠ©å¼åº”用,让站长自己动手设置和è¿è¡Œä¸åŒç±»åž‹çš„登陆页é¢å®žéªŒã€‚
  官方é€éœ²ï¼ŒGoogle(è°·æŒ)网站优化器(www.google.com/websiteoptimizer)ç›®å‰ä¸ºè¯•ç”¨ç‰ˆï¼Œå®ƒæ•´åˆåˆ°äº†Google(è°·æŒ)AdWords计划ä¸ï¼Œå¹¶å…è´¹æ供给AdWords广告主。
  æ®ç§°ä»ŠåŽçš„å‡ ä¸ªæ˜ŸæœŸï¼Œè°·æŒç½‘站优化器应用自动对所有广告主的å¸å·å¼€æ”¾ã€‚站长å¯ä»¥æ ¹æ®æœ€é«˜çš„转化率æ¥åˆ¤æ–哪些内容是最有效的。
上é¢è¯´è¿‡,ç»è¿‡åˆ†æžå¾—出百度的分è¯ç³»ç»Ÿé‡‡ç”¨åŒå‘最大匹é…分è¯,但是åŽæ¥å‘现推ç†è¿‡ç¨‹ä¸å˜åœ¨ä¸€ä¸ªæ¼æ´ž,而且推导出æ¥çš„百度分è¯ç®—法æ¥éª¤è¿˜æ˜¯è¿‡äºŽç¹ç,所以进一æ¥è¿›è¡Œåˆ†æž,看看是å¦å‰é¢çš„推导有错误.
拼写检查错误æ示是æœç´¢å¼•æ“Žéƒ½å…·å¤‡çš„一个功能,也就是说用户æ交查询 ç»™æœç´¢å¼•æ“Ž,æœç´¢å¼•æ“Žæ£€æŸ¥çœ‹æ˜¯å¦ç”¨æˆ·è¾“入的拼写有错误,对于ä¸æ–‡ç”¨æˆ·æ¥è¯´ä¸€èˆ¬é€ æˆçš„é”™è¯¯æ˜¯è¾“å…¥æ³•é€ æˆçš„错误.那么我们就æ¥åˆ†æžçœ‹çœ‹ç™¾åº¦æ˜¯ 怎么实现这一功能的.
  我们分æžæ‹¼å†™æ£€æŸ¥ç³»ç»Ÿå…³æ³¨ä»¥ä¸‹å‡ 个问题:
  (1)系统如何判æ–用户的输入是有å¯èƒ½å‘生错误的查询呢?
  (2)如果判æ–是å¯èƒ½é”™è¯¯çš„查询输入,如何æ示æ£ç¡®çš„è¯æ±‡å‘¢?
éšç€æœç´¢ç»æµŽçš„å´›èµ·ï¼Œäººä»¬å¼€å§‹è¶ŠåŠ å…³æ³¨å…¨çƒå„大æœç´¢å¼•æ“Žçš„性能ã€æŠ€æœ¯å’Œæ—¥æµé‡ã€‚作为ä¼ä¸šï¼Œä¼šæ ¹æ®æœç´¢å¼•æ“Žçš„知å度以åŠæ—¥æµé‡æ¥é€‰æ‹©æ˜¯å¦è¦æŠ•æ”¾å¹¿å‘Šç‰ï¼›ä½œä¸ºæ™®é€šç½‘æ°‘ï¼Œä¼šæ ¹æ®æœç´¢å¼•æ“Žçš„性能和技术æ¥é€‰æ‹©è‡ªå·±å–œæ¬¢çš„引擎查找资料;作为技术人员,会把有代表性的æœç´¢å¼•æ“Žä½œä¸ºç ”究对象. æœç´¢å¼•æ“Žç»æµŽçš„崛起,åˆä¸€æ¬¡å‘人们è¯æ˜Žäº†ç½‘络所蕴è—的巨大商机。网络离开了æœç´¢å°†åªå‰©ä¸‹ç©ºæ´žæ‚乱的数æ®ï¼Œä»¥åŠå¤§é‡ç‰å¾…去费力挖掘的金矿。
Search engine spider(bot) id list
下é¢æ˜¯è°¢å°”ç›–.布林的回ç”:
“简å•åŒ–是一个é‡è¦çš„趋势,所以我们éžå¸¸å…³æ³¨ã€‚就科技这æ¡è·¯æ¥è¯´ï¼Œå®ƒå·²ç»å˜å¾—过分å¤æ‚了,而åŒæ—¶ï¼Œç®€å•åŒ–确是人们使用Google的最基本å¸å¼•åŠ›ã€‚对于互è”网技术而言,这ç§å¤æ‚å·²ç»æˆä¸ºäº†ä¸€ä¸ªä¸å¾—ä¸åŠªåŠ›è§£å†³çš„问题,而用设备或者计算机æ¥è§£å†³æ˜¯éžå¸¸å›°éš¾çš„。æˆåŠŸæ˜¯æ¥è‡ªäºŽç®€å•åŒ–的。看看苹果公å¸ï¼Œä»–们æ£åœ¨åšçš„使得他们éžå¸¸æˆåŠŸã€‚â€
“我们更应该关注特色,而ä¸æ˜¯äº§å“本身。我们必须解决一个糟糕的问题,就是产å“的过分å¤æ‚。我们ä¸æƒ³é‡‡ç”¨20ç§ä¸åŒçš„æ–¹å¼æ¥ä½¿ç”¨20ç§ä¸åŒçš„产å“。我个人感觉,我们已ç»å¤±åŽ»äº†æŒç»å¸å¼•ç”¨æˆ·çš„ä¸€åˆ‡ã€‚æˆ‘æ›´æƒ³æ‹¥æœ‰å°‘æ•°å‡ ä¸ªå…±åŒç‰¹è‰²çš„产å“。â€
  日å‰ï¼Œæœç‹å…¬å¸æ——下自主å“牌æœç‹—æœç´¢å¼•æ“Žå®£å¸ƒï¼Œæœç‹—网页æœç´¢3.0版本将于2007å¹´1月1æ—¥æ£å¼ä¸Šçº¿ï¼Œæ–°ç‰ˆæœ¬å°†å‡å€Ÿå…¶è‡ªä¸»ç ”å‘çš„æœåŠ¡å™¨é›†ç¾¤å¹¶è¡Œçš„抓å–技术,æˆä¸ºå…¨çƒé¦–个ä¸æ–‡ç½‘站收录é‡è¾¾åˆ°100亿的æœç´¢å¼•æ“Žï¼Œå¹¶ä»¥æ¯å¤©5亿网页的更新速度åŠç‹¬ä¸€æ— 二的æœç‹—网页评级体系,在海é‡ã€åŠæ—¶ã€ç²¾å‡†ç‰æœç´¢å¼•æ“ŽåŸºæœ¬æŒ‡æ ‡ä¸Šå…¨é¢å‡çº§ä¸æ–‡æœç´¢å¼•æ“Žçš„用户体验,å†æ¬¡æŽ€èµ·æœç´¢å¼•æ“Žæ–°ä¸€è½®æŠ€æœ¯é©å‘½ã€‚
  Googleå’ŒBaidu收录网站页é¢çš„æ ‡å‡†æ˜¯ä¸åŒçš„。
  为了验è¯è¿™ä¸€ç‚¹ï¼Œæˆ‘åšä¸€ä¸ªå®žéªŒï¼šæˆ‘申请了一个新域åwww.moon-blog.com,ä¸å†å…¶ä»–任何网站åšé“¾æŽ¥ï¼Œè€Œç›´æŽ¥å¾€ç™¾åº¦å’ŒGoogleæœç´¢å¼•æ“Žçš„æ交页é¢è¿›è¡Œæ交。一个月过去了,百度收录的网页是24,900篇,Google收录的网页是0,这è¯å®žäº†æˆ‘以å‰çš„猜测。
说的简å•æ˜“æ‡‚ä¸€äº›ï¼Œç½‘ç»œçˆ¬è™«è·Ÿä½ ä½¿ç”¨çš„ã€–ç¦»çº¿é˜…è¯»ã€—å·¥å…·å·®ä¸å¤šã€‚说离线,其实还是è¦è·Ÿç½‘络è”结,å¦åˆ™æ€Žä¹ˆæŠ“东西下æ¥ï¼Ÿé‚£ä¹ˆä¸åŒçš„地方在哪里?
1】 网络爬虫高度å¯é…置性。
2】 网络爬虫å¯ä»¥è§£æžæŠ“到的网页里的链接
3】 网络爬虫有简å•çš„å˜å‚¨é…ç½®
4】 ç½‘ç»œçˆ¬è™«æ‹¥æœ‰æ™ºèƒ½çš„æ ¹æ®ç½‘页更新分æžåŠŸèƒ½
5】 网络爬虫的效率相当的高
那么ä¾æ®ç‰¹å¾ï¼Œå…¶å®žä¹Ÿå°±æ˜¯è¦æ±‚了,如何设计爬虫呢?è¦æ³¨æ„哪些æ¥éª¤å‘¢ï¼Ÿ