Googleæœç´¢ç»“果排列算法—Google工程师详述
本文作者马特-å¡å…¹ï¼ˆMatt Cutts)是Googleå…¬å¸å“质管ç†éƒ¨é—¨çš„软件工程师。他的工作主è¦æ˜¯ç»™å¥½çš„网站评定ç‰çº§ï¼Œå¹¶è´Ÿè´£å¼€å‘阻æ¢è™šå‡æˆ–垃圾网站出现在Googleæœç´¢ç»“果上的技术。
图书馆管ç†å‘˜ä»¬æå‡ºæœ€å¤šçš„é—®é¢˜ä¹‹ä¸€æ˜¯ï¼šâ€œå¯¹äºŽä»€ä¹ˆæ ·çš„ç»“æžœåº”è¯¥ä½äºŽæœç´¢åˆ—表的最上方,Google是如何选择的?â€çŽ°åœ¨å“质工程师马特-å¡å…¹ä»‹ç»äº†å¿«é€Ÿå…¥é—¨çš„知识,解释了Google是如何在网上爬行和索引,以åŠå¦‚何评定æœç´¢ç»“æžœç‰çº§çš„。马特也å‘å¦æ ¡å›¾ä¹¦é¦†ç®¡ç†å‘˜æ出建议,告诉他们如何辅导å¦ç”Ÿã€‚
爬行和索引
åœ¨ä½ æµè§ˆåŒ…å«äº†Googleæœç´¢ç»“果的网页之å‰ï¼Œè¦å‘生很多事情。首先是在万维网数以å亿计的网页上爬行和索引,这个工作是由Googlebot完æˆçš„,它负责与全çƒçš„网络æœåŠ¡å™¨è¿žæŽ¥ä»¥æ”¶é›†æ–‡ä»¶ã€‚爬行ä¸æ˜¯çœŸçš„在网上漫游,而是访问网络æœåŠ¡å™¨è¿”回到一个特定的网页上,接ç€æ‰«æ该网页建立超链接并为æ¯ä¸€ä¸ªç½‘页编上å·ç 。爬行å¯æ”¶é›†å¤§é‡çš„文件,但这些文件还ä¸èƒ½ç›´æŽ¥ç”¨äºŽæœç´¢ã€‚
å¦‚æžœæ²¡æœ‰ç´¢å¼•ï¼Œåœ¨ä½ æƒ³æŸ¥è¯¢å¦‚â€œcivil warâ€ï¼ˆå—北战争)ç‰å†…容时,Googleçš„æœåŠ¡å™¨å°†ä¸å¾—ä¸åœ¨ä½ æ¯æ¬¡æœç´¢æ—¶é˜…读æ¯ä¸€ä»½æ–‡ä»¶çš„å†…å®¹ã€‚å› æ¤ç¬¬äºŒä¸ªæ¥éª¤æ˜¯è¦å»ºç«‹ä¸€ä¸ªç´¢å¼•ï¼Œè¿™æ ·å°±éœ€è¦â€œè½¬æ¢â€çˆ¬è¡Œæ‰€èŽ·å¾—çš„æ•°æ®ã€‚为了ä¸å¿…在æ¯ä¸€ä»½æ–‡ä»¶ä¸Šæ‰«ææ¯ä¸€ä¸ªå•è¯ï¼Œå°±éœ€è¦åœ¨æ•°æ®ä¸Šåšäº›æ–‡ç« ,以便显示包å«äº†ç‰¹å®šå•è¯çš„所有文件。例如,å‡è®¾å•è¯â€œcivilâ€åœ¨ç¼–å·ä¸º3ã€8ã€22ã€56ã€68å’Œ92的文件上出现过,而å•è¯â€œwarâ€å‡ºçŽ°ç¼–å·ä¸º2ã€8ã€15ã€22ã€68å’Œ77的文件上。
一旦建立了索引,就开始对文件进行ç‰çº§è¯„定并确定它们的相关性。å‡å¦‚æŸä¸ªäººä¸ŠGoogleæœç´¢å¹¶è¾“入“civil warâ€ï¼Œä¸ºå‘ˆçŽ°å’Œè¯„ä»·æœç´¢ç»“果需è¦åšä¸¤ä»¶äº‹ï¼šä¸€æ˜¯æŸ¥æ‰¾åŒ…å«äº†ç”¨æˆ·æ问的网页;二是按照相关性排定匹é…网页的ä½ç½®ã€‚Googleå·²ç»å¼€å‘出一个有趣的技术å¯åŠ 速第一æ¥éª¤çš„过程:ä¸æ˜¯å°†æ‰€æœ‰ç´¢å¼•å˜å‚¨åœ¨ä¸€å°ç”µè„‘上,而是使用数百å°ç”µè„‘åšè¿™ç§å·¥ä½œã€‚由于任务被分é…到很多电脑上,使得查询ç”案更为迅速。
ä¸ºæ›´åŠ å½¢è±¡åœ°æ述这个过程,å¯ä»¥è®¾æƒ³ä¸‹ä¸€æœ¬30页厚书的索引。如果一个人在索引ä¸æŸ¥æ‰¾æ•°é¡µçš„ä¿¡æ¯ï¼Œé‚£ä¹ˆæ¯ä¸€æ¬¡æœç´¢éƒ½è‡³å°‘需è¦èŠ±å‡ ç§’é’Ÿçš„æ—¶é—´ï¼›ä½†å¦‚æžœä½ å°†ç´¢å¼•çš„æ¯ä¸€é¡µåˆ†ç»™ä¸åŒçš„人去查找呢?三å个人分别查找索引的ä¸åŒéƒ¨åˆ†ï¼Œè¦æ¯”一个人独自查找快的多。åŒæ ·ï¼ŒGoogle也是将数æ®åˆ†é…到å„å°ç”µè„‘上以便å¯ä»¥æ›´å¿«åœ°æŸ¥æ‰¾æ–‡ä»¶ã€‚
如何查找包å«äº†ç”¨æˆ·æ问的网页?让我们返回到上é¢ä¸¾çš„“civil warâ€ä¾‹å。å•è¯â€œcivilâ€åœ¨ç¼–å·ä¸º3ã€8ã€22ã€56ã€68å’Œ92的文件上,å•è¯â€œwarâ€åœ¨ç¼–å·ä¸º2ã€8ã€15ã€22ã€68å’Œ77的文件上,我们å¯ä»¥åœ¨ç½‘页上显示文件并寻找包å«ä¸¤ä¸ªå•è¯çš„文件(从下表ä¸å¯ä»¥çœ‹å‡ºæ˜¯8ã€22å’Œ68å·æ–‡ä»¶ï¼‰ã€‚
å•è¯civil 3 8 22 56 68 92
å•è¯war 2 8 15 22 68 77
两个å•è¯éƒ½å‡ºçŽ° 8 22 68
包å«äº†ä¸€ä¸ªå•è¯çš„æ–‡ä»¶åˆ—è¡¨è¢«ç§°ä¸ºâ€œæ–‡ä»¶æ ‡è¯†åˆ—è¡¨â€ï¼ŒæŸ¥æ‰¾åŒ…å«ä¸¤ä¸ªå•è¯çš„æ–‡ä»¶è¢«ç§°ä¸ºâ€œæ–‡ä»¶æ ‡è¯†åˆ—è¡¨çš„äº¤é›†â€ã€‚
评定æœç´¢ç»“æžœ
有了包å«ç”¨æˆ·æ问的网页åŽï¼Œå°±è¯¥æŒ‰ç…§ç›¸å…³æ€§è¯„定网页了。Google使用了很多技术,其ä¸PageRank算法是最有å的。PageRank评定的是两ç§äº‹æƒ…:从网站到æŸä¸€ç½‘页有多少个链接,æ供链接的网站的排å。使用PageRank,æ¥è‡ªCNN和纽约时报网站的链接的价值,是很多ä¸å¤ªæœ‰å网站的两å€ã€‚
除了PageRank外Google还使用了很多其他技术,例如一份文件所包å«çš„“civilâ€å’Œâ€œwarâ€ä¸¤ä¸ªå•è¯é 的很近,就比åªä½¿ç”¨äº†â€œwarâ€å•è¯çš„包å«â€œRevolutionary Warâ€ï¼ˆç‹¬ç«‹æˆ˜äº‰ï¼‰çš„文件相关性è¦å¤§çš„多。å¦å¤–在题目ä¸å‡ºçŽ°äº†â€œcivil warâ€çš„网页,它的相关性就比题目为“19th Century American Clothingâ€ï¼ˆ19世纪的美国æœè£…)è¦é‡è¦çš„多。åŒæ ·å¦‚果“civil warâ€åœ¨ç½‘页上出现了数次,比出现一次的网页è¦ç›¸å…³çš„多。
Google的目的是è¦æ‰¾åˆ°çŸ¥å度和相关性都大的网页。如果两个网页出现匹é…æ问的信æ¯æ•°é‡å‡ ä¹Žä¸€æ ·ï¼Œæˆ‘ä»¬å¸¸å¸¸ä¼šé€‰æ‹©æ›´æœ‰å网站的链接。但如果其他方é¢è¡¨æ˜Žä¸€ä¸ªç½‘页更为相关,也会选择更少链接或更低排å的网页。例如,一个网页全篇都是讲“å—北战争â€çš„内容,会比åªæ˜¯ç•¥å¾®æ到“å—北战争â€çš„网页更为有用,å³ä½¿è¿™ä¸ªç½‘页是出现ä¸å¤ªæœ‰å的网站上。一旦我们有了文件的列表和分值,就会选择最高分值ã€æœ€åŒ¹é…的文件。
Google从包å«äº†æé—®å•è¯çš„æ¯ä¸€ä»½æ–‡ä»¶ä¸æå–å‡ å¥è¯ä½œä¸ºæ‘˜è¦æ˜¾ç¤ºï¼ŒæŽ¥ç€å°†æŽ’好的URLs和摘è¦æ˜¾ç¤ºåœ¨æœç´¢ç»“果上。æ£å¦‚ä½ æ‰€çŸ¥é“çš„è¿è¡Œä¸€ä¸ªæœç´¢å™¨éœ€è¦å¤§é‡çš„计算资æºã€‚æ¯ä¸€æ¬¡æœç´¢éœ€è¦500å°ä»¥ä¸Šçš„电脑一起工作,æœç´¢çš„时间还ä¸åˆ°åŠç§’钟。
最后编辑: 郝聪 编辑于2006/09/04 02:53
图书馆管ç†å‘˜ä»¬æå‡ºæœ€å¤šçš„é—®é¢˜ä¹‹ä¸€æ˜¯ï¼šâ€œå¯¹äºŽä»€ä¹ˆæ ·çš„ç»“æžœåº”è¯¥ä½äºŽæœç´¢åˆ—表的最上方,Google是如何选择的?â€çŽ°åœ¨å“质工程师马特-å¡å…¹ä»‹ç»äº†å¿«é€Ÿå…¥é—¨çš„知识,解释了Google是如何在网上爬行和索引,以åŠå¦‚何评定æœç´¢ç»“æžœç‰çº§çš„。马特也å‘å¦æ ¡å›¾ä¹¦é¦†ç®¡ç†å‘˜æ出建议,告诉他们如何辅导å¦ç”Ÿã€‚
爬行和索引
åœ¨ä½ æµè§ˆåŒ…å«äº†Googleæœç´¢ç»“果的网页之å‰ï¼Œè¦å‘生很多事情。首先是在万维网数以å亿计的网页上爬行和索引,这个工作是由Googlebot完æˆçš„,它负责与全çƒçš„网络æœåŠ¡å™¨è¿žæŽ¥ä»¥æ”¶é›†æ–‡ä»¶ã€‚爬行ä¸æ˜¯çœŸçš„在网上漫游,而是访问网络æœåŠ¡å™¨è¿”回到一个特定的网页上,接ç€æ‰«æ该网页建立超链接并为æ¯ä¸€ä¸ªç½‘页编上å·ç 。爬行å¯æ”¶é›†å¤§é‡çš„文件,但这些文件还ä¸èƒ½ç›´æŽ¥ç”¨äºŽæœç´¢ã€‚
å¦‚æžœæ²¡æœ‰ç´¢å¼•ï¼Œåœ¨ä½ æƒ³æŸ¥è¯¢å¦‚â€œcivil warâ€ï¼ˆå—北战争)ç‰å†…容时,Googleçš„æœåŠ¡å™¨å°†ä¸å¾—ä¸åœ¨ä½ æ¯æ¬¡æœç´¢æ—¶é˜…读æ¯ä¸€ä»½æ–‡ä»¶çš„å†…å®¹ã€‚å› æ¤ç¬¬äºŒä¸ªæ¥éª¤æ˜¯è¦å»ºç«‹ä¸€ä¸ªç´¢å¼•ï¼Œè¿™æ ·å°±éœ€è¦â€œè½¬æ¢â€çˆ¬è¡Œæ‰€èŽ·å¾—çš„æ•°æ®ã€‚为了ä¸å¿…在æ¯ä¸€ä»½æ–‡ä»¶ä¸Šæ‰«ææ¯ä¸€ä¸ªå•è¯ï¼Œå°±éœ€è¦åœ¨æ•°æ®ä¸Šåšäº›æ–‡ç« ,以便显示包å«äº†ç‰¹å®šå•è¯çš„所有文件。例如,å‡è®¾å•è¯â€œcivilâ€åœ¨ç¼–å·ä¸º3ã€8ã€22ã€56ã€68å’Œ92的文件上出现过,而å•è¯â€œwarâ€å‡ºçŽ°ç¼–å·ä¸º2ã€8ã€15ã€22ã€68å’Œ77的文件上。
一旦建立了索引,就开始对文件进行ç‰çº§è¯„定并确定它们的相关性。å‡å¦‚æŸä¸ªäººä¸ŠGoogleæœç´¢å¹¶è¾“入“civil warâ€ï¼Œä¸ºå‘ˆçŽ°å’Œè¯„ä»·æœç´¢ç»“果需è¦åšä¸¤ä»¶äº‹ï¼šä¸€æ˜¯æŸ¥æ‰¾åŒ…å«äº†ç”¨æˆ·æ问的网页;二是按照相关性排定匹é…网页的ä½ç½®ã€‚Googleå·²ç»å¼€å‘出一个有趣的技术å¯åŠ 速第一æ¥éª¤çš„过程:ä¸æ˜¯å°†æ‰€æœ‰ç´¢å¼•å˜å‚¨åœ¨ä¸€å°ç”µè„‘上,而是使用数百å°ç”µè„‘åšè¿™ç§å·¥ä½œã€‚由于任务被分é…到很多电脑上,使得查询ç”案更为迅速。
ä¸ºæ›´åŠ å½¢è±¡åœ°æ述这个过程,å¯ä»¥è®¾æƒ³ä¸‹ä¸€æœ¬30页厚书的索引。如果一个人在索引ä¸æŸ¥æ‰¾æ•°é¡µçš„ä¿¡æ¯ï¼Œé‚£ä¹ˆæ¯ä¸€æ¬¡æœç´¢éƒ½è‡³å°‘需è¦èŠ±å‡ ç§’é’Ÿçš„æ—¶é—´ï¼›ä½†å¦‚æžœä½ å°†ç´¢å¼•çš„æ¯ä¸€é¡µåˆ†ç»™ä¸åŒçš„人去查找呢?三å个人分别查找索引的ä¸åŒéƒ¨åˆ†ï¼Œè¦æ¯”一个人独自查找快的多。åŒæ ·ï¼ŒGoogle也是将数æ®åˆ†é…到å„å°ç”µè„‘上以便å¯ä»¥æ›´å¿«åœ°æŸ¥æ‰¾æ–‡ä»¶ã€‚
如何查找包å«äº†ç”¨æˆ·æ问的网页?让我们返回到上é¢ä¸¾çš„“civil warâ€ä¾‹å。å•è¯â€œcivilâ€åœ¨ç¼–å·ä¸º3ã€8ã€22ã€56ã€68å’Œ92的文件上,å•è¯â€œwarâ€åœ¨ç¼–å·ä¸º2ã€8ã€15ã€22ã€68å’Œ77的文件上,我们å¯ä»¥åœ¨ç½‘页上显示文件并寻找包å«ä¸¤ä¸ªå•è¯çš„文件(从下表ä¸å¯ä»¥çœ‹å‡ºæ˜¯8ã€22å’Œ68å·æ–‡ä»¶ï¼‰ã€‚
å•è¯civil 3 8 22 56 68 92
å•è¯war 2 8 15 22 68 77
两个å•è¯éƒ½å‡ºçŽ° 8 22 68
包å«äº†ä¸€ä¸ªå•è¯çš„æ–‡ä»¶åˆ—è¡¨è¢«ç§°ä¸ºâ€œæ–‡ä»¶æ ‡è¯†åˆ—è¡¨â€ï¼ŒæŸ¥æ‰¾åŒ…å«ä¸¤ä¸ªå•è¯çš„æ–‡ä»¶è¢«ç§°ä¸ºâ€œæ–‡ä»¶æ ‡è¯†åˆ—è¡¨çš„äº¤é›†â€ã€‚
评定æœç´¢ç»“æžœ
有了包å«ç”¨æˆ·æ问的网页åŽï¼Œå°±è¯¥æŒ‰ç…§ç›¸å…³æ€§è¯„定网页了。Google使用了很多技术,其ä¸PageRank算法是最有å的。PageRank评定的是两ç§äº‹æƒ…:从网站到æŸä¸€ç½‘页有多少个链接,æ供链接的网站的排å。使用PageRank,æ¥è‡ªCNN和纽约时报网站的链接的价值,是很多ä¸å¤ªæœ‰å网站的两å€ã€‚
除了PageRank外Google还使用了很多其他技术,例如一份文件所包å«çš„“civilâ€å’Œâ€œwarâ€ä¸¤ä¸ªå•è¯é 的很近,就比åªä½¿ç”¨äº†â€œwarâ€å•è¯çš„包å«â€œRevolutionary Warâ€ï¼ˆç‹¬ç«‹æˆ˜äº‰ï¼‰çš„文件相关性è¦å¤§çš„多。å¦å¤–在题目ä¸å‡ºçŽ°äº†â€œcivil warâ€çš„网页,它的相关性就比题目为“19th Century American Clothingâ€ï¼ˆ19世纪的美国æœè£…)è¦é‡è¦çš„多。åŒæ ·å¦‚果“civil warâ€åœ¨ç½‘页上出现了数次,比出现一次的网页è¦ç›¸å…³çš„多。
Google的目的是è¦æ‰¾åˆ°çŸ¥å度和相关性都大的网页。如果两个网页出现匹é…æ问的信æ¯æ•°é‡å‡ ä¹Žä¸€æ ·ï¼Œæˆ‘ä»¬å¸¸å¸¸ä¼šé€‰æ‹©æ›´æœ‰å网站的链接。但如果其他方é¢è¡¨æ˜Žä¸€ä¸ªç½‘页更为相关,也会选择更少链接或更低排å的网页。例如,一个网页全篇都是讲“å—北战争â€çš„内容,会比åªæ˜¯ç•¥å¾®æ到“å—北战争â€çš„网页更为有用,å³ä½¿è¿™ä¸ªç½‘页是出现ä¸å¤ªæœ‰å的网站上。一旦我们有了文件的列表和分值,就会选择最高分值ã€æœ€åŒ¹é…的文件。
Google从包å«äº†æé—®å•è¯çš„æ¯ä¸€ä»½æ–‡ä»¶ä¸æå–å‡ å¥è¯ä½œä¸ºæ‘˜è¦æ˜¾ç¤ºï¼ŒæŽ¥ç€å°†æŽ’好的URLs和摘è¦æ˜¾ç¤ºåœ¨æœç´¢ç»“果上。æ£å¦‚ä½ æ‰€çŸ¥é“çš„è¿è¡Œä¸€ä¸ªæœç´¢å™¨éœ€è¦å¤§é‡çš„计算资æºã€‚æ¯ä¸€æ¬¡æœç´¢éœ€è¦500å°ä»¥ä¸Šçš„电脑一起工作,æœç´¢çš„时间还ä¸åˆ°åŠç§’钟。
相关日志
è°·æŒç©¿è¶Šæœç´¢-è°·æŒå®˜æ–¹æ„šäººèŠ‚玩笑
Google将在æœç´¢ç»“果排å算法ä¸è€ƒè™‘æ¥è‡ªTwitterã€Quoraç‰ç¤¾ä¼šåŒ–网络社区的内容
桥页SEO:网站自我æ¯ç工具
《Google官方SEO入门指å—》å四: 对网站管ç†å‘˜æœ‰ç”¨çš„资æº(完)
《Google官方SEO入门指å—》å三:充分利用网站分æžå·¥å…·
《Google官方SEO入门指å—》å二:充分利用å…费的网站管ç†å‘˜å·¥å…·
《Google官方SEO入门指å—》å一:以æ°å½“çš„æ–¹å¼æŽ¨å¹¿ä½ 的网站
《Google官方SEO入门指å—》åï¼šä¸ºé“¾æŽ¥æ·»åŠ nofollow属性
《Google官方SEO入门指å—》ä¹ï¼šæœ‰æ•ˆä½¿ç”¨robots.txt
《Google官方SEO入门指å—》八:网页图片优化
è°·æŒç©¿è¶Šæœç´¢-è°·æŒå®˜æ–¹æ„šäººèŠ‚玩笑
Google将在æœç´¢ç»“果排å算法ä¸è€ƒè™‘æ¥è‡ªTwitterã€Quoraç‰ç¤¾ä¼šåŒ–网络社区的内容
桥页SEO:网站自我æ¯ç工具
《Google官方SEO入门指å—》å四: 对网站管ç†å‘˜æœ‰ç”¨çš„资æº(完)
《Google官方SEO入门指å—》å三:充分利用网站分æžå·¥å…·
《Google官方SEO入门指å—》å二:充分利用å…费的网站管ç†å‘˜å·¥å…·
《Google官方SEO入门指å—》å一:以æ°å½“çš„æ–¹å¼æŽ¨å¹¿ä½ 的网站
《Google官方SEO入门指å—》åï¼šä¸ºé“¾æŽ¥æ·»åŠ nofollow属性
《Google官方SEO入门指å—》ä¹ï¼šæœ‰æ•ˆä½¿ç”¨robots.txt
《Google官方SEO入门指å—》八:网页图片优化
最后编辑: 郝聪 编辑于2006/09/04 02:53