Googleæœç´¢åŽŸç†çš„è®ºæ–‡(ä¸€)

郝聪 , 2006/09/24 14:21 , 搜索引擎研究 , 评论(0) , 阅读(13155) , Via 本站原创

ã€ŠThe Anatomy of a Large-Scale Hypertextual Web Search Engineã€‹
    è¿™ç¯‡æ–‡ç« ä¸ï¼Œæˆ‘ä»¬ä»‹ç»äº†googleï¼Œå®ƒæ˜¯ä¸€ä¸ªå¤§åž‹çš„æœç´¢å¼•æ“Žï¼ˆof a large-scale search engineï¼‰çš„åŽŸåž‹ï¼Œæœç´¢å¼•æ“Žåœ¨è¶…æ–‡æœ¬ä¸åº”ç”¨å¹¿æ³›ã€‚Googleçš„è®¾è®¡èƒ½å¤Ÿé«˜æ•ˆåœ°æŠ“ç½‘é¡µå¹¶å»ºç«‹ç´¢å¼•ï¼Œå®ƒçš„æŸ¥è¯¢ç»“æžœæ¯”å…¶å®ƒçŽ°æœ‰ç³»ç»Ÿéƒ½é«˜æ˜Žã€‚è¿™ä¸ªåŽŸåž‹çš„å…¨æ–‡å’Œè¶…è¿žæŽ¥çš„æ•°æ®åº“è‡³å°‘åŒ…å«24000000ä¸ªç½‘é¡µã€‚æˆ‘ä»¬å¯ä»¥ä»ŽHttp://google.stanford.edu/ ä¸‹è½½ã€‚

    è®¾è®¡æœç´¢å¼•æ“Žæ˜¯ä¸€é¡¹å¯Œæœ‰æŒ‘æˆ˜æ€§çš„å·¥ä½œã€‚æœç´¢å¼•æ“Žä¸ºä¸Šäº¿ä¸ªç½‘é¡µå»ºç«‹ç´¢å¼•ï¼Œå…¶ä¸åŒ…å«å¤§é‡è¿¥ç„¶ä¸åŒçš„è¯æ±‡ã€‚è€Œä¸”æ¯å¤©è¦å›žç”æˆåƒä¸Šä¸‡ä¸ªæŸ¥è¯¢ã€‚åœ¨ç½‘ç»œä¸ï¼Œå°½ç®¡å¤§åž‹æœç´¢å¼•æ“Žéžå¸¸é‡è¦ï¼Œä½†æ˜¯å¦æœ¯ç•Œå´å¾ˆå°‘ç ”ç©¶å®ƒã€‚æ¤å¤–ç”±äºŽæŠ€æœ¯çš„å¿«é€Ÿå‘å±•å’Œç½‘é¡µçš„å¤§é‡å¢žåŠ ï¼ŒçŽ°åœ¨å»ºç«‹ä¸€ä¸ªæœç´¢å¼•æ“Žå’Œä¸‰å¹´å‰å®Œå…¨ä¸åŒã€‚
    æœ¬æ–‡è¯¦ç»†ä»‹ç»äº†æˆ‘ä»¬çš„å¤§åž‹æœç´¢å¼•æ“Žï¼Œæ®æˆ‘ä»¬æ‰€çŸ¥ï¼Œåœ¨å…¬å¼€å‘è¡¨çš„è®ºæ–‡ä¸ï¼Œè¿™æ˜¯ç¬¬ä¸€ç¯‡æè¿°åœ°å¦‚æ¤è¯¦ç»†ã€‚é™¤äº†æŠŠä¼ ç»Ÿæ•°æ®æœç´¢æŠ€æœ¯åº”ç”¨åˆ°å¦‚æ¤å¤§é‡çº§ç½‘é¡µä¸æ‰€é‡åˆ°çš„é—®é¢˜ï¼Œè¿˜æœ‰è®¸å¤šæ–°çš„æŠ€æœ¯æŒ‘æˆ˜ï¼ŒåŒ…æ‹¬åº”ç”¨è¶…æ–‡æœ¬ä¸çš„é™„åŠ ä¿¡æ¯æ”¹è¿›æœç´¢ç»“æžœã€‚
    æœ¬æ–‡å°†è§£å†³è¿™ä¸ªé—®é¢˜ï¼Œæè¿°å¦‚ä½•è¿ç”¨è¶…æ–‡æœ¬ä¸çš„é™„åŠ ä¿¡æ¯ï¼Œå»ºç«‹ä¸€ä¸ªå¤§åž‹å®žç”¨ç³»ç»Ÿã€‚ä»»ä½•äººéƒ½å¯ä»¥åœ¨ç½‘ä¸Šéšæ„å‘å¸ƒä¿¡æ¯ï¼Œå¦‚ä½•æœ‰æ•ˆåœ°å¤„ç†è¿™äº›æ— ç»„ç»‡çš„è¶…æ–‡æœ¬é›†åˆï¼Œä¹Ÿæ˜¯æœ¬æ–‡è¦å…³æ³¨çš„é—®é¢˜ã€‚å…³é”®è¯ World Wide Webï¼Œæœç´¢å¼•æ“Žï¼Œä¿¡æ¯æ£€ç´¢ï¼ŒPageRank, Google

1 ç»ªè®º
Web ç»™ä¿¡æ¯æ£€ç´¢å¸¦æ¥äº†æ–°çš„æŒ‘æˆ˜ã€‚Webä¸Šçš„ä¿¡æ¯é‡å¿«é€Ÿå¢žé•¿ï¼ŒåŒæ—¶ä¸æ–æœ‰æ¯«æ— ç»éªŒçš„æ–°ç”¨æˆ·æ¥ä½“éªŒWebè¿™é—¨è‰ºæœ¯ã€‚äººä»¬å–œæ¬¢ç”¨è¶…çº§é“¾æŽ¥æ¥ç½‘ä¸Šå†²æµªï¼Œé€šå¸¸éƒ½ä»¥è±¡Yahooè¿™æ ·é‡è¦çš„ç½‘é¡µæˆ–æœç´¢å¼•æ“Žå¼€å§‹ã€‚å¤§å®¶è®¤ä¸ºList(ç›®å½•)æœ‰æ•ˆåœ°åŒ…å«äº†å¤§å®¶æ„Ÿå…´è¶£çš„ä¸»é¢˜ï¼Œä½†æ˜¯å®ƒå…·æœ‰ä¸»è§‚æ€§ï¼Œå»ºç«‹å’Œç»´æŠ¤çš„ä»£ä»·é«˜ï¼Œå‡çº§æ…¢ï¼Œä¸èƒ½åŒ…æ‹¬æ‰€æœ‰æ·±å¥¥çš„ä¸»é¢˜ã€‚åŸºäºŽå…³é”®è¯çš„è‡ªåŠ¨æœç´¢å¼•æ“Žé€šå¸¸è¿”å›žå¤ªå¤šçš„ä½Žè´¨é‡çš„åŒ¹é…ã€‚ä½¿é—®é¢˜æ›´éçš„æ˜¯ï¼Œä¸€äº›å¹¿å‘Šä¸ºäº†èµ¢å¾—äººä»¬çš„å…³æ³¨æƒ³æ–¹è®¾æ³•è¯¯å¯¼è‡ªåŠ¨æœç´¢å¼•æ“Žã€‚
æˆ‘ä»¬å»ºç«‹äº†ä¸€ä¸ªå¤§åž‹æœç´¢å¼•æ“Žè§£å†³äº†çŽ°æœ‰ç³»ç»Ÿä¸çš„å¾ˆå¤šé—®é¢˜ã€‚åº”ç”¨è¶…æ–‡æœ¬ç»“æž„ï¼Œå¤§å¤§æé«˜äº†æŸ¥è¯¢è´¨é‡ã€‚æˆ‘ä»¬çš„ç³»ç»Ÿå‘½åä¸ºgoogleï¼Œå–åè‡ªgoogolçš„é€šä¿—æ‹¼æ³•ï¼Œå³10çš„100æ¬¡æ–¹ï¼Œè¿™å’Œæˆ‘ä»¬çš„ç›®æ ‡å»ºç«‹ä¸€ä¸ªå¤§åž‹æœç´¢å¼•æ“Žä¸è°‹è€Œåˆã€‚

1.1ç½‘ç»œæœç´¢å¼•æ“Žâ€”å‡çº§æ¢ä»£ï¼ˆscaling upï¼‰ï¼š
    1994-2000 æœç´¢å¼•æ“ŽæŠ€æœ¯ä¸å¾—ä¸å¿«é€Ÿå‡çº§ï¼ˆscale dramaticallyï¼‰è·Ÿä¸Šæˆå€å¢žé•¿çš„webæ•°é‡ã€‚1994å¹´ï¼Œç¬¬ä¸€ä¸ªWebæœç´¢å¼•æ“Žï¼ŒWorld Wide Web Worm(WWWW)å¯ä»¥æ£€ç´¢åˆ°110ï¼Œ000ä¸ªç½‘é¡µå’ŒWebçš„æ–‡ä»¶ã€‚åˆ°1994å¹´11æœˆï¼Œé¡¶çº§çš„æœç´¢å¼•æ“Žå£°ç§°å¯ä»¥æ£€ç´¢åˆ°2â€˜000â€™000ï¼ˆWebCrawlerï¼‰è‡³100â€˜000â€™000ä¸ªç½‘ç»œæ–‡ä»¶ï¼ˆæ¥è‡ª Search Engine Watchï¼‰ã€‚å¯ä»¥é¢„è§åˆ°2000å¹´ï¼Œå¯æ£€ç´¢åˆ°çš„ç½‘é¡µå°†è¶…è¿‡1â€˜000â€™000â€˜000ã€‚åŒæ—¶ï¼Œæœç´¢å¼•æ“Žçš„è®¿é—®é‡ä¹Ÿä¼šä»¥æƒŠäººçš„é€Ÿåº¦å¢žé•¿ã€‚åœ¨1997å¹´çš„ä¸‰å››æœˆä»½ï¼ŒWorld Wide Web Worm å¹³å‡æ¯å¤©æ”¶åˆ°1500ä¸ªæŸ¥è¯¢ã€‚

    åœ¨1997å¹´11æœˆï¼ŒAltavista å£°ç§°å®ƒæ¯å¤©è¦å¤„ç†å¤§çº¦20â€™000â€™000ä¸ªæŸ¥è¯¢ã€‚éšç€ç½‘ç»œç”¨æˆ·çš„å¢žé•¿ï¼Œåˆ°2000å¹´ï¼Œè‡ªåŠ¨æœç´¢å¼•æ“Žæ¯å¤©å°†å¤„ç†ä¸Šäº¿ä¸ªæŸ¥è¯¢ã€‚æˆ‘ä»¬ç³»ç»Ÿçš„è®¾è®¡ç›®æ ‡è¦è§£å†³è®¸å¤šé—®é¢˜ï¼ŒåŒ…æ‹¬è´¨é‡å’Œå¯å‡çº§æ€§ï¼Œå¼•å…¥å‡çº§æœç´¢å¼•æ“ŽæŠ€æœ¯ï¼ˆscaling search engine technologyï¼‰ï¼ŒæŠŠå®ƒå‡çº§åˆ°å¦‚æ¤å¤§é‡çš„æ•°æ®ä¸Šã€‚

1.2 Googleï¼š
    è·Ÿä¸ŠWebçš„æ¥ä¼ï¼ˆScaling with the Webï¼‰å»ºç«‹ä¸€ä¸ªèƒ½å¤Ÿå’Œå½“ä»Šwebè§„æ¨¡ç›¸é€‚åº”çš„æœç´¢å¼•æ“Žä¼šé¢ä¸´è®¸å¤šæŒ‘æˆ˜ã€‚æŠ“ç½‘é¡µæŠ€æœ¯å¿…é¡»è¶³å¤Ÿå¿«ï¼Œæ‰èƒ½è·Ÿä¸Šç½‘é¡µå˜åŒ–çš„é€Ÿåº¦ï¼ˆkeep them up to dateï¼‰ã€‚å˜å‚¨ç´¢å¼•å’Œæ–‡æ¡£çš„ç©ºé—´å¿…é¡»è¶³å¤Ÿå¤§ã€‚ç´¢å¼•ç³»ç»Ÿå¿…é¡»èƒ½å¤Ÿæœ‰æ•ˆåœ°å¤„ç†ä¸Šåƒäº¿çš„æ•°æ®ã€‚å¤„ç†æŸ¥è¯¢å¿…é¡»å¿«ï¼Œè¾¾åˆ°æ¯ç§’èƒ½å¤„ç†æˆç™¾ä¸Šåƒä¸ªæŸ¥è¯¢ï¼ˆhundreds to thousands per second.ï¼‰ã€‚éšç€Webçš„ä¸æ–å¢žé•¿ï¼Œè¿™äº›ä»»åŠ¡å˜å¾—è¶Šæ¥è¶Šè‰°å·¨ã€‚ç„¶è€Œç¡¬ä»¶çš„æ‰§è¡Œæ•ˆçŽ‡å’Œæˆæœ¬ä¹Ÿåœ¨å¿«é€Ÿå¢žé•¿ï¼Œå¯ä»¥éƒ¨åˆ†æŠµæ¶ˆè¿™äº›å›°éš¾ã€‚
    è¿˜æœ‰å‡ ä¸ªå€¼å¾—æ³¨æ„çš„å› ç´ ï¼Œå¦‚ç£ç›˜çš„å¯»é“æ—¶é—´ï¼ˆdisk seek timeï¼‰ï¼Œæ“ä½œç³»ç»Ÿçš„æ•ˆçŽ‡ï¼ˆoperating system robustnessï¼‰ã€‚åœ¨è®¾è®¡Googleçš„è¿‡ç¨‹ä¸ï¼Œæˆ‘ä»¬æ—¢è€ƒè™‘äº†Webçš„å¢žé•¿é€Ÿåº¦ï¼Œåˆè€ƒè™‘äº†æŠ€æœ¯çš„æ›´æ–°ã€‚Googleçš„è®¾è®¡èƒ½å¤Ÿå¾ˆå¥½çš„å‡çº§å¤„ç†æµ·é‡æ•°æ®é›†ã€‚å®ƒèƒ½å¤Ÿæœ‰æ•ˆåœ°åˆ©ç”¨å˜å‚¨ç©ºé—´æ¥å˜å‚¨ç´¢å¼•ã€‚ä¼˜åŒ–çš„æ•°æ®ç»“æž„èƒ½å¤Ÿå¿«é€Ÿæœ‰æ•ˆåœ°å˜å–ï¼ˆå‚è€ƒ4.2èŠ‚ï¼‰ã€‚è¿›ä¸€æ¥ï¼Œæˆ‘ä»¬å¸Œæœ›ï¼Œç›¸å¯¹äºŽæ‰€æŠ“å–çš„æ–‡æœ¬æ–‡ä»¶å’ŒHTMLç½‘é¡µçš„æ•°é‡è€Œè¨€ï¼Œå˜å‚¨å’Œå»ºç«‹ç´¢å¼•çš„ä»£ä»·å°½å¯èƒ½çš„å°ï¼ˆå‚è€ƒé™„å½•Bï¼‰ã€‚å¯¹äºŽè±¡Googleè¿™æ ·çš„é›†ä¸å¼ç³»ç»Ÿï¼Œé‡‡å–è¿™äº›æŽªæ–½å¾—åˆ°äº†ä»¤äººæ»¡æ„çš„ç³»ç»Ÿå¯å‡çº§æ€§ï¼ˆscaling propertiesï¼‰ã€‚

1. 3è®¾è®¡ç›®æ ‡
1.3.1æé«˜æœç´¢è´¨é‡æˆ‘ä»¬çš„ä¸»è¦ç›®æ ‡æ˜¯æé«˜Webæœç´¢å¼•æ“Žçš„è´¨é‡ã€‚
    1994å¹´ï¼Œæœ‰äººè®¤ä¸ºå»ºç«‹å…¨æœç´¢ç´¢å¼•ï¼ˆa complete search indexï¼‰å¯ä»¥ä½¿æŸ¥æ‰¾ä»»ä½•æ•°æ®éƒ½å˜å¾—å®¹æ˜“ã€‚æ ¹æ®Best of the Web 1994 -- Navigators ï¼Œâ€œæœ€å¥½çš„å¯¼èˆªæœåŠ¡å¯ä»¥ä½¿åœ¨Webä¸Šæœç´¢ä»»ä½•ä¿¡æ¯éƒ½å¾ˆå®¹æ˜“ï¼ˆå½“æ—¶æ‰€æœ‰çš„æ•°æ®éƒ½å¯ä»¥è¢«ç™»å½•ï¼‰â€ã€‚ç„¶è€Œ1997å¹´çš„Webå°±è¿¥ç„¶ä¸åŒã€‚è¿‘æ¥æœç´¢å¼•æ“Žçš„ç”¨æˆ·å·²ç»è¯å®žç´¢å¼•çš„å®Œæ•´æ€§ä¸æ˜¯è¯„ä»·æœç´¢è´¨é‡çš„å”¯ä¸€æ ‡å‡†ã€‚ç”¨æˆ·æ„Ÿå…´è¶£çš„æœç´¢ç»“æžœå¾€å¾€æ¹®æ²¡åœ¨â€œåžƒåœ¾ç»“æžœJunk resultâ€ä¸ã€‚å®žé™…ä¸Šï¼Œåˆ°1997å¹´11æœˆä¸ºæ¢ï¼Œå››å¤§å•†ä¸šæœç´¢å¼•æ“Žä¸åªæœ‰ä¸€ä¸ªèƒ½å¤Ÿæ‰¾åˆ°å®ƒè‡ªå·±ï¼ˆæœç´¢è‡ªå·±åå—æ—¶è¿”å›žçš„å‰åä¸ªç»“æžœä¸æœ‰å®ƒè‡ªå·±ï¼‰ã€‚å¯¼è‡´è¿™ä¸€é—®é¢˜çš„ä¸»è¦åŽŸå› æ˜¯æ–‡æ¡£çš„ç´¢å¼•æ•°ç›®å¢žåŠ äº†å¥½å‡ ä¸ªæ•°é‡çº§ï¼Œä½†æ˜¯ç”¨æˆ·èƒ½å¤Ÿçœ‹çš„æ–‡æ¡£æ•°å´æ²¡æœ‰å¢žåŠ ã€‚ç”¨æˆ·ä»ç„¶åªå¸Œæœ›çœ‹å‰é¢å‡ åä¸ªæœç´¢ç»“æžœã€‚å› æ¤ï¼Œå½“é›†åˆå¢žå¤§æ—¶ï¼Œæˆ‘ä»¬å°±éœ€è¦å·¥å…·ä½¿ç»“æžœç²¾ç¡®ï¼ˆåœ¨è¿”å›žçš„å‰å‡ åä¸ªç»“æžœä¸ï¼Œæœ‰å…³æ–‡æ¡£çš„æ•°é‡ï¼‰ã€‚ç”±äºŽæ˜¯ä»Žæˆåƒä¸Šä¸‡ä¸ªæœ‰ç‚¹ç›¸å…³çš„æ–‡æ¡£ä¸é€‰å‡ºå‡ åä¸ªï¼Œå®žé™…ä¸Šï¼Œç›¸å…³çš„æ¦‚å¿µå°±æ˜¯æŒ‡æœ€å¥½çš„æ–‡æ¡£ã€‚é«˜ç²¾ç¡®éžå¸¸é‡è¦ï¼Œç”šè‡³ä»¥å“åº”ï¼ˆç³»ç»Ÿèƒ½å¤Ÿè¿”å›žçš„æœ‰å…³æ–‡æ¡£çš„æ€»æ•°ï¼‰ä¸ºä»£ä»·ã€‚ä»¤äººé«˜å…´çš„æ˜¯åˆ©ç”¨è¶…æ–‡æœ¬é“¾æŽ¥æä¾›çš„ä¿¡æ¯æœ‰åŠ©äºŽæ”¹è¿›æœç´¢å’Œå…¶å®ƒåº”ç”¨ã€‚å°¤å…¶æ˜¯é“¾æŽ¥ç»“æž„å’Œé“¾æŽ¥æ–‡æœ¬ï¼Œä¸ºç›¸å…³æ€§çš„åˆ¤æ–å’Œé«˜è´¨é‡çš„è¿‡æ»¤æä¾›äº†å¤§é‡çš„ä¿¡æ¯ã€‚Googleæ—¢åˆ©ç”¨äº†é“¾æŽ¥ç»“æž„åˆç”¨åˆ°äº†anchoræ–‡æœ¬ï¼ˆè§2.1å’Œ2.2èŠ‚ï¼‰ã€‚

1.3.2æœç´¢å¼•æ“Žçš„å¦æœ¯ç ”ç©¶éšç€æ—¶é—´çš„æµé€ï¼Œé™¤äº†å‘å±•è¿…é€Ÿï¼ŒWebè¶Šæ¥è¶Šå•†ä¸šåŒ–ã€‚
    1993å¹´ï¼Œåªæœ‰1.5%çš„WebæœåŠ¡æ˜¯æ¥è‡ª.comåŸŸåã€‚åˆ°1997å¹´ï¼Œè¶…è¿‡äº†60%ã€‚åŒæ—¶ï¼Œæœç´¢å¼•æ“Žä»Žå¦æœ¯é¢†åŸŸèµ°è¿›å•†ä¸šã€‚åˆ°çŽ°åœ¨å¤§å¤šæ•°æœç´¢å¼•æ“Žè¢«å…¬å¸æ‰€æœ‰ï¼Œå¾ˆå°‘æŠ€å…¬å¼€æœ¯ç»†èŠ‚ã€‚è¿™å°±å¯¼è‡´æœç´¢å¼•æ“ŽæŠ€æœ¯å¾ˆå¤§ç¨‹åº¦ä¸Šä»ç„¶æ˜¯æš—ç®±æ“ä½œï¼Œå¹¶å€¾å‘åšå¹¿å‘Šï¼ˆè§é™„å½•Aï¼‰ã€‚Googleçš„ä¸»è¦ç›®æ ‡æ˜¯æŽ¨åŠ¨å¦æœ¯é¢†åŸŸåœ¨æ¤æ–¹é¢çš„å‘å±•ï¼Œå’Œå¯¹å®ƒçš„äº†è§£ã€‚å¦ä¸€ä¸ªè®¾è®¡ç›®æ ‡æ˜¯ç»™å¤§å®¶ä¸€ä¸ªå®žç”¨çš„ç³»ç»Ÿã€‚åº”ç”¨å¯¹æˆ‘ä»¬æ¥è¯´éžå¸¸é‡è¦ï¼Œå› ä¸ºçŽ°ä»£ç½‘ç»œç³»ç»Ÿä¸å˜åœ¨å¤§é‡çš„æœ‰ç”¨æ•°æ®ï¼ˆus because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systemsï¼‰ã€‚ä¾‹å¦‚ï¼Œæ¯å¤©æœ‰å‡ åƒä¸‡ä¸ªç ”ç©¶ã€‚ç„¶è€Œï¼Œå¾—åˆ°è¿™äº›æ•°æ®å´éžå¸¸å›°éš¾ï¼Œä¸»è¦å› ä¸ºå®ƒä»¬æ²¡æœ‰å•†ä¸šä»·å€¼ã€‚æˆ‘ä»¬æœ€åŽçš„è®¾è®¡ç›®æ ‡æ˜¯å»ºç«‹ä¸€ä¸ªä½“ç³»ç»“æž„èƒ½å¤Ÿæ”¯æŒæ–°çš„å…³äºŽæµ·é‡Webæ•°æ®çš„ç ”ç©¶ã€‚ä¸ºäº†æ”¯æŒæ–°ç ”ç©¶ï¼ŒGoogleä»¥åŽ‹ç¼©çš„å½¢å¼ä¿å˜äº†å®žé™…æ‰€æŠ“åˆ°çš„æ–‡æ¡£ã€‚è®¾è®¡Googleçš„ç›®æ ‡ä¹‹ä¸€å°±æ˜¯è¦å»ºç«‹ä¸€ä¸ªçŽ¯å¢ƒä½¿å…¶ä»–ç ”ç©¶è€…èƒ½å¤Ÿå¾ˆå¿«è¿›å…¥è¿™ä¸ªé¢†åŸŸï¼Œå¤„ç†æµ·é‡Webæ•°æ®ï¼Œå¾—åˆ°æ»¡æ„çš„ç»“æžœï¼Œè€Œé€šè¿‡å…¶å®ƒæ–¹æ³•å´å¾ˆéš¾å¾—åˆ°ç»“æžœã€‚ç³»ç»Ÿåœ¨çŸæ—¶é—´å†…è¢«å»ºç«‹èµ·æ¥ï¼Œå·²ç»æœ‰å‡ ç¯‡è®ºæ–‡ç”¨åˆ°äº†Googleå»ºçš„æ•°æ®åº“ï¼Œæ›´å¤šçš„åœ¨èµ·æ¥ä¸ã€‚æˆ‘ä»¬çš„å¦ä¸€ä¸ªç›®æ ‡æ˜¯å»ºç«‹ä¸€ä¸ªå®‡å®™ç©ºé—´å®žéªŒå®¤ä¼¼çš„çŽ¯å¢ƒï¼Œåœ¨è¿™é‡Œç ”ç©¶è€…ç”šè‡³å¦ç”Ÿéƒ½å¯ä»¥å¯¹æˆ‘ä»¬çš„æµ·é‡Webæ•°æ®è®¾è®¡æˆ–åšä¸€äº›å®žéªŒã€‚

2. ç³»ç»Ÿç‰¹ç‚¹
Googleæœç´¢å¼•æ“Žæœ‰ä¸¤ä¸ªé‡è¦ç‰¹ç‚¹ï¼Œæœ‰åŠ©äºŽå¾—åˆ°é«˜ç²¾åº¦çš„æœç´¢ç»“æžœã€‚
ç¬¬ä¸€ç‚¹ï¼Œåº”ç”¨Webçš„é“¾æŽ¥ç»“æž„è®¡ç®—æ¯ä¸ªç½‘é¡µçš„Rankå€¼ï¼Œç§°ä¸ºPageRankï¼Œå°†åœ¨98é¡µè¯¦ç»†æè¿°å®ƒã€‚
ç¬¬äºŒç‚¹ï¼ŒGoogleåˆ©ç”¨è¶…é“¾æŽ¥æ”¹è¿›æœç´¢ç»“æžœã€‚

2.1 PageRank:ç»™ç½‘é¡µæŽ’åºï¼š
    Webçš„å¼•ç”¨ï¼ˆé“¾æŽ¥ï¼‰å›¾æ˜¯é‡è¦çš„èµ„æºï¼Œå´è¢«å½“ä»Šçš„æœç´¢å¼•æ“Žå¾ˆå¤§ç¨‹åº¦ä¸Šå¿½è§†äº†ã€‚æˆ‘ä»¬å»ºç«‹äº†ä¸€ä¸ªåŒ…å«518000000ä¸ªè¶…é“¾æŽ¥çš„å›¾ï¼Œå®ƒæ˜¯ä¸€ä¸ªå…·æœ‰é‡è¦æ„ä¹‰çš„æ ·æœ¬ã€‚è¿™äº›å›¾èƒ½å¤Ÿå¿«é€Ÿåœ°è®¡ç®—ç½‘é¡µçš„PageRankå€¼ï¼Œå®ƒæ˜¯ä¸€ä¸ªå®¢è§‚çš„æ ‡å‡†ï¼Œè¾ƒå¥½çš„ç¬¦åˆäººä»¬å¿ƒç›®ä¸å¯¹ä¸€ä¸ªç½‘é¡µé‡è¦ç¨‹åº¦çš„è¯„ä»·ï¼Œå»ºç«‹çš„åŸºç¡€æ˜¯é€šè¿‡å¼•ç”¨åˆ¤æ–é‡è¦æ€§ã€‚å› æ¤åœ¨webä¸ï¼ŒPageRankèƒ½å¤Ÿä¼˜åŒ–å…³é”®è¯æŸ¥è¯¢çš„ç»“æžœã€‚å¯¹äºŽå¤§å¤šæ•°çš„ä¸»é¢˜ï¼Œåœ¨ç½‘é¡µæ ‡é¢˜æŸ¥è¯¢ä¸ç”¨PageRankä¼˜åŒ–ç®€å•æ–‡æœ¬åŒ¹é…ï¼Œæˆ‘ä»¬å¾—åˆ°äº†ä»¤äººæƒŠå¹çš„ç»“æžœï¼ˆä»Žgoogle.stanford.eduå¯ä»¥å¾—åˆ°æ¼”ç¤ºï¼‰ã€‚å¯¹äºŽGoogleä¸»ç³»ç»Ÿä¸çš„å…¨æ–‡æœç´¢ï¼ŒPageRankä¹Ÿå¸®äº†ä¸å°‘å¿™ã€‚

2.1.1è®¡ç®—PageRank æ–‡çŒ®æ£€ç´¢ä¸çš„å¼•ç”¨ç†è®ºç”¨åˆ°Webä¸ï¼Œå¼•ç”¨ç½‘é¡µçš„é“¾æŽ¥æ•°ï¼Œä¸€å®šç¨‹åº¦ä¸Šåæ˜ äº†è¯¥ç½‘é¡µçš„é‡è¦æ€§å’Œè´¨é‡ã€‚PageRankå‘å±•äº†è¿™ç§æ€æƒ³ï¼Œç½‘é¡µé—´çš„é“¾æŽ¥æ˜¯ä¸å¹³ç‰çš„ã€‚
    PageRankå®šä¹‰å¦‚ä¸‹: æˆ‘ä»¬å‡è®¾T1â€¦TnæŒ‡å‘ç½‘é¡µAï¼ˆä¾‹å¦‚ï¼Œè¢«å¼•ç”¨ï¼‰ã€‚å‚æ•°dæ˜¯åˆ¶åŠ¨å› åï¼Œä½¿ç»“æžœåœ¨0ï¼Œ1ä¹‹é—´ã€‚é€šå¸¸dç‰äºŽ0.85ã€‚åœ¨ä¸‹ä¸€èŠ‚å°†è¯¦ç»†ä»‹ç»dã€‚Cï¼ˆAï¼‰å®šä¹‰ä¸ºç½‘é¡µAæŒ‡å‘å…¶å®ƒç½‘é¡µçš„é“¾æŽ¥æ•°ï¼Œç½‘é¡µAçš„PageRankå€¼ç”±ä¸‹å¼ç»™å‡ºï¼š PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) æ³¨æ„PageRankçš„å½¢å¼ï¼Œåˆ†å¸ƒåˆ°å„ä¸ªç½‘é¡µä¸ï¼Œå› æ¤æ‰€æœ‰ç½‘é¡µçš„PageRankå’Œæ˜¯1ã€‚ PageRankæˆ–PRï¼ˆAï¼‰å¯ä»¥ç”¨ç®€å•çš„è¿ä»£ç®—æ³•è®¡ç®—ï¼Œç›¸åº”è§„æ ¼åŒ–Webé“¾æŽ¥çŸ©é˜µçš„ä¸»ç‰¹å¾å‘é‡ã€‚ä¸ç‰è§„æ¨¡çš„ç½‘ç«™è®¡ç®—26â€˜000â€™000ç½‘é¡µçš„PageRankå€¼è¦èŠ±è´¹å‡ å°æ—¶ã€‚è¿˜æœ‰ä¸€äº›æŠ€æœ¯ç»†èŠ‚è¶…å‡ºäº†æœ¬æ–‡è®ºè¿°çš„èŒƒå›´ã€‚

2.1.2ç›´è§‰åˆ¤æ– PageRankè¢«çœ‹ä½œç”¨æˆ·è¡Œä¸ºçš„æ¨¡åž‹ã€‚
    æˆ‘ä»¬å‡è®¾ç½‘ä¸Šå†²æµªæ˜¯éšæœºçš„ï¼Œä¸æ–ç‚¹å‡»é“¾æŽ¥ï¼Œä»Žä¸è¿”å›žï¼Œæœ€ç»ˆçƒ¦äº†ï¼Œå¦å¤–éšæœºé€‰ä¸€ä¸ªç½‘é¡µé‡æ–°å¼€å§‹å†²æµªã€‚éšæœºè®¿é—®ä¸€ä¸ªç½‘é¡µçš„å¯èƒ½æ€§å°±æ˜¯å®ƒçš„PageRankå€¼ã€‚åˆ¶åŠ¨å› ådæ˜¯éšæœºè®¿é—®ä¸€ä¸ªç½‘é¡µçƒ¦äº†çš„å¯èƒ½æ€§ï¼Œéšæœºå¦é€‰ä¸€ä¸ªç½‘é¡µã€‚å¯¹å•ä¸ªç½‘é¡µæˆ–ä¸€ç»„ç½‘é¡µï¼Œä¸€ä¸ªé‡è¦çš„å˜é‡åŠ å…¥åˆ°åˆ¶åŠ¨å› ådä¸ã€‚è¿™å…è®¸ä¸ªäººå¯ä»¥æ•…æ„åœ°è¯¯å¯¼ç³»ç»Ÿï¼Œä»¥å¾—åˆ°è¾ƒé«˜çš„PageRankå€¼ã€‚æˆ‘ä»¬è¿˜æœ‰å…¶å®ƒçš„PageRankç®—æ³•ï¼Œè§98é¡µã€‚
å¦å¤–çš„ç›´è§‰åˆ¤æ–æ˜¯ä¸€ä¸ªç½‘é¡µæœ‰å¾ˆå¤šç½‘é¡µæŒ‡å‘å®ƒï¼Œæˆ–è€…ä¸€äº›PageRankå€¼é«˜çš„ç½‘é¡µæŒ‡å‘å®ƒï¼Œåˆ™è¿™ä¸ªç½‘é¡µå¾ˆé‡è¦ã€‚ç›´è§‰åœ°ï¼Œåœ¨Webä¸ï¼Œä¸€ä¸ªç½‘é¡µè¢«å¾ˆå¤šç½‘é¡µå¼•ç”¨ï¼Œé‚£ä¹ˆè¿™ä¸ªç½‘é¡µå€¼å¾—ä¸€çœ‹ã€‚ä¸€ä¸ªç½‘é¡µè¢«è±¡Yahooè¿™æ ·é‡è¦çš„ä¸»é¡µå¼•ç”¨å³ä½¿ä¸€æ¬¡ï¼Œä¹Ÿå€¼å¾—ä¸€çœ‹ã€‚å¦‚æžœä¸€ä¸ªç½‘é¡µçš„è´¨é‡ä¸é«˜ï¼Œæˆ–è€…æ˜¯æ»é“¾æŽ¥ï¼Œè±¡Yahooè¿™æ ·çš„ä¸»é¡µä¸ä¼šé“¾å‘å®ƒã€‚PageRankå¤„ç†äº†è¿™ä¸¤æ–¹é¢å› ç´ ï¼Œå¹¶é€šè¿‡ç½‘ç»œé“¾æŽ¥é€’å½’åœ°ä¼ é€’ã€‚

2.2é“¾æŽ¥æè¿°æ–‡å—ï¼ˆAnchor Textï¼‰ï¼š
æŠŠå®ƒå’Œé“¾æŽ¥æ‰€æŒ‡å‘çš„ç½‘é¡µè”ç³»èµ·æ¥ã€‚è¿™æœ‰å‡ ç‚¹å¥½å¤„ã€‚
ç¬¬ä¸€ï¼Œé€šå¸¸é“¾æŽ¥æè¿°æ–‡å—æ¯”ç½‘é¡µæœ¬èº«æ›´ç²¾ç¡®åœ°æè¿°è¯¥ç½‘é¡µã€‚
ç¬¬äºŒï¼Œé“¾æŽ¥æè¿°æ–‡å—å¯èƒ½é“¾å‘çš„æ–‡æ¡£ä¸èƒ½è¢«æ–‡æœ¬æœç´¢å¼•æ“Žæ£€ç´¢åˆ°ï¼Œä¾‹å¦‚å›¾åƒï¼Œç¨‹åºå’Œæ•°æ®åº“ã€‚æœ‰å¯èƒ½ä½¿è¿”å›žçš„ç½‘é¡µä¸èƒ½è¢«æŠ“åˆ°ã€‚æ³¨æ„å“ªäº›æŠ“ä¸åˆ°çš„ç½‘é¡µå°†ä¼šå¸¦æ¥ä¸€äº›é—®é¢˜ã€‚åœ¨è¿”å›žç»™ç”¨æˆ·å‰æ£€æµ‹ä¸äº†å®ƒä»¬çš„æœ‰æ•ˆæ€§ã€‚è¿™ç§æƒ…å†µæœç´¢å¼•æ“Žå¯èƒ½è¿”å›žä¸€ä¸ªæ ¹æœ¬ä¸å˜åœ¨çš„ç½‘é¡µï¼Œä½†æ˜¯æœ‰è¶…çº§é“¾æŽ¥æŒ‡å‘å®ƒã€‚ç„¶è€Œè¿™ç§ç»“æžœå¯ä»¥è¢«æŒ‘å‡ºæ¥çš„ï¼Œæ‰€ä»¥æ¤ç±»çš„é—®é¢˜å¾ˆå°‘å‘ç”Ÿã€‚é“¾æŽ¥æè¿°æ–‡å—æ˜¯å¯¹è¢«é“¾å‘ç½‘é¡µçš„å®£ä¼ ï¼Œè¿™ä¸ªæ€æƒ³è¢«ç”¨åœ¨World Wide Web Worm ä¸ï¼Œä¸»è¦å› ä¸ºå®ƒæœ‰åŠ©äºŽæœç´¢éžæ–‡æœ¬ä¿¡æ¯ï¼Œèƒ½å¤Ÿç”¨å°‘é‡çš„å·²ä¸‹è½½æ–‡æ¡£æ‰©å¤§æœç´¢èŒƒå›´ã€‚æˆ‘ä»¬å¤§é‡åº”ç”¨é“¾æŽ¥æè¿°æ–‡å—ï¼Œå› ä¸ºå®ƒæœ‰åŠ©äºŽæé«˜æœç´¢ç»“æžœçš„è´¨é‡ã€‚æœ‰æ•ˆåœ°åˆ©ç”¨é“¾æŽ¥æè¿°æ–‡å—æŠ€æœ¯ä¸Šå˜åœ¨ä¸€äº›å›°éš¾ï¼Œå› ä¸ºå¿…é¡»å¤„ç†å¤§é‡çš„æ•°æ®ã€‚çŽ°åœ¨æˆ‘ä»¬èƒ½æŠ“åˆ°24000000ä¸ªç½‘é¡µï¼Œå·²ç»æ£€ç´¢åˆ°259000000å¤šä¸ªé“¾æŽ¥æè¿°æ–‡å—ã€‚

2.3å…¶å®ƒç‰¹ç‚¹é™¤äº†PageRankå’Œåº”ç”¨é“¾æŽ¥æè¿°æ–‡å—å¤–ï¼ŒGoogleè¿˜æœ‰ä¸€äº›å…¶å®ƒç‰¹ç‚¹ã€‚
ç¬¬ä¸€,æ‰€æœ‰hitéƒ½æœ‰ä½ç½®ä¿¡æ¯ï¼Œæ‰€ä»¥å®ƒå¯ä»¥åœ¨æœç´¢ä¸å¹¿æ³›åº”ç”¨é‚»è¿‘æ€§ï¼ˆproximityï¼‰ã€‚
ç¬¬äºŒï¼ŒGoogleè·Ÿè¸ªä¸€äº›å¯è§†åŒ–å¤–è¡¨ç»†èŠ‚ï¼Œä¾‹å¦‚å—å·ã€‚é»‘ä½“å¤§å·å—æ¯”å…¶å®ƒæ–‡å—æ›´é‡è¦ã€‚
ç¬¬ä¸‰ï¼ŒçŸ¥è¯†åº“å˜å‚¨äº†åŽŸå§‹çš„å…¨æ–‡htmlç½‘é¡µã€‚

3.æœ‰å…³å·¥ä½œ
    Webæ£€ç´¢ç ”ç©¶çš„åŽ†å²ç®€çŸã€‚World Wide Web Wormï¼ˆï¼‰æ˜¯æœ€æ—©çš„æœç´¢å¼•æ“Žä¹‹ä¸€ã€‚åŽæ¥å‡ºçŽ°äº†ä¸€äº›ç”¨äºŽå¦æœ¯ç ”ç©¶çš„æœç´¢å¼•æ“Žï¼ŒçŽ°åœ¨å®ƒä»¬ä¸çš„å¤§å¤šæ•°è¢«ä¸Šå¸‚å…¬å¸æ‹¥æœ‰ã€‚ä¸ŽWebçš„å¢žé•¿å’Œæœç´¢å¼•æ“Žçš„é‡è¦æ€§ç›¸æ¯”ï¼Œæœ‰å…³å½“ä»Šæœç´¢å¼•æ“ŽæŠ€æœ¯çš„ä¼˜ç§€è®ºæ–‡ç›¸å½“å°‘ã€‚æ ¹æ®Michael Mauldinï¼ˆLycos Incçš„é¦–å¸ç§‘å¦å®¶ï¼‰) ï¼Œâ€œå„ç§å„æ ·çš„æœåŠ¡ï¼ˆåŒ…æ‹¬Lycosï¼‰éžå¸¸å…³æ³¨è¿™äº›æ•°æ®åº“çš„ç»†èŠ‚ã€‚â€è™½ç„¶åœ¨æœç´¢å¼•æ“Žçš„æŸäº›ç‰¹ç‚¹ä¸Šåšäº†å¤§é‡å·¥ä½œã€‚å…·æœ‰ä»£è¡¨æ€§çš„å·¥ä½œæœ‰ï¼Œå¯¹çŽ°æœ‰å•†ä¸šæœç´¢å¼•æ“Žçš„ç»“æžœè¿›è¡Œä¼ é€’ï¼Œæˆ–å»ºç«‹å°åž‹çš„ä¸ªæ€§åŒ–çš„æœç´¢å¼•æ“Žã€‚æœ€åŽæœ‰å…³ä¿¡æ¯æ£€ç´¢ç³»ç»Ÿçš„ç ”ç©¶å¾ˆå¤šï¼Œå°¤å…¶åœ¨æœ‰ç»„ç»‡æœºæž„é›†åˆï¼ˆwell controlled collectionsï¼‰æ–¹é¢ã€‚åœ¨ä¸‹é¢ä¸¤èŠ‚ï¼Œæˆ‘ä»¬å°†è®¨è®ºåœ¨ä¿¡æ¯æ£€ç´¢ç³»ç»Ÿä¸çš„å“ªäº›é¢†åŸŸéœ€è¦æ”¹è¿›ä»¥ä¾¿æ›´å¥½çš„å·¥ä½œåœ¨Webä¸Šã€‚

3.1ä¿¡æ¯æ£€ç´¢ä¿¡æ¯æ£€ç´¢ç³»ç»Ÿè¯žç”Ÿåœ¨å‡ å¹´å‰ï¼Œå¹¶å‘å±•è¿…é€Ÿã€‚
    ç„¶è€Œå¤§å¤šæ•°ä¿¡æ¯æ£€ç´¢ç³»ç»Ÿç ”ç©¶çš„å¯¹è±¡æ˜¯å°è§„æ¨¡çš„å•ä¸€çš„æœ‰ç»„ç»‡ç»“æž„çš„é›†åˆï¼Œä¾‹å¦‚ç§‘å¦è®ºæ–‡é›†ï¼Œæˆ–ç›¸å…³ä¸»é¢˜çš„æ–°é—»æ•…äº‹ã€‚å®žé™…ä¸Šï¼Œä¿¡æ¯æ£€ç´¢çš„ä¸»è¦åŸºå‡†ï¼Œï¼ˆthe Text Retrieval Conferenceï¼‰ï¼Œç”¨å°è§„æ¨¡çš„ã€æœ‰ç»„ç»‡ç»“æž„çš„é›†åˆä½œä¸ºå®ƒä»¬çš„åŸºå‡†ã€‚
    å¤§åž‹æ–‡é›†åŸºå‡†åªæœ‰20GBï¼Œç›¸æ¯”ä¹‹ä¸‹ï¼Œæˆ‘ä»¬æŠ“åˆ°çš„24000000ä¸ªç½‘é¡µå 147GBã€‚åœ¨TRECä¸Šå·¥ä½œè‰¯å¥½çš„ç³»ç»Ÿï¼Œåœ¨Webä¸Šå´ä¸ä¸€å®šäº§ç”Ÿå¥½çš„ç»“æžœã€‚ä¾‹å¦‚ï¼Œæ ‡å‡†å‘é‡ç©ºé—´æ¨¡åž‹ä¼å›¾è¿”å›žå’ŒæŸ¥è¯¢è¯·æ±‚æœ€ç›¸è¿‘çš„æ–‡æ¡£ï¼ŒæŠŠæŸ¥è¯¢è¯·æ±‚å’Œæ–‡æ¡£éƒ½çœ‹ä½œç”±å‡ºçŽ°åœ¨å®ƒä»¬ä¸çš„è¯æ±‡ç»„æˆçš„å‘é‡ã€‚åœ¨WebçŽ¯å¢ƒä¸‹ï¼Œè¿™ç§ç–ç•¥å¸¸å¸¸è¿”å›žéžå¸¸çŸçš„æ–‡æ¡£ï¼Œè¿™äº›æ–‡æ¡£å¾€å¾€æ˜¯æŸ¥è¯¢è¯å†åŠ å‡ ä¸ªå—ã€‚ä¾‹å¦‚ï¼ŒæŸ¥è¯¢â€œBill Clintonâ€ï¼Œè¿”å›žçš„ç½‘é¡µåªåŒ…å«â€œBill Clinton Sucksâ€ï¼Œè¿™æ˜¯æˆ‘ä»¬ä»Žä¸€ä¸ªä¸»è¦æœç´¢å¼•æ“Žä¸çœ‹åˆ°çš„ã€‚ç½‘ç»œä¸Šæœ‰äº›äº‰è®®ï¼Œç”¨æˆ·åº”è¯¥æ›´å‡†ç¡®åœ°è¡¨è¾¾ä»–ä»¬æƒ³æŸ¥è¯¢ä»€ä¹ˆï¼Œåœ¨ä»–ä»¬çš„æŸ¥è¯¢è¯·æ±‚ä¸ç”¨æ›´å¤šçš„è¯ã€‚æˆ‘ä»¬å¼ºçƒˆåå¯¹è¿™ç§è§‚ç‚¹ã€‚å¦‚æžœç”¨æˆ·æå‡ºè±¡â€œBill Clintonâ€è¿™æ ·çš„æŸ¥è¯¢è¯·æ±‚ï¼Œåº”è¯¥å¾—åˆ°ç†æƒ³çš„æŸ¥è¯¢ç»“æžœï¼Œå› ä¸ºè¿™ä¸ªä¸»é¢˜æœ‰è®¸å¤šé«˜è´¨é‡çš„ä¿¡æ¯ã€‚è±¡æ‰€ç»™çš„ä¾‹åï¼Œæˆ‘ä»¬è®¤ä¸ºä¿¡æ¯æ£€ç´¢æ ‡å‡†éœ€è¦å‘å±•ï¼Œä»¥ä¾¿æœ‰æ•ˆåœ°å¤„ç†Webæ•°æ®ã€‚

3.2æœ‰ç»„ç»‡ç»“æž„çš„é›†åˆï¼ˆWell Controlled Collectionsï¼‰ä¸ŽWebçš„ä¸åŒç‚¹
    Webæ˜¯å®Œå…¨æ— ç»„ç»‡çš„å¼‚æž„çš„å¤§é‡æ–‡æ¡£çš„é›†åˆã€‚Webä¸çš„æ–‡æ¡£æ— è®ºå†…åœ¨ä¿¡æ¯è¿˜æ˜¯éšå«ä¿¡æ¯éƒ½å˜åœ¨å¤§é‡çš„å¼‚æž„æ€§ã€‚ä¾‹å¦‚ï¼Œæ–‡æ¡£å†…éƒ¨å°±ç”¨äº†ä¸åŒçš„è¯è¨€ï¼ˆæ—¢æœ‰äººç±»è¯è¨€åˆæœ‰ç¨‹åºï¼‰ï¼Œè¯æ±‡ï¼ˆemailåœ°å€ï¼Œé“¾æŽ¥ï¼Œé‚®æ”¿ç¼–ç ï¼Œç”µè¯å·ç ï¼Œäº§å“å·ï¼‰ï¼Œç±»åž‹ï¼ˆæ–‡æœ¬ï¼ŒHTMLï¼ŒPDFï¼Œå›¾åƒï¼Œå£°éŸ³ï¼‰ï¼Œæœ‰äº›ç”šè‡³æ˜¯æœºå™¨åˆ›å»ºçš„æ–‡ä»¶ï¼ˆlogæ–‡ä»¶ï¼Œæˆ–æ•°æ®åº“çš„è¾“å‡ºï¼‰ã€‚å¯ä»¥ä»Žæ–‡æ¡£ä¸æŽ¨æ–å‡ºæ¥ï¼Œä½†å¹¶ä¸åŒ…å«åœ¨æ–‡æ¡£ä¸çš„ä¿¡æ¯ç§°ä¸ºéšå«ä¿¡æ¯ã€‚éšå«ä¿¡æ¯åŒ…æ‹¬æ¥æºçš„ä¿¡èª‰ï¼Œæ›´æ–°é¢‘çŽ‡ï¼Œè´¨é‡ï¼Œè®¿é—®é‡å’Œå¼•ç”¨ã€‚ä¸ä½†éšå«ä¿¡æ¯çš„å¯èƒ½æ¥æºå„ç§å„æ ·ï¼Œè€Œä¸”è¢«æ£€æµ‹çš„ä¿¡æ¯ä¹Ÿå¤§ä¸ç›¸åŒï¼Œç›¸å·®å¯è¾¾å¥½å‡ ä¸ªæ•°é‡çº§ã€‚ä¾‹å¦‚ï¼Œä¸€ä¸ªé‡è¦ä¸»é¡µçš„ä½¿ç”¨é‡ï¼Œè±¡Yahoo æ¯å¤©æµè§ˆæ•°è¾¾åˆ°ä¸Šç™¾ä¸‡æ¬¡ï¼ŒäºŽæ¤ç›¸æ¯”æ— åçš„åŽ†å²æ–‡ç« å¯èƒ½åå¹´æ‰è¢«è®¿é—®ä¸€æ¬¡ã€‚å¾ˆæ˜Žæ˜¾ï¼Œæœç´¢å¼•æ“Žå¯¹è¿™ä¸¤ç±»ä¿¡æ¯çš„å¤„ç†æ˜¯ä¸åŒçš„ã€‚ Webä¸Žæœ‰ç»„ç»‡ç»“æž„é›†åˆä¹‹é—´çš„å¦å¤–ä¸€ä¸ªæ˜Žæ˜¾åŒºåˆ«æ˜¯ï¼Œäº‹å®žä¸Šï¼Œå‘Webä¸Šä¼ ä¿¡æ¯æ²¡æœ‰ä»»ä½•é™åˆ¶ã€‚çµæ´»åˆ©ç”¨è¿™ç‚¹å¯ä»¥å‘å¸ƒä»»ä½•å¯¹æœç´¢å¼•æ“Žå½±å“é‡å¤§çš„ä¿¡æ¯ï¼Œä½¿è·¯ç”±é˜»å¡žï¼ŒåŠ ä¸Šä¸ºç‰Ÿåˆ©æ•…æ„æ“çºµæœç´¢å¼•æ“Žï¼Œè¿™äº›å·²ç»æˆä¸ºä¸€ä¸ªä¸¥é‡çš„é—®é¢˜ã€‚è¿™äº›é—®é¢˜è¿˜æ²¡æœ‰è¢«ä¼ ç»Ÿçš„å°é—çš„ä¿¡æ¯æ£€ç´¢ç³»ç»Ÿæ‰€æå‡ºæ¥ã€‚å®ƒå…³å¿ƒçš„æ˜¯å…ƒæ•°æ®çš„åŠªåŠ›ï¼Œè¿™åœ¨Webæœç´¢å¼•æ“Žä¸å´ä¸é€‚ç”¨ï¼Œå› ä¸ºç½‘é¡µä¸çš„ä»»ä½•æ–‡æœ¬éƒ½ä¸ä¼šå‘ç”¨æˆ·å£°ç§°ä¼å›¾æ“çºµæœç´¢å¼•æ“Žã€‚ç”šè‡³æœ‰äº›å…¬å¸ä¸ºç‰Ÿåˆ©ä¸“é—¨æ“çºµæœç´¢å¼•æ“Žã€‚

4 ç³»ç»Ÿåˆ†æžï¼ˆSystem Anatomyï¼‰
    é¦–å…ˆï¼Œæˆ‘ä»¬æä¾›é«˜æ°´å¹³çš„æœ‰å…³ä½“ç³»ç»“æž„çš„è®¨è®ºã€‚ç„¶åŽï¼Œè¯¦ç»†æè¿°é‡è¦çš„æ•°æ®ç»“æž„ã€‚æœ€åŽï¼Œä¸»è¦åº”ç”¨ï¼šæŠ“ç½‘é¡µï¼Œç´¢å¼•ï¼Œæœç´¢å°†è¢«ä¸¥æ ¼åœ°æ£€æŸ¥ã€‚ Figure 1. High Level Google Architecture

4.1Googleä½“ç³»ç»“æž„æ¦‚è¿°
    è¿™ä¸€èŠ‚ï¼Œæˆ‘ä»¬å°†çœ‹çœ‹æ•´ä¸ªç³»ç»Ÿæ˜¯å¦‚ä½•å·¥ä½œçš„ï¼ˆgive a high levelï¼‰ï¼Œè§å›¾1ã€‚æœ¬èŠ‚ä¸è®¨è®ºåº”ç”¨å’Œæ•°æ®ç»“æž„ï¼Œåœ¨åŽå‡ èŠ‚ä¸è®¨è®ºã€‚ä¸ºäº†æ•ˆçŽ‡å¤§éƒ¨åˆ†Googleæ˜¯ç”¨cæˆ–c++å®žçŽ°çš„ï¼Œæ—¢å¯ä»¥åœ¨Solarisä¹Ÿå¯ä»¥åœ¨Linuxä¸Šè¿è¡Œã€‚
Googleç³»ç»Ÿä¸ï¼ŒæŠ“ç½‘é¡µï¼ˆä¸‹è½½ç½‘é¡µï¼‰æ˜¯ç”±å‡ ä¸ªåˆ†å¸ƒå¼crawlerså®Œæˆçš„ã€‚ä¸€ä¸ªURLæœåŠ¡å™¨è´Ÿè´£å‘crawlersæä¾›URLåˆ—è¡¨ã€‚æŠ“æ¥çš„ç½‘é¡µäº¤ç»™å˜å‚¨æœåŠ¡å™¨storeserverã€‚ç„¶åŽï¼Œç”±å˜å‚¨æœåŠ¡å™¨åŽ‹ç¼©ç½‘é¡µå¹¶æŠŠå®ƒä»¬å˜åˆ°çŸ¥è¯†åº“repositoryä¸ã€‚æ¯ä¸ªç½‘é¡µéƒ½æœ‰ä¸€ä¸ªIDï¼Œç§°ä½œdocIDï¼Œå½“æ–°URLä»Žç½‘é¡µä¸åˆ†æžå‡ºæ—¶ï¼Œå°±è¢«åˆ†é…ä¸€ä¸ªdocIDã€‚ç”±ç´¢å¼•å™¨å’ŒæŽ’åºå™¨è´Ÿè´£å»ºç«‹ç´¢å¼•index functionã€‚ç´¢å¼•å™¨ä»ŽçŸ¥è¯†åº“ä¸è¯»å–æ–‡æ¡£ï¼Œå¯¹å…¶è§£åŽ‹ç¼©å’Œåˆ†æžã€‚æ¯ä¸ªæ–‡æ¡£è¢«è½¬æ¢æˆä¸€ç»„è¯çš„å‡ºçŽ°æƒ…å†µï¼Œç§°ä½œå‘½ä¸hitsã€‚Hitsçºªå½•äº†è¯ï¼Œè¯åœ¨æ–‡æ¡£ä¸çš„ä½ç½®ï¼Œæœ€æŽ¥è¿‘çš„å—å·ï¼Œå¤§å°å†™ã€‚ç´¢å¼•å™¨æŠŠè¿™äº›hitsåˆ†é…åˆ°ä¸€ç»„æ¡¶barrelä¸ï¼Œäº§ç”Ÿç»è¿‡éƒ¨åˆ†æŽ’åºåŽçš„ç´¢å¼•ã€‚ç´¢å¼•å™¨çš„å¦ä¸€ä¸ªé‡è¦åŠŸèƒ½æ˜¯åˆ†æžç½‘é¡µä¸æ‰€æœ‰çš„é“¾æŽ¥ï¼Œå°†æœ‰å…³çš„é‡è¦ä¿¡æ¯å˜åœ¨é“¾æŽ¥æè¿°anchorsæ–‡ä»¶ä¸ã€‚è¯¥æ–‡ä»¶åŒ…å«äº†è¶³å¤Ÿçš„ä¿¡æ¯ï¼Œå¯ä»¥ç”¨æ¥åˆ¤æ–æ¯ä¸ªé“¾æŽ¥é“¾å‡ºé“¾å…¥èŠ‚ç‚¹çš„ä¿¡æ¯ï¼Œå’Œé“¾æŽ¥æ–‡æœ¬ã€‚ URLåˆ†è§£å™¨resolveré˜…è¯»é“¾æŽ¥æè¿°anchorsæ–‡ä»¶ï¼Œå¹¶æŠŠç›¸å¯¹URLè½¬æ¢æˆç»å¯¹URLï¼Œå†è½¬æ¢æˆdocIDã€‚ä¸ºé“¾æŽ¥æè¿°æ–‡æœ¬ç¼–åˆ¶ç´¢å¼•ï¼Œå¹¶ä¸Žå®ƒæ‰€æŒ‡å‘çš„docIDå…³è”èµ·æ¥ã€‚åŒæ—¶å»ºç«‹ç”±docIDå¯¹ç»„æˆçš„é“¾æŽ¥æ•°æ®åº“ã€‚ç”¨äºŽè®¡ç®—æ‰€æœ‰æ–‡æ¡£çš„PageRankå€¼ã€‚ç”¨docIDåˆ†ç±»åŽçš„barrelsï¼Œé€ç»™æŽ’åºå™¨sorterï¼Œå†æ ¹æ®wordIDè¿›è¡Œåˆ†ç±»ï¼Œå»ºç«‹åå‘ç´¢å¼•inverted indexã€‚è¿™ä¸ªæ“ä½œè¦æ°åˆ°å¥½å¤„ï¼Œä»¥ä¾¿å‡ ä¹Žä¸éœ€è¦æš‚å˜ç©ºé—´ã€‚æŽ’åºå™¨è¿˜ç»™å‡ºdocIDå’Œåç§»é‡åˆ—è¡¨ï¼Œå»ºç«‹åå‘ç´¢å¼•ã€‚ä¸€ä¸ªå«DumpLexiconçš„ç¨‹åºæŠŠè¿™ä¸ªåˆ—è¡¨å’Œç”±ç´¢å¼•å™¨äº§ç”Ÿçš„å—å…¸ç»“åˆåœ¨ä¸€èµ·ï¼Œå»ºç«‹ä¸€ä¸ªæ–°çš„å—å…¸ï¼Œä¾›æœç´¢å™¨ä½¿ç”¨ã€‚è¿™ä¸ªæœç´¢å™¨å°±æ˜¯åˆ©ç”¨ä¸€ä¸ªWebæœåŠ¡å™¨ï¼Œä½¿ç”¨ç”±DumpLexiconæ‰€ç”Ÿæˆçš„å—å…¸ï¼Œåˆ©ç”¨ä¸Šè¿°åå‘ç´¢å¼•ä»¥åŠé¡µé¢ç‰çº§PageRankæ¥å›žç”ç”¨æˆ·çš„æé—®ã€‚

4.2ä¸»è¦æ•°æ®ç»“æž„
    ç»è¿‡ä¼˜åŒ–çš„Googleæ•°æ®ç»“æž„ï¼Œèƒ½å¤Ÿç”¨è¾ƒå°çš„ä»£ä»·æŠ“å–å¤§é‡æ–‡æ¡£ï¼Œå»ºç«‹ç´¢å¼•å’ŒæŸ¥è¯¢ã€‚è™½ç„¶è¿‘å‡ å¹´CPUå’Œè¾“å…¥è¾“å‡ºé€ŸçŽ‡è¿…é€Ÿæé«˜ã€‚ç£ç›˜å¯»é“ä»ç„¶éœ€è¦10msã€‚ä»»ä½•æ—¶å€™Googleç³»ç»Ÿçš„è®¾è®¡éƒ½å°½å¯èƒ½åœ°é¿å…ç£ç›˜å¯»é“ã€‚è¿™å¯¹æ•°æ®ç»“æž„çš„è®¾è®¡å½±å“å¾ˆå¤§ã€‚

4.2.1å¤§æ–‡ä»¶å¤§æ–‡ä»¶BigFilesæ˜¯æŒ‡è™šæ‹Ÿæ–‡ä»¶ç”Ÿæˆçš„å¤šæ–‡ä»¶ç³»ç»Ÿï¼Œç”¨é•¿åº¦æ˜¯64ä½çš„æ•´åž‹æ•°æ®å¯»å€ã€‚å¤šæ–‡ä»¶ç³»ç»Ÿä¹‹é—´çš„ç©ºé—´åˆ†é…æ˜¯è‡ªåŠ¨å®Œæˆçš„ã€‚BigFilesåŒ…ä¹Ÿå¤„ç†å·²åˆ†é…å’Œæœªåˆ†é…æ–‡ä»¶æè¿°ç¬¦ã€‚ç”±äºŽæ“çºµç³»ç»Ÿä¸èƒ½æ»¡è¶³æˆ‘ä»¬çš„éœ€è¦ï¼ŒBigFilesä¹Ÿæ”¯æŒåŸºæœ¬çš„åŽ‹ç¼©é€‰é¡¹ã€‚

4.2.2çŸ¥è¯†åº“ Figure 2. Repository Data Structure çŸ¥è¯†åº“åŒ…å«æ¯ä¸ªç½‘é¡µçš„å…¨éƒ¨HTMLã€‚æ¯ä¸ªç½‘é¡µç”¨zlibï¼ˆè§RFC1950ï¼‰åŽ‹ç¼©ã€‚åŽ‹ç¼©æŠ€æœ¯çš„é€‰æ‹©æ—¢è¦è€ƒè™‘é€Ÿåº¦åˆè¦è€ƒè™‘åŽ‹ç¼©çŽ‡ã€‚æˆ‘ä»¬é€‰æ‹©zlibçš„é€Ÿåº¦è€Œä¸æ˜¯åŽ‹ç¼©çŽ‡å¾ˆé«˜çš„bzipã€‚çŸ¥è¯†åº“ç”¨bzipçš„åŽ‹ç¼©çŽ‡æŽ¥è¿‘4ï¼š1ã€‚è€Œç”¨zlibçš„åŽ‹ç¼©çŽ‡æ˜¯3ï¼š1ã€‚æ–‡æ¡£ä¸€ä¸ªæŒ¨ç€ä¸€ä¸ªçš„å˜å‚¨åœ¨çŸ¥è¯†åº“ä¸ï¼Œå‰ç¼€æ˜¯docIDï¼Œé•¿åº¦ï¼ŒURLï¼Œè§å›¾2ã€‚è®¿é—®çŸ¥è¯†åº“ä¸éœ€è¦å…¶å®ƒçš„æ•°æ®ç»“æž„ã€‚è¿™æœ‰åŠ©äºŽæ•°æ®ä¸€è‡´æ€§å’Œå‡çº§ã€‚ç”¨å…¶å®ƒæ•°æ®ç»“æž„é‡æž„ç³»ç»Ÿï¼Œæˆ‘ä»¬åªéœ€è¦ä¿®æ”¹çŸ¥è¯†åº“å’Œcrawleré”™è¯¯åˆ—è¡¨æ–‡ä»¶ã€‚

4.2.3æ–‡ä»¶ç´¢å¼•æ–‡ä»¶ç´¢å¼•ä¿å˜äº†æœ‰å…³æ–‡æ¡£çš„ä¸€äº›ä¿¡æ¯ã€‚ç´¢å¼•ä»¥docIDçš„é¡ºåºæŽ’åˆ—ï¼Œå®šå®½ISAMï¼ˆIndex sequential access modeï¼‰ã€‚æ¯æ¡è®°å½•åŒ…æ‹¬å½“å‰æ–‡ä»¶çŠ¶æ€ï¼Œä¸€ä¸ªæŒ‡å‘çŸ¥è¯†åº“çš„æŒ‡é’ˆï¼Œæ–‡ä»¶æ ¡éªŒå’Œï¼Œå„ç§ç»Ÿè®¡è¡¨ã€‚å¦‚æžœä¸€ä¸ªæ–‡æ¡£å·²ç»è¢«æŠ“åˆ°ï¼ŒæŒ‡é’ˆæŒ‡å‘docinfoæ–‡ä»¶ï¼Œè¯¥æ–‡ä»¶çš„å®½åº¦å¯å˜ï¼ŒåŒ…å«äº†URLå’Œæ ‡é¢˜ã€‚å¦åˆ™æŒ‡é’ˆæŒ‡å‘åŒ…å«è¿™ä¸ªURLçš„URLåˆ—è¡¨ã€‚è¿™ç§è®¾è®¡è€ƒè™‘åˆ°ç®€æ´çš„æ•°æ®ç»“æž„ï¼Œä»¥åŠåœ¨æŸ¥è¯¢ä¸åªéœ€è¦ä¸€ä¸ªç£ç›˜å¯»é“æ—¶é—´å°±èƒ½å¤Ÿè®¿é—®ä¸€æ¡è®°å½•ã€‚è¿˜æœ‰ä¸€ä¸ªæ–‡ä»¶ç”¨äºŽæŠŠURLè½¬æ¢æˆdocIDã€‚å®ƒæ˜¯URLæ ¡éªŒå’Œä¸Žç›¸åº”docIDçš„åˆ—è¡¨ï¼ŒæŒ‰æ ¡éªŒå’ŒæŽ’åºã€‚è¦æƒ³çŸ¥é“æŸä¸ªURLçš„docIDï¼Œéœ€è¦è®¡ç®—URLçš„æ ¡éªŒå’Œï¼Œç„¶åŽåœ¨æ ¡éªŒå’Œæ–‡ä»¶ä¸æ‰§è¡ŒäºŒè¿›åˆ¶æŸ¥æ‰¾ï¼Œæ‰¾åˆ°å®ƒçš„docIDã€‚é€šè¿‡å¯¹è¿™ä¸ªæ–‡ä»¶è¿›è¡Œåˆå¹¶ï¼Œå¯ä»¥æŠŠä¸€æ‰¹URLè½¬æ¢æˆå¯¹åº”çš„docIDã€‚URLåˆ†æžå™¨ç”¨è¿™é¡¹æŠ€æœ¯æŠŠURLè½¬æ¢æˆdocIDã€‚è¿™ç§æˆæ‰¹æ›´æ–°çš„æ¨¡å¼æ˜¯è‡³å…³é‡è¦çš„ï¼Œå¦åˆ™æ¯ä¸ªé“¾æŽ¥éƒ½éœ€è¦ä¸€æ¬¡æŸ¥è¯¢ï¼Œå‡å¦‚ç”¨ä¸€å—ç£ç›˜ï¼Œ322â€˜000â€™000ä¸ªé“¾æŽ¥çš„æ•°æ®é›†åˆå°†èŠ±è´¹ä¸€ä¸ªå¤šæœˆçš„æ—¶é—´ã€‚

4.2.4è¯å…¸è¯å…¸æœ‰å‡ ç§ä¸åŒçš„å½¢å¼ã€‚å’Œä»¥å‰ç³»ç»Ÿçš„é‡è¦ä¸åŒæ˜¯ï¼Œè¯å…¸å¯¹å†…å˜çš„è¦æ±‚å¯ä»¥åœ¨åˆç†çš„ä»·æ ¼å†…ã€‚çŽ°åœ¨å®žçŽ°çš„ç³»ç»Ÿï¼Œä¸€å°256Må†…å˜çš„æœºå™¨å°±å¯ä»¥æŠŠè¯å…¸è£…å…¥åˆ°å†…å˜ä¸ã€‚çŽ°åœ¨çš„è¯å…¸åŒ…å«14000000è¯æ±‡ï¼ˆè™½ç„¶ä¸€äº›å¾ˆå°‘ç”¨çš„è¯æ±‡æ²¡æœ‰åŠ å…¥åˆ°è¯å…¸ä¸ï¼‰ã€‚å®ƒæ‰§è¡Œåˆ†ä¸¤éƒ¨åˆ†â€”è¯æ±‡è¡¨ï¼ˆç”¨nullåˆ†éš”çš„è¿žç»ä¸²ï¼‰å’ŒæŒ‡é’ˆçš„å“ˆå¸Œè¡¨ã€‚ä¸åŒçš„å‡½æ•°ï¼Œè¯æ±‡è¡¨æœ‰ä¸€äº›è¾…åŠ©ä¿¡æ¯ï¼Œè¿™è¶…å‡ºäº†æœ¬æ–‡è®ºè¿°çš„èŒƒå›´ã€‚

4.2.5 hit list hit listæ˜¯ä¸€ç¯‡æ–‡æ¡£ä¸æ‰€å‡ºçŽ°çš„è¯çš„åˆ—è¡¨ï¼ŒåŒ…æ‹¬ä½ç½®ï¼Œå—å·ï¼Œå¤§å°å†™ã€‚Hit listå å¾ˆå¤§ç©ºé—´ï¼Œç”¨åœ¨æ£å‘å’Œåå‘ç´¢å¼•ä¸ã€‚å› æ¤ï¼Œå®ƒçš„è¡¨ç¤ºå½¢å¼è¶Šæœ‰æ•ˆè¶Šå¥½ã€‚æˆ‘ä»¬è€ƒè™‘äº†å‡ ç§æ–¹æ¡ˆæ¥ç¼–ç ä½ç½®ï¼Œå—å·ï¼Œå¤§å°å†™â€”ç®€å•ç¼–ç ï¼ˆ3ä¸ªæ•´åž‹æ•°ï¼‰ï¼Œç´§å‡‘ç¼–ç ï¼ˆæ”¯æŒä¼˜åŒ–åˆ†é…æ¯”ç‰¹ä½ï¼‰ï¼Œå“ˆå¤«æ›¼ç¼–ç ã€‚Hitçš„è¯¦ç»†ä¿¡æ¯è§å›¾3ã€‚æˆ‘ä»¬çš„ç´§å‡‘ç¼–ç æ¯ä¸ªhitç”¨2å—èŠ‚ã€‚æœ‰ä¸¤ç§ç±»åž‹hitï¼Œç‰¹æ®Šhitå’Œæ™®é€šhitã€‚ç‰¹æ®ŠhitåŒ…å«URLï¼Œæ ‡é¢˜ï¼Œé“¾æŽ¥æè¿°æ–‡å—ï¼Œmeta tagã€‚æ™®é€šhitåŒ…å«å…¶å®ƒæ¯ä»¶äº‹ã€‚å®ƒåŒ…æ‹¬å¤§å°å†™ç‰¹å¾ä½ï¼Œå—å·ï¼Œ12æ¯”ç‰¹ç”¨äºŽæè¿°è¯åœ¨æ–‡æ¡£ä¸çš„ä½ç½®ï¼ˆæ‰€æœ‰è¶…è¿‡4095çš„ä½ç½®æ ‡è®°ä¸º4096ï¼‰ã€‚å—å·é‡‡ç”¨ç›¸å¯¹äºŽæ–‡æ¡£çš„å…¶å®ƒéƒ¨åˆ†çš„ç›¸å¯¹å¤§å°è¡¨ç¤ºï¼Œå 3æ¯”ç‰¹(å®žé™…åªç”¨7ä¸ªå€¼ï¼Œå› ä¸º111æ ‡å¿—æ˜¯ç‰¹æ®Šhit)ã€‚ç‰¹æ®Šhitç”±å¤§å°å†™ç‰¹å¾ä½ï¼Œå—å·ä½ä¸º7è¡¨ç¤ºå®ƒæ˜¯ç‰¹æ®Šhitï¼Œç”¨4æ¯”ç‰¹è¡¨ç¤ºç‰¹æ®Šhitçš„ç±»åž‹ï¼Œ8æ¯”ç‰¹è¡¨ç¤ºä½ç½®ã€‚å¯¹äºŽanchor hitå…«æ¯”ç‰¹ä½ç½®ä½åˆ†å‡º4æ¯”ç‰¹ç”¨æ¥è¡¨ç¤ºåœ¨anchorä¸çš„ä½ç½®ï¼Œ4æ¯”ç‰¹ç”¨äºŽè¡¨æ˜Žanchorå‡ºçŽ°çš„å“ˆå¸Œè¡¨hash of the docIDã€‚çŸè¯æŸ¥è¯¢æ˜¯æœ‰é™çš„ï¼Œå¯¹æŸäº›è¯æ²¡æœ‰è¶³å¤Ÿå¤šçš„anchorã€‚æˆ‘ä»¬å¸Œæœ›æ›´æ–°anchor hitçš„å˜å‚¨æ–¹å¼ï¼Œä»¥ä¾¿è§£å†³åœ°å€ä½å’ŒdocIDhashåŸŸä½æ•°ä¸è¶³çš„é—®é¢˜ã€‚

å› ä¸ºæœç´¢æ—¶ï¼Œä½ ä¸ä¼šå› ä¸ºæ–‡æ¡£çš„å—å·æ¯”åˆ«çš„æ–‡æ¡£å¤§è€Œç‰¹æ®Šå¯¹å¾…å®ƒï¼Œæ‰€ä»¥é‡‡ç”¨ç›¸å¯¹å—å·ã€‚ hitè¡¨çš„é•¿åº¦å˜å‚¨åœ¨hitå‰ã€‚ä¸ºèŠ‚çœç©ºé—´hitè¡¨é•¿åº¦ï¼Œåœ¨æ£å‘ç´¢å¼•ä¸å’ŒwordIDç»“åˆåœ¨ä¸€èµ·ï¼Œåœ¨åå‘ç´¢å¼•ä¸å’ŒdocIDç»“åˆå˜å‚¨ã€‚è¿™å°±é™åˆ¶å®ƒç›¸åº”åœ°åªå 8åˆ°5æ¯”ç‰¹ï¼ˆç”¨äº›æŠ€å·§ï¼Œå¯ä»¥ä»ŽwordIDä¸å€Ÿ8bitï¼‰å¦‚æžœå¤§äºŽè¿™äº›æ¯”ç‰¹æ‰€èƒ½è¡¨ç¤ºçš„é•¿åº¦ï¼Œç”¨æº¢å‡ºç å¡«å……ï¼Œå…¶åŽä¸¤å—èŠ‚æ˜¯çœŸæ£çš„é•¿åº¦ã€‚ Figure 3. Forward and Reverse Indexes and the Lexicon
4.2.6æ£å‘ç´¢å¼•å®žé™…ä¸Šï¼Œæ£å‘ç´¢å¼•å·²ç»éƒ¨åˆ†æŽ’åºã€‚å®ƒè¢«å˜åœ¨ä¸€å®šæ•°é‡çš„barrelä¸ï¼ˆæˆ‘ä»¬ç”¨64ä¸ªbarrelsï¼‰ã€‚æ¯ä¸ªbarrelè£…ç€ä¸€å®šèŒƒå›´çš„wordIDã€‚å¦‚æžœä¸€ç¯‡æ–‡æ¡£ä¸çš„è¯è½åˆ°æŸä¸ªbarrelï¼Œå®ƒçš„docIDå°†è¢«è®°å½•åˆ°è¿™ä¸ªbarrelä¸ï¼Œç´§è·Ÿç€é‚£äº›è¯ï¼ˆæ–‡æ¡£ä¸æ‰€æœ‰çš„è¯æ±‡ï¼Œè¿˜æ˜¯è½å…¥è¯¥barrelä¸çš„è¯æ±‡ï¼‰å¯¹åº”çš„hitlistã€‚è¿™ç§æ¨¡å¼éœ€è¦ç¨å¤šäº›çš„å˜å‚¨ç©ºé—´ï¼Œå› ä¸ºä¸€ä¸ªdocIDè¢«ç”¨å¤šæ¬¡ï¼Œä½†æ˜¯å®ƒèŠ‚çœäº†æ¡¶æ•°å’Œæ—¶é—´ï¼Œæœ€åŽæŽ’åºå™¨è¿›è¡Œç´¢å¼•æ—¶é™ä½Žç¼–ç çš„å¤æ‚åº¦ã€‚æ›´è¿›ä¸€æ¥çš„æŽªæ–½æ˜¯ï¼Œæˆ‘ä»¬ä¸æ˜¯å˜å‚¨docIDæœ¬èº«ï¼Œè€Œæ˜¯å˜å‚¨ç›¸å¯¹äºŽè¯¥æ¡¶æœ€å°çš„docIDçš„å·®ã€‚ç”¨è¿™ç§æ–¹æ³•ï¼ŒæœªæŽ’åºçš„barrelçš„docIDåªéœ€24ä½ï¼Œçœä¸‹8ä½è®°å½•hitlisté•¿ã€‚

4.2.7åå‘ç´¢å¼•é™¤äº†åå‘ç´¢å¼•ç”±sorteråŠ å·¥å¤„ç†ä¹‹å¤–ï¼Œå®ƒå’Œæ£å‘ç´¢å¼•åŒ…å«ç›¸åŒçš„æ¡¶ã€‚å¯¹æ¯ä¸ªæœ‰æ•ˆçš„docIDï¼Œå—å…¸åŒ…å«ä¸€ä¸ªæŒ‡å‘è¯¥è¯æ‰€åœ¨æ¡¶çš„æŒ‡é’ˆã€‚å®ƒæŒ‡å‘ç”±docIDå’Œå®ƒçš„ç›¸åº”hitlistç»„æˆçš„doclishï¼Œè¿™ä¸ªdoclistä»£è¡¨äº†æ‰€æœ‰åŒ…å«è¯¥è¯çš„æ–‡æ¡£ã€‚ doclistä¸docIDçš„é¡ºåºæ˜¯ä¸€ä¸ªé‡è¦çš„é—®é¢˜ã€‚æœ€ç®€å•çš„è§£å†³åŠžæ³•æ˜¯ç”¨doclishæŽ’åºã€‚è¿™ç§æ–¹æ³•åˆå¹¶å¤šä¸ªè¯æ—¶å¾ˆå¿«ã€‚å¦ä¸€ä¸ªå¯é€‰æ–¹æ¡ˆæ˜¯ç”¨æ–‡æ¡£ä¸è¯¥è¯å‡ºçŽ°çš„æ¬¡æ•°æŽ’åºã€‚è¿™ç§æ–¹æ³•å›žç”å•è¯æŸ¥è¯¢ï¼Œæ‰€ç”¨æ—¶é—´å¾®ä¸è¶³é“ã€‚å½“å¤šè¯æŸ¥è¯¢æ—¶å‡ ä¹Žæ˜¯ä»Žå¤´å¼€å§‹ã€‚å¹¶ä¸”å½“ç”¨å…¶å®ƒRankç®—æ³•æ”¹è¿›ç´¢å¼•æ—¶ï¼Œéžå¸¸å›°éš¾ã€‚æˆ‘ä»¬ç»¼åˆäº†è¿™ä¸¤ç§æ–¹æ³•ï¼Œå»ºç«‹ä¸¤ç»„åå‘ç´¢å¼•barrelï¼Œä¸€ç»„barrelsçš„hitliståªåŒ…å«æ ‡é¢˜å’Œanchor hitï¼Œå¦ä¸€ç»„barrelåŒ…å«å…¨éƒ¨çš„hitlistã€‚æˆ‘ä»¬é¦–å…ˆæŸ¥ç¬¬ä¸€ç»„ç´¢å¼•æ¡¶ï¼Œçœ‹æœ‰æ²¡æœ‰åŒ¹é…çš„é¡¹ï¼Œç„¶åŽæŸ¥è¾ƒå¤§çš„é‚£ç»„æ¡¶ã€‚

Googleæœç´¢åŽŸç†çš„è®ºæ–‡(ä¸€)

最后编辑：郝聪编辑于2008/02/19 16:29

Tags: google , pr , æœç´¢åŽŸç†

CNNIC:ç™¾åº¦æˆä¸º6æˆä»

Googleæœç´¢åŽŸç†çš„è®º

郝聪SEO博客：SEO顾问咨询服务公司

Googleæœç´¢åŽŸç†çš„è®ºæ–‡(ä¸€)

分类

最新日志

最新评论

最新留言

综合点击排行

评论排行

随机日志

作者

日历

站内搜索

归档

统计

其他

< 2025 > < 4 >
日	一	二	三	四	五	六
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

郝聪SEO博客：SEO顾问咨询服务公司

Googleæœç´¢åŽŸç†çš„è®ºæ–‡(ä¸€)

分类

最新日志

最新评论

最新留言

综合点击排行

评论排行

随机日志

作者

日历

站内搜索

归档

统计

其他

Googleæœç´¢åŽŸç†çš„è®ºæ–‡(ä¸€)