ç›¸å…³åº¦è®¡ç®—ä¸Žä¿¡å™ªæ¯”

郝聪 , 2007/09/14 14:24 , 搜索引擎研究 , 评论(0) , 阅读(13723) , Via 本站原创

ä½ çŸ¥é“googleå’Œç™¾åº¦ä¸¤ä¸ªå…³é”®è¯çš„ç›¸å…³åº¦æ˜¯å¤šå°‘ä¹ˆï¼Ÿï¼ï¼æœ€åŽæˆ‘å°†æ¥å›žç”è¿™ä¸ªé—®é¢˜

é€šå¸¸æˆ‘ä»¬å¯¹äºŽæ–‡æœ¬ä¿¡æ¯ä¹‹é—´å¾—ç›¸å…³æ€§å¾—è®¡ç®—éƒ½æ˜¯é‡‡ç”¨å‘é‡çš„åŠžæ³•ï¼Œæˆ‘åœ¨ä»¥å‰çš„PPTé‡Œæ›¾ç»æåˆ°è¿‡ã€‚ç„¶è€Œå¯¹äºŽæ–‡æœ¬ä¿¡æ¯æ›´æ·±å±‚æ¬¡çš„åˆ†æžä¸èƒ½å•çº¯ä»Žå—é¢ä¸Šåˆ†æžä¸€ç¯‡æ–‡ç« çš„å…³é”®è¯ï¼Œæ›´é‡è¦çš„æ˜¯å®ƒéšå«çš„æ‰©å±•çš„æ„ä¹‰ã€‚

ä¼ ç»Ÿçš„å…³äºŽè®¡ç®—æ–‡æœ¬ç›¸å…³åº¦å’Œã€ç½‘é¡µå’ŒæŸ¥è¯¢çš„ç›¸å…³æ€§ã€‘çš„è®¡ç®—éƒ½æ˜¯é‡‡ç”¨åŒ¹é…çš„æ–¹å¼è¿›è¡Œçš„ï¼Œç„¶è€Œè¿™åªèƒ½æ˜¯åŸºäºŽå—é¢æ„ä¹‰ä¸Šçš„ç»Ÿè®¡è®¡ç®—ã€‚è¿™é‡Œä»‹ç»çš„åšæ³•æ˜¯é‡‡ç”¨å…³é”®è¯ç›¸å…³æ€§æ‰©å±•çš„åšæ³•ä»Žè€Œå¾—åˆ°æ›´åŠ ç²¾ç¡®çš„ç›¸å…³åº¦è®¡ç®—ã€‚

ä¾‹åï¼š
æ–‡ç« A: è°ˆè®ºçš„æ˜¯å¤§å¦æ•™è‚²ï¼Œæœ€é«˜é¢‘çš„å…³é”®è¯æ˜¯ï¼šå¦ç”Ÿ[3]ï¼Œå¦ä¹ [2]ï¼Œå¤§å¦[2]
æ–‡ç« B: è°ˆè®ºçš„æ˜¯æ™®é€šæ•™è‚²ï¼Œæœ€é«˜é¢‘çš„å…³é”®è¯æ˜¯ï¼šæ•™è‚²[5]ï¼Œæ•™å¸ˆ[1]ï¼Œè¿›ä¿®[1]
[]é‡Œæ˜¯ç›¸å¯¹çš„æƒé‡ï¼Œå¯ä»¥ç†è§£æˆ TF*IDF

æ ¹æ®ä¼ ç»Ÿçš„ç›¸å…³æ€§è®¡ç®—ï¼Œæˆ‘ä»¬ä¼šå¾—åˆ°å¦‚ä¸‹çš„ç»“æžœï¼š

1. æ–‡ç« A ä¸Ž æ–‡ç« B ä¸ç›¸å…³
2. æŸ¥è¯¢ å¦ç”Ÿï¼Œå¦ä¹ ï¼Œå¤§å¦åªèƒ½è¿”å›žæ–‡ç« Aï¼Œä¸èƒ½è¿”å›žæ–‡ç« B
3. æŸ¥è¯¢ æ•™è‚²ï¼Œæ•™å¸ˆï¼Œè¿›ä¿®åªèƒ½è¿”å›žæ–‡ç« Bï¼Œä¸èƒ½è¿”å›žæ–‡ç« A

åˆ†æžï¼š
è¿™ä¸ªæ˜¾ç„¶æ˜¯æœ‰ä¸€å®šçš„é—®é¢˜çš„ï¼Œé—®é¢˜çš„å‡ºçŽ°åœ¨äºŽæˆ‘ä»¬é€šå¸¸å°†â€œå—é¢â€çš„æ„æ€åšä¸ºåˆ†æžçš„æ¥æºè€Œä¸”ä¾é å’Œä»…ä»…ä¾é è¿™äº›â€œå—é¢â€çš„å…³é”®è¯åšä¸ºæ–‡ç« ç›¸å…³æ€§å’ŒæŸ¥è¯¢ç›¸å…³æ€§åˆ¤æ–çš„å”¯ä¸€è¦ç´ ã€‚

å¦‚ä½•é¿å…ï¼Ÿ
æˆ‘åœ¨ä»¥å‰çš„æ–‡ç« ä¸æåˆ°è¿‡ã€å…³é”®è¯ç›¸å…³åº¦ã€‘çš„æ¦‚å¿µï¼Œä¸¾ä¾‹è¯´æ˜Žï¼š
å½“å‡ºçŽ°ï¼šï½›å¦ä¹ ï½è¿™ä¸ªè¯æ±‡çš„æ—¶å€™ï¼ŒçœŸå®žçš„è¡¨è¾¾çš„æ„ä¹‰å¾€å¾€æ˜¯è¿™æ ·çš„ï¼š
ï½›W1*å¦ä¹ ï¼ŒW2*æ•™è‚²ï¼ŒW3*æ•™å¸ˆï¼ŒW4*å¤§å¦ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ï½
å…¶ä¸W1ï¼ŒW2...æ˜¯å¦ä¹ å’Œç›¸å…³è¯æ±‡çš„ç›¸å…³æƒé‡ã€‚

åŸºäºŽè¿™æ ·ä¸€ä¸ªçŸ©é˜µï¼Œæˆ‘ä»¬å°±èƒ½å¤Ÿå°†ä¸€ä¸ªè¯æ‰©å±•æˆä¸ºä¸€ç»„è¯æ±‡ï¼Œå› è€Œä¹ŸåŒæ—¶å¯ä»¥å°†æ–‡ç« æ‰€å¯¹åº”çš„å‘é‡æ‰©å±•æˆä¸€ä¸ªæ›´å¤šè¯æ±‡çš„é›†åˆã€‚

è¿™é‡Œçš„è®¡ç®—éœ€è¦ä¸€ä¸ªå®Œæ•´çš„ç›¸å…³åº¦çŸ©é˜µ:M

M(i,j) = {å…³é”®è¯i,jçš„ç›¸å…³åº¦}
è€Œä¸¤ç¯‡æ–‡ç« çš„ç›¸å…³åº¦çš„è®¡ç®—ï¼Œä¹Ÿç”±ç®€å•çš„
R= Sigma Vi*Vi
å˜ä¸º
R= Sigma Vi*M(i,j)*Vj

æŸ¥è¯¢å…³é”®è¯å’Œæ–‡ç« çš„ç›¸å…³åº¦ä¹Ÿç”±ç®€å•çš„
R(i)=TF(i)*IDF(i)
å˜ä¸º
R(i)=Sigma TF(j)*IDF(j)*M(i,j)

ä¸‹é¢ç¢°åˆ°ä¸€ä¸ªæ ¸å¿ƒé—®é¢˜å°±æ˜¯ï¼šå…³é”®è¯ä¹‹é—´çš„ç›¸å…³åº¦å¦‚ä½•è®¡ç®—ï¼Ÿ
ä¾‹å¦‚ï¼šå¦æ ¡å’Œå¦ç”Ÿçš„ç›¸å…³åº¦æ˜¯å¤šå°‘ï¼Ÿ
è®¡ç®—æ–¹æ³•ï¼š
å‡è®¾ä¸€ä¸ªæ–‡ç« é›†åˆ {C}ï¼Œæ€»æ–‡ç« æ•°ç›®ä¸ºNï¼Œå…¶ä¸å«æœ‰å•è¯Açš„æ–‡ç« æ€»æ•°ä¸ºNaï¼Œå«æœ‰å•è¯Bçš„æ–‡ç« æ€»æ•°æ˜¯Nbï¼Œå«æœ‰ï½›A+Bï½çš„æ–‡ç« æ€»æ•°æ˜¯ Nabï¼Œé‚£ä¹ˆç›¸å…³æ€§è¿™ä¹ˆè®¡ç®—

CorrAB= Nab/(Na+Nb-Nab)-(Na*Nb)/(N*N)

æœ¬è®¡ç®—ä¸å¯èƒ½ä¼šå¾—åˆ°è´Ÿç›¸å…³ï¼Œå¦‚æžœè€ƒè™‘åˆ°Na,Nbéƒ½æ˜¯å°é‡ï¼Œå¯ä»¥å¿½ç•¥ï¼Œé‚£ä¹ˆ

CorrAB= Nab/(Na+Nb-Nab)

è‡³æ¤ï¼Œè¦è®¡ç®—ç›¸å…³åº¦ä¹‹é—´çš„å…¨éƒ¨è¦ç´ éƒ½èŽ·å¾—äº†ã€‚

æ€è€ƒï¼Œé‚£ä¹ˆåˆ°åº• å¦æ ¡ å’Œå¦ç”Ÿ ä¹‹é—´çš„ç›¸å…³åº¦æ˜¯å¤šå°‘å‘¢ï¼Ÿ
æˆ‘ä»¬åˆ©ç”¨googleæ¥å›žç”è¿™ä¸ªé—®é¢˜å§ï¼š

çº¦æœ‰91,700,000é¡¹ç¬¦åˆå¦æ ¡çš„æŸ¥è¯¢ç»“æžœ
çº¦æœ‰88,200,000é¡¹ç¬¦åˆå¦ç”Ÿçš„æŸ¥è¯¢ç»“æžœ
çº¦æœ‰48,900,000é¡¹ç¬¦åˆå¦ç”Ÿ å¦æ ¡çš„æŸ¥è¯¢ç»“æžœ

Corr{å¦æ ¡ï¼Œå¦ç”Ÿ}ï¼48,900,000/(91,700,000+88,200,000-48,900,000)=0.37

è¿™ä¸ªåŽŸç†æˆ‘ä»¥å‰åº”ç”¨åœ¨äº†è®¡ç®—ã€ç½‘é¡µä¿¡å™ªæ¯”ã€‘ä¸Šï¼Œå’Œç½‘é¡µä¿¡å™ªæ¯”ä¸€èµ·æˆä¸ºè¡¡é‡ä¸€ä¸ªç½‘é¡µçš„å…³é”®è¯çš„æ ¸å¿ƒç®—æ³•ã€‚
è¿™ä¹Ÿå°±æ˜¯ä¸ºä»€ä¹ˆ6eçš„ç½‘é¡µä¿¡å™ªæ¯”èƒ½å¤Ÿä¸ä¾é ç½‘é¡µä¸ŠçŽ°æœ‰çš„å…³é”®è¯è€Œå‡†ç¡®çš„åˆ¤æ–ç½‘é¡µçš„åˆ†ç±»å’Œç›¸å…³åº¦ï¼Œæ˜¯å› ä¸ºé™¤äº†TFå’ŒIDFä¹‹å¤–ï¼Œæˆ‘ä»¬èƒ½å¤Ÿä»Žå·²æœ‰çš„æ–‡æœ¬é›†åˆé‡Œå¦åˆ°æ›´å¤šçš„â€œçŸ¥è¯†â€ã€‚

é‚£ä¹ˆç™¾åº¦å’Œgoogleçš„ç›¸å…³åº¦åº”è¯¥ä¸éš¾è®¡ç®—äº†:

åˆ©ç”¨ googleè®¡ç®—å¾—åˆ°ï¼š2,950,000/(61,800,000+6,370,000-2,950,000)=0.03

åˆ©ç”¨ baiduè®¡ç®—å¾—åˆ°ï¼š2,760,000/(21,700,000+12,200,000-2,760,000)=0.08

çœ‹æ¥åŸºæœ¬ä¸Šç›¸å…³åº¦å°äºŽ10%ã€‚

ä½œè€…ï¼šå¢äº®
è½¬è½½è‡ªï¼šhttp://www.wespoke.com/archives/001078.html
最后编辑：郝聪编辑于2008/02/19 15:43

Tags: ç½‘é¡µä¿¡å™ªæ¯”