ä½ çŸ¥é“google和百度两个关键è¯çš„相关度是多少么?ï¼ï¼æœ€åŽæˆ‘å°†æ¥å›žç”这个问题
通常我们对于文本信æ¯ä¹‹é—´å¾—相关性得计算都是采用å‘é‡çš„办法,我在以å‰çš„PPT里曾ç»æ到过。然而对于文本信æ¯æ›´æ·±å±‚次的分æžä¸èƒ½å•çº¯ä»Žå—é¢ä¸Šåˆ†æžä¸€ç¯‡æ–‡ç« 的关键è¯ï¼Œæ›´é‡è¦çš„是它éšå«çš„扩展的æ„义。
ä¼ ç»Ÿçš„å…³äºŽè®¡ç®—æ–‡æœ¬ç›¸å…³åº¦å’Œã€ç½‘页和查询的相关性】的计算都是采用匹é…çš„æ–¹å¼è¿›è¡Œçš„,然而这åªèƒ½æ˜¯åŸºäºŽå—é¢æ„义上的统计计算。这里介ç»çš„åšæ³•æ˜¯é‡‡ç”¨å…³é”®è¯ç›¸å…³æ€§æ‰©å±•çš„åšæ³•ä»Žè€Œå¾—åˆ°æ›´åŠ ç²¾ç¡®çš„ç›¸å…³åº¦è®¡ç®—ã€‚
例å:
æ–‡ç« A: 谈论的是大å¦æ•™è‚²ï¼Œæœ€é«˜é¢‘的关键è¯æ˜¯ï¼šå¦ç”Ÿ[3],å¦ä¹ [2],大å¦[2]
æ–‡ç« B: 谈论的是普通教育,最高频的关键è¯æ˜¯ï¼šæ•™è‚²[5],教师[1],进修[1]
[]里是相对的æƒé‡ï¼Œå¯ä»¥ç†è§£æˆ TF*IDF
æ ¹æ®ä¼ 统的相关性计算,我们会得到如下的结果:
1. æ–‡ç« A 与 æ–‡ç« B ä¸ç›¸å…³
2. 查询 å¦ç”Ÿï¼Œå¦ä¹ ,大å¦åªèƒ½è¿”å›žæ–‡ç« A,ä¸èƒ½è¿”å›žæ–‡ç« B
3. 查询 教育,教师,进修åªèƒ½è¿”å›žæ–‡ç« B,ä¸èƒ½è¿”å›žæ–‡ç« A
分æžï¼š
这个显然是有一定的问题的,问题的出现在于我们通常将“å—é¢â€çš„æ„æ€åšä¸ºåˆ†æžçš„æ¥æºè€Œä¸”ä¾é 和仅仅ä¾é 这些“å—é¢â€çš„关键è¯åšä¸ºæ–‡ç« 相关性和查询相关性判æ–的唯一è¦ç´ 。
如何é¿å…?
我在以å‰çš„æ–‡ç« ä¸æ到过ã€å…³é”®è¯ç›¸å…³åº¦ã€‘的概念,举例说明:
当出现:{å¦ä¹ ï½è¿™ä¸ªè¯æ±‡çš„时候,真实的表达的æ„ä¹‰å¾€å¾€æ˜¯è¿™æ ·çš„ï¼š
ï½›W1*å¦ä¹ ,W2*教育,W3*教师,W4*大å¦ã€‚。。。。。ï½
å…¶ä¸W1,W2...是å¦ä¹ 和相关è¯æ±‡çš„相关æƒé‡ã€‚
åŸºäºŽè¿™æ ·ä¸€ä¸ªçŸ©é˜µï¼Œæˆ‘ä»¬å°±èƒ½å¤Ÿå°†ä¸€ä¸ªè¯æ‰©å±•æˆä¸ºä¸€ç»„è¯æ±‡ï¼Œå› 而也åŒæ—¶å¯ä»¥å°†æ–‡ç« 所对应的å‘é‡æ‰©å±•æˆä¸€ä¸ªæ›´å¤šè¯æ±‡çš„集åˆã€‚
这里的计算需è¦ä¸€ä¸ªå®Œæ•´çš„相关度矩阵:M
M(i,j) = {关键è¯i,j的相关度}
è€Œä¸¤ç¯‡æ–‡ç« çš„ç›¸å…³åº¦çš„è®¡ç®—ï¼Œä¹Ÿç”±ç®€å•çš„
R= Sigma Vi*Vi
å˜ä¸º
R= Sigma Vi*M(i,j)*Vj
查询关键è¯å’Œæ–‡ç« 的相关度也由简å•çš„
R(i)=TF(i)*IDF(i)
å˜ä¸º
R(i)=Sigma TF(j)*IDF(j)*M(i,j)
下é¢ç¢°åˆ°ä¸€ä¸ªæ ¸å¿ƒé—®é¢˜å°±æ˜¯ï¼šå…³é”®è¯ä¹‹é—´çš„相关度如何计算?
例如:å¦æ ¡å’Œå¦ç”Ÿçš„相关度是多少?
计算方法:
å‡è®¾ä¸€ä¸ªæ–‡ç« é›†åˆ {C}ï¼Œæ€»æ–‡ç« æ•°ç›®ä¸ºN,其ä¸å«æœ‰å•è¯Açš„æ–‡ç« æ€»æ•°ä¸ºNa,å«æœ‰å•è¯Bçš„æ–‡ç« æ€»æ•°æ˜¯Nb,å«æœ‰ï½›A+Bï½çš„æ–‡ç« æ€»æ•°æ˜¯ Nab,那么相关性这么计算
CorrAB= Nab/(Na+Nb-Nab)-(Na*Nb)/(N*N)
本计算ä¸å¯èƒ½ä¼šå¾—到负相关,如果考虑到Na,Nb都是å°é‡ï¼Œå¯ä»¥å¿½ç•¥ï¼Œé‚£ä¹ˆ
CorrAB= Nab/(Na+Nb-Nab)
至æ¤ï¼Œè¦è®¡ç®—相关度之间的全部è¦ç´ 都获得了。
æ€è€ƒï¼Œé‚£ä¹ˆåˆ°åº• å¦æ ¡ å’Œå¦ç”Ÿ 之间的相关度是多少呢?
我们利用googleæ¥å›žç”这个问题å§ï¼š
约有91,700,000项符åˆå¦æ ¡çš„查询结果
约有88,200,000项符åˆå¦ç”Ÿçš„查询结果
约有48,900,000项符åˆå¦ç”Ÿ å¦æ ¡çš„查询结果
Corr{å¦æ ¡ï¼Œå¦ç”Ÿ}ï¼48,900,000/(91,700,000+88,200,000-48,900,000)=0.37
这个原ç†æˆ‘以å‰åº”用在了计算ã€ç½‘页信噪比】上,和网页信噪比一起æˆä¸ºè¡¡é‡ä¸€ä¸ªç½‘页的关键è¯çš„æ ¸å¿ƒç®—æ³•ã€‚
这也就是为什么6e的网页信噪比能够ä¸ä¾é 网页上现有的关键è¯è€Œå‡†ç¡®çš„判æ–ç½‘é¡µçš„åˆ†ç±»å’Œç›¸å…³åº¦ï¼Œæ˜¯å› ä¸ºé™¤äº†TFå’ŒIDF之外,我们能够从已有的文本集åˆé‡Œå¦åˆ°æ›´å¤šçš„“知识â€ã€‚
那么百度和google的相关度应该ä¸éš¾è®¡ç®—了:
利用 google计算得到:2,950,000/(61,800,000+6,370,000-2,950,000)=0.03
利用 baidu计算得到:2,760,000/(21,700,000+12,200,000-2,760,000)=0.08
看æ¥åŸºæœ¬ä¸Šç›¸å…³åº¦å°äºŽ10%。
作者:å¢äº®
转载自:http://www.wespoke.com/archives/001078.html
最后编辑: 郝聪 编辑于2008/02/19 15:43
通常我们对于文本信æ¯ä¹‹é—´å¾—相关性得计算都是采用å‘é‡çš„办法,我在以å‰çš„PPT里曾ç»æ到过。然而对于文本信æ¯æ›´æ·±å±‚次的分æžä¸èƒ½å•çº¯ä»Žå—é¢ä¸Šåˆ†æžä¸€ç¯‡æ–‡ç« 的关键è¯ï¼Œæ›´é‡è¦çš„是它éšå«çš„扩展的æ„义。
ä¼ ç»Ÿçš„å…³äºŽè®¡ç®—æ–‡æœ¬ç›¸å…³åº¦å’Œã€ç½‘页和查询的相关性】的计算都是采用匹é…çš„æ–¹å¼è¿›è¡Œçš„,然而这åªèƒ½æ˜¯åŸºäºŽå—é¢æ„义上的统计计算。这里介ç»çš„åšæ³•æ˜¯é‡‡ç”¨å…³é”®è¯ç›¸å…³æ€§æ‰©å±•çš„åšæ³•ä»Žè€Œå¾—åˆ°æ›´åŠ ç²¾ç¡®çš„ç›¸å…³åº¦è®¡ç®—ã€‚
例å:
æ–‡ç« A: 谈论的是大å¦æ•™è‚²ï¼Œæœ€é«˜é¢‘的关键è¯æ˜¯ï¼šå¦ç”Ÿ[3],å¦ä¹ [2],大å¦[2]
æ–‡ç« B: 谈论的是普通教育,最高频的关键è¯æ˜¯ï¼šæ•™è‚²[5],教师[1],进修[1]
[]里是相对的æƒé‡ï¼Œå¯ä»¥ç†è§£æˆ TF*IDF
æ ¹æ®ä¼ 统的相关性计算,我们会得到如下的结果:
1. æ–‡ç« A 与 æ–‡ç« B ä¸ç›¸å…³
2. 查询 å¦ç”Ÿï¼Œå¦ä¹ ,大å¦åªèƒ½è¿”å›žæ–‡ç« A,ä¸èƒ½è¿”å›žæ–‡ç« B
3. 查询 教育,教师,进修åªèƒ½è¿”å›žæ–‡ç« B,ä¸èƒ½è¿”å›žæ–‡ç« A
分æžï¼š
这个显然是有一定的问题的,问题的出现在于我们通常将“å—é¢â€çš„æ„æ€åšä¸ºåˆ†æžçš„æ¥æºè€Œä¸”ä¾é 和仅仅ä¾é 这些“å—é¢â€çš„关键è¯åšä¸ºæ–‡ç« 相关性和查询相关性判æ–的唯一è¦ç´ 。
如何é¿å…?
我在以å‰çš„æ–‡ç« ä¸æ到过ã€å…³é”®è¯ç›¸å…³åº¦ã€‘的概念,举例说明:
当出现:{å¦ä¹ ï½è¿™ä¸ªè¯æ±‡çš„时候,真实的表达的æ„ä¹‰å¾€å¾€æ˜¯è¿™æ ·çš„ï¼š
ï½›W1*å¦ä¹ ,W2*教育,W3*教师,W4*大å¦ã€‚。。。。。ï½
å…¶ä¸W1,W2...是å¦ä¹ 和相关è¯æ±‡çš„相关æƒé‡ã€‚
åŸºäºŽè¿™æ ·ä¸€ä¸ªçŸ©é˜µï¼Œæˆ‘ä»¬å°±èƒ½å¤Ÿå°†ä¸€ä¸ªè¯æ‰©å±•æˆä¸ºä¸€ç»„è¯æ±‡ï¼Œå› 而也åŒæ—¶å¯ä»¥å°†æ–‡ç« 所对应的å‘é‡æ‰©å±•æˆä¸€ä¸ªæ›´å¤šè¯æ±‡çš„集åˆã€‚
这里的计算需è¦ä¸€ä¸ªå®Œæ•´çš„相关度矩阵:M
M(i,j) = {关键è¯i,j的相关度}
è€Œä¸¤ç¯‡æ–‡ç« çš„ç›¸å…³åº¦çš„è®¡ç®—ï¼Œä¹Ÿç”±ç®€å•çš„
R= Sigma Vi*Vi
å˜ä¸º
R= Sigma Vi*M(i,j)*Vj
查询关键è¯å’Œæ–‡ç« 的相关度也由简å•çš„
R(i)=TF(i)*IDF(i)
å˜ä¸º
R(i)=Sigma TF(j)*IDF(j)*M(i,j)
下é¢ç¢°åˆ°ä¸€ä¸ªæ ¸å¿ƒé—®é¢˜å°±æ˜¯ï¼šå…³é”®è¯ä¹‹é—´çš„相关度如何计算?
例如:å¦æ ¡å’Œå¦ç”Ÿçš„相关度是多少?
计算方法:
å‡è®¾ä¸€ä¸ªæ–‡ç« é›†åˆ {C}ï¼Œæ€»æ–‡ç« æ•°ç›®ä¸ºN,其ä¸å«æœ‰å•è¯Açš„æ–‡ç« æ€»æ•°ä¸ºNa,å«æœ‰å•è¯Bçš„æ–‡ç« æ€»æ•°æ˜¯Nb,å«æœ‰ï½›A+Bï½çš„æ–‡ç« æ€»æ•°æ˜¯ Nab,那么相关性这么计算
CorrAB= Nab/(Na+Nb-Nab)-(Na*Nb)/(N*N)
本计算ä¸å¯èƒ½ä¼šå¾—到负相关,如果考虑到Na,Nb都是å°é‡ï¼Œå¯ä»¥å¿½ç•¥ï¼Œé‚£ä¹ˆ
CorrAB= Nab/(Na+Nb-Nab)
至æ¤ï¼Œè¦è®¡ç®—相关度之间的全部è¦ç´ 都获得了。
æ€è€ƒï¼Œé‚£ä¹ˆåˆ°åº• å¦æ ¡ å’Œå¦ç”Ÿ 之间的相关度是多少呢?
我们利用googleæ¥å›žç”这个问题å§ï¼š
约有91,700,000项符åˆå¦æ ¡çš„查询结果
约有88,200,000项符åˆå¦ç”Ÿçš„查询结果
约有48,900,000项符åˆå¦ç”Ÿ å¦æ ¡çš„查询结果
Corr{å¦æ ¡ï¼Œå¦ç”Ÿ}ï¼48,900,000/(91,700,000+88,200,000-48,900,000)=0.37
这个原ç†æˆ‘以å‰åº”用在了计算ã€ç½‘页信噪比】上,和网页信噪比一起æˆä¸ºè¡¡é‡ä¸€ä¸ªç½‘页的关键è¯çš„æ ¸å¿ƒç®—æ³•ã€‚
这也就是为什么6e的网页信噪比能够ä¸ä¾é 网页上现有的关键è¯è€Œå‡†ç¡®çš„判æ–ç½‘é¡µçš„åˆ†ç±»å’Œç›¸å…³åº¦ï¼Œæ˜¯å› ä¸ºé™¤äº†TFå’ŒIDF之外,我们能够从已有的文本集åˆé‡Œå¦åˆ°æ›´å¤šçš„“知识â€ã€‚
那么百度和google的相关度应该ä¸éš¾è®¡ç®—了:
利用 google计算得到:2,950,000/(61,800,000+6,370,000-2,950,000)=0.03
利用 baidu计算得到:2,760,000/(21,700,000+12,200,000-2,760,000)=0.08
看æ¥åŸºæœ¬ä¸Šç›¸å…³åº¦å°äºŽ10%。
作者:å¢äº®
转载自:http://www.wespoke.com/archives/001078.html
最后编辑: 郝聪 编辑于2008/02/19 15:43