æœç´¢å¼•æ“Žæœ‰æ•ˆé¿å…é‡å¤å†…容的信æ¯ç‰‡ç®—法
在编写网页æœç´¢çš„过程ä¸,网页臃余和内容臃余是个éžå¸¸ä¸¥é‡çš„问题,ä¿¡æ¯ç‰‡ç®—法就是为了解决这个问题而设计的算法。
ä¼ ç»Ÿçš„æœç´¢å¼•æ“Žå¯¹ç½‘页原代ç 基本上都是完全ä¿å˜çš„,baidu,google都有他们的网页快照,而这些快照的内容就是他们的蜘蛛程åºåœ¨å‘现连接åŽè¯»å–到的内容,仔细想一下我们有必è¦å°†ç½‘页全文收录å—?å‡è®¾ä½ å’Œæˆ‘ä¸€æ ·è¿½æ±‚æœ€ä½Žæˆæœ¬,最快速度,回ç”便是å¦å®šçš„,尽管æœç´¢çš„是索引文件,而éžè¿™ä¸ªå…¨æ–‡ç›®å½•ã€‚首先一个网站他的网页有å¯èƒ½å¥½å¤šéƒ½æ˜¯é‡å¤çš„,å½“ç„¶ä½ éžè¯´ä½ 的网站网页完全ä¸é‡å¤æˆ‘也没æ„è§ï¼Œæ¯•ç«Ÿè¿™åªæ˜¯æœ€å的打算,其次,网页的内容å—å¯èƒ½å˜åœ¨å¾ˆå¤šé‡å¤çš„,比如网页的导航æ¡ï¼Œé¡µè„šçš„版æƒä¿¡æ¯ï¼Œæœ€æ–°æ–‡ç« 10篇ç‰ç‰ï¼Œå‡è®¾æœ‰ä¸€ç§ç®—法å¯ä»¥èŽ·å¾—æ¯å¼ 网页的新信æ¯ï¼ŒæŠ›å¼ƒè‡ƒä½™ï¼Œè¿™æ ·ä¸æ˜¯å¾ˆå¥½å—?
在æ述算法实现之å‰è¯·æ€è€ƒä¸€ä¸‹é—®é¢˜:
1:如何é¿å…åŒä¸€ç½‘站多个域å的问题?比如bczs.com完全抄è¢csdn.net如何é¿å…收录bczs.com的内容?
2:还以CSDN为例,网站的æ¯ä¸€é¢‘é“都有个导航æ¡ï¼Œç¬¬2书店,人æ‰,外包ç‰ï¼Œå¦‚何é¿å…收录这些内容?
好,现在æœç´¢èœ˜è››æ¥åˆ°CSDN,抓å–首页,为首页拆分信æ¯ç‰‡ï¼Œæ³¨æ„ä¸æ˜¯å…¨æ–‡ä¸€è‚¡è„‘地去除HTMLæ ‡ç¾ï¼Œè€Œæ˜¯é¦–先分æˆä¿¡æ¯ç‰‡,大家都知é“在htmlä¸æ ‡ç¾æ˜¯æˆå¯¹çš„,这也为信æ¯ç‰‡ç®—法æ供了å¯èƒ½,æ¯”å¦‚å½“æ ‡ç¾å†…的有效信æ¯è¶…过10å—符时å¯ä»¥ä½œä¸ºä¿¡æ¯ç‰‡,有效å—符的判æ–完全å–å†³äºŽä½ çš„è¦æ±‚,比如为实现æœç´¢,把<>算为有效信æ¯<>片,以下是我的测试结果:
第1片:
CSDN.NET - ä¸å›½æœ€å¤§çš„å¼€å‘者网络,为开å‘人员和相关ä¼ä¸šæ供全é¢çš„ä¿¡æ¯æœåŠ¡å’ŒæŠ€æœ¯æœåŠ¡
第2片:
è¿™ä¸€è¡Œå› ä¸ºæ¯ä¸ªçš„内容å‡ä¸æ»¡10个,所以å–ä¸Šçº§æ ‡ç¾
åŒä¸Šç¬¬3片::
è¿™æ ·é¡ºæ¬¡å¯¹CSDN的首页进行分片,比如得到150片,拆分方å¼ä¸åŒåˆ™ç‰‡æ•°æœ‰æ‰€ä¸åŒ,好了,æš‚æ—¶ä¸è¦å†™å…¥æ•°æ®åº“,先临时å˜èµ·æ¥ï¼Œä¸‹é¢å¼€å§‹ç¬¬äºŒé¡µ,例如http://news.csdn.net/æ¥åˆ°è¿™é‡Œï¼Œå¼€å§‹æ‹†åˆ†ä¿¡æ¯ç‰‡ï¼š
第1片:CSDN æ–°é—»é¢‘é“ [ 2.0 Beta ]
第2片:
第3片:
第4片: 厂商专区
看出结论了å—?由于åˆç†çš„实行分片,直接导致出现第2片,第3片完全相åŒçš„现象,也就是说,http://news.csdn.net/åªéœ€è¦è®°å½•ç¬¬1片和第4片,ä¸éœ€è¦çºªå½•ç¬¬2片,第3片,将上述一系列的过程在CSDN进行完毕,就得到了所有的信æ¯ç‰‡ï¼Œæ•°æ®åº“ä¸åªéœ€è¦çºªå½•è¿™äº›ä¿¡æ¯ç‰‡çš„有效内容就å¯ä»¥äº†ï¼Œç„¶åŽå°†CSDNçš„æ¯ä¸ªä¿¡æ¯ç‰‡æŒ‡æ´¾ç»™ä¸€ä¸ªURL地å€ï¼Œå¹¶ä¸ºä¿¡æ¯ç‰‡å»ºç«‹ç´¢å¼•ï¼Œè¿™æ ·ä¸€æ¥å°±æœ‰äº†ä¸æ–‡åˆ†è¯ç´¢å¼•(为了查找信æ¯ç‰‡),信æ¯ç‰‡ç´¢å¼•(ä¸ºäº†æ ¹æ®ä¿¡æ¯ç‰‡æŸ¥æ‰¾ç½‘页地å€),两个索引,由于数æ®åº“体积的大大å‡å°,速度自然æ高。
å¯èƒ½æœ‰äººé—®,å‡è®¾ä¸¤ä¸ªç½‘页都包å«ä¿¡æ¯ç‰‡x,把它判给è°å‘¢?很简å•,å¯ä»¥è®©ä¸¤ä¸ªåœ°å€PK,比如比较目录深度,比较default,index,home,main顺åºï¼Œæ¯”较文档å大å°,比整ç†åŽå‚数的大å°,如果跨站PK还å¯ä»¥æ¯”较网站优先值,比较连通时间连通概率ç‰ã€‚
好了,现在想一想,当åˆæ出的两个问题解决了å—,还在为判æ–é‡å¤ç½‘页é‡å¤å†…容å‘æ„å—?是ä¸æ˜¯æœ‰å¾ˆå¤§çš„改善。
最后编辑: 郝聪 编辑于2008/02/19 16:45
ä¼ ç»Ÿçš„æœç´¢å¼•æ“Žå¯¹ç½‘页原代ç 基本上都是完全ä¿å˜çš„,baidu,google都有他们的网页快照,而这些快照的内容就是他们的蜘蛛程åºåœ¨å‘现连接åŽè¯»å–到的内容,仔细想一下我们有必è¦å°†ç½‘页全文收录å—?å‡è®¾ä½ å’Œæˆ‘ä¸€æ ·è¿½æ±‚æœ€ä½Žæˆæœ¬,最快速度,回ç”便是å¦å®šçš„,尽管æœç´¢çš„是索引文件,而éžè¿™ä¸ªå…¨æ–‡ç›®å½•ã€‚首先一个网站他的网页有å¯èƒ½å¥½å¤šéƒ½æ˜¯é‡å¤çš„,å½“ç„¶ä½ éžè¯´ä½ 的网站网页完全ä¸é‡å¤æˆ‘也没æ„è§ï¼Œæ¯•ç«Ÿè¿™åªæ˜¯æœ€å的打算,其次,网页的内容å—å¯èƒ½å˜åœ¨å¾ˆå¤šé‡å¤çš„,比如网页的导航æ¡ï¼Œé¡µè„šçš„版æƒä¿¡æ¯ï¼Œæœ€æ–°æ–‡ç« 10篇ç‰ç‰ï¼Œå‡è®¾æœ‰ä¸€ç§ç®—法å¯ä»¥èŽ·å¾—æ¯å¼ 网页的新信æ¯ï¼ŒæŠ›å¼ƒè‡ƒä½™ï¼Œè¿™æ ·ä¸æ˜¯å¾ˆå¥½å—?
在æ述算法实现之å‰è¯·æ€è€ƒä¸€ä¸‹é—®é¢˜:
1:如何é¿å…åŒä¸€ç½‘站多个域å的问题?比如bczs.com完全抄è¢csdn.net如何é¿å…收录bczs.com的内容?
2:还以CSDN为例,网站的æ¯ä¸€é¢‘é“都有个导航æ¡ï¼Œç¬¬2书店,人æ‰,外包ç‰ï¼Œå¦‚何é¿å…收录这些内容?
好,现在æœç´¢èœ˜è››æ¥åˆ°CSDN,抓å–首页,为首页拆分信æ¯ç‰‡ï¼Œæ³¨æ„ä¸æ˜¯å…¨æ–‡ä¸€è‚¡è„‘地去除HTMLæ ‡ç¾ï¼Œè€Œæ˜¯é¦–先分æˆä¿¡æ¯ç‰‡,大家都知é“在htmlä¸æ ‡ç¾æ˜¯æˆå¯¹çš„,这也为信æ¯ç‰‡ç®—法æ供了å¯èƒ½,æ¯”å¦‚å½“æ ‡ç¾å†…的有效信æ¯è¶…过10å—符时å¯ä»¥ä½œä¸ºä¿¡æ¯ç‰‡,有效å—符的判æ–完全å–å†³äºŽä½ çš„è¦æ±‚,比如为实现æœç´¢,把<>算为有效信æ¯<>片,以下是我的测试结果:
第1片:
第2片:
è¿™ä¸€è¡Œå› ä¸ºæ¯ä¸ª
åŒä¸Šç¬¬3片::
è¿™æ ·é¡ºæ¬¡å¯¹CSDN的首页进行分片,比如得到150片,拆分方å¼ä¸åŒåˆ™ç‰‡æ•°æœ‰æ‰€ä¸åŒ,好了,æš‚æ—¶ä¸è¦å†™å…¥æ•°æ®åº“,先临时å˜èµ·æ¥ï¼Œä¸‹é¢å¼€å§‹ç¬¬äºŒé¡µ,例如http://news.csdn.net/æ¥åˆ°è¿™é‡Œï¼Œå¼€å§‹æ‹†åˆ†ä¿¡æ¯ç‰‡ï¼š
第1片:
第2片:
第3片:
第4片:
看出结论了å—?由于åˆç†çš„实行分片,直接导致出现第2片,第3片完全相åŒçš„现象,也就是说,http://news.csdn.net/åªéœ€è¦è®°å½•ç¬¬1片和第4片,ä¸éœ€è¦çºªå½•ç¬¬2片,第3片,将上述一系列的过程在CSDN进行完毕,就得到了所有的信æ¯ç‰‡ï¼Œæ•°æ®åº“ä¸åªéœ€è¦çºªå½•è¿™äº›ä¿¡æ¯ç‰‡çš„有效内容就å¯ä»¥äº†ï¼Œç„¶åŽå°†CSDNçš„æ¯ä¸ªä¿¡æ¯ç‰‡æŒ‡æ´¾ç»™ä¸€ä¸ªURL地å€ï¼Œå¹¶ä¸ºä¿¡æ¯ç‰‡å»ºç«‹ç´¢å¼•ï¼Œè¿™æ ·ä¸€æ¥å°±æœ‰äº†ä¸æ–‡åˆ†è¯ç´¢å¼•(为了查找信æ¯ç‰‡),信æ¯ç‰‡ç´¢å¼•(ä¸ºäº†æ ¹æ®ä¿¡æ¯ç‰‡æŸ¥æ‰¾ç½‘页地å€),两个索引,由于数æ®åº“体积的大大å‡å°,速度自然æ高。
å¯èƒ½æœ‰äººé—®,å‡è®¾ä¸¤ä¸ªç½‘页都包å«ä¿¡æ¯ç‰‡x,把它判给è°å‘¢?很简å•,å¯ä»¥è®©ä¸¤ä¸ªåœ°å€PK,比如比较目录深度,比较default,index,home,main顺åºï¼Œæ¯”较文档å大å°,比整ç†åŽå‚数的大å°,如果跨站PK还å¯ä»¥æ¯”较网站优先值,比较连通时间连通概率ç‰ã€‚
好了,现在想一想,当åˆæ出的两个问题解决了å—,还在为判æ–é‡å¤ç½‘页é‡å¤å†…容å‘æ„å—?是ä¸æ˜¯æœ‰å¾ˆå¤§çš„改善。
相关日志
百度分è¯ç®—法详解
Bloghuman.com首页被Googleåˆ é™¤åŽçš„分æžåŠå¤„ç†æŽªæ–½
百度ä¸æ–‡åˆ†è¯ç®—法分æžä¹‹ä¸‰
百度ä¸æ–‡åˆ†è¯ç®—法分æžä¹‹äºŒ
百度ä¸æ–‡åˆ†è¯ç®—法分æžä¹‹ä¸€
GOOGLEæœç´¢å¼•æ“Žå‰–æž
URL网å€è§„范化问题
一个ä¼ä¸šç½‘站被Googleåˆ é™¤åŽçš„分æžï¼Ÿ
å¤åˆ¶ç½‘页检测ã€Google Analytics是å¦å½±å“排åã€ä¸‹æ‹‰èœå•é“¾æŽ¥â€”Matt Cuttsè¯å½•
百度分è¯ç®—法详解
Bloghuman.com首页被Googleåˆ é™¤åŽçš„分æžåŠå¤„ç†æŽªæ–½
百度ä¸æ–‡åˆ†è¯ç®—法分æžä¹‹ä¸‰
百度ä¸æ–‡åˆ†è¯ç®—法分æžä¹‹äºŒ
百度ä¸æ–‡åˆ†è¯ç®—法分æžä¹‹ä¸€
GOOGLEæœç´¢å¼•æ“Žå‰–æž
URL网å€è§„范化问题
一个ä¼ä¸šç½‘站被Googleåˆ é™¤åŽçš„分æžï¼Ÿ
å¤åˆ¶ç½‘页检测ã€Google Analytics是å¦å½±å“排åã€ä¸‹æ‹‰èœå•é“¾æŽ¥â€”Matt Cuttsè¯å½•
最后编辑: 郝聪 编辑于2008/02/19 16:45