百度ä¸æ–‡åˆ†è¯ç®—法分æžä¹‹ä¸‰
百度分è¯ç®—法的进一æ¥åˆ†æž
上é¢è¯´è¿‡,ç»è¿‡åˆ†æžå¾—出百度的分è¯ç³»ç»Ÿé‡‡ç”¨åŒå‘最大匹é…分è¯,但是åŽæ¥å‘现推ç†è¿‡ç¨‹ä¸å˜åœ¨ä¸€ä¸ªæ¼æ´ž,而且推导出æ¥çš„百度分è¯ç®—法æ¥éª¤è¿˜æ˜¯è¿‡äºŽç¹ç,所以进一æ¥è¿›è¡Œåˆ†æž,看看是å¦å‰é¢çš„推导有错误.
那么以å‰çš„分æžæœ‰ä»€ä¹ˆæ¼æ´žå‘¢?我们推导百度分è¯æœ‰åå‘最大匹é…çš„ä¾æ®æ˜¯ç™¾åº¦å°†"北京åŽçƒŸäº‘"分è¯ä¸º<北,京åŽçƒŸäº‘>,从这里看好åƒé‡‡ç”¨äº†åå‘最大匹é…,å› ä¸ºæ£å‘最大匹é…的结果应该是<北京,åŽ,烟云>,但是由æ¤å°±æŽ¨è®ºè¯´ç™¾åº¦é‡‡ç”¨äº†åŒå‘最大匹é…还是太仓促了,å‰é¢æ–‡ç« 我们也讲过,百度有两个è¯å…¸,一个普通è¯å…¸,一个专有è¯å…¸,而且是专有è¯å…¸çš„è¯æ±‡å…ˆåˆ‡åˆ†,然åŽå°†å‰©ä½™ç‰‡æ–交给普通è¯å…¸åŽ»åˆ‡åˆ†.所以上é¢çš„"北京åŽçƒŸäº‘"之所以被切分æˆ<北,京åŽçƒŸäº‘>,å¦å¤–一个å¯èƒ½æ˜¯:京åŽçƒŸäº‘这个è¯æ±‡æ˜¯åœ¨ä¸“有è¯å…¸é‡Œé¢å˜å‚¨çš„,所以先分æž,è¿™æ ·å¾—å‡º"京åŽçƒŸäº‘",剩下"北",没什么好切分的,所以输出<北,京åŽçƒŸäº‘>.
这里åªæ˜¯å‡è®¾,那么是å¦ç¡®å®ž"京åŽçƒŸäº‘"在专有è¯å…¸å‘¢?我们å†çœ‹ä¸€ä¸ªä¾‹å"山东北京åŽçƒŸäº‘",百度切分的结果是<山东,北,京åŽçƒŸäº‘>,如果"京åŽçƒŸäº‘"在普通è¯å…¸,如果是åå‘切分,那么结果应该是<å±±,东北,京åŽçƒŸäº‘>,如果是æ£å‘切分应该是<山东,北京,åŽ,烟云>,æ— è®ºå¦‚ä½•éƒ½åˆ†ä¸å‡º<山东,北,京åŽçƒŸäº‘>.这说明什么?说明"京åŽçƒŸäº‘"是在那个专有è¯å…¸,所以先切分出"京åŽçƒŸäº‘",然åŽå‰©ä¸‹çš„"山东北"交由普通è¯å…¸åˆ‡åˆ†,明显是æ£å‘最大匹é…的结果输出<山东,北>.å½“ç„¶æŒ‰ç…§æˆ‘ä»¬åœ¨ç¬¬ä¸€ç¯‡æ–‡ç« çš„ç®—æ³•æŽ¨å¯¼"山东北"的切分也会得出<山东,北>的结论,但是明显比æ£å‘最大匹é…å¤šå‡ ä¸ªåˆ¤æ–æ¥éª¤,æ—¢ç„¶æ•ˆæžœä¸€æ ·,å¦å¤–ä¸€ä¸ªæ›´åŠ ç®€æ´çš„方法也能说得通,那当然选择简便的方法了.所以åˆæ¥åˆ¤æ–百度采å–的是æ£å‘最大匹é….
我们继ç»æµ‹è¯•é‡‡ç”¨ä½•ç§åˆ†è¯ç®—法,为了å‡å°‘专有è¯å…¸é¦–先分è¯é€ æˆçš„å½±å“,那么查询里é¢ä¸èƒ½å‡ºçŽ°ç›¸å¯¹ç‰¹æ®Šçš„è¯æ±‡,æž„ç‘查询"天æ‰èƒ½é‡çº§",这里应该没有专有è¯å…¸å‡ºçŽ°è¿‡çš„è¯æ±‡,百度切分为<天æ‰,能é‡,级>,看æ¥æ˜¯æ£å‘最大匹é…的结果.å¦å¤–,如果所有查询è¯æ±‡éƒ½å‡ºçŽ°åœ¨ä¸“有è¯å…¸,那么采å–的是何ç§æ–¹æ³•?è¿™æ ·é¦–å…ˆå°±å¾—ä¿è¯è¯æ±‡éƒ½å‡ºçŽ°åœ¨ä¸“有è¯å…¸,这么ä¿è¯è¿™ä¸€ç‚¹å‘¢?æˆ‘ä»¬æž„é€ æŸ¥è¯¢"铺陈晓东方",百度切分为<铺,陈晓东,æ–¹>,å¯ä»¥çœ‹å‡º"陈晓东"是在专有è¯å…¸çš„所以先切分出æ¥.å¦å¤–一个例å "山东京城",百度切分为<山东,京城>,说明"东京"是在普通è¯å…¸çš„.OK,æž„é€ æŸ¥è¯¢"陈晓东京åŽçƒŸäº‘",通过å‰é¢åˆ†æžå¯ä»¥çœ‹å‡ºä¸¤ä¸ªè¯æ±‡éƒ½åœ¨ä¸“有è¯å…¸é‡Œé¢,百度切分为<陈晓东,京åŽçƒŸäº‘>,说明对于专有è¯å…¸è¯æ±‡ä¹Ÿæ˜¯é‡‡å–æ£å‘最大匹é…或者åŒå‘最大匹é….那么使用åå‘最大匹é…了å—?æž„é€ æŸ¥è¯¢ä¾‹å"陈晓东方ä¸è´¥",首先我们肯定"陈晓东"å’Œ"东方ä¸è´¥"都是在专有è¯å…¸å‡ºçŽ°çš„,如果是æ£å‘切分,那么应该是<陈晓东,æ–¹,ä¸è´¥>或者<陈晓东,æ–¹,ä¸,è´¥>如果是åå‘切分则是<陈,晓,东方ä¸è´¥>,å¯ä»¥çœ‹å‡ºç™¾åº¦çš„切分是<陈晓东,æ–¹,ä¸è´¥>或者<陈晓东,æ–¹,ä¸,è´¥>,说明采用的是æ£å‘最大匹é….通过分æž,百度的è¯å…¸ä¸åŒ…å«"ä¸è´¥"这个å•è¯,所以实际上百度的切分结果是<陈晓东,æ–¹,ä¸,è´¥>,很明显这和我们以å‰æŽ¨å¯¼çš„算法是有矛盾的,所以以å‰çš„分æžç®—法确实有问题,所以结论是百度采å–的是æ£å‘最大匹é…算法.
é‡æ–°å½’纳一下百度的分è¯ç³»ç»Ÿ:首先用专有è¯å…¸é‡‡ç”¨æœ€å¤§æ£å‘匹é…分è¯,切分出部分结果,剩余没有切分交给普通è¯å…¸,åŒæ ·é‡‡å–æ£å‘最大匹é…分è¯,最åŽè¾“出结果.
å¦å¤–,GOOGLE也是采用æ£å‘最大匹é…分è¯ç®—法,ä¸è¿‡å¥½åƒæ²¡æœ‰é‚£ä¸ªä¸“用è¯å…¸,所以很多专å都被切碎了.
从这点讲,GOOGLE在ä¸æ–‡è¯å…¸æž„建上比百度差些,还需è¦åŠ 把å力气æ‰è¡Œ,ä¸è¿‡è¿™ä¹Ÿä¸æ˜¯ä»€ä¹ˆå¤šéš¾çš„事.
最后编辑: 郝聪 编辑于2008/02/19 15:57
上é¢è¯´è¿‡,ç»è¿‡åˆ†æžå¾—出百度的分è¯ç³»ç»Ÿé‡‡ç”¨åŒå‘最大匹é…分è¯,但是åŽæ¥å‘现推ç†è¿‡ç¨‹ä¸å˜åœ¨ä¸€ä¸ªæ¼æ´ž,而且推导出æ¥çš„百度分è¯ç®—法æ¥éª¤è¿˜æ˜¯è¿‡äºŽç¹ç,所以进一æ¥è¿›è¡Œåˆ†æž,看看是å¦å‰é¢çš„推导有错误.
那么以å‰çš„分æžæœ‰ä»€ä¹ˆæ¼æ´žå‘¢?我们推导百度分è¯æœ‰åå‘最大匹é…çš„ä¾æ®æ˜¯ç™¾åº¦å°†"北京åŽçƒŸäº‘"分è¯ä¸º<北,京åŽçƒŸäº‘>,从这里看好åƒé‡‡ç”¨äº†åå‘最大匹é…,å› ä¸ºæ£å‘最大匹é…的结果应该是<北京,åŽ,烟云>,但是由æ¤å°±æŽ¨è®ºè¯´ç™¾åº¦é‡‡ç”¨äº†åŒå‘最大匹é…还是太仓促了,å‰é¢æ–‡ç« 我们也讲过,百度有两个è¯å…¸,一个普通è¯å…¸,一个专有è¯å…¸,而且是专有è¯å…¸çš„è¯æ±‡å…ˆåˆ‡åˆ†,然åŽå°†å‰©ä½™ç‰‡æ–交给普通è¯å…¸åŽ»åˆ‡åˆ†.所以上é¢çš„"北京åŽçƒŸäº‘"之所以被切分æˆ<北,京åŽçƒŸäº‘>,å¦å¤–一个å¯èƒ½æ˜¯:京åŽçƒŸäº‘这个è¯æ±‡æ˜¯åœ¨ä¸“有è¯å…¸é‡Œé¢å˜å‚¨çš„,所以先分æž,è¿™æ ·å¾—å‡º"京åŽçƒŸäº‘",剩下"北",没什么好切分的,所以输出<北,京åŽçƒŸäº‘>.
这里åªæ˜¯å‡è®¾,那么是å¦ç¡®å®ž"京åŽçƒŸäº‘"在专有è¯å…¸å‘¢?我们å†çœ‹ä¸€ä¸ªä¾‹å"山东北京åŽçƒŸäº‘",百度切分的结果是<山东,北,京åŽçƒŸäº‘>,如果"京åŽçƒŸäº‘"在普通è¯å…¸,如果是åå‘切分,那么结果应该是<å±±,东北,京åŽçƒŸäº‘>,如果是æ£å‘切分应该是<山东,北京,åŽ,烟云>,æ— è®ºå¦‚ä½•éƒ½åˆ†ä¸å‡º<山东,北,京åŽçƒŸäº‘>.这说明什么?说明"京åŽçƒŸäº‘"是在那个专有è¯å…¸,所以先切分出"京åŽçƒŸäº‘",然åŽå‰©ä¸‹çš„"山东北"交由普通è¯å…¸åˆ‡åˆ†,明显是æ£å‘最大匹é…的结果输出<山东,北>.å½“ç„¶æŒ‰ç…§æˆ‘ä»¬åœ¨ç¬¬ä¸€ç¯‡æ–‡ç« çš„ç®—æ³•æŽ¨å¯¼"山东北"的切分也会得出<山东,北>的结论,但是明显比æ£å‘最大匹é…å¤šå‡ ä¸ªåˆ¤æ–æ¥éª¤,æ—¢ç„¶æ•ˆæžœä¸€æ ·,å¦å¤–ä¸€ä¸ªæ›´åŠ ç®€æ´çš„方法也能说得通,那当然选择简便的方法了.所以åˆæ¥åˆ¤æ–百度采å–的是æ£å‘最大匹é….
我们继ç»æµ‹è¯•é‡‡ç”¨ä½•ç§åˆ†è¯ç®—法,为了å‡å°‘专有è¯å…¸é¦–先分è¯é€ æˆçš„å½±å“,那么查询里é¢ä¸èƒ½å‡ºçŽ°ç›¸å¯¹ç‰¹æ®Šçš„è¯æ±‡,æž„ç‘查询"天æ‰èƒ½é‡çº§",这里应该没有专有è¯å…¸å‡ºçŽ°è¿‡çš„è¯æ±‡,百度切分为<天æ‰,能é‡,级>,看æ¥æ˜¯æ£å‘最大匹é…的结果.å¦å¤–,如果所有查询è¯æ±‡éƒ½å‡ºçŽ°åœ¨ä¸“有è¯å…¸,那么采å–的是何ç§æ–¹æ³•?è¿™æ ·é¦–å…ˆå°±å¾—ä¿è¯è¯æ±‡éƒ½å‡ºçŽ°åœ¨ä¸“有è¯å…¸,这么ä¿è¯è¿™ä¸€ç‚¹å‘¢?æˆ‘ä»¬æž„é€ æŸ¥è¯¢"铺陈晓东方",百度切分为<铺,陈晓东,æ–¹>,å¯ä»¥çœ‹å‡º"陈晓东"是在专有è¯å…¸çš„所以先切分出æ¥.å¦å¤–一个例å "山东京城",百度切分为<山东,京城>,说明"东京"是在普通è¯å…¸çš„.OK,æž„é€ æŸ¥è¯¢"陈晓东京åŽçƒŸäº‘",通过å‰é¢åˆ†æžå¯ä»¥çœ‹å‡ºä¸¤ä¸ªè¯æ±‡éƒ½åœ¨ä¸“有è¯å…¸é‡Œé¢,百度切分为<陈晓东,京åŽçƒŸäº‘>,说明对于专有è¯å…¸è¯æ±‡ä¹Ÿæ˜¯é‡‡å–æ£å‘最大匹é…或者åŒå‘最大匹é….那么使用åå‘最大匹é…了å—?æž„é€ æŸ¥è¯¢ä¾‹å"陈晓东方ä¸è´¥",首先我们肯定"陈晓东"å’Œ"东方ä¸è´¥"都是在专有è¯å…¸å‡ºçŽ°çš„,如果是æ£å‘切分,那么应该是<陈晓东,æ–¹,ä¸è´¥>或者<陈晓东,æ–¹,ä¸,è´¥>如果是åå‘切分则是<陈,晓,东方ä¸è´¥>,å¯ä»¥çœ‹å‡ºç™¾åº¦çš„切分是<陈晓东,æ–¹,ä¸è´¥>或者<陈晓东,æ–¹,ä¸,è´¥>,说明采用的是æ£å‘最大匹é….通过分æž,百度的è¯å…¸ä¸åŒ…å«"ä¸è´¥"这个å•è¯,所以实际上百度的切分结果是<陈晓东,æ–¹,ä¸,è´¥>,很明显这和我们以å‰æŽ¨å¯¼çš„算法是有矛盾的,所以以å‰çš„分æžç®—法确实有问题,所以结论是百度采å–的是æ£å‘最大匹é…算法.
é‡æ–°å½’纳一下百度的分è¯ç³»ç»Ÿ:首先用专有è¯å…¸é‡‡ç”¨æœ€å¤§æ£å‘匹é…分è¯,切分出部分结果,剩余没有切分交给普通è¯å…¸,åŒæ ·é‡‡å–æ£å‘最大匹é…分è¯,最åŽè¾“出结果.
å¦å¤–,GOOGLE也是采用æ£å‘最大匹é…分è¯ç®—法,ä¸è¿‡å¥½åƒæ²¡æœ‰é‚£ä¸ªä¸“用è¯å…¸,所以很多专å都被切碎了.
从这点讲,GOOGLE在ä¸æ–‡è¯å…¸æž„建上比百度差些,还需è¦åŠ 把å力气æ‰è¡Œ,ä¸è¿‡è¿™ä¹Ÿä¸æ˜¯ä»€ä¹ˆå¤šéš¾çš„事.
相关日志
Dedecms编辑器CKeditoræ›´æ¢ä¸ºç™¾åº¦UEditor的方法
从12月百度算法å˜åŒ–预测2011å¹´SEOæ–¹å‘
百度上线图片竞价排å 图片显示推广å—æ ·(图)
桥页SEO:网站自我æ¯ç工具
Google和百度网页æœç´¢çš„查询å‚数解释
百度欲在ä¸å›½å¤åˆ¶â€œeBay+è°·æŒâ€æ¨¡å¼
百度分è¯ç®—法详解
百度ä¸æ–‡åˆ†è¯ç®—法分æžä¹‹äºŒ
百度ä¸æ–‡åˆ†è¯ç®—法分æžä¹‹ä¸€
Dedecms编辑器CKeditoræ›´æ¢ä¸ºç™¾åº¦UEditor的方法
从12月百度算法å˜åŒ–预测2011å¹´SEOæ–¹å‘
百度上线图片竞价排å 图片显示推广å—æ ·(图)
桥页SEO:网站自我æ¯ç工具
Google和百度网页æœç´¢çš„查询å‚数解释
百度欲在ä¸å›½å¤åˆ¶â€œeBay+è°·æŒâ€æ¨¡å¼
百度分è¯ç®—法详解
百度ä¸æ–‡åˆ†è¯ç®—法分æžä¹‹äºŒ
百度ä¸æ–‡åˆ†è¯ç®—法分æžä¹‹ä¸€
最后编辑: 郝聪 编辑于2008/02/19 15:57
å 大多数!