百度ä¸æ–‡åˆ†è¯ç®—法分æžä¹‹äºŒ
Spelling Checker拼写检查错误æ示(以åŠæ‹¼éŸ³æ示功能)   
拼写检查错误æ示是æœç´¢å¼•æ“Žéƒ½å…·å¤‡çš„一个功能,也就是说用户æ交查询 ç»™æœç´¢å¼•æ“Ž,æœç´¢å¼•æ“Žæ£€æŸ¥çœ‹æ˜¯å¦ç”¨æˆ·è¾“入的拼写有错误,对于ä¸æ–‡ç”¨æˆ·æ¥è¯´ä¸€èˆ¬é€ æˆçš„é”™è¯¯æ˜¯è¾“å…¥æ³•é€ æˆçš„错误.那么我们就æ¥åˆ†æžçœ‹çœ‹ç™¾åº¦æ˜¯ 怎么实现这一功能的.
  我们分æžæ‹¼å†™æ£€æŸ¥ç³»ç»Ÿå…³æ³¨ä»¥ä¸‹å‡ 个问题:
  (1)系统如何判æ–用户的输入是有å¯èƒ½å‘生错误的查询呢?
  (2)如果判æ–是å¯èƒ½é”™è¯¯çš„查询输入,如何æ示æ£ç¡®çš„è¯æ±‡å‘¢?
  
  那么百度是如何åšçš„å‘¢?百度判æ–用户输入是å¦é”™è¯¯çš„ æ ‡å‡†,我觉得应该是查å—å…¸,如果å‘现å—典里é¢ä¸åŒ…å«è¿™ä¸ªè¯æ±‡,那么很有å¯èƒ½æ˜¯ä¸ªé”™è¯¯çš„输入,æ¤æ—¶å¯åŠ¨é”™è¯¯æ示功能,这个很好判æ–,å› ä¸ºå¦‚æžœ 是一个æ£å¸¸è¯æ±‡çš„è¯,百度一般ä¸ä¼šæœ‰é”™è¯¯æ示,è€Œä½ æ•…æ„输入一个è¯å…¸ä¸å¯èƒ½åŒ…å«çš„所谓è¯æ±‡,æ¤æ—¶ç™¾åº¦ä¸€èˆ¬ä¼šæç¤ºä½ æ£ç¡®çš„检索è¯æ±‡.
   那么百度是怎么æ示æ£ç¡®è¯æ±‡çš„å‘¢?很明显是通过拼音的方å¼,比如我输入查询" 制æ‰",百度æ供的æ示è¯æ±‡ä¸º: “:åˆ¶è£ è´¨æ 纸æ",éƒ½æ˜¯åŒ éŸ³å—.所以百度必然维æŒç€ä¸€ä¸ªåŒéŸ³è¯è¯å…¸,里é¢ä¿ç•™ç€åŒéŸ³è¯ä¿¡æ¯,比如å¯èƒ½åŒ…å«ç€ä¸‹é¢è¿™æ¡è¯æ¡: “ zhi cai à 制è£,è´¨æ,纸æ",å¦å¤–还有一 ä¸ªæ ‡æ³¨æ‹¼éŸ³ç¨‹åº,现在能够看到的基本æµç¨‹æ˜¯: 用户输入" 制æ‰",查è¯å…¸,å‘现没有这个è¯æ±‡,OK,å¯åŠ¨æ ‡æ³¨æ‹¼éŸ³ç¨‹åº,å°†" 制æ‰"æ ‡æ³¨ä¸ºæ‹¼éŸ³"zhi cai",然åŽæŸ¥æ‰¾åŒéŸ³è¯è¯å…¸,å‘现åŒéŸ³è¯" 制è£,è´¨æ,纸æ",那么æ示用户å¯èƒ½çš„æ£ç¡®æ‹¼å†™.
  整体æµç¨‹çœ‹èµ·æ¥å¾ˆç®€å•,但是还有一些é—ç•™ çš„å°é—®é¢˜,比如是å¦å°†è¯è¡¨é‡Œé¢æ‰€æœ‰åŒéŸ³è¯éƒ½ä½œä¸ºç”¨æˆ·çš„æ示信æ¯å‘¢?比如æŸä¸ªæ‹¼éŸ³æœ‰10个åŒéŸ³è¯,是å¦éƒ½è¾“出呢?百度并没有将所有åŒéŸ³è¯éƒ½è¾“ 出而是选择一定ç›é€‰æ ‡å‡†,选择其ä¸å‡ 个输出.怎么è¯æ˜Žè¿™ä¸€ç‚¹?我们看看拼音"liu li"çš„åŒéŸ³è¯,紫光输入法æ示åŒéŸ³è¯æ±‡æœ‰" æµä¸½ æµç¦» ç‰ç’ƒ æµåˆ©"4个,æˆ‘ä»¬çœ‹çœ‹ç™¾åº¦è¿”å›žå‡ ä¸ª,输入"æµåŽ‰"作为查询,这里是故æ„输入一个è¯å…¸ä¸åŒ…å«çš„è¯æ±‡,è¿™æ ·ç™¾åº¦çš„æ‹¼å†™æ£€æŸ¥æ‰å¼€å§‹å·¥ä½œ,百度æ示: " ç‰ç’ƒåˆ˜ä¸½ 刘莉 ",这说明什么?说明ä¸æ˜¯æ‰€æœ‰åŒéŸ³è¯éƒ½è¾“出,而是选择输出,é‚£ä¹ˆé€‰æ‹©çš„æ ‡å‡†æ˜¯ä»€ä¹ˆ?我能够猜测到的方法是对于用户查询LOG进行 统计,æå–用户查询次数多的那些åŒéŸ³è¯è¾“出,å¦‚æžœæ˜¯è¿™æ ·çš„è¯,上é¢çš„例å说明用户æœç´¢"ç‰ç’ƒ"次数比其它的都è¦é«˜äº›,次之是" 刘丽",å†æ¬¡æ˜¯" 刘莉",看æ¥å¤§å®¶éƒ½å–œæ¬¢æŸ¥è¯¢è‡ªå·±æˆ–者认识的人的åå—.
  å¦å¤–一个å°é—®é¢˜:åŒéŸ³è¯è¯å…¸åŒ…å«2å—è¯,3å—è¯,那么是å¦åŒ…å«4å—è¯ä»¥åŠæ›´é•¿çš„è¯ æ¡?是å¦åŒ…å«ä¸€å—è¯? 这里一å—è¯å¥½å›žç”,ä¸ç”¨æµ‹è¯•ä¹Ÿèƒ½çŸ¥é“肯定ä¸åŒ…å«,å› ä¸ºä½ è¾“å…¥ä¸€ä¸ªå—,è°çŸ¥é“是å¦æ˜¯é”™è¯¯çš„å‘¢?åæ£åªè¦æ˜¯æ±‰å—就能在è¯è¡¨ 里é¢æ‰¾åˆ°,所以没有判æ–ä¾æ®.二å—è¯æ˜¯åŒ…å«çš„,上é¢æœ‰ä¾‹å,三å—è¯ä¹ŸåŒ…å«,比如查询 "ä¸åŸŽè¯"百度错误æ示:"ä¸æˆè¯",修改查询为"é‡åŸŽè¯",还 是æ示"ä¸æˆè¯" ,å†æ¬¡ä¿®æ”¹æŸ¥è¯¢ "é‡åŸŽè¦",百度ä¾ç„¶æ示"ä¸æˆè¯". 那么4å—è¯æ±‡å‘¢?
ã€€ã€€ç™¾åº¦è¿˜æ˜¯ä¼šç»™ä½ æ示的,下é¢æ˜¯ä¸ªä¾‹å:
  输入:é™åŽçƒŸäº‘ æ示 京åŽçƒŸäº‘
  输入:é™è¯çƒŸäº‘ æ示 京åŽçƒŸäº‘
  输入:é™è¯é˜Žæ™• æ示 京åŽçƒŸäº‘
  那么更长的è¯æ±‡æ˜¯å¦æ 示呢?也æ示,比如我输入: "è½èŠ±ä¸–界有风军",这个查询是什么æ„æ€,估计读过å¤è¯—的都知é“,看看百度的æ示"è½èŠ±æ—¶èŠ‚åˆé€¢å›",这说明什么?说 明åŒéŸ³è¯è¯å…¸åŒ…å«ä¸åŒé•¿åº¦çš„åŒéŸ³è¯ä¿¡æ¯,å¦å¤–ä¹Ÿè¯´æ˜Žäº†ç™¾åº¦çš„æ ¸å¿ƒä¸æ–‡å¤„ç†æŠ€æœ¯,也就是那个è¯å…¸,还真挺大的.
  但是,如果用户输入的 查询由两个或者两个以上åå—符串构æˆ,那么百度的错误æ示功能就罢工了,比如输入查询"哀体",百度æ示"艾æ 挨踢",但是.输入为 "我 哀体 ",则没有任何错误æ示.
  还有一个比较é‡è¦çš„问题:如果汉å—是多音å—那么怎么处ç†?百度呢比较å·æ‡’,å®ƒæ ¹æœ¬å°±æ²¡æœ‰å¯¹å¤šéŸ³å—åšå¤„ç†.我 们æ¥çœ‹çœ‹ç™¾åº¦çš„ä¸€ä¸ªæ ‡æ³¨æ‹¼éŸ³çš„é”™è¯¯,在看这个错误å‰å…ˆçœ‹çœ‹å¯¹äºŽå¤šéŸ³å—百度是怎么æ示错误的,我们输入查询"俱长",百度æ示"剧场 局长", “俱长"的拼音有两个:"ju zhang /ju chang" ,å¯è§å¦‚果是多音å—åˆ™å‡ ç§æƒ…况都æ示..现在我们æ¥çœ‹çœ‹é”™è¯¯çš„情况, 我们输入查询"剧常",百度 æ示":剧场局长",æ示为"剧场"当然好解释,å› ä¸ºæ˜¯åŒéŸ³å—,但是为什么 "局长"也会被æ示呢?这说明百度的åŒéŸ³å—è¯å…¸æœ‰é”™è¯¯,说明在"ju chang"这个è¯æ¡é‡Œé¢åŒ…å«"局长"这个错误的åŒéŸ³è¯.让我们顺藤摸瓜,这个错误åˆè¯´æ˜Žä»€ä¹ˆé—®é¢˜å‘¢?说明百度的åŒéŸ³è¯å…¸æ˜¯è‡ªåŠ¨ç”Ÿæˆçš„,而且没有 äººå·¥æ ¡å¯¹.还说明在自动生æˆåŒéŸ³è¯å…¸çš„过程ä¸,百度ä¸æ˜¯æ ¹æ®å¯¹ä¸€ç¯‡æ–‡ç« æ ‡æ³¨æ‹¼éŸ³ç„¶åŽåœ¨æŠ½å–è¯æ±‡å’Œå¯¹åº”的拼音信æ¯èŽ·å¾—çš„,而是完全按照æŸä¸ª è¯å…¸çš„è¯æ¡æ¥æ ‡æ³¨éŸ³èŠ‚çš„,所以对于多音å—é€ æˆçš„é”™è¯¯æ— æ³•è¯†åˆ«å‡ºæ¥,å¦‚æžœæ˜¯å¯¹ç¯‡ç« è¿›è¡Œæ‹¼éŸ³æ ‡æ³¨,å¯èƒ½å°±ä¸ä¼šå‡ºçŽ°è¿™ç§å¾ˆå®¹æ˜“å‘çŽ°çš„é”™è¯¯æ ‡æ³¨. 当然还有å¦å¤–一ç§è§£é‡Š,就是"局长"是故æ„被百度æ示出æ¥å¯èƒ½çš„æ£ç¡®æ示è¯æ±‡,å› ä¸ºè€ƒè™‘åˆ°å—方人"zh"å’Œ "ch"ç‰å‰åŽé¼»éŸ³åˆ†ä¸æ¸…么,那么是这 æ ·çš„ä¹ˆ?我们继ç»æµ‹è¯•åˆ°åº•æ˜¯ä½•ç§æƒ…况.是百度有错误还是这是百度的先进的算法?
  我们考虑è¯æ±‡"长大 ",æ•…æ„错误输入为"赃大",如果 百度考虑到了å‰åŽé¼»éŸ³çš„问题,那么应该会æ示"长大",但是百度æ示是"è—大".这说明什么?说明百度并没有考虑å‰åŽé¼»éŸ³é—®é¢˜,æ ¹æœ¬å°±æ˜¯ç³»ç»Ÿé”™ 误. 我们输入查询"悬èµ",æ•…æ„将之错误输入为"悬桑",没有错误æ示,说明确实没有考虑这ç§æƒ…况.å‰é¼»éŸ³æ²¡æœ‰è€ƒè™‘,那么åŽé¼»éŸ³è€ƒè™‘了么,我们 输入":ç»å¸¸",æ•…æ„改为åŽé¼»éŸ³ "ç»ç¼ ",百度æ示为"ç»äº§ ç»å¿",还是没有考虑åŽé¼»éŸ³.这基本å¯ä»¥ç¡®å®šæ˜¯ç™¾åº¦ç³»ç»Ÿçš„错误导致.
ã€€ã€€æ ¹æ®ä»¥ 上推导, 我们å¯ä»¥å¾—出如下结论:百度是将分è¯è¯å…¸é‡Œé¢æ¯ä¸ªè¯æ¡åˆ©ç”¨æ‹¼éŸ³æ ‡æ³¨ç¨‹åºæ ‡æ³¨æˆæ‹¼éŸ³,然åŽå½¢æˆåŒéŸ³è¯è¯å…¸,所以两个è¯å…¸æ˜¯åŒæ ·å¤§çš„ ,而且这个è¯å…¸ä¹Ÿéšç€åˆ†è¯è¯å…¸çš„增长而在ä¸æ–增长. è‡³äºŽæ ‡æ³¨è¿‡ç¨‹ä¸å¤šéŸ³å—百度没有考虑,如果是多音å—å°±æ ‡æ³¨æˆå¤šä¸ªå‘音组åˆ,通过这ç§æ–¹å¼ å½¢æˆåŒéŸ³è¯è¯å…¸.è¿™æ ·çš„åŒéŸ³è¯è¯å…¸æ˜¾ç„¶åŒ…å«ç€å¾ˆå¤šé”™è¯¯.
  最åŽä¸€ä¸ªé—®é¢˜:百度对于英文进行拼写检查么?让我们试试看,输入查 询"china",ä¸é”™,æœåˆ°ä¸å°‘结果,专注ä¸æ–‡æœç´¢çš„百度还能æœç´¢åˆ°è‹±æ–‡,真是æ„外的惊喜.å˜æ¢ä¸€ä¸‹æŸ¥è¯¢"chine",ä¼šæ›´åŠ æ„外惊喜的给我们æ 示"china"å—?百度æ示的是: åƒå‘¢æŒå‘¢,原æ¥æ˜¯ä¸å°å¿ƒè§¦å‘了百度的拼音æœç´¢åŠŸèƒ½äº†.那么拼音æœç´¢å’Œä¸æ–‡æ£€æŸ¥é”™è¯¯æ˜¯å¦é‡‡ç”¨åŒä¸€å¥—åŒéŸ³è¯è¯å…¸ å‘¢,让我们æ¥å®žéªŒä¸€ä¸‹,æœç´¢"rongji",百度æ示" 榕基 溶剂 容积",OK,æ¢ä¸ªä¸æ–‡æŸ¥è¯¢"容机",百度æ示" 榕基 溶剂容积",看æ¥ä½¿ç”¨çš„是åŒä¸€å¥— åŒéŸ³è¯è¯å…¸.也就是说百度的ä¸æ–‡çº 错和拼音检索使用的机制相åŒ,ä¸æ–‡çº 错多了一é“拼音注音的过程而已.éš¾é“è¿™å°±æ˜¯ä¼ è¯´ä¸é‚£ä¸ªç™¾åº¦çš„"事实 ä¸Šæ˜¯ä¸€ä¸ªæ— æ¯”å¼ºå¤§çš„æ‹¼éŸ³è¾“å…¥æ³•"的拼音æ示功能么?
  最åŽè®©æˆ‘们总结归纳一下百度的拼写检查系统:
  åŽå°ä½œä¸š: (1)å‰é¢çš„æ–‡ ç« æˆ‘ä»¬è¯´è¿‡,百度分è¯ä½¿ç”¨çš„è¯å…¸è‡³å°‘包å«ä¸¤ä¸ªè¯å…¸ä¸€ä¸ªæ˜¯æ™®é€šè¯å…¸,å¦å¤–一个是专用è¯å…¸(专åç‰),ç™¾åº¦åˆ©ç”¨æ‹¼éŸ³æ ‡æ³¨ç¨‹åºä¾æ¬¡æ‰«æ所有è¯å…¸ä¸ çš„æ¯ä¸ªè¯æ¡,然åŽæ ‡æ³¨æ‹¼éŸ³,如果是多音å—åˆ™æŠŠå¤šä¸ªéŸ³éƒ½æ ‡ä¸Š,比如"长大",ä¼šè¢«æ ‡æ³¨ä¸º"zhang da/chang da"两个è¯æ¡.
  (2)é€šè¿‡æ ‡æ³¨å®Œçš„ è¯æ¡,建立åŒéŸ³è¯è¯å…¸,比如上é¢çš„"长大",会有两个è¯æ¡: zhang daà 长大" , chang daà 长大.
  (3)利用用户查询LOG频率信æ¯ç»™äºˆæ¯ä¸ª ä¸æ–‡è¯æ¡ä¸€ä¸ªæƒé‡;
  (4)OK,åŒéŸ³è¯è¯å…¸å»ºç«‹å®Œæˆäº†,当然éšç€åˆ†è¯è¯å…¸çš„é€æ¥æ‰©å¤§,åŒéŸ³è¯è¯å…¸ä¹Ÿè·Ÿç€åŒæ¥æ‰©å¤§;
  
  拼写 检查:
  (1)用户输入查询,如果是多个åå—符串,ä¸ä½œæ‹¼å†™æ£€æŸ¥;
  (2)对于用户查询,先查分è¯è¯å…¸,如果å‘现有这个å•è¯è¯æ¡,OK, ä¸ä½œæ‹¼å†™æ£€æŸ¥;
  (3)如果å‘现è¯å…¸é‡Œé¢ä¸åŒ…å«ç”¨æˆ·æŸ¥è¯¢,å¯åŠ¨æ‹¼å†™æ£€æŸ¥ç³»ç»Ÿ;é¦–å…ˆåˆ©ç”¨æ‹¼éŸ³æ ‡æ³¨ç¨‹åºå¯¹ç”¨æˆ·è¾“å…¥è¿›è¡Œæ‹¼éŸ³æ ‡æ³¨;
   (4)å¯¹äºŽæ ‡æ³¨å¥½çš„æ‹¼éŸ³åœ¨åŒéŸ³è¯è¯å…¸é‡Œé¢æ‰«æ,如果没有å‘现则ä¸ä½œä»»ä½•æ示;
  (5)如果å‘现有è¯æ¡,则按照顺åºè¾“出æƒé‡æ¯”è¾ƒå¤§çš„å‡ ä¸ªæ 示结果;
  
  拼音æ示:
  (1)对于用户输入的拼音在åŒéŸ³è¯è¯å…¸é‡Œé¢æ‰«æ,如果没有å‘现则ä¸ä½œä»»ä½•æ示;
  (2)如果 å‘现有è¯æ¡,则按照顺åºè¾“出æƒé‡æ¯”è¾ƒå¤§çš„å‡ ä¸ªæ示结果;
最后编辑: 郝聪 编辑于2008/02/19 15:57
拼写检查错误æ示是æœç´¢å¼•æ“Žéƒ½å…·å¤‡çš„一个功能,也就是说用户æ交查询 ç»™æœç´¢å¼•æ“Ž,æœç´¢å¼•æ“Žæ£€æŸ¥çœ‹æ˜¯å¦ç”¨æˆ·è¾“入的拼写有错误,对于ä¸æ–‡ç”¨æˆ·æ¥è¯´ä¸€èˆ¬é€ æˆçš„é”™è¯¯æ˜¯è¾“å…¥æ³•é€ æˆçš„错误.那么我们就æ¥åˆ†æžçœ‹çœ‹ç™¾åº¦æ˜¯ 怎么实现这一功能的.
  我们分æžæ‹¼å†™æ£€æŸ¥ç³»ç»Ÿå…³æ³¨ä»¥ä¸‹å‡ 个问题:
  (1)系统如何判æ–用户的输入是有å¯èƒ½å‘生错误的查询呢?
  (2)如果判æ–是å¯èƒ½é”™è¯¯çš„查询输入,如何æ示æ£ç¡®çš„è¯æ±‡å‘¢?
  
  那么百度是如何åšçš„å‘¢?百度判æ–用户输入是å¦é”™è¯¯çš„ æ ‡å‡†,我觉得应该是查å—å…¸,如果å‘现å—典里é¢ä¸åŒ…å«è¿™ä¸ªè¯æ±‡,那么很有å¯èƒ½æ˜¯ä¸ªé”™è¯¯çš„输入,æ¤æ—¶å¯åŠ¨é”™è¯¯æ示功能,这个很好判æ–,å› ä¸ºå¦‚æžœ 是一个æ£å¸¸è¯æ±‡çš„è¯,百度一般ä¸ä¼šæœ‰é”™è¯¯æ示,è€Œä½ æ•…æ„输入一个è¯å…¸ä¸å¯èƒ½åŒ…å«çš„所谓è¯æ±‡,æ¤æ—¶ç™¾åº¦ä¸€èˆ¬ä¼šæç¤ºä½ æ£ç¡®çš„检索è¯æ±‡.
   那么百度是怎么æ示æ£ç¡®è¯æ±‡çš„å‘¢?很明显是通过拼音的方å¼,比如我输入查询" 制æ‰",百度æ供的æ示è¯æ±‡ä¸º: “:åˆ¶è£ è´¨æ 纸æ",éƒ½æ˜¯åŒ éŸ³å—.所以百度必然维æŒç€ä¸€ä¸ªåŒéŸ³è¯è¯å…¸,里é¢ä¿ç•™ç€åŒéŸ³è¯ä¿¡æ¯,比如å¯èƒ½åŒ…å«ç€ä¸‹é¢è¿™æ¡è¯æ¡: “ zhi cai à 制è£,è´¨æ,纸æ",å¦å¤–还有一 ä¸ªæ ‡æ³¨æ‹¼éŸ³ç¨‹åº,现在能够看到的基本æµç¨‹æ˜¯: 用户输入" 制æ‰",查è¯å…¸,å‘现没有这个è¯æ±‡,OK,å¯åŠ¨æ ‡æ³¨æ‹¼éŸ³ç¨‹åº,å°†" 制æ‰"æ ‡æ³¨ä¸ºæ‹¼éŸ³"zhi cai",然åŽæŸ¥æ‰¾åŒéŸ³è¯è¯å…¸,å‘现åŒéŸ³è¯" 制è£,è´¨æ,纸æ",那么æ示用户å¯èƒ½çš„æ£ç¡®æ‹¼å†™.
  整体æµç¨‹çœ‹èµ·æ¥å¾ˆç®€å•,但是还有一些é—ç•™ çš„å°é—®é¢˜,比如是å¦å°†è¯è¡¨é‡Œé¢æ‰€æœ‰åŒéŸ³è¯éƒ½ä½œä¸ºç”¨æˆ·çš„æ示信æ¯å‘¢?比如æŸä¸ªæ‹¼éŸ³æœ‰10个åŒéŸ³è¯,是å¦éƒ½è¾“出呢?百度并没有将所有åŒéŸ³è¯éƒ½è¾“ 出而是选择一定ç›é€‰æ ‡å‡†,选择其ä¸å‡ 个输出.怎么è¯æ˜Žè¿™ä¸€ç‚¹?我们看看拼音"liu li"çš„åŒéŸ³è¯,紫光输入法æ示åŒéŸ³è¯æ±‡æœ‰" æµä¸½ æµç¦» ç‰ç’ƒ æµåˆ©"4个,æˆ‘ä»¬çœ‹çœ‹ç™¾åº¦è¿”å›žå‡ ä¸ª,输入"æµåŽ‰"作为查询,这里是故æ„输入一个è¯å…¸ä¸åŒ…å«çš„è¯æ±‡,è¿™æ ·ç™¾åº¦çš„æ‹¼å†™æ£€æŸ¥æ‰å¼€å§‹å·¥ä½œ,百度æ示: " ç‰ç’ƒåˆ˜ä¸½ 刘莉 ",这说明什么?说明ä¸æ˜¯æ‰€æœ‰åŒéŸ³è¯éƒ½è¾“出,而是选择输出,é‚£ä¹ˆé€‰æ‹©çš„æ ‡å‡†æ˜¯ä»€ä¹ˆ?我能够猜测到的方法是对于用户查询LOG进行 统计,æå–用户查询次数多的那些åŒéŸ³è¯è¾“出,å¦‚æžœæ˜¯è¿™æ ·çš„è¯,上é¢çš„例å说明用户æœç´¢"ç‰ç’ƒ"次数比其它的都è¦é«˜äº›,次之是" 刘丽",å†æ¬¡æ˜¯" 刘莉",看æ¥å¤§å®¶éƒ½å–œæ¬¢æŸ¥è¯¢è‡ªå·±æˆ–者认识的人的åå—.
  å¦å¤–一个å°é—®é¢˜:åŒéŸ³è¯è¯å…¸åŒ…å«2å—è¯,3å—è¯,那么是å¦åŒ…å«4å—è¯ä»¥åŠæ›´é•¿çš„è¯ æ¡?是å¦åŒ…å«ä¸€å—è¯? 这里一å—è¯å¥½å›žç”,ä¸ç”¨æµ‹è¯•ä¹Ÿèƒ½çŸ¥é“肯定ä¸åŒ…å«,å› ä¸ºä½ è¾“å…¥ä¸€ä¸ªå—,è°çŸ¥é“是å¦æ˜¯é”™è¯¯çš„å‘¢?åæ£åªè¦æ˜¯æ±‰å—就能在è¯è¡¨ 里é¢æ‰¾åˆ°,所以没有判æ–ä¾æ®.二å—è¯æ˜¯åŒ…å«çš„,上é¢æœ‰ä¾‹å,三å—è¯ä¹ŸåŒ…å«,比如查询 "ä¸åŸŽè¯"百度错误æ示:"ä¸æˆè¯",修改查询为"é‡åŸŽè¯",还 是æ示"ä¸æˆè¯" ,å†æ¬¡ä¿®æ”¹æŸ¥è¯¢ "é‡åŸŽè¦",百度ä¾ç„¶æ示"ä¸æˆè¯". 那么4å—è¯æ±‡å‘¢?
ã€€ã€€ç™¾åº¦è¿˜æ˜¯ä¼šç»™ä½ æ示的,下é¢æ˜¯ä¸ªä¾‹å:
  输入:é™åŽçƒŸäº‘ æ示 京åŽçƒŸäº‘
  输入:é™è¯çƒŸäº‘ æ示 京åŽçƒŸäº‘
  输入:é™è¯é˜Žæ™• æ示 京åŽçƒŸäº‘
  那么更长的è¯æ±‡æ˜¯å¦æ 示呢?也æ示,比如我输入: "è½èŠ±ä¸–界有风军",这个查询是什么æ„æ€,估计读过å¤è¯—的都知é“,看看百度的æ示"è½èŠ±æ—¶èŠ‚åˆé€¢å›",这说明什么?说 明åŒéŸ³è¯è¯å…¸åŒ…å«ä¸åŒé•¿åº¦çš„åŒéŸ³è¯ä¿¡æ¯,å¦å¤–ä¹Ÿè¯´æ˜Žäº†ç™¾åº¦çš„æ ¸å¿ƒä¸æ–‡å¤„ç†æŠ€æœ¯,也就是那个è¯å…¸,还真挺大的.
  但是,如果用户输入的 查询由两个或者两个以上åå—符串构æˆ,那么百度的错误æ示功能就罢工了,比如输入查询"哀体",百度æ示"艾æ 挨踢",但是.输入为 "我 哀体 ",则没有任何错误æ示.
  还有一个比较é‡è¦çš„问题:如果汉å—是多音å—那么怎么处ç†?百度呢比较å·æ‡’,å®ƒæ ¹æœ¬å°±æ²¡æœ‰å¯¹å¤šéŸ³å—åšå¤„ç†.我 们æ¥çœ‹çœ‹ç™¾åº¦çš„ä¸€ä¸ªæ ‡æ³¨æ‹¼éŸ³çš„é”™è¯¯,在看这个错误å‰å…ˆçœ‹çœ‹å¯¹äºŽå¤šéŸ³å—百度是怎么æ示错误的,我们输入查询"俱长",百度æ示"剧场 局长", “俱长"的拼音有两个:"ju zhang /ju chang" ,å¯è§å¦‚果是多音å—åˆ™å‡ ç§æƒ…况都æ示..现在我们æ¥çœ‹çœ‹é”™è¯¯çš„情况, 我们输入查询"剧常",百度 æ示":剧场局长",æ示为"剧场"当然好解释,å› ä¸ºæ˜¯åŒéŸ³å—,但是为什么 "局长"也会被æ示呢?这说明百度的åŒéŸ³å—è¯å…¸æœ‰é”™è¯¯,说明在"ju chang"这个è¯æ¡é‡Œé¢åŒ…å«"局长"这个错误的åŒéŸ³è¯.让我们顺藤摸瓜,这个错误åˆè¯´æ˜Žä»€ä¹ˆé—®é¢˜å‘¢?说明百度的åŒéŸ³è¯å…¸æ˜¯è‡ªåŠ¨ç”Ÿæˆçš„,而且没有 äººå·¥æ ¡å¯¹.还说明在自动生æˆåŒéŸ³è¯å…¸çš„过程ä¸,百度ä¸æ˜¯æ ¹æ®å¯¹ä¸€ç¯‡æ–‡ç« æ ‡æ³¨æ‹¼éŸ³ç„¶åŽåœ¨æŠ½å–è¯æ±‡å’Œå¯¹åº”的拼音信æ¯èŽ·å¾—çš„,而是完全按照æŸä¸ª è¯å…¸çš„è¯æ¡æ¥æ ‡æ³¨éŸ³èŠ‚çš„,所以对于多音å—é€ æˆçš„é”™è¯¯æ— æ³•è¯†åˆ«å‡ºæ¥,å¦‚æžœæ˜¯å¯¹ç¯‡ç« è¿›è¡Œæ‹¼éŸ³æ ‡æ³¨,å¯èƒ½å°±ä¸ä¼šå‡ºçŽ°è¿™ç§å¾ˆå®¹æ˜“å‘çŽ°çš„é”™è¯¯æ ‡æ³¨. 当然还有å¦å¤–一ç§è§£é‡Š,就是"局长"是故æ„被百度æ示出æ¥å¯èƒ½çš„æ£ç¡®æ示è¯æ±‡,å› ä¸ºè€ƒè™‘åˆ°å—方人"zh"å’Œ "ch"ç‰å‰åŽé¼»éŸ³åˆ†ä¸æ¸…么,那么是这 æ ·çš„ä¹ˆ?我们继ç»æµ‹è¯•åˆ°åº•æ˜¯ä½•ç§æƒ…况.是百度有错误还是这是百度的先进的算法?
  我们考虑è¯æ±‡"长大 ",æ•…æ„错误输入为"赃大",如果 百度考虑到了å‰åŽé¼»éŸ³çš„问题,那么应该会æ示"长大",但是百度æ示是"è—大".这说明什么?说明百度并没有考虑å‰åŽé¼»éŸ³é—®é¢˜,æ ¹æœ¬å°±æ˜¯ç³»ç»Ÿé”™ 误. 我们输入查询"悬èµ",æ•…æ„将之错误输入为"悬桑",没有错误æ示,说明确实没有考虑这ç§æƒ…况.å‰é¼»éŸ³æ²¡æœ‰è€ƒè™‘,那么åŽé¼»éŸ³è€ƒè™‘了么,我们 输入":ç»å¸¸",æ•…æ„改为åŽé¼»éŸ³ "ç»ç¼ ",百度æ示为"ç»äº§ ç»å¿",还是没有考虑åŽé¼»éŸ³.这基本å¯ä»¥ç¡®å®šæ˜¯ç™¾åº¦ç³»ç»Ÿçš„错误导致.
ã€€ã€€æ ¹æ®ä»¥ 上推导, 我们å¯ä»¥å¾—出如下结论:百度是将分è¯è¯å…¸é‡Œé¢æ¯ä¸ªè¯æ¡åˆ©ç”¨æ‹¼éŸ³æ ‡æ³¨ç¨‹åºæ ‡æ³¨æˆæ‹¼éŸ³,然åŽå½¢æˆåŒéŸ³è¯è¯å…¸,所以两个è¯å…¸æ˜¯åŒæ ·å¤§çš„ ,而且这个è¯å…¸ä¹Ÿéšç€åˆ†è¯è¯å…¸çš„增长而在ä¸æ–增长. è‡³äºŽæ ‡æ³¨è¿‡ç¨‹ä¸å¤šéŸ³å—百度没有考虑,如果是多音å—å°±æ ‡æ³¨æˆå¤šä¸ªå‘音组åˆ,通过这ç§æ–¹å¼ å½¢æˆåŒéŸ³è¯è¯å…¸.è¿™æ ·çš„åŒéŸ³è¯è¯å…¸æ˜¾ç„¶åŒ…å«ç€å¾ˆå¤šé”™è¯¯.
  最åŽä¸€ä¸ªé—®é¢˜:百度对于英文进行拼写检查么?让我们试试看,输入查 询"china",ä¸é”™,æœåˆ°ä¸å°‘结果,专注ä¸æ–‡æœç´¢çš„百度还能æœç´¢åˆ°è‹±æ–‡,真是æ„外的惊喜.å˜æ¢ä¸€ä¸‹æŸ¥è¯¢"chine",ä¼šæ›´åŠ æ„外惊喜的给我们æ 示"china"å—?百度æ示的是: åƒå‘¢æŒå‘¢,原æ¥æ˜¯ä¸å°å¿ƒè§¦å‘了百度的拼音æœç´¢åŠŸèƒ½äº†.那么拼音æœç´¢å’Œä¸æ–‡æ£€æŸ¥é”™è¯¯æ˜¯å¦é‡‡ç”¨åŒä¸€å¥—åŒéŸ³è¯è¯å…¸ å‘¢,让我们æ¥å®žéªŒä¸€ä¸‹,æœç´¢"rongji",百度æ示" 榕基 溶剂 容积",OK,æ¢ä¸ªä¸æ–‡æŸ¥è¯¢"容机",百度æ示" 榕基 溶剂容积",看æ¥ä½¿ç”¨çš„是åŒä¸€å¥— åŒéŸ³è¯è¯å…¸.也就是说百度的ä¸æ–‡çº 错和拼音检索使用的机制相åŒ,ä¸æ–‡çº 错多了一é“拼音注音的过程而已.éš¾é“è¿™å°±æ˜¯ä¼ è¯´ä¸é‚£ä¸ªç™¾åº¦çš„"事实 ä¸Šæ˜¯ä¸€ä¸ªæ— æ¯”å¼ºå¤§çš„æ‹¼éŸ³è¾“å…¥æ³•"的拼音æ示功能么?
  最åŽè®©æˆ‘们总结归纳一下百度的拼写检查系统:
  åŽå°ä½œä¸š: (1)å‰é¢çš„æ–‡ ç« æˆ‘ä»¬è¯´è¿‡,百度分è¯ä½¿ç”¨çš„è¯å…¸è‡³å°‘包å«ä¸¤ä¸ªè¯å…¸ä¸€ä¸ªæ˜¯æ™®é€šè¯å…¸,å¦å¤–一个是专用è¯å…¸(专åç‰),ç™¾åº¦åˆ©ç”¨æ‹¼éŸ³æ ‡æ³¨ç¨‹åºä¾æ¬¡æ‰«æ所有è¯å…¸ä¸ çš„æ¯ä¸ªè¯æ¡,然åŽæ ‡æ³¨æ‹¼éŸ³,如果是多音å—åˆ™æŠŠå¤šä¸ªéŸ³éƒ½æ ‡ä¸Š,比如"长大",ä¼šè¢«æ ‡æ³¨ä¸º"zhang da/chang da"两个è¯æ¡.
  (2)é€šè¿‡æ ‡æ³¨å®Œçš„ è¯æ¡,建立åŒéŸ³è¯è¯å…¸,比如上é¢çš„"长大",会有两个è¯æ¡: zhang daà 长大" , chang daà 长大.
  (3)利用用户查询LOG频率信æ¯ç»™äºˆæ¯ä¸ª ä¸æ–‡è¯æ¡ä¸€ä¸ªæƒé‡;
  (4)OK,åŒéŸ³è¯è¯å…¸å»ºç«‹å®Œæˆäº†,当然éšç€åˆ†è¯è¯å…¸çš„é€æ¥æ‰©å¤§,åŒéŸ³è¯è¯å…¸ä¹Ÿè·Ÿç€åŒæ¥æ‰©å¤§;
  
  拼写 检查:
  (1)用户输入查询,如果是多个åå—符串,ä¸ä½œæ‹¼å†™æ£€æŸ¥;
  (2)对于用户查询,先查分è¯è¯å…¸,如果å‘现有这个å•è¯è¯æ¡,OK, ä¸ä½œæ‹¼å†™æ£€æŸ¥;
  (3)如果å‘现è¯å…¸é‡Œé¢ä¸åŒ…å«ç”¨æˆ·æŸ¥è¯¢,å¯åŠ¨æ‹¼å†™æ£€æŸ¥ç³»ç»Ÿ;é¦–å…ˆåˆ©ç”¨æ‹¼éŸ³æ ‡æ³¨ç¨‹åºå¯¹ç”¨æˆ·è¾“å…¥è¿›è¡Œæ‹¼éŸ³æ ‡æ³¨;
   (4)å¯¹äºŽæ ‡æ³¨å¥½çš„æ‹¼éŸ³åœ¨åŒéŸ³è¯è¯å…¸é‡Œé¢æ‰«æ,如果没有å‘现则ä¸ä½œä»»ä½•æ示;
  (5)如果å‘现有è¯æ¡,则按照顺åºè¾“出æƒé‡æ¯”è¾ƒå¤§çš„å‡ ä¸ªæ 示结果;
  
  拼音æ示:
  (1)对于用户输入的拼音在åŒéŸ³è¯è¯å…¸é‡Œé¢æ‰«æ,如果没有å‘现则ä¸ä½œä»»ä½•æ示;
  (2)如果 å‘现有è¯æ¡,则按照顺åºè¾“出æƒé‡æ¯”è¾ƒå¤§çš„å‡ ä¸ªæ示结果;
相关日志
Dedecms编辑器CKeditoræ›´æ¢ä¸ºç™¾åº¦UEditor的方法
从12月百度算法å˜åŒ–预测2011å¹´SEOæ–¹å‘
百度上线图片竞价排å 图片显示推广å—æ ·(图)
桥页SEO:网站自我æ¯ç工具
Google和百度网页æœç´¢çš„查询å‚数解释
百度欲在ä¸å›½å¤åˆ¶â€œeBay+è°·æŒâ€æ¨¡å¼
百度分è¯ç®—法详解
百度ä¸æ–‡åˆ†è¯ç®—法分æžä¹‹ä¸‰
百度ä¸æ–‡åˆ†è¯ç®—法分æžä¹‹ä¸€
Dedecms编辑器CKeditoræ›´æ¢ä¸ºç™¾åº¦UEditor的方法
从12月百度算法å˜åŒ–预测2011å¹´SEOæ–¹å‘
百度上线图片竞价排å 图片显示推广å—æ ·(图)
桥页SEO:网站自我æ¯ç工具
Google和百度网页æœç´¢çš„查询å‚数解释
百度欲在ä¸å›½å¤åˆ¶â€œeBay+è°·æŒâ€æ¨¡å¼
百度分è¯ç®—法详解
百度ä¸æ–‡åˆ†è¯ç®—法分æžä¹‹ä¸‰
百度ä¸æ–‡åˆ†è¯ç®—法分æžä¹‹ä¸€
最后编辑: 郝聪 编辑于2008/02/19 15:57
http://dev.8jiao.com/index.php/Wb_cws_index