䏿–‡æœç´¢å¼•擎技术æå¯†ï¼šä¸æ–‡åˆ†è¯
ä¿¡æ¯çš„飞速增长,使æœç´¢å¼•擎æˆä¸ºäººä»¬æŸ¥æ‰¾ä¿¡æ¯çš„首选工具,Googleã€ç™¾åº¦ã€ä¸å›½æœç´¢ç‰å¤§åž‹æœç´¢å¼•擎一直是人们讨论的è¯é¢˜ã€‚éšç€æœç´¢å¸‚åœºä»·å€¼çš„ä¸æ–å¢žåŠ ï¼Œè¶Šæ¥è¶Šå¤šçš„å…¬å¸å¼€å‘出自己的æœç´¢å¼•擎,阿里巴巴的商机æœç´¢ã€8848çš„è´ç‰©æœç´¢ç‰ä¹Ÿé™†ç»é¢ä¸–,自然,æœç´¢å¼•擎技术也æˆä¸ºæŠ€æœ¯äººå‘˜å…³æ³¨çš„çƒç‚¹ã€‚
æœç´¢å¼•æ“ŽæŠ€æœ¯çš„ç ”ç©¶ï¼Œå›½å¤–æ¯”ä¸å›½è¦æ—©è¿‘å年,从最早的Archieï¼Œåˆ°åŽæ¥çš„Excite,以åŠaltvistaã€overtureã€googleç‰æœç´¢å¼•擎é¢ä¸–,æœç´¢å¼•擎å‘å±•è‡³ä»Šï¼Œå·²ç»æœ‰åå‡ å¹´çš„åŽ†å²ï¼Œè€Œå›½å†…å¼€å§‹ç ”ç©¶æœç´¢å¼•擎是在上世纪末本世纪åˆã€‚在许多领域,都是国外的产å“和技术一统天下,特别是当æŸç§æŠ€æœ¯åœ¨å›½å¤–ç ”ç©¶å¤šå¹´è€Œå›½å†…æ‰å¼€å§‹çš„æƒ…况下。例如æ“作系统ã€å—处ç†è½¯ä»¶ã€æµè§ˆå™¨ç‰ç‰ï¼Œä½†æœç´¢å¼•æ“Žå´æ˜¯ä¸ªä¾‹å¤–。虽然在国外æœç´¢å¼•æ“ŽæŠ€æœ¯æ—©å°±å¼€å§‹ç ”ç©¶ï¼Œä½†åœ¨å›½å†…è¿˜æ˜¯é™†ç»æ¶ŒçŽ°å‡ºä¼˜ç§€çš„æœç´¢å¼•擎,åƒç™¾åº¦ï¼ˆhttp://www.baidu.com/)ã€ä¸æœï¼ˆhttp://www.zhongsou.com/)ç‰ã€‚ç›®å‰åœ¨ä¸æ–‡æœç´¢å¼•擎领域,国内的æœç´¢å¼•擎已ç»å’Œå›½å¤–çš„æœç´¢å¼•擎效果上相差ä¸è¿œã€‚之所以能形æˆè¿™æ ·çš„å±€é¢ï¼Œæœ‰ä¸€ä¸ªé‡è¦çš„åŽŸå› å°±åœ¨äºŽä¸æ–‡å’Œè‹±æ–‡ä¸¤ç§è¯è¨€è‡ªèº«çš„书写方å¼ä¸åŒï¼Œè¿™å…¶ä¸å¯¹äºŽè®¡ç®—机涉åŠçš„æŠ€æœ¯å°±æ˜¯ä¸æ–‡åˆ†è¯ã€‚
ä»€ä¹ˆæ˜¯ä¸æ–‡åˆ†è¯
众所周知,英文是以è¯ä¸ºå•ä½çš„,è¯å’Œè¯ä¹‹é—´æ˜¯é ç©ºæ ¼éš”å¼€ï¼Œè€Œä¸æ–‡æ˜¯ä»¥å—为å•ä½ï¼Œå¥å䏿‰€æœ‰çš„å—è¿žèµ·æ¥æ‰èƒ½æè¿°ä¸€ä¸ªæ„æ€ã€‚例如,英文å¥åI am a studentï¼Œç”¨ä¸æ–‡åˆ™ä¸ºï¼šâ€œæˆ‘是一个å¦ç”Ÿâ€ã€‚计算机å¯ä»¥å¾ˆç®€å•é€šè¿‡ç©ºæ ¼çŸ¥é“student是一个å•è¯ï¼Œä½†æ˜¯ä¸èƒ½å¾ˆå®¹æ˜“明白“å¦â€ã€â€œç”Ÿâ€ä¸¤ä¸ªå—åˆèµ·æ¥æ‰è¡¨ç¤ºä¸€ä¸ªè¯ã€‚æŠŠä¸æ–‡çš„æ±‰å—åºåˆ—åˆ‡åˆ†æˆæœ‰æ„义的è¯ï¼Œå°±æ˜¯ä¸æ–‡åˆ†è¯ï¼Œæœ‰äº›äººä¹Ÿç§°ä¸ºåˆ‡è¯ã€‚我是一个å¦ç”Ÿï¼Œåˆ†è¯çš„结果是:我 是 一个 å¦ç”Ÿã€‚
䏿–‡åˆ†è¯å’Œæœç´¢å¼•擎
䏿–‡åˆ†è¯åˆ°åº•对æœç´¢å¼•擎有多大影å“?对于æœç´¢å¼•擎æ¥è¯´ï¼Œæœ€é‡è¦çš„并䏿˜¯æ‰¾åˆ°æ‰€æœ‰ç»“æžœï¼Œå› ä¸ºåœ¨ä¸Šç™¾äº¿çš„ç½‘é¡µä¸æ‰¾åˆ°æ‰€æœ‰ç»“果没有太多的æ„义,没有人能看得完,最é‡è¦çš„æ˜¯æŠŠæœ€ç›¸å…³çš„结果排在最å‰é¢ï¼Œè¿™ä¹Ÿç§°ä¸ºç›¸å…³åº¦æŽ’åºã€‚䏿–‡åˆ†è¯çš„准确与å¦ï¼Œå¸¸å¸¸ç›´æŽ¥å½±å“到对æœç´¢ç»“果的相关度排åºã€‚ç¬”è€…æœ€è¿‘æ›¿æœ‹å‹æ‰¾ä¸€äº›å…³äºŽæ—¥æœ¬å’Œæœçš„资料,在æœç´¢å¼•擎上输入“和æœâ€ï¼Œå¾—到的结果就å‘现了很多问题。下é¢å°±ä»¥è¿™ä¸ªä¾‹åæ¥è¯´æ˜Žåˆ†è¯å¯¹æœç´¢ç»“果的影å“ï¼Œåœ¨çŽ°æœ‰ä¸‰ä¸ªä¸æ–‡æœç´¢å¼•æ“Žä¸Šåšæµ‹è¯•,测试方法是直接在Google(http://www.google.com/)ã€ç™¾åº¦ï¼ˆhttp://www.baidu.com/)ã€ä¸æœï¼ˆhttp://www.zhongsou.com/)上以“和æœâ€ä¸ºå…³é”®è¯è¿›è¡Œæœç´¢ï¼š
在Google上输入“和æœâ€æœç´¢æ‰€æœ‰ä¸æ–‡ç®€ä½“网页,总共结果507,000æ¡ï¼Œå‰20æ¡ç»“æžœä¸æœ‰14æ¡ä¸Žå’Œæœä¸€ç‚¹å…³ç³»éƒ½æ²¡æœ‰ã€‚在第一页就有以下错误:
â€œé€šä¿¡ä¿¡æ¯æŠ¥ï¼šç‘žæ˜Ÿä»¥æŠ€æœ¯å’ŒæœåŠ¡å¼€æ‹“ç½‘ç»œå®‰å…¨å¸‚åœºâ€
“使用纯HTML的通用数æ®ç®¡ç†å’ŒæœåŠ¡- å¼€å‘者- ZDNet ...â€
“陈慧ç³ã€Šå¿ƒå£ä¸ä¸€ã€‹åŒ–妆和æœè£…自己包办â€
“::外交部:ä¸å›½å¢ƒå¤–é¢†äº‹ä¿æŠ¤å’ŒæœåŠ¡æŒ‡å—(2003年版) ...â€
“产å“å’ŒæœåŠ¡â€
ç‰ç‰ã€‚ç¬¬ä¸€é¡µåªæœ‰ä¸‰ç¯‡æ˜¯çœŸæ£åœ¨è®²â€œå’Œæœâ€çš„结果。
在百度上输入“和æœâ€æœç´¢ç½‘页,总共结果为287,000æ¡ï¼Œå‰20æ¡ç»“æžœä¸æœ‰6æ¡ä¸Žå’Œæœä¸€ç‚¹å…³ç³»éƒ½æ²¡æœ‰ã€‚在第一页有以下错误:
“ç¦å»ºçœæ™‹æ±Ÿå¸‚æ’å’Œæœè£…有é™å…¬å¸ç³»ç‹¬èµ„ä¼ä¸šâ€
“关于商å“å’ŒæœåŠ¡å®žè¡Œæ˜Žç æ ‡ä»·çš„规定â€
“é’岛东和æœè£…设备â€
åœ¨ä¸æœä¸Šè¾“入“和æœâ€æœç´¢ç½‘页,总共结果为26,917æ¡ï¼Œå‰20æ¡ç»“果都是与和æœç›¸å…³çš„网页。
这次æœç´¢å¼•擎结果ä¸çš„错误,就是由于分è¯çš„ä¸å‡†ç¡®æ‰€é€ æˆçš„。通过笔者的了解,Googleçš„ä¸æ–‡åˆ†è¯æŠ€æœ¯é‡‡ç”¨çš„æ˜¯ç¾Žå›½ä¸€å®¶åå«Basis Technology(http://www.basistech.com/ï¼‰çš„å…¬å¸æä¾›çš„ä¸æ–‡åˆ†è¯æŠ€æœ¯ï¼Œç™¾åº¦ä½¿ç”¨çš„æ˜¯è‡ªå·±å…¬å¸å¼€å‘çš„åˆ†è¯æŠ€æœ¯ï¼Œä¸æœä½¿ç”¨çš„æ˜¯å›½å†…æµ·é‡ç§‘技(http://www.hylanda.com/)æä¾›çš„åˆ†è¯æŠ€æœ¯ã€‚ç”±æ¤å¯è§ï¼Œä¸æ–‡åˆ†è¯çš„准确度,对æœç´¢å¼•擎结果相关性和准确性有相当大的关系。
䏿–‡åˆ†è¯æŠ€æœ¯
䏿–‡åˆ†è¯æŠ€æœ¯å±žäºŽè‡ªç„¶è¯è¨€å¤„ç†æŠ€æœ¯èŒƒç•´ï¼Œå¯¹äºŽä¸€å¥è¯ï¼Œäººå¯ä»¥é€šè¿‡è‡ªå·±çš„çŸ¥è¯†æ¥æ˜Žç™½å“ªäº›æ˜¯è¯ï¼Œå“ªäº›ä¸æ˜¯è¯ï¼Œä½†å¦‚何让计算机也能ç†è§£ï¼Ÿå…¶å¤„ç†è¿‡ç¨‹å°±æ˜¯åˆ†è¯ç®—法。
现有的分è¯ç®—法å¯åˆ†ä¸ºä¸‰å¤§ç±»ï¼šåŸºäºŽå—符串匹é…çš„åˆ†è¯æ–¹æ³•ã€åŸºäºŽç†è§£çš„åˆ†è¯æ–¹æ³•å’ŒåŸºäºŽç»Ÿè®¡çš„åˆ†è¯æ–¹æ³•。
1ã€åŸºäºŽå—符串匹é…çš„åˆ†è¯æ–¹æ³•
è¿™ç§æ–¹æ³•åˆå«åšæœºæ¢°åˆ†è¯æ–¹æ³•,它是按照一定的ç–略将待分æžçš„æ±‰å—ä¸²ä¸Žä¸€ä¸ªâ€œå……åˆ†å¤§çš„â€æœºå™¨è¯å…¸ä¸çš„è¯æ¡è¿›è¡Œé…,若在è¯å…¸ä¸æ‰¾åˆ°æŸä¸ªå—ç¬¦ä¸²ï¼Œåˆ™åŒ¹é…æˆåŠŸï¼ˆè¯†åˆ«å‡ºä¸€ä¸ªè¯ï¼‰ã€‚æŒ‰ç…§æ‰«ææ–¹å‘çš„ä¸åŒï¼Œä¸²åŒ¹é…åˆ†è¯æ–¹æ³•å¯ä»¥åˆ†ä¸ºæ£å‘匹é…和逆å‘匹é…;按照ä¸åŒé•¿åº¦ä¼˜å…ˆåŒ¹é…的情况,å¯ä»¥åˆ†ä¸ºæœ€å¤§ï¼ˆæœ€é•¿ï¼‰åŒ¹é…和最å°ï¼ˆæœ€çŸï¼‰åŒ¹é…;按照是å¦ä¸Žè¯æ€§æ ‡æ³¨è¿‡ç¨‹ç›¸ç»“åˆï¼Œåˆå¯ä»¥åˆ†ä¸ºå•çº¯åˆ†è¯æ–¹æ³•和分è¯ä¸Žæ ‡æ³¨ç›¸ç»“åˆçš„ä¸€ä½“åŒ–æ–¹æ³•ã€‚å¸¸ç”¨çš„å‡ ç§æœºæ¢°åˆ†è¯æ–¹æ³•如下:
1)æ£å‘æœ€å¤§åŒ¹é…æ³•(由左到å³çš„æ–¹å‘);
2ï¼‰é€†å‘æœ€å¤§åŒ¹é…法(由å³åˆ°å·¦çš„æ–¹å‘);
3)最少切分(使æ¯ä¸€å¥ä¸åˆ‡å‡ºçš„è¯æ•°æœ€å°ï¼‰ã€‚
还å¯ä»¥å°†ä¸Šè¿°å„ç§æ–¹æ³•相互组åˆï¼Œä¾‹å¦‚,å¯ä»¥å°†æ£å‘æœ€å¤§åŒ¹é…æ–¹æ³•å’Œé€†å‘æœ€å¤§åŒ¹é…方法结åˆèµ·æ¥æž„æˆåŒå‘åŒ¹é…æ³•。由于汉è¯å•å—æˆè¯çš„特点,æ£å‘最å°åŒ¹é…å’Œé€†å‘æœ€å°åŒ¹é…一般很少使用。一般说æ¥ï¼Œé€†å‘匹é…的切分精度略高于æ£å‘匹é…,é‡åˆ°çš„æ§ä¹‰çŽ°è±¡ä¹Ÿè¾ƒå°‘ã€‚ç»Ÿè®¡ç»“æžœè¡¨æ˜Žï¼Œå•纯使用æ£å‘最大匹é…的错误率为1/169,å•çº¯ä½¿ç”¨é€†å‘æœ€å¤§åŒ¹é…的错误率为1/245。但这ç§ç²¾åº¦è¿˜è¿œè¿œä¸èƒ½æ»¡è¶³å®žé™…的需è¦ã€‚实际使用的分è¯ç³»ç»Ÿï¼Œéƒ½æ˜¯æŠŠæœºæ¢°åˆ†è¯ä½œä¸ºä¸€ç§åˆåˆ†æ‰‹æ®µï¼Œè¿˜éœ€é€šè¿‡åˆ©ç”¨å„ç§å…¶å®ƒçš„è¯è¨€ä¿¡æ¯æ¥è¿›ä¸€æ¥æé«˜åˆ‡åˆ†çš„准确率。
ä¸€ç§æ–¹æ³•æ˜¯æ”¹è¿›æ‰«ææ–¹å¼ï¼Œç§°ä¸ºç‰¹å¾æ‰«ææˆ–æ ‡å¿—åˆ‡åˆ†ï¼Œä¼˜å…ˆåœ¨å¾…åˆ†æžå—符串ä¸è¯†åˆ«å’Œåˆ‡åˆ†å‡ºä¸€äº›å¸¦æœ‰æ˜Žæ˜¾ç‰¹å¾çš„è¯ï¼Œä»¥è¿™äº›è¯ä½œä¸ºæ–点,å¯å°†åŽŸå—符串分为较å°çš„䏲冿¥è¿›æœºæ¢°åˆ†è¯ï¼Œä»Žè€Œå‡å°‘匹é…的错误率。å¦ä¸€ç§æ–¹æ³•是将分è¯å’Œè¯ç±»æ ‡æ³¨ç»“åˆèµ·æ¥ï¼Œåˆ©ç”¨ä¸°å¯Œçš„è¯ç±»ä¿¡æ¯å¯¹åˆ†è¯å†³ç–æä¾›å¸®åŠ©ï¼Œå¹¶ä¸”åœ¨æ ‡æ³¨è¿‡ç¨‹ä¸åˆå过æ¥å¯¹åˆ†è¯ç»“果进行检验ã€è°ƒæ•´ï¼Œä»Žè€Œæžå¤§åœ°æé«˜åˆ‡åˆ†çš„准确率。
å¯¹äºŽæœºæ¢°åˆ†è¯æ–¹æ³•,å¯ä»¥å»ºç«‹ä¸€ä¸ªä¸€èˆ¬çš„æ¨¡åž‹ï¼Œåœ¨è¿™æ–¹é¢æœ‰ä¸“ä¸šçš„å¦æœ¯è®ºæ–‡ï¼Œè¿™é‡Œä¸åšè¯¦ç»†è®ºè¿°ã€‚
2ã€åŸºäºŽç†è§£çš„åˆ†è¯æ–¹æ³•
è¿™ç§åˆ†è¯æ–¹æ³•是通过让计算机模拟人对å¥åçš„ç†è§£ï¼Œè¾¾åˆ°è¯†åˆ«è¯çš„æ•ˆæžœã€‚å…¶åŸºæœ¬æ€æƒ³å°±æ˜¯åœ¨åˆ†è¯çš„åŒæ—¶è¿›è¡Œå¥æ³•ã€è¯ä¹‰åˆ†æžï¼Œåˆ©ç”¨å¥æ³•ä¿¡æ¯å’Œè¯ä¹‰ä¿¡æ¯æ¥å¤„ç†æ§ä¹‰çŽ°è±¡ã€‚å®ƒé€šå¸¸åŒ…æ‹¬ä¸‰ä¸ªéƒ¨åˆ†ï¼šåˆ†è¯å系统ã€å¥æ³•è¯ä¹‰åç³»ç»Ÿã€æ€»æŽ§éƒ¨åˆ†ã€‚在总控部分的å调下,分è¯å系统å¯ä»¥èŽ·å¾—æœ‰å…³è¯ã€å¥åç‰çš„奿³•å’Œè¯ä¹‰ä¿¡æ¯æ¥å¯¹åˆ†è¯æ§ä¹‰è¿›è¡Œåˆ¤æ–,å³å®ƒæ¨¡æ‹Ÿäº†äººå¯¹å¥åçš„ç†è§£è¿‡ç¨‹ã€‚è¿™ç§åˆ†è¯æ–¹æ³•需è¦ä½¿ç”¨å¤§é‡çš„è¯è¨€çŸ¥è¯†å’Œä¿¡æ¯ã€‚由于汉è¯è¯è¨€çŸ¥è¯†çš„笼统ã€å¤æ‚性,难以将å„ç§è¯è¨€ä¿¡æ¯ç»„ç»‡æˆæœºå™¨å¯ç›´æŽ¥è¯»å–的形å¼ï¼Œå› æ¤ç›®å‰åŸºäºŽç†è§£çš„分è¯ç³»ç»Ÿè¿˜å¤„在试验阶段。
3ã€åŸºäºŽç»Ÿè®¡çš„åˆ†è¯æ–¹æ³•
从形å¼ä¸Šçœ‹ï¼Œè¯æ˜¯ç¨³å®šçš„å—的组åˆï¼Œå› æ¤åœ¨ä¸Šä¸‹æ–‡ä¸ï¼Œç›¸é‚»çš„å—åŒæ—¶å‡ºçŽ°çš„æ¬¡æ•°è¶Šå¤šï¼Œå°±è¶Šæœ‰å¯èƒ½æž„æˆä¸€ä¸ªè¯ã€‚å› æ¤å—与å—ç›¸é‚»å…±çŽ°çš„é¢‘çŽ‡æˆ–æ¦‚çŽ‡èƒ½å¤Ÿè¾ƒå¥½çš„åæ˜ æˆè¯çš„å¯ä¿¡åº¦ã€‚å¯ä»¥å¯¹è¯æ–™ä¸ç›¸é‚»å…±çŽ°çš„å„个å—的组åˆçš„频度进行统计,计算它们的互现信æ¯ã€‚定义两个å—的互现信æ¯ï¼Œè®¡ç®—两个汉å—Xã€Y的相邻共现概率。互现信æ¯ä½“现了汉å—之间结åˆå…³ç³»çš„紧密程度。当紧密程度高于æŸä¸€ä¸ªé˜ˆå€¼æ—¶ï¼Œä¾¿å¯è®¤ä¸ºæ¤å—组å¯èƒ½æž„æˆäº†ä¸€ä¸ªè¯ã€‚è¿™ç§æ–¹æ³•åªéœ€å¯¹è¯æ–™ä¸çš„å—组频度进行统计,ä¸éœ€è¦åˆ‡åˆ†è¯å…¸ï¼Œå› 而åˆå«åšæ— è¯å…¸åˆ†è¯æ³•或统计å–è¯æ–¹æ³•ã€‚ä½†è¿™ç§æ–¹æ³•ä¹Ÿæœ‰ä¸€å®šçš„å±€é™æ€§ï¼Œä¼šç»å¸¸æŠ½å‡ºä¸€äº›å…±çŽ°é¢‘åº¦é«˜ã€ä½†å¹¶ä¸æ˜¯è¯çš„常用å—组,例如“这一â€ã€â€œä¹‹ä¸€â€ã€â€œæœ‰çš„â€ã€â€œæˆ‘çš„â€ã€â€œè®¸å¤šçš„â€ç‰ï¼Œå¹¶ä¸”对常用è¯çš„识别精度差,时空开销大。实际应用的统计分è¯ç³»ç»Ÿéƒ½è¦ä½¿ç”¨ä¸€éƒ¨åŸºæœ¬çš„分è¯è¯å…¸ï¼ˆå¸¸ç”¨è¯è¯å…¸ï¼‰è¿›è¡Œä¸²åŒ¹é…分è¯ï¼ŒåŒæ—¶ä½¿ç”¨ç»Ÿè®¡æ–¹æ³•识别一些新的è¯ï¼Œå³å°†ä¸²é¢‘统计和串匹é…结åˆèµ·æ¥ï¼Œæ—¢å‘挥匹é…分è¯åˆ‡åˆ†é€Ÿåº¦å¿«ã€æ•ˆçŽ‡é«˜çš„ç‰¹ç‚¹ï¼Œåˆåˆ©ç”¨äº†æ— è¯å…¸åˆ†è¯ç»“åˆä¸Šä¸‹æ–‡è¯†åˆ«ç”Ÿè¯ã€è‡ªåŠ¨æ¶ˆé™¤æ§ä¹‰çš„优点。
到底哪ç§åˆ†è¯ç®—法的准确度更高,目å‰å¹¶æ— 定论。对于任何一个æˆç†Ÿçš„分è¯ç³»ç»Ÿæ¥è¯´ï¼Œä¸å¯èƒ½å•独ä¾é æŸä¸€ç§ç®—法æ¥å®žçŽ°ï¼Œéƒ½éœ€è¦ç»¼åˆä¸åŒçš„算法。笔者了解,海é‡ç§‘技的分è¯ç®—æ³•å°±é‡‡ç”¨â€œå¤æ–¹åˆ†è¯æ³•â€ï¼Œæ‰€è°“夿–¹ï¼Œç›¸å½“于用ä¸è¯ä¸çš„夿–¹æ¦‚念,å³ç”¨ä¸åŒçš„è¯æ‰ç»¼åˆèµ·æ¥åŽ»åŒ»æ²»ç–¾ç—…ï¼ŒåŒæ ·ï¼Œå¯¹äºŽä¸æ–‡è¯çš„识别,需è¦å¤šç§ç®—法æ¥å¤„ç†ä¸åŒçš„问题。
分è¯ä¸çš„难题
有了æˆç†Ÿçš„分è¯ç®—法,是å¦å°±èƒ½å®¹æ˜“çš„è§£å†³ä¸æ–‡åˆ†è¯çš„问题呢?事实远éžå¦‚æ¤ã€‚䏿–‡æ˜¯ä¸€ç§ååˆ†å¤æ‚çš„è¯è¨€ï¼Œè®©è®¡ç®—机ç†è§£ä¸æ–‡è¯è¨€æ›´æ˜¯å›°éš¾ã€‚åœ¨ä¸æ–‡åˆ†è¯è¿‡ç¨‹ä¸ï¼Œæœ‰ä¸¤å¤§éš¾é¢˜ä¸€ç›´æ²¡æœ‰å®Œå…¨çªç ´ã€‚
1ã€æ§ä¹‰è¯†åˆ«
æ§ä¹‰æ˜¯æŒ‡åŒæ ·çš„一å¥è¯ï¼Œå¯èƒ½æœ‰ä¸¤ç§æˆ–者更多的切分方法。例如:表é¢çš„ï¼Œå› ä¸ºâ€œè¡¨é¢â€å’Œâ€œé¢çš„â€éƒ½æ˜¯è¯ï¼Œé‚£ä¹ˆè¿™ä¸ªçŸè¯å°±å¯ä»¥åˆ†æˆâ€œè¡¨é¢ çš„â€å’Œâ€œè¡¨ é¢çš„â€ã€‚è¿™ç§ç§°ä¸ºäº¤å‰æ§ä¹‰ã€‚åƒè¿™ç§äº¤å‰æ§ä¹‰å分常è§ï¼Œå‰é¢ä¸¾çš„“和æœâ€çš„例åï¼Œå…¶å®žå°±æ˜¯å› ä¸ºäº¤å‰æ§ä¹‰å¼•起的错误。“化妆和æœè£…â€å¯ä»¥åˆ†æˆâ€œåŒ–妆 å’Œ æœè£…â€æˆ–者“化妆 å’Œæœ è£…â€ã€‚由于没有人的知识去ç†è§£ï¼Œè®¡ç®—机很难知é“到底哪个方案æ£ç¡®ã€‚
äº¤å‰æ§ä¹‰ç›¸å¯¹ç»„åˆæ§ä¹‰æ¥è¯´æ˜¯è¿˜ç®—比较容易处ç†ï¼Œç»„åˆæ§ä¹‰å°±å¿…éœ€æ ¹æ®æ•´ä¸ªå¥åæ¥åˆ¤æ–了。例如,在å¥å“这个门把手å了â€ä¸ï¼Œâ€œæŠŠæ‰‹â€æ˜¯ä¸ªè¯ï¼Œä½†åœ¨å¥å“请把手拿开â€ä¸ï¼Œâ€œæŠŠæ‰‹â€å°±ä¸æ˜¯ä¸€ä¸ªè¯ï¼›åœ¨å¥å“将军任命了一åä¸å°†â€ä¸ï¼Œâ€œä¸å°†â€æ˜¯ä¸ªè¯ï¼Œä½†åœ¨å¥å“产é‡ä¸‰å¹´ä¸å°†å¢žé•¿ä¸¤å€â€ä¸ï¼Œâ€œä¸å°†â€å°±ä¸å†æ˜¯è¯ã€‚这些è¯è®¡ç®—机åˆå¦‚何去识别?
å¦‚æžœäº¤å‰æ§ä¹‰å’Œç»„åˆæ§ä¹‰è®¡ç®—机都能解决的è¯ï¼Œåœ¨æ§ä¹‰ä¸è¿˜æœ‰ä¸€ä¸ªéš¾é¢˜ï¼Œæ˜¯çœŸæ§ä¹‰ã€‚真æ§ä¹‰æ„æ€æ˜¯ç»™å‡ºä¸€å¥è¯ï¼Œç”±äººåŽ»åˆ¤æ–也ä¸çŸ¥é“哪个应该是è¯ï¼Œå“ªä¸ªåº”è¯¥ä¸æ˜¯è¯ã€‚ä¾‹å¦‚ï¼šâ€œä¹’ä¹“çƒæ‹å–完了â€ï¼Œå¯ä»¥åˆ‡åˆ†æˆâ€œä¹’乓 çƒæ‹ å– å®Œ 了â€ã€ä¹Ÿå¯åˆ‡åˆ†æˆâ€œä¹’ä¹“çƒ æ‹å– 完 了â€ï¼Œå¦‚果没有上下文其他的å¥åï¼Œææ€•è°ä¹Ÿä¸çŸ¥é““æ‹å–â€åœ¨è¿™é‡Œç®—ä¸ç®—一个è¯ã€‚
2ã€æ–°è¯è¯†åˆ«
æ–°è¯ï¼Œä¸“业术è¯ç§°ä¸ºæœªç™»å½•è¯ã€‚也就是那些在å—å…¸ä¸éƒ½æ²¡æœ‰æ”¶å½•过,但åˆç¡®å®žèƒ½ç§°ä¸ºè¯çš„那些è¯ã€‚最典型的是人å,人å¯ä»¥å¾ˆå®¹æ˜“ç†è§£å¥å“王军虎去广州了â€ä¸ï¼Œâ€œçŽ‹å†›è™Žâ€æ˜¯ä¸ªè¯ï¼Œå› 为是一个人的åå—ï¼Œä½†è¦æ˜¯è®©è®¡ç®—机去识别就困难了。如果把“王军虎â€åšä¸ºä¸€ä¸ªè¯æ”¶å½•到å—å…¸ä¸åŽ»ï¼Œå…¨ä¸–ç•Œæœ‰é‚£ä¹ˆå¤šåå—ï¼Œè€Œä¸”æ¯æ—¶æ¯åˆ»éƒ½æœ‰æ–°å¢žçš„人åï¼Œæ”¶å½•è¿™äº›äººåæœ¬èº«å°±æ˜¯ä¸€é¡¹å·¨å¤§çš„工程。å³ä½¿è¿™é¡¹å·¥ä½œå¯ä»¥å®Œæˆï¼Œè¿˜æ˜¯ä¼šå˜åœ¨é—®é¢˜ï¼Œä¾‹å¦‚:在å¥å“王军虎头虎脑的â€ä¸ï¼Œâ€œçŽ‹å†›è™Žâ€è¿˜èƒ½ä¸èƒ½ç®—è¯ï¼Ÿ
æ–°è¯ä¸é™¤äº†äººå以外,还有机构åã€åœ°åã€äº§å“åã€å•†æ ‡åã€ç®€ç§°ã€çœç•¥è¯ç‰éƒ½æ˜¯å¾ˆéš¾å¤„ç†çš„é—®é¢˜ï¼Œè€Œä¸”è¿™äº›åˆæ£å¥½æ˜¯äººä»¬ç»å¸¸ä½¿ç”¨çš„è¯ï¼Œå› æ¤å¯¹äºŽæœç´¢å¼•擎æ¥è¯´ï¼Œåˆ†è¯ç³»ç»Ÿä¸çš„æ–°è¯è¯†åˆ«å分é‡è¦ã€‚ç›®å‰æ–°è¯è¯†åˆ«å‡†ç¡®çŽ‡å·²ç»æˆä¸ºè¯„价一个分è¯ç³»ç»Ÿå¥½åçš„é‡è¦æ ‡å¿—之一。
䏿–‡åˆ†è¯çš„应用
ç›®å‰åœ¨è‡ªç„¶è¯è¨€å¤„ç†æŠ€æœ¯ä¸ï¼Œä¸æ–‡å¤„ç†æŠ€æœ¯æ¯”è¥¿æ–‡å¤„ç†æŠ€æœ¯è¦è½åŽå¾ˆå¤§ä¸€æ®µè·ç¦»ï¼Œè®¸å¤šè¥¿æ–‡çš„å¤„ç†æ–¹æ³•䏿–‡ä¸èƒ½ç›´æŽ¥é‡‡ç”¨ï¼Œå°±æ˜¯å› ä¸ºä¸æ–‡å¿…需有分è¯è¿™é“å·¥åºã€‚䏿–‡åˆ†è¯æ˜¯å…¶ä»–䏿–‡ä¿¡æ¯å¤„ç†çš„基础,æœç´¢å¼•æ“Žåªæ˜¯ä¸æ–‡åˆ†è¯çš„一个应用。其他的比如机器翻译(MT)ã€è¯éŸ³åˆæˆã€è‡ªåŠ¨åˆ†ç±»ã€è‡ªåŠ¨æ‘˜è¦ã€è‡ªåŠ¨æ ¡å¯¹ç‰ç‰ï¼Œéƒ½éœ€è¦ç”¨åˆ°åˆ†è¯ã€‚å› ä¸ºä¸æ–‡éœ€è¦åˆ†è¯ï¼Œå¯èƒ½ä¼šå½±å“ä¸€äº›ç ”ç©¶ï¼Œä½†åŒæ—¶ä¹Ÿä¸ºä¸€äº›ä¼ä¸šå¸¦æ¥æœºä¼šï¼Œå› ä¸ºå›½å¤–çš„è®¡ç®—æœºå¤„ç†æŠ€æœ¯è¦æƒ³è¿›å…¥ä¸å›½å¸‚场,首先也是è¦è§£å†³ä¸æ–‡åˆ†è¯é—®é¢˜ã€‚åœ¨ä¸æ–‡ç ”ç©¶æ–¹é¢ï¼Œç›¸æ¯”外国人æ¥è¯´ï¼Œä¸å›½äººæœ‰å分明显的优势。
分è¯å‡†ç¡®æ€§å¯¹æœç´¢å¼•擎æ¥è¯´å分é‡è¦ï¼Œä½†å¦‚果分è¯é€Ÿåº¦å¤ªæ…¢ï¼Œå³ä½¿å‡†ç¡®æ€§å†é«˜ï¼Œå¯¹äºŽæœç´¢å¼•擎æ¥è¯´ä¹Ÿæ˜¯ä¸å¯ç”¨çš„ï¼Œå› ä¸ºæœç´¢å¼•擎需è¦å¤„ç†æ•°ä»¥äº¿è®¡çš„网页,如果分è¯è€—用的时间过长,会严é‡å½±å“æœç´¢å¼•æ“Žå†…å®¹æ›´æ–°çš„é€Ÿåº¦ã€‚å› æ¤å¯¹äºŽæœç´¢å¼•擎æ¥è¯´ï¼Œåˆ†è¯çš„准确性和速度,二者都需è¦è¾¾åˆ°å¾ˆé«˜çš„è¦æ±‚。目å‰ç ”ç©¶ä¸æ–‡åˆ†è¯çš„å¤§å¤šæ˜¯ç§‘ç ”é™¢æ ¡ï¼Œæ¸…åŽã€åŒ—大ã€ä¸ç§‘院ã€åŒ—京è¯è¨€å¦é™¢ã€ä¸œåŒ—大å¦ã€IBMç ”ç©¶é™¢ã€å¾®è½¯ä¸å›½ç ”究院ç‰éƒ½æœ‰è‡ªå·±çš„ç ”ç©¶é˜Ÿä¼ï¼Œè€ŒçœŸæ£ä¸“ä¸šç ”ç©¶ä¸æ–‡åˆ†è¯çš„商业公å¸é™¤äº†æµ·é‡ç§‘æŠ€ä»¥å¤–ï¼Œå‡ ä¹Žæ²¡æœ‰äº†ã€‚ç§‘ç ”é™¢æ ¡ç ”ç©¶çš„æŠ€æœ¯ï¼Œå¤§éƒ¨åˆ†ä¸èƒ½å¾ˆå¿«äº§å“化,而一个专业公å¸çš„åŠ›é‡æ¯•竟有é™ï¼Œçœ‹æ¥ä¸æ–‡åˆ†è¯æŠ€æœ¯è¦æƒ³æ›´å¥½çš„æœåŠ¡äºŽæ›´å¤šçš„äº§å“,还有很长一段路。
最后编辑: 郝聪 编辑于2006/09/04 02:54
æœç´¢å¼•æ“ŽæŠ€æœ¯çš„ç ”ç©¶ï¼Œå›½å¤–æ¯”ä¸å›½è¦æ—©è¿‘å年,从最早的Archieï¼Œåˆ°åŽæ¥çš„Excite,以åŠaltvistaã€overtureã€googleç‰æœç´¢å¼•擎é¢ä¸–,æœç´¢å¼•擎å‘å±•è‡³ä»Šï¼Œå·²ç»æœ‰åå‡ å¹´çš„åŽ†å²ï¼Œè€Œå›½å†…å¼€å§‹ç ”ç©¶æœç´¢å¼•擎是在上世纪末本世纪åˆã€‚在许多领域,都是国外的产å“和技术一统天下,特别是当æŸç§æŠ€æœ¯åœ¨å›½å¤–ç ”ç©¶å¤šå¹´è€Œå›½å†…æ‰å¼€å§‹çš„æƒ…况下。例如æ“作系统ã€å—处ç†è½¯ä»¶ã€æµè§ˆå™¨ç‰ç‰ï¼Œä½†æœç´¢å¼•æ“Žå´æ˜¯ä¸ªä¾‹å¤–。虽然在国外æœç´¢å¼•æ“ŽæŠ€æœ¯æ—©å°±å¼€å§‹ç ”ç©¶ï¼Œä½†åœ¨å›½å†…è¿˜æ˜¯é™†ç»æ¶ŒçŽ°å‡ºä¼˜ç§€çš„æœç´¢å¼•擎,åƒç™¾åº¦ï¼ˆhttp://www.baidu.com/)ã€ä¸æœï¼ˆhttp://www.zhongsou.com/)ç‰ã€‚ç›®å‰åœ¨ä¸æ–‡æœç´¢å¼•擎领域,国内的æœç´¢å¼•擎已ç»å’Œå›½å¤–çš„æœç´¢å¼•擎效果上相差ä¸è¿œã€‚之所以能形æˆè¿™æ ·çš„å±€é¢ï¼Œæœ‰ä¸€ä¸ªé‡è¦çš„åŽŸå› å°±åœ¨äºŽä¸æ–‡å’Œè‹±æ–‡ä¸¤ç§è¯è¨€è‡ªèº«çš„书写方å¼ä¸åŒï¼Œè¿™å…¶ä¸å¯¹äºŽè®¡ç®—机涉åŠçš„æŠ€æœ¯å°±æ˜¯ä¸æ–‡åˆ†è¯ã€‚
ä»€ä¹ˆæ˜¯ä¸æ–‡åˆ†è¯
众所周知,英文是以è¯ä¸ºå•ä½çš„,è¯å’Œè¯ä¹‹é—´æ˜¯é ç©ºæ ¼éš”å¼€ï¼Œè€Œä¸æ–‡æ˜¯ä»¥å—为å•ä½ï¼Œå¥å䏿‰€æœ‰çš„å—è¿žèµ·æ¥æ‰èƒ½æè¿°ä¸€ä¸ªæ„æ€ã€‚例如,英文å¥åI am a studentï¼Œç”¨ä¸æ–‡åˆ™ä¸ºï¼šâ€œæˆ‘是一个å¦ç”Ÿâ€ã€‚计算机å¯ä»¥å¾ˆç®€å•é€šè¿‡ç©ºæ ¼çŸ¥é“student是一个å•è¯ï¼Œä½†æ˜¯ä¸èƒ½å¾ˆå®¹æ˜“明白“å¦â€ã€â€œç”Ÿâ€ä¸¤ä¸ªå—åˆèµ·æ¥æ‰è¡¨ç¤ºä¸€ä¸ªè¯ã€‚æŠŠä¸æ–‡çš„æ±‰å—åºåˆ—åˆ‡åˆ†æˆæœ‰æ„义的è¯ï¼Œå°±æ˜¯ä¸æ–‡åˆ†è¯ï¼Œæœ‰äº›äººä¹Ÿç§°ä¸ºåˆ‡è¯ã€‚我是一个å¦ç”Ÿï¼Œåˆ†è¯çš„结果是:我 是 一个 å¦ç”Ÿã€‚
䏿–‡åˆ†è¯å’Œæœç´¢å¼•擎
䏿–‡åˆ†è¯åˆ°åº•对æœç´¢å¼•擎有多大影å“?对于æœç´¢å¼•擎æ¥è¯´ï¼Œæœ€é‡è¦çš„并䏿˜¯æ‰¾åˆ°æ‰€æœ‰ç»“æžœï¼Œå› ä¸ºåœ¨ä¸Šç™¾äº¿çš„ç½‘é¡µä¸æ‰¾åˆ°æ‰€æœ‰ç»“果没有太多的æ„义,没有人能看得完,最é‡è¦çš„æ˜¯æŠŠæœ€ç›¸å…³çš„结果排在最å‰é¢ï¼Œè¿™ä¹Ÿç§°ä¸ºç›¸å…³åº¦æŽ’åºã€‚䏿–‡åˆ†è¯çš„准确与å¦ï¼Œå¸¸å¸¸ç›´æŽ¥å½±å“到对æœç´¢ç»“果的相关度排åºã€‚ç¬”è€…æœ€è¿‘æ›¿æœ‹å‹æ‰¾ä¸€äº›å…³äºŽæ—¥æœ¬å’Œæœçš„资料,在æœç´¢å¼•擎上输入“和æœâ€ï¼Œå¾—到的结果就å‘现了很多问题。下é¢å°±ä»¥è¿™ä¸ªä¾‹åæ¥è¯´æ˜Žåˆ†è¯å¯¹æœç´¢ç»“果的影å“ï¼Œåœ¨çŽ°æœ‰ä¸‰ä¸ªä¸æ–‡æœç´¢å¼•æ“Žä¸Šåšæµ‹è¯•,测试方法是直接在Google(http://www.google.com/)ã€ç™¾åº¦ï¼ˆhttp://www.baidu.com/)ã€ä¸æœï¼ˆhttp://www.zhongsou.com/)上以“和æœâ€ä¸ºå…³é”®è¯è¿›è¡Œæœç´¢ï¼š
在Google上输入“和æœâ€æœç´¢æ‰€æœ‰ä¸æ–‡ç®€ä½“网页,总共结果507,000æ¡ï¼Œå‰20æ¡ç»“æžœä¸æœ‰14æ¡ä¸Žå’Œæœä¸€ç‚¹å…³ç³»éƒ½æ²¡æœ‰ã€‚在第一页就有以下错误:
â€œé€šä¿¡ä¿¡æ¯æŠ¥ï¼šç‘žæ˜Ÿä»¥æŠ€æœ¯å’ŒæœåŠ¡å¼€æ‹“ç½‘ç»œå®‰å…¨å¸‚åœºâ€
“使用纯HTML的通用数æ®ç®¡ç†å’ŒæœåŠ¡- å¼€å‘者- ZDNet ...â€
“陈慧ç³ã€Šå¿ƒå£ä¸ä¸€ã€‹åŒ–妆和æœè£…自己包办â€
“::外交部:ä¸å›½å¢ƒå¤–é¢†äº‹ä¿æŠ¤å’ŒæœåŠ¡æŒ‡å—(2003年版) ...â€
“产å“å’ŒæœåŠ¡â€
ç‰ç‰ã€‚ç¬¬ä¸€é¡µåªæœ‰ä¸‰ç¯‡æ˜¯çœŸæ£åœ¨è®²â€œå’Œæœâ€çš„结果。
在百度上输入“和æœâ€æœç´¢ç½‘页,总共结果为287,000æ¡ï¼Œå‰20æ¡ç»“æžœä¸æœ‰6æ¡ä¸Žå’Œæœä¸€ç‚¹å…³ç³»éƒ½æ²¡æœ‰ã€‚在第一页有以下错误:
“ç¦å»ºçœæ™‹æ±Ÿå¸‚æ’å’Œæœè£…有é™å…¬å¸ç³»ç‹¬èµ„ä¼ä¸šâ€
“关于商å“å’ŒæœåŠ¡å®žè¡Œæ˜Žç æ ‡ä»·çš„规定â€
“é’岛东和æœè£…设备â€
åœ¨ä¸æœä¸Šè¾“入“和æœâ€æœç´¢ç½‘页,总共结果为26,917æ¡ï¼Œå‰20æ¡ç»“果都是与和æœç›¸å…³çš„网页。
这次æœç´¢å¼•擎结果ä¸çš„错误,就是由于分è¯çš„ä¸å‡†ç¡®æ‰€é€ æˆçš„。通过笔者的了解,Googleçš„ä¸æ–‡åˆ†è¯æŠ€æœ¯é‡‡ç”¨çš„æ˜¯ç¾Žå›½ä¸€å®¶åå«Basis Technology(http://www.basistech.com/ï¼‰çš„å…¬å¸æä¾›çš„ä¸æ–‡åˆ†è¯æŠ€æœ¯ï¼Œç™¾åº¦ä½¿ç”¨çš„æ˜¯è‡ªå·±å…¬å¸å¼€å‘çš„åˆ†è¯æŠ€æœ¯ï¼Œä¸æœä½¿ç”¨çš„æ˜¯å›½å†…æµ·é‡ç§‘技(http://www.hylanda.com/)æä¾›çš„åˆ†è¯æŠ€æœ¯ã€‚ç”±æ¤å¯è§ï¼Œä¸æ–‡åˆ†è¯çš„准确度,对æœç´¢å¼•擎结果相关性和准确性有相当大的关系。
䏿–‡åˆ†è¯æŠ€æœ¯
䏿–‡åˆ†è¯æŠ€æœ¯å±žäºŽè‡ªç„¶è¯è¨€å¤„ç†æŠ€æœ¯èŒƒç•´ï¼Œå¯¹äºŽä¸€å¥è¯ï¼Œäººå¯ä»¥é€šè¿‡è‡ªå·±çš„çŸ¥è¯†æ¥æ˜Žç™½å“ªäº›æ˜¯è¯ï¼Œå“ªäº›ä¸æ˜¯è¯ï¼Œä½†å¦‚何让计算机也能ç†è§£ï¼Ÿå…¶å¤„ç†è¿‡ç¨‹å°±æ˜¯åˆ†è¯ç®—法。
现有的分è¯ç®—法å¯åˆ†ä¸ºä¸‰å¤§ç±»ï¼šåŸºäºŽå—符串匹é…çš„åˆ†è¯æ–¹æ³•ã€åŸºäºŽç†è§£çš„åˆ†è¯æ–¹æ³•å’ŒåŸºäºŽç»Ÿè®¡çš„åˆ†è¯æ–¹æ³•。
1ã€åŸºäºŽå—符串匹é…çš„åˆ†è¯æ–¹æ³•
è¿™ç§æ–¹æ³•åˆå«åšæœºæ¢°åˆ†è¯æ–¹æ³•,它是按照一定的ç–略将待分æžçš„æ±‰å—ä¸²ä¸Žä¸€ä¸ªâ€œå……åˆ†å¤§çš„â€æœºå™¨è¯å…¸ä¸çš„è¯æ¡è¿›è¡Œé…,若在è¯å…¸ä¸æ‰¾åˆ°æŸä¸ªå—ç¬¦ä¸²ï¼Œåˆ™åŒ¹é…æˆåŠŸï¼ˆè¯†åˆ«å‡ºä¸€ä¸ªè¯ï¼‰ã€‚æŒ‰ç…§æ‰«ææ–¹å‘çš„ä¸åŒï¼Œä¸²åŒ¹é…åˆ†è¯æ–¹æ³•å¯ä»¥åˆ†ä¸ºæ£å‘匹é…和逆å‘匹é…;按照ä¸åŒé•¿åº¦ä¼˜å…ˆåŒ¹é…的情况,å¯ä»¥åˆ†ä¸ºæœ€å¤§ï¼ˆæœ€é•¿ï¼‰åŒ¹é…和最å°ï¼ˆæœ€çŸï¼‰åŒ¹é…;按照是å¦ä¸Žè¯æ€§æ ‡æ³¨è¿‡ç¨‹ç›¸ç»“åˆï¼Œåˆå¯ä»¥åˆ†ä¸ºå•çº¯åˆ†è¯æ–¹æ³•和分è¯ä¸Žæ ‡æ³¨ç›¸ç»“åˆçš„ä¸€ä½“åŒ–æ–¹æ³•ã€‚å¸¸ç”¨çš„å‡ ç§æœºæ¢°åˆ†è¯æ–¹æ³•如下:
1)æ£å‘æœ€å¤§åŒ¹é…æ³•(由左到å³çš„æ–¹å‘);
2ï¼‰é€†å‘æœ€å¤§åŒ¹é…法(由å³åˆ°å·¦çš„æ–¹å‘);
3)最少切分(使æ¯ä¸€å¥ä¸åˆ‡å‡ºçš„è¯æ•°æœ€å°ï¼‰ã€‚
还å¯ä»¥å°†ä¸Šè¿°å„ç§æ–¹æ³•相互组åˆï¼Œä¾‹å¦‚,å¯ä»¥å°†æ£å‘æœ€å¤§åŒ¹é…æ–¹æ³•å’Œé€†å‘æœ€å¤§åŒ¹é…方法结åˆèµ·æ¥æž„æˆåŒå‘åŒ¹é…æ³•。由于汉è¯å•å—æˆè¯çš„特点,æ£å‘最å°åŒ¹é…å’Œé€†å‘æœ€å°åŒ¹é…一般很少使用。一般说æ¥ï¼Œé€†å‘匹é…的切分精度略高于æ£å‘匹é…,é‡åˆ°çš„æ§ä¹‰çŽ°è±¡ä¹Ÿè¾ƒå°‘ã€‚ç»Ÿè®¡ç»“æžœè¡¨æ˜Žï¼Œå•纯使用æ£å‘最大匹é…的错误率为1/169,å•çº¯ä½¿ç”¨é€†å‘æœ€å¤§åŒ¹é…的错误率为1/245。但这ç§ç²¾åº¦è¿˜è¿œè¿œä¸èƒ½æ»¡è¶³å®žé™…的需è¦ã€‚实际使用的分è¯ç³»ç»Ÿï¼Œéƒ½æ˜¯æŠŠæœºæ¢°åˆ†è¯ä½œä¸ºä¸€ç§åˆåˆ†æ‰‹æ®µï¼Œè¿˜éœ€é€šè¿‡åˆ©ç”¨å„ç§å…¶å®ƒçš„è¯è¨€ä¿¡æ¯æ¥è¿›ä¸€æ¥æé«˜åˆ‡åˆ†çš„准确率。
ä¸€ç§æ–¹æ³•æ˜¯æ”¹è¿›æ‰«ææ–¹å¼ï¼Œç§°ä¸ºç‰¹å¾æ‰«ææˆ–æ ‡å¿—åˆ‡åˆ†ï¼Œä¼˜å…ˆåœ¨å¾…åˆ†æžå—符串ä¸è¯†åˆ«å’Œåˆ‡åˆ†å‡ºä¸€äº›å¸¦æœ‰æ˜Žæ˜¾ç‰¹å¾çš„è¯ï¼Œä»¥è¿™äº›è¯ä½œä¸ºæ–点,å¯å°†åŽŸå—符串分为较å°çš„䏲冿¥è¿›æœºæ¢°åˆ†è¯ï¼Œä»Žè€Œå‡å°‘匹é…的错误率。å¦ä¸€ç§æ–¹æ³•是将分è¯å’Œè¯ç±»æ ‡æ³¨ç»“åˆèµ·æ¥ï¼Œåˆ©ç”¨ä¸°å¯Œçš„è¯ç±»ä¿¡æ¯å¯¹åˆ†è¯å†³ç–æä¾›å¸®åŠ©ï¼Œå¹¶ä¸”åœ¨æ ‡æ³¨è¿‡ç¨‹ä¸åˆå过æ¥å¯¹åˆ†è¯ç»“果进行检验ã€è°ƒæ•´ï¼Œä»Žè€Œæžå¤§åœ°æé«˜åˆ‡åˆ†çš„准确率。
å¯¹äºŽæœºæ¢°åˆ†è¯æ–¹æ³•,å¯ä»¥å»ºç«‹ä¸€ä¸ªä¸€èˆ¬çš„æ¨¡åž‹ï¼Œåœ¨è¿™æ–¹é¢æœ‰ä¸“ä¸šçš„å¦æœ¯è®ºæ–‡ï¼Œè¿™é‡Œä¸åšè¯¦ç»†è®ºè¿°ã€‚
2ã€åŸºäºŽç†è§£çš„åˆ†è¯æ–¹æ³•
è¿™ç§åˆ†è¯æ–¹æ³•是通过让计算机模拟人对å¥åçš„ç†è§£ï¼Œè¾¾åˆ°è¯†åˆ«è¯çš„æ•ˆæžœã€‚å…¶åŸºæœ¬æ€æƒ³å°±æ˜¯åœ¨åˆ†è¯çš„åŒæ—¶è¿›è¡Œå¥æ³•ã€è¯ä¹‰åˆ†æžï¼Œåˆ©ç”¨å¥æ³•ä¿¡æ¯å’Œè¯ä¹‰ä¿¡æ¯æ¥å¤„ç†æ§ä¹‰çŽ°è±¡ã€‚å®ƒé€šå¸¸åŒ…æ‹¬ä¸‰ä¸ªéƒ¨åˆ†ï¼šåˆ†è¯å系统ã€å¥æ³•è¯ä¹‰åç³»ç»Ÿã€æ€»æŽ§éƒ¨åˆ†ã€‚在总控部分的å调下,分è¯å系统å¯ä»¥èŽ·å¾—æœ‰å…³è¯ã€å¥åç‰çš„奿³•å’Œè¯ä¹‰ä¿¡æ¯æ¥å¯¹åˆ†è¯æ§ä¹‰è¿›è¡Œåˆ¤æ–,å³å®ƒæ¨¡æ‹Ÿäº†äººå¯¹å¥åçš„ç†è§£è¿‡ç¨‹ã€‚è¿™ç§åˆ†è¯æ–¹æ³•需è¦ä½¿ç”¨å¤§é‡çš„è¯è¨€çŸ¥è¯†å’Œä¿¡æ¯ã€‚由于汉è¯è¯è¨€çŸ¥è¯†çš„笼统ã€å¤æ‚性,难以将å„ç§è¯è¨€ä¿¡æ¯ç»„ç»‡æˆæœºå™¨å¯ç›´æŽ¥è¯»å–的形å¼ï¼Œå› æ¤ç›®å‰åŸºäºŽç†è§£çš„分è¯ç³»ç»Ÿè¿˜å¤„在试验阶段。
3ã€åŸºäºŽç»Ÿè®¡çš„åˆ†è¯æ–¹æ³•
从形å¼ä¸Šçœ‹ï¼Œè¯æ˜¯ç¨³å®šçš„å—的组åˆï¼Œå› æ¤åœ¨ä¸Šä¸‹æ–‡ä¸ï¼Œç›¸é‚»çš„å—åŒæ—¶å‡ºçŽ°çš„æ¬¡æ•°è¶Šå¤šï¼Œå°±è¶Šæœ‰å¯èƒ½æž„æˆä¸€ä¸ªè¯ã€‚å› æ¤å—与å—ç›¸é‚»å…±çŽ°çš„é¢‘çŽ‡æˆ–æ¦‚çŽ‡èƒ½å¤Ÿè¾ƒå¥½çš„åæ˜ æˆè¯çš„å¯ä¿¡åº¦ã€‚å¯ä»¥å¯¹è¯æ–™ä¸ç›¸é‚»å…±çŽ°çš„å„个å—的组åˆçš„频度进行统计,计算它们的互现信æ¯ã€‚定义两个å—的互现信æ¯ï¼Œè®¡ç®—两个汉å—Xã€Y的相邻共现概率。互现信æ¯ä½“现了汉å—之间结åˆå…³ç³»çš„紧密程度。当紧密程度高于æŸä¸€ä¸ªé˜ˆå€¼æ—¶ï¼Œä¾¿å¯è®¤ä¸ºæ¤å—组å¯èƒ½æž„æˆäº†ä¸€ä¸ªè¯ã€‚è¿™ç§æ–¹æ³•åªéœ€å¯¹è¯æ–™ä¸çš„å—组频度进行统计,ä¸éœ€è¦åˆ‡åˆ†è¯å…¸ï¼Œå› 而åˆå«åšæ— è¯å…¸åˆ†è¯æ³•或统计å–è¯æ–¹æ³•ã€‚ä½†è¿™ç§æ–¹æ³•ä¹Ÿæœ‰ä¸€å®šçš„å±€é™æ€§ï¼Œä¼šç»å¸¸æŠ½å‡ºä¸€äº›å…±çŽ°é¢‘åº¦é«˜ã€ä½†å¹¶ä¸æ˜¯è¯çš„常用å—组,例如“这一â€ã€â€œä¹‹ä¸€â€ã€â€œæœ‰çš„â€ã€â€œæˆ‘çš„â€ã€â€œè®¸å¤šçš„â€ç‰ï¼Œå¹¶ä¸”对常用è¯çš„识别精度差,时空开销大。实际应用的统计分è¯ç³»ç»Ÿéƒ½è¦ä½¿ç”¨ä¸€éƒ¨åŸºæœ¬çš„分è¯è¯å…¸ï¼ˆå¸¸ç”¨è¯è¯å…¸ï¼‰è¿›è¡Œä¸²åŒ¹é…分è¯ï¼ŒåŒæ—¶ä½¿ç”¨ç»Ÿè®¡æ–¹æ³•识别一些新的è¯ï¼Œå³å°†ä¸²é¢‘统计和串匹é…结åˆèµ·æ¥ï¼Œæ—¢å‘挥匹é…分è¯åˆ‡åˆ†é€Ÿåº¦å¿«ã€æ•ˆçŽ‡é«˜çš„ç‰¹ç‚¹ï¼Œåˆåˆ©ç”¨äº†æ— è¯å…¸åˆ†è¯ç»“åˆä¸Šä¸‹æ–‡è¯†åˆ«ç”Ÿè¯ã€è‡ªåŠ¨æ¶ˆé™¤æ§ä¹‰çš„优点。
到底哪ç§åˆ†è¯ç®—法的准确度更高,目å‰å¹¶æ— 定论。对于任何一个æˆç†Ÿçš„分è¯ç³»ç»Ÿæ¥è¯´ï¼Œä¸å¯èƒ½å•独ä¾é æŸä¸€ç§ç®—法æ¥å®žçŽ°ï¼Œéƒ½éœ€è¦ç»¼åˆä¸åŒçš„算法。笔者了解,海é‡ç§‘技的分è¯ç®—æ³•å°±é‡‡ç”¨â€œå¤æ–¹åˆ†è¯æ³•â€ï¼Œæ‰€è°“夿–¹ï¼Œç›¸å½“于用ä¸è¯ä¸çš„夿–¹æ¦‚念,å³ç”¨ä¸åŒçš„è¯æ‰ç»¼åˆèµ·æ¥åŽ»åŒ»æ²»ç–¾ç—…ï¼ŒåŒæ ·ï¼Œå¯¹äºŽä¸æ–‡è¯çš„识别,需è¦å¤šç§ç®—法æ¥å¤„ç†ä¸åŒçš„问题。
分è¯ä¸çš„难题
有了æˆç†Ÿçš„分è¯ç®—法,是å¦å°±èƒ½å®¹æ˜“çš„è§£å†³ä¸æ–‡åˆ†è¯çš„问题呢?事实远éžå¦‚æ¤ã€‚䏿–‡æ˜¯ä¸€ç§ååˆ†å¤æ‚çš„è¯è¨€ï¼Œè®©è®¡ç®—机ç†è§£ä¸æ–‡è¯è¨€æ›´æ˜¯å›°éš¾ã€‚åœ¨ä¸æ–‡åˆ†è¯è¿‡ç¨‹ä¸ï¼Œæœ‰ä¸¤å¤§éš¾é¢˜ä¸€ç›´æ²¡æœ‰å®Œå…¨çªç ´ã€‚
1ã€æ§ä¹‰è¯†åˆ«
æ§ä¹‰æ˜¯æŒ‡åŒæ ·çš„一å¥è¯ï¼Œå¯èƒ½æœ‰ä¸¤ç§æˆ–者更多的切分方法。例如:表é¢çš„ï¼Œå› ä¸ºâ€œè¡¨é¢â€å’Œâ€œé¢çš„â€éƒ½æ˜¯è¯ï¼Œé‚£ä¹ˆè¿™ä¸ªçŸè¯å°±å¯ä»¥åˆ†æˆâ€œè¡¨é¢ çš„â€å’Œâ€œè¡¨ é¢çš„â€ã€‚è¿™ç§ç§°ä¸ºäº¤å‰æ§ä¹‰ã€‚åƒè¿™ç§äº¤å‰æ§ä¹‰å分常è§ï¼Œå‰é¢ä¸¾çš„“和æœâ€çš„例åï¼Œå…¶å®žå°±æ˜¯å› ä¸ºäº¤å‰æ§ä¹‰å¼•起的错误。“化妆和æœè£…â€å¯ä»¥åˆ†æˆâ€œåŒ–妆 å’Œ æœè£…â€æˆ–者“化妆 å’Œæœ è£…â€ã€‚由于没有人的知识去ç†è§£ï¼Œè®¡ç®—机很难知é“到底哪个方案æ£ç¡®ã€‚
äº¤å‰æ§ä¹‰ç›¸å¯¹ç»„åˆæ§ä¹‰æ¥è¯´æ˜¯è¿˜ç®—比较容易处ç†ï¼Œç»„åˆæ§ä¹‰å°±å¿…éœ€æ ¹æ®æ•´ä¸ªå¥åæ¥åˆ¤æ–了。例如,在å¥å“这个门把手å了â€ä¸ï¼Œâ€œæŠŠæ‰‹â€æ˜¯ä¸ªè¯ï¼Œä½†åœ¨å¥å“请把手拿开â€ä¸ï¼Œâ€œæŠŠæ‰‹â€å°±ä¸æ˜¯ä¸€ä¸ªè¯ï¼›åœ¨å¥å“将军任命了一åä¸å°†â€ä¸ï¼Œâ€œä¸å°†â€æ˜¯ä¸ªè¯ï¼Œä½†åœ¨å¥å“产é‡ä¸‰å¹´ä¸å°†å¢žé•¿ä¸¤å€â€ä¸ï¼Œâ€œä¸å°†â€å°±ä¸å†æ˜¯è¯ã€‚这些è¯è®¡ç®—机åˆå¦‚何去识别?
å¦‚æžœäº¤å‰æ§ä¹‰å’Œç»„åˆæ§ä¹‰è®¡ç®—机都能解决的è¯ï¼Œåœ¨æ§ä¹‰ä¸è¿˜æœ‰ä¸€ä¸ªéš¾é¢˜ï¼Œæ˜¯çœŸæ§ä¹‰ã€‚真æ§ä¹‰æ„æ€æ˜¯ç»™å‡ºä¸€å¥è¯ï¼Œç”±äººåŽ»åˆ¤æ–也ä¸çŸ¥é“哪个应该是è¯ï¼Œå“ªä¸ªåº”è¯¥ä¸æ˜¯è¯ã€‚ä¾‹å¦‚ï¼šâ€œä¹’ä¹“çƒæ‹å–完了â€ï¼Œå¯ä»¥åˆ‡åˆ†æˆâ€œä¹’乓 çƒæ‹ å– å®Œ 了â€ã€ä¹Ÿå¯åˆ‡åˆ†æˆâ€œä¹’ä¹“çƒ æ‹å– 完 了â€ï¼Œå¦‚果没有上下文其他的å¥åï¼Œææ€•è°ä¹Ÿä¸çŸ¥é““æ‹å–â€åœ¨è¿™é‡Œç®—ä¸ç®—一个è¯ã€‚
2ã€æ–°è¯è¯†åˆ«
æ–°è¯ï¼Œä¸“业术è¯ç§°ä¸ºæœªç™»å½•è¯ã€‚也就是那些在å—å…¸ä¸éƒ½æ²¡æœ‰æ”¶å½•过,但åˆç¡®å®žèƒ½ç§°ä¸ºè¯çš„那些è¯ã€‚最典型的是人å,人å¯ä»¥å¾ˆå®¹æ˜“ç†è§£å¥å“王军虎去广州了â€ä¸ï¼Œâ€œçŽ‹å†›è™Žâ€æ˜¯ä¸ªè¯ï¼Œå› 为是一个人的åå—ï¼Œä½†è¦æ˜¯è®©è®¡ç®—机去识别就困难了。如果把“王军虎â€åšä¸ºä¸€ä¸ªè¯æ”¶å½•到å—å…¸ä¸åŽ»ï¼Œå…¨ä¸–ç•Œæœ‰é‚£ä¹ˆå¤šåå—ï¼Œè€Œä¸”æ¯æ—¶æ¯åˆ»éƒ½æœ‰æ–°å¢žçš„人åï¼Œæ”¶å½•è¿™äº›äººåæœ¬èº«å°±æ˜¯ä¸€é¡¹å·¨å¤§çš„工程。å³ä½¿è¿™é¡¹å·¥ä½œå¯ä»¥å®Œæˆï¼Œè¿˜æ˜¯ä¼šå˜åœ¨é—®é¢˜ï¼Œä¾‹å¦‚:在å¥å“王军虎头虎脑的â€ä¸ï¼Œâ€œçŽ‹å†›è™Žâ€è¿˜èƒ½ä¸èƒ½ç®—è¯ï¼Ÿ
æ–°è¯ä¸é™¤äº†äººå以外,还有机构åã€åœ°åã€äº§å“åã€å•†æ ‡åã€ç®€ç§°ã€çœç•¥è¯ç‰éƒ½æ˜¯å¾ˆéš¾å¤„ç†çš„é—®é¢˜ï¼Œè€Œä¸”è¿™äº›åˆæ£å¥½æ˜¯äººä»¬ç»å¸¸ä½¿ç”¨çš„è¯ï¼Œå› æ¤å¯¹äºŽæœç´¢å¼•擎æ¥è¯´ï¼Œåˆ†è¯ç³»ç»Ÿä¸çš„æ–°è¯è¯†åˆ«å分é‡è¦ã€‚ç›®å‰æ–°è¯è¯†åˆ«å‡†ç¡®çŽ‡å·²ç»æˆä¸ºè¯„价一个分è¯ç³»ç»Ÿå¥½åçš„é‡è¦æ ‡å¿—之一。
䏿–‡åˆ†è¯çš„应用
ç›®å‰åœ¨è‡ªç„¶è¯è¨€å¤„ç†æŠ€æœ¯ä¸ï¼Œä¸æ–‡å¤„ç†æŠ€æœ¯æ¯”è¥¿æ–‡å¤„ç†æŠ€æœ¯è¦è½åŽå¾ˆå¤§ä¸€æ®µè·ç¦»ï¼Œè®¸å¤šè¥¿æ–‡çš„å¤„ç†æ–¹æ³•䏿–‡ä¸èƒ½ç›´æŽ¥é‡‡ç”¨ï¼Œå°±æ˜¯å› ä¸ºä¸æ–‡å¿…需有分è¯è¿™é“å·¥åºã€‚䏿–‡åˆ†è¯æ˜¯å…¶ä»–䏿–‡ä¿¡æ¯å¤„ç†çš„基础,æœç´¢å¼•æ“Žåªæ˜¯ä¸æ–‡åˆ†è¯çš„一个应用。其他的比如机器翻译(MT)ã€è¯éŸ³åˆæˆã€è‡ªåŠ¨åˆ†ç±»ã€è‡ªåŠ¨æ‘˜è¦ã€è‡ªåŠ¨æ ¡å¯¹ç‰ç‰ï¼Œéƒ½éœ€è¦ç”¨åˆ°åˆ†è¯ã€‚å› ä¸ºä¸æ–‡éœ€è¦åˆ†è¯ï¼Œå¯èƒ½ä¼šå½±å“ä¸€äº›ç ”ç©¶ï¼Œä½†åŒæ—¶ä¹Ÿä¸ºä¸€äº›ä¼ä¸šå¸¦æ¥æœºä¼šï¼Œå› ä¸ºå›½å¤–çš„è®¡ç®—æœºå¤„ç†æŠ€æœ¯è¦æƒ³è¿›å…¥ä¸å›½å¸‚场,首先也是è¦è§£å†³ä¸æ–‡åˆ†è¯é—®é¢˜ã€‚åœ¨ä¸æ–‡ç ”ç©¶æ–¹é¢ï¼Œç›¸æ¯”外国人æ¥è¯´ï¼Œä¸å›½äººæœ‰å分明显的优势。
分è¯å‡†ç¡®æ€§å¯¹æœç´¢å¼•擎æ¥è¯´å分é‡è¦ï¼Œä½†å¦‚果分è¯é€Ÿåº¦å¤ªæ…¢ï¼Œå³ä½¿å‡†ç¡®æ€§å†é«˜ï¼Œå¯¹äºŽæœç´¢å¼•擎æ¥è¯´ä¹Ÿæ˜¯ä¸å¯ç”¨çš„ï¼Œå› ä¸ºæœç´¢å¼•擎需è¦å¤„ç†æ•°ä»¥äº¿è®¡çš„网页,如果分è¯è€—用的时间过长,会严é‡å½±å“æœç´¢å¼•æ“Žå†…å®¹æ›´æ–°çš„é€Ÿåº¦ã€‚å› æ¤å¯¹äºŽæœç´¢å¼•擎æ¥è¯´ï¼Œåˆ†è¯çš„准确性和速度,二者都需è¦è¾¾åˆ°å¾ˆé«˜çš„è¦æ±‚。目å‰ç ”ç©¶ä¸æ–‡åˆ†è¯çš„å¤§å¤šæ˜¯ç§‘ç ”é™¢æ ¡ï¼Œæ¸…åŽã€åŒ—大ã€ä¸ç§‘院ã€åŒ—京è¯è¨€å¦é™¢ã€ä¸œåŒ—大å¦ã€IBMç ”ç©¶é™¢ã€å¾®è½¯ä¸å›½ç ”究院ç‰éƒ½æœ‰è‡ªå·±çš„ç ”ç©¶é˜Ÿä¼ï¼Œè€ŒçœŸæ£ä¸“ä¸šç ”ç©¶ä¸æ–‡åˆ†è¯çš„商业公å¸é™¤äº†æµ·é‡ç§‘æŠ€ä»¥å¤–ï¼Œå‡ ä¹Žæ²¡æœ‰äº†ã€‚ç§‘ç ”é™¢æ ¡ç ”ç©¶çš„æŠ€æœ¯ï¼Œå¤§éƒ¨åˆ†ä¸èƒ½å¾ˆå¿«äº§å“化,而一个专业公å¸çš„åŠ›é‡æ¯•竟有é™ï¼Œçœ‹æ¥ä¸æ–‡åˆ†è¯æŠ€æœ¯è¦æƒ³æ›´å¥½çš„æœåŠ¡äºŽæ›´å¤šçš„äº§å“,还有很长一段路。
相关日志
Dedecms编辑器CKeditoræ›´æ¢ä¸ºç™¾åº¦UEditor的方法
è°·æŒç©¿è¶Šæœç´¢-è°·æŒå®˜æ–¹æ„šäººèŠ‚çŽ©ç¬‘
Google将在æœç´¢ç»“果排å算法ä¸è€ƒè™‘æ¥è‡ªTwitterã€Quoraç‰ç¤¾ä¼šåŒ–网络社区的内容
从12月百度算法å˜åŒ–预测2011å¹´SEOæ–¹å‘
百度上线图片竞价排å å›¾ç‰‡æ˜¾ç¤ºæŽ¨å¹¿å—æ ·(图)
桥页SEO:网站自我æ¯ç工具
《Google官方SEO入门指å—》å四: 对网站管ç†å‘˜æœ‰ç”¨çš„资æº(完)
《Google官方SEO入门指å—》å三:充分利用网站分æžå·¥å…·
《Google官方SEO入门指å—》å二:充分利用å…费的网站管ç†å‘˜å·¥å…·
《Google官方SEO入门指å—》å一:以æ°å½“çš„æ–¹å¼æŽ¨å¹¿ä½ çš„ç½‘ç«™
Dedecms编辑器CKeditoræ›´æ¢ä¸ºç™¾åº¦UEditor的方法
è°·æŒç©¿è¶Šæœç´¢-è°·æŒå®˜æ–¹æ„šäººèŠ‚çŽ©ç¬‘
Google将在æœç´¢ç»“果排å算法ä¸è€ƒè™‘æ¥è‡ªTwitterã€Quoraç‰ç¤¾ä¼šåŒ–网络社区的内容
从12月百度算法å˜åŒ–预测2011å¹´SEOæ–¹å‘
百度上线图片竞价排å å›¾ç‰‡æ˜¾ç¤ºæŽ¨å¹¿å—æ ·(图)
桥页SEO:网站自我æ¯ç工具
《Google官方SEO入门指å—》å四: 对网站管ç†å‘˜æœ‰ç”¨çš„资æº(完)
《Google官方SEO入门指å—》å三:充分利用网站分æžå·¥å…·
《Google官方SEO入门指å—》å二:充分利用å…费的网站管ç†å‘˜å·¥å…·
《Google官方SEO入门指å—》å一:以æ°å½“çš„æ–¹å¼æŽ¨å¹¿ä½ çš„ç½‘ç«™
最后编辑: 郝聪 编辑于2006/09/04 02:54