ä¸æ–‡æœç´¢å¼•æ“ŽæŠ€æœ¯æ密:ä¸æ–‡åˆ†è¯
ä¿¡æ¯çš„飞速增长,使æœç´¢å¼•æ“Žæˆä¸ºäººä»¬æŸ¥æ‰¾ä¿¡æ¯çš„首选工具,Googleã€ç™¾åº¦ã€ä¸å›½æœç´¢ç‰å¤§åž‹æœç´¢å¼•æ“Žä¸€ç›´æ˜¯äººä»¬è®¨è®ºçš„è¯é¢˜ã€‚éšç€æœç´¢å¸‚场价值的ä¸æ–å¢žåŠ ï¼Œè¶Šæ¥è¶Šå¤šçš„å…¬å¸å¼€å‘出自己的æœç´¢å¼•æ“Žï¼Œé˜¿é‡Œå·´å·´çš„商机æœç´¢ã€8848çš„è´ç‰©æœç´¢ç‰ä¹Ÿé™†ç»é¢ä¸–,自然,æœç´¢å¼•æ“ŽæŠ€æœ¯ä¹Ÿæˆä¸ºæŠ€æœ¯äººå‘˜å…³æ³¨çš„çƒç‚¹ã€‚
æœç´¢å¼•æ“ŽæŠ€æœ¯çš„ç ”ç©¶ï¼Œå›½å¤–æ¯”ä¸å›½è¦æ—©è¿‘å年,从最早的Archie,到åŽæ¥çš„Excite,以åŠaltvistaã€overtureã€googleç‰æœç´¢å¼•æ“Žé¢ä¸–,æœç´¢å¼•æ“Žå‘展至今,已ç»æœ‰åå‡ å¹´çš„åŽ†å²ï¼Œè€Œå›½å†…å¼€å§‹ç ”ç©¶æœç´¢å¼•æ“Žæ˜¯åœ¨ä¸Šä¸–纪末本世纪åˆã€‚在许多领域,都是国外的产å“和技术一统天下,特别是当æŸç§æŠ€æœ¯åœ¨å›½å¤–ç ”ç©¶å¤šå¹´è€Œå›½å†…æ‰å¼€å§‹çš„情况下。例如æ“作系统ã€å—处ç†è½¯ä»¶ã€æµè§ˆå™¨ç‰ç‰ï¼Œä½†æœç´¢å¼•æ“Žå´æ˜¯ä¸ªä¾‹å¤–。虽然在国外æœç´¢å¼•æ“ŽæŠ€æœ¯æ—©å°±å¼€å§‹ç ”究,但在国内还是陆ç»æ¶ŒçŽ°å‡ºä¼˜ç§€çš„æœç´¢å¼•æ“Žï¼Œåƒç™¾åº¦ï¼ˆhttp://www.baidu.com/)ã€ä¸æœï¼ˆhttp://www.zhongsou.com/)ç‰ã€‚ç›®å‰åœ¨ä¸æ–‡æœç´¢å¼•æ“Žé¢†åŸŸï¼Œå›½å†…çš„æœç´¢å¼•æ“Žå·²ç»å’Œå›½å¤–çš„æœç´¢å¼•æ“Žæ•ˆæžœä¸Šç›¸å·®ä¸è¿œã€‚之所以能形æˆè¿™æ ·çš„å±€é¢ï¼Œæœ‰ä¸€ä¸ªé‡è¦çš„åŽŸå› å°±åœ¨äºŽä¸æ–‡å’Œè‹±æ–‡ä¸¤ç§è¯è¨€è‡ªèº«çš„书写方å¼ä¸åŒï¼Œè¿™å…¶ä¸å¯¹äºŽè®¡ç®—机涉åŠçš„技术就是ä¸æ–‡åˆ†è¯ã€‚
什么是ä¸æ–‡åˆ†è¯
众所周知,英文是以è¯ä¸ºå•ä½çš„,è¯å’Œè¯ä¹‹é—´æ˜¯é ç©ºæ ¼éš”å¼€ï¼Œè€Œä¸æ–‡æ˜¯ä»¥å—为å•ä½ï¼Œå¥åä¸æ‰€æœ‰çš„å—è¿žèµ·æ¥æ‰èƒ½æ述一个æ„æ€ã€‚例如,英文å¥åI am a student,用ä¸æ–‡åˆ™ä¸ºï¼šâ€œæˆ‘是一个å¦ç”Ÿâ€ã€‚计算机å¯ä»¥å¾ˆç®€å•é€šè¿‡ç©ºæ ¼çŸ¥é“student是一个å•è¯ï¼Œä½†æ˜¯ä¸èƒ½å¾ˆå®¹æ˜“明白“å¦â€ã€â€œç”Ÿâ€ä¸¤ä¸ªå—åˆèµ·æ¥æ‰è¡¨ç¤ºä¸€ä¸ªè¯ã€‚把ä¸æ–‡çš„汉å—åºåˆ—切分æˆæœ‰æ„义的è¯ï¼Œå°±æ˜¯ä¸æ–‡åˆ†è¯ï¼Œæœ‰äº›äººä¹Ÿç§°ä¸ºåˆ‡è¯ã€‚我是一个å¦ç”Ÿï¼Œåˆ†è¯çš„结果是:我 是 一个 å¦ç”Ÿã€‚
ä¸æ–‡åˆ†è¯å’Œæœç´¢å¼•æ“Ž
ä¸æ–‡åˆ†è¯åˆ°åº•å¯¹æœç´¢å¼•æ“Žæœ‰å¤šå¤§å½±å“?对于æœç´¢å¼•æ“Žæ¥è¯´ï¼Œæœ€é‡è¦çš„并ä¸æ˜¯æ‰¾åˆ°æ‰€æœ‰ç»“æžœï¼Œå› ä¸ºåœ¨ä¸Šç™¾äº¿çš„ç½‘é¡µä¸æ‰¾åˆ°æ‰€æœ‰ç»“果没有太多的æ„义,没有人能看得完,最é‡è¦çš„是把最相关的结果排在最å‰é¢ï¼Œè¿™ä¹Ÿç§°ä¸ºç›¸å…³åº¦æŽ’åºã€‚ä¸æ–‡åˆ†è¯çš„准确与å¦ï¼Œå¸¸å¸¸ç›´æŽ¥å½±å“到对æœç´¢ç»“果的相关度排åºã€‚笔者最近替朋å‹æ‰¾ä¸€äº›å…³äºŽæ—¥æœ¬å’Œæœçš„资料,在æœç´¢å¼•æ“Žä¸Šè¾“入“和æœâ€ï¼Œå¾—到的结果就å‘现了很多问题。下é¢å°±ä»¥è¿™ä¸ªä¾‹åæ¥è¯´æ˜Žåˆ†è¯å¯¹æœç´¢ç»“果的影å“,在现有三个ä¸æ–‡æœç´¢å¼•æ“Žä¸Šåšæµ‹è¯•ï¼Œæµ‹è¯•æ–¹æ³•æ˜¯ç›´æŽ¥åœ¨Google(http://www.google.com/)ã€ç™¾åº¦ï¼ˆhttp://www.baidu.com/)ã€ä¸æœï¼ˆhttp://www.zhongsou.com/)上以“和æœâ€ä¸ºå…³é”®è¯è¿›è¡Œæœç´¢ï¼š
在Google上输入“和æœâ€æœç´¢æ‰€æœ‰ä¸æ–‡ç®€ä½“网页,总共结果507,000æ¡ï¼Œå‰20æ¡ç»“æžœä¸æœ‰14æ¡ä¸Žå’Œæœä¸€ç‚¹å…³ç³»éƒ½æ²¡æœ‰ã€‚在第一页就有以下错误:
“通信信æ¯æŠ¥ï¼šç‘žæ˜Ÿä»¥æŠ€æœ¯å’ŒæœåŠ¡å¼€æ‹“网络安全市场â€
“使用纯HTML的通用数æ®ç®¡ç†å’ŒæœåŠ¡- å¼€å‘者- ZDNet ...â€
“陈慧ç³ã€Šå¿ƒå£ä¸ä¸€ã€‹åŒ–妆和æœè£…自己包办â€
“::外交部:ä¸å›½å¢ƒå¤–领事ä¿æŠ¤å’ŒæœåŠ¡æŒ‡å—(2003年版) ...â€
“产å“å’ŒæœåŠ¡â€
ç‰ç‰ã€‚第一页åªæœ‰ä¸‰ç¯‡æ˜¯çœŸæ£åœ¨è®²â€œå’Œæœâ€çš„结果。
在百度上输入“和æœâ€æœç´¢ç½‘页,总共结果为287,000æ¡ï¼Œå‰20æ¡ç»“æžœä¸æœ‰6æ¡ä¸Žå’Œæœä¸€ç‚¹å…³ç³»éƒ½æ²¡æœ‰ã€‚在第一页有以下错误:
“ç¦å»ºçœæ™‹æ±Ÿå¸‚æ’å’Œæœè£…有é™å…¬å¸ç³»ç‹¬èµ„ä¼ä¸šâ€
“关于商å“å’ŒæœåŠ¡å®žè¡Œæ˜Žç æ ‡ä»·çš„è§„å®šâ€
“é’岛东和æœè£…设备â€
在ä¸æœä¸Šè¾“入“和æœâ€æœç´¢ç½‘页,总共结果为26,917æ¡ï¼Œå‰20æ¡ç»“果都是与和æœç›¸å…³çš„网页。
这次æœç´¢å¼•æ“Žç»“æžœä¸çš„错误,就是由于分è¯çš„ä¸å‡†ç¡®æ‰€é€ æˆçš„。通过笔者的了解,Googleçš„ä¸æ–‡åˆ†è¯æŠ€æœ¯é‡‡ç”¨çš„是美国一家åå«Basis Technology(http://www.basistech.com/)的公å¸æ供的ä¸æ–‡åˆ†è¯æŠ€æœ¯ï¼Œç™¾åº¦ä½¿ç”¨çš„是自己公å¸å¼€å‘的分è¯æŠ€æœ¯ï¼Œä¸æœä½¿ç”¨çš„是国内海é‡ç§‘技(http://www.hylanda.com/)æ供的分è¯æŠ€æœ¯ã€‚ç”±æ¤å¯è§ï¼Œä¸æ–‡åˆ†è¯çš„准确度,对æœç´¢å¼•æ“Žç»“果相关性和准确性有相当大的关系。
ä¸æ–‡åˆ†è¯æŠ€æœ¯
ä¸æ–‡åˆ†è¯æŠ€æœ¯å±žäºŽè‡ªç„¶è¯è¨€å¤„ç†æŠ€æœ¯èŒƒç•´ï¼Œå¯¹äºŽä¸€å¥è¯ï¼Œäººå¯ä»¥é€šè¿‡è‡ªå·±çš„知识æ¥æ˜Žç™½å“ªäº›æ˜¯è¯ï¼Œå“ªäº›ä¸æ˜¯è¯ï¼Œä½†å¦‚何让计算机也能ç†è§£ï¼Ÿå…¶å¤„ç†è¿‡ç¨‹å°±æ˜¯åˆ†è¯ç®—法。
现有的分è¯ç®—法å¯åˆ†ä¸ºä¸‰å¤§ç±»ï¼šåŸºäºŽå—符串匹é…的分è¯æ–¹æ³•ã€åŸºäºŽç†è§£çš„分è¯æ–¹æ³•å’ŒåŸºäºŽç»Ÿè®¡çš„分è¯æ–¹æ³•ã€‚
1ã€åŸºäºŽå—符串匹é…的分è¯æ–¹æ³•
è¿™ç§æ–¹æ³•åˆå«åšæœºæ¢°åˆ†è¯æ–¹æ³•ï¼Œå®ƒæ˜¯æŒ‰ç…§ä¸€å®šçš„ç–略将待分æžçš„汉å—串与一个“充分大的â€æœºå™¨è¯å…¸ä¸çš„è¯æ¡è¿›è¡Œé…,若在è¯å…¸ä¸æ‰¾åˆ°æŸä¸ªå—符串,则匹é…æˆåŠŸï¼ˆè¯†åˆ«å‡ºä¸€ä¸ªè¯ï¼‰ã€‚按照扫ææ–¹å‘çš„ä¸åŒï¼Œä¸²åŒ¹é…分è¯æ–¹æ³•å¯ä»¥åˆ†ä¸ºæ£å‘匹é…和逆å‘匹é…;按照ä¸åŒé•¿åº¦ä¼˜å…ˆåŒ¹é…的情况,å¯ä»¥åˆ†ä¸ºæœ€å¤§ï¼ˆæœ€é•¿ï¼‰åŒ¹é…和最å°ï¼ˆæœ€çŸï¼‰åŒ¹é…;按照是å¦ä¸Žè¯æ€§æ ‡æ³¨è¿‡ç¨‹ç›¸ç»“åˆï¼Œåˆå¯ä»¥åˆ†ä¸ºå•çº¯åˆ†è¯æ–¹æ³•å’Œåˆ†è¯ä¸Žæ ‡æ³¨ç›¸ç»“åˆçš„ä¸€ä½“åŒ–æ–¹æ³•ã€‚å¸¸ç”¨çš„å‡ ç§æœºæ¢°åˆ†è¯æ–¹æ³•å¦‚下:
1)æ£å‘最大匹é…法(由左到å³çš„æ–¹å‘);
2)逆å‘最大匹é…法(由å³åˆ°å·¦çš„æ–¹å‘);
3)最少切分(使æ¯ä¸€å¥ä¸åˆ‡å‡ºçš„è¯æ•°æœ€å°ï¼‰ã€‚
还å¯ä»¥å°†ä¸Šè¿°å„ç§æ–¹æ³•ç›¸äº’组åˆï¼Œä¾‹å¦‚,å¯ä»¥å°†æ£å‘最大匹é…方法和逆å‘最大匹é…方法结åˆèµ·æ¥æž„æˆåŒå‘匹é…法。由于汉è¯å•å—æˆè¯çš„特点,æ£å‘最å°åŒ¹é…和逆å‘最å°åŒ¹é…一般很少使用。一般说æ¥ï¼Œé€†å‘匹é…的切分精度略高于æ£å‘匹é…,é‡åˆ°çš„æ§ä¹‰çŽ°è±¡ä¹Ÿè¾ƒå°‘。统计结果表明,å•çº¯ä½¿ç”¨æ£å‘最大匹é…的错误率为1/169,å•çº¯ä½¿ç”¨é€†å‘最大匹é…的错误率为1/245。但这ç§ç²¾åº¦è¿˜è¿œè¿œä¸èƒ½æ»¡è¶³å®žé™…的需è¦ã€‚实际使用的分è¯ç³»ç»Ÿï¼Œéƒ½æ˜¯æŠŠæœºæ¢°åˆ†è¯ä½œä¸ºä¸€ç§åˆåˆ†æ‰‹æ®µï¼Œè¿˜éœ€é€šè¿‡åˆ©ç”¨å„ç§å…¶å®ƒçš„è¯è¨€ä¿¡æ¯æ¥è¿›ä¸€æ¥æ高切分的准确率。
一ç§æ–¹æ³•æ˜¯æ”¹è¿›æ‰«ææ–¹å¼ï¼Œç§°ä¸ºç‰¹å¾æ‰«ææˆ–æ ‡å¿—åˆ‡åˆ†ï¼Œä¼˜å…ˆåœ¨å¾…åˆ†æžå—符串ä¸è¯†åˆ«å’Œåˆ‡åˆ†å‡ºä¸€äº›å¸¦æœ‰æ˜Žæ˜¾ç‰¹å¾çš„è¯ï¼Œä»¥è¿™äº›è¯ä½œä¸ºæ–点,å¯å°†åŽŸå—符串分为较å°çš„串å†æ¥è¿›æœºæ¢°åˆ†è¯ï¼Œä»Žè€Œå‡å°‘匹é…的错误率。å¦ä¸€ç§æ–¹æ³•æ˜¯å°†åˆ†è¯å’Œè¯ç±»æ ‡æ³¨ç»“åˆèµ·æ¥ï¼Œåˆ©ç”¨ä¸°å¯Œçš„è¯ç±»ä¿¡æ¯å¯¹åˆ†è¯å†³ç–æä¾›å¸®åŠ©ï¼Œå¹¶ä¸”åœ¨æ ‡æ³¨è¿‡ç¨‹ä¸åˆå过æ¥å¯¹åˆ†è¯ç»“果进行检验ã€è°ƒæ•´ï¼Œä»Žè€Œæžå¤§åœ°æ高切分的准确率。
对于机械分è¯æ–¹æ³•ï¼Œå¯ä»¥å»ºç«‹ä¸€ä¸ªä¸€èˆ¬çš„模型,在这方é¢æœ‰ä¸“业的å¦æœ¯è®ºæ–‡ï¼Œè¿™é‡Œä¸åšè¯¦ç»†è®ºè¿°ã€‚
2ã€åŸºäºŽç†è§£çš„分è¯æ–¹æ³•
è¿™ç§åˆ†è¯æ–¹æ³•æ˜¯é€šè¿‡è®©è®¡ç®—机模拟人对å¥åçš„ç†è§£ï¼Œè¾¾åˆ°è¯†åˆ«è¯çš„效果。其基本æ€æƒ³å°±æ˜¯åœ¨åˆ†è¯çš„åŒæ—¶è¿›è¡Œå¥æ³•ã€è¯ä¹‰åˆ†æžï¼Œåˆ©ç”¨å¥æ³•ä¿¡æ¯å’Œè¯ä¹‰ä¿¡æ¯æ¥å¤„ç†æ§ä¹‰çŽ°è±¡ã€‚它通常包括三个部分:分è¯å系统ã€å¥æ³•è¯ä¹‰å系统ã€æ€»æŽ§éƒ¨åˆ†ã€‚在总控部分的å调下,分è¯å系统å¯ä»¥èŽ·å¾—有关è¯ã€å¥åç‰çš„å¥æ³•å’Œè¯ä¹‰ä¿¡æ¯æ¥å¯¹åˆ†è¯æ§ä¹‰è¿›è¡Œåˆ¤æ–,å³å®ƒæ¨¡æ‹Ÿäº†äººå¯¹å¥åçš„ç†è§£è¿‡ç¨‹ã€‚è¿™ç§åˆ†è¯æ–¹æ³•éœ€è¦ä½¿ç”¨å¤§é‡çš„è¯è¨€çŸ¥è¯†å’Œä¿¡æ¯ã€‚由于汉è¯è¯è¨€çŸ¥è¯†çš„笼统ã€å¤æ‚性,难以将å„ç§è¯è¨€ä¿¡æ¯ç»„织æˆæœºå™¨å¯ç›´æŽ¥è¯»å–çš„å½¢å¼ï¼Œå› æ¤ç›®å‰åŸºäºŽç†è§£çš„分è¯ç³»ç»Ÿè¿˜å¤„在试验阶段。
3ã€åŸºäºŽç»Ÿè®¡çš„分è¯æ–¹æ³•
从形å¼ä¸Šçœ‹ï¼Œè¯æ˜¯ç¨³å®šçš„å—的组åˆï¼Œå› æ¤åœ¨ä¸Šä¸‹æ–‡ä¸ï¼Œç›¸é‚»çš„å—åŒæ—¶å‡ºçŽ°çš„次数越多,就越有å¯èƒ½æž„æˆä¸€ä¸ªè¯ã€‚å› æ¤å—与å—相邻共现的频率或概率能够较好的åæ˜ æˆè¯çš„å¯ä¿¡åº¦ã€‚å¯ä»¥å¯¹è¯æ–™ä¸ç›¸é‚»å…±çŽ°çš„å„个å—的组åˆçš„频度进行统计,计算它们的互现信æ¯ã€‚定义两个å—的互现信æ¯ï¼Œè®¡ç®—两个汉å—Xã€Y的相邻共现概率。互现信æ¯ä½“现了汉å—之间结åˆå…³ç³»çš„紧密程度。当紧密程度高于æŸä¸€ä¸ªé˜ˆå€¼æ—¶ï¼Œä¾¿å¯è®¤ä¸ºæ¤å—组å¯èƒ½æž„æˆäº†ä¸€ä¸ªè¯ã€‚è¿™ç§æ–¹æ³•åªéœ€å¯¹è¯æ–™ä¸çš„å—组频度进行统计,ä¸éœ€è¦åˆ‡åˆ†è¯å…¸ï¼Œå› 而åˆå«åšæ— è¯å…¸åˆ†è¯æ³•æˆ–统计å–è¯æ–¹æ³•ã€‚但这ç§æ–¹æ³•ä¹Ÿæœ‰ä¸€å®šçš„å±€é™æ€§ï¼Œä¼šç»å¸¸æŠ½å‡ºä¸€äº›å…±çŽ°é¢‘度高ã€ä½†å¹¶ä¸æ˜¯è¯çš„常用å—组,例如“这一â€ã€â€œä¹‹ä¸€â€ã€â€œæœ‰çš„â€ã€â€œæˆ‘çš„â€ã€â€œè®¸å¤šçš„â€ç‰ï¼Œå¹¶ä¸”对常用è¯çš„识别精度差,时空开销大。实际应用的统计分è¯ç³»ç»Ÿéƒ½è¦ä½¿ç”¨ä¸€éƒ¨åŸºæœ¬çš„分è¯è¯å…¸ï¼ˆå¸¸ç”¨è¯è¯å…¸ï¼‰è¿›è¡Œä¸²åŒ¹é…分è¯ï¼ŒåŒæ—¶ä½¿ç”¨ç»Ÿè®¡æ–¹æ³•è¯†åˆ«ä¸€äº›æ–°çš„è¯ï¼Œå³å°†ä¸²é¢‘统计和串匹é…结åˆèµ·æ¥ï¼Œæ—¢å‘挥匹é…分è¯åˆ‡åˆ†é€Ÿåº¦å¿«ã€æ•ˆçŽ‡é«˜çš„特点,åˆåˆ©ç”¨äº†æ— è¯å…¸åˆ†è¯ç»“åˆä¸Šä¸‹æ–‡è¯†åˆ«ç”Ÿè¯ã€è‡ªåŠ¨æ¶ˆé™¤æ§ä¹‰çš„优点。
到底哪ç§åˆ†è¯ç®—法的准确度更高,目å‰å¹¶æ— 定论。对于任何一个æˆç†Ÿçš„分è¯ç³»ç»Ÿæ¥è¯´ï¼Œä¸å¯èƒ½å•ç‹¬ä¾é æŸä¸€ç§ç®—法æ¥å®žçŽ°ï¼Œéƒ½éœ€è¦ç»¼åˆä¸åŒçš„算法。笔者了解,海é‡ç§‘技的分è¯ç®—法就采用“å¤æ–¹åˆ†è¯æ³•â€ï¼Œæ‰€è°“å¤æ–¹ï¼Œç›¸å½“于用ä¸è¯ä¸çš„å¤æ–¹æ¦‚念,å³ç”¨ä¸åŒçš„è¯æ‰ç»¼åˆèµ·æ¥åŽ»åŒ»æ²»ç–¾ç—…,åŒæ ·ï¼Œå¯¹äºŽä¸æ–‡è¯çš„识别,需è¦å¤šç§ç®—法æ¥å¤„ç†ä¸åŒçš„问题。
分è¯ä¸çš„难题
有了æˆç†Ÿçš„分è¯ç®—法,是å¦å°±èƒ½å®¹æ˜“的解决ä¸æ–‡åˆ†è¯çš„问题呢?事实远éžå¦‚æ¤ã€‚ä¸æ–‡æ˜¯ä¸€ç§å分å¤æ‚çš„è¯è¨€ï¼Œè®©è®¡ç®—机ç†è§£ä¸æ–‡è¯è¨€æ›´æ˜¯å›°éš¾ã€‚在ä¸æ–‡åˆ†è¯è¿‡ç¨‹ä¸ï¼Œæœ‰ä¸¤å¤§éš¾é¢˜ä¸€ç›´æ²¡æœ‰å®Œå…¨çªç ´ã€‚
1ã€æ§ä¹‰è¯†åˆ«
æ§ä¹‰æ˜¯æŒ‡åŒæ ·çš„一å¥è¯ï¼Œå¯èƒ½æœ‰ä¸¤ç§æˆ–者更多的切分方法。例如:表é¢çš„ï¼Œå› ä¸ºâ€œè¡¨é¢â€å’Œâ€œé¢çš„â€éƒ½æ˜¯è¯ï¼Œé‚£ä¹ˆè¿™ä¸ªçŸè¯å°±å¯ä»¥åˆ†æˆâ€œè¡¨é¢ çš„â€å’Œâ€œè¡¨ é¢çš„â€ã€‚è¿™ç§ç§°ä¸ºäº¤å‰æ§ä¹‰ã€‚åƒè¿™ç§äº¤å‰æ§ä¹‰å分常è§ï¼Œå‰é¢ä¸¾çš„“和æœâ€çš„例åï¼Œå…¶å®žå°±æ˜¯å› ä¸ºäº¤å‰æ§ä¹‰å¼•èµ·çš„错误。“化妆和æœè£…â€å¯ä»¥åˆ†æˆâ€œåŒ–妆 å’Œ æœè£…â€æˆ–者“化妆 å’Œæœ è£…â€ã€‚由于没有人的知识去ç†è§£ï¼Œè®¡ç®—机很难知é“到底哪个方案æ£ç¡®ã€‚
交å‰æ§ä¹‰ç›¸å¯¹ç»„åˆæ§ä¹‰æ¥è¯´æ˜¯è¿˜ç®—比较容易处ç†ï¼Œç»„åˆæ§ä¹‰å°±å¿…éœ€æ ¹æ®æ•´ä¸ªå¥åæ¥åˆ¤æ–了。例如,在å¥å“这个门把手å了â€ä¸ï¼Œâ€œæŠŠæ‰‹â€æ˜¯ä¸ªè¯ï¼Œä½†åœ¨å¥å“请把手拿开â€ä¸ï¼Œâ€œæŠŠæ‰‹â€å°±ä¸æ˜¯ä¸€ä¸ªè¯ï¼›åœ¨å¥å“将军任命了一åä¸å°†â€ä¸ï¼Œâ€œä¸å°†â€æ˜¯ä¸ªè¯ï¼Œä½†åœ¨å¥å“产é‡ä¸‰å¹´ä¸å°†å¢žé•¿ä¸¤å€â€ä¸ï¼Œâ€œä¸å°†â€å°±ä¸å†æ˜¯è¯ã€‚这些è¯è®¡ç®—机åˆå¦‚何去识别?
如果交å‰æ§ä¹‰å’Œç»„åˆæ§ä¹‰è®¡ç®—机都能解决的è¯ï¼Œåœ¨æ§ä¹‰ä¸è¿˜æœ‰ä¸€ä¸ªéš¾é¢˜ï¼Œæ˜¯çœŸæ§ä¹‰ã€‚真æ§ä¹‰æ„æ€æ˜¯ç»™å‡ºä¸€å¥è¯ï¼Œç”±äººåŽ»åˆ¤æ–也ä¸çŸ¥é“哪个应该是è¯ï¼Œå“ªä¸ªåº”该ä¸æ˜¯è¯ã€‚例如:“乒乓çƒæ‹å–完了â€ï¼Œå¯ä»¥åˆ‡åˆ†æˆâ€œä¹’乓 çƒæ‹ å– å®Œ 了â€ã€ä¹Ÿå¯åˆ‡åˆ†æˆâ€œä¹’ä¹“çƒ æ‹å– 完 了â€ï¼Œå¦‚果没有上下文其他的å¥å,æ怕è°ä¹Ÿä¸çŸ¥é““æ‹å–â€åœ¨è¿™é‡Œç®—ä¸ç®—一个è¯ã€‚
2ã€æ–°è¯è¯†åˆ«
æ–°è¯ï¼Œä¸“业术è¯ç§°ä¸ºæœªç™»å½•è¯ã€‚也就是那些在å—å…¸ä¸éƒ½æ²¡æœ‰æ”¶å½•è¿‡ï¼Œä½†åˆç¡®å®žèƒ½ç§°ä¸ºè¯çš„那些è¯ã€‚最典型的是人å,人å¯ä»¥å¾ˆå®¹æ˜“ç†è§£å¥å“王军虎去广州了â€ä¸ï¼Œâ€œçŽ‹å†›è™Žâ€æ˜¯ä¸ªè¯ï¼Œå› 为是一个人的åå—,但è¦æ˜¯è®©è®¡ç®—机去识别就困难了。如果把“王军虎â€åšä¸ºä¸€ä¸ªè¯æ”¶å½•åˆ°å—å…¸ä¸åŽ»ï¼Œå…¨ä¸–界有那么多åå—,而且æ¯æ—¶æ¯åˆ»éƒ½æœ‰æ–°å¢žçš„人å,收录这些人å本身就是一项巨大的工程。å³ä½¿è¿™é¡¹å·¥ä½œå¯ä»¥å®Œæˆï¼Œè¿˜æ˜¯ä¼šå˜åœ¨é—®é¢˜ï¼Œä¾‹å¦‚:在å¥å“王军虎头虎脑的â€ä¸ï¼Œâ€œçŽ‹å†›è™Žâ€è¿˜èƒ½ä¸èƒ½ç®—è¯ï¼Ÿ
æ–°è¯ä¸é™¤äº†äººå以外,还有机构åã€åœ°åã€äº§å“åã€å•†æ ‡åã€ç®€ç§°ã€çœç•¥è¯ç‰éƒ½æ˜¯å¾ˆéš¾å¤„ç†çš„问题,而且这些åˆæ£å¥½æ˜¯äººä»¬ç»å¸¸ä½¿ç”¨çš„è¯ï¼Œå› æ¤å¯¹äºŽæœç´¢å¼•æ“Žæ¥è¯´ï¼Œåˆ†è¯ç³»ç»Ÿä¸çš„æ–°è¯è¯†åˆ«å分é‡è¦ã€‚ç›®å‰æ–°è¯è¯†åˆ«å‡†ç¡®çŽ‡å·²ç»æˆä¸ºè¯„价一个分è¯ç³»ç»Ÿå¥½åçš„é‡è¦æ ‡å¿—之一。
ä¸æ–‡åˆ†è¯çš„应用
ç›®å‰åœ¨è‡ªç„¶è¯è¨€å¤„ç†æŠ€æœ¯ä¸ï¼Œä¸æ–‡å¤„ç†æŠ€æœ¯æ¯”西文处ç†æŠ€æœ¯è¦è½åŽå¾ˆå¤§ä¸€æ®µè·ç¦»ï¼Œè®¸å¤šè¥¿æ–‡çš„处ç†æ–¹æ³•ä¸æ–‡ä¸èƒ½ç›´æŽ¥é‡‡ç”¨ï¼Œå°±æ˜¯å› 为ä¸æ–‡å¿…需有分è¯è¿™é“å·¥åºã€‚ä¸æ–‡åˆ†è¯æ˜¯å…¶ä»–ä¸æ–‡ä¿¡æ¯å¤„ç†çš„基础,æœç´¢å¼•æ“Žåªæ˜¯ä¸æ–‡åˆ†è¯çš„一个应用。其他的比如机器翻译(MT)ã€è¯éŸ³åˆæˆã€è‡ªåŠ¨åˆ†ç±»ã€è‡ªåŠ¨æ‘˜è¦ã€è‡ªåŠ¨æ ¡å¯¹ç‰ç‰ï¼Œéƒ½éœ€è¦ç”¨åˆ°åˆ†è¯ã€‚å› ä¸ºä¸æ–‡éœ€è¦åˆ†è¯ï¼Œå¯èƒ½ä¼šå½±å“ä¸€äº›ç ”ç©¶ï¼Œä½†åŒæ—¶ä¹Ÿä¸ºä¸€äº›ä¼ä¸šå¸¦æ¥æœºä¼šï¼Œå› 为国外的计算机处ç†æŠ€æœ¯è¦æƒ³è¿›å…¥ä¸å›½å¸‚场,首先也是è¦è§£å†³ä¸æ–‡åˆ†è¯é—®é¢˜ã€‚在ä¸æ–‡ç ”究方é¢ï¼Œç›¸æ¯”外国人æ¥è¯´ï¼Œä¸å›½äººæœ‰å分明显的优势。
分è¯å‡†ç¡®æ€§å¯¹æœç´¢å¼•æ“Žæ¥è¯´å分é‡è¦ï¼Œä½†å¦‚果分è¯é€Ÿåº¦å¤ªæ…¢ï¼Œå³ä½¿å‡†ç¡®æ€§å†é«˜ï¼Œå¯¹äºŽæœç´¢å¼•æ“Žæ¥è¯´ä¹Ÿæ˜¯ä¸å¯ç”¨çš„ï¼Œå› ä¸ºæœç´¢å¼•æ“Žéœ€è¦å¤„ç†æ•°ä»¥äº¿è®¡çš„网页,如果分è¯è€—用的时间过长,会严é‡å½±å“æœç´¢å¼•æ“Žå†…å®¹æ›´æ–°çš„é€Ÿåº¦ã€‚å› æ¤å¯¹äºŽæœç´¢å¼•æ“Žæ¥è¯´ï¼Œåˆ†è¯çš„准确性和速度,二者都需è¦è¾¾åˆ°å¾ˆé«˜çš„è¦æ±‚。目å‰ç ”究ä¸æ–‡åˆ†è¯çš„å¤§å¤šæ˜¯ç§‘ç ”é™¢æ ¡ï¼Œæ¸…åŽã€åŒ—大ã€ä¸ç§‘院ã€åŒ—京è¯è¨€å¦é™¢ã€ä¸œåŒ—大å¦ã€IBMç ”ç©¶é™¢ã€å¾®è½¯ä¸å›½ç ”究院ç‰éƒ½æœ‰è‡ªå·±çš„ç ”ç©¶é˜Ÿä¼ï¼Œè€ŒçœŸæ£ä¸“ä¸šç ”ç©¶ä¸æ–‡åˆ†è¯çš„商业公å¸é™¤äº†æµ·é‡ç§‘æŠ€ä»¥å¤–ï¼Œå‡ ä¹Žæ²¡æœ‰äº†ã€‚ç§‘ç ”é™¢æ ¡ç ”ç©¶çš„æŠ€æœ¯ï¼Œå¤§éƒ¨åˆ†ä¸èƒ½å¾ˆå¿«äº§å“化,而一个专业公å¸çš„力é‡æ¯•ç«Ÿæœ‰é™ï¼Œçœ‹æ¥ä¸æ–‡åˆ†è¯æŠ€æœ¯è¦æƒ³æ›´å¥½çš„æœåŠ¡äºŽæ›´å¤šçš„产å“,还有很长一段路。
最后编辑: 郝聪 编辑于2006/09/04 02:54
æœç´¢å¼•æ“ŽæŠ€æœ¯çš„ç ”ç©¶ï¼Œå›½å¤–æ¯”ä¸å›½è¦æ—©è¿‘å年,从最早的Archie,到åŽæ¥çš„Excite,以åŠaltvistaã€overtureã€googleç‰æœç´¢å¼•æ“Žé¢ä¸–,æœç´¢å¼•æ“Žå‘展至今,已ç»æœ‰åå‡ å¹´çš„åŽ†å²ï¼Œè€Œå›½å†…å¼€å§‹ç ”ç©¶æœç´¢å¼•æ“Žæ˜¯åœ¨ä¸Šä¸–纪末本世纪åˆã€‚在许多领域,都是国外的产å“和技术一统天下,特别是当æŸç§æŠ€æœ¯åœ¨å›½å¤–ç ”ç©¶å¤šå¹´è€Œå›½å†…æ‰å¼€å§‹çš„情况下。例如æ“作系统ã€å—处ç†è½¯ä»¶ã€æµè§ˆå™¨ç‰ç‰ï¼Œä½†æœç´¢å¼•æ“Žå´æ˜¯ä¸ªä¾‹å¤–。虽然在国外æœç´¢å¼•æ“ŽæŠ€æœ¯æ—©å°±å¼€å§‹ç ”究,但在国内还是陆ç»æ¶ŒçŽ°å‡ºä¼˜ç§€çš„æœç´¢å¼•æ“Žï¼Œåƒç™¾åº¦ï¼ˆhttp://www.baidu.com/)ã€ä¸æœï¼ˆhttp://www.zhongsou.com/)ç‰ã€‚ç›®å‰åœ¨ä¸æ–‡æœç´¢å¼•æ“Žé¢†åŸŸï¼Œå›½å†…çš„æœç´¢å¼•æ“Žå·²ç»å’Œå›½å¤–çš„æœç´¢å¼•æ“Žæ•ˆæžœä¸Šç›¸å·®ä¸è¿œã€‚之所以能形æˆè¿™æ ·çš„å±€é¢ï¼Œæœ‰ä¸€ä¸ªé‡è¦çš„åŽŸå› å°±åœ¨äºŽä¸æ–‡å’Œè‹±æ–‡ä¸¤ç§è¯è¨€è‡ªèº«çš„书写方å¼ä¸åŒï¼Œè¿™å…¶ä¸å¯¹äºŽè®¡ç®—机涉åŠçš„技术就是ä¸æ–‡åˆ†è¯ã€‚
什么是ä¸æ–‡åˆ†è¯
众所周知,英文是以è¯ä¸ºå•ä½çš„,è¯å’Œè¯ä¹‹é—´æ˜¯é ç©ºæ ¼éš”å¼€ï¼Œè€Œä¸æ–‡æ˜¯ä»¥å—为å•ä½ï¼Œå¥åä¸æ‰€æœ‰çš„å—è¿žèµ·æ¥æ‰èƒ½æ述一个æ„æ€ã€‚例如,英文å¥åI am a student,用ä¸æ–‡åˆ™ä¸ºï¼šâ€œæˆ‘是一个å¦ç”Ÿâ€ã€‚计算机å¯ä»¥å¾ˆç®€å•é€šè¿‡ç©ºæ ¼çŸ¥é“student是一个å•è¯ï¼Œä½†æ˜¯ä¸èƒ½å¾ˆå®¹æ˜“明白“å¦â€ã€â€œç”Ÿâ€ä¸¤ä¸ªå—åˆèµ·æ¥æ‰è¡¨ç¤ºä¸€ä¸ªè¯ã€‚把ä¸æ–‡çš„汉å—åºåˆ—切分æˆæœ‰æ„义的è¯ï¼Œå°±æ˜¯ä¸æ–‡åˆ†è¯ï¼Œæœ‰äº›äººä¹Ÿç§°ä¸ºåˆ‡è¯ã€‚我是一个å¦ç”Ÿï¼Œåˆ†è¯çš„结果是:我 是 一个 å¦ç”Ÿã€‚
ä¸æ–‡åˆ†è¯å’Œæœç´¢å¼•æ“Ž
ä¸æ–‡åˆ†è¯åˆ°åº•å¯¹æœç´¢å¼•æ“Žæœ‰å¤šå¤§å½±å“?对于æœç´¢å¼•æ“Žæ¥è¯´ï¼Œæœ€é‡è¦çš„并ä¸æ˜¯æ‰¾åˆ°æ‰€æœ‰ç»“æžœï¼Œå› ä¸ºåœ¨ä¸Šç™¾äº¿çš„ç½‘é¡µä¸æ‰¾åˆ°æ‰€æœ‰ç»“果没有太多的æ„义,没有人能看得完,最é‡è¦çš„是把最相关的结果排在最å‰é¢ï¼Œè¿™ä¹Ÿç§°ä¸ºç›¸å…³åº¦æŽ’åºã€‚ä¸æ–‡åˆ†è¯çš„准确与å¦ï¼Œå¸¸å¸¸ç›´æŽ¥å½±å“到对æœç´¢ç»“果的相关度排åºã€‚笔者最近替朋å‹æ‰¾ä¸€äº›å…³äºŽæ—¥æœ¬å’Œæœçš„资料,在æœç´¢å¼•æ“Žä¸Šè¾“入“和æœâ€ï¼Œå¾—到的结果就å‘现了很多问题。下é¢å°±ä»¥è¿™ä¸ªä¾‹åæ¥è¯´æ˜Žåˆ†è¯å¯¹æœç´¢ç»“果的影å“,在现有三个ä¸æ–‡æœç´¢å¼•æ“Žä¸Šåšæµ‹è¯•ï¼Œæµ‹è¯•æ–¹æ³•æ˜¯ç›´æŽ¥åœ¨Google(http://www.google.com/)ã€ç™¾åº¦ï¼ˆhttp://www.baidu.com/)ã€ä¸æœï¼ˆhttp://www.zhongsou.com/)上以“和æœâ€ä¸ºå…³é”®è¯è¿›è¡Œæœç´¢ï¼š
在Google上输入“和æœâ€æœç´¢æ‰€æœ‰ä¸æ–‡ç®€ä½“网页,总共结果507,000æ¡ï¼Œå‰20æ¡ç»“æžœä¸æœ‰14æ¡ä¸Žå’Œæœä¸€ç‚¹å…³ç³»éƒ½æ²¡æœ‰ã€‚在第一页就有以下错误:
“通信信æ¯æŠ¥ï¼šç‘žæ˜Ÿä»¥æŠ€æœ¯å’ŒæœåŠ¡å¼€æ‹“网络安全市场â€
“使用纯HTML的通用数æ®ç®¡ç†å’ŒæœåŠ¡- å¼€å‘者- ZDNet ...â€
“陈慧ç³ã€Šå¿ƒå£ä¸ä¸€ã€‹åŒ–妆和æœè£…自己包办â€
“::外交部:ä¸å›½å¢ƒå¤–领事ä¿æŠ¤å’ŒæœåŠ¡æŒ‡å—(2003年版) ...â€
“产å“å’ŒæœåŠ¡â€
ç‰ç‰ã€‚第一页åªæœ‰ä¸‰ç¯‡æ˜¯çœŸæ£åœ¨è®²â€œå’Œæœâ€çš„结果。
在百度上输入“和æœâ€æœç´¢ç½‘页,总共结果为287,000æ¡ï¼Œå‰20æ¡ç»“æžœä¸æœ‰6æ¡ä¸Žå’Œæœä¸€ç‚¹å…³ç³»éƒ½æ²¡æœ‰ã€‚在第一页有以下错误:
“ç¦å»ºçœæ™‹æ±Ÿå¸‚æ’å’Œæœè£…有é™å…¬å¸ç³»ç‹¬èµ„ä¼ä¸šâ€
“关于商å“å’ŒæœåŠ¡å®žè¡Œæ˜Žç æ ‡ä»·çš„è§„å®šâ€
“é’岛东和æœè£…设备â€
在ä¸æœä¸Šè¾“入“和æœâ€æœç´¢ç½‘页,总共结果为26,917æ¡ï¼Œå‰20æ¡ç»“果都是与和æœç›¸å…³çš„网页。
这次æœç´¢å¼•æ“Žç»“æžœä¸çš„错误,就是由于分è¯çš„ä¸å‡†ç¡®æ‰€é€ æˆçš„。通过笔者的了解,Googleçš„ä¸æ–‡åˆ†è¯æŠ€æœ¯é‡‡ç”¨çš„是美国一家åå«Basis Technology(http://www.basistech.com/)的公å¸æ供的ä¸æ–‡åˆ†è¯æŠ€æœ¯ï¼Œç™¾åº¦ä½¿ç”¨çš„是自己公å¸å¼€å‘的分è¯æŠ€æœ¯ï¼Œä¸æœä½¿ç”¨çš„是国内海é‡ç§‘技(http://www.hylanda.com/)æ供的分è¯æŠ€æœ¯ã€‚ç”±æ¤å¯è§ï¼Œä¸æ–‡åˆ†è¯çš„准确度,对æœç´¢å¼•æ“Žç»“果相关性和准确性有相当大的关系。
ä¸æ–‡åˆ†è¯æŠ€æœ¯
ä¸æ–‡åˆ†è¯æŠ€æœ¯å±žäºŽè‡ªç„¶è¯è¨€å¤„ç†æŠ€æœ¯èŒƒç•´ï¼Œå¯¹äºŽä¸€å¥è¯ï¼Œäººå¯ä»¥é€šè¿‡è‡ªå·±çš„知识æ¥æ˜Žç™½å“ªäº›æ˜¯è¯ï¼Œå“ªäº›ä¸æ˜¯è¯ï¼Œä½†å¦‚何让计算机也能ç†è§£ï¼Ÿå…¶å¤„ç†è¿‡ç¨‹å°±æ˜¯åˆ†è¯ç®—法。
现有的分è¯ç®—法å¯åˆ†ä¸ºä¸‰å¤§ç±»ï¼šåŸºäºŽå—符串匹é…的分è¯æ–¹æ³•ã€åŸºäºŽç†è§£çš„分è¯æ–¹æ³•å’ŒåŸºäºŽç»Ÿè®¡çš„分è¯æ–¹æ³•ã€‚
1ã€åŸºäºŽå—符串匹é…的分è¯æ–¹æ³•
è¿™ç§æ–¹æ³•åˆå«åšæœºæ¢°åˆ†è¯æ–¹æ³•ï¼Œå®ƒæ˜¯æŒ‰ç…§ä¸€å®šçš„ç–略将待分æžçš„汉å—串与一个“充分大的â€æœºå™¨è¯å…¸ä¸çš„è¯æ¡è¿›è¡Œé…,若在è¯å…¸ä¸æ‰¾åˆ°æŸä¸ªå—符串,则匹é…æˆåŠŸï¼ˆè¯†åˆ«å‡ºä¸€ä¸ªè¯ï¼‰ã€‚按照扫ææ–¹å‘çš„ä¸åŒï¼Œä¸²åŒ¹é…分è¯æ–¹æ³•å¯ä»¥åˆ†ä¸ºæ£å‘匹é…和逆å‘匹é…;按照ä¸åŒé•¿åº¦ä¼˜å…ˆåŒ¹é…的情况,å¯ä»¥åˆ†ä¸ºæœ€å¤§ï¼ˆæœ€é•¿ï¼‰åŒ¹é…和最å°ï¼ˆæœ€çŸï¼‰åŒ¹é…;按照是å¦ä¸Žè¯æ€§æ ‡æ³¨è¿‡ç¨‹ç›¸ç»“åˆï¼Œåˆå¯ä»¥åˆ†ä¸ºå•çº¯åˆ†è¯æ–¹æ³•å’Œåˆ†è¯ä¸Žæ ‡æ³¨ç›¸ç»“åˆçš„ä¸€ä½“åŒ–æ–¹æ³•ã€‚å¸¸ç”¨çš„å‡ ç§æœºæ¢°åˆ†è¯æ–¹æ³•å¦‚下:
1)æ£å‘最大匹é…法(由左到å³çš„æ–¹å‘);
2)逆å‘最大匹é…法(由å³åˆ°å·¦çš„æ–¹å‘);
3)最少切分(使æ¯ä¸€å¥ä¸åˆ‡å‡ºçš„è¯æ•°æœ€å°ï¼‰ã€‚
还å¯ä»¥å°†ä¸Šè¿°å„ç§æ–¹æ³•ç›¸äº’组åˆï¼Œä¾‹å¦‚,å¯ä»¥å°†æ£å‘最大匹é…方法和逆å‘最大匹é…方法结åˆèµ·æ¥æž„æˆåŒå‘匹é…法。由于汉è¯å•å—æˆè¯çš„特点,æ£å‘最å°åŒ¹é…和逆å‘最å°åŒ¹é…一般很少使用。一般说æ¥ï¼Œé€†å‘匹é…的切分精度略高于æ£å‘匹é…,é‡åˆ°çš„æ§ä¹‰çŽ°è±¡ä¹Ÿè¾ƒå°‘。统计结果表明,å•çº¯ä½¿ç”¨æ£å‘最大匹é…的错误率为1/169,å•çº¯ä½¿ç”¨é€†å‘最大匹é…的错误率为1/245。但这ç§ç²¾åº¦è¿˜è¿œè¿œä¸èƒ½æ»¡è¶³å®žé™…的需è¦ã€‚实际使用的分è¯ç³»ç»Ÿï¼Œéƒ½æ˜¯æŠŠæœºæ¢°åˆ†è¯ä½œä¸ºä¸€ç§åˆåˆ†æ‰‹æ®µï¼Œè¿˜éœ€é€šè¿‡åˆ©ç”¨å„ç§å…¶å®ƒçš„è¯è¨€ä¿¡æ¯æ¥è¿›ä¸€æ¥æ高切分的准确率。
一ç§æ–¹æ³•æ˜¯æ”¹è¿›æ‰«ææ–¹å¼ï¼Œç§°ä¸ºç‰¹å¾æ‰«ææˆ–æ ‡å¿—åˆ‡åˆ†ï¼Œä¼˜å…ˆåœ¨å¾…åˆ†æžå—符串ä¸è¯†åˆ«å’Œåˆ‡åˆ†å‡ºä¸€äº›å¸¦æœ‰æ˜Žæ˜¾ç‰¹å¾çš„è¯ï¼Œä»¥è¿™äº›è¯ä½œä¸ºæ–点,å¯å°†åŽŸå—符串分为较å°çš„串å†æ¥è¿›æœºæ¢°åˆ†è¯ï¼Œä»Žè€Œå‡å°‘匹é…的错误率。å¦ä¸€ç§æ–¹æ³•æ˜¯å°†åˆ†è¯å’Œè¯ç±»æ ‡æ³¨ç»“åˆèµ·æ¥ï¼Œåˆ©ç”¨ä¸°å¯Œçš„è¯ç±»ä¿¡æ¯å¯¹åˆ†è¯å†³ç–æä¾›å¸®åŠ©ï¼Œå¹¶ä¸”åœ¨æ ‡æ³¨è¿‡ç¨‹ä¸åˆå过æ¥å¯¹åˆ†è¯ç»“果进行检验ã€è°ƒæ•´ï¼Œä»Žè€Œæžå¤§åœ°æ高切分的准确率。
对于机械分è¯æ–¹æ³•ï¼Œå¯ä»¥å»ºç«‹ä¸€ä¸ªä¸€èˆ¬çš„模型,在这方é¢æœ‰ä¸“业的å¦æœ¯è®ºæ–‡ï¼Œè¿™é‡Œä¸åšè¯¦ç»†è®ºè¿°ã€‚
2ã€åŸºäºŽç†è§£çš„分è¯æ–¹æ³•
è¿™ç§åˆ†è¯æ–¹æ³•æ˜¯é€šè¿‡è®©è®¡ç®—机模拟人对å¥åçš„ç†è§£ï¼Œè¾¾åˆ°è¯†åˆ«è¯çš„效果。其基本æ€æƒ³å°±æ˜¯åœ¨åˆ†è¯çš„åŒæ—¶è¿›è¡Œå¥æ³•ã€è¯ä¹‰åˆ†æžï¼Œåˆ©ç”¨å¥æ³•ä¿¡æ¯å’Œè¯ä¹‰ä¿¡æ¯æ¥å¤„ç†æ§ä¹‰çŽ°è±¡ã€‚它通常包括三个部分:分è¯å系统ã€å¥æ³•è¯ä¹‰å系统ã€æ€»æŽ§éƒ¨åˆ†ã€‚在总控部分的å调下,分è¯å系统å¯ä»¥èŽ·å¾—有关è¯ã€å¥åç‰çš„å¥æ³•å’Œè¯ä¹‰ä¿¡æ¯æ¥å¯¹åˆ†è¯æ§ä¹‰è¿›è¡Œåˆ¤æ–,å³å®ƒæ¨¡æ‹Ÿäº†äººå¯¹å¥åçš„ç†è§£è¿‡ç¨‹ã€‚è¿™ç§åˆ†è¯æ–¹æ³•éœ€è¦ä½¿ç”¨å¤§é‡çš„è¯è¨€çŸ¥è¯†å’Œä¿¡æ¯ã€‚由于汉è¯è¯è¨€çŸ¥è¯†çš„笼统ã€å¤æ‚性,难以将å„ç§è¯è¨€ä¿¡æ¯ç»„织æˆæœºå™¨å¯ç›´æŽ¥è¯»å–çš„å½¢å¼ï¼Œå› æ¤ç›®å‰åŸºäºŽç†è§£çš„分è¯ç³»ç»Ÿè¿˜å¤„在试验阶段。
3ã€åŸºäºŽç»Ÿè®¡çš„分è¯æ–¹æ³•
从形å¼ä¸Šçœ‹ï¼Œè¯æ˜¯ç¨³å®šçš„å—的组åˆï¼Œå› æ¤åœ¨ä¸Šä¸‹æ–‡ä¸ï¼Œç›¸é‚»çš„å—åŒæ—¶å‡ºçŽ°çš„次数越多,就越有å¯èƒ½æž„æˆä¸€ä¸ªè¯ã€‚å› æ¤å—与å—相邻共现的频率或概率能够较好的åæ˜ æˆè¯çš„å¯ä¿¡åº¦ã€‚å¯ä»¥å¯¹è¯æ–™ä¸ç›¸é‚»å…±çŽ°çš„å„个å—的组åˆçš„频度进行统计,计算它们的互现信æ¯ã€‚定义两个å—的互现信æ¯ï¼Œè®¡ç®—两个汉å—Xã€Y的相邻共现概率。互现信æ¯ä½“现了汉å—之间结åˆå…³ç³»çš„紧密程度。当紧密程度高于æŸä¸€ä¸ªé˜ˆå€¼æ—¶ï¼Œä¾¿å¯è®¤ä¸ºæ¤å—组å¯èƒ½æž„æˆäº†ä¸€ä¸ªè¯ã€‚è¿™ç§æ–¹æ³•åªéœ€å¯¹è¯æ–™ä¸çš„å—组频度进行统计,ä¸éœ€è¦åˆ‡åˆ†è¯å…¸ï¼Œå› 而åˆå«åšæ— è¯å…¸åˆ†è¯æ³•æˆ–统计å–è¯æ–¹æ³•ã€‚但这ç§æ–¹æ³•ä¹Ÿæœ‰ä¸€å®šçš„å±€é™æ€§ï¼Œä¼šç»å¸¸æŠ½å‡ºä¸€äº›å…±çŽ°é¢‘度高ã€ä½†å¹¶ä¸æ˜¯è¯çš„常用å—组,例如“这一â€ã€â€œä¹‹ä¸€â€ã€â€œæœ‰çš„â€ã€â€œæˆ‘çš„â€ã€â€œè®¸å¤šçš„â€ç‰ï¼Œå¹¶ä¸”对常用è¯çš„识别精度差,时空开销大。实际应用的统计分è¯ç³»ç»Ÿéƒ½è¦ä½¿ç”¨ä¸€éƒ¨åŸºæœ¬çš„分è¯è¯å…¸ï¼ˆå¸¸ç”¨è¯è¯å…¸ï¼‰è¿›è¡Œä¸²åŒ¹é…分è¯ï¼ŒåŒæ—¶ä½¿ç”¨ç»Ÿè®¡æ–¹æ³•è¯†åˆ«ä¸€äº›æ–°çš„è¯ï¼Œå³å°†ä¸²é¢‘统计和串匹é…结åˆèµ·æ¥ï¼Œæ—¢å‘挥匹é…分è¯åˆ‡åˆ†é€Ÿåº¦å¿«ã€æ•ˆçŽ‡é«˜çš„特点,åˆåˆ©ç”¨äº†æ— è¯å…¸åˆ†è¯ç»“åˆä¸Šä¸‹æ–‡è¯†åˆ«ç”Ÿè¯ã€è‡ªåŠ¨æ¶ˆé™¤æ§ä¹‰çš„优点。
到底哪ç§åˆ†è¯ç®—法的准确度更高,目å‰å¹¶æ— 定论。对于任何一个æˆç†Ÿçš„分è¯ç³»ç»Ÿæ¥è¯´ï¼Œä¸å¯èƒ½å•ç‹¬ä¾é æŸä¸€ç§ç®—法æ¥å®žçŽ°ï¼Œéƒ½éœ€è¦ç»¼åˆä¸åŒçš„算法。笔者了解,海é‡ç§‘技的分è¯ç®—法就采用“å¤æ–¹åˆ†è¯æ³•â€ï¼Œæ‰€è°“å¤æ–¹ï¼Œç›¸å½“于用ä¸è¯ä¸çš„å¤æ–¹æ¦‚念,å³ç”¨ä¸åŒçš„è¯æ‰ç»¼åˆèµ·æ¥åŽ»åŒ»æ²»ç–¾ç—…,åŒæ ·ï¼Œå¯¹äºŽä¸æ–‡è¯çš„识别,需è¦å¤šç§ç®—法æ¥å¤„ç†ä¸åŒçš„问题。
分è¯ä¸çš„难题
有了æˆç†Ÿçš„分è¯ç®—法,是å¦å°±èƒ½å®¹æ˜“的解决ä¸æ–‡åˆ†è¯çš„问题呢?事实远éžå¦‚æ¤ã€‚ä¸æ–‡æ˜¯ä¸€ç§å分å¤æ‚çš„è¯è¨€ï¼Œè®©è®¡ç®—机ç†è§£ä¸æ–‡è¯è¨€æ›´æ˜¯å›°éš¾ã€‚在ä¸æ–‡åˆ†è¯è¿‡ç¨‹ä¸ï¼Œæœ‰ä¸¤å¤§éš¾é¢˜ä¸€ç›´æ²¡æœ‰å®Œå…¨çªç ´ã€‚
1ã€æ§ä¹‰è¯†åˆ«
æ§ä¹‰æ˜¯æŒ‡åŒæ ·çš„一å¥è¯ï¼Œå¯èƒ½æœ‰ä¸¤ç§æˆ–者更多的切分方法。例如:表é¢çš„ï¼Œå› ä¸ºâ€œè¡¨é¢â€å’Œâ€œé¢çš„â€éƒ½æ˜¯è¯ï¼Œé‚£ä¹ˆè¿™ä¸ªçŸè¯å°±å¯ä»¥åˆ†æˆâ€œè¡¨é¢ çš„â€å’Œâ€œè¡¨ é¢çš„â€ã€‚è¿™ç§ç§°ä¸ºäº¤å‰æ§ä¹‰ã€‚åƒè¿™ç§äº¤å‰æ§ä¹‰å分常è§ï¼Œå‰é¢ä¸¾çš„“和æœâ€çš„例åï¼Œå…¶å®žå°±æ˜¯å› ä¸ºäº¤å‰æ§ä¹‰å¼•èµ·çš„错误。“化妆和æœè£…â€å¯ä»¥åˆ†æˆâ€œåŒ–妆 å’Œ æœè£…â€æˆ–者“化妆 å’Œæœ è£…â€ã€‚由于没有人的知识去ç†è§£ï¼Œè®¡ç®—机很难知é“到底哪个方案æ£ç¡®ã€‚
交å‰æ§ä¹‰ç›¸å¯¹ç»„åˆæ§ä¹‰æ¥è¯´æ˜¯è¿˜ç®—比较容易处ç†ï¼Œç»„åˆæ§ä¹‰å°±å¿…éœ€æ ¹æ®æ•´ä¸ªå¥åæ¥åˆ¤æ–了。例如,在å¥å“这个门把手å了â€ä¸ï¼Œâ€œæŠŠæ‰‹â€æ˜¯ä¸ªè¯ï¼Œä½†åœ¨å¥å“请把手拿开â€ä¸ï¼Œâ€œæŠŠæ‰‹â€å°±ä¸æ˜¯ä¸€ä¸ªè¯ï¼›åœ¨å¥å“将军任命了一åä¸å°†â€ä¸ï¼Œâ€œä¸å°†â€æ˜¯ä¸ªè¯ï¼Œä½†åœ¨å¥å“产é‡ä¸‰å¹´ä¸å°†å¢žé•¿ä¸¤å€â€ä¸ï¼Œâ€œä¸å°†â€å°±ä¸å†æ˜¯è¯ã€‚这些è¯è®¡ç®—机åˆå¦‚何去识别?
如果交å‰æ§ä¹‰å’Œç»„åˆæ§ä¹‰è®¡ç®—机都能解决的è¯ï¼Œåœ¨æ§ä¹‰ä¸è¿˜æœ‰ä¸€ä¸ªéš¾é¢˜ï¼Œæ˜¯çœŸæ§ä¹‰ã€‚真æ§ä¹‰æ„æ€æ˜¯ç»™å‡ºä¸€å¥è¯ï¼Œç”±äººåŽ»åˆ¤æ–也ä¸çŸ¥é“哪个应该是è¯ï¼Œå“ªä¸ªåº”该ä¸æ˜¯è¯ã€‚例如:“乒乓çƒæ‹å–完了â€ï¼Œå¯ä»¥åˆ‡åˆ†æˆâ€œä¹’乓 çƒæ‹ å– å®Œ 了â€ã€ä¹Ÿå¯åˆ‡åˆ†æˆâ€œä¹’ä¹“çƒ æ‹å– 完 了â€ï¼Œå¦‚果没有上下文其他的å¥å,æ怕è°ä¹Ÿä¸çŸ¥é““æ‹å–â€åœ¨è¿™é‡Œç®—ä¸ç®—一个è¯ã€‚
2ã€æ–°è¯è¯†åˆ«
æ–°è¯ï¼Œä¸“业术è¯ç§°ä¸ºæœªç™»å½•è¯ã€‚也就是那些在å—å…¸ä¸éƒ½æ²¡æœ‰æ”¶å½•è¿‡ï¼Œä½†åˆç¡®å®žèƒ½ç§°ä¸ºè¯çš„那些è¯ã€‚最典型的是人å,人å¯ä»¥å¾ˆå®¹æ˜“ç†è§£å¥å“王军虎去广州了â€ä¸ï¼Œâ€œçŽ‹å†›è™Žâ€æ˜¯ä¸ªè¯ï¼Œå› 为是一个人的åå—,但è¦æ˜¯è®©è®¡ç®—机去识别就困难了。如果把“王军虎â€åšä¸ºä¸€ä¸ªè¯æ”¶å½•åˆ°å—å…¸ä¸åŽ»ï¼Œå…¨ä¸–界有那么多åå—,而且æ¯æ—¶æ¯åˆ»éƒ½æœ‰æ–°å¢žçš„人å,收录这些人å本身就是一项巨大的工程。å³ä½¿è¿™é¡¹å·¥ä½œå¯ä»¥å®Œæˆï¼Œè¿˜æ˜¯ä¼šå˜åœ¨é—®é¢˜ï¼Œä¾‹å¦‚:在å¥å“王军虎头虎脑的â€ä¸ï¼Œâ€œçŽ‹å†›è™Žâ€è¿˜èƒ½ä¸èƒ½ç®—è¯ï¼Ÿ
æ–°è¯ä¸é™¤äº†äººå以外,还有机构åã€åœ°åã€äº§å“åã€å•†æ ‡åã€ç®€ç§°ã€çœç•¥è¯ç‰éƒ½æ˜¯å¾ˆéš¾å¤„ç†çš„问题,而且这些åˆæ£å¥½æ˜¯äººä»¬ç»å¸¸ä½¿ç”¨çš„è¯ï¼Œå› æ¤å¯¹äºŽæœç´¢å¼•æ“Žæ¥è¯´ï¼Œåˆ†è¯ç³»ç»Ÿä¸çš„æ–°è¯è¯†åˆ«å分é‡è¦ã€‚ç›®å‰æ–°è¯è¯†åˆ«å‡†ç¡®çŽ‡å·²ç»æˆä¸ºè¯„价一个分è¯ç³»ç»Ÿå¥½åçš„é‡è¦æ ‡å¿—之一。
ä¸æ–‡åˆ†è¯çš„应用
ç›®å‰åœ¨è‡ªç„¶è¯è¨€å¤„ç†æŠ€æœ¯ä¸ï¼Œä¸æ–‡å¤„ç†æŠ€æœ¯æ¯”西文处ç†æŠ€æœ¯è¦è½åŽå¾ˆå¤§ä¸€æ®µè·ç¦»ï¼Œè®¸å¤šè¥¿æ–‡çš„处ç†æ–¹æ³•ä¸æ–‡ä¸èƒ½ç›´æŽ¥é‡‡ç”¨ï¼Œå°±æ˜¯å› 为ä¸æ–‡å¿…需有分è¯è¿™é“å·¥åºã€‚ä¸æ–‡åˆ†è¯æ˜¯å…¶ä»–ä¸æ–‡ä¿¡æ¯å¤„ç†çš„基础,æœç´¢å¼•æ“Žåªæ˜¯ä¸æ–‡åˆ†è¯çš„一个应用。其他的比如机器翻译(MT)ã€è¯éŸ³åˆæˆã€è‡ªåŠ¨åˆ†ç±»ã€è‡ªåŠ¨æ‘˜è¦ã€è‡ªåŠ¨æ ¡å¯¹ç‰ç‰ï¼Œéƒ½éœ€è¦ç”¨åˆ°åˆ†è¯ã€‚å› ä¸ºä¸æ–‡éœ€è¦åˆ†è¯ï¼Œå¯èƒ½ä¼šå½±å“ä¸€äº›ç ”ç©¶ï¼Œä½†åŒæ—¶ä¹Ÿä¸ºä¸€äº›ä¼ä¸šå¸¦æ¥æœºä¼šï¼Œå› 为国外的计算机处ç†æŠ€æœ¯è¦æƒ³è¿›å…¥ä¸å›½å¸‚场,首先也是è¦è§£å†³ä¸æ–‡åˆ†è¯é—®é¢˜ã€‚在ä¸æ–‡ç ”究方é¢ï¼Œç›¸æ¯”外国人æ¥è¯´ï¼Œä¸å›½äººæœ‰å分明显的优势。
分è¯å‡†ç¡®æ€§å¯¹æœç´¢å¼•æ“Žæ¥è¯´å分é‡è¦ï¼Œä½†å¦‚果分è¯é€Ÿåº¦å¤ªæ…¢ï¼Œå³ä½¿å‡†ç¡®æ€§å†é«˜ï¼Œå¯¹äºŽæœç´¢å¼•æ“Žæ¥è¯´ä¹Ÿæ˜¯ä¸å¯ç”¨çš„ï¼Œå› ä¸ºæœç´¢å¼•æ“Žéœ€è¦å¤„ç†æ•°ä»¥äº¿è®¡çš„网页,如果分è¯è€—用的时间过长,会严é‡å½±å“æœç´¢å¼•æ“Žå†…å®¹æ›´æ–°çš„é€Ÿåº¦ã€‚å› æ¤å¯¹äºŽæœç´¢å¼•æ“Žæ¥è¯´ï¼Œåˆ†è¯çš„准确性和速度,二者都需è¦è¾¾åˆ°å¾ˆé«˜çš„è¦æ±‚。目å‰ç ”究ä¸æ–‡åˆ†è¯çš„å¤§å¤šæ˜¯ç§‘ç ”é™¢æ ¡ï¼Œæ¸…åŽã€åŒ—大ã€ä¸ç§‘院ã€åŒ—京è¯è¨€å¦é™¢ã€ä¸œåŒ—大å¦ã€IBMç ”ç©¶é™¢ã€å¾®è½¯ä¸å›½ç ”究院ç‰éƒ½æœ‰è‡ªå·±çš„ç ”ç©¶é˜Ÿä¼ï¼Œè€ŒçœŸæ£ä¸“ä¸šç ”ç©¶ä¸æ–‡åˆ†è¯çš„商业公å¸é™¤äº†æµ·é‡ç§‘æŠ€ä»¥å¤–ï¼Œå‡ ä¹Žæ²¡æœ‰äº†ã€‚ç§‘ç ”é™¢æ ¡ç ”ç©¶çš„æŠ€æœ¯ï¼Œå¤§éƒ¨åˆ†ä¸èƒ½å¾ˆå¿«äº§å“化,而一个专业公å¸çš„力é‡æ¯•ç«Ÿæœ‰é™ï¼Œçœ‹æ¥ä¸æ–‡åˆ†è¯æŠ€æœ¯è¦æƒ³æ›´å¥½çš„æœåŠ¡äºŽæ›´å¤šçš„产å“,还有很长一段路。
相关日志
Dedecms编辑器CKeditoræ›´æ¢ä¸ºç™¾åº¦UEditor的方法
è°·æŒç©¿è¶Šæœç´¢-è°·æŒå®˜æ–¹æ„šäººèŠ‚玩笑
Google将在æœç´¢ç»“果排å算法ä¸è€ƒè™‘æ¥è‡ªTwitterã€Quoraç‰ç¤¾ä¼šåŒ–网络社区的内容
从12月百度算法å˜åŒ–预测2011å¹´SEOæ–¹å‘
百度上线图片竞价排å 图片显示推广å—æ ·(图)
桥页SEO:网站自我æ¯ç工具
《Google官方SEO入门指å—》å四: 对网站管ç†å‘˜æœ‰ç”¨çš„资æº(完)
《Google官方SEO入门指å—》å三:充分利用网站分æžå·¥å…·
《Google官方SEO入门指å—》å二:充分利用å…费的网站管ç†å‘˜å·¥å…·
《Google官方SEO入门指å—》å一:以æ°å½“çš„æ–¹å¼æŽ¨å¹¿ä½ 的网站
Dedecms编辑器CKeditoræ›´æ¢ä¸ºç™¾åº¦UEditor的方法
è°·æŒç©¿è¶Šæœç´¢-è°·æŒå®˜æ–¹æ„šäººèŠ‚玩笑
Google将在æœç´¢ç»“果排å算法ä¸è€ƒè™‘æ¥è‡ªTwitterã€Quoraç‰ç¤¾ä¼šåŒ–网络社区的内容
从12月百度算法å˜åŒ–预测2011å¹´SEOæ–¹å‘
百度上线图片竞价排å 图片显示推广å—æ ·(图)
桥页SEO:网站自我æ¯ç工具
《Google官方SEO入门指å—》å四: 对网站管ç†å‘˜æœ‰ç”¨çš„资æº(完)
《Google官方SEO入门指å—》å三:充分利用网站分æžå·¥å…·
《Google官方SEO入门指å—》å二:充分利用å…费的网站管ç†å‘˜å·¥å…·
《Google官方SEO入门指å—》å一:以æ°å½“çš„æ–¹å¼æŽ¨å¹¿ä½ 的网站
最后编辑: 郝聪 编辑于2006/09/04 02:54