Orion:GOOGLEå°†è¦é‡‡ç”¨çš„æ–°ç®—法解æž
GOOGLE一直是人们关注的焦点,最近被媒体炒得沸沸扬扬的一则新闻是关于澳大利亚åšå£«ç”ŸOri Allon由于æå‡ºæ–°çš„æœç´¢ç®—æ³•è¢«GOOGLEå¾ç”¨çš„æ¶ˆæ¯,æ¢ä¸ªæ—¶é«¦çš„说法,就是allonæ¤åˆ»å·²ç»è±¡ä»–çš„å‰è¾ˆä»¬ä¸€æ ·ä¸æ–å¦ä¸š(盖茨啦,GOOGLE的两个创始人了,YAHOO的两个创始人,æ•°ä¸èƒœæ•°,事实å†ä¸€æ¬¡æ— æƒ…åœ°è¯æ˜Žäº†åœ¨è¯»åšå£«çš„三æ¡å‡ºè·¯:毕业,退å¦ä»¥åŠè·³æ¥¼ä¹‹ä¸,退妿˜¯å«é‡‘釿œ€é«˜çš„选择,在æ¤å¥‰åŠå„ä½åœ¨è¯»çš„åšå£«åªäº‰æœå¤•åœ°æ—¶ä¸æˆ‘待地赶紧办ç†é€€å¦æ‰‹ç»,å¦åˆ™ä¸€åˆ‡éƒ½è¿Ÿäº†J),æ¤åˆ»æ‘‡èº«ä¸€å˜ä¸ºâ€åŠ åˆ©ç¦å°¼äºšç”·å©â€æ£å在GOOGLE的办公室里开始了饲养员这个比读åšå£«æ›´æœ‰å‰é€”的事业,åœ¨å…»ä»–çš„å® ç‰©ç‹—çš„é—´éš™æŠ½å‡ºç‚¹æ—¶é—´ç»§ç»å®Œå–„他的新算法J;当然,Allon所在的澳大利亚å—å¨å°”士大å¦ä¹Ÿå› æ¤å‘了比å°è´¢(也许这则消æ¯å¯¹äºŽå›½å†…的大å¦å’Œç ”究所有所å¯ç¤º,看看别人是怎么通过创新达到收支平衡并略有节余的,这说明我们的导师们除了é åšé»„世ä»å‰¥å‰Šé•¿å·¥å¤–还有其它的致富之路J)å¹¶å› æ¤è€Œå¥‰è¡Œâ€æ‰“æ»ä¹Ÿä¸è¯´â€çš„å¤§æ— é©å‘½ç•精神告诉å„路媒体â€é™¤äº†ä¿ºä»¬æ‹¿äº†ç‚¹çŸ¥è¯†äº§æƒå°è´¹(实际是GOOGLEçš„å°å£è´¹J)并且allonå·²ç»ç¦»å¼€â€å¤–三缄其å£,出于好奇心,我å分éžå¸¸ç‰¹åˆ«è¿«åˆ‡æƒ³çŸ¥é“è¿™æ˜¯æ€Žæ ·ä¸€ä¸ªâ€å²—岗地â€ç®—法(æ£åœ¨çœ‹è¿™ç¯‡æ–‡ç« çš„ä½ ä¸ä¹Ÿæ˜¯è¿™.è¿™.è¿™â€¦è¿™æ ·ä¹ˆ?),ä¿—è¯è¯´å¾—好,é™¤äº†æ˜¥æ¢¦äº†æ— ç—•å¤–,凡走过必留痕迹,用GOOGLEæœç´¢,坿˜¯æœé互è”网找ä¸åˆ°ä»»ä½•allonå‘表过的论文,allon的导师的个人主页倒是找到了,坿˜¯çœ‹ä¸å‡ºå“ªç¯‡è®ºæ–‡æ˜¯è·Ÿæœç´¢æˆ–者应用相关的,有关allon本人的唯一线索是他的åšå£«è¯¾é¢˜(http://www.cse.unsw.edu.au/db/staff/info/oria.html)
“Using Search Engines for Discovery Information Retrievalâ€
å› ä¸ºæˆ‘çš„è‹±æ–‡æ°´å¹³å¾ˆé«˜,æ‰€ä»¥æˆ‘è§‰å¾—è¿™ä¸ªæ ‡é¢˜è¯»èµ·æ¥æœ‰ç‚¹åˆ«æ‰(è¦æˆ‘å†™æˆ‘å°±è¿™æ ·å†™:used saerch engenner to FAXIAN information retrieval,æ€Žä¹ˆæ ·,确实技高一ç¹å§J),ä½†æ˜¯ä»Žè¿™ä¸ªæ ‡é¢˜æˆ‘ä»¬ä¹Ÿå¤šå°‘èƒ½discovery一点信æ¯,首先å¯ä»¥çœ‹å‡ºallon的课题跟信æ¯å‘现相关,å†è€…è¿™ç§ä¿¡æ¯å‘现是建立在æœç´¢å¼•擎基础上的,åŒæ—¶ä»ŽSearch Enginesé‡‡ç”¨å¤æ•°æ¥çœ‹(如果allonçš„è‹±æ–‡è¯æ³•è·Ÿæˆ‘ä¸€æ ·exlentçš„è¯J)是在很多æœç´¢å¼•擎的基础上,å¯è§æ•´ä¸ªé¡¹ç›®çš„基础是个元æœç´¢å¼•擎,就是首先从现有若干个æœç´¢å¼•擎的返回结果里é¢è¿›è¡Œä¿¡æ¯å‘现.也许ç¦å°”æ‘©æ–¯èƒ½ä»Žé‡Œé¢æŒ–掘出更多的信æ¯(比如allon的姓å,性别,年龄,婚å¦,çˆ±åƒæŽ‰æ¸£çŽ‹è¿˜æ˜¯å¿…èƒœå®¢ç‰ç‰),对于我æ¥è¯´è¿™äº›æ˜¯èƒ½å¤ŸæŽ¨ç†å‡ºçš„æ‰€æœ‰ä¿¡æ¯äº†.
花开两朵,我们å„表一æž,在æ¤ç‰¹ä½œè¯´æ˜Ž,上é¢çš„æ–‡ä½“é‡‡ç”¨è®°å™æ–‡æ–‡ä½“,为了å„ä½çš„é˜…è¯»ä¹ æƒ¯,下é¢çš„æ–‡ä½“切æ¢ä¸ºè¯´æ˜Žæ–‡,ä¸¤ç§æ–‡ä½“综åˆè¿ç”¨,也算我对新文å¦è¿åЍåšçš„一点贡献了;
上回书说é“哪里了?对了,çœ‹æ¥æˆ‘们åªèƒ½é€šè¿‡åª’体报é“åˆ†æžæŽ¨æµ‹ä¸€ä¸‹GOOGLEå°†è¦é‡‡ç”¨çš„æ–°ç®—æ³•é•¿å¾—æ˜¯ä»€ä¹ˆæ ·å了;
首先,我们看看这个算法达到的效果或者功能是什么,以下是从新闻媒体摘出的,版æƒå½’新闻媒体,翻录ä¸ç©¶(注æ„:è¿™é‡Œä¸æ˜¯ç¬”误,是微软拼音输入法的错误,看æ¥å¾®è½¯çš„ç‰ˆæƒæ„识还ä¸å¤Ÿå¼ºå•ŠJ):
1. OrionTM finds pages where the content is about a topic strongly related to the key word. It then returns a section of the page, and lists other topics related to the key word so the user can pick the most relevant
2. The results to the query are displayed immediately in the form of expanded text extracts, giving you the relevant information without having to go the website--although you still have that option if you wish
3. By displaying results to other associated key words directly related to your search topic, you gain additional pertinent information that you might not have originally conceived, thus offering an expert search without having an expert's knowledge
4. Take a search such as the American Revolution as an example of how the system works. OrionTM would bring up results with extracts containing this phrase. But it would also give results for American History, George Washington, American Revolutionary War, Declaration of Independence, Boston Tea Party and more. You obtain much more valuable information from every search
虽然上é¢çš„å†…å®¹æ¯”è¾ƒå¤æ‚,以我这么高的英文水平都看ä¸å¤§æ‡‚,ä½†æ˜¯æˆ‘è¿˜æ˜¯åšæŒè¦è±¡å¤§å®¶è®²è®²è¿™ä¸ªç®—法功能:
1. 该算法是主题相关的,而ä¸åªæ˜¯ä¼ 统æœç´¢å¼•擎的â€å…³é”®è¯â€ç›¸å…³çš„;å½“ç”¨æˆ·è¾“å…¥æŸ¥è¯¢è¯æ±‡åŽ,能够自动æå–与用户查询相关的主题è¯,å¹¶ä¸”è®©ç”¨æˆ·è¿›è¡Œé€‰æ‹©å“ªäº›ä¸»é¢˜ç›¸å…³è¯æ±‡æ˜¯çœŸæ£ç”¨æˆ·æƒ³æ‰¾åˆ°çš„ä¿¡æ¯;
2. 检索结果是扩展的相关文本,用户åªè¦çœ‹åˆ°è¿™äº›ç›¸å…³æ–‡æœ¬å°±æ— 需点击链接进入页é¢åŽ»æŸ¥çœ‹;
3. 在æäº¤ç»™ç”¨æˆ·çš„æœç´¢ç»“æžœä¸,ä¸ä»…用户æäº¤çš„æŸ¥è¯¢è¯æ±‡ç›¸å…³ä¿¡æ¯è¦æ˜¾ç¤º,ä¸ŽæŸ¥è¯¢è¯æ±‡ç›¸å…³çš„主题è¯èŽ·å¾—çš„æ£€ç´¢ç»“æžœä¹Ÿè¦æ˜¾ç¤º,通过æä¾›ç”¨æˆ·æ²¡æœ‰æƒ³åˆ°çš„ç›¸å…³è¯æ±‡æ¥ä½¿å¾—æœç´¢æ›´åŠ å‡†ç¡®;
看完这些æè¿°åŽ,基于我的知识结构,æˆ‘é¦–å…ˆæƒ³åˆ°çš„æ˜¯å¦‚ä¸‹å‡ ä¸ªè¯æ±‡:æ®µè½æ£€ç´¢;ä¿¡æ¯å…±çް;文本èšç±»;相关å馈ç‰ç‰,åæ£ä¸€å †è¯æ±‡æŽ’ç€é˜Ÿåœ¨æˆ‘è„‘å里争先æåŽå¾€å¤–冒;
è¦æ˜¯æˆ‘çš„è¯,我会如下åš
1. é¦–å…ˆæˆ‘ä»¬å¾—åˆ°ç”¨æˆ·çš„æŸ¥è¯¢è¯æ±‡;
2. æˆ‘ä»¬æŠŠç”¨æˆ·çš„æŸ¥è¯¢è¯æ±‡æäº¤ç»™å‡ 个现有的æœç´¢å¼•擎,比如GOOGLE,YAHOO
3. 得到æœç´¢ç»“æžœ,我们把结果åˆå¹¶åˆ°ä¸€èµ·;
4. 我们把æœç´¢ç»“æžœæŽ’åæ¯”较高的若干个结果,比如å‰20ä¸ªæ–‡ç« ,æŒ‰ç…§å›ºå®šå¤§å°æŠŠæ¯ä¸ªæ–‡ç« 切æˆè‹¥å¹²ç‰‡æ–;
5. å¯¹äºŽåˆ‡å®Œçš„æ‰€æœ‰ç‰‡æ–æ”¾åˆ°ä¸€èµ·,ç„¶åŽè¿›è¡Œæ–‡æœ¬èšç±»,把内容最相似的段è½èšåˆåˆ°ä¸€èµ·,è¿™æ ·å½¢æˆè‹¥å¹²ä¸»é¢˜ç±»;æ¯ä¸ªä¸»é¢˜ç±»å¯ä»¥æ ¹æ®ä¸Žç”¨æˆ·æŸ¥è¯¢å…±çŽ°æ¥æŠ½å–å…±çŽ°é¢‘çŽ‡æœ€é«˜çš„å‡ ä¸ªå…³é”®è¯æˆ–者çŸè¯ä½œä¸ºè¿™ä¸ªç±»çš„关键è¯åˆ—表;
6. 釿–°ç»™æ¯ä¸ªèšç±»ç»“æžœæ ¹æ®ç”¨æˆ·æŸ¥è¯¢è¯æ±‡æŒ‰ç…§ç›¸å…³ç¨‹åº¦æ‰“分;ç„¶åŽæŒ‰ç…§å¾—分高低排åº;输出界é¢åŒ…括:æ¯ä¸ªç±»åˆ«æå–一到2个关键è¯çŸè¯ä¾›ç”¨æˆ·è¿›è¡Œè¿›ä¸€æ¥é€‰æ‹©,如果用户点击æŸä¸ªçŸè¯åˆ™,æ˜¾ç¤ºè¯¥ç±»ä¸æœ€æ ¸å¿ƒçš„那个段è½;
但是,阿龙(allon)会ä¸ä¼šè¿™ä¹ˆåšå‘¢? æƒ³åƒæˆ‘们就是阿龙本人,在实现上述功能的一个算法,我们应该怎么åšå‘¢?
我们先看看阿龙å‚åŠ çš„è¿™ä¸ªé¡¹ç›®çš„èƒŒæ™¯:
RichProlog, a System for Deducing, Inducing and Learning in the Declarative Programming Paradigm.
看æ¥ä»–çš„æ€è·¯åº”è¯¥æ›´åŠ å¤æ‚些,æ ¹æ®ä»–çš„å¯¼å¸ˆçš„èƒŒæ™¯å’Œç ”ç©¶é¡¹ç›®èƒŒæ™¯,阿龙å¯èƒ½ç”¨åˆ°äº†è±¡PROLOG啊,逻辑推ç†å•Šè¿™äº›ä¸œè¥¿;很å¯èƒ½æ˜¯è¿™æ ·çš„:首先构建一个专家系统知识库;里é¢è®°è½½äº†ä¸€äº›çŸ¥è¯†å’Œè§„则,ç„¶åŽå¾—到用户查询åŽ,æ ¹æ®æŽ¨ç†å¾—å‡ºå’Œç”¨æˆ·æŸ¥è¯¢ç›¸å…³çš„ä¸€äº›ä¸»é¢˜è¯æ±‡æ¯”如拿到â€ç‹¬ç«‹æˆ˜äº‰â€,能够计算得到â€åŽç››é¡¿â€,ç„¶åŽæŠŠæŽ¨ç†å¾—出的概念æäº¤æœç´¢å¼•æ“Žå†æ¬¡æ£€ç´¢,获得检索结果
è¿™é‡Œé¢æœ‰ä¸ªæ ¸å¿ƒé—®é¢˜,å’Œç”¨æˆ·æŸ¥è¯¢ç›¸å…³çš„ä¸»é¢˜è¯æ±‡æˆ–者çŸè¯å¦‚何获得?å¯ä»¥äº‹å…ˆæž„建好一个主题知识库,里é¢è®°å½•了和æŸä¸ªè¯æ±‡ä¸»é¢˜ç›¸å…³çš„è¯æ±‡,比如â€ç‹¬ç«‹æˆ˜äº‰â€,在è¯å…¸é‡Œé¢å’Œè¿™ä¸ªçŸè¯ç›¸å…³çš„è¯æ±‡åŒ…括â€åŽç››é¡¿â€ç‰è¯æ±‡
䏋颿˜¯æˆ‘认为阿龙应该åšçš„工作,如果阿龙没有这么åš,那么请阿龙的导师通知阿龙改æˆè¿™ä¹ˆåš,è¿™æ ·æˆ‘çš„æŽ¨ç†å°±ä¸ä¼šå‡ºé”™äº†J:
1. å¾—åˆ°ç”¨æˆ·æŸ¥è¯¢è¯æ±‡,å‡è®¾æ˜¯â€ç‹¬ç«‹æˆ˜äº‰â€;
2. ä½¿ç”¨æŽ¨ç†æœºè®¡ç®—æ ¹æ®è¿™ä¸ªè¯æ±‡å¾—å‡ºçš„ä¸»é¢˜ç›¸å…³è¯æ±‡,å‡è®¾æŽ¨ç†å¾—到â€åŽç››é¡¿â€;
3. 把â€ç‹¬ç«‹æˆ˜äº‰â€å’Œâ€åŽç››é¡¿â€ä½œä¸ºä¸åŒçš„æŸ¥è¯¢æäº¤ç»™ä¸åŒæœç´¢å¼•擎,比如把â€ç‹¬ç«‹æˆ˜äº‰â€æäº¤ç»™GOOGLE,â€åŽç››é¡¿â€æäº¤ç»™YAHOO;
4. 得到返回结果,把æ¯ä¸ªè¿”回结果得分最高的Kä¸ªæ–‡ç« åˆ‡åˆ†æˆå›ºå®šå¤§å°çš„æ®µè½;
5. ç»™æ¯ä¸ªæ®µè½æŒ‰ç…§ç›¸å…³ç¨‹åº¦è¿›è¡Œæ‰“分,选择得分最高的段è½ä½œä¸ºæ˜¾ç¤ºç»“æžœ;
6. 返回给用户检索结果,比如在左边列出推ç†å‡ºçš„ä¸»é¢˜ç›¸å…³è¯æ±‡,ä¸é—´æ˜¾ç¤ºå¾—分最高的段è½å†…容;如果用户关心的内容在段è½é‡Œé¢å·²ç»çœ‹åˆ°å°±æ— 需点击网页;如果是GOOGLEçš„è¯,å³ç«¯è¿˜ä¼šæœ‰å¹¿å‘Š,如果是百度的è¯,会把广告放在检索结果里é¢J
这里é¢çœ‹èµ·æ¥,æœ€æ ¸å¿ƒçš„æ˜¯è¿™ä¸ªæŽ¨ç†æœº,就是给定æŸä¸ªè¯æ±‡,如何推ç†å¾—åˆ°ä¸»é¢˜ç›¸å…³çš„è¯æ±‡,è¿™ä¸ªæ˜¯å¦‚ä½•å®žçŽ°çš„ç‰æˆ‘改天给阿龙打个电è¯é—®é—®,ç„¶åŽåœ¨ç»™å¤§å®¶æ±‡æŠ¥J
Orion:GOOGLEå°†è¦é‡‡ç”¨çš„æ–°ç®—法解æž
ä¸ç§‘院软件所 å¼ ä¿Šæž—
time stamp:2006年4月12日
最后编辑: 郝聪 编辑于2008/02/19 16:58
“Using Search Engines for Discovery Information Retrievalâ€
å› ä¸ºæˆ‘çš„è‹±æ–‡æ°´å¹³å¾ˆé«˜,æ‰€ä»¥æˆ‘è§‰å¾—è¿™ä¸ªæ ‡é¢˜è¯»èµ·æ¥æœ‰ç‚¹åˆ«æ‰(è¦æˆ‘å†™æˆ‘å°±è¿™æ ·å†™:used saerch engenner to FAXIAN information retrieval,æ€Žä¹ˆæ ·,确实技高一ç¹å§J),ä½†æ˜¯ä»Žè¿™ä¸ªæ ‡é¢˜æˆ‘ä»¬ä¹Ÿå¤šå°‘èƒ½discovery一点信æ¯,首先å¯ä»¥çœ‹å‡ºallon的课题跟信æ¯å‘现相关,å†è€…è¿™ç§ä¿¡æ¯å‘现是建立在æœç´¢å¼•擎基础上的,åŒæ—¶ä»ŽSearch Enginesé‡‡ç”¨å¤æ•°æ¥çœ‹(如果allonçš„è‹±æ–‡è¯æ³•è·Ÿæˆ‘ä¸€æ ·exlentçš„è¯J)是在很多æœç´¢å¼•擎的基础上,å¯è§æ•´ä¸ªé¡¹ç›®çš„基础是个元æœç´¢å¼•擎,就是首先从现有若干个æœç´¢å¼•擎的返回结果里é¢è¿›è¡Œä¿¡æ¯å‘现.也许ç¦å°”æ‘©æ–¯èƒ½ä»Žé‡Œé¢æŒ–掘出更多的信æ¯(比如allon的姓å,性别,年龄,婚å¦,çˆ±åƒæŽ‰æ¸£çŽ‹è¿˜æ˜¯å¿…èƒœå®¢ç‰ç‰),对于我æ¥è¯´è¿™äº›æ˜¯èƒ½å¤ŸæŽ¨ç†å‡ºçš„æ‰€æœ‰ä¿¡æ¯äº†.
花开两朵,我们å„表一æž,在æ¤ç‰¹ä½œè¯´æ˜Ž,上é¢çš„æ–‡ä½“é‡‡ç”¨è®°å™æ–‡æ–‡ä½“,为了å„ä½çš„é˜…è¯»ä¹ æƒ¯,下é¢çš„æ–‡ä½“切æ¢ä¸ºè¯´æ˜Žæ–‡,ä¸¤ç§æ–‡ä½“综åˆè¿ç”¨,也算我对新文å¦è¿åЍåšçš„一点贡献了;
上回书说é“哪里了?对了,çœ‹æ¥æˆ‘们åªèƒ½é€šè¿‡åª’体报é“åˆ†æžæŽ¨æµ‹ä¸€ä¸‹GOOGLEå°†è¦é‡‡ç”¨çš„æ–°ç®—æ³•é•¿å¾—æ˜¯ä»€ä¹ˆæ ·å了;
首先,我们看看这个算法达到的效果或者功能是什么,以下是从新闻媒体摘出的,版æƒå½’新闻媒体,翻录ä¸ç©¶(注æ„:è¿™é‡Œä¸æ˜¯ç¬”误,是微软拼音输入法的错误,看æ¥å¾®è½¯çš„ç‰ˆæƒæ„识还ä¸å¤Ÿå¼ºå•ŠJ):
1. OrionTM finds pages where the content is about a topic strongly related to the key word. It then returns a section of the page, and lists other topics related to the key word so the user can pick the most relevant
2. The results to the query are displayed immediately in the form of expanded text extracts, giving you the relevant information without having to go the website--although you still have that option if you wish
3. By displaying results to other associated key words directly related to your search topic, you gain additional pertinent information that you might not have originally conceived, thus offering an expert search without having an expert's knowledge
4. Take a search such as the American Revolution as an example of how the system works. OrionTM would bring up results with extracts containing this phrase. But it would also give results for American History, George Washington, American Revolutionary War, Declaration of Independence, Boston Tea Party and more. You obtain much more valuable information from every search
虽然上é¢çš„å†…å®¹æ¯”è¾ƒå¤æ‚,以我这么高的英文水平都看ä¸å¤§æ‡‚,ä½†æ˜¯æˆ‘è¿˜æ˜¯åšæŒè¦è±¡å¤§å®¶è®²è®²è¿™ä¸ªç®—法功能:
1. 该算法是主题相关的,而ä¸åªæ˜¯ä¼ 统æœç´¢å¼•擎的â€å…³é”®è¯â€ç›¸å…³çš„;å½“ç”¨æˆ·è¾“å…¥æŸ¥è¯¢è¯æ±‡åŽ,能够自动æå–与用户查询相关的主题è¯,å¹¶ä¸”è®©ç”¨æˆ·è¿›è¡Œé€‰æ‹©å“ªäº›ä¸»é¢˜ç›¸å…³è¯æ±‡æ˜¯çœŸæ£ç”¨æˆ·æƒ³æ‰¾åˆ°çš„ä¿¡æ¯;
2. 检索结果是扩展的相关文本,用户åªè¦çœ‹åˆ°è¿™äº›ç›¸å…³æ–‡æœ¬å°±æ— 需点击链接进入页é¢åŽ»æŸ¥çœ‹;
3. 在æäº¤ç»™ç”¨æˆ·çš„æœç´¢ç»“æžœä¸,ä¸ä»…用户æäº¤çš„æŸ¥è¯¢è¯æ±‡ç›¸å…³ä¿¡æ¯è¦æ˜¾ç¤º,ä¸ŽæŸ¥è¯¢è¯æ±‡ç›¸å…³çš„主题è¯èŽ·å¾—çš„æ£€ç´¢ç»“æžœä¹Ÿè¦æ˜¾ç¤º,通过æä¾›ç”¨æˆ·æ²¡æœ‰æƒ³åˆ°çš„ç›¸å…³è¯æ±‡æ¥ä½¿å¾—æœç´¢æ›´åŠ å‡†ç¡®;
看完这些æè¿°åŽ,基于我的知识结构,æˆ‘é¦–å…ˆæƒ³åˆ°çš„æ˜¯å¦‚ä¸‹å‡ ä¸ªè¯æ±‡:æ®µè½æ£€ç´¢;ä¿¡æ¯å…±çް;文本èšç±»;相关å馈ç‰ç‰,åæ£ä¸€å †è¯æ±‡æŽ’ç€é˜Ÿåœ¨æˆ‘è„‘å里争先æåŽå¾€å¤–冒;
è¦æ˜¯æˆ‘çš„è¯,我会如下åš
1. é¦–å…ˆæˆ‘ä»¬å¾—åˆ°ç”¨æˆ·çš„æŸ¥è¯¢è¯æ±‡;
2. æˆ‘ä»¬æŠŠç”¨æˆ·çš„æŸ¥è¯¢è¯æ±‡æäº¤ç»™å‡ 个现有的æœç´¢å¼•擎,比如GOOGLE,YAHOO
3. 得到æœç´¢ç»“æžœ,我们把结果åˆå¹¶åˆ°ä¸€èµ·;
4. 我们把æœç´¢ç»“æžœæŽ’åæ¯”较高的若干个结果,比如å‰20ä¸ªæ–‡ç« ,æŒ‰ç…§å›ºå®šå¤§å°æŠŠæ¯ä¸ªæ–‡ç« 切æˆè‹¥å¹²ç‰‡æ–;
5. å¯¹äºŽåˆ‡å®Œçš„æ‰€æœ‰ç‰‡æ–æ”¾åˆ°ä¸€èµ·,ç„¶åŽè¿›è¡Œæ–‡æœ¬èšç±»,把内容最相似的段è½èšåˆåˆ°ä¸€èµ·,è¿™æ ·å½¢æˆè‹¥å¹²ä¸»é¢˜ç±»;æ¯ä¸ªä¸»é¢˜ç±»å¯ä»¥æ ¹æ®ä¸Žç”¨æˆ·æŸ¥è¯¢å…±çŽ°æ¥æŠ½å–å…±çŽ°é¢‘çŽ‡æœ€é«˜çš„å‡ ä¸ªå…³é”®è¯æˆ–者çŸè¯ä½œä¸ºè¿™ä¸ªç±»çš„关键è¯åˆ—表;
6. 釿–°ç»™æ¯ä¸ªèšç±»ç»“æžœæ ¹æ®ç”¨æˆ·æŸ¥è¯¢è¯æ±‡æŒ‰ç…§ç›¸å…³ç¨‹åº¦æ‰“分;ç„¶åŽæŒ‰ç…§å¾—分高低排åº;输出界é¢åŒ…括:æ¯ä¸ªç±»åˆ«æå–一到2个关键è¯çŸè¯ä¾›ç”¨æˆ·è¿›è¡Œè¿›ä¸€æ¥é€‰æ‹©,如果用户点击æŸä¸ªçŸè¯åˆ™,æ˜¾ç¤ºè¯¥ç±»ä¸æœ€æ ¸å¿ƒçš„那个段è½;
但是,阿龙(allon)会ä¸ä¼šè¿™ä¹ˆåšå‘¢? æƒ³åƒæˆ‘们就是阿龙本人,在实现上述功能的一个算法,我们应该怎么åšå‘¢?
我们先看看阿龙å‚åŠ çš„è¿™ä¸ªé¡¹ç›®çš„èƒŒæ™¯:
RichProlog, a System for Deducing, Inducing and Learning in the Declarative Programming Paradigm.
看æ¥ä»–çš„æ€è·¯åº”è¯¥æ›´åŠ å¤æ‚些,æ ¹æ®ä»–çš„å¯¼å¸ˆçš„èƒŒæ™¯å’Œç ”ç©¶é¡¹ç›®èƒŒæ™¯,阿龙å¯èƒ½ç”¨åˆ°äº†è±¡PROLOG啊,逻辑推ç†å•Šè¿™äº›ä¸œè¥¿;很å¯èƒ½æ˜¯è¿™æ ·çš„:首先构建一个专家系统知识库;里é¢è®°è½½äº†ä¸€äº›çŸ¥è¯†å’Œè§„则,ç„¶åŽå¾—到用户查询åŽ,æ ¹æ®æŽ¨ç†å¾—å‡ºå’Œç”¨æˆ·æŸ¥è¯¢ç›¸å…³çš„ä¸€äº›ä¸»é¢˜è¯æ±‡æ¯”如拿到â€ç‹¬ç«‹æˆ˜äº‰â€,能够计算得到â€åŽç››é¡¿â€,ç„¶åŽæŠŠæŽ¨ç†å¾—出的概念æäº¤æœç´¢å¼•æ“Žå†æ¬¡æ£€ç´¢,获得检索结果
è¿™é‡Œé¢æœ‰ä¸ªæ ¸å¿ƒé—®é¢˜,å’Œç”¨æˆ·æŸ¥è¯¢ç›¸å…³çš„ä¸»é¢˜è¯æ±‡æˆ–者çŸè¯å¦‚何获得?å¯ä»¥äº‹å…ˆæž„建好一个主题知识库,里é¢è®°å½•了和æŸä¸ªè¯æ±‡ä¸»é¢˜ç›¸å…³çš„è¯æ±‡,比如â€ç‹¬ç«‹æˆ˜äº‰â€,在è¯å…¸é‡Œé¢å’Œè¿™ä¸ªçŸè¯ç›¸å…³çš„è¯æ±‡åŒ…括â€åŽç››é¡¿â€ç‰è¯æ±‡
䏋颿˜¯æˆ‘认为阿龙应该åšçš„工作,如果阿龙没有这么åš,那么请阿龙的导师通知阿龙改æˆè¿™ä¹ˆåš,è¿™æ ·æˆ‘çš„æŽ¨ç†å°±ä¸ä¼šå‡ºé”™äº†J:
1. å¾—åˆ°ç”¨æˆ·æŸ¥è¯¢è¯æ±‡,å‡è®¾æ˜¯â€ç‹¬ç«‹æˆ˜äº‰â€;
2. ä½¿ç”¨æŽ¨ç†æœºè®¡ç®—æ ¹æ®è¿™ä¸ªè¯æ±‡å¾—å‡ºçš„ä¸»é¢˜ç›¸å…³è¯æ±‡,å‡è®¾æŽ¨ç†å¾—到â€åŽç››é¡¿â€;
3. 把â€ç‹¬ç«‹æˆ˜äº‰â€å’Œâ€åŽç››é¡¿â€ä½œä¸ºä¸åŒçš„æŸ¥è¯¢æäº¤ç»™ä¸åŒæœç´¢å¼•擎,比如把â€ç‹¬ç«‹æˆ˜äº‰â€æäº¤ç»™GOOGLE,â€åŽç››é¡¿â€æäº¤ç»™YAHOO;
4. 得到返回结果,把æ¯ä¸ªè¿”回结果得分最高的Kä¸ªæ–‡ç« åˆ‡åˆ†æˆå›ºå®šå¤§å°çš„æ®µè½;
5. ç»™æ¯ä¸ªæ®µè½æŒ‰ç…§ç›¸å…³ç¨‹åº¦è¿›è¡Œæ‰“分,选择得分最高的段è½ä½œä¸ºæ˜¾ç¤ºç»“æžœ;
6. 返回给用户检索结果,比如在左边列出推ç†å‡ºçš„ä¸»é¢˜ç›¸å…³è¯æ±‡,ä¸é—´æ˜¾ç¤ºå¾—分最高的段è½å†…容;如果用户关心的内容在段è½é‡Œé¢å·²ç»çœ‹åˆ°å°±æ— 需点击网页;如果是GOOGLEçš„è¯,å³ç«¯è¿˜ä¼šæœ‰å¹¿å‘Š,如果是百度的è¯,会把广告放在检索结果里é¢J
这里é¢çœ‹èµ·æ¥,æœ€æ ¸å¿ƒçš„æ˜¯è¿™ä¸ªæŽ¨ç†æœº,就是给定æŸä¸ªè¯æ±‡,如何推ç†å¾—åˆ°ä¸»é¢˜ç›¸å…³çš„è¯æ±‡,è¿™ä¸ªæ˜¯å¦‚ä½•å®žçŽ°çš„ç‰æˆ‘改天给阿龙打个电è¯é—®é—®,ç„¶åŽåœ¨ç»™å¤§å®¶æ±‡æŠ¥J
Orion:GOOGLEå°†è¦é‡‡ç”¨çš„æ–°ç®—法解æž
ä¸ç§‘院软件所 å¼ ä¿Šæž—
time stamp:2006年4月12日
相关日志
è°·æŒç©¿è¶Šæœç´¢-è°·æŒå®˜æ–¹æ„šäººèŠ‚çŽ©ç¬‘
Google将在æœç´¢ç»“果排å算法ä¸è€ƒè™‘æ¥è‡ªTwitterã€Quoraç‰ç¤¾ä¼šåŒ–网络社区的内容
桥页SEO:网站自我æ¯ç工具
《Google官方SEO入门指å—》å四: 对网站管ç†å‘˜æœ‰ç”¨çš„资æº(完)
《Google官方SEO入门指å—》å三:充分利用网站分æžå·¥å…·
《Google官方SEO入门指å—》å二:充分利用å…费的网站管ç†å‘˜å·¥å…·
《Google官方SEO入门指å—》å一:以æ°å½“çš„æ–¹å¼æŽ¨å¹¿ä½ çš„ç½‘ç«™
《Google官方SEO入门指å—》åï¼šä¸ºé“¾æŽ¥æ·»åŠ nofollow属性
《Google官方SEO入门指å—》ä¹ï¼šæœ‰æ•ˆä½¿ç”¨robots.txt
《Google官方SEO入门指å—》八:网页图片优化
è°·æŒç©¿è¶Šæœç´¢-è°·æŒå®˜æ–¹æ„šäººèŠ‚çŽ©ç¬‘
Google将在æœç´¢ç»“果排å算法ä¸è€ƒè™‘æ¥è‡ªTwitterã€Quoraç‰ç¤¾ä¼šåŒ–网络社区的内容
桥页SEO:网站自我æ¯ç工具
《Google官方SEO入门指å—》å四: 对网站管ç†å‘˜æœ‰ç”¨çš„资æº(完)
《Google官方SEO入门指å—》å三:充分利用网站分æžå·¥å…·
《Google官方SEO入门指å—》å二:充分利用å…费的网站管ç†å‘˜å·¥å…·
《Google官方SEO入门指å—》å一:以æ°å½“çš„æ–¹å¼æŽ¨å¹¿ä½ çš„ç½‘ç«™
《Google官方SEO入门指å—》åï¼šä¸ºé“¾æŽ¥æ·»åŠ nofollow属性
《Google官方SEO入门指å—》ä¹ï¼šæœ‰æ•ˆä½¿ç”¨robots.txt
《Google官方SEO入门指å—》八:网页图片优化
最后编辑: 郝聪 编辑于2008/02/19 16:58