ç¾Žå›¢ç½‘ç«™çš„æ•°æ®æœç´¢æŽ’åºè§£å†³æ–¹æ¡ˆç²¾åŽåˆ†äº«

郝聪 , 2016/07/08 10:39 , 网站运营 , 评论(2) , 阅读(17370) , Via ä¸‰è”

äºŒã€çº¿ä¸‹ç¯‡

ã€€ã€€é’ˆå¯¹ç¾Žå›¢90%çš„äº¤æ˜“å‘ç”Ÿåœ¨ç§»åŠ¨ç«¯çš„ä¸šåŠ¡ç‰¹ç‚¹ï¼Œæˆ‘ä»¬å®žçŽ°äº†ä¸€å¥—é€‚ç”¨äºŽO2Oä¸šåŠ¡çš„æœç´¢æŽ’åºæŠ€æœ¯æ–¹æ¡ˆï¼Œå·²åœ¨è®¸å¤šäº§å“å’Œåè¡Œä¸šä¸å¾—åˆ°åº”ç”¨ã€‚åœ¨ä¹‹å‰çš„ çº¿ä¸Šç¯‡ä¸ï¼Œæˆ‘ä»¬å·²ç»ä»‹ç»äº†æœåŠ¡çš„æ¡†æž¶ã€æŽ’åºç®—æ³•ç‰ã€‚æœ¬æ–‡ä¸ºçº¿ä¸‹ç¯‡ï¼Œä¸»è¦è®²è¿°æ•°æ®æ¸…æ´—ã€ç‰¹å¾çŸ©é˜µã€ç›‘æŽ§ç³»ç»Ÿã€æ¨¡åž‹è®ç»ƒå’Œæ•ˆæžœè¯„ä¼°ç‰æ¨¡å—ã€‚

ã€€ã€€æ•°æ®æ¸…æ´—

ã€€ã€€æ•°æ®æ¸…æ´—çš„ä¸»è¦å·¥ä½œæ˜¯ä¸ºç¦»çº¿æ¨¡åž‹è®ç»ƒå‡†å¤‡æ ‡æ³¨æ•°æ®ï¼ŒåŒæ—¶æ´—æŽ‰ä¸åˆæ³•æ•°æ®ã€‚æ•°æ®æ¸…æ´—çš„æ•°æ®æºä¸»è¦æœ‰å›¢è´çš„æ›å…‰ã€ç‚¹å‡»å’Œä¸‹å•ã€‚

ã€€ã€€æ•´ä¸ªæ•°æ®æ¸…æ´—çš„æµç¨‹å¦‚ä¸‹ï¼š

ã€€ã€€åºåˆ—åŒ–

ã€€ã€€æ›å…‰ã€ç‚¹å‡»å’Œä¸‹å•æ•°æ®ä»ŽHiveè¡¨ä¸è¯»å–ï¼Œé‡‡ç”¨schemaçš„å¤„ç†æ–¹å¼ï¼Œå¯ä»¥ç›´æŽ¥æ ¹æ®æ—¥å¿—å—æ®µåæ¥æŠ½å–ç›¸åº”çš„å—æ®µï¼Œä¸å—æ—¥å¿—å—æ®µå¢žåŠ æˆ–è€…å‡å°‘çš„å½±å“ã€‚

ã€€ã€€æ›å…‰æ—¥å¿—å˜å‚¨äº†ä¸€æ¬¡ç”¨æˆ·è¡Œä¸ºçš„è¯¦ç»†ä¿¡æ¯ï¼ŒåŒ…æ‹¬åŸŽå¸‚ã€åœ°ç†ä½ç½®ã€ç›é€‰æ¡ä»¶åŠä¸€äº›è¡Œä¸ºç‰¹å¾;ç‚¹å‡»æ—¥å¿—ä¸»è¦è®°å½•äº†ç”¨æˆ·ç‚¹å‡»çš„POIIDã€ç‚¹å‡»æ—¶é—´;ä¸‹ å•æ—¥å¿—è®°å½•äº†ç”¨æˆ·ä¸‹å•çš„POIIDã€ä¸‹å•æ—¶é—´å’Œä¸‹å•çš„é‡‘é¢ã€‚æ•°æ®æ¸…æ´—æ¨¡å—æ ¹æ®é…ç½®æ–‡ä»¶ä»Žæ•°æ®æºä¸æŠ½å–éœ€è¦çš„å—æ®µï¼Œè¿›è¡Œåºåˆ—åŒ– (Serialization)ä¹‹åŽå˜å‚¨åœ¨HDFSä¸Šã€‚

ã€€ã€€åºåˆ—åŒ–çš„è¿‡ç¨‹ä¸ï¼Œå¦‚æžœæ—¥å¿—å—æ®µä¸åˆæ³•æˆ–è€…å•ä¸€ç”¨æˆ·æ›å…‰ã€ç‚¹å‡»æˆ–ä¸‹å•è¶…å‡ºè®¾å®šçš„é˜ˆå€¼ï¼Œç›¸å…³æ—¥å¿—éƒ½ä¼šè¢«æ¸…æ´—æŽ‰ï¼Œé¿å…æ•°æ®å¯¹æ¨¡åž‹è®ç»ƒé€ æˆå½±å“ã€‚

ã€€ã€€æ•°æ®æ ‡æ³¨

ã€€ã€€æ•°æ®åºåˆ—åŒ–ä¹‹åŽåœ¨HDFSä¸Šä¿å˜ä¸‰ä»½æ–‡æœ¬æ–‡ä»¶ï¼Œåˆ†åˆ«æ˜¯æ›å…‰(Impression)ã€ç‚¹å‡»(Click)å’Œä¸‹å•(Order)ã€‚æ•°æ®æ ‡æ³¨æ¨¡å—æ ¹ æ®globalid(ä¸€æ¬¡æœç´¢çš„å…¨å±€å”¯ä¸€æ ‡ç¤ºï¼Œç±»ä¼¼äºŽsessionid)å’Œç›¸åº”çš„å›¢è´idä¸ºkeyï¼Œå°†æ›å…‰ã€ç‚¹å‡»å’Œä¸‹å•å…³è”èµ·æ¥ï¼Œæœ€ç»ˆç”Ÿæˆä¸€ä»½æ ‡æ³¨å¥½æ˜¯ å¦è¢«ç‚¹å‡»ã€ä¸‹å•ã€æ”¯ä»˜çš„æ ‡æ³¨æ•°æ®ã€‚åŒæ—¶è¿™ä»½æ ‡æ³¨æ•°æ®æºå¸¦äº†æœ¬æ¬¡å±•çŽ°çš„è¯¦ç»†ç‰¹å¾ä¿¡æ¯ã€‚

ã€€ã€€æ•°æ®æ ‡æ³¨é€šè¿‡ä¸€æ¬¡Map/Reduceæ¥å®Œæˆã€‚

ã€€ã€€Mapé˜¶æ®µï¼šMapçš„è¾“å…¥ä¸ºæ›å…‰ã€ç‚¹å‡»å’Œä¸‹å•ä¸‰ç§HDFSæ•°æ®ã€‚ ç”¨ä¸‰ä¸ªMapperåˆ†åˆ«å¤„ç†ä¸‰ç§æ—¥å¿—ã€‚æ•°æ®åˆ†å‘çš„keyä¸ºglobalidã€‚å…¶ä¸ï¼Œå¦‚æžœç‚¹å‡»å’Œä¸‹å•æ•°æ®ä¸çš„globalidå—æ®µä¸ºç©º("")ï¼Œåˆ™ä¸¢å¼ƒè¯¥æ¡ æ—¥å¿—(å› ä¸ºglobalidä¸ºç©ºæ— æ³•å’Œæ›å…‰æ—¥å¿—joinï¼Œä¼šå‡ºçŽ°è¯¯æ ‡æ³¨)ã€‚

ã€€ã€€Reduceé˜¶æ®µï¼šReduceæŽ¥æ”¶çš„keyä¸ºglobalid, valuesä¸ºå…·æœ‰ç›¸åŒglobalidçš„æ›å…‰ã€ç‚¹å‡»ã€ä¸‹å•æ•°æ®Listï¼ŒéåŽ†è¯¥List, å¦‚æžœ

ã€€ã€€æ—¥å¿—ç±»åž‹ä¸ºæ›å…‰æ—¥å¿—ï¼Œåˆ™æ ‡è®°è¯¥globalidå¯¹åº”çš„æ›å…‰æ—¥å¿—å˜åœ¨(imp_exist=true)ã€‚

ã€€ã€€æ—¥å¿—ç±»åž‹ä¸ºç‚¹å‡»æ—¥å¿—ï¼Œåˆ™å°†æ›å…‰æ—¥å¿—çš„clickedå—æ®µç½®ä¸º1ã€‚

ã€€ã€€æ—¥å¿—ç±»åž‹ä¸ºä¸‹å•æ—¥å¿—ï¼Œåˆ™å°†æ›å…‰æ—¥å¿—çš„orderedå—æ®µç½®ä¸º1ã€‚

ã€€ã€€æ—¥å¿—ç±»åž‹ä¸ºä¸‹å•æ—¥å¿—ï¼Œå¦‚æžœpay_accountå—æ®µ>0ï¼Œ åˆ™å°†æ›å…‰æ—¥å¿—çš„paidå—æ®µç½®ä¸º1ã€‚

ã€€ã€€éåŽ†Listä¹‹åŽï¼Œå¦‚æžœimp_exist == true, åˆ™å°†æ ‡æ³¨å¥½çš„æ•°æ®å†™å…¥HDFSï¼Œ å¦åˆ™ä¸¢å¼ƒã€‚

ã€€ã€€æ•°æ®æ ‡æ³¨çš„æµç¨‹å›¾å¦‚ä¸‹ï¼š

ã€€ã€€ç‰¹å¾çŸ©é˜µ

ã€€ã€€ç‰¹å¾çŸ©é˜µçš„ä½œç”¨æ˜¯æä¾›ä¸°å¯Œçš„ç‰¹å¾é›†åˆï¼Œä»¥æ–¹ä¾¿åœ¨çº¿å’Œç¦»çº¿ç‰¹å¾è°ƒç ”ä½¿ç”¨ã€‚

ã€€ã€€ç‰¹å¾çŸ©é˜µçš„ç”Ÿæˆ

ã€€ã€€ç‰¹å¾çŸ©é˜µçš„ç”Ÿæˆæ¡†æž¶ä¸ºï¼š

ã€€ã€€ä¸‹é¢æˆ‘ä»¬æ¥è¯¦ç»†è¯´æ˜Žä¸€ä¸‹æµç¨‹ã€‚

ã€€ã€€åŸºç¡€ç‰¹å¾æŒ‰æ¥æºå¯åˆ†ä¸ºä¸‰éƒ¨åˆ†ï¼š

ã€€ã€€1ã€Hiveè¡¨ï¼šæœ‰ä¸€äº›åŸºç¡€ç‰¹å¾å˜å‚¨åœ¨Hiveæ ‡æ³¨ï¼Œå¦‚POIçš„åå—ã€å“ç±»ã€å›¢è´æ•°ç‰ã€‚

ã€€ã€€2ã€ç¦»çº¿è®¡ç®—ï¼šä¸€äº›ç‰¹å¾éœ€è¦ç§¯ç´¯ä¸€æ®µæ—¶é—´æ‰èƒ½ç»Ÿè®¡ï¼Œå¦‚POIçš„ç‚¹å‡»çŽ‡ã€é”€é‡ç‰ï¼Œè¿™éƒ¨åˆ†é€šè¿‡ç§¯ç´¯åŽ†å²æ•°æ®ï¼Œç„¶åŽç»è¿‡Map/Reduceå¤„ç†å¾—åˆ°ã€‚

ã€€ã€€3ã€HDFSï¼šç‰¹å¾çŸ©é˜µå¯èƒ½èžåˆç¬¬ä¸‰æ–¹æœåŠ¡çš„ç‰¹å¾ï¼Œä¸€èˆ¬ç¬¬ä¸‰æ–¹æœåŠ¡å°†äº§ç”Ÿçš„ç‰¹å¾æŒ‰ç…§çº¦å®šçš„æ ¼å¼å˜å‚¨åœ¨HDFSä¸Šã€‚

ã€€ã€€æ•°æ®æºç»Ÿä¸€æ ¼å¼ä¸ºï¼š poiid/dealid/bizareaid 't' name1:value1't' name2:value2...

ã€€ã€€ç‰¹å¾åˆå¹¶æ¨¡å—ï¼Œå°†æ‰€æœ‰æ¥æºåˆå¹¶ä¸ºä¸€ä¸ªå¤§æ–‡ä»¶ï¼Œé€šè¿‡feature confé…ç½®çš„ç‰¹å¾å’Œç‰¹å¾é¡ºåºï¼Œå°†ç‰¹å¾åºåˆ—åŒ–ï¼Œç„¶åŽå†™å…¥Hiveè¡¨ã€‚

ã€€ã€€ç‰¹å¾ç›‘æŽ§æ¨¡å—æ¯å¤©ç›‘æŽ§ç‰¹å¾çš„åˆ†å¸ƒç‰æ˜¯å¦å¼‚å¸¸ã€‚ ç‰¹å¾çŸ©é˜µçš„ç‰¹å¾æ¯æ—¥æ›´æ–°ã€‚

ã€€ã€€æ·»åŠ æ–°çš„ç‰¹å¾æ¥æºï¼Œåªéœ€è¦æŒ‰ç…§çº¦å®šçš„æ ¼å¼ç”Ÿæˆæ•°æ®æºï¼Œé…ç½®è·¯å¾„ï¼Œå¯è‡ªåŠ¨æ·»åŠ ã€‚

ã€€ã€€æ·»åŠ æ–°ç‰¹å¾ï¼Œåœ¨feature confæ–‡ä»¶æœ«å°¾æ·»åŠ ç›¸åº”çš„ç‰¹å¾åï¼Œç‰¹å¾åå—å’Œæ•°æ®æºä¸çš„ç‰¹å¾nameä¿æŒä¸€è‡´ï¼Œæœ€åŽä¿®æ”¹ç›¸åº”çš„ç‰¹å¾Hiveè¡¨ç»“æž„ã€‚

ã€€ã€€ç‰¹å¾çŸ©é˜µçš„ä½¿ç”¨

ã€€ã€€ç‰¹å¾çŸ©é˜µçš„ä½¿ç”¨æ¡†æž¶ä¸ºï¼š

ã€€ã€€æˆ‘ä»¬æ¥è¯¦ç»†è¯´æ˜Žä¸€ä¸‹æµç¨‹ã€‚

ã€€ã€€å…¶ä¸ç‰¹å¾çŸ©é˜µæ—¢æä¾›åœ¨çº¿çš„ç‰¹å¾ä»“åº“ï¼Œåˆå¯æä¾›ç¦»çº¿çš„ç‰¹å¾è°ƒç ”ã€‚çº¿ä¸ŠæœåŠ¡éœ€è¦å¤§é‡çš„ç‰¹å¾æ¥å¯¹POI/DEALè´¨é‡æ‰“åˆ†ï¼Œç‰¹å¾åˆ†æ•£ä¼šé€ æˆæœåŠ¡å–ç”¨ç‰¹ å¾å¾ˆè€—æ—¶ï¼Œç‰¹å¾çŸ©é˜µå°†ç‰¹å¾æ•´åˆï¼Œå¾ˆå¥½çš„è§£å†³äº†ç‰¹å¾è€—æ—¶çš„é—®é¢˜ã€‚ä¸€èˆ¬è°ƒç ”ä¸€ä¸ªæ–°ç‰¹å¾éœ€è¦ç§¯ç´¯ä¸€æ®µæ—¶é—´çš„æ•°æ®ï¼Œå°†ç‰¹å¾æ”¾å…¥ç‰¹å¾çŸ©é˜µï¼Œ

ã€€ã€€ç„¶åŽå’Œå·²æœ‰çš„æ•°æ®è¿›è¡Œèžåˆï¼Œå¯æ–¹ä¾¿çš„æž„é€ åŒ…å«æ–°ç‰¹å¾çš„è®ç»ƒæ•°æ®ã€‚ä¸‹é¢æˆ‘ä»¬åˆ†åˆ«æ¥çœ‹ä¸€ä¸‹åœ¨çº¿ã€ç¦»çº¿å’Œç‰¹å¾èžåˆçš„æµç¨‹ã€‚

ã€€ã€€åœ¨çº¿ä½¿ç”¨

ã€€ã€€åœ¨çº¿æ–¹é¢çš„ä½¿ç”¨ä¸»è¦æ˜¯æ–¹ä¾¿ç‰¹å¾çš„èŽ·å–ï¼Œå°†çº¿ä¸Šéœ€è¦çš„ç‰¹å¾çº³å…¥ç‰¹å¾çŸ©é˜µç»Ÿä¸€ç®¡ç†ï¼Œé€šè¿‡é…ç½®æ–‡ä»¶è¯»å–ç‰¹å¾çŸ©é˜µçš„ç‰¹å¾ï¼Œå°è£…æˆProto Bufferså†™å…¥Medis(ç¾Žå›¢è‡ªä¸»æž„å»ºçš„Redisé›†ç¾¤ï¼Œæ”¯æŒåˆ†å¸ƒå¼å’Œå®¹é”™)ï¼Œé€šè¿‡Medis keyæ‰¹é‡è¯»å–è¯¥keyå¯¹åº”çš„ç‰¹å¾ï¼Œå‡å°‘è¯»å–Medisçš„æ¬¡æ•°ï¼Œä»Žè€Œç¼©å‡ç‰¹å¾èŽ·å–çš„æ—¶é—´ï¼Œæé«˜ç³»ç»Ÿçš„æ€§èƒ½ã€‚

ã€€ã€€ç‰¹å¾çŸ©é˜µåœ¨çº¿ä½¿ç”¨æ¡†æž¶å¦‚ä¸‹ï¼š

ã€€ã€€æµç¨‹è¯´æ˜Žï¼š

ã€€ã€€åºåˆ—åŒ–æ¨¡å—é€šè¿‡ç‰¹å¾é…ç½®æ–‡ä»¶ä»Žç‰¹å¾çŸ©é˜µæŠ½å–éœ€è¦çš„ç‰¹å¾ï¼Œè°ƒç”¨protoBuffer Libå°†ç‰¹å¾å°è£…æˆprotoBufferçš„æ ¼å¼ï¼Œå†™å…¥Medisã€‚

ã€€ã€€çº¿ä¸Šé€šè¿‡featureLoaderæœåŠ¡ä»ŽMedisè¯»å–æ•°æ®ï¼Œç„¶åŽé€šè¿‡protoBufferLibååºåˆ—åŒ–æ•°æ®ï¼Œå–åˆ°ç›¸åº”çš„ç‰¹å¾å€¼ã€‚

ã€€ã€€ç¦»çº¿ä½¿ç”¨

ã€€ã€€ç¦»çº¿æ–¹é¢çš„ä½¿ç”¨ä¸»è¦æ˜¯æ–¹ä¾¿è°ƒç ”æ–°ç‰¹å¾ã€‚å¦‚æžœä»Žçº¿ä¸ŠèŽ·å–æ–°ç‰¹å¾ï¼Œç”±äºŽéœ€è¦ç§¯ç´¯è®ç»ƒæ•°æ®ï¼Œç‰¹å¾è°ƒç ”çš„å‘¨æœŸä¼šå˜é•¿;è€Œå¦‚æžœå°†å¾…è°ƒç ”çš„ç‰¹å¾çº³å…¥ç‰¹å¾çŸ©é˜µä¸ï¼Œå¯ä»¥å¾ˆæ–¹ä¾¿åœ°é€šè¿‡ç¦»çº¿çš„æ–¹æ³•è°ƒç ”ç‰¹å¾çš„æœ‰æ•ˆæ€§ï¼Œæžå¤§çš„ç¼©çŸäº†ç‰¹å¾è°ƒç ”çš„å‘¨æœŸï¼Œæé«˜å¼€å‘æ•ˆçŽ‡å’Œæ¨¡åž‹è¿ä»£çš„é€Ÿåº¦ã€‚

ã€€ã€€ç‰¹å¾çŸ©é˜µç¦»çº¿ä½¿ç”¨æ¡†æž¶å¦‚ä¸‹ï¼š

ã€€ã€€å…¶ä¸ï¼Œä»Žç‰¹å¾çŸ©é˜µå–å‡ºå¾…è°ƒç ”çš„æ–°ç‰¹å¾ï¼Œæ ¼å¼åŒ–ä¸º joinKey 't' FeatureName:FeatureValueï¼Œ ä¾‹å¦‚ 12345 't' CTR:0.123ï¼Œjoinkeyä¸ºpoiid, æ–°ç‰¹å¾ä¸ºCTRï¼Œç‰¹å¾å€¼ä¸º0.123ã€‚æ ¼å¼åŒ–åŽçš„æ–°ç‰¹å¾æ–‡ä»¶å’Œæ ‡æ³¨å¥½çš„rerankæ—¥å¿—ä½œä¸ºè¾“å…¥ï¼Œç»è¿‡Map/Reduceå¤„ç†ç”Ÿæˆæ–°çš„æ ‡æ³¨æ—¥å¿—ï¼Œç”¨äºŽæ¨¡ åž‹è®ç»ƒã€‚

ã€€ã€€ç‰¹å¾èžåˆ

ã€€ã€€ç‰¹å¾èžåˆä½œç”¨äºŽç¦»çº¿ç‰¹å¾è°ƒç ”ï¼Œä¸Šç¯‡æˆ‘ä»¬æåˆ°æ•°æ®æ ‡å‡†ä¼šè¾“å‡ºæ‹¥æœ‰ä¸°å¯Œç‰¹å¾çš„æ ‡æ³¨æ—¥å¿—ï¼Œç‰¹å¾èžåˆçš„ç›®çš„åœ¨äºŽå°†å¾…è°ƒç ”çš„æ–°ç‰¹å¾é€šè¿‡æŸä¸€ä¸ªjoinkey åˆå¹¶åˆ°åœ¨çº¿ç‰¹å¾åˆ—è¡¨ä¸ï¼Œä»Žè€Œåœ¨æ¨¡åž‹è®ç»ƒä¸ä½¿ç”¨è¯¥ç‰¹å¾ã€‚

ã€€ã€€ç‰¹å¾èžåˆçš„æ¡†æž¶ï¼š

ã€€ã€€æµç¨‹è¯´æ˜Žï¼š ç‰¹å¾èžåˆæ¨¡å—å¯ä»¥æŒ‡å®šä»»æ„ä¸€ä¸ªæˆ–è€…å¤šä¸ªjoin keyï¼Œå°†ç¦»çº¿ç‰¹å¾åŠ å…¥åœ¨çº¿ç‰¹å¾åˆ—è¡¨ã€‚

ã€€ã€€ç›‘æŽ§ç³»ç»Ÿ

ã€€ã€€ç›‘æŽ§ç³»ç»Ÿçš„ç›®çš„æ˜¯ç¡®ä¿åœ¨çº¿å’Œç¦»çº¿ä»»åŠ¡çš„æ£å¸¸è¿è¡Œã€‚ç›‘æŽ§ç³»ç»ŸæŒ‰ç…§ä½œç”¨èŒƒå›´çš„ä¸åŒåˆåˆ†ä¸ºçº¿ä¸Šç›‘æŽ§å’Œç¦»çº¿ç›‘æŽ§ã€‚

ã€€ã€€çº¿ä¸Šç›‘æŽ§

ã€€ã€€çº¿ä¸Šç›‘æŽ§ä¸»è¦æ˜¯ç›‘æµ‹æ”¶é›†çš„åœ¨çº¿ç‰¹å¾æ—¥å¿—æ˜¯å¦æ£å¸¸ï¼Œçº¿ä¸Šç‰¹å¾ç›‘æŽ§ä¸»è¦æ£€æµ‹ç‰¹å¾çš„è¦†ç›–åº¦ã€é˜ˆå€¼èŒƒå›´ã€åˆ†å¸ƒå¼‚å¸¸ä¸‰æ–¹é¢ã€‚

ã€€ã€€ä¸‰æ–¹é¢çš„ç›‘æŽ§ä¸»è¦åˆ†ä»¥ä¸‹å‡ ä¸ªåœºæ™¯ï¼š

ã€€ã€€è¦†ç›–åº¦ï¼šç›‘æŽ§ç‰¹å¾çš„æ•°æ®æºæ˜¯å¦å˜åœ¨æˆ–è€…æœ‰æ•°æ®ä¸¢å¤±ã€‚

ã€€ã€€é˜ˆå€¼èŒƒå›´ï¼šç›‘æŽ§ç‰¹å¾çš„é˜ˆå€¼æ˜¯å¦ç¬¦åˆé¢„æœŸï¼Œé˜²æ¢å› ä¸ºç”Ÿæˆç‰¹å¾çš„ç®—æ³•æ”¹å˜æˆ–è€…åœ¨çº¿è®¡ç®—æ–¹æ³•çš„ä¸åŒç‰å› ç´ é€ æˆç‰¹å¾çš„æœ€å¤§å€¼æˆ–è€…æœ€å°å€¼å‘ç”Ÿæ¯”è¾ƒæ˜Žæ˜¾çš„å˜åŒ–ï¼Œå¯¼è‡´ç‰¹å¾ä¸å¯ç”¨ã€‚

ã€€ã€€åˆ†å¸ƒå¼‚å¸¸ï¼šç›‘æŽ§ç‰¹å¾å€¼çš„åˆ†å¸ƒæ˜¯å¦ç¬¦åˆé¢„æœŸï¼Œä¸»è¦é˜²æ¢å› ä¸ºèŽ·å–ä¸åˆ°ç‰¹å¾ï¼Œä½¿å¾—ç‰¹å¾éƒ½ä½¿ç”¨äº†é»˜è®¤å€¼ï¼Œè€Œåˆæ²¡æœ‰åŠæ—¶å‘çŽ°ï¼Œå¯¼è‡´çº¿ä¸Šæ¨¡åž‹é¢„ä¼°å‡ºçŽ°åå·®ã€‚åˆ†å¸ƒå¼‚å¸¸ä¸»è¦ç”¨åˆ°äº†å¡æ–¹è·ç¦»[3]ã€‚

ã€€ã€€ç‰¹å¾è¦†ç›–åº¦ç›‘æŽ§æ•ˆæžœå›¾ï¼š

ã€€ã€€ä¸‹å›¾æ˜¯ç”¨æˆ·åˆ°POIè·ç¦»çš„è¦†ç›–åº¦ç›‘æŽ§ã€‚ä»Žå›¾ä¸å¯ä»¥ç›´è§‚çš„çœ‹å‡ºï¼Œè¯¥ç‰¹å¾çš„è¦†ç›–åº¦çº¦ä¸º75%ï¼Œä¹Ÿå³åªæœ‰75%çš„ç”¨æˆ·èƒ½å¾—åˆ°è·ç¦»ç‰¹å¾ï¼Œå¦å¤–25%å¯èƒ½ æ²¡æœ‰å¼€æ‰‹æœºå®šä½æœåŠ¡æˆ–è€…å¾—ä¸åˆ°POIçš„åæ ‡ã€‚75%çš„è¦†ç›–åº¦æ˜¯ä¸€ä¸ªæ¯”è¾ƒç¨³å®šçš„æŒ‡æ ‡ï¼Œå¦‚æžœè¦†ç›–åº¦å˜çš„å¾ˆé«˜æˆ–è€…å¾ˆä½Žéƒ½è¯´æ˜Žæˆ‘ä»¬çš„ç³»ç»Ÿå‡ºçŽ°äº†é—®é¢˜ï¼Œè€Œæˆ‘ä»¬çš„ç›‘æŽ§ ç³»ç»Ÿèƒ½åŠæ—¶å‘çŽ°è¿™ç§é—®é¢˜ã€‚

ã€€ã€€ç¦»çº¿ç›‘æŽ§

ã€€ã€€ç¦»çº¿ç›‘æŽ§ä¸»è¦æ£€æµ‹ä¸¤æ–¹é¢ï¼š1ã€ç¦»çº¿ä»»åŠ¡æ˜¯å¦æŒ‰æ—¶å®ŒæˆåŠç”Ÿæˆçš„æ•°æ®æ˜¯å¦æ£ç¡®ã€‚ 2ã€ç‰¹å¾çŸ©é˜µç‰¹å¾çš„æœ‰æ•ˆæ€§ã€‚

ã€€ã€€å½“ç¦»çº¿å®šæ—¶ä»»åŠ¡å¤šè¾¾æ•°åä¸ªçš„æ—¶å€™ï¼Œå¾ˆéš¾æ¯å¤©åŽ»é€ä¸ªæ£€æŸ¥æ¯ä¸ªä»»åŠ¡æ˜¯å¦å¦‚æœŸå®Œæˆï¼Œè¿™æ—¶å€™ç¦»çº¿ä»»åŠ¡ç›‘æŽ§çš„é‡è¦æ€§å°±å‡¸æ˜¾å‡ºæ¥ã€‚å½“å‰ç¦»çº¿ç›‘æŽ§å¯ä»¥æ ¹æ®é…ç½® æ–‡ä»¶ï¼Œç›‘æŽ§éœ€è¦å…³æ³¨çš„ä»»åŠ¡ï¼Œä»¥åŠè¿™äº›ä»»åŠ¡ç”Ÿæˆçš„æ•°æ®æ˜¯å¦æ£å¸¸ã€‚å¦‚æžœä¸æ£å¸¸åˆ™å‘å‡ºæŠ¥è¦ç»™ä»»åŠ¡è´Ÿè´£äººï¼Œè¾¾åˆ°ä»»åŠ¡å¤±è´¥èƒ½å¤ŸåŠæ—¶å¤„ç†çš„ç›®çš„ã€‚

ã€€ã€€ç‰¹å¾çŸ©é˜µç›‘æŽ§çš„ç›®çš„ä¸Žåœ¨çº¿ç‰¹å¾çš„ç›‘æŽ§ç›®çš„ä¸€æ ·ï¼Œç›‘æŽ§æŒ‡æ ‡ä¹Ÿç›¸åŒï¼Œæ‰€ä¸åŒçš„æ˜¯å› ä¸ºç›‘æŽ§æ•°æ®çš„èŽ·å–ä¸åŒï¼Œç›‘æŽ§å®žçŽ°ä¹Ÿä¸å°½ç›¸åŒï¼Œè¿™é‡Œä¸å†èµ˜è¿°ã€‚

ã€€ã€€æ¨¡åž‹è°ƒç ”

ã€€ã€€æ¨¡åž‹è®ç»ƒ

ã€€ã€€æ¨¡åž‹è®ç»ƒæ¡†æž¶æ”¯æŒå¤šç§æ¨¡åž‹çš„è®ç»ƒï¼Œå°†è®ç»ƒæ•°æ®æ ¼å¼åŒ–ä¸ºæ¨¡åž‹éœ€è¦çš„è¾“å…¥æ ¼å¼ã€‚ä¿®æ”¹æ¨¡åž‹è®ç»ƒçš„é…ç½®æ–‡ä»¶ï¼Œå°±å¯ä»¥ä½¿ç”¨è¯¥æ¡†æž¶è®ç»ƒæ¨¡åž‹äº†ã€‚

ã€€ã€€æ¨¡åž‹è®ç»ƒæ¡†æž¶ï¼š

ã€€ã€€å…¶ä¸ï¼Œé¡¶å±‚æ˜¯è®ç»ƒæ•°æ®å’Œæµ‹è¯•æ•°æ®çš„è¾“å…¥å±‚ï¼Œè¯¥å±‚æ˜¯åŽŸå§‹è®ç»ƒå’Œæµ‹è¯•æ•°æ®ã€‚

ã€€ã€€ä¸é—´æ˜¯æ¨¡åž‹è®ç»ƒçš„æ¡†æž¶ï¼Œæ¡†æž¶æ”¯æŒå¤šä¸ªé…ç½®é¡¹ï¼ŒåŒ…æ‹¬é…ç½®æ¨¡åž‹ç®—æ³•ã€ç›¸åº”çš„å‚æ•°ã€æ•°æ®æºçš„è¾“å…¥åŠæ¨¡åž‹çš„è¾“å‡ºç‰ã€‚

ã€€ã€€åº•å±‚æ˜¯å¤šç§æ¨¡åž‹çš„å®žçŽ°ï¼Œç®—æ³•ä¹‹å‰ç›¸äº’ç‹¬ç«‹ï¼Œæ¯ç§ç®—æ³•å°è£…æˆç‹¬ç«‹çš„jarï¼Œæä¾›ç»™æ¨¡åž‹è®ç»ƒæ¡†æž¶ä½¿ç”¨ï¼Œç›®å‰æ”¯æŒçš„ç®—æ³•åŒ…æ‹¬GBDT[4]ã€FTRL[5]ã€‚

ã€€ã€€ä¸ºäº†å®žçŽ°æ¨¡åž‹çš„å¿«é€Ÿè¿ä»£ï¼Œæ¨¡åž‹è®ç»ƒæ”¯æŒåœ¨Sparkä¸Šè¿è¡Œã€‚

ã€€ã€€æ•ˆæžœè¯„ä¼°

ã€€ã€€æ¨¡åž‹çš„æ•ˆæžœè¯„ä¼°ä¸»è¦æ˜¯å¯¹æ¯”æ–°æ¨¡åž‹å’Œè€æ¨¡åž‹çš„æ•ˆæžœï¼Œä»¥è¯„ä¼°ç»“æžœæ¥å†³å®šæ˜¯å¦æ›´æ–°çº¿ä¸Šæ¨¡åž‹ã€‚

ã€€ã€€æˆ‘ä»¬çš„ç³»ç»Ÿæ”¯æŒä¸¤ç§æ•ˆæžœæŒ‡æ ‡çš„è¯„ä¼°ï¼Œä¸€ç§æ˜¯AUC[1]ï¼Œå¦ä¸€ç§æ˜¯MAPã€‚

ã€€ã€€MAP(Mean Average Precision)[2]æ˜¯ä¸€ç§å¯¹æœç´¢æŽ’åºç»“æžœå¥½åè¯„ä¼°çš„æŒ‡æ ‡ã€‚

ã€€ã€€Prec@K çš„å®šä¹‰ï¼š è®¾å®šé˜ˆå€¼Kï¼Œè®¡ç®—æŽ’åºç»“æžœtopKçš„ç›¸å…³åº¦ã€‚

ã€€ã€€æ³¨ï¼šç»¿è‰²è¡¨ç¤ºæœç´¢ç»“æžœä¸Žæœç´¢è¯ç›¸å…³ï¼Œçº¢è‰²è¡¨ç¤ºä¸ç›¸å…³ã€‚

ã€€ã€€AP(Average Precision)çš„å®šä¹‰ï¼š Average Precision = average of Prec@K

ã€€ã€€APä½œä¸ºæŽ’åºå¥½åçš„ç›´è§‚ç†è§£

ã€€ã€€ç°è‰²è¡¨ç¤ºä¸Žæœç´¢ç›¸å…³çš„ç»“æžœï¼Œåœ¨å›¢è´ä¸è¡¨ç¤ºè¢«ç‚¹å‡»çš„DEALï¼Œä»Žå¬å›žç»“æžœçœ‹Ranking#1è¦å¥½äºŽRanking#2ï¼Œåæ˜ åœ¨MAPæŒ‡æ ‡ä¸Šï¼ŒRanking#1çš„MAPå€¼å¤§äºŽRanking#2çš„MAPå€¼ã€‚

ã€€ã€€æ‰€ä»¥å¯ä»¥ç®€å•åœ°ä½¿ç”¨APå€¼æ¥è¡¡é‡æ¨¡åž‹æŽ’åºçš„å¥½åã€‚

ã€€ã€€MAPçš„è®¡ç®—

ã€€ã€€å¯¹äºŽå¤šä¸ªqueryçš„æœç´¢ç»“æžœï¼ŒMAPä¸ºè¿™äº›æœç´¢ç»“æžœAPçš„å‡å€¼ã€‚

ã€€ã€€å®žéªŒç»“æžœè¡¨æ˜ŽMAPä½œä¸ºæŽ’åºæŒ‡æ ‡ï¼Œå¯¹æ¨¡åž‹å¥½åçš„è¯„ä¼°èµ·åˆ°å¾ˆå¥½çš„æŒ‡å¯¼ä½œç”¨ã€‚

ã€€ã€€åœ¨AUCçš„è¿‘ä¼¼è®¡ç®—æ–¹æ³•ä¸ï¼Œä¸»è¦è€ƒè™‘æœ‰å¤šå°‘å¯¹æ£è´Ÿæ ·æœ¬ç»„åˆä¸æ£æ ·æœ¬çš„å¾—åˆ†å¤§äºŽè´Ÿæ ·æœ¬çš„å¾—åˆ†ï¼Œä¸Žæ£æ ·æœ¬åœ¨æŽ’åºä¸çš„å…·ä½“ä½ç½®æ²¡æœ‰ç»å¯¹çš„å…³ç³»ã€‚å½“æ£è´Ÿ æ ·æœ¬çš„åˆ†å¸ƒå˜åŒ–ï¼Œå¦‚æŸä¸€å°éƒ¨åˆ†æ£æ ·æœ¬å¾—åˆ†å˜å¤§ï¼Œå¤§éƒ¨åˆ†æ£æ ·æœ¬å¾—åˆ†å˜å°ï¼Œé‚£ä¹ˆæœ€ç»ˆè®¡ç®—çš„AUCå€¼å¯èƒ½æ²¡æœ‰å‘ç”Ÿå˜åŒ–ï¼Œä½†æŽ’åºçš„ç»“æžœå´å‘ç”Ÿäº†å¾ˆå¤§å˜åŒ–(å¤§éƒ¨åˆ†ç”¨ æˆ·æ„Ÿå…´è¶£çš„å•åæŽ’åœ¨äº†åŽè¾¹)ã€‚

ã€€ã€€å› æ¤AUCæŒ‡æ ‡æ²¡æ³•ç›´è§‚è¯„ä¼°äººå¯¹æŽ’åºå¥½åçš„æ„Ÿå—ã€‚

内文分页： [1] [2]

最后编辑：郝聪编辑于2016/07/08 10:40

ç™¾åº¦ç»Ÿè®¡åˆçº§åŸ¹è®

èœ‚é¸Ÿäº‘

2017/08/21 18:19

6666

ä¸ªäººåšå®¢

2016/07/10 17:21

åˆ†æžçš„å¾ˆå®Œæ•´

分页： 1/1

< 2025 > < 3 >
日	一	二	三	四	五	六
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

郝聪SEO博客：SEO顾问咨询服务公司

ç¾Žå›¢ç½‘ç«™çš„æ•°æ®æœç´¢æŽ’åºè§£å†³æ–¹æ¡ˆç²¾åŽåˆ†äº«

分类

最新日志

最新评论

最新留言

综合点击排行

评论排行

随机日志

作者

日历

站内搜索

归档

统计

其他

郝聪SEO博客：SEO顾问咨询服务公司

ç¾Žå›¢ç½‘ç«™çš„æ•°æ®æœç´¢æŽ’åºè§£å†³æ–¹æ¡ˆç²¾åŽåˆ†äº«

分类

最新日志

最新评论

最新留言

综合点击排行

评论排行

随机日志

作者

日历

站内搜索

归档

统计

其他

ç¾Žå›¢ç½‘ç«™çš„æ•°æ®æœç´¢æŽ’åºè§£å†³æ–¹æ¡ˆç²¾åŽåˆ†äº«