首页 | 本学科首页   官方微博 | 高级检索  
     

基于购物网站用户搜索日志的商品词发现
引用本文:杨锦锋,吕新波,关毅,周春波.基于购物网站用户搜索日志的商品词发现[J].计算机应用与软件,2011,28(11).
作者姓名:杨锦锋  吕新波  关毅  周春波
作者单位:哈尔滨工业大学计算机科学与技术学院 黑龙江哈尔滨150001
基金项目:国家自然科学基金项目(60975077,60736044)
摘    要:商品词是电子商务领域描述商品的新词。主要介绍基于购物网站用户搜索日志的商品词发现的方法。该方法从搜索日志中提取用户查询,对查询进行分词,采用N元递增分步算法和串频统计,计算候选串的条件概率,选择候选商品词。为了降低人工审核的成本,只对产出商品词的准确率进行评价。利用该方法在手机、面霜和香水三类商品的搜索日志上进行了实验,最高准确率达到92.58%。

关 键 词:商品词  新词发现  N元递增分步算法  串频统计  

SHOPPING SITE USER SEARCH LOGS BASED COMMODITY WORDS DETECTION
Yang Jinfeng,Lti Xinbo,Guan Yi,Zhou Chunbo.SHOPPING SITE USER SEARCH LOGS BASED COMMODITY WORDS DETECTION[J].Computer Applications and Software,2011,28(11).
Authors:Yang Jinfeng  Lti Xinbo  Guan Yi  Zhou Chunbo
Affiliation:Yang Jinfeng L(u|¨) Xinbo Guan Yi Zhou Chunbo (School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,Heilongjiang,China)
Abstract:Commodity words are a new phrase to describe commodities in the e-business field.The paper mainly introduces a shopping site user search logs based commodity words detection method.The method extracts user queries from search logs,which are segmented into phrases;then it uses N-gram increasing algorithm and string frequency statistics to calculate conditional probabilities of candidate strings and makes choices from candidate commodity words.To cut down manual review costs,only the precision of generated co...
Keywords:Commodity words  New words detection  N-gram increasing algorithm  String frequency statistics  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号