首页 | 本学科首页   官方微博 | 高级检索  
     

基于内容和用户行为的查询聚类
引用本文:程舒杨,熊锦华,公 帅,程学旗.基于内容和用户行为的查询聚类[J].中文信息学报,2016,30(2):121-127.
作者姓名:程舒杨  熊锦华  公 帅  程学旗
作者单位:中国科学院 计算技术研究所,北京 100190
基金项目:国家重点基础研究发展规划(973计划)项目(2014CB340406,2012CB316303,2013CB329602);国家自然科学基金(61173064);国家科技支撑计划项目(2015BAK20B03);国家科技支撑计划课题(2011BAH11B02,2012BAH39B04);国家242专项(2012F86)
摘    要:现有方法没有有效利用查询文本特征、点击行为和session信息来挖掘用户的搜索意图,获取的查询特征对于多意图查询在不同意图下的区分度不足,对于多意图查询的相关查询聚类效果不佳。针对以上问题,该文提出了基于查询图信息的GPLSI模型,并利用该模型学习所得的查询特征进行查询聚类。基于查询图信息的GPLSI模型利用查询的词语、点击和session共现现象,从查询的文本特征、点击行为和session信息等多个方面来模拟查询意图的产生和表现,学习查询在不同搜索意图上的概率分布。最后,实验结果验证了基于查询图信息的PLSI模型用于查询相似度计算和多意图查询聚类中的有效性。

关 键 词:查询聚类  多意图查询  搜索意图  

Query Clustering Based on Content and User Behavior
CHENG Shuyang,XIONG Jinhua,GONG Shuai,CHENG Xueqi.Query Clustering Based on Content and User Behavior[J].Journal of Chinese Information Processing,2016,30(2):121-127.
Authors:CHENG Shuyang  XIONG Jinhua  GONG Shuai  CHENG Xueqi
Affiliation:(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China)
Abstract:This paper proposes a probabilistic latent semantic indexing model based on query graph (GPLSI) to learn query features for query clustering in this paper. GPLSI for query-word co-occurrence and query-query co-occurrence simulates the generation of query intent and its representation based on query text, click and session information, and learns the probability distribution of query on different intents. Experimental results illustrate GPLSIs effectiveness in query similarity measurement and multi-intent query clustering.
Keywords:query clustering  multi-intent query  query intent  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号