首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
信息检索的效果很大程度上取决于用户能否输入恰当的查询来描述自身信息需求。很多查询通常简短而模糊,甚至包含噪音。查询推荐技术可以帮助用户提炼查询、准确描述信息需求。为了获得高质量的查询推荐,在大规模“查询-链接”二部图上采用随机漫步方法产生候选集合。利用摘要点击信息对候选列表进行重排序,使得体现用户意图的查询排在比较高的位置。最终采用基于学习的算法对推荐查询中可能存在的噪声进行过滤。基于真实用户行为数据的实验表明该方法取得了较好的效果。  相似文献   

2.
针对用户对搜索引擎查询结果满意度不高的问题,提出一种基于用户行为分析的查询意图识别方法来提高搜索引擎查询质量。将查询意图识别视为一个分类问题,分析搜狗查询日志发现:信息事务类查询串点击的不同页面数较多,分布呈现多极值性;导航类查询串点击的不同页面数较少,分布呈现单极值性;导航类查询结果中,子页面噪声对查询分类结果产生严重干扰。根据以上特点,提出"不同页面点击数"、"点击分布值"和"异源页面点击数"三个特征,并结合前人研究,利用C4.5算法训练分类器,进行查询意图识别。实验结果中查询分类的整体正确率达到90%,与Baseline相比,提高了8.5%。结果表明,该方法对识别用户查询意图是有效的。  相似文献   

3.
用户在使用现有的搜索引擎时,常因为无法构造清晰准确的查询词而导致检索效果不佳,传统的查询推荐方法没有充分考虑用户行为的关联性,导致了查询推荐的结果不准确.本文提出了一个新的查询推荐模型,即基于点击模型和网络嵌入的查询推荐模型.该模型首先通过点击链式模型嵌入用户的历史检视行为和点击行为,并通过注意力机制衡量查询和返回文档的相关性;然后利用属性异构网络来获取复杂异质网络结构中的潜在语义信息;最后通过多头注意力捕获多个空间的复杂信息,并利用多任务学习来做评分预测.在搜狗实验室提供的公开查询日志上的实验结果表明,我们的模型在查询建议的鉴别式任务和生成式任务中均优于基线模型.  相似文献   

4.
查询推荐作为一种改善用户查询体验和效率的重要方式,可以帮助用户筛选并提供更加准确的查询描述。目前很多查询推荐方法主要集中在热门推荐或是基于相似度匹配的推荐上,忽略了用户的查询意图,无法有效提供个性化推荐。为此,基于对用户查询点击日志进行分析与挖掘,训练出一个朴素贝叶斯模型,针对用户输入的查询,根据历史数据预测其与URL的点击率,再利用二分图将URL的预测点击值平均分配给相对应的每个查询项,最后结合Jaccard相似度和时间相关因子综合分析用户当前输入的查询与历史中查询的相关度,并给出推荐。实验证明了该方法的可行性并取得了较好的推荐效果。  相似文献   

5.
现有方法没有有效利用查询文本特征、点击行为和session信息来挖掘用户的搜索意图,获取的查询特征对于多意图查询在不同意图下的区分度不足,对于多意图查询的相关查询聚类效果不佳。针对以上问题,该文提出了基于查询图信息的GPLSI模型,并利用该模型学习所得的查询特征进行查询聚类。基于查询图信息的GPLSI模型利用查询的词语、点击和session共现现象,从查询的文本特征、点击行为和session信息等多个方面来模拟查询意图的产生和表现,学习查询在不同搜索意图上的概率分布。最后,实验结果验证了基于查询图信息的PLSI模型用于查询相似度计算和多意图查询聚类中的有效性。  相似文献   

6.
《计算机科学与探索》2016,(9):1290-1298
传统的查询推荐算法通过挖掘查询日志为用户推荐查询词。通常现存模型只考虑原始查询词与推荐词之间的关系(例如语义相似性或相关性等),没有考虑用户在搜索过程中的满意度情况。针对用户在搜索过程中表现出的不同满意度状态,提出了一个查询推荐基本假设,并通过开展在线用户问卷调查,验证了这一假设。基于相应的假设,提出了一种基于用户搜索满意度状态的自适应查询推荐模型,该模型可以为用户智能推荐不同种类的查询词。当用户对搜索结果满意时,模型将为用户提供更加新颖的推荐词;当用户对搜索结果不满意时,模型将为用户提供一些增强信息表示能力的查询词。大规模日志实验表明,提出的推荐模型显著优于传统的查询流图模型,证明了所提模型的有效性。  相似文献   

7.
用户查询意图是指用户在构建查询时,希望搜索引擎能够返回的信息.如果搜索引擎可以判断用户当前查询与之前输入的查询是否属于同一查询意图,那么可以为用户提供更适当的查询建议、查询扩展或者个性化检索服务等.该文提出了基于点击相似度切分用户查询意图,在决策树模型和CRF模型上都取得了一定的提升.利用用户点击信息可以提高查询意图切分的效果,引入用户点击信息后,基于决策树的方法,F值提高1%,基于CRF模型的F值提高1.4%.  相似文献   

8.
基于用户查询意图识别的Web搜索优化模型   总被引:2,自引:1,他引:1  
杨艺  周元 《计算机科学》2012,39(1):264-267
在对用户查询意图进行分析分类的基础上,提出了一种Web搜索优化模型。该模型通过识别用户查询意图来查询意图特征词和内容主题词的双重约束,再结合用户查询行为获得查询目标,既保证了用户查询意图的准确匹配,又自动过滤和屏蔽了不相关信息。与相关工作对比,其重点在于准确获取用户查询意图,提高用户满意度。实验结果表明,该模型在实现信息搜索准确性和用户对查询结果满意度方面比传统搜索方法有明显改善。  相似文献   

9.
基于查询意图的长尾查询推荐   总被引:1,自引:0,他引:1  
查询推荐是一种提升用户搜索效率的重要工具.传统的查询推荐方法关注频度较高的查询,但对于那些频度较低的长尾查询,由于其信息的稀疏性而难以产生好的推荐效果.另外,传统的方法由于没有考虑查询意图对推荐结果的影响,故对长尾查询的推荐会受到查询中噪声单词的影响.该文提出了一种新的关于词项查询图(term-query graph)概率混合模型,该模型能够准确地发掘出用户的查询意图.另外,文中还提出了一种融合查询意图的查询推荐方法,该方法可以将新查询中单词的推荐结果按查询意图自然地融合起来,从而避免了噪声单词对推荐结果的影响.实验结果表明,通过考虑查询意图,可以显著提高长尾查询推荐的相关性.  相似文献   

10.
用户行为聚类的搜索引擎算法与实现   总被引:1,自引:0,他引:1  
提出一种基于用户行为聚类的搜索引擎算法。该算法从用户行为日志中挖掘用户意图,并根据用户的反馈信息定位用户意图信息,提升了查询的准确率,有效地解决了传统的全文检索式搜索引擎查询具有二义性词时的不足,并通过实践验证了算法的可行性。  相似文献   

11.
基于Hive的海量搜索日志分析系统研究   总被引:2,自引:0,他引:2  
赵龙  江荣安 《计算机应用研究》2013,30(11):3343-3345
针对传统分布式模型在海量日志并行处理时的可扩展性和并行程序编写困难的问题, 提出了基于Hive的Web海量搜索日志分析机制。利用HQL语言以及Hadoop分布式文件系统(HDFS)和MapReduce编程模式对海量搜索日志进行分析处理, 对用户搜索行为进行了分析研究。对用户搜索行为中的查询热点主题、用户点击数和URL排名、查询会话的分析结果对于搜索引擎的排序算法和系统优化都有一定的指导意义。  相似文献   

12.
查询歧义作为查询分类的子问题在信息检索领域已经得到了很多的关注,现有的研究主要是对查询内容上的歧义进行分类,而忽略了用户查询需求形式上的歧义。该文针对查询需求歧义问题进行了研究,提出了相应的查询需求分类模型。该文利用网页目录构建用户需求形式分类体系及站点列表,在大规模商业搜索引擎日志上进行用户点击覆盖检测,从而得到对查询需求形式的描述。该文的贡献在于提供了一种实际可行的查询需求分类方法,搜索引擎可以根据用户需求的区别调整排序方式,从而改善搜索性能。  相似文献   

13.
针对信息检索领域存在的用词歧义和检索词简短的问题,本文提出了一种基于TF-IQF模型和图聚类的个性化查询建议方法。对于用户的查询请求,提供查询建议,帮助用户进行查询修正,进而检索到其所需的信息;同时通过获取不同用户的查询偏好,以达到个性化查询推荐的目的。实验结果表明,该方法能够给出个性化的查询建议,为用户提供潜在感兴趣的资源,具有较高的准确率。  相似文献   

14.
汪晴  庄卫华 《计算机工程》2010,36(21):78-80
基于TF-IQF模型的建议方法不考虑用户查询行为的上下文,在满足用户个性化需求方面存在缺陷。针对这一情况,在该方法的基础上进行优化改进,根据不同用户的查询上下文来分析用户的查询偏好,重新排序系统推荐的查询。实验结果表明,改进方法能够给出个性化的查询建议,提高用户查询的满意度。  相似文献   

15.
16.
当前意图推荐研究提取出的用户意图趋向扁平化,忽略了意图间的层次关系。针对以上问题,提出了一种基于层次意图解耦的图卷积神经网络推荐模型(HIDR),将用户—项目交互图划分为多个动态交互子图,以刻画从细粒度到粗粒度的用户意图层次图。首先,在每个意图交互子图中根据节点高阶连接性自适应地聚合来自高阶邻域的信息,解耦提取用户细粒度意图表示;然后,依据低层次细粒度意图之间的相似关系在高层网络上构建粗粒度意图超节点,显式建模从细粒度到粗粒度的意图层次结构;最后,将解耦得到的层次意图向量聚合为高质量的用户和项目表示,并进行内积预测和迭代优化。在Gowalla和Amazon-book两个数据集上的实验结果表明,相较于最优基线模型CLSR,HIDR的召回率(recall)分别提升了10.82%、6.63%,归一化折损累计增益(NDCG)分别提升了14.65%、9.63%,精度(precision)分别提升了10.46%和7.73%。  相似文献   

17.
基于用户日志的查询扩展统计模型   总被引:24,自引:0,他引:24       下载免费PDF全文
崔航  文继荣  李敏强 《软件学报》2003,14(9):1593-1599
信息检索长期存在着用词歧义性问题,在Web搜索上的表现更加突出.提出了一种基于用户查询日志的查询扩展统计模型,将用户查询中使用的词或短语与文档中出现的相应词或短语以条件概率的形式连接,利用贝叶斯公式挑选出文档中与该查询关联最紧密的词加入原查询,以达到扩展优化的目的.实验结果表明,该方法更适宜改进Web上的信息检索,相对传统的查询扩展算法可以大幅度提高查询精度.  相似文献   

18.
杨武  唐瑞  卢玲 《计算机应用》2016,36(2):414-418
针对基于内容的新闻推荐方法中用户兴趣多样性的缺乏问题和混合推荐方法存在的冷启动问题,提出一种基于内容与协同过滤融合的方法进行新闻推荐。首先利用基于内容的方法发现用户既有兴趣;再用内容与行为的混合相似度模式,寻找目标用户的相似用户群,预测用户对特征词的兴趣度,发现用户潜在兴趣;然后将用户既有兴趣与潜在兴趣融合,得到兼具个性化和多样性的用户兴趣模型;最后将候选新闻与融合模型进行相似度计算,形成推荐列表。实验结果显示,与基于内容的推荐方法相比,所提方法的F-measure和整体多样性Diversity均有明显提高;与混合推荐方法相比,性能相当,但候选新闻无需耗时积累足够的用户点击量,不存在冷启动问题。  相似文献   

19.
提出了利用大量用户评价结果来进行特征权重的计算方法,用于解决搜索引擎中查询串与搜索结果的相似度分析。该方法完全利用用户对搜索结果的“潜在评价”来进行。用户对输入查询串所做的点击反映了其内部的关联性,该文提出的方法可获取这种关联性,对该问题建立了数学模型,利用EM算法解决了特征权重的计算。由于模型的函数比较复杂,难于计算其收敛性,因此,使用了模拟退火算法作为EM算法的补充,用于验证算法的收敛性。实验使用百度搜索引擎在竞价广告上进行,提取的测试数据样本为100个广告和144 132个query,获得的数据结果显示,所有特征收敛到全局最优解,抽样部分数据获得检索相似准确率为93.32%,召回率为87.43%。  相似文献   

20.
Implicit feedback techniques may be used for query intent detection, taking advantage of user behavior to understand their interests and preferences. In sponsored search, a primary concern is the user’s interest in purchasing or utilizing a commercial service, or what is called online commercial intent. In this paper, we develop a methodology for employing the content of search engine result pages (SERPs), along with the information obtained from query strings, to study characteristics of query intent, with a particular focus on sponsored search. Our work represents a step toward the development and evaluation of an ontology for commercial search, considering queries that reference specific products, brands, and retailers. Characteristics of query categories are studied with respect to aggregated user clickthrough behavior on advertising links. We present a model for clickthrough behavior that considers the influence of such factors as the location of ads and the rank of ads, along with query category. We evaluate our work using a large corpus of clickthrough data obtained from a major commercial search engine. In addition, the impact of query intent is studied on clickthrough rate, where a baseline model and the query intent model are compared for the purpose of calculating an expected ad clickthrough rate. Our findings suggest that query-based features, along with the content of SERPs, are effective in detecting query intent. Factors such as query category, the rank of an ad, and the total number of ads displayed on a result page relate to the context of the ad, rather than its content. We demonstrate that these context-related factors can have a major influence on expected clickthrough rate, suggesting that these factors should be taken into consideration when the performance of an ad is evaluated.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号