首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
低频查询是用户提交查询频次非常低的查询.它们占了搜索引擎独立查询的很大比例且对用户体验影响巨大,但由于数据稀疏性,现有的搜索引擎用户行为分析及相关研究中对低频查询涉及很少.结合前人的相关工作,使用商业搜索引擎的大规模用户日志,在会话级别上进行低频查询的用户行为分析以及类别研究.基于目标查询行为、后续相关查询行为、整体会话行为3个方面的12个特征进行了低频查询的用户行为特征分析,首次提出了低频查询类别分析框架,并进一步使用改进的AdaBoost算法对低频查询会话进行分类.实验对2000个随机的低频查询会话样例进行分类,AUC值达到了83%以上.低频查询的用户行为分析和类别研究,将为搜索引擎用户行为分析等网络检索研究提供重要基础.  相似文献   

2.
随着移动互联网的迅速发展,移动搜索用户大规模增加,移动搜索引擎用户行为分析对改进搜索引擎性能,提高用户体验具有重要意义。该文选取某移动搜索引擎2011年6月第一周的日志,对移动互联网用户搜索行为进行分析和研究。我们从查询词分析、会话分析以及用户点击分析3个角度出发,对查询词长度和频度、问题式查询和网址查询比例、会话内查询个数、查询词修改方式以及用户点击位置进行研究,并与互联网搜索引擎相应指标进行对比。相关分析结论对于移动搜索引擎算法改进与系统优化具有一定参考意义。  相似文献   

3.
基于日志挖掘的搜索引擎用户行为分析   总被引:1,自引:0,他引:1  
随着网络搜索用户的大规模增加,网络用户行为分析已成为网络信息检索系统进行架构分析、性能优化和系统维护的重要基石,是网络信息检索和知识挖掘的重要研究领域之一。为更好理解网络用户的搜索行为,该文基于7.56亿条真实网络用户行为日志,对用户行为进行分析和研究。我们主要考察了用户搜索行为中的查询长度、查询修改率、相关搜索点击率、首次/最后一次点击位置分布以及查询内点击数分布等信息。该文还基于不同类型的查询集合,考察用户在不同查询需求下的行为差异性。相关分析结果对搜索引擎算法优化和系统改进等都具有一定的参考意义。  相似文献   

4.
刘鹏  邹华 《软件》2012,(11):214-217
基于垂直搜索引擎设计思想提出的Web服务搜索引擎相比传统的UDDI服务发现方法能更好的满足用户对于Web服务查询的需求。随着服务搜索引擎技术的不断发展,如何评价其检索效果成为提高服务搜索质量的核心问题。本文提出了一种基于用户行为分析对Web服务搜索引擎进行自动性能评价的方法,并且根据Web服务特点,提出了基于QoS数据信息进行样例集合划分的方法。通过对用户的查询和点击行为分析,推导出针对特定查询集合的检索结果集合,并将两个集合之间自动建立映射。通过分析Web服务搜索引擎的搜索效果,评价本文提出的方法与人工标注的方法的对比,基于用户行为的评价算法能够对服务搜索引擎进行较客观的评价。  相似文献   

5.
网络搜索引擎的用户查询分析   总被引:14,自引:1,他引:13  
杨文峰  李星 《计算机工程》2001,27(6):20-21,97
利用教科网搜索引擎“网络指南针”的查询记录,就其中102439个用户的810396次查询,在用户查询方式、查询表达表达以及查询词3个层次上,对用户查询行为进行了分析,得到了搜索引擎用户查询的一般规律。根据上述结论对搜索引擎的进一步发展进行了讨论。  相似文献   

6.
基于大规模搜索日志进行用户行为分析有助提高搜索引擎的各种性能指标。从三个方面对百度开放日志进行详细分析。首先对查询串长度和频次进行统计,发现查询串中存在着长尾效应,前10%最常用查询串的查询次数占总查询次数的70.8%。其次对URL点击深度和频次进行分析,发现有73%的网页只被点击一次,表明互联网中存在着大量低频访问网页。最后对用户使用高级检索情况进行分析,发现有不足0.12%的用户使用高级检索,表明用户更喜爱简单方便的操作。  相似文献   

7.
搜索引擎性能评估是信息检索界一个重要课题.长查询具有较为丰富的信息内容,能更加准确地描述用户的信息需求.在此基础上文中提出长查询用户满意度分析的整体框架,定义用户满意度的概念,并在用户日志中提取相关用户行为特征,应用决策树和SVM两种分类算法评测用户满意度.在大规模商业搜索引擎日志上完成的实验结果证明了这套评价体系的有效性.结果表明,用户对于查询满意和不满意的分类准确率分别达到86%和70%.  相似文献   

8.
因特网的飞速发展,网络资源呈爆炸式的增长。信息检索是人们上网的主要目的之一。目前的信息检索领域有许多检索方法与检索工具,为用户检索信息提供了许多途径。但如何利用搜索引擎实现更快更精确的搜索已经成为这一领域的研究热点。在研究现有的几种搜索引擎的基础上,提出了一种基于用户行为聚类的搜索引擎。通过分析不同的用户行为将搜索用户聚类成不同的用户组,为每组用户返回其喜欢的结果,优化查询结果。  相似文献   

9.
基于Hive的海量搜索日志分析系统研究   总被引:2,自引:0,他引:2  
赵龙  江荣安 《计算机应用研究》2013,30(11):3343-3345
针对传统分布式模型在海量日志并行处理时的可扩展性和并行程序编写困难的问题, 提出了基于Hive的Web海量搜索日志分析机制。利用HQL语言以及Hadoop分布式文件系统(HDFS)和MapReduce编程模式对海量搜索日志进行分析处理, 对用户搜索行为进行了分析研究。对用户搜索行为中的查询热点主题、用户点击数和URL排名、查询会话的分析结果对于搜索引擎的排序算法和系统优化都有一定的指导意义。  相似文献   

10.
用户满意度是以用户为中心的搜索引擎性能评价的一个重要分支,区别于传统基于查询与文档相关性的评价方法,基于用户满意度的性能评价能够更加全面、客观地对搜索引擎性能进行评价。该文通过设计搜索实验平台,在尽量不影响用户正常搜索过程的前提下收集用户的搜索行为及其满意度评价,通过用户行为分析的方法挖掘用户群体行为特征与用户查询满意度之间的关联关系。相关结论对提高搜索引擎性能、改善用户查询体验具有一定的参考意义。  相似文献   

11.
基于中文搜索引擎网络信息用户行为研究*   总被引:1,自引:0,他引:1  
为了更好地理解中文搜索用户的检索行为,首先建立一个搜索引擎选择平台,主要是用来生成研究中所需的日志文件;然后从中英文用户的搜索行为差异的角度出发,对日志文件进行深入研究,包括各中文搜索引擎使用率比较以及中文用户输入查询行为的一些规律等。研究结果表明,对准确地评测搜索引擎检索的效果以及未来中文搜索引擎设计的改进都有较好的指导意义。  相似文献   

12.
为了有效地从电子政务网站的Web日志中挖掘民众关注的热点信息, 提出基于区域—频道访问度的民意热点信息挖掘算法——PHIMA算法。该算法在分析目前Web日志挖掘算法存在的问题的基础上, 利用提出的区域—频道访问度概念设计Web访问矩阵, 并基于该矩阵结合区域—频道访问度和灰关联分析法提出。实验表明算法能有效地挖掘民意热点信息, 可用于电子政务网站站点优化、个性化服务和为决策者提供决策支持等。  相似文献   

13.
应用链接分析的web搜索结果聚类   总被引:3,自引:0,他引:3  
随着web上信息的急剧增长,如何有效地从web上获得高质量的web信息已经成为很多研究领域里的热门研究主题之一,比如在数据库,信息检索等领域。在信息检索里,web搜索引擎是最常用的工具,然而现今的搜索引擎还远不能达到满意的要求,使用链接分析,提出了一种新的方法用来聚类web搜索结果,不同于信息检索中基于文本之间共享关键字或词的聚类算法,该文的方法是应用文献引用和匹配分析的方法,基于两web页面所共享和匹配的公共链接,并且扩展了标准的K-means聚类算法,使它更适合于处理噪音页面,并把它应用于web结果页面的聚类,为验证它的有效性,进行了初步实验,实验结果显示通过链接分析对web搜索结果聚类取得了预期效果  相似文献   

14.
基于Web的搜索引擎及其在化学信息资源导航中的应用   总被引:8,自引:3,他引:5  
网络信息检索工具是Internet信息资源快速定位的重要方法。文章中结合建立Internet化学信息资源导航系统ChIN网一文检索系统的要求,讨论了全文检索的产生、现状和发展趋势。在对信息搜索机制和主要全文检索软件的分析比较的基础上,采用全文检索软件Isearch开发了ChIN网页的全文检索系统。同时给出了ChIN网页全文检索系统的应用实例。  相似文献   

15.
Web hyperlink structure analysis algorithm plays a significant role in improving the precision of Web information retrieval. Current link algorithms employ iteration function to compute the Web resource weight. The major drawback of this approach is that every Web document has a fixed rank which is independent of Web queries. This paper proposes an improved algorithm that ranks the quality and the relevance of a page according to users' query dynamically. The experiments show that the current link analysis algorithm is improved.  相似文献   

16.
基于用户行为分析的个人信息检索研究   总被引:1,自引:0,他引:1  
个人信息检索是指个人计算机上用户搜索个人信息(通常是文档)的过程,与互联网检索相比,个人信息检索能够利用的信息很少,这使得其检索结果的排序更加困难。该文通过考察计算机上的用户行为,对个人信息检索的排序问题进行深入的研究。该文考察的用户行为主要包括用户在检索系统中的查询行为和在计算机上的文件访问行为。该文一方面通过查询行为数据训练出结果排序函数,另一方面通过文件访问行为数据获取文件自身的权重,最后利用统计学习方法结合这两类行为的计算结果。实验结果表明,该文提出的方法好于传统的TFIDF排序方法。  相似文献   

17.
基于语义的Web信息检索   总被引:2,自引:0,他引:2  
用户要从网络中得到所需的信息一般是通过各种搜索引擎。但是现有的搜索引擎都存在着检索相关度不高等问题。随着语义Web概念的提出及相关技术的发展,基于语义的Web信息检索逐渐成为了语义Web研究的热点。给出了传统搜索引擎存在的问题,从理论上分析了如何将语义Web技术融入Web信息检索中去,并在理论分析的基础上给出了基于语义的Web信息检索的模型。  相似文献   

18.
A masss of heterogeneous,distributed and dynamic information on the World Wide Web(the Web) has resulted in “information overload“ .It‘s an important and urgent reserach issue to provide users with effective information retrieval service on the Web.Web search enginees attempt to solve this problem,yet their effect is far from satisfying.In this paper,a distributed and cooperative strategy for information retrieval on the Web is proposed to substitute the centralized mode adopted by the current search engines.Then a new information retrieval system model IRSM is presented.which supports the retrieval of metadata about web documents and uses Z39.50 standard protocol to unify the heterogeneous interfaces of uments and uses Z39.50 standard protocol to unify the heterogeneous interfaces of different systems.Based on that,a distributed and cooperative information refieval framework,called DCIRF,is designed to help users in fast and effective information retrieval on the Web.  相似文献   

19.
基于元数据与Z39.50的分布协作式Web信息检索   总被引:21,自引:0,他引:21  
Web上大量的异质、分布、动态的信息造成了“信息过载”.如何有效地为用户提供Web信息检索已经成为一项重要的研究课题.Web搜索引擎部分地解决了信息检索问题,然而其效果却远远不能令人满意.提出了Web信息检索的分布协作策略以取代传统的集中式信息检索方式;给出了一种新的Web信息检索系统模型,该模型支持对Web文档的元数据进行检索,并采用Z39.50协议作为接口标准,以克服不同信息检索系统之间的访问异构性.在此基础上,设计了一个分布协作式Web信息检索框架,用以帮助用户有效地进行Web信息检索.  相似文献   

20.
Web hyperlink structure analysis algorithm plays a significant role in improving the precision of Web information retrieval.Current link algorithms employ iteration function to compute the Web resource weight.The major drawback of this approach is that every Web document has a fixed rank which is independent of Web queries.This paper proposes an improved algorithm that ranks the quality and the relevance of a page according to users‘ query dynamically.The experiments show that the current link analysis algorithm is improved.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号