首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
搜索引擎用户行为分析是网络信息检索技术的研究热点.通过分析用户点击行为,利用Web数据挖掘技术获取有用信息,提高搜索引擎的检索算法和检索服务的效率,把用户从大量无序的搜索结果中解放出来.本文针对传统并行计算模型在易扩展和易编程方面遇到的瓶颈,给出一种基于Ha-doop的海量日志数据处理模型,通过基于Hadoop的分布式...  相似文献   

2.
基于大规模搜索日志进行用户行为分析有助提高搜索引擎的各种性能指标。从三个方面对百度开放日志进行详细分析。首先对查询串长度和频次进行统计,发现查询串中存在着长尾效应,前10%最常用查询串的查询次数占总查询次数的70.8%。其次对URL点击深度和频次进行分析,发现有73%的网页只被点击一次,表明互联网中存在着大量低频访问网页。最后对用户使用高级检索情况进行分析,发现有不足0.12%的用户使用高级检索,表明用户更喜爱简单方便的操作。  相似文献   

3.
周丰 《数字社区&智能家居》2013,(11):2605-2606,2617
21世纪科技迅速发展,特别是信息技术的飞速发展,计算机网络的普及以及产生越来越广泛的作用,信息大爆炸使得各种各样的信息充斥着人们的生活。在这些纷繁复杂的信息当中,如何判别哪一些是有用的哪一些是不需要的,如何从海量的信息当中获取最需要、最有价值的信息一直是互联网技术的研究重点。传统的搜索排序算法已经越来越表现出不足与缺陷,无法满足用户的需要。该文将基于用户的查询偏好来探讨搜索排序算法,从用户的角度出发,分析与传统的搜索排序算法有哪些优势,以便更好的满足用户的需求。  相似文献   

4.
蒋宗礼  张婷 《微机发展》2014,(2):15-18,24
随着本地搜索的发展,通用排序算法得出的排序结果已不能完全满足用户的需要,根据本地搜索的特点,可以更好地利用用户的搜索特征。文中提出通过对用户的行为分析,提取用户行为特征值,再运用排序学习的SVM(支持向量机)方法将分析得到的用户行为特征值融入本地搜索算法当中,以此实现对排序算法的优化。融人了用户行为特征后,本地搜索的排序结果平均准确率和前十名文档的相关性都有了一定的提高。实验结果显示,用户行为特征使得排序结果可以更容易、准确地反映用户的兴趣,提升了用户的搜索体验。  相似文献   

5.
张芳 《福建电脑》2009,25(6):95-95
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性。但它只考虑了网页的具体内容和超链接信息,忽略了网页的用户应用信息。在分析了几种PageRank算法基础上,提出了一种新的基于网页更新率和用户行为分析的PageRank算法。实验表明。所提出的算法能较好地改进搜索结果的精确度。  相似文献   

6.
7.
因特网的飞速发展,网络资源呈爆炸式的增长。信息检索是人们上网的主要目的之一。目前的信息检索领域有许多检索方法与检索工具,为用户检索信息提供了许多途径。但如何利用搜索引擎实现更快更精确的搜索已经成为这一领域的研究热点。在研究现有的几种搜索引擎的基础上,提出了一种基于用户行为聚类的搜索引擎。通过分析不同的用户行为将搜索用户聚类成不同的用户组,为每组用户返回其喜欢的结果,优化查询结果。  相似文献   

8.
随着互联网发展带来的数据爆炸,使得 Web日志的数据量也越来越大,如何从海量的 Web 日志中挖掘有价值的信息成为了目前研究的热点。本文提出基于 Hadoop 集群框架对 Web 日志进行挖掘。实验结果表明,该集群系统既可以处理海量的 web 日志,同时也能够挖掘出有价值的信息,并证实了利用sqoop在 Hive仓库和传统数据库之间数据迁移的可行性。  相似文献   

9.
梁秋实  吴一雷  封磊 《计算机应用》2012,32(11):2989-2993
在微博搜索领域,单纯依赖于粉丝数量的搜索排名使刷粉行为有了可乘之机,通过将用户看作网页,将用户间的“关注”关系看作网页间的链接关系,使PageRank关于网页等级的基本思想融入到微博用户搜索,并引入一个状态转移矩阵和一个自动迭代的MapReduce工作流将计算过程并行化,进而提出一种基于MapReduce的微博用户搜索排名算法。在Hadoop平台上对该算法进行了实验分析,结果表明,该算法避免了用户排名单纯与其粉丝数量相关,使那些更具“重要性”的用户在搜索结果中的排名获得提升,提高了搜索结果的相关性和质量。  相似文献   

10.
基于中文搜索引擎网络信息用户行为研究*   总被引:1,自引:0,他引:1  
为了更好地理解中文搜索用户的检索行为,首先建立一个搜索引擎选择平台,主要是用来生成研究中所需的日志文件;然后从中英文用户的搜索行为差异的角度出发,对日志文件进行深入研究,包括各中文搜索引擎使用率比较以及中文用户输入查询行为的一些规律等。研究结果表明,对准确地评测搜索引擎检索的效果以及未来中文搜索引擎设计的改进都有较好的指导意义。  相似文献   

11.
Hadoop是一个开源分布式计算平台。具有高容错性,高伸缩性等优点,允许用户将Hadoop部署在低廉的PC上,充分利用集群的计算和存储能力,完成海量数据的处理。结合国内烟草企业面对不断剧增的业务数据,而现有的业务数据处理能力明显不足的现状,分析烟草企业构建Hadoop分布式数据处理平台的可行性,并详细介绍了Hadoop平台技术及其项目结构和体系结构。  相似文献   

12.
大型GIS系统中要存储海量的空间数据,需要面对大量用户高并发访问提供高效的服务,而传统的空间数据库设计方案难以满足需求。针对大型GIS系统中海量矢量数据存储组织,提出一种基于Hadoop的存储方案,并通过实验验证该方案的有效性。  相似文献   

13.
针对当前用户难以快速准确地获取到自己需要的网络信息,设计了基于Hadoop云计算平台的资源搜索系统,并对该搜索系统进行了实验验证,结果表明,随着数据量的不断增大,Hadoop版本系统节约的时间越多,优势越明显。  相似文献   

14.
随着移动互联网的迅速发展,移动搜索用户大规模增加,移动搜索引擎用户行为分析对改进搜索引擎性能,提高用户体验具有重要意义。该文选取某移动搜索引擎2011年6月第一周的日志,对移动互联网用户搜索行为进行分析和研究。我们从查询词分析、会话分析以及用户点击分析3个角度出发,对查询词长度和频度、问题式查询和网址查询比例、会话内查询个数、查询词修改方式以及用户点击位置进行研究,并与互联网搜索引擎相应指标进行对比。相关分析结论对于移动搜索引擎算法改进与系统优化具有一定参考意义。  相似文献   

15.
与拼音文字不同,用户在进行中文输入时需要借助输入法软件完成从拼音串到汉字串的转换过程,输入法因此成为中文用户进行人机交互的基础性工具,而输入法的相关技术研发也一直是学术界与产业界的关注热点。在中文输入法技术的研究中,用户的行为特点对输入法软件的词库建立、算法设计、交互方式设计与性能评价等多方面都有着至关重要的作用,但由于数据获取与分析的困难,这方面的相关研究尚不多见。该文利用某中文输入法在用户许可下收集的超过4.1亿条用户输入行为记录,进行了中文输入法用户行为的分析研究,针对不同类别应用程序的输入词频差异,不同用户在同类应用程序中的不同候选词条的选择等行为特点进行了挖掘分析,研究结果会对深入了解中文输入法用户行为,进而改进输入法软件性能具有一定的指导意义。  相似文献   

16.
本文对Hadoop平台进行了分析研究后,与HITS算法的设计理论和技术相结合,对基于中文词汇网络的HITS算法进行了重新设计,使其符合Hadoop平台的框架,详细分析了Map/Reduce函数的设计方案.用测试数据在不同集群上做实验,实验结果证明,HITS算法在分布式环境下能很好的运行,集群的优越性明显.  相似文献   

17.
黄德才  陈欢 《计算机系统应用》2012,21(3):111-115,124
排行榜作为现代社会很受关注的一项事物深入大家的生活,但对于海量数据的排行,即使在分布式环境下,依然需要耗费大量硬件资源和很长的时间,有时甚至无法产出榜单。首先对贝叶斯方法进行了改进,提出了一种基于hadoop分布式环境下的行榜海量数据过滤算法,该方法利用熵值理论对缺损数据进行填补得到完整数据;再利用改进的贝叶斯方法计算某商品当日销量进榜单的概率,并对概率低于概率阈值的商品数据进行过滤使其不参与排行计算,从而在确保排行榜精确度的前提下大大缩短榜单的产出时间。对淘宝网中400万条销售记录数据进行实验仿真,结果验证了上述方法的有效性和优越性能。  相似文献   

18.
为提高校园网搜索引擎的查准率,提出一种新的校园网搜索引擎排序方法。该方法基于用户查询主题、用户浏览时间和页面点击等用户行为特征,计算新的页面相关度得分,改进搜索引擎的排序结果,为用户提供更准确的查询服务。实验结果表明,在不降低查全率的情况下,应用该排序方法的查准率有明显提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号