首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 58 毫秒
1.
当面对海量数据时,基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈.针对该问题,提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法,利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件.实验结果表明,该算法的加速比能随着数据集的增大而提高,其执行效率优于串行FP-growth算法.  相似文献   

2.
首先针对我军装备保障管理系统关系数据库在海量数据查询以及分析处理方面的不足,在对系统数据资源分析的基础上提出并实现了基于Hadoop云平台结构化数据查询策略,通过Sqoop工具将数据库中的数据导入到HDFS中,并利用Hive进行数据分析.然后通过实验证明此方法克服了海量数据在单机环境中查询效率低下的缺点,具有较高的实用价值.  相似文献   

3.
用户搜索网页行为的分析是目前信息搜索的研究的热点,本文针对云计算中的并行计算搜索存在的检索速度慢,效率低等缺点提出了一种基于Hadoop海量用户搜索网页行为的方法,该方法主要是在网页PageRank算法的基础上,将用户影响因子,时间向量和网页相关性因素加入到算法中,使得改进后的PageRank算法得到了提高,进一步提高用户搜索网页行为的效率,实验中通过使用优酷实验室中的查询日志分析证明了本文的算法具有良好的效果,并对云计算中的用户行为分析具有一定的指导意义.  相似文献   

4.
5.
基于Hadoop的Web日志挖掘   总被引:3,自引:0,他引:3       下载免费PDF全文
程苗  陈华平 《计算机工程》2011,37(11):37-39
基于单一节点的数据挖掘系统在挖掘Web海量数据源时存在计算瓶颈,针对该问题,利用云计算的分布式处理和虚拟化技术的优势,设计一种基于云计算的Hadoop集群框架的Web日志分析平台,提出一种能够在云计算环境中进行分布式处理的混合算法。为进一步验证该平台的高效性,在该平台上利用改进后的算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,在集群中运用分布式算法处理大量的Web日志文件,可以明显提高Web数据挖掘的效率。  相似文献   

6.
搜索引擎用户行为分析是网络信息检索技术的研究热点.通过分析用户点击行为,利用Web数据挖掘技术获取有用信息,提高搜索引擎的检索算法和检索服务的效率,把用户从大量无序的搜索结果中解放出来.本文针对传统并行计算模型在易扩展和易编程方面遇到的瓶颈,给出一种基于Ha-doop的海量日志数据处理模型,通过基于Hadoop的分布式...  相似文献   

7.
随着计算机科学的发展和大数据时代的到来,应用系统已经出现了数据海量化、用户访问高量化的局面,使得企业应用系统的原有关系型数据库(RDBMS)面临承担更大负荷的压力,系统的高性能要求得不到有效满足,对于关系型数据库所面临的问题,Hadoop平台中的HBase数据库可有效解决。以关系型数据库中MySQL数据库及Hadoop平台中分布式数据库HBase数据库为研究基础,应对企业应用数据海量化增长,提出从关系型数据库(MySQL数据库)向分布式数据库(HBase数据库)进行数据迁移的方法,并通过研究HBase数据库存储原理提出从MySQL到HBase的表模式转换原则实现高效数据查询性能的数据迁移方法。最后,将该方法与同类数据迁移工具Sqoop进行比较,证明该方法进行数据迁移的便捷性和在迁移后数据库中进行连接查询的高效性。  相似文献   

8.
随着电费数据量的快速增长,某特大型集团公司财务管理信息系统传统的电费数据处理模式已经成为系统的性能瓶颈. Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于海量数据处理领域. 本文在对电费业务和Hadoop进行分析和研究的基础上,提出了电费数据新的处理模型,建立了基于Hadoop和Hive的电费明细数据处理平台. 实验证明该模型可以有效解决目前海量电费数据处理面临的性能瓶颈,提高电费数据处理的速度和效率,并且可以提供高性能的明细数据查询功能.  相似文献   

9.
陈吉荣  乐嘉锦 《计算机应用》2013,33(9):2486-2489
针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长度(等于步长),从而保证每个mapper的导入工作量完全相同。该模型的map方式是:进入map函数的键值对中的键是一个split所对应的SQL语句,将查询放在map函数中完成,从而使得模型中的每个mapper只调用一次map函数。对比实验表明:两个记录数相同的大表,无论其记录区间如何分布,其导入时间基本相同,或者对同一表分别用不同的分割字段,导入时间也完全相同;而对于同一个大表,模型的导入效率比Sqoop有显著提高。  相似文献   

10.
论文设计了基于Hadoop的微博信息挖掘系统。该系统针对单一节点在分析微博海量数据的性能瓶颈问题,利用分布式和虚拟化技术的优势,将微博信息获取和相关数据分析进行有机整合,实现了一个基于Hadoop的微博信息挖掘平台。为验证该平台运行的有效性,论文采用获取热点话题做实验,展示了系统对微博信息的挖掘结果。实验结果表明,该系统能有效获取微博相关信息,高效的处理海量微博数据,得到有价值的数据信息。  相似文献   

11.
在大数据时代,数据成为推动各个行业发展的动力,有效的分析数据不仅对社会经济效应有巨大影响,而且对政府,企业的管理也有深远影响。于是,怎样高效且快速地从Web日志中挖掘出有用的价值并且转化为分析依据是系统设计的重点。本文主要采用Hadoop为开源框架,利用HDFS进行数据的存储,Hive为开源数据仓库工具,设计并实现一个Web日志分析系统。文章主要阐述了系统的结构、设计思想和实现方法。  相似文献   

12.
基于用户行为和会话的Web应用测试方法   总被引:2,自引:2,他引:0       下载免费PDF全文
Web应用程序难以创建有效的测试用例,使其既能满足测试的需求,又能测试Web应用程序的多用户交互行为。针对上述问题,采用从Web日志数据中得到域数据创建测试用例的方法,从Web日志中获取用户行为数据和用户会话数据。提出一种基于用户行为和用户会话的测试新方法,通过实验验证该方法在功能覆盖和故障检测方面的有效性。  相似文献   

13.
基于Bayes概率的用户兴趣发现   总被引:2,自引:0,他引:2  
本文结合网页结构,充分考虑用户在网页的滞留时间和页面切换,基于Bayes概率提出了一种能挖掘出优良的用户兴趣迁移模式及感兴趣的页面。采用本文提出的思想及算法,再结合人工智能策略,将能更好地辅助网站设计,并为电子商务的决策提供充分依据。  相似文献   

14.
基于用户行为的Web使用挖掘数据采集技术研究   总被引:2,自引:0,他引:2  
如何准确、及时、全面地采集用户使用数据是Web使用挖掘研究重要的前提和基础.本文从用户行为视角,讨论了传统的基于Web日志进行Web使用挖掘研究所面临的问题,对基于用户行为的Web使用挖掘的数据采集技术进行了深入分析,重点研究了主动式服务器端数据采集方法和客户端数据采集方法.  相似文献   

15.
基于Web日志的用户访问模式挖掘   总被引:1,自引:0,他引:1  
Web日志挖掘是数据挖掘技术在Web日志数据存储中的应用。论文介绍了Web日志挖掘,在分析发现用户访问模式方法——类Apriori算法的基础上,给出一种基于粗糙集的用户访问模式聚类方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号