首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
赵月  任永功  刘洋 《计算机科学》2017,44(6):250-254
随着移动通信和互联网技术的迅猛发展,如何高效地分析移动用户的需求并及时推送有用信息成为数据挖掘领域的热点之一。针对上述问题,提出一种基于云计算Hadoop平台的分布式关联规则MRS-Apriori算法。该方法在经典Apriori算法的基础上优化了数据库编码规则,增加了判断标记Judgemark来判断事务项是否频繁,提高了MRS-Apriori算法在连接时扫描数据库的效率。在编码的基础上,采用Hadoop平台下的MapReduce编程框架模型实现并行化处理,提高了迭代时连接步骤的效率,降低了大规模数据样本运算的时间开销。实验结果表明,改进的MRS-Apriori算法可以有效地减少运算时间,在处理大规模数据集上具有较高的准确性。  相似文献   

2.
通过对基于ALS的协同过滤算法及分布式Hadoop平台的相关特性进行深入研究,将基于ALS的协同过滤算法在Hadoop上进行并行化,解决了传统的基于ALS的协同过滤算法在大规模数据集上的运算问题.经过实验验证,在Hadoop平台上实现的并行化的ALS协同过滤算法不仅能够保证实验结果的准确性,而且与单节点上实现的算法相比,运算效率显著提高.  相似文献   

3.
无线传感器网络中,异常时间序列的研究具有十分重要的意义。针对传统研究在海量数据环境中时间效率低下的问题,提出了基于Hadoop的异常时间序列检测算法。首先对时间序列进行预处理,然后在Hadoop的MapReduce操作中调用动态时间弯曲距离计算算法,实现了DTW距离计算的并行化,从而大大提高检测速度。同时针对传统DTW算法计算复杂度瓶颈问题以及传统约束方法准确率较低问题,提出了基于显著特征匹配的局部约束算法,对弯曲路径进行局部限制,在确保准确性的同时进一步降低了时间、空间复杂度。Hadoop平台下实验结果表明,该方法既提高了检测速度,又保证了检测准确率。  相似文献   

4.
基于聚类划分的高效用模式并行挖掘算法   总被引:4,自引:0,他引:4  
针对在大规模数据库中挖掘高效用模式产生大量基于内存的效用模式树,从而导致内存空间占用较大以及丢失一些高效用项集的问题,提出在Hadoop分布式计算平台下的基于聚类划分的高效用模式并行挖掘算法PUCP。首先,采用聚类的方法把数据库中相似的事务划分为若干数据子集;然后,把若干划分好的数据子集分配到Hadoop平台的各个节点中构造效用模式树;最后,把各个节点中相同项的条件模式基分配到同一个节点中进行挖掘,以减少各个节点交叉操作的次数。通过实验结果和理论分析表明:PUCP算法在不影响挖掘结果可靠性的前提下,与主流串行高效用模式挖掘——效用模式增长挖掘算法(UP-Growth)和现有的并行高效用模式挖掘算法PHUI-Growth相比,挖掘效率分别提高了61.2%和16.6%;并且使用了Hadoop计算平台,能有效缓解挖掘大规模数据的内存压力。  相似文献   

5.
云计算模式解决了大规模数据存储和计算能力上存在的瓶颈,为大规模数据挖掘技术提供了理想的计算模式和技术手段。分析Hadoop云计算平台的数据存储和计算模型,在云计算模式的基础上.实现云计算平台上Web文本数据的贝叶斯分类模型。对于大规模数据挖掘中的数据存储和计算的问题和难点.提出一种高效、低成本的解决方案。  相似文献   

6.
逻辑回归作为经典分类算法具有良好的分类效果,因此在云计算平台上针对大规模移动数据实现逻辑回归具有很高的现实意义.然而现有的逻辑回归算法不具有处理海量移动数据的能力.利用移动数据l2泛化性特点,提出了一种基于置信域的逻辑回归并行化实现方法(PTLR),在Map Reduce环境下,实现了梯度计算、Hessian矩阵计算和似然函数增量计算这3个关键步骤的并行化,并集成在云计算平台上实际运行.通过在真实的大规模移动数据集上的实验,证明了PTLR算法具有稳定性高、收敛速度较快等特点.  相似文献   

7.
《传感器与微系统》2019,(4):139-142
针对传统人工检查黑车的方式不但耗时耗力而且效率低下的问题,提出一种新的自动检测黑车的方法。在Hadoop平台上,对物联网技术采集的全疆车辆加气数据进行分析;抽取车辆加气的时间特征和空间特征;利用随机森林算法研究车辆与驾驶员、加气站间的关系,从而发现具有异常加气模式的黑车车辆。在大规模真实数据集上的实验表明:提出的方法在黑车发现问题上有较高的准确率,可以用于帮助有关部门提高黑车检测的效率。  相似文献   

8.
王峰 《计算机测量与控制》2017,25(5):173-175, 179
近年来,随着经济领域蓬勃发展,我国加快了现代化建设进程,交通设施建设不断推进;受互联网大数据技术变革的影响,传统地铁售检票系统无法满足高客流量、大数据流处理的高强度工作要求;在日常实践应用中,传统地铁售检票系统经常出现检票识别率低、售票信息运算处理响应速度慢、多人员、多任务操作执行准确率差的问题;针对上述问题,结合大数据资源运算能力,提出大数据环境下地铁自动售检票系统设计;采用大数据实名高检处理引擎(VBDKG)、多路分处运算模组(ICGRU)与动态身份比对算法(DBTDE),针对传统地铁自动售检票系统存在的问题进行解决;通过仿真实验测试证明,提出的大数据环境下地铁自动售检票系统设计具有较强的实施性与可操作性;同时,运行处理准确性高,运行稳定。  相似文献   

9.
将虚拟化和Hadoop等云计算技术引入大规模数据处理过程中,提出采用大量廉价计算机建成具有低成本、高效率、高可靠性和高伸缩性的计算机集群的方法,并创建对应的系统框架模型。通过搭建计算平台,验证了利用廉价计算机实现大规模数据处理技术的可行性。  相似文献   

10.
曹泽文  周姚 《计算机工程》2012,38(24):14-16
针对大规模文本聚类分析所面临的海量、高维、稀疏等难题,提出一种基于云计算的海量文本聚类解决方案。选择经典聚类算法Jarvis-Patrick(JP)作为案例,采用云计算平台的MapReduce编程模型对JP聚类算法进行并行化改造,利用搜狗实验室提供的语料库在 Hadoop平台上进行实验验证。实验结果表明,JP算法并行化改造可行,且相对于单节点环境,该算法在处理大规模文本数据时具有更好的时间性能。  相似文献   

11.
This article discusses the classification and research performance information properties. It also discusses construction and application of the Hadoop cloud computing platform. The model presented in this article is a one piece learning algorithm which is a predictive model and a model of cloud based data collection. This model is supported by Hadoop which is suitable for computing with different data sizes. A large number of simulations are performed on the Hadoop platform, under different working conditions, to verify the accuracy and characteristics of the training skill. Spark framework of this research is to develop computational engine efficiency and improve rain prediction models successfully and effectively using big data and Hadoop learning. Therefore, the planned high timeliness and accuracy of real-time hurricane forecast with rain, can solve the problem.  相似文献   

12.
大数据、云计算技术的迅猛发展为挖掘气象数据丰富的科研和经济价值提供了技术支撑,促进了Hadoop及其包含的文件存储系统(HDFS,Hadoop Distributed File System)和分布式计算模型在气象数据处理领域广泛应用。由于气象数据具有大数据的4V特征,还需要引入新的数据处理算法来提高气象数据处理效率。通过对决策树算法原理的研究,基于Hadoop云平台,创建随机森林模型,为数据挖掘算法在云平台上的应用提供一种新的可能性。基于决策树(CART,Classification And Regression Trees)挖掘算法的气象大数据云平台设计,采用Hadoop系统架构和MapReduce工作流程,对气象大数据云平台采用集群部署。平台总体架构分为基础设施层、数据管理与处理层、应用层,减少了决策树建立的时间,实现了气象数据高效加工和挖掘分析等平台功能。  相似文献   

13.
颜一鸣  郭鑫 《计算机工程》2014,(3):67-70,92
为适应真实环境中数据量大、流程复杂、计算密集的数据挖掘需求,提高传统树增量更新挖掘效率,改变已有算法的串行执行方式,提出一种基于Hadoop的动态树增量更新方法。介绍云计算、模型与执行流程等基本概念,针对现有Hadoop平台中任务调度的随机分配策略,设计一种动态云平台中的资源调度与分配算法,以期达到成本消耗的最小化,给出树增量更新挖掘算法以及2个并行算法(DeleteFreqTree和FindNewTree),完成树数据的增量挖掘工作。实验结果表明,该并行算法有效可行,具有高效性与良好的扩展率,能够对海量树数据进行更新挖掘。  相似文献   

14.
随着电费数据量的快速增长,某特大型集团公司财务管理信息系统传统的电费数据处理模式已经成为系统的性能瓶颈. Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于海量数据处理领域. 本文在对电费业务和Hadoop进行分析和研究的基础上,提出了电费数据新的处理模型,建立了基于Hadoop和Hive的电费明细数据处理平台. 实验证明该模型可以有效解决目前海量电费数据处理面临的性能瓶颈,提高电费数据处理的速度和效率,并且可以提供高性能的明细数据查询功能.  相似文献   

15.
如何能从海量数据中以更快速、高效、低成本的方式挖掘出有价值的信息成为如今数据挖掘技术面临的新课题。文中在研究Hadoop平台的特征和决策树的C4.5算法的过程中,决定在决策树算法领域中引入云计算思维,实现其在Ha-doop平台上的并行化,并且采用MapReduce模型来解决海量数据挖掘问题。最后用打高尔夫球的数据集对新的算法进行验证。实验结果表明对海量数据,基于Hadoop平台的决策树算法可以明显提高数据挖掘的效率,具有可观的高效性和可扩展性,在一定程度上解决了C4.5算法在处理海量数据时计算量大、构建决策树时间长的问题。  相似文献   

16.
在Hadoop分布式云计算平台上进行科学计算仿真,具有节省软硬件投资、缩短模拟时间等研究意义。针对需要高计算能力的磁流体动力学(MHD)仿真问题,设计了一种基于Hadoop分布式计算平台的MHD仿真器。首先,将Spark和HAMA两种分布式并行计算模型整合到Hadoop生态系统中,分别用于支持内存计算和整体同步并行计算。然后,将Hadoop集群构建成Master-Slave对等结构,解决全局同步和局部同步问题。最后,在Hadoop集群上,利用有限体积法和黎曼问题来求解MHD方程。实验结果表明,该仿真器能够精确模拟MHD,同时大大缩短了仿真计算时间。  相似文献   

17.
对大量复杂数据的分类是处理大数据必须要解决的问题,SVM算法和朴素贝叶斯分类算法是其中性能优秀的算法。然而它们的缺点使得分类效果受到了影响,而且传统的数据挖掘分类算法也无法满足对于海量数据的处理。针对这些问题,这里对传统的朴素贝叶斯算法进行了分析和改进,提出了SVM_WNB分类算法,并且在Hadoop云平台上对算法实现并行化处理,使其能够对大数据进行处理。最后利用实验验证,改进后的算法在准确性和效率等方面有明显地提升。可以得出结论,在对大数据的分类上可以应用该算法,并且将会起到显著的效果。  相似文献   

18.
田野  苏红旗  田栋 《软件》2014,(3):91-93
随着我国空间技术科学的发展,遥感数据正以指数级增长,由于遥感数据的地理信息特征,海量遥感数据的存储和处理成了近年的研究热点,本文采用在商业上取得出色成绩的hadoop云计算平台来对海量遥感数据进行并行化处理,完成了系统并行性能测试与分析,结果表明利用hadoop对海量遥感数据的并行化处理的可行性,并且还能满足海量遥感数据并行处理效率要求和高可用性。  相似文献   

19.
电子政务数年的建设和发展积累了一定量的政务数据,如何对其进行大规模的综合分析、挖掘和利用,提高政府运作的效率、提高管理和决策水平已成为迫切需要解决的问题。针对这一需求,结合国民经济发展对电子政务大数据综合研究专题进行了分析,提出了一种电子政务大数据云计算的实现架构,讨论了分布式数据计算开源云平台Hadoop于电子政务大数据计算的特性。  相似文献   

20.
随着海量、多源的高分辨率遥感数据的获取,耗时较多、效率低下的传统处理方式已经不能满足用户需求。针对上述问题,提出了一种基于云计算的高分遥感数据处理框架,利用Hadoop技术设计和改进了Meanshift图像边缘分割算法,并在Hadoop环境下进行了仿真实验。实验结果表明,在Hadoop环境下的高分辨率卫星图像数据处理速度有了明显的改善。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号