首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
Apriori算法是一种经典的数据关联规则挖掘算法,本文借力云计算环境,根据MapReduce模型并行运行实现的特点,对Apriori算法进行优化,并行化改进后的MR-Apriori算法大大降低了时间消耗,其较强的扩展能力能更好地运用于大规模数据分析、处理和挖掘的需要.  相似文献   

2.
随着新一代信息技术的发展,人工智能、云计算、物联网、大数据技术的应用越来越广泛。对自然灾害的实时监测等应用的也逐步增多,使其产生了海量的监测数据,而传统的关联规则挖掘算法Apriori在处理海量数据时效率低,扩展性差等弊端也显而易见。由此,加大了数据处理分析的压力,用户提取有效信息的难度也不断地增加。文章针对在大数据环境下提出了基于MapReduce的关联规则挖掘算法的改进算法,并探讨其在山体滑坡监测预警中的应用。  相似文献   

3.
k-modes是一种代表性的分类数据的聚类算法。首先对k-modes聚类算法的实现过程进行了改进:通过在分配数据对象到簇时更新这个簇中各个属性项的次数,使得在遍历一次全部数据对象就能计算出新的簇中心。为了使k-modes能够处理大规模分类数据,在Hadoop平台上用MapReduce并行计算模型实现了k-modes算法。实验表明:在处理大量数据时,并行k-modes比串行k-modes极大地缩短了聚类时间,取得了较好的加速比。  相似文献   

4.
研究并实现了基于Spark的KNN算法的并行构建.分析了MapReduce模型和Spark在处理迭代计算方面的优劣,结合KNN算法的自身特点设计了对应的Map算子和Reduce算子,实现了KNN算法的Spark并行化.实验结果表明,较传统的KNN串行算法和MapReduce并行KNN算法,基于Spark的并行KNN分类算法具有较好的效率和较高的可扩展性.  相似文献   

5.
在对PageRank算法进行研究的基础上,利用MapReduce编程模型思想对PageRank算法进行改进,设计了在云平台Hadoop环境下运行的基于MapReduce的PageRank分布式并行算法,并在实验中对不同规模的Web图数据集进行了测试,分析不同的Blocksize参数对于算法计算性能的作用以及集群节点数目对于算法运行效率的影响.  相似文献   

6.
由于计算机内存资源限制,分类器组合的有效性及最优性选择是机器学习领域的主要研究内容。经典的集成分类算法在处理小数据集时,拥有较高的分类准确性,但面对大量数据时,由于多基分类器学习、分类共用1台计算机资源,导致运算效率较低,这显然不适合处理当今的海量数据。针对已有集成分类算法只适合作用于小规模数据集的缺点,剖析了集成分类器的特性,采用基于聚合方式的集成分类器和云计算的MapReduce技术设计了并行集成分类算法(EMapReduce),达到并行处理大规模数据的目的。并在Amazon计算集群上模拟实验,实验结果表明该算法具有一定的高效性和可行性。  相似文献   

7.
目前僵尸网络主要是通过网络流量分析的方法来进行检测,这往往依赖于僵尸主机的恶意行为,或者需要外部系统提供信息。另外传统的流量分析方法计算量很大,难以满足实时要求。为此该文提出一种基于MapReduce的僵尸网络在线检测算法,该算法通过分析网络流量并提取其内在的关联关系检测僵尸网络,并在云计算平台上进行数据分析,使数据获取和数据分析工作同步进行,实现在线检测。实验结果表明该算法的检测率可达到90%以上,误报率在5%以下,并且数据量较大时加速比接近线性,验证了云计算技术在僵尸网络检测方面的可行性。  相似文献   

8.
算力和时延等要求不断提高,加速了边缘计算(MEC)的规模应用,边缘计算将计算和存储功能下沉至网络边缘的数据生产侧,将传统云计算的部分处理任务迁移至边缘计算节点,提升了用户体验,但同时,分布式计算产生海量日志数据,对运维管理提出了更高要求。文章以云宽带边缘大数据为例,探索并提出了一种基于spark的日志数据的分析算法实现,并对比了Hadoop MapReduce在分析过程中的效率,该实现能够有效解决边缘计算中普遍存在的度量分析效率的问题。  相似文献   

9.
本文结合电台广播前后台信息数据处理的实际,利用Hadoop的MapReduce开源实现平台,研究基于MapReduce的BAM神经网络的双向联想模型,提出基于BAM双向记忆联想神经网络的MapReduce改进并行遗传算法,解决了BAM神经网络的权值矩阵训练过程大规模变量处理问题.实验证明该方法较串行BAM神经网络方法更高效.  相似文献   

10.
《信息技术》2016,(11):201-205
针对传统k-means文本聚类算法在处理大规模文本数据时扩展性不足的问题,提出了基于MapReduce编程模型的并行k-means文本聚类算法。通过删除离群点和采用高效的初始质心选择策略提高k-means聚类效果,并设计基于MapReduce框架的大规模文本并行聚类模型提高算法的可扩展性。实验证明,该算法在大规模文本聚类中具有良好的聚类效果和可扩展性。  相似文献   

11.
查询是信息管理系统中使用涉及用户最多使用最频繁的功能。为了提高用户查询的灵活性与查询效率,设计了基于多表的动态查询模块,使得用户可以自己选择查询数据项,动态组合查询条件。应用结果表明,该模块不仅提高了查询的灵活度与效率,而且增加了查询的信息量,用户的满意度达到了98%以上。  相似文献   

12.
目前,传统的单处理程序在较短的时间内并不能及时解决问题,在这种背景下,大规模的图数据处理技术成为当前计算机领域的研究前沿。在研究的过程中极图构造法作为一个重要的研究内容,引起了越来越广泛的关注。本文主要研究MapReduce基础理论知识,以及基于MapReduce的分布式极图构造算法。  相似文献   

13.
以传输费用最小为目的,提出一种新的查询优化算法。该算法以连接属性为关键字,利用半连接关系建立bloom-filters,在半连接关系间相互传送bloom-filters,从而缩减大部分不参与连接的元组,最终形成了计算结果表。通过站点间传送计算结果表来缩减连接关系,半连接的准确性比估算连接结果高,半连接查询优化算法能较准确地做出下一步的连接;新的查询优化算法能有效地得到连接操作的执行计划,从而减少了传输费用。  相似文献   

14.
Hadoop系统在处理多表链接问题时,每轮都会将大量的中间结果写入本地磁盘,从而严重降低了系统的处理效率。为解决该问题,提出一种"替换-查询"方法,该方法通过对链接表建立索引,将预输出的元组集替换为索引信息输出到中间结果,以索引的形式参与多表链接,以此减少中间结果的I/O代价。运用缓冲池、二次排序和多线程技术对索引信息进行优化管理,加快索引查询速度。最后在TPC-H数据集上,设计了与原Hadoop的对比实验,结果表明该方法可减少35.5%的存储空间,提高12.9%的运行效率。  相似文献   

15.
文中在频繁项目集挖掘研究的基础上,针对Hadoop分布式计算框架,提出了一种基于子集的Apriori并行改进算法Sub Apr。该算法扫描数据库两次,将分块数据分配给不同的Hadoop计算节点进行处理,利用Apriori特性并结合MapReduce框架自身特点进行剪枝。该算法与同类算法比较,可以减少各个计算节点的存储数据,达到减少候选项集输出,有效减少了大数据集挖掘过程中产生的大量数据通信,从而提高并行挖掘的效率。实验结果表明,该算法是有效且可行的。  相似文献   

16.
文中提出以云计算为基础的交通状态识别方法,将经典的聚类算法通过MapReduce编程模式并行化以后,通过Hadoop平台强大的并行任务执行效果,实时监测道路的交通状态。并且改进了K-means聚类算法与模糊C均值聚类算法,用Canopy算法产生初始聚类中心,有效解决了K均值聚类和模糊C均值聚类两种算法会随机产生初始聚类中心的盲目性缺点。然后对比分析了两种改进后的聚类算法应用于交通状态识别中,选择具有更高准确率的识别方法作为最佳选择。  相似文献   

17.
由Jeh和Widom提出的SimRank算法是一种普适"结构相似度"计算模型。由于SimRank算法采用迭代方式计算图节点间相似性,因此时间复杂度和空间复杂度都非常高。随着数据量的激增,单机运算能力不能满足大规模数据的计算要求。本文提出了基于MapReduce计算模型的分布式SimRank算法,利用该算法对RDF图进行相似度度量,然后利用分布式的AP聚类算法对图节点进行聚类分析。实验结果表明,该方法能够高效的完成图节点的相似度度量,实现图的有效聚类。  相似文献   

18.
提出一种基于WSN的中位数查询近似算法——AAMQ。在AAMQ中,节点分别统计出每个感知值出现的不重复次数,从而抽取节点的K%个最常用感知值作为子样本,然后将子样本传递给父节点,最终在根节点形成全网的样本。最后使用这个远小于全网数据集规模的、可用于代表全网数据集结构的全网样本迅速获得中位数的近似结果,从而避免了将各节点的数据都传输至根节点。实验结果显示,该算法能较大减少网络通信量、具有较小的误差,能有效地延长网络的生存期。  相似文献   

19.
宗传霞 《电子测试》2012,(7):15-18,23
本文提出了基于父节点的XML查询优化算法,它主要利用关键词的顺序循环查找父节点,把查找出来的父节点集合求交集,所得的父节点交集集合中的元素即为最小子树根节点,最后根据所得出的最小子树根节点得到用户所需的最紧致片段。通过选取经典的INEX数据集算法进行测试。实验结果表明,与传统的XML查询优化算法相比,基于父节点的XML查询优化算法有较高的准确率,更能满足用户需求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号