共查询到19条相似文献,搜索用时 62 毫秒
1.
Apriori算法是一种经典的数据关联规则挖掘算法,本文借力云计算环境,根据MapReduce模型并行运行实现的特点,对Apriori算法进行优化,并行化改进后的MR-Apriori算法大大降低了时间消耗,其较强的扩展能力能更好地运用于大规模数据分析、处理和挖掘的需要. 相似文献
2.
3.
k-modes是一种代表性的分类数据的聚类算法。首先对k-modes聚类算法的实现过程进行了改进:通过在分配数据对象到簇时更新这个簇中各个属性项的次数,使得在遍历一次全部数据对象就能计算出新的簇中心。为了使k-modes能够处理大规模分类数据,在Hadoop平台上用MapReduce并行计算模型实现了k-modes算法。实验表明:在处理大量数据时,并行k-modes比串行k-modes极大地缩短了聚类时间,取得了较好的加速比。 相似文献
4.
李慧彦 《智能计算机与应用》2017,7(3)
研究并实现了基于Spark的KNN算法的并行构建.分析了MapReduce模型和Spark在处理迭代计算方面的优劣,结合KNN算法的自身特点设计了对应的Map算子和Reduce算子,实现了KNN算法的Spark并行化.实验结果表明,较传统的KNN串行算法和MapReduce并行KNN算法,基于Spark的并行KNN分类算法具有较好的效率和较高的可扩展性. 相似文献
5.
在对PageRank算法进行研究的基础上,利用MapReduce编程模型思想对PageRank算法进行改进,设计了在云平台Hadoop环境下运行的基于MapReduce的PageRank分布式并行算法,并在实验中对不同规模的Web图数据集进行了测试,分析不同的Blocksize参数对于算法计算性能的作用以及集群节点数目对于算法运行效率的影响. 相似文献
6.
由于计算机内存资源限制,分类器组合的有效性及最优性选择是机器学习领域的主要研究内容。经典的集成分类算法在处理小数据集时,拥有较高的分类准确性,但面对大量数据时,由于多基分类器学习、分类共用1台计算机资源,导致运算效率较低,这显然不适合处理当今的海量数据。针对已有集成分类算法只适合作用于小规模数据集的缺点,剖析了集成分类器的特性,采用基于聚合方式的集成分类器和云计算的MapReduce技术设计了并行集成分类算法(EMapReduce),达到并行处理大规模数据的目的。并在Amazon计算集群上模拟实验,实验结果表明该算法具有一定的高效性和可行性。 相似文献
7.
目前僵尸网络主要是通过网络流量分析的方法来进行检测,这往往依赖于僵尸主机的恶意行为,或者需要外部系统提供信息。另外传统的流量分析方法计算量很大,难以满足实时要求。为此该文提出一种基于MapReduce的僵尸网络在线检测算法,该算法通过分析网络流量并提取其内在的关联关系检测僵尸网络,并在云计算平台上进行数据分析,使数据获取和数据分析工作同步进行,实现在线检测。实验结果表明该算法的检测率可达到90%以上,误报率在5%以下,并且数据量较大时加速比接近线性,验证了云计算技术在僵尸网络检测方面的可行性。 相似文献
8.
9.
本文结合电台广播前后台信息数据处理的实际,利用Hadoop的MapReduce开源实现平台,研究基于MapReduce的BAM神经网络的双向联想模型,提出基于BAM双向记忆联想神经网络的MapReduce改进并行遗传算法,解决了BAM神经网络的权值矩阵训练过程大规模变量处理问题.实验证明该方法较串行BAM神经网络方法更高效. 相似文献
10.
11.
查询是信息管理系统中使用涉及用户最多使用最频繁的功能。为了提高用户查询的灵活性与查询效率,设计了基于多表的动态查询模块,使得用户可以自己选择查询数据项,动态组合查询条件。应用结果表明,该模块不仅提高了查询的灵活度与效率,而且增加了查询的信息量,用户的满意度达到了98%以上。 相似文献
12.
目前,传统的单处理程序在较短的时间内并不能及时解决问题,在这种背景下,大规模的图数据处理技术成为当前计算机领域的研究前沿。在研究的过程中极图构造法作为一个重要的研究内容,引起了越来越广泛的关注。本文主要研究MapReduce基础理论知识,以及基于MapReduce的分布式极图构造算法。 相似文献
13.
14.
15.
16.
17.
由Jeh和Widom提出的SimRank算法是一种普适"结构相似度"计算模型。由于SimRank算法采用迭代方式计算图节点间相似性,因此时间复杂度和空间复杂度都非常高。随着数据量的激增,单机运算能力不能满足大规模数据的计算要求。本文提出了基于MapReduce计算模型的分布式SimRank算法,利用该算法对RDF图进行相似度度量,然后利用分布式的AP聚类算法对图节点进行聚类分析。实验结果表明,该方法能够高效的完成图节点的相似度度量,实现图的有效聚类。 相似文献
18.
19.
本文提出了基于父节点的XML查询优化算法,它主要利用关键词的顺序循环查找父节点,把查找出来的父节点集合求交集,所得的父节点交集集合中的元素即为最小子树根节点,最后根据所得出的最小子树根节点得到用户所需的最紧致片段。通过选取经典的INEX数据集算法进行测试。实验结果表明,与传统的XML查询优化算法相比,基于父节点的XML查询优化算法有较高的准确率,更能满足用户需求。 相似文献