首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 72 毫秒
1.
针对经典Apriori算法及其改进算法不能有效处理大规模数据集,提出基于Hadoop-MapReduce编程模型的两种改进算法:HAprioriK,HApriori2。其中HAprioriK需要k个MapReduce Jobs,而HApriori2仅需要2个就能在整个数据集上找到频繁k项集,两种改进算法均充分利用了Hadoop平台的计算优势,可以轻松地处理大量数据。采用IBM的数据集进行改进算法有效性的研究,实验结果表明,HApriori2算法在不同规模的数据集和支持度下,能够有效地挖掘频繁项集,具有比HAprioriK更好的性能。  相似文献   

2.
本文主要对数据挖掘的有关算法进行学习与应用。首先介绍了这些算法的基本思想和算法步骤,然后运用这些算法进行实际问题的求解。本文着重介绍的是关联规则的Apriori算法。对Apriori算法,用其对当下高等学校排课的问题进行求解。  相似文献   

3.
李瑶  陈佳  陈罗峄 《信息技术》2013,(3):100-103
针对传统Apriori算法执行效率低的缺点,文中提出了一种适用于在海量数据中进行知识发现的改进的Apriori算法。阐述了改进的Apriori算法流程,并以某服装厂销售产生的海量销售数据为例,提出了基于改进的Apriori算法的知识发现过程。  相似文献   

4.
互联网作为一个国家教育事业的基础设施,是人们获取知识的一个重要途径。传统网络服务系统功能简单,服务单一,网络利用率不足。文章改进关联规则Apriori算法并应用于网络数据处理中,提高数据利用率。  相似文献   

5.
张宁 《信息通信》2015,(2):94-95
在经典的Apriori策略中,各次遍历操作均访问全部数据库。将FP-tree策略移植到Apriori中以重构数据库,提出了FP-A算法。通过对原数据库划分为一系列子数据库,并设置相应的频繁度计数,避免每次访问全部数据库记录,提高算法效率。实验结果表明,FP-A策略具有高效性。  相似文献   

6.
传统应用于图书管理系统的Apriori算法因数据库扫描次数过多,以及候选项集数量过大导致系统运行缓慢,为解决此问题,设计基于改进Apriori数据挖掘算法的信息推荐图书管理系统。系统结合C/S架构与B/S架构,分别向图书馆工作人员和借阅者开放图书信息。系统功能模块中数据预处理子模块从读者借阅数据库中提取借阅者以及图书相关信息数据,对数据进行清洗、转换以及集成处理后,关联规则挖掘子模块利用改进Apriori算法依据处理后的数据,挖掘出支持度大于最小支持度阈值以及置信度大于最小置信度阈值的强关联规则,生成关联规则数据库。个性化信息推荐子模块依据关联规则数据库中的借阅者同借阅者所选图书进行关联匹配,向借阅者推送与所读图书相关联图书信息,实现图书信息的个性化推荐。实验结果表明,该系统可有效推荐图书关联信息,且在50个客户端同时运行的情况下CPU占有率仅为6.58%,运行性能佳。  相似文献   

7.
本文提出基于Apriori算法的校园教学质量评价系统设计,从系统客户端、服务端、以及总体架构方面对该系统进行了阐述,设计了教学质量评价系统数据库,说明了Apriori算法在该教学质量评价系统中的应用过程。  相似文献   

8.
Apriori算法是数据挖掘中关联规则中一种算法,其应用比较广泛,本论文主要介绍Apriori算法的基本思想、操作主要步骤、算法的描述、改进的Apriori算法及其的具体应用。  相似文献   

9.
针对关联规则中Apriori算法的不足之处,提出两种基于矩阵的Apriori改进算法.改进算法充分利用矩阵这一工具,以大幅度减少扫描数据库的次数和计算成本,进而有效提高算法的运算效率.同时,通过实例应用和算法性能分析证明所提出的两种改进算法都是有效的关联规则挖掘方法,且比Apriori算法具有更好的性能.  相似文献   

10.
针对传统气象数据质量控制算法存在的不足,首先提出将Apriori关联规则挖掘算法用于气象数据中,通过Apriori算法挖掘出关联规则;其次分析了Apriori算法存在的不足,提出了一种改进的MC_Apriori算法,通过真实数据仿真表明,新算法在时间性能上更加优越;最后,在原数据的基础上植入部分错误数据,通过与规则库中...  相似文献   

11.
Apriori算法是关联规则挖掘的一个经典算法,它使用一种称作逐层搜索的迭代方法,用(k-1)项集来探索k项集。每探索一个k项集,Apriori算法都需要扫描一次完整数据库。不断扫描数据库是影响Apriori算法运行效率的主要原因。文中基于线性链表对Apriori算法提出了一种改进方法。通过对数据库进行转换,以缩小探索k-项集时扫描的数据库,提高算法运行效率。  相似文献   

12.
文中在频繁项目集挖掘研究的基础上,针对Hadoop分布式计算框架,提出了一种基于子集的Apriori并行改进算法Sub Apr。该算法扫描数据库两次,将分块数据分配给不同的Hadoop计算节点进行处理,利用Apriori特性并结合MapReduce框架自身特点进行剪枝。该算法与同类算法比较,可以减少各个计算节点的存储数据,达到减少候选项集输出,有效减少了大数据集挖掘过程中产生的大量数据通信,从而提高并行挖掘的效率。实验结果表明,该算法是有效且可行的。  相似文献   

13.
针对传统协同过滤推荐算法对目标客户进行个性化推荐时,因用户评价数据和物品属性等显式数据稀疏,造成推荐商品的准确率和质量相对较差的问题,本文基于隐式数据和Apriori算法对协同过滤推荐算法做出改进.首先,算法基于隐式数据中用户对商品的行为和用户对商品的评价,建立用户对商品的评分偏好模型,用以构建原始评分数据;其次,利用...  相似文献   

14.
关联规则现在已成为数据挖掘领域中非常重要的研究课题,用于发现隐藏在大型数据集中的令人感兴趣的联系。Apriori算法作为第一个关联规则挖掘算法,开创性地使用了基于支持度的剪枝技术,系统地控制了候选项集的指数增长。但是,Apriori算法仍然存在着频繁扫描数据库和产生大量候选项集的缺点。鉴于此,提出了用一个整型或整型数组来代替一项事务集和一项候选项集,通过数据压缩,可以一次性将海量数据载入内存,减少了磁盘I/O负载,并通过位运算与计算海明距离达到计算支持度的目的,同时使用了若干优化方法。  相似文献   

15.
《信息技术》2016,(9):93-95
互联网+时代,信息交流和社交方式都发生了极大的变化,自媒体的数据产生方式让大数据时代加速到来。Hadoop云计算实现框架是大数据管理中最优的解决方案,使用最为广泛,效果最为明显。文中针对运用云计算和云平台Hadoop的知识,对现有数据挖掘技术中的关联规则进行分析,对经典Apriori算法进行梳理并提出了一种基于MapReduce的改进Apriori数据挖掘算法。最后,通过Hadoop平台进行仿真实验,算法用Java实现,通过对训练数据迸行挖掘,结果表明改进算法在处理大数据时空间复杂度更低,且挖掘时间随着数据规模的增大呈线性增长。实验结果表明,改进算法在进行大数据挖掘比经典算法有了性能的提升。  相似文献   

16.
王晓龙 《信息技术》2014,(5):147-150,153
关联规则现在已成为数据挖掘领域中非常重要的研究课题,用于发现隐藏在大型数据集中的令人感兴趣的联系。Apriori算法作为第一个关联规则挖掘算法,开创性地使用了基于支持度的剪枝技术,系统地控制了候选项集的指数增长。但是,Apriori算法仍然存在着频繁扫描数据库和产生大量候选项集的缺点。鉴于此,提出了用一个整型或整型数组来代替一项事务集和一项候选项集,通过数据压缩,可以一次性将海量数据载入内存,减少了磁盘I/O负载,并通过位运算与计算海明距离达到计算支持度的目的,同时使用了若干优化方法。  相似文献   

17.
18.
《现代电子技术》2019,(1):180-182
为了提高图书推荐服务的准确度,提出一种基于Hadoop平台的Apriori优化算法。首先在分布式Hadoop框架的基础上,采用DAG图对Hadoop平台下的并行Map Reduce实施步骤进行分析;然后对传统关联规则Apriori算法进行Map Reduce优化,减少数据库连接的次数,同时尽量生成更少的无用候选项目集,从而缩短任务处理时间。实验结果显示,相比传统LDA推荐算法,所提出的算法具有较高的准确度,能够为借阅者推荐最适合的书籍。  相似文献   

19.
为了解决数据挖掘中关联规则Apriori算法存在的缺陷,提出了一种全新的基于对候选项集处理的改进算法。该算法主要采用一次扫描数据库和对候选项集进行计数处理的方法,实现了减少执行时间以及计算量的目的。实际应用表明,改进后的Apriori算法具有操作简便、测试准确的特点,达到了提高数据挖掘效率和准确性的要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号