共查询到18条相似文献,搜索用时 500 毫秒
1.
传统的数据挖掘算法在面向大规模高维数据的挖掘过程中,存在数据特征捕捉准确率低、节点负载不均衡、数据交互频繁、频繁项集紧凑化程度低等问题。提出基于MapReduce的并行挖掘算法PARDG-MR,结合高维数据特征,设计基于维度粒化算法和负载均衡算法的DGPL策略,并对数据进行预处理,以解决高维复杂数据特征属性捕捉困难及数据划分中节点负载不均衡的问题。通过构建基于PJPFP-Tree树的频繁项集并行挖掘策略PARM,实现频繁项集的并行化分组过程,从而提高数据处理的运行效率。在此基础上,提出基于剪枝前缀推论的整合节点剪枝算法PJPFP,提高频繁项集挖掘过程中的剪枝效率,增强频繁项集的紧凑化程度。在Webdocs、NDC、Gisette 3个数据集上的实验结果表明,相比PFP-growth、PWARM、MRPrePost算法,该算法的运行时间平均缩短了约20%,能够有效提高数据挖掘效率且降低内存空间。 相似文献
2.
《计算机应用与软件》2016,(5)
频繁项集挖掘FIM(Frequent Itemsets Mining)是关联规则挖掘算法的重要组成部分。而经典Apriori和FP-Growth算法在海量数据处理时面临内存占用、计算性能等方面的瓶颈。基于Hadoop云计算平台,提出适用大数据处理的频繁项集挖掘HBFP(High Balanced parallel FP-growth)算法,设计后缀模式转换的数据分割及均衡任务分组方案,使计算节点本地拥有计算所依赖的数据,实现不同节点相互独立的并行数据挖掘方法,并保证算法全局的负载均衡特性。实验数据表明,HBFP算法能均匀地将计算量分散至不同计算节点,并行且相互独立地进行FP-Growth挖掘过程,算法效率提高了约12%,算法全局稳定性及效率取得提升。 相似文献
3.
针对大数据环境下并行MRPrePost频繁项集挖掘算法中存在计算节点负载不均衡,N-list合并效率低以及冗余搜索等问题,提出了基于N-list结构的混合并行频繁项集挖掘算法HP-FIMBN。首先,设计负载量估计函数(LE)来计算出频繁1项集F-list中每一项的负载量,同时提出基于贪心策略的分组方法(GM-GS)将F-list中的每一项根据其负载量进行均匀分组,既解决了数据划分中计算节点负载不均衡的问题,又降低了集群中各节点上子PPC-Tree树的规模;其次,提出预先放弃策略(EAS),该策略不仅能有效避免合并过程中的无效计算,而且不需要遍历初始N-list结构就能得到最终的N-list,极大地提高了N-list结构的合并效率;最后,采用集合枚举树作为搜索空间,并提出超集等价剪枝策略(SES)来避免挖掘过程中的冗余搜索,生成最终的挖掘结果。实验结果表明,该算法在大数据环境下进行频繁项集挖掘具有较好的效果。 相似文献
4.
约束关联挖掘是在把项或项集限制在用户给定的某一条件或多个条件下的关联挖掘,是一种重要的关联挖掘类型,在现实中有着不少的应用。但由于大多数算法处理的约束条件类型单一,提出一种多约束关联挖掘算法。该算法以FP-growth为基础,创建项集的条件数据库。利用非单调性和单调性约束的性质,采用多种剪枝策略,快速寻找约束点。实验证明,该算法能有效地挖掘多约束条件下的关联规则,且可扩展性能很好。 相似文献
5.
关联规则挖掘是数据挖掘重要研究课题,大数据处理对关联规则挖掘算法效率提出了更高要求,而关联规则挖掘的最耗时的步骤是频繁模式挖掘。针对当前频繁模式挖掘算法效率不高的问题,结合Apriori算法和FP-growth算法,提出一种基于事务映射区间求交的频繁模式挖掘算法IITM(interval interaction and transaction mapping),只需扫描数据集两次来生成FP树,然后扫描FP树将每个项的ID映射到区间中,通过区间求交来进行模式增长。该算法解决了Apriori算法需要多次扫描数据集,FP-growth算法需要迭代地生成条件FP树来进行模式增长而带来的效率下降的问题。在真实数据集上的实验显示,在不同的支持度下IITM算法都要要优于Apriori、FP-growth以及PIETM算法。 相似文献
6.
面向产业链协同SaaS平台的事件协同感知技术研究 总被引:1,自引:1,他引:0
为了解决业务关联的产业链协同SaaS平台不同企业对象间基于事件的动态协同感知问题,建立了基于业务事件的平台协同对象感知模型,提出了基于AOP技术的业务事件动态捕获机制、业务关联的协同对象列表产生器实现算法和基于GSM信号增强技术的事件消息发布方法。该模型和算法已在汽车零部件产业链协同SaaS平台上进行了应用,能满足汽车售后服务等复杂业务过程中跨单核企业联盟的业务协同需求。 相似文献
7.
8.
针对现有加权关联规则挖掘算法不能适用于矩阵加权数据的缺陷,给出一种新的矩阵加权项集剪枝策略,构建矩阵加权正负关联模式评价框架SRCCCI,提出一种新的基于SRCCCI评价框架的矩阵加权正负关联规则挖掘算法MWARM-SRCCCI。该算法克服了现有挖掘技术的缺陷,采用新的剪枝技术和模式评价方法,挖掘有效的矩阵加权正负关联规则,避免一些无效和无趣的模式产生。以中文Web测试集CWT200g为实验数据,与现有无加权正负关联规则挖掘算法比较,MWARM-SRCCCI算法的挖掘时间减幅最大可达74.74%。理论分析和实验结果表明,MWARM-SRCCCI算法具有较好的剪枝效果,候选项集数量和挖掘时间明显减少,挖掘效率得到极大提高,其关联模式可为信息检索提供可靠的查询扩展词来源。 相似文献
9.
张贵元 《电脑编程技巧与维护》2016,(9):60-61
在信息化和数字化大环境下,针对学校大量学生信息和学生成绩数据的管理和应用,基于数据挖掘技术中关联规则的算法做了陈述,通过对Apriori算法和FP-growth算法进行分析对比,阐述了FP-growth算法的优势,采用FP-growth算法对不及格学生成绩数据进行预处理和关联挖掘,得出了数学科目的关联拓扑图,以拓扑图分析了数学与其他科目的关联,对于学校的教务管理有一定的预警作用. 相似文献
10.
完全加权正负关联模式在文本挖掘、信息检索等方面具有重要的理论和应用价值.针对现有挖掘算法的不足,构建完全加权正负关联模式评价框架SPRMII(support-probability ratio-mutual information-interest),提出完全加权项集双兴趣度阈值剪枝策略,然后基于该剪枝策略提出一种新的基于SPRMII框架的完全加权正负关联模式挖掘算法AWAPM_SPRMII(all-weighted association patterns mining based on SPRMII).该算法克服了传统挖掘算法缺陷并采用新剪枝方法从完全加权数据库中挖掘有趣的频繁项集和负项集,通过项集权重维数比的简单计算和SPRMII评价框架,从这些项集中挖掘有效的完全加权正负关联规则.理论分析和实验表明,该算法有效,具有良好的扩展性,与现有经典挖掘算法比较,获得了良好的挖掘性能. 相似文献
11.
针对产业链协同软件即服务(SaaS)平台中售后服务系统的售后维修服务业务中可能存在着售后维修服务图片信息造假的问题,提出基于Android平台的移动智能终端设备采集售后服务信息并进行相关信息处理的解决方案。该解决方案首先通过移动智能终端数字图像采集技术采集维修服务信息;其次采用图片字符识别技术获取维修服务信息中的底盘号、里程表等关键信息;然后采用数字水印技术将这些关键信息嵌入采集的图片中;最后通过网络服务技术将移动智能终端与售后服务系统集成。通过在汽车产业链协同SaaS平台中的售后维修服务业务中的服务图片信息采集及防止图片造假处理的具体应用,验证了基于Android平台的售后维修服务信息采集解决方案的可行性和有效性。 相似文献
12.
陈君 《计算机技术与发展》2020,(5):180-184
数据挖掘技术是指从数据集中发现有效的、新颖的、潜在有用的和最终可以理解模式的高级处理过程,FP-growth算法是数据挖掘算法的一种。FP-growth算法是一种基于FP-tree的频繁项集挖掘算法,此算法是将原始数据集压缩到一棵FP-tree上,对原始数据集进行两次扫描,挖掘过程不产生候选项集,不用候选测试的算法,它使用紧缩的数据结构,避免了对数据库的重复扫描,运算速度快。文中收集了乐购二手车交易平台2016年1月到2018年12月共3年的数据,系统中可供挖掘的模块包括:二手车信息模块,拍卖品管理模块,购物车管理模块,订单管理等信息模块。利用FP-growth算法对乐购二手车交易系统数据库中的车辆品牌、使用年限、车载人数、行驶里程、车辆价格、保养状况等信息进行整理、转换、对比、分析,从中发现二手车交易中的规律,挖掘用户购车和卖车的有关规律,提高了车辆的成交率。 相似文献
13.
兴趣度量在关联规则挖掘中常用来发现那些潜在的令人感兴趣的模式,基于FP树结构的FP-growth算法是目前较高效的关联规则挖掘算法之一,如果挖掘潜在的有价值的低支持度模式,这种算法效率较低。为此,本文提出一种新的兴趣度量—项项正相关兴趣度量,该量度具有良好的反单调性,所得到的模式中任意一项在事务中的出现均可提升模式中其余项出现的可能性。同时,提出一种改进的FP挖掘算法,该算法采用一种压缩的FP树结构,并利用非递归调用方法来减少挖掘中建立额外条件模式树的开销。更为重要的是,在频繁项集挖掘中引入项项正相关兴趣度量剪枝策略,有效过滤掉非正相关长模式和无效项集,扩大了可挖掘支持度阈值范围。实验结果表明,该算法是有效和可行的。 相似文献
14.
基于改进FP-树的最大项目集挖掘算法* 总被引:1,自引:0,他引:1
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题。FP-growth算法是目前最有效的频繁模式挖掘算法之一,其在挖掘最大项目集时要递归生成大量的条件FP-树,存在时空效率不高的问题。于是结合改进的FP-树,提出了一种快速挖掘最大项目集的算法。该算法利用改进的FP-树是单向的且每个节点只保留指向父节点的指针,可以节约大量的存储空间;同时引入项目序列集和它的基本操作,使挖掘最大频繁项目集时不生成含大量候选项目的集合或条件FP-树,可以快速地挖掘出所有的最大频繁项目集。实例分析证明所提出的算法是可行的。 相似文献
15.
16.
数据流的无限性、高速性使得经典的频繁模式挖掘方法难以适用到数据流中。针对数据流的特点,对数据流中频繁模式挖掘问题进行了研究,提出了数据流频繁模式挖掘算法FP-SegCount。该算法将数据流分段并利用改进的FP-growth算法挖掘分段中的频繁项集,然后利用Count-Min Sketch进行项集计数。算法解决了压缩统计和计算快速高效的问题。通过实验分析,FP-SegCount算法是有效的。 相似文献
17.
关联规则挖掘是数据挖掘中的一个重要研究方向,用于发现项集之间的关联性。FP-growth算法通过构造FP-tree产生频繁集,由于其不生成候选集从而大大降低了搜索开销,其缺点是占用大量的内存空间。基于FP-growth的算法思想,提出基于FS-tree(频繁1-项子树)的频繁模式挖掘算法,通过将FP-tree拆分为多棵FS-tree,使算法的空间复杂度明显减小。实验表明,该算法是有效的。 相似文献
18.
《IEEE transactions on systems, man, and cybernetics. Part B, Cybernetics》2008,38(6):1513-1524