首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.

信息熵是粒计算理论中度量不确定信息的重要工具之一, 已有的异常数据挖掘算法主要针对确定性的异常
数据挖掘, 采用信息熵度量不确定性数据进行异常数据挖掘的研究报道较少. 鉴于此, 在引入信息熵概念的基础上,
定义基于信息熵的异常度来度量数据之间的异常程度, 并提出基于信息熵的异常数据挖掘算法, 该算法可有效进行
异常数据的挖掘. 理论分析与实验结果表明, 所提出算法是有效可行的.

  相似文献   

2.
粒计算理论提供了一种新的处理不确定、不完全与不一致知识的有效方法。知识粒度是粒计算理论中度量不确定信息的重要工具之一。已有的异常数据挖掘算法主要针对确定性的异常数据挖掘,采用知识粒度度量不确定性数据,进行异常数据挖掘的研究尚未报道。为此,在引入知识粒度概念的基础上,定义了相对知识粒度及异常度来度量数据之间的异常程度,并提出基于知识粒度的异常数据挖掘算法,该算法可有效进行异常数据的挖掘。实例验证了该算法的有效性。  相似文献   

3.
序列模式数据挖掘算法的并行化研究   总被引:1,自引:0,他引:1  
王宗江 《计算机科学》2008,35(8):249-251
序列模式在许多领域都有着重要的应用,大量的数据和模式需要高效的、可扩展的并行算法.针对目前序列模式挖掘算法存在的普遍问题,在对串行序列模式数据挖掘算法研究的基础上,本文提出了一种并行的序列模式数据挖掘算法.通过理论分析与实验验证可知:该并行数据挖掘算法,在海量数据的情形下,能很好地提高数据挖掘的效率.  相似文献   

4.
提出了一种新的面向分布式规则挖掘的数据取样技术(DOptiSim方法),它是在分析了分布式环境中移动Agent技术特点和研究了最优K相异性数据多样化代表性子集选择方法(OptiSim算法)及其扩展技术(EOptiSim算法)的基础上提出的.该方法不仅能克服基于集中处理的分布式数据挖掘方法的不足,还能完成各场地数据是互相关联和互相依赖的分布式数据挖掘任务.实验结果证实该方法是可行、有效的.  相似文献   

5.
数据库及数据仓库极易受到噪声数据的侵扰,而噪声数据的存在,很大程度上影响了数据挖掘的速度和质量.本文在传统的划分聚类方法基础上提出了一种聚类算法,该算法通过在数据预处理阶段有效的平滑噪声数据,显著提高了学习算法的学习效率和收敛速度,从而提高数据挖掘结果的质量.最后给出了在击剑训练负荷分析系统中的应用,仿真试验表明该聚类算法取得了很好的效果,具有较高的应用价值.  相似文献   

6.
数据挖掘取样方法研究   总被引:10,自引:0,他引:10  
取样是一种通用有效的近似技术.在数据挖掘研究中,取样方法可显著减小所处理数据集的规模,使得众多数据挖掘算法得以应用到大规模数据集以及数据流数据上.通过对应用于数据挖掘领域的代表性取样方法的比较研究和分析总结,提出了一个取样算法分类框架.在指出了均匀取样局限性的基础上阐述了某些应用场景中选用偏倚取样方法的必要性,综述了取...  相似文献   

7.
银行信贷业务是银行的一项重要业务,该业务存在一定的风险,如果我们能够预测客户的违约风险就可以最大程度的降低风险。数据挖掘技术可以很好的解决这一问题。将数据挖掘技术运用到银行客户信用评估,在庞大的数据中将看似无关联的数据进行筛选和净化,提取出有价值的信息,对客户贷款申请做出恰当的回应。数据挖掘是信息技术发展的必然结果,它是指通过挖掘算法从大量数据中抽取挖掘出隐含在其中的有价值的模式或规律等信息的复杂过程。其中,对数据的分类是数据挖掘领域研究的重要课题。本文通过决策树的经典算法ID3算法对银行信贷业务进行分析,并总结了该算法相对于其他算法的优缺点。  相似文献   

8.
数据挖掘技术是解决数据丰富而知识贫乏的有效途径,离群数据挖掘是数据挖掘领域中的重要研究内容之一,已广泛应用于网络入侵检测,信用卡诈骗,垃圾邮件的分析和基因突变分析等领域. 在高维海量数据中,由于数据量大和维度高,严重影响了离群数据挖掘的精度和效率. 本文在KNN基础上,通过定义“解集”的概念,在MapReduce编程环境下,实现了一种基于距离的离群数据挖掘算法. 分别采用人工数据集和UCI数据集,实验验证了该算法在不同条件下,参数对算法性能的影响.  相似文献   

9.
Microsoft神经网络算法是基于人体神经网络系统模拟而成的一种算法,它对于数据挖掘的发展有着很大的推动性.为了进一步发展基于神经网络算法的数据挖掘系统的应用,在Microsoft神经网络算法的基础上构建了一个数据挖掘商业应用实例系统,通过研究客户的一些个人属性以及办理业务的基本情况,预测客户的信誉情况、业务的办理趋向、银行开展新业务的趋向等.在实例系统的构建过程中,对神经网络数据挖掘算法的挖掘过程进行了详细的分析,促进了数据挖掘的应用实践.  相似文献   

10.
郭礼华 《计算机工程》2008,34(21):208-209,
针对大多数关联规则数据挖掘算法难以适应支持度或数据集的变化问题,提出一种基于图像映射的关联规则数据挖掘算法Pix-DM.该算法利用图像在操作系统中的显示及存储特点,结合数据挖掘理论,通过映射有效地将数据挖掘过程在线性空间中实现,提高了算法对支持度或数据集变化的适应能力.实验证明,Pix-DM算法是有效且可行的.  相似文献   

11.
郭鑫  黄云  颜一鸣  周清平 《计算机应用》2010,30(5):1300-1303
讨论频繁子树增量式更新问题,提出一种新的频繁子树增量式更新算法。提出有效树集概念和增量式更新策略,在更新挖掘时,无须重新运行子树挖掘程序,能充分利用已有的挖掘结果,算法只需要进行一次数据库遍历操作。提出候选子树剪枝策略,在更新挖掘过程中,能大幅减少子树同构次数,有效地提高了算法的运行效率。通过大量实验分析表明,算法有效可行且具有较高的运行效率。  相似文献   

12.
为解决传统频繁模式挖掘算法效率不高的问题,提出了一种改进的基于FP-tree (Frequent pattern tree)的Apriori频繁模式挖掘算法.首先,在Apriori算法的连接步加入连接预处理过程;其次,对CP-tree (Compact Pattern tree)进行扩展,构造了一个新的树结构ECP-tree (Extension of Compact Pattern tree),新的树结构只需对数据库进行一次扫描就能构造出一棵紧凑的前缀树,且支持交互式挖掘与增量挖掘;然后,将改进点与APFT算法结合,用于挖掘频繁模式;最后,使用UCI数据库中两个数据集进行实验.实验结果表明:改进算法具有较高的挖掘效率,频繁模式挖掘速度显著提升.  相似文献   

13.
增量式频繁项集挖掘是当前研究的热点,基于FP-Growth的Pre-FUFP算法有效处理了频繁模式的更新,但需递归遍历FP-tree,导致效率较低。提出Pre-FIUT算法,引入频繁超度量树结构,提高了获得频繁项集挖掘效率;基于FIUT的Pre-FIUT可通过查看频繁超度量树叶子结点的支持度确定频繁项集,并与次频繁项集概念相结合进行增量式频繁项集挖掘。实验表明,Pre-FIUT算法能快速扫描和更新数据,合理利用内存,精确获得频繁项集。  相似文献   

14.
特定数据最大频繁集挖掘算法   总被引:2,自引:0,他引:2       下载免费PDF全文
针对在某些限定项目数与交易长度数据的关联规则挖掘中FP-growth算法执行效率很低的问题,提出一种最大频繁模式挖掘算法,该算法引入与FP-tree结构类似的All-subset tree存储所有的最大频繁项目集,无需在扫描数据库前指定最小支持度,可以动态给定最小支持度而不用重新扫描数据库。实验结果表明,该算法在这些特定数据的挖掘中,与FP-growth相比明显提高了挖掘效率。  相似文献   

15.
关联规则挖掘是数据挖掘重要研究课题,大数据处理对关联规则挖掘算法效率提出了更高要求,而关联规则挖掘的最耗时的步骤是频繁模式挖掘。针对当前频繁模式挖掘算法效率不高的问题,结合Apriori算法和FP-growth算法,提出一种基于事务映射区间求交的频繁模式挖掘算法IITM(interval interaction and transaction mapping),只需扫描数据集两次来生成FP树,然后扫描FP树将每个项的ID映射到区间中,通过区间求交来进行模式增长。该算法解决了Apriori算法需要多次扫描数据集,FP-growth算法需要迭代地生成条件FP树来进行模式增长而带来的效率下降的问题。在真实数据集上的实验显示,在不同的支持度下IITM算法都要要优于Apriori、FP-growth以及PIETM算法。  相似文献   

16.
针对PrePost算法中需要建立复杂的前序和后序编码树(PPC-tree)和节点链表(N-list)的问题,提出一种基于间隔链表(I-list)改进的高效频繁项集挖掘算法。首先,该算法采用了比频繁模模式树(FP-tree)更加压缩的数据存储结构间隔编码的频繁模式树(IFP-tree),无需迭代地建立条件FP-tree;其次,该算法利用更简洁的I-list代替了PrePost中复杂的N-list,从而提高了建树和挖掘速度;最后,对于单分支路径的情况,该算法通过组合的方法,直接求得某些频繁项集,以提高算法的时间性能。实验结果表明:一方面,对于同一数据集在相同支持数下挖掘的结果相同,验证了改进算法的正确性;另一方面,无论在时间还是空间上改进算法的整体性能均比PrePost算法提高约10%;且对于稀疏型数据库或密集型数据库的挖掘都有较好的应用。  相似文献   

17.
图挖掘已成为数据挖掘领域研究的热点,然而挖掘全部频繁子图很困难且得到的频繁子图过多,影响结果的理解和应用。可通过挖掘最大频繁子图来解决挖掘结果数量巨大的问题,最大频繁子图挖掘得到的结果数量很少且不丢失信息,节省了空间和以后的分析工作。基于算法FSG提出了最大频繁子图挖掘算法FSG-MaxGraph;结合节点的度、标记及邻接列表来计算规范编码,提出两个定理来减少子图同构判断的次数,并应用改进后的决策树来计算支持度。实验证明,新算法解决了挖掘结果太多理解困难的问题,且提高了挖掘效率。  相似文献   

18.
AGM算法最早将Apriori思想应用到频繁子图挖掘中。AGM算法结构简单,以递归统计为基础,但面临庞大的图数据集时,由于存在子图同构的问题,在生成候选子图时容易产生很多冗余子图,使计算时间开销很大。基于AGM算法,针对候选子图生成这一环节对原算法进行改进,减少了冗余子图的生成,使改进后的算法在计算时间上具有高效性;测试了在不同最小支持度情况下改进方法的时间开销。实验结果表明改进算法比原算法缩短了计算时间,提高了频繁子图的挖掘效率。  相似文献   

19.
高效性和可扩展性是多关系数据挖掘中最重要的问题,而提高算法效率的主要瓶颈在于假设空间,且用户对分类的指导会在很大程度上帮助系统完成分类任务,减少系统独自摸索的时间。针对以上问题提出了改进的多关系决策树算法,即将虚拟连接元组传播技术和提出的背景属性传递技术应用到多关系决策树算法中。对改进的多关系决策树算法进行了理论证明,并且对多关系决策树算法和改进的多关系决策树算法进行比较实验。通过实验可以得出,当改进的多关系决策树在搜索数据项达到背景属性传递阈值时,改进的多关系决策树算法的效率相对很高且受属性个数增加(或  相似文献   

20.
基于改进FP-tree的最大频繁项集挖掘算法   总被引:8,自引:1,他引:7  
现有的最大频繁项集挖掘算法在挖掘过程中需要进行超集检测,基于FP-tree的算法需要递归的建立条件频繁模式树,挖掘效率不高.提出了一种基于改进FP-tree高效挖掘最大频繁项集的算法(MMFI).该算法修改了FP-tree结构并采用NBN策略,在挖掘过程中既不需要进行超集检测也不需要递归的建立条件频繁模式树.算法分析和实验结果表明,该算法是一种有效、快速的算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号