首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 57 毫秒
1.
张璐璐  贾瑞玉  李杰 《微机发展》2006,16(12):73-75
离群数据挖掘是指从大量数据中挖掘明显偏离、不满足一般行为模式的数据。现有的离群数据挖掘算法大多对密集的交易数据库缺乏有效的处理,文中提出了一种高效的基于规则的离群挖掘算法。该算法使用了多层最大离群支持度及最小离群兴趣度,计算1-离群条件集的幂集,并在数据结构中存储了交易标识符链表,使得扫描数据库的次数仅为一次,从而提高了挖掘的速度、效率且使得结果更具有决策意义。文中使用此算法对某一商场的部分销售数据库进行了实验,结果表明该算法能有效、迅速地发现密集数据库中的离群数据。  相似文献   

2.
基于离群指数的时序数据离群挖掘   总被引:12,自引:0,他引:12  
离群数据挖掘(0utlier mining,简称离群挖掘)是数据挖掘的重要内容.该文针对时序数据进行离群数据挖掘方法的研究,提出了离群指数的概念,在此基础上设计了时序数据离群数据挖掘算法,并对某钢铁企业电力负荷时序数据进行离群数据挖掘,结果表明了算法的有效性.  相似文献   

3.
文中基于对传统Apriori算法的改进,提出了一种基于规则的离群数据挖掘算法。该算法在数据结构中增加标识符链表后,计算了1-离群条件集的幂集,使得仅需对原数据库进行一次扫描,从而降低了该算法的时间复杂度。同时由于兴趣度的引入使得挖掘的结果也更有针对性和目的性。该算法被应用于某求职系统的离群数据分析中,实验表明该算法是可行有效的。  相似文献   

4.
文中基于对传统Apriori算法的改进,提出了一种基于规则的离群数据挖掘算法。该算法在数据结构中增加标识符链表后,计算了1-离群条件集的幂集,使得仅需对原数据库进行一次扫描,从而降低了该算法的时间复杂度。同时由于兴趣度的引入使得挖掘的结果也更有针对性和目的性。该算法被应用于某求职系统的离群数据分析中,实验表明该算法是可行有效的。  相似文献   

5.
基于规则的分类数据离群挖掘方法研究   总被引:15,自引:0,他引:15  
离散数据的挖掘(outlier minign,简称离群挖掘)是数据挖掘的重要内容,现有的离群数据挖掘算法大多对分类数据(categorical data)缺乏有效的处理,提出了基于规则的分类数据离群挖掘方法,采用多层最大离群支持度maxsup,搜索离群规则,有效地解决了这一问题,用这一方法对医学流行病数据进行了各种,分析了该方法的适用范围、性能,验证了方法正确性;另外,实验表明,经过离散化后,基于  相似文献   

6.
唐锐 《计算机工程与应用》2007,43(9):174-175,230
提出了分布式系统中各站点离群数据之间模式相似性挖掘算法,该算法首先利用基于距离的离群数据挖掘算法挖掘各自站点的离群数据,然后计算离群数据的知识集,最后依据各站点知识集的分布情况来判断离群数据之间的类别相似性和行为相似性。  相似文献   

7.
侯天子  朱焱 《软件》2011,(11):25-28,31
在数据挖掘过程中,有很多挖掘算法试图使离群点的影响最小化,甚至是排除它们,然而这样可能丢失一些重要的信息。如今,在欺诈检测、网络入侵检测、故障诊断等问题中,离群点挖掘得到了越来越多的应用,离群点的发掘成为一个热门研究问题。I-Miner是一个企业级的数据挖掘工具,在本文中利用I-Miner软件对数据进行预处理,并用通过S语言拓展软件功能,编写了3种离群点算法并使用多个数据测试,对结果进行分析和对比研究。  相似文献   

8.
一种改进的基于密度的离群数据挖掘算法   总被引:2,自引:1,他引:1  
利用基于密度的离群数据挖掘算法离群数据不在非离群数据指定的邻域内的特点,改进了原有的离群数据挖掘算法:首先判断数据是否在某个非离群数据指定的邻域内,如果不在,再判断其邻域内数据的个数。通过对二维空间数据测试表明,改进的算法能够快速有效地挖掘出数据集中的离群数据,速度上数倍于原来的算法。  相似文献   

9.
基于蚁群聚类算法的离群挖掘方法   总被引:9,自引:4,他引:9  
离群挖掘是数据挖掘研究的重要内容,在实际生活中获得广泛应用。该文首先给出了离群数据的量化定义,并用基于蚁群的聚类学习方法,产生了状态空间的整体特征。然后结合具体的设备对象,提出了离群数据的挖掘方法。最后进行了实验验证,结果表明该文提出的方法是有效的。  相似文献   

10.
提出一种基于密度的快速查找离群点的算法——基于Z曲线的离群点查找算法(ZOD), 依据Z曲线的构造过程将空间分割成大小相等的网格,沿着曲线延伸方向对网格进行排序,将落在网格中的点映射到一维空间,从而克服了基于网格算法的“维灾”缺点;同时用局部偏离指数指示离群点的偏离程度,又具有识别精度高和偏离程度可度量的优点。理论分析表明,该算法性能优于著名的基于密度的算法;实验结果表明,该算法与其他高维离群点挖掘算法相比,在效率及有效处理的维数方面均有显著提高。  相似文献   

11.
基于网格聚类技术的离群点挖掘算法   总被引:6,自引:0,他引:6  
曹洪其  余岚  孙志挥 《计算机工程》2006,32(11):119-121,124
针对离群点的挖掘,在现有的LOF算法的基础上,提出了一种基于网格聚类技术的离群点挖掘算法AOMGC。该算法将离群点挖掘分成两步挖掘过程。此外,该算法对其网格的划分加以改进,并能根据数据信息自动生成划分间隔,从而提高了数据挖掘的效率。实验结果表明AOMGC算法是可行的和有效的。  相似文献   

12.
关联规则挖掘算法Apriori算法在挖掘频繁模式时需要产生大量的候选项集,多次扫描数据库,时空复杂度过高.针对该算法的局限性,提出了一种通过对项编码来减少扫描数据库次数并通过删除项来减少候选项集的数量,从而提高算法的效率.相同条件下的实验结果表明,优化后的算法能有效地提高关联规则挖掘的效率.  相似文献   

13.
一种基于遗传算法的关联规则挖掘方法   总被引:3,自引:0,他引:3  
根据关联规则挖掘的要求与特点,结合遗传算法的思想,提出了一个基于遗传算法的关联规则挖掘方法,并通过实例分析,说明是一种具有实用价值的方法。  相似文献   

14.
一种多支持度的关联规则采集算法   总被引:6,自引:1,他引:5  
关联规则采集是数据采集中的一类重要模型。规则采集算法用来发现数据中所有满足用户指定的最小支持度和最小可信度的子项美联(即规则)。国外某些学者提出了一个多支持度的模型,解决了单支持度模型中可能出现的稀有子项问题。基于该多支持度的模型提出了一种新的数据采集算法。  相似文献   

15.
基于离群点剔除的网络热点事件挖掘算法   总被引:1,自引:0,他引:1  
研究网络热点事件准确检测问题,收集网络文本数据中含有大量的离群点,由于离群点一些噪声数据,对网络热点事件检测产生不利影响.为提高检测正确率,提出一种采用离群点剔除的网络热点事件挖掘算法.首先通过计算数据点的密度相似度,将小于阈值的离群点剔除,降低计算复杂度和离群点的不利影响,然后采用模糊C均值聚类算法对网络文本进行聚类,发现其中的热点事件,最后通过仿真测试算法的有效性.仿真结果表明,改进算法剔除网络中的离群点,不仅提高了网络热点事件检测正确率,而且降低算法计算复杂度,加快了网络热点事件挖掘速度,更加适合于网络热点事件在线挖掘要求.  相似文献   

16.
卢炎生  王莉  赵栋 《计算机工程》2005,31(5):99-101
提出了一个基于无或言规则集的改进的关联规则算法——IHPD,无或言规则集(disjunction-frce sets)是一种精简集表示。这一算法总结了HLinEx,IHP和DHP算法的优点,极大地改善了算法性能,并且使算法的使用不仅仅局限于长类型的频繁项目集挖掘,实验结果表明IHPD算法在性能上比HLinEx更高效。  相似文献   

17.
常晓磊  闫仁武 《微机发展》2007,17(7):114-116
Parepinelli等提出了基于ACO的分类算法。文中提出了一种基于自适应蚁群算法的分类规则挖掘算法,该算法采用了与Parepinelli算法不同的启发式函数及信息素改变方法,引入了自适应机制与变异策略,从而达到缩短蚁群算法计算时间、加快算法收敛速度、提高预测准确率的目的。实验结果验证了该算法的有效性。  相似文献   

18.
Parepinelli等提出了基于ACO的分类算法。文中提出了一种基于自适应蚁群算法的分类规则挖掘算法,该算法采用了与Parepinelli算法不同的启发式函数及信息素改变方法.引入了自适应机制与变异策略,从而达到缩短蚁群算法计算时间、加快算法收敛速度、提高预测准确率的目的。实验结果验证了该算法的有效性。  相似文献   

19.
丁勇  朱长水  武玉艳 《计算机科学》2018,45(Z11):409-411, 416
传统的并行关联规则算法对每一次迭代都定义一个MapReduce任务,以实现候选项集的生成和计数功能,但多次启动MapReduce任务会带来极大的性能开销。文中定义了一种并行关联规则挖掘算法PST-Apriori,该算法采取分治策略,在每个分布式计算节点定义一个前缀共享树,通过递归调用的方式将事务T生成的候选项集逐层压缩到前缀共享树(PST)中。然后广度遍历PST,逐层将每个节点对应的〈key,value〉作为map函数的输入,并由Map-Reduce框架自动按照key值进行聚集。最后调用reduce函数对多个任务的处理结果进行汇总,得到满足最小支持度阈值的频繁项集。算法只使用两个MapReduce任务,且PST按照key值排序便于Mapper端的shuffle操作,提高了运行效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号