首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 284 毫秒
1.
基于离群指数的时序数据离群挖掘   总被引:12,自引:0,他引:12  
离群数据挖掘(0utlier mining,简称离群挖掘)是数据挖掘的重要内容.该文针对时序 数据进行离群数据挖掘方法的研究,提出了离群指数的概念,在此基础上设计了时序数据离群数 据挖掘算法,并对某钢铁企业电力负荷时序数据进行离群数据挖掘,结果表明了算法的有效性.  相似文献   

2.
时序数据相似性挖掘算法研究   总被引:4,自引:0,他引:4  
时序数据相似性挖掘是数据挖掘中的重要研究内容.本文针对时序数据进行相似性挖 掘方法的研究,通过对时序数据进行离散傅立叶变换(DFT)将其从时域空间变换到频域空 间,将时序数据映射为多维空间的点,提出一种基于距离的时序数据相似性挖掘算法,并对 某钢铁企业电力负荷时序数据进行仿真实验,实验结果表明了算法的有效性.  相似文献   

3.
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群聚类算法,该算法将核方法与PP主成分变换结合于离群聚类算法中,采用基于核的PP主成分变换进行数据维数消减。通过该数据变换矩阵得到相应的非线性向量,并为每个向量分配一个动态权值,在优化经典的FCM模糊聚类的目标优化迭代函数基础上,最终得到各个数据的权值,根据权值的大小标识出数据集中的离群点,理论上证明了该算法的收敛性,仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。  相似文献   

4.
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群点检测算法,首先将非线性问题转化为高维特征空间中的线性问题,然后利用非线性数据变换进行维数约减,对从高维采样数据中恢复得到低维数据集,通过本文提出的离群数据假设,并结合本文给出的离群聚类方法对所得数据对象投影分量是否是离群数据进行判别。仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。与此同时,该算法具有参数估计简单、参数影响不大等优点,为离群点检测问题的机器学习提供了一条新的途径。  相似文献   

5.
一种改进的基于密度的离群数据挖掘算法   总被引:1,自引:1,他引:1  
利用基于密度的离群数据挖掘算法离群数据不在非离群数据指定的邻域内的特点,改进了原有的离群数据挖掘算法:首先判断数据是否在某个非离群数据指定的邻域内,如果不在,再判断其邻域内数据的个数。通过对二维空间数据测试表明,改进的算法能够快速有效地挖掘出数据集中的离群数据,速度上数倍于原来的算法。  相似文献   

6.
一种基于关键域子空间的离群数据聚类算法   总被引:4,自引:0,他引:4  
离群数据发现与分析是数据挖掘的重要组成部分,现有离群数据挖掘算法主要针对如何检测离群对象,缺乏对挖掘出的离群数据集进行解释与分析的有效方法.通过对离群数据来源及特性进行分析并结合粗糙集理论,定义了离群划分相似度的概念,提出了一种基于关键属性域子空间的离群数据聚类算法COKAS,该算法不仅揭示了离群数据子空间特性,进一步获取了扩展知识,而且有助于对整体数据集的理解.对两个多维数据集的实验结果表明,该算法具有良好的适应性及有效性.  相似文献   

7.
由于数据流数据的动态性、时序性和数据量大等特点使得数据流上的数据挖掘变得更加困难和富有挑战。通过对Squeezer聚类算法的研究分析,并基于此算法提出了一种新的基于聚类的数据流离群数据检测算法O-Squeezer。把数据流看成一个随时间变化的过程,并将其分成许多数据分区,在每个数据块内用改进的O-Squeezer算法挖掘离群数据。理论分析和实验表明,算法可以有效发现数据流中的局部离群数据,算法是可行的。  相似文献   

8.
崔贯勋  李梁  王勇  倪伟  黄丽丰 《计算机应用》2009,29(12):3300-3302
针对数据集中离群数据的挖掘速度的问题,提出了快速的基于单元格的离群数据挖掘算法。该算法根据网格的特点首先将数据划分成若干空间单元,从而减少区域查询次数,提高离群数据的挖掘速度,然后根据单元格的阈值来判定一个数据是否为离群数据。通过数据测试表明,该算法能够快速有效地挖掘出数据集中的离群数据。  相似文献   

9.
离群点检测是数据挖掘领域的一个重要的研究方向.针对高维数据空间中离群数据的挖掘速度和准确度的问题,提出一种基于单元格的离群点检测算法.该算法在高维数据空间中对数据进行降维,并且将数据依据属性权重划分成若干空间单元,从而减少查询次数,提高离群数据的挖掘速度.另外,通过对属性的加权处理能够更有效地突出属性的特殊性,从而提高挖掘的准确度.理论分析和实验结果表明了该方法是有效可行的.  相似文献   

10.
由于数据流数据的动态性、时序性和数据量大等特点使得数据流上的数据挖掘变得更加困难和富有挑战.通过对Squeezer聚类算法的研究分析,并基于此算法提出了一种新的基于聚类的数据流离群数据检测算法O-Squeezer.把数据流看成一个随时间变化的过程,并将其分成许多数据分区,在每个数据块内用改进的O-Squeezer算法挖掘离群数据.理论分析和实验表明,算法可以有效发现数据流中的局部离群数据,算法是可行的.  相似文献   

11.
一个基于小波的时序数据异常探测新算法   总被引:1,自引:0,他引:1       下载免费PDF全文
本文针对时序数据提出了一种基于小波的异常探测算法。首先应用小波变换将时域空间的时序数据分解成不同的频率成份,通过低频信号的特性缩短待处理的数据处理。对于变换后的数据,再采用基于密度的LOF异常探测方法挖掘异常数据。最后,对某烟草公司的烟叶收购数据序列进行了实验,结果表明了该算法的有效性。  相似文献   

12.
为了方便油藏数据特征的分析和石油的勘探开发过程,本文利用Spark并行计算框架分析油藏数据,并通过数据挖掘算法分析油藏属性之间的潜在关系,对油藏的不同层段进行了分类和预测.本文的主要工作包括:搭建Spark分布式集群和数据处理、分析平台,Spark是流行的大数据并行计算框架,相对传统的一些分析方法和工具,可以实现快速、准确的数据挖掘任务;根据油藏数据的特点建立多维异常检测函数,并新增渗孔比判别属性Pr;在处理不平衡数据时,针对逻辑回归分类提出交叉召回训练模型,并优化代价函数,针对决策树,提出KR-SMOTE对小类别样本进行过采样扩充,这两种方法都可以有效处理数据不平衡问题,提高分类精度.  相似文献   

13.
张璐璐  贾瑞玉  李杰 《微机发展》2006,16(12):73-75
离群数据挖掘是指从大量数据中挖掘明显偏离、不满足一般行为模式的数据。现有的离群数据挖掘算法大多对密集的交易数据库缺乏有效的处理,文中提出了一种高效的基于规则的离群挖掘算法。该算法使用了多层最大离群支持度及最小离群兴趣度,计算1-离群条件集的幂集,并在数据结构中存储了交易标识符链表,使得扫描数据库的次数仅为一次,从而提高了挖掘的速度、效率且使得结果更具有决策意义。文中使用此算法对某一商场的部分销售数据库进行了实验,结果表明该算法能有效、迅速地发现密集数据库中的离群数据。  相似文献   

14.
利用反馈的时序模式挖掘算法研究   总被引:2,自引:0,他引:2  
针对时序数据相似性挖掘方法进行研究,提出一种利用反馈的时序数据相似性挖掘算法,由用户赋予各初始范围查询得到的相似序列相应的权值,通过反馈与给定序列叠加产生新的查询序列,再次进行范围查询,获得相似序列,将该算法用于某钢铁企业的电力负荷时序数据,计算结果表明了算法的有效性。  相似文献   

15.
衡红军  刘静 《计算机工程》2020,46(3):99-104
针对传统异常点检测模型难以准确分析汽车驾驶异常行为的情况,建立一种基于自动编码器与孤立森林算法的多维时间序列汽车驾驶异常点检测模型。利用滑动窗口计算原始多维时间序列范数、范数变化率及相关统计信息值提取数据特征,通过自动编码器重构特征数据,并结合孤立森林算法实现异常点检测。实验结果表明,与基于LOF、OCSVM、iForest和LSTM-AE的异常点检测模型相比,该模型的召回率和F1度量值可分别提升至6%和2.4%以上,综合性能更优。  相似文献   

16.
数据挖掘中孤立点的分析研究在实践中应用   总被引:5,自引:0,他引:5  
介绍了孤立点的定义和三种挖掘算法,即基于统计的方法、基于距离的方法和基于偏离的方法,在这个基础上,尝试了利用孤立点检测方法对教务管理系统中积累的数据进行分析,并验证了基于距离和的孤立点检测算法的有效性,通过实验,结果分析表明:基于距离和的算法降低了检测过程对用户设置阈值的要求,在时间复杂度上,稍微优于循环嵌套算法。  相似文献   

17.
基于密度的局部离群点检测算法   总被引:1,自引:0,他引:1  
基于统计学和基于距离的离群点检测都依赖与给定数据点集的全局分布,然而数据通常并非都是均匀分布的。当分析分布密度相差很大的数据时,基于密度的局部离群点检测方法有着很好的识别局部离群点的能力。但存在时间复杂度较大,文章提出了一种改进的算法,能降低时间复杂度,实现有效的局部离群点的检测。  相似文献   

18.
网络操作中收集了大量的系统日志数据,找出精确的系统故障成为重要的研究方向.提出一种条件因果挖掘算法(CCMA),通过从日志消息中生成一组时间序列数据,分别用傅里叶分析和线性回归分析删除大量无关的周期性时间序列后,利用因果推理算法输出有向无环图,通过检测无环图的边缘分布,消除冗余关系得出最终结果.仿真结果表明,对比依赖挖掘算法(DMA)和网络信息关联与探索算法(NICE),CCMA算法在处理时间和边缘相关率2个主要性能指标方面均有改善,表明CCMA算法在日志事件挖掘中能有效优化处理速度和挖掘精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号