首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于聚类和距离的大数据集离群点检测算法   总被引:1,自引:0,他引:1  
针对已有的基于距离的离群点检测算法在大数据集上扩展性差的问题,提出了基于聚类和距离混合的大数据集离群检测算法.算法第一阶段采用层次聚类和k-means混合的层次k-means算法对数据进行聚类,并按照一个启发式规则对其进行排序.第二阶段在聚类的结果上采用嵌套循环算法进行离群检测,并通过两个剪枝规则进行高效舅枝,减少了离群检测时数据点之间距离计算的次数.理论分析和实验结果证明了算法的可行性和效率.  相似文献   

2.
针对现有的局部离群点检测算法对数据对象不加分区,致使计算复杂度高的问题,提出了一种基于偏离的局部离群点检测算法.该算法首先对数据集进行分区,将可能存在的局部离群点与其紧邻的簇划分到一个数据块中,然后在每个数据块内,根据离散系数刻画各个数据对象的偏离度,从而求得每个数据对象在其所属的数据块内的局部偏离因子,发现可能存在的局部离群点.理论分析和实验结果表明,该算法具有良好的识别局部离群点的能力,检测的准确率和时间效率均优于经典的LOF算法.  相似文献   

3.
基于多向主元分析(multi-way principal component analysis,MPCA)(包括主元分析(principal component analysis,PCA))的统计监控模型易受建模数据中离群点影响,将数据点的k-最近邻(k-nearest neighbor,k-NN)距离dk作为离群度指标能有效地发现非线性数据集中的离群点,但现有的基于该定义的鲁棒离群点检测算法对不同尺度的中心化和标准化方法非常敏感,且需要计算每个数据点的dk,引起巨大的计算开销.提出一种改进尺度的近邻修剪(modified scale neighborhood pruning,MSNHP)高效鲁棒离群点检测算法用于对统计监控建模数据集的预处理.该算法利用改进尺度得到离线建模正常数据的均值和标准差,并对数据进行中心化和标准化处理;在每次dk查询过程中计算出其他点的dk上界用于直接修剪非离群点,以减少dk查询的次数;并通过优化搜索次序提高修剪效果和减少每次dk查询的计算开销.将该算法应用于β-甘露聚糖酶发酵间歇过程离群点检测,与其他鲁棒离群点检测算法相比,应用结果表明该算法明显减少了计算开销,对数据集数据个数和算法参数都具有更好的伸缩性.  相似文献   

4.
针对累积互信息方法存在的最佳聚类子空间选择不稳定和计算复杂的问题,给出累积熵的链式法则、累积全相关、累积全熵的计算方法,采用累积全熵在连续数据集上挖掘最佳聚类子空间,并在最佳聚类子空间中进行离群点挖掘,提出基于累积全熵的子空间聚类离群点检测算法。分别在真实数据集和虚拟数据集上验证了所提算法的有效性和可伸缩性。实验表明,所提算法进一步提高了子空间离群点的挖掘效率。  相似文献   

5.
针对传统的窑炉异常检测方法易受主观因素干扰且存在异常冗余报错的情况,提出一种基于人工蜂群算法的密度峰值聚类(ABC-DPC)的玻璃窑炉能耗异常检测方法。该方法针对密度峰值聚类存在人工设定参数和无法自动划分簇中心和离群点的不足,以人工蜂群算法实现了截断距离的自适应优选过程,并设立离群系数策略以实现自动划分簇中心和离群点的功能。研究了玻璃窑炉的分层能耗模型,并基于此导出能耗特征值,然后应用ABC-DPC算法实现窑炉异常能耗的聚类检测。实验结果表明,所提出算法较于经典聚类算法,检测准确率较高,而且能实时地检测窑炉的能耗异常状况。  相似文献   

6.
主动学习能够以更少的标注成本训练出更好的机器学习模型。 现有的 RD 算法与 QBC 算法的结合有效地解决了只考 虑单一标准的问题。 然而,RD 所基于的 K-means 聚类会将离群点也包括在内进而造成模型性能降低,而 QBC 则需要维护于多 个模型而间接返回样本的信息性. 针对上述问题,本文提出了一种基于自适应密度聚类的高斯过程回归(ADC-GPR)算法,通过 先聚类后直接利用不确定性进而高效选择样本。 该算法中的 ADC 聚类不仅对离群点鲁棒,还能根据数据集分布特性自适应聚 类,并为后续的 AL 提供了代表性样本点和其对应的簇,该方法在无监督选择时保证了代表性和多样性,在有监督选择时考虑 了信息性、代表性和多样性。 实验结果表明,在相同的抽样次数下将 ADC-GPR 算法与 RS、KS 以及 RD-GPR 算法相比,其平均 性能分别提升了 37. 3% 、8% 和 2. 8% ,ADC-GPR 算法的选择效率更高。  相似文献   

7.
基于半监督模糊核聚类的齿轮箱离群检测方法   总被引:2,自引:0,他引:2  
研究核聚类方法在机械故障检测中的应用问题,将基于半监督学习的模糊核聚类方法用于齿轮箱离群故障的检测。机械故障早期检测的难点是故障特征微弱、样本差异小,基于半监督学习的核聚类方法利用少量已知模式的样本,结合大量未知模式的样本进行半监督学习,得到较好的识别效果。进行齿轮箱正常运行和齿轮轻微点蚀的故障试验,比较基于半监督学习的核聚类方法与无监督学习核聚类方法的检测效果。试验结果表明,基于半监督学习的核聚类方法性能更优越。  相似文献   

8.
在开发和利用电力设备运行数据时,需要对其进行清洗,从中检测并剔除离群点样本。针对电力设备运行数据特性,利用K-means聚类算法实现离群样本的检测与处理,并利用MATLAB和C#联合编程技术,开发了电力设备离群点检测系统,不仅能快速准确地检测离群样本,而且还获得友好的可视化界面,给离群样本的检测和处理带来了便利。  相似文献   

9.
局部线性嵌入算法(locally linear embedding,LLE)是一种流形降维方法,在高维稀疏数据空间中,针对LLE不适合稀疏采样和欧氏距离公式的缺陷,研究该算法的扩展,引入核函数,并将样本映射到高维特征空间,核映射改善了样本的空间分布,改进的LLE方法在适当选取近邻点个数情况下,可得到良好的效果.对从高维采样数据中恢复得到低维数据集,通过本文提出的离群数据假设,并结合本文给出的离群聚类方法埘所得低维数据是否是离群数据进行判别.仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点,与此同时,该算法具有参数估计简单、参数影响不大等优点,该算法为离群点检测问题的机器学习提供了一条新的途径.  相似文献   

10.
以多元统计分析技术为核心的间歇过程建模、在线监测逐渐成为过程工业的关注焦点,然而过程数据中存在的大量离群点将直接影响上述方法的可靠性,为此提出了一种基于鲁棒M估计的间歇过程离群点检测方法.该方法首先通过积分方程离散化将模型参数估计问题转化为最小二乘优化问题;分别利用Tikhonov正则化方法及鲁棒M估计消除噪声和离群点对模型参数估计的影响;最后通过分析各个样本点的权值,实现过程数据的离群点检测.将所提出的方法应用于半间歇反应过程,实验结果验证了方法的可行性与有效性.  相似文献   

11.
为保留反映航空发动机故障信息或操作状态信息的真实突变数据,提出一种离群点挖掘与类指数平滑算法相结合的数据平滑处理技术.采用基于统计学的滚动样本离群点挖掘算法进行离群点挖掘,对非离群点的突变数据采用基于权重分配的类二次指数平滑算法进行滚动平滑.以厂家系统输出的平滑值作为学习目标,以均方误差最小化为目标进行参数优化.采用所提出的平滑处理技术及十点平滑算法对偏差值进行平滑处理,并与厂家系统的原始平滑值对比可知,提出的数据平滑处理技术能够保留真实突变数据,同时实现发动机气路参数偏差值的合理平滑.  相似文献   

12.
逆向工程中在对实体扫描时,由于测量过程受到人为或环境等因素的影响,会引入离群点,即离主体点云较远的小片点云和离散点.离群点的存在,会影响后续的建模质量,所以必须除去这些离群点.因此提出了两种删除离群点的算法,一种是自动删除离群点的算法,另一种是OpenGL框选拾取算法.通过实验证明这两种算法均能有效地删除离群点.  相似文献   

13.
考虑到现有费舍尔判别分析(FDA)及其改进算法无法同时有效利用有标签数据和无标签数据进行学习,提出一种基于密度峰值聚类的正则化局部费舍尔判别分析(DPC-RLFDA)算法。该算法首先利用密度峰值聚类算法得到的伪标签构造两个正则化项来规范局部FDA的类间散度矩阵和类内散度矩阵;然后通过求解目标函数得到最优投影向量。此外,为适用于非线性非高斯分布数据集,提出了基于核的DPC-RLFDA。在人工数据集和UCI数据集上的实验结果表明,与FDA及其改进算法相比,所提算法的判别性能得到了显著提升。  相似文献   

14.
针对快速搜索发现密度峰值聚类(CFSFDP)算法存在的密度中心选择不方便、聚类精度不高的问题,提出基于马氏距离的自动搜索发现密度峰值的聚类算法。该算法将马氏距离引入距离测定中,提高了聚类精度;提出聚类中心判定参数γ,自动获得了聚类中心。采集航空发动机转子模拟振动信号实验数据,分别采用传统CFSFDP算法、改进后的CFSFDP算法、K均值聚类和模糊C均值聚类进行分析,结果表明,所提算法能够很好地改善聚类精度,其聚类精度相比K均值聚类和模糊C均值聚类有很大优势,且在故障特征的分类与识别上均优于其他两种算法。  相似文献   

15.
基于离群算法组合曲面特征点提取的研究   总被引:1,自引:0,他引:1  
为了克服目前组合曲面提取特征点算法中阈值选取困难导致边界特征点误判的缺点,在对组合曲面特性进行分析的基础上,提出了一种基于离群算法的组合曲面特征点提取算法。该算法根据曲面特性定义了曲面域和曲面域深度,在空间统计学基础上引入正态分布的标准单位数和置信系数,采用空间数据挖掘中的离群算法提取组合曲面特征点。通过在某型摩托车零件中的应用,表明了该方法可以有效地避免阈值选取问题,且证明了该算法的有效性和实用性。  相似文献   

16.
工件表面离群数据的挖掘是一种通过现代科学技术方法对工件表面进行扫描取点,并在获取。的点群中找出离群的缺陷点,然后对这些有质量缺陷的离群点进行修复,以达到合格的质量标准。在该挖掘过程中,尚有一些问题有待解决,例如:如何判断什么样的点是离群点,选出离群点的标准是什么等。且不同的扫描方法和不问的检测技术都有着不一样的效果,这些都要通过实践不断地改进。  相似文献   

17.
基于邻居搜索和模糊C均值方法,提出了一种新的鲁棒的聚类算法(NSFA)。该算法采用邻居搜索方法遍历相邻的数据,依据搜索距离确定聚类数目。NSFA方法引入内核函数,以提高其对噪声和异常点的鲁棒性。为了验证算法的鲁棒性,实验采用读取加速度计的数据,对比实验结果表明所提出的算法明显提高数据集的聚类性能,清晰划分加速度的变化趋势。  相似文献   

18.
密度峰值快速搜索与聚类算法(CFSFDP)是2014年发表在《科学》上的一种新颖的聚类算法,该算法通过计算样本点的局部密度和到局部密度比它大的样本点的距离,采用决策图的形式确定聚类中心,能快速发现任意形状数据集的密度峰值点,并高效进行非中心样本点分配。但是当数据集中簇间密度差别较大或者某个簇中存在多密度峰值时,聚类结果较差。针对该问题,采用相对密度作为度量样本点密度的尺度搜索密度峰值,优化CFSFDP算法。人造数据集和UCI真实数据集上的实验表明,在没有显著提高时间复杂度的基础上,算法的性能优于CFSFDP算法和具有噪声的基于密度的聚类应用(DBSCAN)算法。最后将新算法应用于船舶位置数据,分析船舶交通流特征和群体行为模式,取得了满意的结果。  相似文献   

19.
郝晓青 《机电信息》2009,(36):47-48
提出了一种基于启发式的密度和网格的增量聚类算法。通过密度和网格相结合的方法,采用启发式原理进行聚类处理,利用增量式算法只对受影响的点进行计算,可以很快得到修正后的聚类,大大提高效率。实验表明该算法能很好地处理高维数据,较传统算法效率有显著提高而且加速度较商。  相似文献   

20.
张浩  张荣福 《光学仪器》2021,43(4):55-62
为了解决雷达探测数据中噪点过多的问题,提出了结合基于密度的噪声聚类算法(DBSCAN)和拉依达准则(3σ)的去噪方法。以雷达实际测量的目标运动信息为实验数据,运用DBSCAN算法进行聚类,剔除数据中的离群噪点,再通过拉依达准则去除影响较大的奇异值。实验结果表明,去噪之后雷达测距的线性误差由12 mm减少到0.36 mm,性能优于经典的半径滤波算法,可为实际雷达测量提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号