首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
为了快速有效的检测聚类的边界点,提出基于网格核密度的自适应边界点检测算法ADAPT(An Adaptive Grid Kernel-Density-Based BoundaryPoints Detecting Algorithm for Spatial Database with Noise),使用网格核密度更精确地拟合网格在其邻域内的密度,采用自适应选取网格近邻策略更好地反应对象的空间分布特征.实验结果表明:该算法可以在含有任意形状、不同大小和不同密度的数据集上快速有效地检测出聚类的边界点.  相似文献   

2.
为了深入挖掘校园无线网络轨迹行为数据信息,采用基于密度的聚类方法对校园内用户的轨迹行为进行特征聚类。由于基于密度的聚类算法通常采用距离作为相似性度量方式,为了有效衔接此类聚类算法,先将用户相似度矩阵通过转换函数转变为距离矩阵。引入离群点检测算法,将离群点检测算法与聚类算法相结合,减少参数的输入个数,增加聚类的聚合程度。改进后的聚类算法可以有效检测出数据轨迹的异常,帮助高校通过对学生上网记录的处理找到浏览信息与大部分同学不一致的人,缩小目标范围,进行有针对性的处理。通过定性分析和实验对比验证,确定两种基于离群点检测的共享最近邻的快速搜索密度峰值聚类适用于校园无线网络行为轨迹相似度矩阵的处理,邓恩指数等聚类内部指标及整体性能优于同类算法。  相似文献   

3.
基于密度偏倚抽样的局部距离异常检测方法   总被引:1,自引:0,他引:1  
付培国  胡晓惠 《软件学报》2017,28(10):2625-2639
异常检测是数据挖掘的重要研究领域,当前基于距离或者最近邻概念的异常数据检测方法,在进行海量高维数据异常检测时,存在运算时间过长的问题.许多改进的异常检测方法虽然提高了算法运算效率,然而检测效果欠佳.基于此本文提出一种基于密度偏倚抽样的局部距离异常检测算法,首先利用基于密度偏倚的概率抽样方法对所需检测的数据集合进行概率抽样,之后对抽样数据利用基于局部距离的局部异常检测方法.对抽样集合进行局部异常系数计算,得到的异常系数既是抽样数据的局部异常系数,又是数据集的近似全局异常系数.之后对得到的每个数据点的局部异常系数进行排序,异常系数值越大的数据点越可能是异常点.实验结果表明,和已有的算法相比,本算法具有更高的检测精确度和更少的运算时间,并且该算法对各种维度和数据规模的数据都具有很好的检测效果,可扩展性强.  相似文献   

4.
屏蔽输入参数敏感的异常点检测新方法   总被引:1,自引:0,他引:1  
陶运信  皮德常 《计算机科学》2008,35(12):192-195
大多数基于密度的异常点检测算法需要设置两个输入参数,并对输入参数很敏感,用户设置不正确会导致算法不能发现所有有意义的异常点,甚至是发现错误的异常点,这使得评价一个数据挖掘算法的"3-E"标准中"易于使用"这一点不能得到满足.为此,首先根据对象的邻域、反邻域和局部密度构造基于邻域的局部密度因子NLDF,NLDF可指示异常点的异常程度,然后提出一种屏蔽输入参数敏感的异常点检测算法ODINP.ODINP的一个非常显著的优点就是只需要一个参数k并且对k不敏感.该算法在保持已有基于密度的异常点检测算法高效性的同时,具有很高的异常点检测精度.大规模、任意形状和高维数据集的测试结果表明该算法是有效的、可行的.  相似文献   

5.
韩笑  毕波  唐锦萍  曹莉 《计算机与数字工程》2023,(7):1462-1468+1473
字符识别是当今时代一个重要的应用领域,不仅可以提高对大数据集进行整理分类的效率,还可以进行异常字符识别。核零空间算法在处理高维数据,提取数据的非线性特征上表现出很大的优势。因此将核零空间算法用于UCI数据集中的字符识别数据集,并且利用Matlab进行仿真实验,仿真结果表明,将核零空间算法用于字符识别,可以有效检测数据集中的异常字符。之后,为了进一步突出核零空间算法的优势,故将one-class svm,svdd以及孤立森林等一分类算法也用于该数据集,之后分别计算了各个算法的F1-score,并与核零空间算法进行了对比,可以发现核零空间算法在异常字符的检测上比其他任何一种一分类算法的性能都好。  相似文献   

6.
对各种网络数据流量的异常检测引起了人们的兴趣。网络数据流异常的检测和定位对于保障网络的稳定安全运行极为重要。基于主成份分析PCA(Principal component analysis)的网络异常检测算法虽然具有较好的检测性能,但是基于PCA的网络异常检测算法前提是假设网络流量数据满足高斯分布,且对网络数据的非线性结构表示无能为力。为了解决该问题,引入核函数空间,提出一种基于核主成分分析的在线网络流量异常检测算法。该算法以矩阵分解的方式构建正常子空间和异常子空间,并实现网络流量异常的检测。仿真实验分析表明,该算法取得了很好的检测性能。  相似文献   

7.
针对目前基于核密度估计的去噪算法在核函数参数的选取上未能充分体现散乱点云数据的表面特征,提出一种改进的去噪算法。以当前点法向量与其邻域内点的法向量构造的差向量作为核函数的参数,引入面积权重进行光顺,通过构造空间单元格的最大连通域剔除离群点,结合K-近邻搜索建立点云之间的拓扑关系,以改进的高斯函数作为核函数计算当前点的影响值。实验结果表明,该算法在有效去除表面噪声和离群点的同时,能够较好保留模型的细节特征。  相似文献   

8.
针对智能穿戴设备普及背景下,利用运动手环采集的活动数据存在未知异常数据的问题,提出一种基于高斯核密度估计的健康数据异常值检测方法。首先采用t-分布邻域嵌入算法对数据集进行特征提取,增强数据局部结构能力;接着利用高斯核局部密度代替局部异常因子算法中的局部可达密度,提出基于高斯核密度估计离群因子(GKDELOF)算法,推导分析了该算法判断阈值的稳定性;最后在UCI标准数据集上进行仿真实验,验证算法的准确性,并在选取的真实运动手环所采集的活动数据集上进行实验分析。实验结果表明,该方法能够解决由活动复杂多样性造成的健康数据稀疏问题,准确检测出异常值。  相似文献   

9.
局部离群点检测是近年来数据挖掘领域的热点问题之一.针对交通数据去噪问题,提出一种基于局部估计密度的局部离群点检测算法,算法使用核密度估计方法计算每个数据对象的密度估计值,来表示该数据对象的局部估计密度,并在核函数的带宽函数计算中引入数据对象的k-邻域平均距离作为其邻域信息,然后利用求出的局部估计密度计算数据对象的局部离群因子,依据局部离群因子的大小来判断数据对象是否为离群点.实验表明,该算法在UCI标准数据集与模拟数据集上都可以取得较好的表现.  相似文献   

10.
一种新颖的核学习算法用于小波特征的人脸识别   总被引:1,自引:0,他引:1  
文中将一种新颖的核学习算法一核最近邻凸包分类算法用于人脸的小波特征识别。该算法的设计受到支持向量机几何解释启发,利用核函数方法将数据映射到高维核空间,并在核空间构造以训练集凸包为扩展类集的最近邻分类器。文中采用的人脸图像的小波低频特征对人脸识别十分有效。人脸的小波低频特征不但保留了人脸的主要信息,而且具有较少的维度。在ORL人脸图像库上的“leave-one-out”测试方法的实验中,这种基于小波低频特征的核最近邻凸包分类算法取得了99.25%的识别率。  相似文献   

11.
周璨  李伯阳  黄斌  刘刘 《计算机工程》2008,34(8):184-186
通过分析现有入侵检测技术的不足,探讨基于孤立点挖掘的入侵检测技术的优势,提出一种基于核密度估计的入侵检测方法。该方法通过核密度估计求出孤立点的近似集,再通过筛选近似集获得最终的孤立点集合,从而检测入侵记录。阐述了具体实现方案,通过仿真实验验证了该方法的可行性。  相似文献   

12.
道路的起伏度严重制约着汽车的行驶速度,也在一定程度上影响道路的交通安全。在路面的识别检测中,路面数据中的噪声点和野值点是困扰识别检测的一大难题。本文利用支持向量机理论对于路面数据中的噪声点和野值点具有敏感性的特点,提出一种改进的PSO-SVM识别算法,首先利用参数优化超平面方程,然后利用粒子群(PSO)算法优化支持向量机的核函数及其参数,最后进行路面的识别检测。实验结果表明,本文提出的算法对于路面起伏度的检测计算具有速度快,识别准确率高(可达到92%)的特点。  相似文献   

13.
基于密度的局部离群点检测算法   总被引:1,自引:0,他引:1  
基于统计学和基于距离的离群点检测都依赖与给定数据点集的全局分布,然而数据通常并非都是均匀分布的。当分析分布密度相差很大的数据时,基于密度的局部离群点检测方法有着很好的识别局部离群点的能力。但存在时间复杂度较大,文章提出了一种改进的算法,能降低时间复杂度,实现有效的局部离群点的检测。  相似文献   

14.
针对窃电行为现场查证具有难以克服的现实困难,提出一种基于离群数据挖掘的窃电行为检测方法。该离群算法基于密度聚类算法,采用基于用电量波动的不同方向识别不同的用电模式,基于用电频率、离群距离以及异常规则关联度的计算挖掘潜在离群数据点,并通过基于评价矩阵确定离群阈值对离群数据点存在窃电行为的可能性进行确定性分析,实现对窃电行为的数据化检测。最后通过仿真测试证明该算法在针对混杂不同用电模式的用电数据的窃电检测方面相对于其他数据挖掘算法具有更好的性能表现。  相似文献   

15.
张悦  刘杰  李航 《计算机工程》2013,39(3):46-50,55
现有孤立点检测方法大多数都需要预先设定孤立点个数,若设定不准确将降低孤立点检测的准确性。针对该问题,提出一种基于概率的孤立点检测方法。结合基于密度的DBSCAN算法与中位数求方差的方法,对待检测数据集进行聚类,提取出不包含在任何聚类中的可疑孤立点并进行分析,从而确定最终孤立点。该方法所检测的数据与时间因素线性无关,不必预先设定孤立点个数及聚类数,并且对噪声数据具有较强的抗干扰能力。IRIS测试数据集上的实验结果表明,该方法能够有效地识别孤立点。  相似文献   

16.
基于滑动窗口的异常检测是数据流挖掘研究的一个重要课题,在许多应用中数据流通常在一个分布网络上传输,解决这类问题时常采用分布计算技术,以便获得实时高质量的计算结果。对分布演化数据流上连续异常检测问题,进行形式化地阐述,提出了两个基于核密度估计的异常检测定义和算法,并通过大量真实数据集的实验,表明该算法具有良好的高效性和可扩展性,完全适应数据流应用的需求。  相似文献   

17.
作为一种重要的数据挖掘手段,异常检测在数据分析领域有着广泛的应用。然而现有的异常检测算法针对不同的数据,往往需要调整不同的参数才能达到相应的检测效果,在面对大型数据时,现有算法检测的时间效率也不尽如人意。基于网格的异常检测技术,可以很好地解决低维数据异常检测的时间效率问题,然而检测精度严重依赖于网格的划分尺度和密度阈值参数,该参数鲁棒性较差,不能很好地推广到不同类型数据集上。基于上述问题,提出了一种基于多分辨率网格的异常检测方法,该方法引入一个鲁棒性较好的子矩阵划分参数,将高维数据划分到多个低维的子空间,使异常检测算法在子空间上进行,从而保证了高维数据的适用性;通过从稀疏到密集的多分辨率网格划分,综合权衡了数据点在不同尺度网格下的局部异常因子,最终输出全局异常值的得分排序。实验结果表明,新引入的子矩阵划分参数具有较好的鲁棒性,该方法能较好地适应高维数据,并在多个公开数据集上都能得到良好的检测效果,为解决高维数据异常检测的相关问题提供了一种高效的解决方案。  相似文献   

18.
In many data stream mining applications, traditional density estimation methods such as kernel density estimation, reduced set density estimation can not be applied to the density estimation of data streams because of their high computational burden, processing time and intensive memory allocation requirement. In order to reduce the time and space complexity, a novel density estimation method Dm-KDE over data streams based on the proposed algorithm m-KDE which can be used to design a KDE estimator with the fixed number of kernel components for a dataset is proposed. In this method, Dm-KDE sequence entries are created by algorithm m-KDE instead of all kernels obtained from other density estimation methods. In order to further reduce the storage space, Dm-KDE sequence entries can be merged by calculating their KL divergences. Finally, the probability density functions over arbitrary time or entire time can be estimated through the obtained estimation model. In contrast to the state-of-the-art algorithm SOMKE, the distinctive advantage of the proposed algorithm Dm-KDE exists in that it can achieve the same accuracy with much less fixed number of kernel components such that it is suitable for the scenarios where higher on-line computation about the kernel density estimation over data streams is required.We compare Dm-KDE with SOMKE and M-kernel in terms of density estimation accuracy and running time for various stationary datasets. We also apply Dm-KDE to evolving data streams. Experimental results illustrate the effectiveness of the proposed method.  相似文献   

19.
基于数据驱动的故障检测模型通常要求训练数据必须是正常操作条件下的测量值.然而在实际工业生产过程中,即使在正常工况下,数据集中也难以避免存在离群值.此时若仍采用传统的基于多元统计分析的方法,其监测模型的控制限会受到严重影响,造成故障漏报.因此,为了确保当训练数据包含离群值时,监测模型仍然呈现较好的故障检测效果,本文提出了一种基于自联想核回归的故障检测方法.首先基于最小化β散度的鲁棒预白化算法对训练集进行白化计算,消除变量之间相关性对样本相似度度量的影响.然后通过自联想核回归算法重构正常工况下的验证数据,根据重构误差建立模型监测指标.为了消除离群值对故障样本重构的影响,构造截断函数来避免离群样本参与相似故障数据的重构,并对所有参与构建Q统计量的残差变量基于指数加权滑动平均方法自适应加权,得到新的监测统计量.将该方法运用于田纳西–伊斯曼过程并与其他方法进行比较,验证了本文所提故障检测算法的有效性.  相似文献   

20.
一个基于小波的时序数据异常探测新算法   总被引:1,自引:0,他引:1       下载免费PDF全文
本文针对时序数据提出了一种基于小波的异常探测算法。首先应用小波变换将时域空间的时序数据分解成不同的频率成份,通过低频信号的特性缩短待处理的数据处理。对于变换后的数据,再采用基于密度的LOF异常探测方法挖掘异常数据。最后,对某烟草公司的烟叶收购数据序列进行了实验,结果表明了该算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号