首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 281 毫秒
1.
离群模糊核聚类算法   总被引:30,自引:2,他引:30       下载免费PDF全文
沈红斌  王士同  吴小俊 《软件学报》2004,15(7):1021-1029
一般说来,离群点是远离其他数据点的数据,但很可能包含着极其重要的信息.提出了一种新的离群模糊核聚类算法来发现样本集中的离群点.通过Mercer核把原来的数据空间映射到特征空间,并为特征空间的每个向量分配一个动态权值,在经典的FCM模糊聚类算法的基础上得到了一个特征空间内的全新的聚类目标函数,通过对目标函数的优化,最终得到了各个数据的权值,根据权值的大小标识出样本集中的离群点.仿真实验的结果表明了该离群模糊核聚类算法的可行性和有效性.  相似文献   

2.
基于局部信息熵的加权子空间离群点检测算法   总被引:7,自引:0,他引:7  
离群点检测作为数据挖掘的一个重要研究方向,可以从大量数据中发现少量与多数数据有明显区别的数据对象,"维度灾殃"现象的存在使得很多已有的离群点检测算法对高维数据不再有效,针对这一问题,提出基于局部信息熵的加权子空间离群点检测算法SPOD,通过对数据对象在各维进行邻域信息熵分析,生成数据对象相应的离群子空间和属性权向量,对离群子空间中的属性赋以较高的权值,进一步提出子空间加权距离等概念,采用基于密度离群点检测的思想,分析计算数据对象的子空间离群影响因子,判断是否为离群点,算法能够有效地适应于高维数据离群点检测,理论分析和实验结果表明算法是有效可行的.  相似文献   

3.
基于全局最近邻的离群点检测算法   总被引:1,自引:0,他引:1  
胡云  施珺  王崇骏  李慧 《计算机应用》2011,31(10):2778-2781
针对全局最近邻离群点检测算法的效率问题,为了能够在数据集中快速准确地检测离群点,运用属性约简技术,将离群点的搜索简约到较小的最具代表性的属性子空间中进行,从而有效降低属性空间搜索的复杂度。在此基础上,通过计算基于近邻的加权离群因子实现离群点的检测并提出了相应的算法。实验表明,该离群点算法具有较好的适应性和有效性。  相似文献   

4.
离群点检测是数据挖掘领域的一个重要的研究方向.针对高维数据空间中离群数据的挖掘速度和准确度的问题,提出一种基于单元格的离群点检测算法.该算法在高维数据空间中对数据进行降维,并且将数据依据属性权重划分成若干空间单元,从而减少查询次数,提高离群数据的挖掘速度.另外,通过对属性的加权处理能够更有效地突出属性的特殊性,从而提高挖掘的准确度.理论分析和实验结果表明了该方法是有效可行的.  相似文献   

5.
电站空预器积灰会严重影响机组运行经济性.提出加权模糊C均值聚类算法对空预器积灰程度进行监测,该方法计算多维样本中每一维数据的标准差,将其作为权重,计算样本与类心之间的加权欧式距离,降低模糊C均值聚类算法对离群点的敏感度.利用人工数据对该方法进行验证,结果表明,相比于传统模糊C均值聚类算法,提出的方法对离群点识别更加准确...  相似文献   

6.
格拉斯曼平均子空间对应着高斯数据的主成分,解决了PCA的扩展性问题,但算法假定样本的贡献取决于样本的长度,这可能导致离群点对算法的干扰较强。为此,利用无监督学习数据的局部特性或监督学习中样本的类别信息建立样本的权重,从而提出一种基于样本加权的格拉斯曼平均的算法,在UCI数据集和ORL人脸数据库上的实验结果表明,新算法有好的鲁棒性并且其识别率比已有方法提高1%~2%。  相似文献   

7.
胡云  潘祝山  施珺 《计算机工程》2011,37(21):38-39,42
针对传统离群点检测过程中属性多、维度大等问题,结合粗糙集理论,提出一种基于近邻关系的离群约简搜索算法。利用属性约简技术解决对象不相容的问题,并有效缩减离群搜索的属性空间。计算任意点与其他所有点间的距离和,通过计算基于近邻的加权离群因子来判定离群点,并在通用数据集上进行测试。实验结果表明,该离群检测算法的搜索精度较高。  相似文献   

8.
基于网格上近似的大规模数据集离群点检测算法GROUT   总被引:4,自引:0,他引:4  
通过对数据集中离群点分布特性的分析,给出离群点的解析定义,并在度量意义下采用数据空间网格化方法实现对密集数据主体的过滤,从而构造了在时间和空间上均具有极高效率的离群点检测算法。  相似文献   

9.
为了提高高维数据集合离群数据挖掘效率,该文分析传统的离群数据挖掘算法,提出一种离群点检测算法。该算法将非线性问题转化为高维特征空间中的线性问题,利用核函数-主成分进行维数约减,逐个扫描数据对象的投影分量,判断数据点是否为离群点,适用于线性可分数据集的离群点、线性不可分数据集的离群点的检测。实验表明了该算法的优越性。  相似文献   

10.
基于频繁模式的离群点挖掘在入侵检测中的应用   总被引:1,自引:0,他引:1  
王茜  唐锐 《计算机应用研究》2013,30(4):1208-1211
针对网络安全数据高维度的特征,对传统离群点检测不能有效发现的网络数据中入侵行为细节进行检测。提出一种基于频繁模式的算法,通过检测数据项的频繁模式和关联规则,剥离数据流中或安全日志数据中的噪声和异常点,计算安全数据的加权频繁离群因子,精确定位离群点,最后从中自动筛选出异常属性。实验证明,该方法在较好的空间复杂性与时间复杂性下,能有效地发现在高维安全数据中异常的属性。  相似文献   

11.
12.
基于数据驱动的故障检测模型通常要求训练数据必须是正常操作条件下的测量值.然而在实际工业生产过程中,即使在正常工况下,数据集中也难以避免存在离群值.此时若仍采用传统的基于多元统计分析的方法,其监测模型的控制限会受到严重影响,造成故障漏报.因此,为了确保当训练数据包含离群值时,监测模型仍然呈现较好的故障检测效果,本文提出了一种基于自联想核回归的故障检测方法.首先基于最小化β散度的鲁棒预白化算法对训练集进行白化计算,消除变量之间相关性对样本相似度度量的影响.然后通过自联想核回归算法重构正常工况下的验证数据,根据重构误差建立模型监测指标.为了消除离群值对故障样本重构的影响,构造截断函数来避免离群样本参与相似故障数据的重构,并对所有参与构建Q统计量的残差变量基于指数加权滑动平均方法自适应加权,得到新的监测统计量.将该方法运用于田纳西–伊斯曼过程并与其他方法进行比较,验证了本文所提故障检测算法的有效性.  相似文献   

13.
提出基于改进核主元和支持向量数据描述(SVDD)故障检测方法,适合于复杂工业过程具有非线性和非高斯性的情况.首先,通过对核主元(KPCA)特征空间样本进行重构误差,在样本集上自动识别异常值,减少对KPCA算法的影响并增强非线性核映射.然后,利用支持向量数据描述算法处理数据非高斯信号,据此构建统计量对工业过程进行检测.最后,将所提出的改进核主元和支持向量数据描述方法应用于田纳西-伊斯曼(TE,Tennessee Eastman)过程的仿真实验,结果说明提出方法的有效性.  相似文献   

14.
An iterative algorithm for robust kernel principal component analysis   总被引:1,自引:0,他引:1  
We introduce a technique to improve iterative kernel principal component analysis (KPCA) robust to outliers due to undesirable artifacts such as noises, alignment errors, or occlusion. The proposed iterative robust KPCA (rKPCA) links the iterative updating and robust estimation of principal directions. It inherits good properties from these two ideas for reducing the time complexity, space complexity, and the influence of these outliers on estimating the principal directions. In the asymptotic stability analysis, we also show that our iterative rKPCA converges to the weighted kernel principal kernel components from the batch rKPCA. Experimental results are presented to confirm that our iterative rKPCA achieves the robustness as well as time saving better than batch KPCA.  相似文献   

15.
经典的模糊C-均值聚类算法存在对噪声数据较为敏感、未考虑样本属性特征间的不平衡性及对高维数据聚类不理想等问题,而可能性聚类算法虽然解决了噪声敏感和一致性聚类问题,但算法假定每个样本对聚类的贡献程度一样。针对以上问题,提出了一种基于样本-特征加权的可能性模糊核聚类算法,将可能性聚类应用到模糊聚类中以提高其对噪声或例外点的抗干扰能力;同时,根据不同类的具体特性动态计算样本各个属性特征对不同类别的重要性权值及各个样本对聚类的重要性权值,并优化选取核参数,不断修正核函数把原始空间中非线性可分的数据集映射到高维空间中的可分数据集。实验结果表明,基于样本-特征加权模糊聚类算法能够减少噪声数据和例外点的影响,比传统的聚类算法具有更好的聚类准确率。  相似文献   

16.
Principal component analysis (PCA) is well recognized in dimensionality reduction, and kernel PCA (KPCA) has also been proposed in statistical data analysis. However, KPCA fails to detect the nonlinear structure of data well when outliers exist. To reduce this problem, this paper presents a novel algorithm, named iterative robust KPCA (IRKPCA). IRKPCA works well in dealing with outliers, and can be carried out in an iterative manner, which makes it suitable to process incremental input data. As in the traditional robust PCA (RPCA), a binary field is employed for characterizing the outlier process, and the optimization problem is formulated as maximizing marginal distribution of a Gibbs distribution. In this paper, this optimization problem is solved by stochastic gradient descent techniques. In IRKPCA, the outlier process is in a high-dimensional feature space, and therefore kernel trick is used. IRKPCA can be regarded as a kernelized version of RPCA and a robust form of kernel Hebbian algorithm. Experimental results on synthetic data demonstrate the effectiveness of IRKPCA.  相似文献   

17.
基于核的可能性聚类算法   总被引:3,自引:3,他引:0  
针对模糊C-均值算法聚类分析时的缺陷,采用能够较好地处理噪音和孤立点的可能性聚类算法,并将核学习方法的思想应用于可能性聚类算法中,提出一种基于核的可能性聚类算法。该方法利用Mercer核将观察空间的待分类样本点经过一个非线性映射后,映射到一个高维的核空间,突出不同类别样本之间的特征差异,使得原来线性不可分的样本点在核空间中变得更加线性可分,从而更好地聚类。经仿真实验表明,基于核的可能性聚类算法比模糊C-均值以及可能性聚类算法具有更好的聚类效果,且算法能够很快地收敛。  相似文献   

18.
Fuzzy support vector machine applied a degree of membership to each training point and reformulated the traditional support vector machines, which reduced the effects of noises and outliers for classification. However, the degree of membership only considered the distance from samples to the class center in the sample space, while neglected the situation of samples in the feature space and easily mistook the edge support vectors as noises. To deal with the aforementioned problems, the support vector machine based on intuitionistic fuzzy number and kernel function is proposed. In the high-dimensional feature space, each training point is assigned with a corresponding intuitionistic fuzzy number by the use of kernel function. Then, a new score function of the intuitionistic fuzzy numbers is introduced to measure the contribution of each training point. In the end, the new support vector machine is constructed according to the score value of each training point. The simulation results demonstrate the effectiveness and superiority of the proposed method.  相似文献   

19.
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群聚类算法,该算法将核方法与PP主成分变换结合于离群聚类算法中,采用基于核的PP主成分变换进行数据维数消减。通过该数据变换矩阵得到相应的非线性向量,并为每个向量分配一个动态权值,在优化经典的FCM模糊聚类的目标优化迭代函数基础上,最终得到各个数据的权值,根据权值的大小标识出数据集中的离群点,理论上证明了该算法的收敛性,仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号