共查询到19条相似文献,搜索用时 281 毫秒
1.
一般说来,离群点是远离其他数据点的数据,但很可能包含着极其重要的信息.提出了一种新的离群模糊核聚类算法来发现样本集中的离群点.通过Mercer核把原来的数据空间映射到特征空间,并为特征空间的每个向量分配一个动态权值,在经典的FCM模糊聚类算法的基础上得到了一个特征空间内的全新的聚类目标函数,通过对目标函数的优化,最终得到了各个数据的权值,根据权值的大小标识出样本集中的离群点.仿真实验的结果表明了该离群模糊核聚类算法的可行性和有效性. 相似文献
2.
基于局部信息熵的加权子空间离群点检测算法 总被引:7,自引:0,他引:7
离群点检测作为数据挖掘的一个重要研究方向,可以从大量数据中发现少量与多数数据有明显区别的数据对象,"维度灾殃"现象的存在使得很多已有的离群点检测算法对高维数据不再有效,针对这一问题,提出基于局部信息熵的加权子空间离群点检测算法SPOD,通过对数据对象在各维进行邻域信息熵分析,生成数据对象相应的离群子空间和属性权向量,对离群子空间中的属性赋以较高的权值,进一步提出子空间加权距离等概念,采用基于密度离群点检测的思想,分析计算数据对象的子空间离群影响因子,判断是否为离群点,算法能够有效地适应于高维数据离群点检测,理论分析和实验结果表明算法是有效可行的. 相似文献
3.
4.
离群点检测是数据挖掘领域的一个重要的研究方向.针对高维数据空间中离群数据的挖掘速度和准确度的问题,提出一种基于单元格的离群点检测算法.该算法在高维数据空间中对数据进行降维,并且将数据依据属性权重划分成若干空间单元,从而减少查询次数,提高离群数据的挖掘速度.另外,通过对属性的加权处理能够更有效地突出属性的特殊性,从而提高挖掘的准确度.理论分析和实验结果表明了该方法是有效可行的. 相似文献
5.
电站空预器积灰会严重影响机组运行经济性.提出加权模糊C均值聚类算法对空预器积灰程度进行监测,该方法计算多维样本中每一维数据的标准差,将其作为权重,计算样本与类心之间的加权欧式距离,降低模糊C均值聚类算法对离群点的敏感度.利用人工数据对该方法进行验证,结果表明,相比于传统模糊C均值聚类算法,提出的方法对离群点识别更加准确... 相似文献
6.
格拉斯曼平均子空间对应着高斯数据的主成分,解决了PCA的扩展性问题,但算法假定样本的贡献取决于样本的长度,这可能导致离群点对算法的干扰较强。为此,利用无监督学习数据的局部特性或监督学习中样本的类别信息建立样本的权重,从而提出一种基于样本加权的格拉斯曼平均的算法,在UCI数据集和ORL人脸数据库上的实验结果表明,新算法有好的鲁棒性并且其识别率比已有方法提高1%~2%。 相似文献
7.
8.
9.
10.
基于频繁模式的离群点挖掘在入侵检测中的应用 总被引:1,自引:0,他引:1
针对网络安全数据高维度的特征,对传统离群点检测不能有效发现的网络数据中入侵行为细节进行检测。提出一种基于频繁模式的算法,通过检测数据项的频繁模式和关联规则,剥离数据流中或安全日志数据中的噪声和异常点,计算安全数据的加权频繁离群因子,精确定位离群点,最后从中自动筛选出异常属性。实验证明,该方法在较好的空间复杂性与时间复杂性下,能有效地发现在高维安全数据中异常的属性。 相似文献
11.
12.
基于数据驱动的故障检测模型通常要求训练数据必须是正常操作条件下的测量值.然而在实际工业生产过程中,即使在正常工况下,数据集中也难以避免存在离群值.此时若仍采用传统的基于多元统计分析的方法,其监测模型的控制限会受到严重影响,造成故障漏报.因此,为了确保当训练数据包含离群值时,监测模型仍然呈现较好的故障检测效果,本文提出了一种基于自联想核回归的故障检测方法.首先基于最小化β散度的鲁棒预白化算法对训练集进行白化计算,消除变量之间相关性对样本相似度度量的影响.然后通过自联想核回归算法重构正常工况下的验证数据,根据重构误差建立模型监测指标.为了消除离群值对故障样本重构的影响,构造截断函数来避免离群样本参与相似故障数据的重构,并对所有参与构建Q统计量的残差变量基于指数加权滑动平均方法自适应加权,得到新的监测统计量.将该方法运用于田纳西–伊斯曼过程并与其他方法进行比较,验证了本文所提故障检测算法的有效性. 相似文献
13.
提出基于改进核主元和支持向量数据描述(SVDD)故障检测方法,适合于复杂工业过程具有非线性和非高斯性的情况.首先,通过对核主元(KPCA)特征空间样本进行重构误差,在样本集上自动识别异常值,减少对KPCA算法的影响并增强非线性核映射.然后,利用支持向量数据描述算法处理数据非高斯信号,据此构建统计量对工业过程进行检测.最后,将所提出的改进核主元和支持向量数据描述方法应用于田纳西-伊斯曼(TE,Tennessee Eastman)过程的仿真实验,结果说明提出方法的有效性. 相似文献
14.
We introduce a technique to improve iterative kernel principal component analysis (KPCA) robust to outliers due to undesirable artifacts such as noises, alignment errors, or occlusion. The proposed iterative robust KPCA (rKPCA) links the iterative updating and robust estimation of principal directions. It inherits good properties from these two ideas for reducing the time complexity, space complexity, and the influence of these outliers on estimating the principal directions. In the asymptotic stability analysis, we also show that our iterative rKPCA converges to the weighted kernel principal kernel components from the batch rKPCA. Experimental results are presented to confirm that our iterative rKPCA achieves the robustness as well as time saving better than batch KPCA. 相似文献
15.
经典的模糊C-均值聚类算法存在对噪声数据较为敏感、未考虑样本属性特征间的不平衡性及对高维数据聚类不理想等问题,而可能性聚类算法虽然解决了噪声敏感和一致性聚类问题,但算法假定每个样本对聚类的贡献程度一样。针对以上问题,提出了一种基于样本-特征加权的可能性模糊核聚类算法,将可能性聚类应用到模糊聚类中以提高其对噪声或例外点的抗干扰能力;同时,根据不同类的具体特性动态计算样本各个属性特征对不同类别的重要性权值及各个样本对聚类的重要性权值,并优化选取核参数,不断修正核函数把原始空间中非线性可分的数据集映射到高维空间中的可分数据集。实验结果表明,基于样本-特征加权模糊聚类算法能够减少噪声数据和例外点的影响,比传统的聚类算法具有更好的聚类准确率。 相似文献
16.
《国际计算机数学杂志》2012,89(5):956-968
Principal component analysis (PCA) is well recognized in dimensionality reduction, and kernel PCA (KPCA) has also been proposed in statistical data analysis. However, KPCA fails to detect the nonlinear structure of data well when outliers exist. To reduce this problem, this paper presents a novel algorithm, named iterative robust KPCA (IRKPCA). IRKPCA works well in dealing with outliers, and can be carried out in an iterative manner, which makes it suitable to process incremental input data. As in the traditional robust PCA (RPCA), a binary field is employed for characterizing the outlier process, and the optimization problem is formulated as maximizing marginal distribution of a Gibbs distribution. In this paper, this optimization problem is solved by stochastic gradient descent techniques. In IRKPCA, the outlier process is in a high-dimensional feature space, and therefore kernel trick is used. IRKPCA can be regarded as a kernelized version of RPCA and a robust form of kernel Hebbian algorithm. Experimental results on synthetic data demonstrate the effectiveness of IRKPCA. 相似文献
17.
基于核的可能性聚类算法 总被引:3,自引:3,他引:0
针对模糊C-均值算法聚类分析时的缺陷,采用能够较好地处理噪音和孤立点的可能性聚类算法,并将核学习方法的思想应用于可能性聚类算法中,提出一种基于核的可能性聚类算法。该方法利用Mercer核将观察空间的待分类样本点经过一个非线性映射后,映射到一个高维的核空间,突出不同类别样本之间的特征差异,使得原来线性不可分的样本点在核空间中变得更加线性可分,从而更好地聚类。经仿真实验表明,基于核的可能性聚类算法比模糊C-均值以及可能性聚类算法具有更好的聚类效果,且算法能够很快地收敛。 相似文献
18.
Minghu Ha Chao Wang Jiqiang Chen 《Soft Computing - A Fusion of Foundations, Methodologies and Applications》2013,17(4):635-641
Fuzzy support vector machine applied a degree of membership to each training point and reformulated the traditional support vector machines, which reduced the effects of noises and outliers for classification. However, the degree of membership only considered the distance from samples to the class center in the sample space, while neglected the situation of samples in the feature space and easily mistook the edge support vectors as noises. To deal with the aforementioned problems, the support vector machine based on intuitionistic fuzzy number and kernel function is proposed. In the high-dimensional feature space, each training point is assigned with a corresponding intuitionistic fuzzy number by the use of kernel function. Then, a new score function of the intuitionistic fuzzy numbers is introduced to measure the contribution of each training point. In the end, the new support vector machine is constructed according to the score value of each training point. The simulation results demonstrate the effectiveness and superiority of the proposed method. 相似文献
19.
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群聚类算法,该算法将核方法与PP主成分变换结合于离群聚类算法中,采用基于核的PP主成分变换进行数据维数消减。通过该数据变换矩阵得到相应的非线性向量,并为每个向量分配一个动态权值,在优化经典的FCM模糊聚类的目标优化迭代函数基础上,最终得到各个数据的权值,根据权值的大小标识出数据集中的离群点,理论上证明了该算法的收敛性,仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。 相似文献