首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
为了使近邻传播(AP)聚类在高维空间中获得更好的聚类效果,该文提出一种基于谱分析的近邻传播聚类方法(Affinity Propagation based on Spectrum analyze,AP-SA)。首先,通过采用谱分析技术将分布在高维非线性的数据点集映射到几乎线性的子空间上,映射过程实现高维数据降至低维。最后,通过AP聚类算法对映射在低维空间上的数据进行聚类,从而提高了AP算法在高维空间上的聚类性能。仿真实验结果表明,该方法相比于传统AP算法,在低维数据中无明显的优势,但随着实验的数据集的样本规模与维数的增加,在高维数据中的该方法降低了聚类时间的同时,也保证了较好的聚类效果。  相似文献   

2.
基于测地线距离的广义高斯型Laplacian 特征映射   总被引:6,自引:0,他引:6  
传统的Laplacian 特征映射是基于欧氏距离的近邻数据点的保持,近邻的高维数据点映射到内在低维空间后仍为近邻点,高维数据点的近邻选取最终将影响全局低维坐标.将测地线距离和广义高斯函数融合到传统的Laplacian 特征映射算法中,首先提出了一种基于测地线距离的广义高斯型Laplacian 特征映射算法(geodesicdistance-based generalized Gaussian LE,简称GGLE),该算法在用不同的广义高斯函数度量高维数据点间的相似度时,获得的全局低维坐标呈现出不同的聚类特性;然后,利用这种特性进一步提出了它的集成判别算法,该集成判别算法的主要优点是:近邻参数K 固定,邻接图和测地线距离矩阵都只构造一次.在木纹数据集上的识别实验结果表明,这是一种有效的基于流形的集成判别算法.  相似文献   

3.
多维数据以线性形式在存储系统中进行访问操作,二维及以上维度空间中的相邻节点被不同的映射算法映射到一维空间的不相邻位置。高维空间中进行相邻节点访问时,其一维存储映射位置有着不同的访问距离和访问延迟。提出了基于空间填充曲线Z-Ordering的存储映射方法及其访问距离的度量指标,并和常规优先算法进行了对比,发现能更好地将高维相邻的数据节点簇集到一维存储位置,加强了局部性。调整缓存空间中用于预取的空间大小,可以利用增强的局部性,提高了缓存命中率。实验结果表明,改善了多维数据的访问速度,优化了系统性能。  相似文献   

4.
由于高维空间中数据点比较稀疏,用传统方法来检测高维空间中的离群点不能达到预期效果。提出了一种基于局部线性嵌入的离群点检测方法(OLLE)。在OLLE降维方法中,建立了一种有效的粗糙集模型,使数据集的下近似中的点保持局部线性结构。同时构造两个权重,使所有样本点保持局部近邻结构,且保证在降维的过程中使离群点远离正常点。最后,在低维空间中,采用基于最小生成树的k-最近邻启发式方法来检测离群点。通过一系列的模拟实验,证明OLLE方法能达到很好的降维效果,并且在低维空间中可以有效地检测出离群点。  相似文献   

5.
半监督维数约简是指借助于辅助信息与大量无标记样本信息从高维数据空间找到一个最优低维判别空间,便于后续的分类或聚类操作,它被看作是理解基因序列、文本与人脸图像等高维数据的有效方法。提出一个基于成对约束的半监督维数约简一般框架(SSPC)。该方法首先通过使用成对约束和无标号样本的内在几何结构学习一个判别邻接矩阵;其次,新方法应用学到的投影将原来高维空间中的数据映射到低维空间中,以至于聚类内的样本之间距离变得更加紧凑,而不同聚类间的样本之间距离变得尽可能得远。所提出的算法不仅能找到一个最佳的线性判别子空间,还可以揭示流形数据的非线性结构。在一些真实数据集上的实验结果表明,新方法的性能优于当前主流基于成对约束的维数约简算法的性能。  相似文献   

6.
赵娇 《传感技术学报》2022,35(12):1686-1690
海量高维传感器数据受网络环境扰动较大,导致其异常值检测难度较大,提出基于BIRCH聚类算法的高维传感器数据异常检测方案。推算节点对应的一阶差分信号序列,信号矢量通过多跳路由传输至网关节点,将空间相关性强的传感器节点划分在同一簇内,采集完整的高维传感器数据;利用分割点预设得到传感器数据特征属性候选分割点,挑选信息增益最大的点为最佳分割点;将传感器数据序列的中位数异常看作异常检测判定条件,利用BIRCH聚类算法中的聚类特征和聚类特征树计算节点特征属性,将数据聚类结果拟作球形簇状架构,输出高维传感器数据序列异常数据。仿真结果证明,该方法的异常节点检测的检出率在95%以上,误报率为0.35%,异常检测耗时在1.5min以内。  相似文献   

7.
流形上的非线性判别K均值聚类   总被引:1,自引:1,他引:0  
高丽平  周雪燕  詹宇斌 《计算机应用》2011,31(12):3247-3251
为提高具有流形结构的高维数据的聚类性能,提出非线性判别K均值聚类算法(NDisKmeans)。该方法通过引入流形上的谱正则化技术,将数据的低维嵌入表示成数据流形上平滑函数的线性组合,然后通过最大化低维空间中聚类类间的散度与总体散度的比值,来实现对高维数据的聚类。还设计了一种收敛的迭代求解方法来求解最优组合系数矩阵和聚类赋值矩阵。NDisKmeans方法由于考虑了数据的流形结构,克服了判别K均值算法中线性映射的不足,从而提高了对高维数据聚类的性能。最后在数据集上的广泛实验表明,NDisKmeans方法能有效实现对高维数据的聚类。  相似文献   

8.
席亮  蒋涛  张凤斌 《控制与决策》2019,34(5):1032-1036
网络安全已上升到国家安全战略层面,入侵检测技术是其重要的组成部分,已得到广泛关注.在基于免疫的入侵检测研究中,针对传统实值否定选择算法不利于高效分析数据而造成的检测器生成速度慢、检测效率低等问题,引入局部线性嵌入算法,借鉴其能对高维数据进行映射降维的特点,提出一种基于局部线性嵌入的免疫检测器优化生成算法,利用局部线性嵌入对高维数据预处理优化降维,并结合实值否定选择算法生成检测器.将该算法用于检测模型,从而提升检测器的生成速率,并可保证生成的检测器高效地处理高维数据.该算法在降维前后可保证样本的局部线性结构不变,具有可变参数少、计算时间短的特点.实验结果表明,所提出算法在显著提高检测器生成速率和对数据检测效率的基础上,检测性能也表现出很好的水平.  相似文献   

9.
提出基于广义判别分析的人脸识别方法,通过非线性核函数把样本映射到高维线性空间,然后在高维空间运用线性判决算法,从而获得输入空间非线性判决特征,可以很好地适应人脸图像中的光照、表情以及姿态等复杂的变化。实验证明该方法用较少的特征向量能获得比特征脸算法、Fisherfaces算法更高的分类准确率。  相似文献   

10.
张成  刘亚东  李元 《计算机应用》2015,35(2):470-475
针对高维数据难以被人们直观理解,且难以被机器学习和数据挖据算法有效地处理的问题,提出一种新的非线性降维方法--判别式扩散映射分析(DDMA)。该方法将判别核方案应用到扩散映射框架中,依据样本类别标签在类内窗宽和类间窗宽中判别选取高斯核窗宽,使核函数能够有效提取数据的关联特性,准确描述数据空间的结构特征。通过在人工合成Swiss-roll测试和青霉素发酵过程中的仿真应用,与主成分分析(PCA)、线性判别分析(LDA)、核主成分分析(KPCA)、拉普拉斯特征映射(LE)算法和扩散映射(DM)进行比较,实验结果表明DDMA方法在低维空间中代表高维数据的同时成功保留了数据的原始特性,且通过该方法在低维空间中产生的数据结构特性优于其他方法,在数据降维与特征提取性能上验证了该方案的有效性。  相似文献   

11.
基于无线传感器网络的环境监测系统中,广泛存在着离群数据.目前,一个有趣但还没有被广泛讨论的问题是离群时间序列的检测问题.为了满足大规模数据集快速离群数据检测的需求,本文提出了一种新的无线传感器网络离群时间序列检测算法,通过引入切比雪夫多项式实现离群数据快速检测.通过NS2仿真实验,证明了该算法的可行性和有效性.  相似文献   

12.
高维类别属性数据流离群点快速检测算法   总被引:1,自引:1,他引:1  
提出类别属性数据流数据离群度量--加权频繁模式离群因子(weighted frequent pattern outlier factor,简称WFPOF),并在此基础上给出一种快速数据流离群点检测算法FODFP-Stream(fast outlier detection for high dimensional categorical data streams based on frequent pattern).该算法通过动态发现和维护频繁模式来计算离群度,能够有效地处理高维类别属性数据流,并可进一步扩  相似文献   

13.
香农的信息熵被广泛用于粗糙集.利用粗糙集中的粗糙熵来检测离群点,提出一种基于粗糙熵的离群点检测方法,并应用于无监督入侵检测.首先,基于粗糙熵提出一种新的离群点定义,并设计出相应的离群点检测算法-–基于粗糙熵的离群点检测(rough entropy-based outlier detection,REOD);其次,通过将入侵行为看作是离群点,将REOD应用于入侵检测中,从而得到一种新的无监督入侵检测方法.通过多个数据集上的实验表明,REOD具有良好的离群点检测性能.另外,相对于现有的入侵检测方法,REOD具有较高的入侵检测率和较低的误报率,特别是其计算开销较小,适合于在海量高维的数据中检测入侵.  相似文献   

14.
异常值的检测问题是时下数据挖掘领域的研究热点。目前已经有许多种成熟的异常值检测方法,但当数据是高维混合型属性,或者存在成片孤立点时,这些方法就变得很不理想甚至不再适用。因此,针对这些现有方法的不足之处,提出了新的孤立点检测方法,并设计了时域和空域的异常值检测平台。对于时间和空间序列数据集,该平台分别采用基于互相关分析和自组织竞争(self-organizing maps, SOM)神经网络的异常值检测方法。经实验验证,检测平台具有较高的检测率和可靠性。同时,在搭建该平台时充分考虑了模块化和层次化的方式,使得平台具有良好的可扩展性和开放性。  相似文献   

15.
李昕  钱旭  王自强 《计算机工程》2010,36(21):34-36
针对高维异常数据的挖掘问题,提出一种基于最大间隔准则和最小最大概率机的高维异常数据挖掘算法。利用最大间隔准则算法将高维数据投影到低维特征空间,再利用最小最大概率机进行异常数据的挖掘。实验结果表明,该算法检测准确率较高。  相似文献   

16.
张天佑  王小玲 《计算机工程》2011,37(14):282-284
针对空间数据集的特性,提出一种基于空间局部偏离因子(SLDF)的离群点检测算法。利用SLDF度量空间点对象的离群程度,计算空间数据集中点对象的SLDF值并对其进行排序,将取值较大的前M个点对象作为空间离群点。实验结果表明,该算法能较好地检测空间局部离群点,其有效性与准确性均优于SLZ算法,适用于高维大数据集的空间离群点检测。  相似文献   

17.
对随机投影算法的离群数据挖掘技术研究   总被引:1,自引:0,他引:1  
[d]维点集离群数据挖掘技术是目前数据挖掘领域的研究热点之一。当前基于距离或最近邻概念进行离群数据挖掘时,在高维数据情况下的挖掘效果不佳,鉴于此,将基于角度的离群因子应用到高维离群数据挖掘中,提出一种新的基于随机投影算法的离群数据挖掘方案,它只需要用接近线性时间的方法就能预测所有数据点的基于角度的离群因子。该方法可以用于并行环境进行并行加速。对近似质量进行了理论分析,以保证算法的可靠性。合成和真实数据集实验结果表明,对超高维数据集,该方法效率高、可伸缩性强。  相似文献   

18.
时间序列异常检测   总被引:3,自引:0,他引:3  
在k-近邻局部异常检测算法的基础上,结合时间序列的分割方法,提出了一种高效的时间序列异常检测算法。该算法首先把序列重要点作为数据的分割点,对时间序列数据进行高比例压缩;其次利用局部异常检测方法检测出时间序列中的异常模式。通过心电图(ECG)数据实验验证了算法的有效性和合理性。  相似文献   

19.
基于动态网格的数据流离群点快速检测算法   总被引:8,自引:0,他引:8  
离群点检测问题作为数据挖掘的一个重要任务,在众多领域中得到了应用.近年来,基于数据流数据的挖掘算法研究受到越来越多的重视.为了解决数据流数据中的离群点检测问题,提出了一种基于数据空间动态网格划分的快速数据流离群点检测算法.算法利用动态网格对空间中的稠密和稀疏区域进行划分,过滤处于稠密区域的大量主体数据,有效地减少了算法所需考察的数据对象的规模.而对于稀疏区域中的候选离群点,采用近似方法计算其离群度,具有高离群度的数据作为离群点输出.在保证一定精确度的条件下,算法的运行效率可以得到大幅度提高.对模拟数据集和真实数据集的实验检测均验证了该算法具有良好的适用性和有效性.  相似文献   

20.
离异点是偏离部分观察对象的数据点,根据离异点所在单元的密度与相邻单元的密度相比可能偏高或偏低的特点,本文提出了基于网格相邻关系的离异点识别算法GAO。该算法用单元间的相对密度和单元质心距离来衡量单元间的离异度,根据离异度确定离异单元和离异点。实验结果表明,该算法能有效地识别出多密度数据集的离异点,算法的效率优于Cell-based算法,且适合大数据集的离异点识别。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号