首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
针对欧式距离填充算法不足和微阵列数据集中缺失数据比率过大问题,提出了使用马氏距离有序填充微阵列的最近邻算法,能充分使用数据集中所有有效信息填充缺失数据,真实基因数据集的实验结果显示改进后的最近邻算法明显优于存在算法。  相似文献   

2.
针对传统的kNN(k-NearestNeighbor)近邻填补算法对缺失数据的填补效果会因为k最近邻数据存在噪声受到较大干扰的问题,提出一种基于kNN-DBSCAN(k-NearestNeighbor Density-based Spatial Clustering of Applications with Noise)的缺失数据填补优化算法。将基于密度的DBSCAN聚类算法运用到kNN近邻填补算法中,先用kNN算法得到目标填补数据的原始k最近邻数据集,运用DBSCAN聚类算法对原始k最近邻数据集进行噪声检测并消除噪声数据,得到当前k最近邻数据集,最后并入kNN计算,填补目标缺失数据;同时,针对DBSCAN聚类算法参数设置敏感的问题,通过分析数据集的统计特性来确定参数,避免人为经验判断。最后利用真实数据对算法进行验证,结果显示该算法对目标缺失数据的填补准确度要优于传统的kNN算法。  相似文献   

3.
Kernel-kNN: 基于信息能度量的核k-最近邻算法   总被引:2,自引:0,他引:2  
刘松华  张军英  许进  贾宏恩 《自动化学报》2010,36(12):1681-1688
提出一种核k最近邻算法. 首先给出用于最近邻学习的信息能度量方法, 该方法克服了高维数据不便于用传统距离度量表示的困难, 提高了数据间类别相似性和距离的一致性. 在此基础上, 将传统的kNN扩展为非线性形式, 并采用半正定规划学习全局最优的度量矩阵. 算法主要特点是: 能较好地适用于高维数据, 并有效提升kNN 的分类性能. 多个数据集的实验和分析表明, 本文的Kernel-kNN算法与传统的kNN算法比较, 在低维数据上, 分类准确率相当; 在高维数据上, 分类性能有明显提高.  相似文献   

4.
kNN算法是机器学习和数据挖掘程序中经常使用的经典算法。随着数据量的增大,kNN算法的执行时间急剧上升。为了有效利用现代计算机的GPU等计算单元减少kNN算法的计算时间,提出了一种基于OpenCL的并行kNN算法,该算法对距离计算和排序两个瓶颈点进行并行化,在距离计算阶段使用细粒度并行化策略和优化的线程模型,排序阶段使用优化内存模型的双调排序。以UCI数据集letter为测试集,分别使用E8400和GTS450运行kNN算法进行测试,采用GPU加速的并行kNN算法的计算速度比CPU版提高了40.79倍。  相似文献   

5.
基于马氏距离特征加权的模糊聚类新算法   总被引:2,自引:0,他引:2       下载免费PDF全文
模糊聚类分析是模糊模式识别中一个重要研究领域,而其中最经典的模糊C均值算法认为样本矢量各特征对聚类结果贡献均匀,没有考虑不同的属性特征对模式分类的不同影响,在处理属性高相关的数据集时,该算法分错率增加。针对这些问题,提出了一种基于马氏距离特征加权的模糊聚类算法,利用自适应马氏距离的优点对特征加权处理,对高属性相关的数据集进行更有效的分类。实验证明该方法的可行性和有效性。  相似文献   

6.
最近邻算法由于操作简单,效果显著,无论在科研还是实际生活中都具有广泛应用。文章首先解释了基于欧式距离的最近邻算法在计算两个记录之间距离方面的不足,然后提出了基于马氏距离的最近邻算法,真实数据集的实验结果显示,改进后的最近邻算法能取得较好的成绩。  相似文献   

7.
针对数据竞争聚类算法在处理复杂结构数据集时聚类性能不佳的问题,提出了一种密度敏感的数据竞争聚类算法。首先,在密度敏感距离测度的基础上定义了局部距离,以描述数据分布的局部一致性;其次,在局部距离的基础上计算出数据间的全局距离,用来描述数据分布的全局一致性,挖掘数据的空间分布信息,以弥补欧氏距离描述数据分布全局一致性能力不佳的缺陷;最后,将全局距离用于数据竞争聚类算法中。将新算法与基于欧氏距离的数据竞争聚类算法进行性能比较,在人工数据集和真实数据集上的实验结果表明,该算法克服了数据竞争聚类算法难以处理复杂结构数据的缺点,聚类结果具有更高的准确率。  相似文献   

8.
基于马氏距离的缺失值填充算法   总被引:1,自引:0,他引:1  
杨涛  骆嘉伟  王艳  吴君浩 《计算机应用》2005,25(12):2868-2871
提出了一种基于马氏距离的填充算法来估计基因表达数据集中的缺失数据。该算法通过基因之间的马氏距离来选择最近邻居基因,并将已得到的估计值应用到后续的估计过程中,然后采用信息论中熵值的概念计算最近邻居的加权系数,得到缺失数据的填充值。实验结果证明了该算法具有有效性,其性能优于其他基于最近邻居法的缺失值处理算法。  相似文献   

9.
大多数超椭球聚类(hyper-ellipsoidal clustering,HEC)算法都使用马氏距离作为距离度量,已经证明在该条件下划分聚类的代价函数是常量,导致HEC无法实现椭球聚类.本文说明了使用改进高斯核的HEC算法可以解释为寻找体积和密度都紧凑的椭球分簇,并提出了一种实用HEC算法-K-HEC,该算法能够有效地处理椭球形、不同大小和不同密度的分簇.为实现更复杂形状数据集的聚类,使用定义在核特征空间的椭球来改进K-HEC算法的能力,提出了EK-HEC算法.仿真实验证明所提出算法在聚类结果和性能上均优于K-means算法、模糊C-means算法、GMM-EM算法和基于最小体积椭球(minimum-volume ellipsoids,MVE)的马氏HEC算法,从而证明了本文算法的可行性和有效性.  相似文献   

10.
基于广义马氏距离的缺损数据补值算法   总被引:1,自引:0,他引:1  
陈欢  黄德才 《计算机科学》2011,38(5):149-153
在数据收集过程中数据缺损是不可避免的。如何还原这些缺损数据,成为数据挖掘研究的热点问题之一。与许多现有算法一样,基于马氏距离的缺损数据补值算法充分利用了实际数据之间的相关性,具有较好的补值效果,但它要求数据的相关性协方差矩阵可逆,使其应用范围受到了极大的限制。在改进传统主成分分析方法的基础上,利用矩阵的奇异值分解理论和Moors Pcnrosc广义逆性质,提出了广义马氏距离的概念,并运用于SOFM神经网络,结合信息嫡理论设计了基于广义马氏距离的缺损数据补值算法—GS算法。理论分析和数值仿真结果表明,广义马氏距离完全继承了马氏距离在处理相关性数据上的性能优势,新算法不仅在补值的精确度和稳定性上有很好的效果,而且适用于任意数据集合。  相似文献   

11.
郑静    熊伟丽   《智能系统学报》2021,16(4):717-728
由于传统的k近邻故障监测不考虑过程的局部信息,只建立一个全局模型,因此提出一种基于互信息的多块k近邻故障监测方法。首先,考虑建模数据的非线性和非高斯等特性,基于变量间的互信息进行子块构建;然后,利用k近邻方法对每个子块进行建模与监测,子块中的k近邻模型反映了更多的过程局部特征;最后,将所有子块的监测结果通过贝叶斯推断方法进行融合,并采用基于马氏距离的故障诊断方法辨识故障源。通过对田纳西-伊斯曼过程和高炉炼铁过程中的应用仿真,监测结果表明所提方法的可行性和有效性。  相似文献   

12.
针对传统的t分布随机近邻嵌入(t-SNE)算法只能处理单一属型数据,不能很好地处理混合属性数据的问题,提出一种扩展的t-SNE降维可视化算法E-t-SNE,用于处理混合属性数据。该方法引入信息熵概念来构建分类属性数据的距离矩阵,采用分类属性数据距离与数值属性数据欧式距离相结合的方式构建混合属性数据距离矩阵,将新的距离矩阵输入t-SNE算法对数据进行降维并在二维空间可视化展示。此外,为验证算法有效性,采用[k]近邻[(kNN)]算法对混合数据降维后的效果进行评价。通过在UCI数据集上的实验表明,该方法在处理混合属性数据方面,不仅具有较好的可视化能力,而且能有效地对不同类别的数据进行降维分簇,提升后续分类器的分类准确率。  相似文献   

13.
14.
In this paper we propose a new density based clustering algorithm via using the Mahalanobis metric. This is motivated by the current state-of-the-art density clustering algorithm DBSCAN and some fuzzy clustering algorithms. There are two novelties for the proposed algorithm: One is to adopt the Mahalanobis metric as distance measurement instead of the Euclidean distance in DBSCAN and the other is its effective merging approach for leaders and followers defined in this paper. This Mahalanobis metric is closely associated with dataset distribution. In order to overcome the unique density issue in DBSCAN, we propose an approach to merge the sub-clusters by using the local sub-cluster density information. Eventually we show how to automatically and efficiently extract not only ‘traditional’ clustering information, such as representative points, but also the intrinsic clustering structure. Extensive experiments on some synthetic datasets show the validity of the proposed algorithm. Further the segmentation results on some typical images by using the proposed algorithm and DBSCAN are presented in this paper and they are shown that the proposed algorithm can produce much better visual results in image segmentation.  相似文献   

15.
经典的模糊c均值聚类算法对非球型或椭球型分布的数据集进行聚类效果较差。将经典的模糊c均值聚类中的欧氏距离用Mahalanobis距离替代,利用Mahalanobis距离的优点,将其用于增量学习中,提出一种基于马氏距离的模糊增量聚类学习算法。实验结果表明该算法能较有效地解决模糊聚类方法中的缺陷,提高了训练精度。  相似文献   

16.
研究提出了一种混合属性样本的量子聚类算法,并应用于入侵检测的研究。通过给出一种新的混合属性的相异性度量方式和挖掘样本中的结构信息,并用量子势能确定聚类中心,提出了一种新的距离量子聚类MDQC(Weighted Mahalanobis Distance_based Quantum Clustering)算法,该算法具有自学习能力。并基于该算法提出了一种新的异常检测方法。仿真实验表明,该检测方法是有效的,有一定的实用价值。  相似文献   

17.
传统k最近邻算法kNN在数据分类中具有广泛的应用,但该算法具有较多的冗余计算,致使处理高维数据时花费较多的计算时间。同时,基于地标点谱聚类的分类算法(LC-kNN和RC-kNN)中距离当前测试点的最近邻点存在部分缺失,导致其准确率降低。针对上述问题,提出一种基于聚类的环形k最近邻算法。提出的算法在聚类算法的基础上,首先将训练集中相似度较高的数据点聚成一个簇,然后以当前测试点为中心设置一个环形过滤器,最后通过kNN算法对过滤器中的点进行分类,其中聚类算法可以根据实际情况自由选择。算法性能已在UCI数据库中6组公开数据集上进行了实验测试,实验结果表明:AkNN_E与AkNN_H算法比kNN算法在计算量上平均减少51%,而在准确率上比LC-kNN和RC-kNN算法平均提高3%。此外,当数据在10 000维的情况下该算法仍然有效。  相似文献   

18.
K近邻作为模式识别研究领域的热点之一,影响其性能的距离度量也得到广泛关注。但传统KNN采用欧氏距离,平等对待所有特征间的差别,不能有效反映数据的内在结构特征。针对此问题,借鉴局部保持投影的基本思想,根据局部保持散度矩阵定义一种距离度量新方法,利用该距离度量提出一种新颖的基于马氏距离的KNN算法。该算法在基于马氏距离分布特征的方式上充分反映每一类数据的内在结构特征。实验结果表明,与传统KNN和基于马氏距离的KNN相比,该算法表现出更好的分类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号