首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
传统的等距特征映射算法在降维时未考虑数据的类别标签,降维后不能够产生从高维到低维的映射矩阵,且不适用于多个类簇的情况,不能直接用于分类。针对这几个问题利用近邻元分析方法取代多维尺度分析法,并且引入特征向量作为输入矩阵,提出一种以分类为目的的等距特征映射算法(NC-ISOMAP)。降维时获取理想的低维投影矩阵,使降维后类间数据更加分开,类内数据更加紧凑。实验结果表明NC-ISOMAP算法能够取得很好的降维效果和分类性能,并在不同的数据集中有着较好的鲁棒性。  相似文献   

2.
当前局部离群点并行检测算法在实现时,没有消除局部离群点中存在的冗余数据,存在k值不稳定、局部可达密度低、检测时间长的问题,严重影响数据的正常使用,于是提出面向高维大数据的局部离群点并行检测算法。根据信息熵原理采用E-PCA算法提取高维大数据的特征,并消除冗余特征,实现高维大数据的降维处理,提高算法的检测精度;为了在较短的时间内完成局部离群点的并行检测,结合Hadoop分布式平台中的Mapreduce分布框架和传统的离群点检测算法,在高维大数据中完成局部离群点的并行检测。仿真结果表明,所提算法的k值适中、局部可达密度高和检测时间短。  相似文献   

3.
对高维数据离群点降维方法进行研究,从而提高挖掘算法的准确度以及挖掘的速度。针对传统的离群点挖掘算法对于高维数据的不适用性,提出了基于属性的局部离群点挖掘算法,该算法以局部线性嵌入降维算法为基础,利用研究对象的特征属性和环境属性来实现降维的目的。实验证明,该方法可以通过约简对象属性的方式达到降维的目的,相比于传统算法更为有效。  相似文献   

4.
针对流形学习用于监督分类时效果不尽人意的问题,提出了一种有监督的宏流形学习算法。算法根据给定的训练样本构造子流形,子流形沿着边界粘连构成父流形。在充分利用训练集的类别标签信息和类内近邻信息的基础上,计算出最优非线性映射函数,对训练样本的高维特征进行降维,同时利用非线性核回归技术处理样本外点学习问题,使降维后得到的低维嵌入更有利于分类。将提出的算法与多种经典降维算法在2个典型测试数据集,即21类地物数据集和UCI数据集,分别进行分类实验。实验结果表明所提出的算法能够取得更好的分类效果。  相似文献   

5.
因近红外光谱具有波长点多、谱带归属困难、光谱重叠严重及光谱分布结构未知等问题,在进行近红外光谱关键特征提取和数据特征空间映射时难以准确获知合适降维方法。为了解决该问题,本文对比分析了典型线性和非线性降维方法 ,并用烟叶近红外光谱数据从数据降维可视化和分类准确性识别率角度分别进行了实验验证。结果表明,线性降维算法,特别是PCA、LDA算法,比较适合应用于烟叶近红外光谱降维分析中,非线性降维算法因其泛化学习能力与推广能力差以及本征维数估计困难不适合应用于近红外光谱降维分析。  相似文献   

6.
扩散映射(diffusion maps)是一种基于流形学习的非线性降维方法。为了提高降维的效果, 根据近邻点的选取对diffusion maps的降维效果影响, 利用数据近邻点分布的不同, 挖掘该数据点局部的密度信息, 能够更好地保持数据的流形结构。利用样本点聚类后的类别信息构造密度信息指数, 提出了一种改进的diffusion maps算法, 有效地保持了高维数据中的流形结构, 所提的新算法在多种实验中得到了证实。  相似文献   

7.
等度量映射(ISOMAP)算法是一种被广泛应用的非线性无监督降维算法,通过保持各个观测样本间的测地距离进行等距嵌入,从而实现高维空间向低维空间的坐标转换。但在实际应用中,观测数据无可避免地会存在噪声,由于测地距离的计算对噪声比较敏感,并且也没有考虑数据集的密度分布,导致ISOMAP算法降维后低维坐标表示存在几何变形。针对这一缺点,根据局部密度的思想,提出一种基于密度缩放因子的ISOMAP(Density Scaling Factor Based ISOMAP,D-ISOMAP)算法。在传统的ISOMAP算法框架下,首先,针对每个观测样本计算一个局部密度缩放因子;然后,在测地距离的计算过程中,将直接相邻的两个样本之间的测地距离除以这两个样本密度缩放因子的乘积;最后,通过最短路径算法求得改进后的距离矩阵,并对其进行降维处理。改进的测地距离在密度较大的区域被缩小,而在密度较小的区域被放大,这样可以减小噪声对降维效果的影响,提升可视化和聚类效果。人工数据集和UCI数据集上的实验结果表明,在数据集的可视化和聚类效果方面, D-ISOMAP算法较经典的无监督降维算法具有一定的优势。  相似文献   

8.
局部线性嵌入算法LLE(Locally Linear Embedding)可以有效地对图像的高维特征进行降维。针对处理样本分布不均匀及近邻因子选择时会出现的问题,在对高维数据降维时,近邻点的选择采用计算测地线距离而非传统的局部欧式距离,且近邻点的个数选择进行预先优化以达到更好的降维效果。实验表明,改进后的LLE算法具有更好的分类精确度,在图像分类过程中比单纯的LLE算法具有更好的分类性能。  相似文献   

9.
针对癫痫病人采集的EEG信号数据维数过高和含有复杂的非线性特征的问题,以及脑医学领域数据标注的成本较高的现状,研究了不同的无监督流形降维方法,并且在公开的癫痫集上对比了13种主流及较新的流形降维算法降维后在低维坐标空间的聚类效果.实验结果表明,与目前主流的其它流形及降维方法相比,基于L-ISOMAP得到的数据点在低维空间的分布有很好的聚类表现,不同类别的数据分界明显.当样本大小不同时,降维后的数据分布在可视化图中仍有一定的规律性,可视化效果明显优于其它的降维方法.  相似文献   

10.
针对癫痫病人采集的EEG信号数据维数过高和含有复杂的非线性特征的问题,以及脑医学领域数据标注的成本较高的现状,研究了不同的无监督流形降维方法,并且在公开的癫痫集上对比了13种主流及较新的流形降维算法降维后在低维坐标空间的聚类效果.实验结果表明,与目前主流的其它流形及降维方法相比,基于L-ISOMAP得到的数据点在低维空间的分布有很好的聚类表现,不同类别的数据分界明显.当样本大小不同时,降维后的数据分布在可视化图中仍有一定的规律性,可视化效果明显优于其它的降维方法.  相似文献   

11.
崔鹏  张汝波 《计算机科学》2010,37(7):205-207
半监督聚类是近年来研究的热点,传统的方法是在无监督算法的基础上加入有限的背景知识来提高聚类性能.然而大多数半监督聚类技术都基于邻近或密度,难以处理高维数据,因此必须将约减的特征加入到半监督聚类过程中.为解决此问题,提出了一种新的半监督聚类算法框架.该算法利用样本约束传递性进行预处理,然后将特征投影到低维空间实现降维,最终用半监督算法对约减后的样本进行聚类.通过实验同现行主要降维方法进行了比较,说明此方法能有效地处理高维数据,聚类效果良好.  相似文献   

12.
基于子空间维度加权的密度聚类算法   总被引:2,自引:0,他引:2       下载免费PDF全文
在高维数据聚类中,受维度效应的影响,现有的算法聚类效果不佳。为此,提出一种适用于高维数据的密度聚类算法StaDeCon。在经典的PreDeCon算法基础上,引入子空间维度权重的计算方法,避免PreDeCon算法使用全空间距离度量带来的问题,提高了聚类的质量。在合成数据和实际应用数据集上的实验结果表明,该算法在高维数据聚类上可取得较好的聚类精度,算法是有效可行的。  相似文献   

13.
Gene expression data are expected to be a significant aid in the development of efficient cancer diagnosis and classification platforms. However, gene expression data are high-dimensional and the number of samples is small in comparison to the dimensions of the data. Furthermore, the data are inherently noisy. Therefore, in order to improve the accuracy of the classifiers, we would be better off reducing the dimensionality of the data. As a method of dimensionality reduction, there are two previous proposals: feature selection and dimensionality reduction. Feature selection is a feedback method which incorporate the classifier algorithm in the future selection process. Dimensionality reduction refers to algorithms and techniques which create new attributes as combinations of the original attributes in order to reduce the dimensionality of a data set. In this article, we compared the feature selection methods and the dimensionality reduction methods, and verified the effectiveness of both types. For the feature selection methods we used one previously known method and three proposed methods, and for the dimensionality reduction methods we used one previously known method and one proposed method. From an experiment using a benchmark data set, we confirmed the effectiveness of our proposed method with each type of dimensional reduction method.  相似文献   

14.
一种改进的KNN文本分类   总被引:2,自引:0,他引:2  
在文本分类中,文本特征空间维数巨大以及训练样本分布不均衡等问题影响分类性能。针对这个问题,提出一种改进的KNN分类方法。利用隐含语义分析方法对特征样本空间进行降维处理;利用基于样本密度的改进的KNN分类器进行分类。实验结果表明提出的方法能够收到较好的分类效果。  相似文献   

15.
在面向大规模复杂数据的模式分类和识别问题中,绝大多数的分类器都遇到了维数灾难这一棘手的问题.在进行高维数据分类之前,基于监督流形学习的非线性降维方法可提供一种有效的解决方法.利用多项式逻辑斯蒂回归方法进行分类预测,并结合基于非线性降维的非监督流形学习方法解决图像以及非图像数据的分类问题,因而形成了一种新的分类识别方法.大量的实验测试和比较分析验证了本文所提方法的优越性.  相似文献   

16.
为解决图像隐密检测中图像特征维数过高导致的"维数灾难"问题,在保持图像特征内在低维结构的基础上降低特征向量的维数,方便构造更有效的分类器,提出了一种基于保局投影(locality preserving projections,LPP)降维的图像隐密检测算法,对待测图像进行小波变换形成图像特征后,利用LPP算法实现对图像高维特征的降维,得到图像特征集的低维流形.使用支持向量机(SVM)算法将降维后的特征映射到分类特征空间,实现对正常图像和隐密图像分类.实验结果表明,与不使用降维算法的检测方案相比,基于LPP降维的检测算法能够显著地提高检测的准确率.  相似文献   

17.
图像的无监督聚类就是基于图像数据,在无任何先验信息的情况下将整个图像集合划分成若干子集的过程。由于图像的本征维度很高,在图像处理中会遇到“维数灾难”问题。针对图像无监督聚类的特点,提出了一种图像的扩散界面无监督聚类算法,将图像编码成高维观测空间中的点,再通过投影变换映射到低维特征空间,在低维特征空间中构建扩散界面无监督聚类模型,并在模型中引入维度约简算子,采用循环迭代算法优化扩散界面模型的能量函数。基于最优的扩散界面,将整个图像集合聚类成不同的子集。实验结果表明,扩散界面无监督聚类算法优于传统聚类算法中的K-means算法、DBSCAN算法和Spectral Clustering算法,能够更好地实现图像的无监督聚类,在相同条件下具有更高的准确度。  相似文献   

18.
属性规约是应对“维数灾难”的有效技术,分形属性规约FDR(Fractal Dimensionality Reduction)是近年来出现的一种无监督属性选择技术,令人遗憾的是其需要多遍扫描数据集,因而难于应对高维数据集情况;基于遗传算法的属性规约技术对于高维数据而言优越于传统属性选择技术,但其无法应用于无监督学习领域。为此,结合遗传算法内在随机并行寻优机制及分形属性选择的无监督特点,设计并实现了基于遗传算法的无监督分形属性子集选择算法GABUFSS(Genetic Algorithm Based Unsupervised Feature Subset Selection)。基于合成与实际数据集的实验对比分析了GABUFSS算法与FDR算法的性能,结果表明GABUFSS相对优于FDR算法,并具有发现等价结果属性子集的特点。  相似文献   

19.
大数据的类别不平衡与维度爆炸问题严重影响着算法的预测效率和分类精度。因此,提出了一种基于插值与特征压缩的大数据分类方法ASE-RFXT。改进ADASYN(adaptive synthetic sampling approach)的插值中心,减少了噪声的引入,改善了少数类样本的分布。改进ReliefF(特征权重法),并将它与集成算法XGDT(extreme gradient dart tree)结合对特征进行并行加权,减少了权重受异常值的影响,使得评估更加准确。利用特征之间的相关性过滤低权重冗余特征,以XGDT的分类精度为评价指标通过SFS(sequential forward selection)压缩特征。实验结果表明ASE-RFXT方法可以降低特征维度,节约训练时间,提高不平衡小样本数据的分类精度。  相似文献   

20.
乔永坚  刘晓琳  白亮 《计算机应用》2022,42(11):3322-3329
针对高维特征缺失数据在聚类过程中面临的因数据高维引发的维度灾难问题和数据特征缺失导致的样本间有效距离计算失效问题,提出一种面向高维特征缺失数据的K最近邻(KNN)插补子空间聚类算法KISC。首先,利用高维特征缺失数据的子空间下的近邻关系对原始空间下的特征缺失数据进行KNN插补;然后,利用多次迭代矩阵分解和KNN插补获得数据最终可靠的子空间结构,并在该子空间结构进行聚类分析。在6个图像数据集原始空间的聚类结果表明,相较于经过插补后直接进行聚类的对比算法,KISC算法聚类效果更好,说明子空间结构能够更加容易且有效地识别数据的潜在聚类结构;在6个高维数据集子空间下的聚类结果显示,KISC算法在各个数据集的聚类性能均优于对比算法,且在大多数据集上取得了最优的聚类精确度(ACC)和标准互信息(NMI)。KISC算法能够更加有效地处理高维特征缺失数据,提高算法的聚类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号