首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
在数据挖掘和机器学习等领域中,数据降维是解决高维数据分析与处理难题的有效手段。对t-SNE 降维算法进行了深入的研究,并对t-SNE 计算高维空间样本点相似度的过程进行了改进。t-SNE 算法直接利用样本点在高维空间中的欧氏距离来度量样本点的相似度,但欧氏距离在高维空间中不能忠实反映样本位于非线性流形上的相似关系。利用样本点在高维空间中的邻居结构,提出使用二阶邻近距离来度量样本点的相似度,并提出基于二阶邻近距离的随机近邻嵌入算法(Second Order t-SNE,ST-SNE)。在MNIST、USPS、COIL-20等多个数据集上进行了对比实验。实验结果表明,改进后的算法提升了降维结果的分类准确度和可视化效果。  相似文献   

2.
针对目前数据降维算法受高维空间样本分布影响效果不佳的问题,提出了一种自适应加权的t分布随机近邻嵌入(t-SNE)算法。该算法对两样本点在高维空间中的欧氏距离进行归一化后按距离的不同分布状况进行分组分析,分别按照近距离、较近距离和远距离三种情况在计算高维空间内样本点间的相似概率时进行自适应加权处理,以加权相对距离代替欧氏绝对距离,从而更真实地度量每一组不同样本在高维空间的相似程度。在高维脑网络状态观测矩阵中的降维实验结果表明,自适应加权t-SNE的降维聚类可视化效果优于其它降维算法,与传统t-SNE算法相比,聚类指标值DBI值平均降低了28.39%,DI值平均提高了161.84%,并且有效地消除了分散、交叉和散点等问题。  相似文献   

3.
由于高维空间中数据点比较稀疏,用传统方法来检测高维空间中的离群点不能达到预期效果。提出了一种基于局部线性嵌入的离群点检测方法(OLLE)。在OLLE降维方法中,建立了一种有效的粗糙集模型,使数据集的下近似中的点保持局部线性结构。同时构造两个权重,使所有样本点保持局部近邻结构,且保证在降维的过程中使离群点远离正常点。最后,在低维空间中,采用基于最小生成树的k-最近邻启发式方法来检测离群点。通过一系列的模拟实验,证明OLLE方法能达到很好的降维效果,并且在低维空间中可以有效地检测出离群点。  相似文献   

4.
提出了一种新的等距映射下的降维方法,将高维空间的数据依序映射到低维空间。该方法能够精确保持任意点与其最近邻点以及其他若干近邻点的距离。通过观察点对间距离保持的精度来估计数据的本征维数。该算法不需要用户选择参数,能够成功地映射分布于多个数据簇的样本点。实验结果显示了该方法在映射高维数据方面的有效性。  相似文献   

5.
针对目前流形学习方法的嵌入效果非常敏感于局部邻域的选取方式,提出一种自适应邻域图的非线性数据降维方法。该方法考虑数据点周围的点分布信息,自适应地寻找最近邻域大小。不同于传统的邻域选取方法,此方法根据样本点周围的疏密程度来动态地获得最近邻域数,且所得到的各个样本点的邻域数是不等的;将每个样本点与其最近邻点连接,构建自适应邻域图进行有效降维。在人工生成数据集和人脸数据上的仿真结果表明,提出的方法得到了良好的降维效果。  相似文献   

6.
将流形学习中的t-SNE算法引入仿生嗅觉领域中,本研究提出一种基于t-SNE与LDA算法相结合的气味分类鉴定新方法。由PEN3电子鼻获取物质气味特征信息,通过t-SNE算法将非线性、高维度的气味响应数据降维到低维空间,并利用LDA算法对低维数据进行分类和识别。本研究利用五种不同成分的纺织品材料气味信息,通过t-SNE、PCA LDA和t-SNE LDA三种算法作对比实验。实验结果表明,相较于其他两种方法,t-SNE LDA算法对常见的不同成分纺织品材料拥有更好的分类和识别效果,而且t-SNE LDA算法得到的结果具有较小的类内离散度和较大的类间离散度。因此,t-SNE LDA算法是仿生嗅觉中气味分类和识别的一个新方法。  相似文献   

7.
正交化近邻关系保持的降维及分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对近邻关系保持嵌入(NPE)算法易于受到降低后的维数影响,而且性能依赖于正确的维数估计的问题,提出了一种正交化的近邻关系保持的嵌入降维方法——ONPE。ONPE方法是使用数据点间的近邻关系来构造邻接图,假设每个数据点都能由其近邻点的线性组合表示,则可以通过提取数据点的局部几何信息,并在降维中保持提取的局部几何信息,迭代地计算正交基来得到数据的低维嵌入坐标。同时,在ONPE算法的基础上,利用局部几何信息,提出了一种在低维空间中使用标签传递(LNP)的分类算法——ONPC。其是假设高维空间中的局部近邻关系在降维后的空间中依然得到保持,并且数据点的类别可由近邻点的类别得到。在人工数据和人脸数据上的实验表明,该算法在减少维数依赖的同时,能有效提高NPE算法的分类性能。  相似文献   

8.
针对拉普拉斯特征映射的新增样本点延拓问题,提出一种基于邻域信息的新增样本点延拓方法:假设新增样本点与邻域保持线性关系,使用稀疏编码方法求解线性系数,再由这些系数在低维空间重构得到新增样本点的低维表示。使用1-NN分类算法对新增样本点的低维表示进行分类,实验结果表明,与基于全局信息的稀疏编码重构方法相比,基于邻域信息的稀疏编码重构算法使用更少的时间取得更高的分类准确率,说明该方法的有效性。此外,该方法可以推广至其他非线性降维方法的新增样本点问题。  相似文献   

9.
针对基于功能核磁共振(fMRI)重构的脑网络状态观测矩阵维数过高且无特征表现的问题,提出一种基于谱特征嵌入(Spectral Embedding)的降维方法。该方法首先计算样本间相似性度量并构造拉普拉斯矩阵;然后对拉普拉斯矩阵进行特征分解,选取前两个主要的特征向量构建2维特征向量空间以达到数据集由高维向低维映射(降维)的目的。应用该方法对脑网络状态观测矩阵进行降维并可视化在二维空间平面,通过量化类别有效性指标对可视化结果进行评价。实验结果表明,与主成分分析(PCA)、局部线性嵌入(LLE)、等距映射(Isomap)等降维算法相比,使用该方法得到的脑网络状态观测矩阵低维空间的映射点有明显的类别意义表现,且在类别有效性指标上与多维尺度分析(MDS)和t分布随机邻域嵌入(t-SNE)降维算法相比,同一类样本间平均距离Di指数分别降低了87.1%和65.2%,不同类样本间平均距离Do指数分别提高了351.3%和25.5%;在多个样本上的降维可视化结果均有一定的规律性体现,该方法的有效性和普适性得以验证。  相似文献   

10.
针对LLE算法在数据密度变化较大时很难降维的问题,提出一种基于密度刻画的降维算法。采用cam分布寻找数据点的近邻,并在低维局部重建时对数据点加入密度信息。对手写体数字图像进行字符特征的降维,再对降维后的特征进行分类识别。实验结果表明,该方法能区分字符,具有较好的识别率,能够发现高维空间的低维嵌入流形。  相似文献   

11.
半监督维数约简是指借助于辅助信息与大量无标记样本信息从高维数据空间找到一个最优低维判别空间,便于后续的分类或聚类操作,它被看作是理解基因序列、文本与人脸图像等高维数据的有效方法。提出一个基于成对约束的半监督维数约简一般框架(SSPC)。该方法首先通过使用成对约束和无标号样本的内在几何结构学习一个判别邻接矩阵;其次,新方法应用学到的投影将原来高维空间中的数据映射到低维空间中,以至于聚类内的样本之间距离变得更加紧凑,而不同聚类间的样本之间距离变得尽可能得远。所提出的算法不仅能找到一个最佳的线性判别子空间,还可以揭示流形数据的非线性结构。在一些真实数据集上的实验结果表明,新方法的性能优于当前主流基于成对约束的维数约简算法的性能。  相似文献   

12.
In the past few years, some nonlinear dimensionality reduction (NLDR) or nonlinear manifold learning methods have aroused a great deal of interest in the machine learning community. These methods are promising in that they can automatically discover the low-dimensional nonlinear manifold in a high-dimensional data space and then embed the data points into a low-dimensional embedding space, using tractable linear algebraic techniques that are easy to implement and are not prone to local minima. Despite their appealing properties, these NLDR methods are not robust against outliers in the data, yet so far very little has been done to address the robustness problem. In this paper, we address this problem in the context of an NLDR method called locally linear embedding (LLE). Based on robust estimation techniques, we propose an approach to make LLE more robust. We refer to this approach as robust locally linear embedding (RLLE). We also present several specific methods for realizing this general RLLE approach. Experimental results on both synthetic and real-world data show that RLLE is very robust against outliers.  相似文献   

13.
A distance-preserving method is presented to map high-dimensional data sequentially to low-dimensional space. It preserves exact distances of each data point to its nearest neighbor and to some other near neighbors. Intrinsic dimensionality of data is estimated by examining the preservation of interpoint distances. The method has no user-selectable parameter. It can successfully project data when the data points are spread among multiple clusters. Results of experiments show its usefulness in projecting high-dimensional data.  相似文献   

14.
曹小鹿  辛云宏 《计算机应用》2017,37(10):2819-2822
降维是大数据分析和可视化领域中的核心问题,其中基于概率分布模型的降维算法通过最优化高维数据模型和低维数据模型之间的代价函数来实现降维。这种策略的核心在于构建最能体现数据特征的概率分布模型。基于此,将Wasserstein距离引入降维,提出一个基于Wasserstein距离概率分布模型的非线性降维算法W-map。W-map模型在高维数据空间和其相关对应的低维数据空间建立相似的Wasserstein流,将降维转化为最小运输问题。在解决Wasserstein距离最小化的问题同时,依据数据的Wasserstein流模型在高维空间与其在低维空间相同的原则,寻找最匹配的低维数据投射。三组针对不同数据集的实验结果表明W-map相对传统概率分布模型可以产生正确性高且鲁棒性好的高维数据降维可视化结果。  相似文献   

15.
Locally linear embedding (LLE) is a nonlinear dimensionality reduction method proposed recently. It can reveal the intrinsic distribution of data, which cannot be provided by classical linear dimensionality reduction methods. The application of LLE, however, is limited because of its lack of a parametric mapping between the observation and the low-dimensional output. And the large data set to be reduced is necessary. In this paper, we propose methods to establish the process of mapping from low-dimensional embedded space to high-dimensional space for LLE and validate their efficiency with the application of reconstruction of multi-pose face images. Furthermore, we propose that the high-dimensional structure of multi-pose face images is similar for the same kind of pose change mode of different persons. So given the structure information of data distribution which is obtained by leaning large numbers of multi-pose images in a training set, the support vector regression (SVR) method of statistical learning theory is used to learn the high-dimensional structure of someone based on small sets. The detailed learning method and algorithm are given and applied to reconstruct and synthesize face images in small set cases. The experiments prove that our idea and method is correct.  相似文献   

16.
发现高维观测数据空间的低维流形结构,是流形学习的主要目标。在前人利用神经网络进行非线性降维的基础上,提出一种新的连续自编码(Continuous Autoencoder,C-Autoencoder)网络,该方法特别采用CRBM(Continuous Restricted Boltzmann Machine)的网络结构,通过训练具有多个中间层的双向深层神经网络可将高维连续数据转换成低维嵌套并继而重构高维连续数据。特别地,这种连续自编码网络可以提供高维连续数据空间和低维嵌套结构的双向映射,不仅有效解决了大多数非线性降维方法所不具备的逆向映射问题,而且特别适用于高维连续数据的降维和重构。将C-Autoencoder用于人工连续数据的实验表明,C-Autoencoder不仅能发现嵌入在高维连续数据中的非线性流形结构,也能有效地从低维嵌套中恢复原始高维连续数据。  相似文献   

17.
基于Isomap的流形结构重建方法   总被引:4,自引:0,他引:4  
已有的流形学习方法仅能建立点对点的降维嵌入,而未建立高维数据流形空间与低维表示空间之间的相互映射.此缺陷已限制了流形学习方法在诸多数据挖掘问题中的进一步应用.针对这一问题,文中提出了两种新型高效的流形结构重建算法:快速算法与稳健算法.其均以经典的Isomap方法内在运行机理为出发点,进而推导出高维流形空间与低维表示空间之间双向的显式映射函数关系,基于此函数即可实现流形映射的有效重建.理论分析与实验结果证明,所提算法在计算速度、噪音敏感性、映射表现等方面相对已有方法具有明显优势.  相似文献   

18.
To improve effectively the performance on spoken emotion recognition, it is needed to perform nonlinear dimensionality reduction for speech data lying on a nonlinear manifold embedded in a high-dimensional acoustic space. In this paper, a new supervised manifold learning algorithm for nonlinear dimensionality reduction, called modified supervised locally linear embedding algorithm (MSLLE) is proposed for spoken emotion recognition. MSLLE aims at enlarging the interclass distance while shrinking the intraclass distance in an effort to promote the discriminating power and generalization ability of low-dimensional embedded data representations. To compare the performance of MSLLE, not only three unsupervised dimensionality reduction methods, i.e., principal component analysis (PCA), locally linear embedding (LLE) and isometric mapping (Isomap), but also five supervised dimensionality reduction methods, i.e., linear discriminant analysis (LDA), supervised locally linear embedding (SLLE), local Fisher discriminant analysis (LFDA), neighborhood component analysis (NCA) and maximally collapsing metric learning (MCML), are used to perform dimensionality reduction on spoken emotion recognition tasks. Experimental results on two emotional speech databases, i.e. the spontaneous Chinese database and the acted Berlin database, confirm the validity and promising performance of the proposed method.  相似文献   

19.
宋欣  叶世伟 《计算机工程》2008,34(8):205-207
高维非线性数据的降维处理对于计算机完成高复杂度的数据源分析是非常重要的。从拓扑学角度分析,维数约简的过程是挖掘嵌入在高维数据中的低维线性或非线性的流形。该文在局部嵌入思想的流形学习算法的基础上,提出直接估计梯度值的方法,从而达到局部线性误差逼近最小化,实现高维非线性数据的维数约简,并在Swiss roll曲线上采样测试取得了良好的降维效果。  相似文献   

20.
黄鸿  唐玉枭  段宇乐 《自动化学报》2022,48(10):2496-2507
大量维数约简(Dimensionality reducion, DR)方法表明保持数据间稀疏特性的同时,确保几何结构的保持能更有效提取出具有鉴别性的特征,为此本文提出一种联合局部几何近邻结构和局部稀疏流形的维数约简方法.该方法首先通过局部线性嵌入方法重构每个样本以保持数据的局部线性关系,同时计算样本邻域内的局部稀疏流形结构,在此基础上通过图嵌入框架保持数据的局部几何近邻结构和稀疏结构,最后在低维嵌入空间中使类内数据尽可能聚集,提取低维鉴别特征,从而提升地物分类性能.在Indian Pines和PaviaU高光谱数据集上的实验结果表明,本文方法相较于传统维数约简方法能明显提高地物的分类性能,总体分类可达到83.02%和91.20%,有利于实际应用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号