首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 82 毫秒
1.
贺玲  蔡益朝  杨征 《计算机科学》2010,37(5):155-156
数据间的相似性度量是进一步分析数据集整体特性的一个重要基础。针对高维数据的相似性度量问题,提出了一种基于子空间的相似性度量方法。该方法先将高维空间进行基于网格的划分,然后在划分后的子空间内计算数据间的相似性。理论分析表明,在合理选定网格划分参数的前提下,该方法可有效减小维度灾难对高维数据相似性度量的影响。  相似文献   

2.
高维数据之间的相似性度量问题是高维空间数据挖掘中所面临的问题之一。为了有效解决高维效应给相似性度量带来的种种问题,首先分析传统相似性度量算法,得出其局限性。再通过对传统度量算法进行改进,提出新的Close函数,以弥补传统相似性度量算法应用在高维空间时的不足。提出Close函数后,将其与几种传统的相似性度量算法作比较,得出新算法在高维空间相似性度量方面的优越性。文中最后用Matlab对该函数做了定量分析,实验证明该函数在高维空间中能有效避免噪声和维灾效应的影响。  相似文献   

3.
高维数据之间的相似性度景问题是高维空间数据挖掘中所面临的问题之一.为了有效解决高维效应给相似性度量带来的种种问题,首先分析传统相似性度量算法,得出其局限性.再通过对传统度最算法进行改进,提出新的Close函数,以弥补传统相似性度量算法应用在高维空间时的不足.提出Close函数后,将其与几种传统的相似性度量算法作比较,得出新算法在高维空间相似性度量方面的优越性.文中最后用Matlab对该函数做了定量分析,实验证明该函数在高维空间中能有效避免噪声和维灾效应的影响.  相似文献   

4.
高维数据相似性度量方法研究   总被引:4,自引:0,他引:4       下载免费PDF全文
将低维空间中的距离度量方法(如Lk-范数)应用于高维空间时,随着维数的增加,对象之间距离的对比性将不复存在。研究高维数据有效的距离或相似(相异)度度量方法是一个重要且具有挑战性的课题。通过对传统的距离度量或相似性(相异性)度量方法在高维空间中表现出的不适应性的分析,并对现有的应用于高维数据的相似性度量方法进行总结,提出了高维数据相似性度量函数Hsim(X,Y)的改进方法HDsim(X,Y)。函数HDsim(X,Y)整合了各类型数据的相似性度量方法,在处理数值型、二值型以及分类属性数据上充分体现了原Hsim(X,Y)处理数值型数据、Jaccard系数处理二值数据以及匹配率处理分类属性数据的优越性。通过有效性及实例分析,充分论证了HDsim(X,Y)在高维空间中的有效性。  相似文献   

5.
针对传统基于距离度量的聚类算法难以适合高维数据聚类以及高维数据之间相似度难定义的问题,提出了一种新的高维数据聚类算法.该算法基于一个能够更准确地表达出高维对象之间相似性的度量函数,首先计算对象两两之间的相似度并得出一个相似度矩阵,然后根据该相似度矩阵和阈值大小自底向上对数据进行聚类分析.实验结果显示,该算法能够获得质量更高的聚类结果,并且不受孤立点影响,对输入数据顺序也不敏感.  相似文献   

6.
合适的距离度量函数对于聚类结果有重要的影响。针对大规模高维数据集,使用增量式聚类算法进行距离度量的选择分析。SpFCM算法是将大规模数据集分成小样本进行增量分批聚类,可在有限的计算机内存中获得较好的聚类结果。在传统的SpFCM算法的基础上,使用不同的距离度量函数来衡量样本之间的相似性,以得出不同的距离度量对SpFCM算法的影响。在不同的大规模高维数据集中,使用欧氏距离、余弦距离、相关系数距离和扩展的杰卡德距离来计算距离。实验结果表明,后3个距离度量相对于欧氏距离可以很大程度地提高聚类效果,其中相关系数距离可以得到较好的结果,余弦距离和扩展的杰卡德距离效果比较一般。  相似文献   

7.
讨论了高维数据空间索引的基本结构、建树算法,重,最对几种有代表性的索引方法,如R—Tree,X-Tree,M—tree,VP-tree在重叠、插入原则、分裂原则、再插入等方面进行了比较研究。该文中主要介绍了一些索引结构的特点和一些具有代表性的索引结构。  相似文献   

8.
讨论了高维数据空间索引的基本结构、建树算法,重点对几种有代表性的索引方法,如R-Tree,X-Tree,M-tree,VP-tree在重叠、插入原则、分裂原则、再插入等方面进行了比较研究。该文中主要介绍了一些索引结构的特点和一些具有代表性的索引结构。  相似文献   

9.
高维数据特征提取算法的研究及比较   总被引:1,自引:0,他引:1  
1 引言近年来随着科技的发展,出现了越来越多的复杂数据,如多媒体数据、蛋白质数据等。直接对这些高维数据进行诸如聚类、最近邻搜索及可视化等操作,其代价十分昂贵,需要的运算量往往超出机器的容许范围。特征提取的目的旨在对这些数据进行降维,从而大大降低对它们进行各种操作的计算复杂度。  相似文献   

10.
对高维数据离群点降维方法进行研究,从而提高挖掘算法的准确度以及挖掘的速度。针对传统的离群点挖掘算法对于高维数据的不适用性,提出了基于属性的局部离群点挖掘算法,该算法以局部线性嵌入降维算法为基础,利用研究对象的特征属性和环境属性来实现降维的目的。实验证明,该方法可以通过约简对象属性的方式达到降维的目的,相比于传统算法更为有效。  相似文献   

11.
一种基于网格方法的高维数据流子空间聚类算法   总被引:4,自引:0,他引:4  
基于对网格聚类方法的分析,结合由底向上的网格方法和自顶向下的网格方法,设计了一个能在线处理高维数据流的子空间聚类算法。通过利用由底向上网格方法对数据的压缩能力和自顶向下网格方法处理高维数据的能力,算法能基于对数据流的一次扫描,快速识别数据中位于不同子空间内的簇。理论分析以及在多个数据集上的实验表明算法具有较高的计算精度与计算效率。  相似文献   

12.
林晓立  陈恩红  任皖英 《计算机工程》2003,29(19):68-69,179
对当前具有代表性的几种特征提取算法进行了分析与比较,并在Bourgain算法的基础上,提出一种基于数据类别数及各类代表元素等启发式信息的复杂数据特征提取算法。对于M类复杂数据,该算法可以提取出维向量用来表示这些数据。针对实际数据,对几种算法的降维性能进行了比较实验,实验结果表明该算法具有很好的特征提取效果。  相似文献   

13.
给出了兴趣子空间的定义,采用基于Chernoff-Hoeffding边界,带回溯的深度优先搜索算法来挖掘最大兴趣子空间,并运用高维真实数据和合成数据检验算法的有效性。高维数据的挖掘面临着数据分布的稀疏性和特征空间的相交性所带来的挑战。  相似文献   

14.
一种基于高维形象几何理论的彩色图像增强算法   总被引:1,自引:0,他引:1  
谭乐怡  王守觉 《计算机科学》2008,35(12):214-215
基于近年来发展起来的全新理论--高维形象几何与仿生信息学,提出一种彩色图像增强算法.本算法将彩色图像看作是高维空间的点,通过对多幅图片的分析,推导出点与点之间的内在联系,提出"模糊-再模糊-清晰"的增强算法,并由实验证明该算法对模糊图像的清晰化有很好的效果.  相似文献   

15.
Clustering in high-dimensional spaces is a difficult problem which is recurrent in many domains, for example in image analysis. The difficulty is due to the fact that high-dimensional data usually exist in different low-dimensional subspaces hidden in the original space. A family of Gaussian mixture models designed for high-dimensional data which combine the ideas of subspace clustering and parsimonious modeling are presented. These models give rise to a clustering method based on the expectation-maximization algorithm which is called high-dimensional data clustering (HDDC). In order to correctly fit the data, HDDC estimates the specific subspace and the intrinsic dimension of each group. Experiments on artificial and real data sets show that HDDC outperforms existing methods for clustering high-dimensional data.  相似文献   

16.
传统挖掘算法不适用于挖掘高维稀疏数据集.提出了一种针对高维稀疏数据的频繁项集挖掘算法FIHS.FIHS引入了一种新的数据结构用来存储频繁项集,该结构不但可以减少存储空间,而且可以降低计数代价.该算法只需扫描一次数据集,通过优化连接剪枝操作避免产生非频繁的候选项集,基于K-频繁项集使用"与"、"或"操作产生K+1-频繁项...  相似文献   

17.
Consider a dataset of n(d) points generated independently from Rd according to a common p.d.f. fd with support(fd)=d[0,1] and sup{fd(Rd)} growing sub-exponentially in d. We prove that: (i) if n(d) grows sub-exponentially in d, then, for any query point and any ?>0, the ratio of the distance between any two dataset points and is less that 1+? with probability →1 as d→∞; (ii) if n(d)>d[4(1+?)] for large d, then for all (except a small subset) and any ?>0, the distance ratio is less than 1+? with limiting probability strictly bounded away from one. Moreover, we provide preliminary results along the lines of (i) when .  相似文献   

18.
针对大规模离散空间中强化学习的"维数灾"问题,即状态空间的大小随着特征的增加而发生指教级的增长,提出了一种基于高斯过程的强化学习方法.在本方法中,高斯过程模型有表示函数分布的能力,使用该模型之后,可以得到的不只是一个所需的估计值,而是关于该值的一个分布.实验结果表明,结合了高斯过程的强化学习方法在各方面性能,如收敛速度以及最终实验效果等都有所提高.使用高斯方法的回归模型可以在一定程度上解决大规模离散空间上的"维数灾"问题.  相似文献   

19.
Mode estimation is extensively studied in statistics. One of the most widely used methods of mode estimation is hill-climbing on a kernel density estimator with gradient ascent or a fixed-point approach. Within this framework, Gaussian kernels proves to be a natural and intuitive option for non-parametric density estimation. This paper shows that in the case of high-dimensional data, mode estimation can be improved by using differently shaped kernels, called flat-top kernels. The improvement are illustrated with an image denoising application, in which pictures are decomposed into small patches, i.e. groups of adjacent pixels, that are vectorized. Noise in the patches can be attenuated by substituting them with the closest mode in the observed distribution of patches. The quality of the denoised picture then depends on the accuracy of mode estimation in a high-dimensional space. Experiments conducted on usual benchmarks in the image processing community show that flat-top kernels outperform the Gaussian one.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号