首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 10 毫秒
1.
在时间序列相似性的研究中,通常采用的欧氏距离及其变形无法对在时间轴上发生伸缩或弯曲的序列进行相似性度量,本文提出了一种基于分段极值DTW距离的时间序列相似性度量方法可以解决这一问题。在动态时间弯曲(DTW)距离的基础上,本文定义了序列的分段极值DTW距离,并阐述了其完整的算法实现。与传统的DTW距离相比,分段极值DTW距离在保证度量准确性的同时大大提高了相似性计算的效率。文中最后运用MATLAB作对比实验,并给出实验结果数据,验证了该度量方法的有效性与准确性。  相似文献   

2.
大多数现存的谱聚类方法均使用传统距离度量计算样本之间的相似性, 这样仅仅考虑了两两样本之间的相似性而忽略了周围的近邻信息, 更没有顾及数据的全局性分布结构. 因此, 本文提出一种新的融合欧氏距离和 Kendall Tau距离的谱聚类方法. 该方法通过融合两两样本之间的直接距离以及其周围的近邻信息, 充分利用了不同的相似性度量可以从不同角度抓取数据之间结构信息的优势, 更加全面地反映数据的底层结构信息. 通过与传统聚类算法在UCI标准数据集上的实验结果作比较, 验证了本文的方法可以显著提高聚类效果.  相似文献   

3.
基于树编辑距离的层次聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为了识别犯罪嫌疑人伪造和篡改的虚假身份,利用树编辑距离计算个体属性相似性,证明了树编辑距离的相关数学性质,对属性应用层次编码方法,提出了一种新的基于树编辑距离的层次聚类算法HCTED(Hi-erarchical Clustering Algorithm Based on Tree Edit Distance)。新算法通过树编辑操作使用最少的代价计算属性相似性,克服了传统聚类算法标称型计算的缺陷,提高了聚类精度,通过设定阈值对给定样本聚类。实验证明了新方法在身份识别上的准确性和有效性,讨论了不同参数对实验结果的影响,对比传统聚类算法,HCTED算法性能明显提高。新算法已经应用到警用流动人口分析中,取得了良好效果。  相似文献   

4.
杨艳林  叶枫  吕鑫  余霖  刘璇 《计算机科学》2016,43(2):245-249
水文时间序列相似性挖掘是水文时间序列挖掘的重要方面,对洪水预报、防洪调度等具有重要意义。针对水文数据的特点,提出了一种基于DTW聚类的水文时间序列相似性挖掘方法。该方法先对数据进行小波去噪、特征点分段以及语义划分,再基于DTW距离对划分后的子序列做层次聚类并符号化;然后根据符号序列间的编辑距离筛选候选集;最后通过序列间的DTW距离进行精确匹配,获取相似水文时间序列。以滁河六合站的日水位数据进行实验,结果表明,所提方法能够有效地缩小候选集,提高查找语义相似的水文时间序列的效率。  相似文献   

5.
动态时间弯曲算法(DTW)是一种常见的时间序列相似性度量方法,对数据挖掘任务起着至关重要的作用。针对现有DTW算法的时间复杂度高、度量精确度一般的特征,提出一种DTW下界函数的提前终止算法(LB_ESDTW)。引入提前终止思想,提高算法的执行效率;再在提前终止算法思想的基础上,与DTW下界函数相结合,提出一种基于提前终止DTW的下界函数算法(LB_ESDTW)。该算法在保证高效的运行时间效率的同时,也使得算法的度量准确率得到了提升。实验结果表明,LB_ESDTW在绝大部分时间序列数据集中,都表现出良好的适应性,针对不同类别的时间序列,都能有良好的度量性能。  相似文献   

6.
在现有多种距离度量和传统谱聚类算法的基础上,提出了一种新的基于有效距离的谱聚类算法(spectral clustering based on effective distance,SCED)。SCED算法通过稀疏重构系数来构建样本与样本之间的有效距离,从而代替传统谱聚类算法中的欧氏距离,进行样本之间的相似度评估。与传统距离度量相比,有效距离不仅利用了样本对之间的距离信息,同时考虑了目标样本与其他所有相关样本之间的距离信息,因而该距离度量具有全局特性。在UCI标准数据集上的实验结果表明,SCED算法能有效提高聚类效果。  相似文献   

7.
基于新的距离度量的K-Modes聚类算法   总被引:5,自引:1,他引:4  
传统的K-Modes聚类算法采用简单的0-1匹配差异方法来计算同一分类属性下两个属性值之间的距离, 没有充分考虑其相似性. 对此, 基于粗糙集理论, 提出了一种新的距离度量. 该距离度量在度量同一分类属性下两个属性值之间的差异时, 克服了简单0-1匹配差异法的不足, 既考虑了它们本身的异同, 又考虑了其他相关分类属性对它们的区分性. 并将提出的距离度量应用于传统K-Modes聚类算法中. 通过与基于其他距离度量的K-Modes聚类算法进行实验比较, 结果表明新的距离度量是更加有效的.  相似文献   

8.
提出了一种基于DTW的符号化时间序列聚类算法,对降维后得到的不等长符号时间序列进行聚类。该算法首先对时间序列进行降维处理,提取时间序列的关键点,并对其进行符号化;其次利用DTW方法进行相似度计算;最后利用Normal矩阵和FCM方法进行聚类分析。实验结果表明,将DTW方法应用在关键点提取之后的符号化时间序列上,聚类结果的准确率有较好大提高。  相似文献   

9.
由于时间序列的长度很大,并且不确定时间序列在每个采样点的取值具有不确定性,导致时间序列在相似性匹配和聚类挖掘中时间复杂度很高,为了解决该问题,提出了基于趋势的时间序列相似性度量方法和聚类方法.其中基于趋势的相似性度量方法根据时间序列的整体变化趋势,将时间序列映射为短的趋势符号序列,并利用各趋势的一阶连接性指数和塔尼莫特系数完成相似性度量;基于趋势的聚类方法通过定义趋势高度,并对趋势符号序列迭代进行区间划分和趋势判断,并以此构建趋势树,最后将趋势树根节点中趋势符号相同的序列聚集为一类.实验结果表明:a)五种趋势符号的一阶连接性指数可唯一地表示一条时间序列;b)基于趋势的相似性度量方法在多项式时间内可有效完成时间序列的相似性匹配;c)基于趋势的聚类方法将序列的相似性度量和聚类过程集中在一起,聚类效果显著.  相似文献   

10.
一种基于层次距离计算的聚类算法   总被引:6,自引:0,他引:6  
针对广泛存在的层次编码型数据类型,提出了层次距离的新概念,证明了相关的数学性质,并在此基础上提出并实现了新的基于层次距离计算的聚类算法HDCA(Hierarchy Distance Computing based clustering Algorithm).新方法克服了传统聚类算法标称型计算的缺陷,提高了聚类精度.针对聚类算法的中心点问题,提出了相应的层次编码型数据的快速处理算法,并从理论上证明了算法的正确性.实验表明,对比朴素处理算法,HDCA的性能明显提高.新算法已经应用到警用流动人口分析当中,取得了良好效果.  相似文献   

11.
层次聚类算法在数据挖掘领域有着广泛应用,现有的层次聚类算法都依赖于对称距离定义.针对聚类对象的非对称距离下的层次聚类展开研究,提出完整的非对称距离下的层次聚类算法,给出聚类对象选择因子,并定义相应的计算方法.文中提出不同簇之间的合并方法,形成非对称距离下的单连接、全连接等算法.采集社会化书签系统中的热点标签,基于共现次数定义非对称距离,对所提出的算法进行大量实验,实验结果表明聚类结果与实际结果具有较高的一致性.对算法进行量化指标分析的结果也表明非对称层次聚类算法具有良好性能.  相似文献   

12.
聚类分析是数据挖掘领域的重要组成部分之一,而度量学习是聚类分析中的关键性步骤。传统聚类算法中通常使用欧氏距离进行距离度量,但是欧氏距离只关注两两样本之间的距离关系,并没有顾及数据的全局性分布结构。考虑到数据的全局性结构信息,提出了一种新的具有全局性的度量方法——有效距离度量(effective distance metric),其主要思想是通过稀疏重构的方法计算数据样本之间的有效距离。进一步地,将有效距离应用到K-means、K-medoids和FCM(fuzzy C-means)3种经典聚类算法中开发了3种基于有效距离的聚类算法,即EK-means,EK-medoids和EFCM聚类算法。通过与传统聚类算法在UCI标准数据集上的实验结果进行比较,验证了基于有效距离的聚类算法能显著提高聚类效果。  相似文献   

13.
相异性或相似性度量是数据挖掘领域中的2个基本问题。针对时间序列的相异性度量问题,给出时间序列的区域半径、区域极值点、区域等定义,提出一种区域极值点提取策略。通过提取有代表性的极值点以起到对时间序列数据约简和压缩的作用,进一步定义时间序列的动态时间弯曲距离度量其相异性。以此为基础提出一种新的时间序列层次聚类算法。仿真实验结果表明,与时间序列趋势特征提取等算法相比,该算法在数据的压缩效果和聚类准确率方面均有明显提高。  相似文献   

14.
牛科  张小琴  贾郭军 《计算机工程》2015,41(1):207-210,244
无监督学习聚类算法的性能依赖于用户在输入数据集上指定的距离度量,该距离度量直接影响数据样本之间的相似性计算,因此,不同的距离度量往往对数据集的聚类结果具有重要的影响。针对谱聚类算法中距离度量的选取问题,提出一种基于边信息距离度量学习的谱聚类算法。该算法利用数据集本身蕴涵的边信息,即在数据集中抽样产生的若干数据样本之间是否具有相似性的信息,进行距离度量学习,将学习所得的距离度量准则应用于谱聚类算法的相似度计算函数,并据此构造相似度矩阵。通过在UCI标准数据集上的实验进行分析,结果表明,与标准谱聚类算法相比,该算法的预测精度得到明显提高。  相似文献   

15.
时间序列的相似性度量是时间序列分析的基础工作之一,是进行相似匹配的关键。针对欧几里德距离描述分段趋势的不足和各种模式距离对应分段之间距离值的离散化问题,提出一种基于形态相似距离的时间序列相似性度量方法,标准数据集上完成的识别和聚类实验表明了该方法的可行性和有效性。  相似文献   

16.
合适的距离度量函数对于聚类结果有重要的影响。针对大规模高维数据集,使用增量式聚类算法进行距离度量的选择分析。SpFCM算法是将大规模数据集分成小样本进行增量分批聚类,可在有限的计算机内存中获得较好的聚类结果。在传统的SpFCM算法的基础上,使用不同的距离度量函数来衡量样本之间的相似性,以得出不同的距离度量对SpFCM算法的影响。在不同的大规模高维数据集中,使用欧氏距离、余弦距离、相关系数距离和扩展的杰卡德距离来计算距离。实验结果表明,后3个距离度量相对于欧氏距离可以很大程度地提高聚类效果,其中相关系数距离可以得到较好的结果,余弦距离和扩展的杰卡德距离效果比较一般。  相似文献   

17.
传统的实体识别中,往往是利用字符串相似性函数来计算元组对在每个属性值上的相似度从而来判断其总的相似性(例如,元组对的相似性等于每个属性值上的相似度的加权求和)。然而这一类相似性测度不能够反映属性值内部不同的词在元组对相似性计算中的不同重要性。由于不能区分哪些词对元组对匹配更重要,就导致仍然存在某些匹配的元组相似性不高,而不匹配的元组相似性高的情况,故很难将匹配元组对和不匹配元组对有效区分开。为了解决这个问题,提出了以词为特征的距离度量函数,设计了基于词特征的距离度量学习算法,和基于距离度量的实体识别算法。扩展性实验对所提出的算法的有效性进行了验证。  相似文献   

18.
面向相似性查询的时间序列距离度量方法述评   总被引:1,自引:0,他引:1  
从一元时间序列和多元时间序列两个方面对当前提出的主要时间序列距离度量方法进行了述评.深入分析了各种算法的原理和特点,比较了算法对时间序列形变的支持情况以及时间复杂度.从客观上讲,各种算法之间并不具有绝对的优劣关系,每种算法的原理和特点各异,适用的问题领域也不一样.对于工程应用中选择时间序列距离度量方法具有指导意义,同时对于设计新的距离度量方法也具有参考价值.  相似文献   

19.
K-modes算法中原有的分类变量间距离度量方法无法体现属性值之间差异,对此提出了一种基于朴素贝叶斯分类器中间运算结果的距离度量。该度量构建代表分类变量的特征向量并计算向量间的欧氏距离作为变量间的距离。将提出的距离度量代入K-modes聚类算法并在多个UCI公共数据集上与其他度量方法进行比较,实验结果表明该距离度量更加有效。  相似文献   

20.
BTS(Best Two Step)聚类算法是结合层次聚类和划分聚类算法的两步聚类算法。层次聚类算法类与类之间不可以对象交换,很容易造成聚类质量不高的结果。而划分聚类对于初始值的设定以及异常噪声数据都很敏感,所以我们研究提出了BTS算法,实验证明BTS算法可达到高质量的聚类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号