首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 156 毫秒
1.
为解决符号聚合近似方法(SAX)表示时间序列时忽略序列局部趋势的问题,提出一种融合形态趋势信息的时间序列符号聚合近似方法。该方法以子序列段中的最大值和最小值以及它们两者之间的相对位置为依据,定义一种新的趋势指标来描述子序列段的趋势,并使用融合趋势指标的符号矢量来近似表示时间序列。针对所提表示方法,给出一种新的距离度量方法,并在UCR数据集和电机转矩数据集上进行分类实验,实验结果表明,所提方法在绝大多数数据集上获得了较SAX方法更高的分类准确率,能够有效弥补SAX方法表示时间序列时忽略局部趋势的不足。  相似文献   

2.
针对时间序列数据降维过程中易丢失趋势特征信息的问题,提出一种基于趋势特征的时间序列符号聚集近似表示方法,除保留各序列分段的均值特征外,采用分段的趋势距离因子及趋势形态因子共同描述序列趋势特征;并给出了满足下界密封性的距离度量方法,从而更好地表示具有不同趋势特征的时间序列。在公共数据集上的实验结果表明,该方法在分类误报率、降维比率等方面比符号聚集近似方法(SAX)和基于趋势距离的时间序列符号近似表示方法(SAX_TD)有10%以上的下降,并具有更好的下界密封性。实验结果证明,该算法在进行时间序列压缩的同时充分保留时间序列的趋势变化形态,从而提高时间序列数据挖掘的效率。  相似文献   

3.
刘芬  郭躬德 《计算机应用》2013,33(1):192-198
基于关键点的符号化聚合近似(SAX)改进算法(KP_SAX)在SAX的基础上利用关键点对时间序列进行点距离度量,能更有效地计算时间序列的相似性,但对时间序列的模式信息体现不足,仍不能合理地度量时间序列的相似性。针对SAX与KP_SAX存在的缺陷,提出了一种基于SAX的时间序列相似性复合度量方法。综合了点距离和模式距离两种度量,先利用关键点将分段累积近似(PAA)法平均分段进一步细分成各个子分段;再用一个包含此两种距离信息的三元组表示每个子分段;最后利用定义的复合距离度量公式计算时间序列间的相似性,计算结果能更有效地反映时间序列间的差异。实验结果显示,改进方法的时间效率比KP_SAX算法仅降低了0.96%,而在时间序列区分度性能上优于KP_SAX算法和SAX算法。  相似文献   

4.
李海林  梁叶 《控制与决策》2017,32(3):451-458
针对传统符号聚合近似方法在特征表示时容易忽略时间序列局部形态特征的局限性,以及动态时间弯曲在度量上的优势,提出一种基于数值符号和形态特征的时间序列相似性度量方法.将时间序列进行符号和形态的特征表示后,提出动态时间弯曲与符号距离结合的时间序列距离度量方法,使所提方法能够较好地反映时间序列数据数值分布和形态特征.实验结果表明,所提出的方法在时间序列数据挖掘中能够得到较好的分类效果,具有一定的优越性.  相似文献   

5.
时间序列的夹角距离及相似性搜索   总被引:1,自引:0,他引:1  
提出一种面向相似性搜索的时间序列近似表示和度量方法.在自适应分段线性表示的基础上,使用相邻线段间的夹角构成的角度序列近似表示时间序列,并给出夹角距离度量方法的概念和基本性质的证明过程.序列的夹角距离克服了用点距离度量相似性时鲁棒性差以及物理概念不明确等缺陷,而且具有平移和旋转不变性的突出优点.对人工数据和实际股票数据进行相似搜索,实验结果证明该方法的有效性.  相似文献   

6.
基于SAX方法的股票时间序列数据相似性度量方法研究   总被引:2,自引:0,他引:2  
特定数据集上高效的相似性度量方法是目前时间序列数据挖掘领域研究的重点内容之一。针对经过SAX方法降维后的股票数据在相似性度量中缺乏趋势变化的动态信息这一问题,本文提出了一种融合了点距离与模式距离优点的新型相似性度量函数——复合距离函数,并通过实证分析验证了该距离函数在相似性度量中的有效性,为揭示股票数据间相互依赖的规律以及时间序列相似性问题的进一步研究提供了新思路。  相似文献   

7.
SAX(symbolic aggregate approximation)是一种符号化的时间序列相似性度量方法,该方法在对时间序列划分时,采用了PAA算法的均值划分,但均分点无法有效描述序列的形态变化,导致序列间对应分段均值相似的情况下,SAX无法有效区分序列之间的相似度.在SAX算法的基础上,提出了基于关键点的SAX改进算法(KP_SAX),该算法的相似性度量公式既可描述时间序列自身数值变化的统计规律,又可描述时间序列形态变化.实验结果表明:KP_SAX虽然部分提高了算法的复杂度,但可在SAX算法无法计算序列相似度的情况下,有效计算各序列间的相似度距离,达到了改进的目的.  相似文献   

8.
时序降维是解决时间序列高维问题的关键技术。符号聚集近似表示(SAX表示法)作为一种时序降维技术,具有良好的维度约简能力与性能稳定的下界距离算法,但算法中分段数的选取需根据当前时序数据的特征而人为设定。针对这一问题,引入了滑动窗口算法与统计学方法,提出了基于二分迭代SAX的时序相似性度量算法。实验结果表明,该算法不仅解决了分段数设定困难的问题,而且降低了时序降维表示的复杂度,提高了SAX算法在多种时序数据上的分类准确性。  相似文献   

9.
符号聚合近似表示法是提取时间序列特征的重要方式。然而,传统的符号聚合近似表示法存在平均化分段数、同等对待划分区间,以及无法准确反映非平稳序列的突变信息等多项缺陷。鉴于此,通过引入局部均值分解和改进小波熵的分段算法,建立了一种新的时序SAX模型。该模型的基本原理是采用局部均值分解技术对原始序列进行去噪处理,利用滑动窗口阈值法获取分段数,并使用SAX表示法进行符号表示,利用KNN分类器实现分类性能测试。基于这一改进模型,进行了实证检验,实验结果表明,该模型能够有效提取序列的信息特征,具有较高的拟合度,达到了降维的目的,更重要的是,提高了KNN分类算法在SAX表示法中分类的准确率。  相似文献   

10.
基于角点弯曲度的时间序列相似性搜索算法   总被引:2,自引:0,他引:2       下载免费PDF全文
张雪丽  牛强 《计算机工程》2011,37(15):37-39,54
针对基于点距离的时间序列相似性搜索算法鲁棒性较差的问题,提出一种面向形态的时间序列近似表示方法和相似性度量算法。算法不依赖于时间序列长度和领域知识。在充分利用时间序列时变特征的基础上,以角点为分界点,利用角点处的弯曲度提取时间序列的特征,近似表示时间序列。实验结果表明,该算法具有良好的平移和伸缩不变性及较好的鲁棒性,搜索能力更强。  相似文献   

11.
分类问题是数据挖掘中的基本问题之一,时间序列的特征表示及相似性度量是时间序列数据挖掘中分类、聚类及模式发现等任务的基础。SAX方法是一种典型的时间序列符号化表示方法,在采用该方法的基础上对时间序列进行分类,不仅可以有效地降维、降噪,而且具有简单、直观等特点,但是该方法有可能造成信息损失并影响到分类结果的准确性。为了弥补信息损失对分类结果的影响,采用了集成学习中大多数投票方法来弥补BOP表示后的信息损失,从而提高整个分类器的效率。针对一些样本在BOP表示中都损失了相似的重要信息,以至于大多数投票无法进一步提高分类效率的问题,进一步提出了结合集成学习中AdaBoost算法,通过对训练样本权重的调整,从而达到以提高分类器性能来弥补信息损失的效果。实验结果表明,将BOP方法与集成学习相结合的方法框架,不仅能很好地处理SAX符号化表示中的信息损失问题,而且与已有方法相比,在分类准确度方面也有显著的提高。  相似文献   

12.
提出了一种时序符号化方法.根据数据集极值来确定最佳字符集及时序数据的划分基准,通过估算最大压缩比来指导降维,从而实现了与SAX同样的符号化时序转换和相同的距离计算方式.与SAX不同的是,该时序符号化方法可以有效防止极值信息的丢失,因而在一些与极值相关的时序分析中有出色的表现.  相似文献   

13.
Chen  Haiyan  Du  Jinghan  Zhang  Weining  Li  Bohan 《Multimedia Tools and Applications》2020,79(19-20):13481-13499

Symbolic approximation representation is a key problem in time series which can significantly affect the accuracy and efficiency of data mining. However, since currently used methods divide the original sequence into segments with equal size, they ignore one of the most important features of time series: the trend. To overcome the defect of equal-sized segmenting, we present a trend segmentation representation based on Iterative End Point Fitting algorithm (IEPF-TSR). Particularly, we use iterative end point fitting (IEPF) algorithm to search the break point of each segment and get the trend segmentation. Then a triplet based symbolic representation is proposed for each segment which includes the start point, mean and trend. Moreover, we define a new distance measure method based on trend segmentation representation (TSR-DIST) which can suit for two representations with different lengths, and prove it to be the lower bound of Euclidean distance. The experimental results on UCR datasets show that the proposed representation and distance measure achieve better performance than the state-of-the-art methods in the classification accuracy and the dimensionality reduction ratio.

  相似文献   

14.
符号化聚合近似SAX方法是典型且行之有效的符号化特征表示方法。目前对SAX方法实践应用较多,然而对其内在特性,如复杂度、信息损失、相关性及周期性等方面的分析研究却相对较为少见。运用排列熵来度量SAX方法的复杂度及相关特性的统计学特征,通过在实验数据集以及真实生理数据上的实验表明,SAX方法可以明显降低特征表示的复杂度,冗余效应也得到了缓解;此外,SAX较好地保留了采用自相关函数ACF度量的内在相关性。本文工作可以对SAX方法及其进一步应用提供支撑,为新的符号化特征表示方法的设计与评估提供分析与统计工具。  相似文献   

15.
基于符号表示的时间序列分类方法是时间序列数据挖掘的关键技术。大部分现有方法主要针对单个时间序列样本进行符号表示,没有考虑样本间的近邻关系对符号化分类的影响。对此提出一种基于正交局部保持映射(Orthogonal Locality Preserving Projection,OLPP)的时间序列符号表示方法。使用OLPP对原始数据集进行维数约减,利用信息增益寻找维数约减后数据的最佳符号投影区间,采用多重系数分箱技术(Multiple Coefficient Binning,MCB)将降维后数据表示成符号序列。该算法在20个时间序列数据集上的分类效果好于已有方法,有效利用样本间的近邻关系能够显著提高算法的分类性能。  相似文献   

16.
近年来,基于符号表示的时间序列分类方法受到广泛关注,大部分现有方法对原始数据进行符号表示时,没有使用类别的标签信息。提出基于线性判别分析(LDA)的时间序列符号表示方法,考虑最大化类间区分度,使用LDA对原始数据集进行维数约减。再利用信息增益寻找降维后数据的符号投影区间,采用多重系数分箱(MCB)技术将维数约简后数据表示成符号序列。该方法在20个时间序列数据集上的分类效果好于已有方法,有监督的符号表示方法能有效提高分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号