首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
Shapelet是一种具有辨识性的时间序列子序列,通过识别局部特征达到对时间序列准确分类的目的。原始shapelet发现算法效率较低,大量工作关注于提高shapelet发现的效率。然而,对于带有趋势变化的时间序列,采用典型的时间序列表示方法进行shapelet发现,容易造成序列中趋势信息的丢失。为了解决时间序列趋势信息丢失的问题,提出一种基于趋势特征的多样化top-k shapelet分类方法:首先采用趋势特征符号化方法对时间序列的趋势信息进行表示;然后针对序列的趋势特征符号获取shapelet候选集合;最后通过引入多样化top-k查询算法从候选集中选取k个最具代表性的shapelets。在时间序列的分类实验中,与传统分类算法相比,所提方法在11个数据集上的分类准确率均有提升;与FastShapelet算法相比,提升了运行效率,缩短了算法的运行时间,并在趋势信息明显的数据上效果显著。结果表明,所提方法能有效提高时间序列的分类准确率,提升算法运行效率。  相似文献   

2.
赵超  王腾江  刘士军  潘丽  嵇存 《软件学报》2020,31(3):763-777
基于Shapelet的时间序列分类算法具有可解释性,且分类准确率高、分类速度快.在这些算法中,Shapelet学习算法不依赖于单一分类器,能够学习出不在原始时间序列中的Shapelet,可以取得较高的分类准确率,同时还可以保证Shapelet发现和分类器构建同时完成;但如果产生的Shapelet过多,会增加依赖参数,导致训练时间太长,分类速度低,动态更新困难,且相似重复的Shapelet会降低分类的可解释性.提出一种选择性提取方法,用于更精准地选择Shapelet候选集,并改变学习方法以加速Shapelet学习过程;方法中提出了两个优化策略,通过对原始训练集采用时间序列聚类,可以得到原始时间序列中没有的Shapelet,同时在选择性提取算法中加入投票机制,以解决产生Shapelet过多的问题.实验表明,该算法在保持较高准确率的同时,可以显著地提高训练速度.  相似文献   

3.
Shapelet序列分析为时间序列分类提供了一种快速分类的方法,但Shapelet序列抽取速度很慢,限制了它的应用范围。为了加快 Shapelet 序列的提取,提出了一种基于主成分分析的改进方法。首先运用主成分分析法(PCA)对时间序列数据集进行降维,采用降维后的数据表示原数据,然后对降维后的数据提取出最能代表类特征的Shapelet序列。实验结果表明:本方法在保证分类准确率的前提下,提高了运算速度。  相似文献   

4.
时间序列的表示与分类算法综述   总被引:1,自引:0,他引:1  
时间序列是按照时间排序的一组随机变量,它通常是在相等间隔的时间段内,依照给定的采样率,对某种潜在过程进行观测的结果。时间序列数据广泛地存在于商业、农业、气象、生物科学以及生态学等诸多领域,从时间序列中发现有用的知识已成为数据挖掘领域的研究热点之一。在时间序列表示方面,主要介绍了非数据适应性表示方法、数据适应性表示方法和基于模型的表示方法;针对时间序列的分类方法,着重介绍了基于时域相似性、形状相似性和变化相似性的分类算法,并对未来的研究方向进行了进一步的展望。  相似文献   

5.
时间弯曲距离受最优路径和距离计算方式限制,累加距离不能有效区分时间序列的类型。标识极值能够获得时间序列的区间性特征,相应的特征标识能够对距离相同但趋势不同的时间序列进行有效分类。提出分析同类时间序列的时间弯曲距离结果获得典型时间序列,根据极值点进行分段,在标准差的基础上形成特征标识。对达到距离要求的目标时间序列和典型时间序列进行标识匹配,最终明确其类型。所提算法解决了时间序列分类过程中时间弯曲距离度量局限性的问题。最后,证明了算法的理论可行性,并给出了其整体流程。实验结果表明,基于极值分段特征标识的时间序列分类方法具有良好的分类性能。  相似文献   

6.
随着传感器广泛应用于各个领域,在传感器生成的时间序列上识别事件越来越受到广泛的关注。针对震荡的传感器时间序列,提出事件分类算法BEC。对于原始长时间序列和标记时间点作为类标签,BEC主要解决了两个问题。首先是将标记时间点扩展为包含充分信息的子序列以分类,再者是提取基于突变的特征以训练分类模型。实验结果证明,无需大部分时间序列分类问题中不现实的假设和太多人力干预,BEC提取的基于突变的特征能够充分描述事件,极大保留事件中关键信息,在现实数据集上的表现优于现有的时间序列分类算法。  相似文献   

7.
针对基于shapelets转换的时间序列分类算法因shapelets候选集中存在大量相似序列而造成耗时过长的问题,提出了一种基于LSH的shapelets转换方法(Locality Sensitive Hashing Shapelets Transform,LSHST),提出一种局部敏感哈希函数(LSH)的改进算法,对原始子序列候选集进行逐级过滤筛选,快速挑选出形态上具有代表性的shapelets集合,计算集合中shapelets的质量,采用覆盖的方法确定将要进行转换的shapelets,进一步减小shapelets的数量,进行shapelets转换。实验表明,与Shapelet Transform(ST)、ClusterShapelets(CST)和Fast Shapelet Selection(FSS)算法相比,LSHST在分类精度上最高提升了20.05、19.9和16.52个百分点,在时间节省程度上最高达8 000倍、16 000倍和8.5倍。  相似文献   

8.
Shapelet作为时间序列特征,具有较好的可解释性。Shapelet在行为识别、聚类分析及异常检测等方向均得到了广泛应用。但在电力运行监测、医学图像分析以及流媒体监测等领域,时间序列具有多源、同步的特点,仅对单一源上的时间序列提取Shapelet可能丢失序列间相关性。在Shapelet概念基础上,本文提出p-Shapelet作为不同源的Shapelet间关于时间间隔的特征表达,从而实现分析不同源Shapelet间的相关性。具体地,为找出不同类别样本间时间间隔具有最显著差异的Shapelet对,设计并实现了并行化挖掘的算法p-Shapelet miner。算法采用信息增益对不同源间的Shapelet对进行评价,并找出能最大化信息增益的Shapelet对(p-Shapelet)。利用CMU人体动作捕捉数据集进行实验,验证了算法的有效性与执行效率。  相似文献   

9.
shapelets是描述时间序列局部特征的子序列,它能最大程度对不同类别进行区分。从它的发明至今一直吸引着研究者的关注,但是由于过高的时间复杂度阻碍了它被广泛应用。一种快速查找多个shapelets的方法(Non-Similar Discover of Shapelet,NSDS)被提出:基于shapelets非相似的特性,根据子序列间距离分布设置一个距离阈值,以此过滤掉候选集中的相似子序列。再使用类可分离性作为过滤后的候选子序列的评价标准,最终选择出性能最好的多个shapelets。通过在单变量时间序列数据集上的实验表明了该方法可以极大缩短查找shapelets时间,而且能保持较高的分类准确性。将该方法扩展到多变量时间序列,对多个变量采用组合分类器的方法来提高整体分类的准确率。  相似文献   

10.
丁剑  王树英 《计算机科学》2016,43(5):257-260, 293
根据时间序列数据维度高、实值有序、数据间存在自相关性等特点,对时间序列分类过程进行研究。研究了当前比较流行的时间序列分类方法;从图像处理的角度出发,提出了一种将图片信息转化为时间序列数据的ITTS方法。shapelets作为最能够表示一条时间序列的子序列,随着时间的推移,这个特征序列可能会动态地发生变化。基于这样的思想,提出了一种基于动态发现shapelets的增量式时间序列分类算法IPST。该算法能够较好地动态发现当前最优的k个shapelets,从而提高时间序列分类的准确度。 得到 的shapelets集合还可以与多个传统的分类器结合,从而获得更佳的分类效果。  相似文献   

11.
基于符号化表示的时间序列频繁子序列挖掘   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种新的基于符号化表示的时间序列频繁子序列的挖掘算法。利用基于PAA的分段线性表示法进行降维,通过在高斯分布下设置断点,实现时间序列符号化表示,利用投影数据库挖掘频繁子序列。该算法简单、新颖,运行快速,简化了子序列支持数的计算。  相似文献   

12.
时间序列是随时间次序变化的高维实值数据,广泛存在于医学、金融、监控等领域。因为传统的分类算法在时间序列上的分类效果不佳且不具备可解释性,而shapelet为时间序列中最具辨别性的连续子序列,具有可解释性,所以基于shapelet的时间序列分类已成为时间序列分类研究的热点之一。首先,通过归纳总结,将现有的时间序列shapelet发现算法分为空间搜索发现shapelet和目标函数优化学习shapelet两类,并介绍了shapelet的相关应用;然后,从分类的对象出发,重点阐述了基于shapelet的一元时间序列和多元时间序列的分类算法;最后,指出了基于shapelet的时间序列分类在未来的研究方向。  相似文献   

13.
近年来,基于符号表示的时间序列分类方法受到广泛关注,大部分现有方法对原始数据进行符号表示时,没有使用类别的标签信息。提出基于线性判别分析(LDA)的时间序列符号表示方法,考虑最大化类间区分度,使用LDA对原始数据集进行维数约减。再利用信息增益寻找降维后数据的符号投影区间,采用多重系数分箱(MCB)技术将维数约简后数据表示成符号序列。该方法在20个时间序列数据集上的分类效果好于已有方法,有监督的符号表示方法能有效提高分类性能。  相似文献   

14.
基于MODIS NDVI时间序列数据的藏北草地类型识别   总被引:1,自引:0,他引:1  
选取西藏自治区申扎县北部部分区域作为藏北草原的典型代表区进行研究。对区域内2009年全年23期MODIS NDVI数据收集处理,得到23个波段的时间序列数据。通过Savitzky-Golay滤波算法优化时间序列数据并对不同类型的时间序列曲线做对比分析,提取分类的特征波段。最后采用非监督分类法把研究区分为沼泽草甸、高寒草甸、中盖度草原、低盖度草原、裸地和水体6种类型,并结合地形数据分析了其中4种草地类型的空间分布特征。一系列的处理结果及分析内容证明了MODIS NDVI时间序列数据在藏北草地类型识别方面的可行性和适用性。  相似文献   

15.
时间序列数据的特征表示方法是时间序列数据挖掘任务的关键技术,符号聚合近似表示(SAX)是特征表示方法中比较常用的一种。针对SAX算法在各序列段表示符号一致时无法区分时间序列间的相似性这一缺陷,提出了一种基于始末距离的时间序列符号聚合近似表示方法(SAX_SM)。由于时间序列有很强的形态趋势,因此文中提出的方法选用起点和终点来表示各个序列段的形态特征,并使用各序列段的形态特征和表示符号来近似表示时间序列数据,以将其从高维空间映射到低维空间;然后,针对起点和终点构建始末距离来计算两序列段间的形态距离;最后, 结合 始末距离和符号距离定义一种新的距离度量方式,以更客观地度量时间序列间的相似性。理论分析表明,该距离度量满足下界定理。在20组UCR时间序列数据集上的实验表明,所提SAX_SM方法在13个数据集中获得了最高的分类准确率(包含并列最大的),而SAX只在6个数据集中获得了最高的分类准确率(包含并列最大的),因此SAX_SM具有比SAX更优的分类效果。  相似文献   

16.
时间序列数据广泛存在于我们的生活中,吸引了越来越多的学者对其进行深入的研究.时间序列分类是时间序列的一个重要研究领域,目前已有上百种分类算法被提出.这些方法大致分为基于距离的方法、基于特征的方法以及基于深度学习的方法.前两类方法需要手动处理特征和人为选择分类器,而大多数的深度学习方法属于端到端的方法,并且在时间序列分类...  相似文献   

17.
张伟  王志海  原继东  郝石磊 《软件学报》2020,31(10):3216-3237
时间序列数据广泛产生于科技和经济的多个领域.基于符号傅里叶近似(symbolic Fourier approximation)和滑动窗口的定长单词抽取算法是目前时间序列特征字典构建过程中最有效的特征生成算法之一,但是该算法在特征生成过程中不能根据不同滑动窗口长度动态地选择保留的最优傅里叶值的个数,而且特征字典构建过程中缺少从生成的海量特征中对鉴别性特征进行有效选择的算法.为此,提出一种鉴别性特征字典构建算法.首先,提出一种针对不同长度滑动窗口学习最优单词长度的基于Fourier近似的可变长度单词抽取方法;其次,构建了一种新的特征鉴别性评价指标,并依据其动态阈值对生成的特征进行选择.实验结果表明,基于构建的特征字典的逻辑回归模型不仅分类精度高,而且可以有效发现预测过程中的鉴别性特征.  相似文献   

18.
子序列查询技术在金融、商业、医疗等领域均有重要应用,但因DTW(dynamic time warping)等相似性比对算法的时间复杂度较高,子序列长度对检索时间影响很大,限制了数据集上长子序列检索的效率。针对这一问题提出一种子序列快速查询算法。首先对数据集中特定长度下所有子序列进行分组并标记出代表性子序列;然后在查询时将查询序列切分成定长的小段序列,并用DTW算法确定与小段序列相似的代表子序列候选集;最后对候选集进行序列拼接,获取到查询结果序列。实验表明新算法效率较典型算法提高约10倍。  相似文献   

19.
时间序列分类比一般分类问题困难,主要在于要分类的时间序列数据不等长,因此不能直接应用一般的分类算法。首先提出基于聚类模型的数据转换,然后进行基于模型的聚类分析,用领域相关法对时间序列建模,用模型参数组成等长向量来表示每条序列,最后进行时间序列匹配算法分析,用分类算法进行训练和分类。结合管道流量泄漏点提出一种时间序列匹配的新方法,利用同类样本间的连续性规律,将时间序列排序,并在相邻的时间序列之间添加样本点,新方法优于基于动态时间弯折的传统方法;针对管道流量泄漏时间序列分类的算法研究观测到不同算法在不同因素影响下的性能表现,为今后发展新的算法提供有力依据。  相似文献   

20.
魏池璇  王志海  原继东  林钱洪 《软件学报》2022,33(12):4411-4428
对于许多实际应用来说,获取多个不同窗口尺度上的模式,有助于发现时间序列的不同规律性特征.同时,通过对时间序列时域和频域两方面的分析,有助于挖掘更多的知识.提出了一种新的基于可变尺度的时域频域辨别性特征挖掘方法以及应用于分类的算法.主要采用了不同尺度窗口、符号聚合近似技术以及符号傅里叶近似技术等,以有效地发掘时间序列不同尺度时域频域模式;与此同时,使用统计学方法挖掘部分最具辨别性的特征用于时间序列分类,有效地降低了算法时间复杂度.在多个数据集上的对比实验结果,说明了该算法具有较高的准确率;在真实数据集上的解析,表明了该算法具有更强的可解释性.同时,该算法可扩展应用到多维时间序列分类问题中.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号