首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 203 毫秒
1.
直接采用风速、温湿压等气象参数原始时间序列对其进行短期预测、相似匹配、分类聚类等数据挖掘工作不但效率低下,而且会影响时间序列数据挖掘的准确性和可靠性。提出了一种简单快速的基于特征点的筛选算法对时间序列进行分段线性表示。对气象参数等时间序列进行实验,并就计算性能和拟合误差与另外一种序列分段算法进行了对比分析,结果表明该方法能有效地提取序列的主要形态,同时降低对于阈值的依赖,具有计算代价小、快速方便、通用性强等特点,在气象数据压缩上具有较好的应用前景。  相似文献   

2.
实际过程中采集到的时间序列数据通常是海量数据,在原时间序列数据上直接进行数据挖掘的效率通常是低下的,有时甚至不可行,因此就须将时间序列在更高的层次上进行表示。借鉴时间序列线性分段的基本思想,提出了一种自适应误差约束的分段线性表示方法,该方法在查找出时间序列特殊点的基础上,通过给定误差e进行调节,可以自动地产生拟合线段的数目。不仅可以压缩数据,去除噪声,还能得到时间序列的模式变化特征。与一般的分段线性表示相比,文中方法的拟合误差更小,适应能力更强。  相似文献   

3.
随着计算机软、硬件的进步,人们利用信息技术产生和搜集数据的能力大幅度提高.作为数据挖掘的重要研究课题之一,时间序列的挖掘与预测近几年发展迅速.本文时时间序列的分段线性化表示进行了研究,采用新的分段线性化表示方法建立了序列相似性度量准则,弥补了以往度量准则对时间轴上伸缩的变化敏感的问题.新的表示方法和相似性度量准则使时间序列数据更容易应用传统的数据挖掘方法.  相似文献   

4.
基于变化点的时间序列近似表示   总被引:1,自引:0,他引:1  
时间序列的近似表示能够提高时间序列数据挖掘的效率和可靠性。提出了一种基于变化点的时间序列近似表示,具有简单直观、近似质量高、适应能力强等优点。在来自不同领域的真实数据集上的实验表明:与时间序列的重要点分段表示和分段常量表示相比,基于变化点的时间序列近似表示在近似质量和适应能力上都具有明显的优势。  相似文献   

5.
一种基于信息熵的时间序列分段线性表示方法   总被引:1,自引:0,他引:1  
针对部分时间序列具有高维、大数据量及数据更新速度较快的特点, 导致在原始时间序列上难以进行数据挖掘的问题, 提出一种基于信息熵的时间序列分段线性表示方法——PLR_IE。该算法利用信息熵作为评判重要点数量的性能指标, 从序列中提取重要分段点的数量分布情况, 利用重要点组成的序列重新拟合原始时间序列, 为下一步数据挖掘提供基础。实验结果表明, 该方法能高效地提取出序列主要特征、拟合原始序列。  相似文献   

6.
分段线性表示是时间序列降维的有效方法。在总结分析序列趋势变化特点的基础上,提出了一种基于趋势转折点的时间序列分段线性表示算法。首先定义了趋势转折点作为时间序列分段点的备选集,以点到区域的距离度量趋势转折点的重要性,再根据给定的阈值选择重要趋势转折点作为分段点,对时间序列进行分段线性表示。通过与其他6种方法进行实验比较,结果表明:所提方法在具有较好的拟合质量和适应能力以及对转折点明显的序列,都表现出较强的抗噪声干扰能力。  相似文献   

7.
时间序列数据具有规模大、维度高等特点,直接在原始序列上进行数据挖掘,其计算复杂度高且易受噪声影响,因此对原始时间序列进行预处理是必不可少的,而常用的线性表示方法大多存在对分段点的筛选准确度不高的问题。基于时间序列的变化特征,提出了一种基于时间序列关键点的线性表示方法。该方法综合考虑了时间跨度和振幅变化,能高效提取时间序列中的关键点,并防止过度除噪,实现简单。实验表明,该方法对不同领域的数据具有良好的普适性。  相似文献   

8.
通过计算某一点与其左右两相邻点斜率的比值确定出变化点,连接这些变化点,就得到一种基于斜率变化阈值的时间序列分段线性STC表示算法。来自航天器不同分系统的真实数据集实验表明,使用STC算法作为航天器测试时间序列的模式表示方法,与其他分段线性表示算法相比,该方法具有算法简单、拟合程度高和适应能力强的特点。  相似文献   

9.
时间序列的特征表示与相似性度量是时间序列数据挖掘的重要基础。针对现有的序列表示方法难以具体反映序列的形态变化趋势,导致相似度量结果不精确的问题,提出一种新的基于形态模式的相似性度量算法。该算法在分段线性表示的基础上,根据序列在不同时段的斜率变化情况,划分序列的分段形态模式并用特殊的字符进行表示,把时间序列转换成字符串序列,利用最长公共子序列方法计算字符串序列的距离作为时间序列之间的距离。最后通过实验验证该方法的有效性。理论分析和实验证明该方法对数据点的值不敏感,能够减少噪声的干扰,而且具有较高的准确性。  相似文献   

10.
刘琨  吴绍春 《计算机工程与设计》2007,28(16):3998-4000,4003
时间序列模式在很多领域中存在,时序模式的表示及存储查询是时间序列数据挖掘的重要任务之一.分析和研究了地震前兆时序模式的特点,采用半结构化语言XML并利用分段线性表示法表示地震前兆时序模式,在此基础上提出了针对Java、PL/SQL、命令行3种不同环境下地震前兆时序模式存储及查询方法,既保证了时序模式的存储查询效率,又满足了不同平台下针对时序模式的处理,从而进一步为地震预报服务.  相似文献   

11.
从应用角度对时间序列数据挖掘中的关键技术一相似性度量一进行了研究。实现了对时间序列的分段线性表示,并将其用于当前主要的几种时间序列距离度量算法。通过将各距离度量算法用于股票收盘数据分析实验,得出实验数据。通过对实验结果的分析并结合各算法的原理,对各方法的适用情况和执行效率进行了分析及比较。通过分析可知,每种算法有自己的特点及适用情况。对于实际应用,应根据实际需求选择合适的距离度量算法。  相似文献   

12.
基于时态边缘算子的时间序列分段线性表示   总被引:2,自引:1,他引:1  
时间序列的分段线性表示算法通常基于单一的启发式规则,难以适用于不同数据特征的时间序列。借鉴了边缘算子的思想来提取时间序列的边缘点,提出了一种基于时态边缘算子的时间序列分段线性表示算法。在来自不同领域的公开数据集上进行的实验结果表明:与两种主要的分段线性表示算法相比,该算法具有更好的拟合性能,并且更为稳定,能够适用于各类不同数据特征的时间序列。  相似文献   

13.
针对目前的时间序列线性表示方法多采用启发式方法提取局部特征点作为分段点,容易陷入局部最优化,不能很好地表示时间序列全局特征,而且多采用单一的拟合误差作为阈值,不能准确预计分段数量,不利于后期进行的时间序列分析应用的问题。提出了一种新的固定分段数的表示方法--PLR_BTBU,首先根据二叉树层次遍历的思想,提取时间序列全局特征点将时间序列初始分段,再通过斜率变化特征将整个时间序列符号化,以各初始分段内的符号特征来确定各初始分段中的分段点分布,最后采用一种改进的固定分段数的自底向上融合算法,将各个子序列逐步融合到要求的分段数。实验结果表明,与已有的方法相比,该方法不仅较好地保留时间序列的全局特征,而且拟合后的时间序列和原时间序列之间的拟合误差更小。  相似文献   

14.
确定时间序列分段点的方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
现有的时间序列分段线性表示一般把局部极值点作为分段点,但是局部极值点并不能完全刻画时间序列的状态变化,根据时间序列线性分段的基本思想,提出在确定局部极值点的基础上引入斜率差值大的分段点,以便得到较高的拟合精度。新的分段点通过比较相邻序列段的斜率实现,斜率差值越大,该点的状态改变越明显。实验证明该方法拟合误差小,有很好的实用性。  相似文献   

15.
针对时间序列相似性度量中欧氏距离对异常数据敏感以及DTW距离算法效率低的问题,提出基于滑动平均与分段线性回归的时间序列相似性方法。首先,使用初始可变滑动平均算法以及分段线性回归对原始时间序列进行数据变换,并将分段线性回归的参数(截距与距离)集作为时间序列的特征,以实现时间序列的特征提取和数据降维;然后,利用动态时间弯曲距离进行距离计算。该方法在时间序列相似性上与DTW算法的性能相近,但是在算法效率上几乎提高了96%。实验结果验证了该方法的有效性与准确性。  相似文献   

16.
Experiencing SAX: a novel symbolic representation of time series   总被引:15,自引:3,他引:15  
Many high level representations of time series have been proposed for data mining, including Fourier transforms, wavelets, eigenwaves, piecewise polynomial models, etc. Many researchers have also considered symbolic representations of time series, noting that such representations would potentiality allow researchers to avail of the wealth of data structures and algorithms from the text processing and bioinformatics communities. While many symbolic representations of time series have been introduced over the past decades, they all suffer from two fatal flaws. First, the dimensionality of the symbolic representation is the same as the original data, and virtually all data mining algorithms scale poorly with dimensionality. Second, although distance measures can be defined on the symbolic approaches, these distance measures have little correlation with distance measures defined on the original time series. In this work we formulate a new symbolic representation of time series. Our representation is unique in that it allows dimensionality/numerosity reduction, and it also allows distance measures to be defined on the symbolic approach that lower bound corresponding distance measures defined on the original series. As we shall demonstrate, this latter feature is particularly exciting because it allows one to run certain data mining algorithms on the efficiently manipulated symbolic representation, while producing identical results to the algorithms that operate on the original data. In particular, we will demonstrate the utility of our representation on various data mining tasks of clustering, classification, query by content, anomaly detection, motif discovery, and visualization.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号