首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
针对现有时间序列聚类分析较少考虑到各簇时间序列的相似形态对聚类结果的影响,提出一种基于时间序列形态的模糊聚类算法.该算法使用线性时间复杂度的Jeffreys复合距离度量时间序列之间的距离,利用迭代过程中的隶属度为各簇选择能够映射簇内时间序列相似形态的核心特征,并在下一次迭代中对距离进行特征加权.当隶属度不再显著变化时,算法停止迭代,根据隶属度最大原则对时间序列进行簇划分.在14个公开时间序列数据集上与10种对比算法的实验结果表明,所提算法具有精确的聚类结果和较好的鲁棒性,综合性能优于对比算法.  相似文献   

2.
多元时间序列(MTS)作为众多领域智能化技术的关键数据依据;其随时间推移记录了系统中多个变量的状态变化。聚类技术作为一个数据挖掘核心工具可以将数据按照其结构相似性划分为不同的簇;通过识别数据的结构和内在关系挖掘系统发展规律和变量相关关系。面对多元时间序列数据结构的复杂性、变量之间的关联性以及数据高维性等为聚类分析带来的挑战;国内外已经开展了大量相关研究工作。鉴于此;对多元时间序列数据场景下的聚类分析算法进行综述。基于特征提取方式、相似性度量算法、聚类划分框架等分类标准;对现有多元时间序列聚类算法进行对比分析。对于每一类多元时间序列聚类技术;从算法原理、代表性方法、算法优缺点以及解决的问题等方面进行详细总结与剖析。进一步讨论了常用的评价标准;以及多元时间序列聚类相关公开数据集。从多变量时序数据结构特殊性出发对现有多元时间序列聚类存在的挑战及未来发展方向进行了总结与展望。  相似文献   

3.
为弥补传统的基于隐M arkov模型在前提假设上的不足,提出了二阶隐马尔可夫模型。在研究二阶隐马尔可夫模型和凝聚算法在时空序列分析的基础上,提出了一种新的基于 HMM2的时间序列凝聚算法。该算法应用 HMM2对时间序列进行建模,合理考虑了概率和模型历史状态的关联性,按照相异度原则将序列聚成几个类,每个类用模型代表,进而对这些模型训练、合并及迭代得到聚类结果。实验比较了该算法与基于HMM算法的聚类质量,研究了聚类正确率与聚类数、距离正确率与模型距离的关系。结果表明,该算法比传统的基于HMM的聚类算法具有更好的性能。  相似文献   

4.
由于时间序列的长度很大,并且不确定时间序列在每个采样点的取值具有不确定性,导致时间序列在相似性匹配和聚类挖掘中时间复杂度很高,为了解决该问题,提出了基于趋势的时间序列相似性度量方法和聚类方法.其中基于趋势的相似性度量方法根据时间序列的整体变化趋势,将时间序列映射为短的趋势符号序列,并利用各趋势的一阶连接性指数和塔尼莫特系数完成相似性度量;基于趋势的聚类方法通过定义趋势高度,并对趋势符号序列迭代进行区间划分和趋势判断,并以此构建趋势树,最后将趋势树根节点中趋势符号相同的序列聚集为一类.实验结果表明:a)五种趋势符号的一阶连接性指数可唯一地表示一条时间序列;b)基于趋势的相似性度量方法在多项式时间内可有效完成时间序列的相似性匹配;c)基于趋势的聚类方法将序列的相似性度量和聚类过程集中在一起,聚类效果显著.  相似文献   

5.
6.
时间序列的相似性度量是时间序列数据挖掘的研究基础,为数据挖掘任务的效率和准确度提供可靠的保障。提出一种时间序列的层次分段及相似性度量方法,方法首先识别时间序列中的极值点,依据极值点的特征对时间序列进行分层次分段,并以此为基础,通过定义新的距离公式来度量时间序列间的相似性。使用新提出的相似性度量方法对时间序列进行聚类计算,实验结果表明,该方法能够有效地度量时间序列间的相似性,聚类效果明显,具有较好的实用性和良好的应用前景。  相似文献   

7.
在时间序列相似性的研究中,通常采用的欧氏距离及其变形无法对在时间轴上发生伸缩或弯曲的序列进行相似性度量,本文提出了一种基于分段极值DTW距离的时间序列相似性度量方法可以解决这一问题。在动态时间弯曲(DTW)距离的基础上,本文定义了序列的分段极值DTW距离,并阐述了其完整的算法实现。与传统的DTW距离相比,分段极值DTW距离在保证度量准确性的同时大大提高了相似性计算的效率。文中最后运用MATLAB作对比实验,并给出实验结果数据,验证了该度量方法的有效性与准确性。  相似文献   

8.
对当前聚类算法进行研究的基础上,提出了有效地实现多元时间序列聚类的方法.用离散哈达玛变换对多元数据进行降维,求出多元变量相关系数矩阵的特征值作为权值.采用带权值的矩阵相似性度量方法,利用改进的K-means算法对多元时间序列进行聚类分析.实验结果表明,该方法能够有效地实现多元时间序列聚类,把具有相似趋势变化的多元时间序列对象划分到同一类中.  相似文献   

9.
陆怡  王鹏  汪卫 《计算机工程》2022,48(10):88-94
时间序列是对某个事物或系统进行连续同间隔测量得到的数值序列,挖掘时间序列中潜在的语义信息对于发现系统运行规律或识别系统突发异常至关重要,然而目前多数时间序列语义挖掘算法对于时间序列数据特征有一定的约束条件,难以处理海量且特征各异的时间序列数据。针对该问题,提出一种基于子序列相似性的时间序列语义挖掘算法。通过计算子序列的相似性,将时间序列分割成片段序列进行两级聚类,识别出时间序列中潜在的物理状态。引入基于概率的迭代模式,根据候选分段情况动态调整子序列被选为参考子序列的概率,保证参考子序列涵盖全部物理状态。实验结果表明,该算法在PAMAP、Barbet等5个真实数据集上的识别准确率均超过90%,相比于FLUSS、pHMM、AutoPlait算法具有更高的识别准确率与运行效率以及更强的通用性。  相似文献   

10.
基于事件的时间序列相似性度量方法   总被引:2,自引:0,他引:2  
吴学雁  黄道平 《计算机应用》2010,30(7):1944-1946
为了在时间序列相似性度量过程中更好地体现用户的需求,提高相似性度量的准确度,提出了基于事件的时间序列相似性度量方法(SMBE)。首先将用户的需求定义为事件,将原始时间序列转化为事件序列;然后,构建了基于事件序列的相似性度量模型(SMBE),SMBE定义了不同事件序列中各元素之间的相似性,并构成相应的相似性矩阵,对相似性矩阵进行搜索得到最优路径的值作为序列之间的相似性度量;最后,提出了基于SMBE的聚类方法。实验表明,在参数设置合理的情况下,能获得接近0.90的聚类精度。  相似文献   

11.
Clustering time series is a problem that has applications in a wide variety of fields, and has recently attracted a large amount of research. Time series data are often large and may contain outliers. We show that the simple procedure of clipping the time series (discretising to above or below the median) reduces memory requirements and significantly speeds up clustering without decreasing clustering accuracy. We also demonstrate that clipping increases clustering accuracy when there are outliers in the data, thus serving as a means of outlier detection and a method of identifying model misspecification. We consider simulated data from polynomial, autoregressive moving average and hidden Markov models and show that the estimated parameters of the clipped data used in clustering tend, asymptotically, to those of the unclipped data. We also demonstrate experimentally that, if the series are long enough, the accuracy on clipped data is not significantly less than the accuracy on unclipped data, and if the series contain outliers then clipping results in significantly better clusterings. We then illustrate how using clipped series can be of practical benefit in detecting model misspecification and outliers on two real world data sets: an electricity generation bid data set and an ECG data set.  相似文献   

12.
索引大规模时序数据库是高效时序搜索中的关键问题.提出了一种新颖的索引方案RQI, 它包括3种过滤策略: 即first-k过滤、索引低边界和上边界以及三角不等式修剪.基本的思想为首先运用Haar小波变换计算每个时序的小波系数,利用前面的k个小波系数形成一个最小边界矩阵,以利用点过滤方法;然后将预先计算每个时序的低边界特征和上边界特征存放到索引当中;最后采用三角不等式来修剪不相似的序列并确保没有漏报.同时提出了一种新的低边界距离函数SLBS和聚类算法CSA.通过CSA可保持索引良好的聚类特征以提高点过滤方法的效率,从而引入了一种更好的算法RQIC.在合成数据集和实时数据集的大量对比实验表明,RQIC是有效的且具备较高的查询效率.  相似文献   

13.
基于变化点的时间序列近似表示   总被引:1,自引:0,他引:1  
时间序列的近似表示能够提高时间序列数据挖掘的效率和可靠性。提出了一种基于变化点的时间序列近似表示,具有简单直观、近似质量高、适应能力强等优点。在来自不同领域的真实数据集上的实验表明:与时间序列的重要点分段表示和分段常量表示相比,基于变化点的时间序列近似表示在近似质量和适应能力上都具有明显的优势。  相似文献   

14.
Characteristic-Based Clustering for Time Series Data   总被引:1,自引:0,他引:1  
With the growing importance of time series clustering research, particularly for similarity searches amongst long time series such as those arising in medicine or finance, it is critical for us to find a way to resolve the outstanding problems that make most clustering methods impractical under certain circumstances. When the time series is very long, some clustering algorithms may fail because the very notation of similarity is dubious in high dimension space; many methods cannot handle missing data when the clustering is based on a distance metric.This paper proposes a method for clustering of time series based on their structural characteristics. Unlike other alternatives, this method does not cluster point values using a distance metric, rather it clusters based on global features extracted from the time series. The feature measures are obtained from each individual series and can be fed into arbitrary clustering algorithms, including an unsupervised neural network algorithm, self-organizing map, or hierarchal clustering algorithm.Global measures describing the time series are obtained by applying statistical operations that best capture the underlying characteristics: trend, seasonality, periodicity, serial correlation, skewness, kurtosis, chaos, nonlinearity, and self-similarity. Since the method clusters using extracted global measures, it reduces the dimensionality of the time series and is much less sensitive to missing or noisy data. We further provide a search mechanism to find the best selection from the feature set that should be used as the clustering inputs.The proposed technique has been tested using benchmark time series datasets previously reported for time series clustering and a set of time series datasets with known characteristics. The empirical results show that our approach is able to yield meaningful clusters. The resulting clusters are similar to those produced by other methods, but with some promising and interesting variations that can be intuitively explained with knowledge of the global characteristics of the time series.  相似文献   

15.
预取是提高存储系统性能的主要手段之一.但现有存储系统的设备层并不知道任何I/O访问的语义信息,因而不能充分利用I/O访问的语义来预取下一时刻要访问的数据,只能利用较简单的方式如I/O访问的局部性、顺序访问和循环访问等特性来实现简单的预测.为此,本文根据存储系统的特点提出了实用且高效的基于连续度的聚类算法来发现密集读请求访问的区域,并采用ARMA时间序列模型来预测密集读请求可能访问的区域及访问时刻,为正确的预取提供了准确的信息.为提高预取的准确性,并采用了动态参数估计的策略.通过大量实验的结果验证了这两种算法的正确性和预测的准确性,能较大的提高存储系统的预取效率.  相似文献   

16.
基于层次与划分方法的聚类算法研究   总被引:3,自引:1,他引:3  
针对在层次聚类算法中,一个分裂或合并被执行,就不能修正,其聚类质量受到限制的缺陷,提出了利用簇间相异度及基于信息熵或整体相似度的聚类质量评价标准,在簇分裂过程中动态的进行簇的合并与分裂的算法。仿真实验结果证明,该算法具有使结果簇更紧凑和独立的效果,具有更好的聚类质量。  相似文献   

17.
时间序列的表示是时序数据挖掘的一个重要问题.重要点的分段表示法(IP)是目前应用最为广泛的时间序列特征提取方法之一,具有较好的数据压缩和去除噪声能力,但参数的选择对时间序列的近似效果有很大的影响而且难以找到重要的转折点.基于多分辨率的重要点检索分段方法(MIP)也是一种时间序列特征提取方法,该方法能很好地近似时间序列,但检索次数难以确定且运行效率比较低.为了改进以上两种方法的缺陷,提出了一种新的基于重要点的多分辨率检索表示法(MRIP).实验结果表明,与基于重要点分段方法相比,该方法误差更小,具有很好的压缩率,并能去除噪音干扰;与基于多分辨率的重要点检索分段方法相比,能较好地确定检索次数的范围,在近似效果相当的情况下,运算效率更高.  相似文献   

18.
时间序列数据主要依据采集时间进行排序,时间序列上相邻的数据具有一定的关联性,当用户读取时间序列数据时不只是读取一条数据,而是连续读取一段时间序列数据。针对时间序列的局部性特点,提出一种基于动态分段的时间序列索引DSI,通过设置差值及差值等级对时间序列数据进行动态分段,使用区间树快速查找不同长度的数据分段块,并利用层次聚类算法优化查询结果集合。实验结果表明,DSI索引的查询效率优于现有时间序列查询索引。  相似文献   

19.
基于自相似的金融时间序列波动聚集性研究   总被引:1,自引:0,他引:1  
自相似与波动聚集性是金融时间序列的两个重要特征,文章将这两个特征结合,提出了一种基于自相似的波动聚集模型。基于该模型提出了一种基于拟合优度与趋势变动的联机时间序列分割算法,算法能够根据波动的自相似特征将序列分割为多个子序列,从而用于研究在不同时段金融时间序列波动的自相似性。对实际数据的实验结果表明,文章所提出的模型和分割算法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号