首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
时间序列是将同一指标的数值按照时间的先后顺序排列组成的一组随机数列.随着科学技术的蓬勃发展,时间序列在数据挖掘领域中的应用变得越来越广泛.综合分析了近年来时间序列在数据挖掘领域的文献成果,对时间序列特征表示和相似性度量方法进行了阐述.针对时间序列特征表示方法,从非数据适应性方法、数据自适应性方法、基于模型的方法三方面进...  相似文献   

2.
时间序列相似性度量在挖掘时间序列模式,提取时间序列关联关系上发挥着重要作用。分析了当前主流的时间序列相似性度量算法,分别指出了各度量算法在度量时序数据相似性时存在的缺陷,并提出了基于数学形态学的时间序列相似性度量算法。通过将归一化的时间序列二值图像化表示,再引入了图像处理领域中的膨胀、腐蚀操作对时序数据进行形态变换分析,提高相似时序数据部分的抗噪性,同时又不降低时序数据非相似部分间的差异度,实现时序数据相似性度量分类精度的提高。在八种时间序列测试数据集合上进行分类实验,实验结果表明提出的基于数学形态学的时间序列相似性度量算法在时间序列分类精度上得到有效改善,相比于DTW相似性度量算法,分类精度平均水平提升了8.74%,最高提升20%。  相似文献   

3.
基于斜率表示的时间序列相似性度量方法   总被引:5,自引:0,他引:5  
时间序列相似性搜索是数据挖掘领域的一个热点研究方向,相似性距离度量方法是其中的一个重要问题.针对含有大量噪声并存在数据缺失的高维多元时间序列数据,本文提出一种基于斜率表示的时间序列相似性度量方法.该方法是在线性分段的基础上,对两个序列间的斜率差进行加权,因而物理概念更为明确.文中还证明斜率距离完全满足相似性度量的基本准则.实例证明了算法的有效性.  相似文献   

4.
时间序列数据的特征表示方法是时间序列数据挖掘任务的关键技术,符号聚合近似表示(SAX)是特征表示方法中比较常用的一种。针对SAX算法在各序列段表示符号一致时无法区分时间序列间的相似性这一缺陷,提出了一种基于始末距离的时间序列符号聚合近似表示方法(SAX_SM)。由于时间序列有很强的形态趋势,因此文中提出的方法选用起点和终点来表示各个序列段的形态特征,并使用各序列段的形态特征和表示符号来近似表示时间序列数据,以将其从高维空间映射到低维空间;然后,针对起点和终点构建始末距离来计算两序列段间的形态距离;最后, 结合 始末距离和符号距离定义一种新的距离度量方式,以更客观地度量时间序列间的相似性。理论分析表明,该距离度量满足下界定理。在20组UCR时间序列数据集上的实验表明,所提SAX_SM方法在13个数据集中获得了最高的分类准确率(包含并列最大的),而SAX只在6个数据集中获得了最高的分类准确率(包含并列最大的),因此SAX_SM具有比SAX更优的分类效果。  相似文献   

5.
姜逸凡  叶青 《计算机应用》2019,39(4):1041-1045
在时间序列分类等数据挖掘工作中,不同数据集基于类别的相似性表现有明显不同,因此一个合理有效的相似性度量对数据挖掘非常关键。传统的欧氏距离、余弦距离和动态时间弯曲等方法仅针对数据自身进行相似度公式计算,忽略了不同数据集所包含的知识标注对于相似性度量的影响。为了解决这一问题,提出基于孪生神经网络(SNN)的时间序列相似性度量学习方法。该方法从样例标签的监督信息中学习数据之间的邻域关系,建立时间序列之间的高效距离度量。在UCR提供的时间序列数据集上进行的相似性度量和验证性分类实验的结果表明,与ED/DTW-1NN相比SNN在分类质量总体上有明显的提升。虽然基于动态时间弯曲(DTW)的1近邻(1NN)分类方法在部分数据上表现优于基于SNN的1NN分类方法,但在分类过程的相似度计算复杂度和速度上SNN优于DTW。可见所提方法能明显提高分类数据集相似性的度量效率,在高维、复杂的时间序列的数据分类上有不错的表现。  相似文献   

6.
一种基于DTW的新型故事时间序列相似性度量方法   总被引:1,自引:0,他引:1  
现有时间序列相似性度量方法在进行股市序列相似性分析时,通常忽略成交量等其他重要因素对股价的影响,从而导致序列聚类、分类不精确。针对这一问题,本文提出了新的股市时间序列相似性度量方法。该方法在动态时间弯曲算法的基础上,通过引进时间衰竭因子,并结合成交量因素,给出了股市序列的最终度量公式。为了证明提出方法的可行性和有效性,本文实验部分通过选取家电等三个行业中的股票数据进行测试。实验结果表明,基于动态时间弯曲(Dynamic time warping,DTW)的新型股市时间序列相似性度量方法能够在保持股票序列形态特征的基础上,较好地解决股市技术分析中量价关系问题,从而更有效地应用于股市技术分析里关于模式发现等领域。  相似文献   

7.
赵慧赟  潘志松 《计算机科学》2018,45(5):180-184, 219
多元时间序列广泛存在于日常生活中的各个领域,多元时间序列分类是从时间序列数据中获取信息的基本方法。目前,时间序列分类研究面临着相似性度量方法特殊、原始数据维度高等问题,现有的多元时间序列分类方法的分类性能仍有待提高。文中提出一种基于shapelets学习的多元时间序列分类方法。首先,提出了新的正则化最小二乘损失学习框架下的shapelets学习方法,在此基础上采用基于shapelets的一元时间序列分类方法对多元时间序列的每维一元数据进行分类,随后由各维上的分类结果投票决定多元时间序列的最终分类结果。实验证明,所提方法在多元时间序列分类问题中能够取得较高的分类精度。  相似文献   

8.
时间序列数据广泛存在于我们的生活中,吸引了越来越多的学者对其进行深入的研究.时间序列分类是时间序列的一个重要研究领域,目前已有上百种分类算法被提出.这些方法大致分为基于距离的方法、基于特征的方法以及基于深度学习的方法.前两类方法需要手动处理特征和人为选择分类器,而大多数的深度学习方法属于端到端的方法,并且在时间序列分类...  相似文献   

9.
时间序列分类比一般分类问题困难,主要在于要分类的时间序列数据不等长,因此不能直接应用一般的分类算法。首先提出基于聚类模型的数据转换,然后进行基于模型的聚类分析,用领域相关法对时间序列建模,用模型参数组成等长向量来表示每条序列,最后进行时间序列匹配算法分析,用分类算法进行训练和分类。结合管道流量泄漏点提出一种时间序列匹配的新方法,利用同类样本间的连续性规律,将时间序列排序,并在相邻的时间序列之间添加样本点,新方法优于基于动态时间弯折的传统方法;针对管道流量泄漏时间序列分类的算法研究观测到不同算法在不同因素影响下的性能表现,为今后发展新的算法提供有力依据。  相似文献   

10.
时间序列数据挖掘是数据挖掘领域的热点之一。相似性度量是时序挖掘领域的基础问题,直接决定了时序数据分类和聚类的效果。针对现有经典的时序数据相似性度量方法共同主成分分析(CPCA)和二维奇异值分解(2DSVD)中存在无法保存时序数据集合中蕴含的某些重要局部特征的问题,提出了基于数据分块方式的CPCA方法和2DSVD方法。该算法首先对原始多变量时间序列数据进行分块处理,然后对分块得到的子矩阵采用CPCA、2DSVD进行特征提取,从而得到代替原始模式的低维新模式,最后在低维空间中利用最小距离法构建分类器对多变量时间序列进行分类。EEG数据分类实验证明了所提方法的有效性。  相似文献   

11.
A review on time series data mining   总被引:5,自引:0,他引:5  
Time series is an important class of temporal data objects and it can be easily obtained from scientific and financial applications. A time series is a collection of observations made chronologically. The nature of time series data includes: large in data size, high dimensionality and necessary to update continuously. Moreover time series data, which is characterized by its numerical and continuous nature, is always considered as a whole instead of individual numerical field. The increasing use of time series data has initiated a great deal of research and development attempts in the field of data mining. The abundant research on time series data mining in the last decade could hamper the entry of interested researchers, due to its complexity. In this paper, a comprehensive revision on the existing time series data mining research is given. They are generally categorized into representation and indexing, similarity measure, segmentation, visualization and mining. Moreover state-of-the-art research issues are also highlighted. The primary objective of this paper is to serve as a glossary for interested researchers to have an overall picture on the current time series data mining development and identify their potential research direction to further investigation.  相似文献   

12.
Similarity search and detection is a central problem in time series data processing and management. Most approaches to this problem have been developed around the notion of dynamic time warping, whereas several dimensionality reduction techniques have been proposed to improve the efficiency of similarity searches. Due to the continuous increasing of sources of time series data and the cruciality of real-world applications that use such data, we believe there is a challenging demand for supporting similarity detection in time series in a both accurate and fast way. Our proposal is to define a concise yet feature-rich representation of time series, on which the dynamic time warping can be applied for effective and efficient similarity detection of time series. We present the Derivative time series Segment Approximation (DSA) representation model, which originally features derivative estimation, segmentation and segment approximation to provide both high sensitivity in capturing the main trends of time series and data compression. We extensively compare DSA with state-of-the-art similarity methods and dimensionality reduction techniques in clustering and classification frameworks. Experimental evidence from effectiveness and efficiency tests on various datasets shows that DSA is well-suited to support both accurate and fast similarity detection.  相似文献   

13.
近年来,基于符号表示的时间序列分类方法受到广泛关注,大部分现有方法对原始数据进行符号表示时,没有使用类别的标签信息。提出基于线性判别分析(LDA)的时间序列符号表示方法,考虑最大化类间区分度,使用LDA对原始数据集进行维数约减。再利用信息增益寻找降维后数据的符号投影区间,采用多重系数分箱(MCB)技术将维数约简后数据表示成符号序列。该方法在20个时间序列数据集上的分类效果好于已有方法,有监督的符号表示方法能有效提高分类性能。  相似文献   

14.
基于符号表示的时间序列分类方法是时间序列数据挖掘的关键技术。大部分现有方法主要针对单个时间序列样本进行符号表示,没有考虑样本间的近邻关系对符号化分类的影响。对此提出一种基于正交局部保持映射(Orthogonal Locality Preserving Projection,OLPP)的时间序列符号表示方法。使用OLPP对原始数据集进行维数约减,利用信息增益寻找维数约减后数据的最佳符号投影区间,采用多重系数分箱技术(Multiple Coefficient Binning,MCB)将降维后数据表示成符号序列。该算法在20个时间序列数据集上的分类效果好于已有方法,有效利用样本间的近邻关系能够显著提高算法的分类性能。  相似文献   

15.
Experiencing SAX: a novel symbolic representation of time series   总被引:15,自引:3,他引:15  
Many high level representations of time series have been proposed for data mining, including Fourier transforms, wavelets, eigenwaves, piecewise polynomial models, etc. Many researchers have also considered symbolic representations of time series, noting that such representations would potentiality allow researchers to avail of the wealth of data structures and algorithms from the text processing and bioinformatics communities. While many symbolic representations of time series have been introduced over the past decades, they all suffer from two fatal flaws. First, the dimensionality of the symbolic representation is the same as the original data, and virtually all data mining algorithms scale poorly with dimensionality. Second, although distance measures can be defined on the symbolic approaches, these distance measures have little correlation with distance measures defined on the original time series. In this work we formulate a new symbolic representation of time series. Our representation is unique in that it allows dimensionality/numerosity reduction, and it also allows distance measures to be defined on the symbolic approach that lower bound corresponding distance measures defined on the original series. As we shall demonstrate, this latter feature is particularly exciting because it allows one to run certain data mining algorithms on the efficiently manipulated symbolic representation, while producing identical results to the algorithms that operate on the original data. In particular, we will demonstrate the utility of our representation on various data mining tasks of clustering, classification, query by content, anomaly detection, motif discovery, and visualization.  相似文献   

16.
时间序列预测方法综述   总被引:1,自引:0,他引:1  
时间序列是按照时间排序的一组随机变量,它通常是在相等间隔的时间段内依照给定的采样率对某种潜在过程进行观测的结果。时间序列数据本质上反映的是某个或者某些随机变量随时间不断变化的趋势,而时间序列预测方法的核心就是从数据中挖掘出这种规律,并利用其对将来的数据做出估计。针对时间序列预测方法,着重介绍了传统的时间序列预测方法、基于机器学习的时间序列预测方法和基于参数模型的在线时间序列预测方法,并对未来的研究方向进行了进一步的展望。  相似文献   

17.
分类问题是数据挖掘中的基本问题之一,时间序列的特征表示及相似性度量是时间序列数据挖掘中分类、聚类及模式发现等任务的基础。SAX方法是一种典型的时间序列符号化表示方法,在采用该方法的基础上对时间序列进行分类,不仅可以有效地降维、降噪,而且具有简单、直观等特点,但是该方法有可能造成信息损失并影响到分类结果的准确性。为了弥补信息损失对分类结果的影响,采用了集成学习中大多数投票方法来弥补BOP表示后的信息损失,从而提高整个分类器的效率。针对一些样本在BOP表示中都损失了相似的重要信息,以至于大多数投票无法进一步提高分类效率的问题,进一步提出了结合集成学习中AdaBoost算法,通过对训练样本权重的调整,从而达到以提高分类器性能来弥补信息损失的效果。实验结果表明,将BOP方法与集成学习相结合的方法框架,不仅能很好地处理SAX符号化表示中的信息损失问题,而且与已有方法相比,在分类准确度方面也有显著的提高。  相似文献   

18.
Time series analysis has always been an important and interesting research field due to its frequent appearance in different applications. In the past, many approaches based on regression, neural networks and other mathematical models were proposed to analyze the time series. In this paper, we attempt to use the data mining technique to analyze time series. Many previous studies on data mining have focused on handling binary-valued data. Time series data, however, are usually quantitative values. We thus extend our previous fuzzy mining approach for handling time-series data to find linguistic association rules. The proposed approach first uses a sliding window to generate continues subsequences from a given time series and then analyzes the fuzzy itemsets from these subsequences. Appropriate post-processing is then performed to remove redundant patterns. Experiments are also made to show the performance of the proposed mining algorithm. Since the final results are represented by linguistic rules, they will be friendlier to human than quantitative representation.  相似文献   

19.
一种新的DTW最佳弯曲窗口学习方法   总被引:1,自引:0,他引:1  
陈乾  胡谷雨 《计算机科学》2012,39(8):191-195
时间序列相似性查询中,DTW(Dynamic Time Warping)距离是支持时间弯曲的经典度量,约束弯曲窗口的DTW是DTW最常见的实用形式。分析了传统DTW最佳弯曲窗口学习方法存在的问题,并在此基础上引入时间距离的概念,提出了新的DTW最佳弯曲窗口学习方法。由于时间距离是DTW计算的附属产物,因此该方法可以在几乎不增加运算量的情况下提高DTW的分类精度。实验证明,采用了新的学习方法后,具有最佳弯曲窗口的DTW分类精度得到明显改善,分类精度优于ERP(Edit Distance with Real Penalty)和LCSS(Longest Common SubSequence),接近TWED(Time Warp Edit Distance)的水平。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号