首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
相异性或相似性度量是数据挖掘领域中的2个基本问题。针对时间序列的相异性度量问题,给出时间序列的区域半径、区域极值点、区域等定义,提出一种区域极值点提取策略。通过提取有代表性的极值点以起到对时间序列数据约简和压缩的作用,进一步定义时间序列的动态时间弯曲距离度量其相异性。以此为基础提出一种新的时间序列层次聚类算法。仿真实验结果表明,与时间序列趋势特征提取等算法相比,该算法在数据的压缩效果和聚类准确率方面均有明显提高。  相似文献   

2.
相似时间序列的快速检索算法   总被引:10,自引:0,他引:10  
在前人提出的扩展时序数据距离定义的基础上 ,首先提出一种在时域上计算时序数据距离的新算法 ,该算法时间复杂度为 O( n× m ) ,能够解决时序数据在 Y轴上的漂移和伸缩带来的问题 ;之后提出一种在频域上计算时序数据距离的新算法 ,该算法时间复杂度仅为 O( n× fc) ,效率很高 ,便于在线实现 ,而且同样能够解决时序数据漂移和伸缩的问题 ;本文还给出和证明了该算法的一个重要组成部分 :时序数据增量式的 DFT算法  相似文献   

3.
首先提出一种在时域上计算时序数据扩展距离的新算法,该算法时间复杂度为O(n×m),能够解决时序数据在Y轴上的漂移和伸缩后仍然保留相似性的问题;然后提出一种在频域上计算时序数据扩展距离和在长时序中搜索相似子序列的新算法,该算法时间复杂度仅为O(n×fc),效率很高,便于在线实现,而且同样能够适应时序数据扩展距离的定义;最后给出时序数据和线性加权时序数据的增量式DFT算法,可以对长时序的各个窗口进行增量式的降维,将传统的O(n×m×fc)工作改进成O(n×fc).  相似文献   

4.
针对符号序列聚类中表示模型及序列间距离度量定义的困难问题,提出一种基于概率向量的表示模型及基于该模型的符号序列聚类算法。该模型引入符号序列的概率分布表示法,定义了一种基于概率分布差异的符号序列距离度量及该模型的目标函数,最后给出了一种符号序列K-均值型聚类算法,并在来自不同领域的实际应用序列集上进行了实验验证。实验结果表明,与基于子序列表示模型的符号序列聚类算法相比,所提方法在DNA序列和语音序列等具有较多符号的实际数据上,有效提高聚类精度的同时降低聚类时间50%以上。  相似文献   

5.
基于物质分类的频域体绘制算法   总被引:5,自引:1,他引:4  
本文提出了一种新的频域体绘制算法,与以前的频域体绘制(FVR-Frequency domain Volume Rendering)算法不同的是,该算法借鉴并引入了传统空域绘制算法中普遍采用分类过程,从而使得生成的图象更加接近于空域方法的结果,在些算法的基础上,文中又提出了一种在图象效果上类似于传统空域面绘制算法的方法。该方法通过频域重采样过程中运用Laplace算子,使得数据场的三维物质边界面得到  相似文献   

6.
在时间序列的GMBR表示的基础上,首次提出将基于距离和基于密度的时间序列检测方法结合,给出了时间序列模式异常的定义,并用“异常特征值”来衡量时间序列模式的异常程度.根据所提出的模式异常的定义,在强力搜索算法的基础之上提出了新的时间序列异常检测算法GMBR-DD (Grid Minimum Bounding Rectangle-Discords Detect),该算法将基于距离和基于密度的异常检测方法结合,能够高效地发现时间序列中的异常模式.通过三组实验数据,对提出的异常时间序列定义和时间序列的异常检测算法进行了验证,实验结果表明所提出的时间序列异常检测算法能够有效地发现时间序列的异常变动,为决策提供了很好的平台和有力的工具.  相似文献   

7.
在时间序列相似性的研究中,通常采用的欧氏距离及其变形无法对在时间轴上发生伸缩或弯曲的序列进行相似性度量,本文提出了一种基于分段极值DTW距离的时间序列相似性度量方法可以解决这一问题。在动态时间弯曲(DTW)距离的基础上,本文定义了序列的分段极值DTW距离,并阐述了其完整的算法实现。与传统的DTW距离相比,分段极值DTW距离在保证度量准确性的同时大大提高了相似性计算的效率。文中最后运用MATLAB作对比实验,并给出实验结果数据,验证了该度量方法的有效性与准确性。  相似文献   

8.
本文讨论了空值环境下的NFD-NMVD混合强保持依赖基的定义和求解算法,并讨论了算法的有效性完备性,给出了NFD-NMVD混合推导公理,强保持集属性闭包的求解算法,从而解决了NFD-NMVD混合情况下的强保持逻辑蕴涵问题。  相似文献   

9.
时间序列数据的特征表示方法是时间序列数据挖掘任务的关键技术,符号聚合近似表示(SAX)是特征表示方法中比较常用的一种。针对SAX算法在各序列段表示符号一致时无法区分时间序列间的相似性这一缺陷,提出了一种基于始末距离的时间序列符号聚合近似表示方法(SAX_SM)。由于时间序列有很强的形态趋势,因此文中提出的方法选用起点和终点来表示各个序列段的形态特征,并使用各序列段的形态特征和表示符号来近似表示时间序列数据,以将其从高维空间映射到低维空间;然后,针对起点和终点构建始末距离来计算两序列段间的形态距离;最后, 结合 始末距离和符号距离定义一种新的距离度量方式,以更客观地度量时间序列间的相似性。理论分析表明,该距离度量满足下界定理。在20组UCR时间序列数据集上的实验表明,所提SAX_SM方法在13个数据集中获得了最高的分类准确率(包含并列最大的),而SAX只在6个数据集中获得了最高的分类准确率(包含并列最大的),因此SAX_SM具有比SAX更优的分类效果。  相似文献   

10.
魏池璇  王志海  原继东  林钱洪 《软件学报》2022,33(12):4411-4428
对于许多实际应用来说,获取多个不同窗口尺度上的模式,有助于发现时间序列的不同规律性特征.同时,通过对时间序列时域和频域两方面的分析,有助于挖掘更多的知识.提出了一种新的基于可变尺度的时域频域辨别性特征挖掘方法以及应用于分类的算法.主要采用了不同尺度窗口、符号聚合近似技术以及符号傅里叶近似技术等,以有效地发掘时间序列不同尺度时域频域模式;与此同时,使用统计学方法挖掘部分最具辨别性的特征用于时间序列分类,有效地降低了算法时间复杂度.在多个数据集上的对比实验结果,说明了该算法具有较高的准确率;在真实数据集上的解析,表明了该算法具有更强的可解释性.同时,该算法可扩展应用到多维时间序列分类问题中.  相似文献   

11.
Dynamic time warping (DTW), which finds the minimum path by providing non-linear alignments between two time series, has been widely used as a distance measure for time series classification and clustering. However, DTW does not account for the relative importance regarding the phase difference between a reference point and a testing point. This may lead to misclassification especially in applications where the shape similarity between two sequences is a major consideration for an accurate recognition. Therefore, we propose a novel distance measure, called a weighted DTW (WDTW), which is a penalty-based DTW. Our approach penalizes points with higher phase difference between a reference point and a testing point in order to prevent minimum distance distortion caused by outliers. The rationale underlying the proposed distance measure is demonstrated with some illustrative examples. A new weight function, called the modified logistic weight function (MLWF), is also proposed to systematically assign weights as a function of the phase difference between a reference point and a testing point. By applying different weights to adjacent points, the proposed algorithm can enhance the detection of similarity between two time series. We show that some popular distance measures such as DTW and Euclidean distance are special cases of our proposed WDTW measure. We extend the proposed idea to other variants of DTW such as derivative dynamic time warping (DDTW) and propose the weighted version of DDTW. We have compared the performances of our proposed procedures with other popular approaches using public data sets available through the UCR Time Series Data Mining Archive for both time series classification and clustering problems. The experimental results indicate that the proposed approaches can achieve improved accuracy for time series classification and clustering problems.  相似文献   

12.
Chen  Haiyan  Du  Jinghan  Zhang  Weining  Li  Bohan 《Multimedia Tools and Applications》2020,79(19-20):13481-13499

Symbolic approximation representation is a key problem in time series which can significantly affect the accuracy and efficiency of data mining. However, since currently used methods divide the original sequence into segments with equal size, they ignore one of the most important features of time series: the trend. To overcome the defect of equal-sized segmenting, we present a trend segmentation representation based on Iterative End Point Fitting algorithm (IEPF-TSR). Particularly, we use iterative end point fitting (IEPF) algorithm to search the break point of each segment and get the trend segmentation. Then a triplet based symbolic representation is proposed for each segment which includes the start point, mean and trend. Moreover, we define a new distance measure method based on trend segmentation representation (TSR-DIST) which can suit for two representations with different lengths, and prove it to be the lower bound of Euclidean distance. The experimental results on UCR datasets show that the proposed representation and distance measure achieve better performance than the state-of-the-art methods in the classification accuracy and the dimensionality reduction ratio.

  相似文献   

13.
一种时序数据的离群数据挖掘新算法   总被引:11,自引:0,他引:11  
离群数据挖掘是数据挖掘的重要内容,针对时序数据进行离群数据挖掘方法的研究。首先通过对时序数据进行离散傅立叶变换将其从时域空间变换到频域空间,将时序数据映射为多维空间的点,在此基础上,提出一种新的基于距离的离群数据挖掘算法。对某钢铁企业电力负荷时序数据进行仿真实验,结果表明了算法的有效性。  相似文献   

14.
Hailin Li  Chonghui Guo 《Knowledge》2011,24(4):492-500
Many researchers focus on dimensionality reduction techniques for the efficient data mining in large time series database. Meanwhile, corresponding distance measures are provided for describing the relationships between two different time series in reduced space. In this paper, we propose a novel approach which we call piecewise cloud approximation (PWCA) to reduce the dimensionality of time series. This representation not only allows dimensionality reduction but also gives a new way to measure the similarity between time series well. Cloud, a qualitative and quantitative transformation model, is used to describe the features of subsequences of time series. Furthermore, a new way to measure the similarity between two cloud models is defined by an overlapping area of their own expectation curves. We demonstrate the performance of the proposed representation and similarity measure used in time series mining tasks, including clustering, classification and similarity search. The results of experiments indicate that PWCA is an effective representation for time series mining.  相似文献   

15.
一种时间序列快速分段及符号化方法   总被引:1,自引:0,他引:1  
任江涛  何武  印鉴  张毅 《计算机科学》2005,32(9):166-169
作为一类重要的复杂类型数据,时间序列已成为数据挖掘领域的热点研究对象之一.针对时间序列的挖掘通常首先需要将时间序列分段并转变为种类有限的符号序列,以利于进一步进行时间序列模式挖掘.针对当前的时间序列分段方法复杂度较大,效率不高等问题,本文提出了一种简单高效的基于拐点检测的时间序列分段方法,并且采用动态时间弯曲度量计算不等长子序列的相异度,最后运用层次化聚类算法实现子序列的分类及符号化.实验表明,本文所提出的方法切实可行,实验结果具有较为明显的物理意义.  相似文献   

16.
刘帅  刘长良  甄成刚 《计算机应用》2019,39(4):1229-1233
针对风电机组故障预警中,原始动态时间规整(DTW)算法无法有效度量风电机组多变量时间序列数据之间距离的问题,提出一种基于犹豫模糊集的动态时间规整(HFS-DTW)算法。该算法是原始DTW算法的一种扩展算法,可对单变量和多变量时间序列数据进行距离度量,且精度与速度较原始DTW算法更优。以子时间序列相似度距离为目标函数,使用帝国竞争算法(ICA)优化了HFS-DTW算法中的子序列长度和步距参数。算例研究表明与仅DTW算法和非参数最优的HFS-DTW算法相对比,参数最优的HFS-DTW可挖掘更多的多维特征点信息,输出的多维特征点相似序列具有更丰富细节;且基于所提算法可提前10天预警风电机组齿轮箱故障。  相似文献   

17.
一种数据流中的频繁模式挖掘算法   总被引:1,自引:0,他引:1  
朱琼  施荣华 《计算机应用》2008,28(6):1463-1466
时序数据流的无限性、流动性和不规则性使得传统的频繁模式挖掘算法难以适用。针对时序数据流的特点,提出了一类特殊非规则数据流频繁模式挖掘的新算法。新算法采用时序数据分段的思想,逐段挖掘局部频繁模式,然后依据局部频繁模式有效地挖掘出所有的全局频繁模式。将新算法应用于电信领域的收入保障项目之中,结果表明,新算法具有良好的性能,能有效发现挖掘时序数据流中的频繁模式。  相似文献   

18.
基于时间序列的模式表示挖掘频繁子模式   总被引:1,自引:0,他引:1  
论文提出了一种基于时间序列的模式表示挖掘时间序列中频繁子模式的算法(TSFSM)。时间序列的模式表示本身就具有压缩数据、保持时间序列基本形态的功能,并且具有一定的除噪能力。在时间序列的模式表示的基础上挖掘其频繁子模式,可以大大提高挖掘的效率和准确性,达到事半功倍的效果。在该算法中,还使用了一定的剪枝策略,使得算法的时间复杂度进一步降低。并且该算法计算简单,实现方便,可以支持时间序列的动态增长。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号