首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
基于时间序列的模式表示挖掘频繁子模式   总被引:1,自引:0,他引:1  
论文提出了一种基于时间序列的模式表示挖掘时间序列中频繁子模式的算法(TSFSM)。时间序列的模式表示本身就具有压缩数据、保持时间序列基本形态的功能,并且具有一定的除噪能力。在时间序列的模式表示的基础上挖掘其频繁子模式,可以大大提高挖掘的效率和准确性,达到事半功倍的效果。在该算法中,还使用了一定的剪枝策略,使得算法的时间复杂度进一步降低。并且该算法计算简单,实现方便,可以支持时间序列的动态增长。  相似文献   

2.
针对金融时间序列数据库信息,提出一种时间序列频繁模式自动发现算法,该算法首先构造投影树,然后采用深度优先策略遍历投影树,挖掘出所有最长频繁模式,实验结果表明,该算法成功地挖掘出满足约束的频繁序列,在相同条件、不同支持度情况下,取得了与传统AprioriAll方法相同的规则集,而运行效率优于AprioriAll方法。  相似文献   

3.
基于分割模式的时间序列矢量符号化算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对符号化聚合近似算法(SAX)中时间序列必须等长分割的缺陷,提出一种基于分割模式的时间序列符号化算法(SMSAX)。利用三角阈值法对随机抽样的时间序列进行特征提取,计算时间序列最大压缩比,将其作为时间窗宽提取分割点,进而求出时间序列的分割模式。利用得到的分割模式对时间序列进行分割降维,通过均值和波动率对分割后的子序列进行向量符号化。根据时间序列特征对其进行不等长分割,并加入波动率消除奇异点的影响。实验结果表明,SMSAX能获得比SAX更精确的结果。  相似文献   

4.
非同步多时间序列中频繁模式的发现算法   总被引:8,自引:0,他引:8  
从多个时间序列中发现频繁模式在实际应用中具有非常重要的价值.已知文献所提供的方法均假设多时间序列是同步的,但是,在现实世界中,这一条件并不总能满足,许多情况下它们是非同步的.提出了一个从非同步多时间序列中发现频繁模式的算法.该算法首先利用线性化分段表示法和矢量形态聚类实现时间序列的特征分割与符号化转换,然后通过将Agrawal关联模式发现算法的核心思想与时间序列最短实现表示方法相结合,实现了非同步多时间序列中多种结构频繁模式的发掘.与已有算法相比,该算法更简单、更灵活,并且不要求序列严格同步.实验结果证明了该算法的有效性.  相似文献   

5.
到目前为止能够计算字符化时间序列的距离度量的方法很少,为此,提出了一种新的字符化的时间序列表示方法BSAP。该方法既能进行维度约简又允许在符号化后的时间序列表示法上定义距离度量。实验分别在合成数据和实际数据上进行,实验表明该方法具有更高的运算效率且需要较少的空间。  相似文献   

6.
金融时间序列挖掘综合模型   总被引:3,自引:1,他引:2  
时间序列挖掘是数据挖掘的重要组成部分,本文通过对金融数据按地点划分,经过平滑、聚类处理,再对同一类别的各条金融序列分别发现其序列内频繁模式,综合一个得到同类别多条金融时间序列的复合挖掘模型。农业价格时序挖掘实践证明,该金融时间序列挖掘模型利用挖掘出来的知识对金融时间序列趋势进行了定性分析,能有效地指导用户的市场行为,辅助用户决策。  相似文献   

7.
为了减少在序列模式挖掘过程中由于重复运行挖掘算法而产生的时空消耗,提出了一种基于频繁序列树的交互式序列模式挖掘算法(ISPM). ISPM算法采用频繁序列树作为序列存储结构,频繁序列树中存储数据库中满足频繁序列树支持度阈值的所有序列模式及其支持度信息.当支持度发生变化时,通过减少本次挖掘所要构造投影数据库的频繁项的数量来缩减投影数据库的规模,从而减少时空消耗.实验结果表明,ISPM算法在时间性能上优于PrefixSpan算法和Inc-Span算法  相似文献   

8.
提出了一种简单高效的多维离散时间序列符号化方法,该方法用模糊自适应共振理论(Fuzzy ART)对多维时间序列数据进行聚类,实现多维时间序列数据的符号化问题。同时,通过属性相关性预处理分析,过滤掉聚类中不相关或弱相关的属性,保证了聚类算法的准确性,将提出的算法应用于多维交通流数据的符号化,效果很好。  相似文献   

9.
王璐  刘晓清  何震瀛 《计算机工程》2022,48(2):79-85+91
查询文本中频繁出现的短语可快速掌握文本内容,然而传统频繁词序列挖掘算法面向挖掘任务时的时间复杂度较高,无法满足频繁更换查询条件及快速获得反馈的查询需求。利用基于频率树的快速频繁词序列挖掘算法(TS_Mining),在保持后缀树线性构造时间的情况下实现文本集合中频繁词序列的查询,并采用树型索引结构避免多次扫描文本集合,降低算法时间复杂度。针对连续时间区间内的频繁词序列查询问题,提出改进的剪枝挖掘算法(TS_Pruning),通过减少频率树的扫描范围进一步提高挖掘效率。实验结果表明,TS_Mining与TS_Pruning算法的运行时间相比经典Apriori挖掘算法约减少了2个数量级,具有更高的频繁词序列挖掘效率。  相似文献   

10.
通过对移动用户的位置、时间和业务需求信息进行组合分析,设计了一种时间序列移动接入模式的挖掘方法;它可以有效的挖掘出时间频繁序列移动接入模式,有利于业务提供商在相应的时间段和位置重点推广对其敏感的业务;该挖掘方法采用了简洁表头的形式储存位置和业务,数据库可以对其进行快速扫描,降低了内存的使用并提高了效率。  相似文献   

11.
基于闭合有间隔频繁子序列的点击流聚类   总被引:2,自引:0,他引:2       下载免费PDF全文
马超  沈微 《计算机工程》2010,36(23):72-75
对网站日志文件中记录的点击流序列聚类可以发现用户使用模式,从而对用户归类。而传统聚类方法面临着难以提取点击流中有代表性的特征向量以及点击流及其特征向量存在数据稀疏性的问题。针对上述情况,提出一种基于闭合有间隔频繁子序列模式挖掘的点击流聚类方法。该方法从点击流中提取子序列模式的频繁支持度,构建特征向量,利用基于双向映射欧氏距离的模糊距离度量判断向量间相似度,增强BIRCH聚类算法对点击流数据的聚类效果。  相似文献   

12.
Clipping is the process of transforming a real valued series into a sequence of bits representing whether each data is above or below the average. In this paper, we argue that clipping is a useful and flexible transformation for the exploratory analysis of large time dependent data sets. We demonstrate how time series stored as bits can be very efficiently compressed and manipulated and that, under some assumptions, the discriminatory power with clipped series is asymptotically equivalent to that achieved with the raw data. Unlike other transformations, clipped series can be compared directly to the raw data series. We show that this means we can form a tight lower bounding metric for Euclidean and Dynamic Time Warping distance and hence efficiently query by content. Clipped data can be used in conjunction with a host of algorithms and statistical tests that naturally follow from the binary nature of the data. A series of experiments illustrate how clipped series can be used in increasingly complex ways to achieve better results than other popular representations. The usefulness of the proposed representation is demonstrated by the fact that the results with clipped data are consistently better than those achieved with a Wavelet or Discrete Fourier Transformation at the same compression ratio for both clustering and query by content. The flexibility of the representation is shown by the fact that we can take advantage of a variable Run Length Encoding of clipped series to define an approximation of the Kolmogorov complexity and hence perform Kolmogorov based clustering.  相似文献   

13.
张军  马志民 《微机发展》2006,16(1):140-142
基于时间序列的数据挖掘时,一般需要对时间序列离散化,再聚类成不同的子模式。已有的方法常忽略时间序列本身的位置和整体特征,并且计算量大。针对其不足,文中提出一种检索时间序列分段关键点的算法,以关键点为边界分段,使用形态距离测度和快速剪除的算法,高效简便地检索出相似子模式。  相似文献   

14.
聚类是数据挖掘研究中最常见的一种方法,可以作为规则发现、异常发现等其它数据挖掘操作的基础,一直以来都是数据挖掘的研究热点之一。股票数据是一种典型的时间序列数据,利用股票数据进行时间序列数据挖掘的研究既有一定的实际应用价值,也是国内外的热点问题之一。文章首次将一种新型符号化方法SAX[1]应用到标准普尔500指数的股票数据的聚类研究中,使用传统的欧氏距离和动态时间弯曲两种时间序列相似性度量方法进行实验。实验结果表明将SAX应用到股票数据聚类操作,可以得到更好的趋势聚类效果和更高的效率。  相似文献   

15.
基于统计特征的时序数据符号化算法   总被引:9,自引:0,他引:9  
为克服SAX(符号聚合近似)算法对时序信息描述不完整的缺陷,提出基于统计特征的时序数据符号化算法,与SAX不同的是,该算法将时序符号看作矢量,而各时序子段的均值和方差则分别作为描述其平均值及发散程度的分量.由于该算法能够比SAX提供更多的描述信息,因而在时序数据挖掘应用中能够获得比SAX更精确的结果.大量的实验也证实了它的出色表现.  相似文献   

16.
瞿超  刘鸿雁 《微计算机信息》2007,23(33):148-149,162
频繁模式挖掘是数据挖掘中的一个重要部分,现有的模型具有各自的优点,但在智能性方面表现较差。对于已经存在的Agent系统,多数都是以语言的形式进行描述,本文对Agent进行形式上的描述,并应用到数据挖掘的模型中,使其智能性得到提高,并有很高的可移植性。  相似文献   

17.
为了有效地检测发动机试车实验中性能参数发生的异常,提出一种基于时间序列数据挖掘的发动机故障检测方法。通过基于形态特征的时间序列特征表示方法,将发动机参数时 间序列转化为符号序列,再根据符号语义对发动机参数序列实现稳态特征和过渡态特征识别。同时,根据稳态序列的数据特征,利用基于统计特征的时间序列相似性度量结合最不相似模式发现方法实现发动机的故障检测。数值实验结果表明,与传统方法相比,本文方法能够有效地对发动机性能参数进行故障检测,并且具有较强的鲁棒性。  相似文献   

18.
基于小波分析的时间序列数据挖掘模型   总被引:2,自引:0,他引:2  
论文提出一个基于小波分析的时间序列挖掘模型TSMiner,它支持时间序列数据挖掘的整个过程。该模型由5部分组成:原始数据的可视化、数据预处理、数据约简,模式发现和结果模式可视化。该模型应用小波实现数据的多层次可视化表示、数据约简和多尺度模式发现。它可以帮助用户观察高维数据,理解中间结果和解释发现的模式。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号