首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
陆怡  王鹏  汪卫 《计算机工程》2022,48(10):88-94
时间序列是对某个事物或系统进行连续同间隔测量得到的数值序列,挖掘时间序列中潜在的语义信息对于发现系统运行规律或识别系统突发异常至关重要,然而目前多数时间序列语义挖掘算法对于时间序列数据特征有一定的约束条件,难以处理海量且特征各异的时间序列数据。针对该问题,提出一种基于子序列相似性的时间序列语义挖掘算法。通过计算子序列的相似性,将时间序列分割成片段序列进行两级聚类,识别出时间序列中潜在的物理状态。引入基于概率的迭代模式,根据候选分段情况动态调整子序列被选为参考子序列的概率,保证参考子序列涵盖全部物理状态。实验结果表明,该算法在PAMAP、Barbet等5个真实数据集上的识别准确率均超过90%,相比于FLUSS、pHMM、AutoPlait算法具有更高的识别准确率与运行效率以及更强的通用性。  相似文献   

2.
谢挺  楼巍 《微计算机信息》2006,22(27):254-256
贸易数据是按时间记录下的、不断更新中的海量数据。首先引入时间序列模式的概念,分析了时间序列的本质问题;其次改进了AprioriAll算法挖掘贸易序列数据库的有用序列模式;然后使用离散傅里叶变换子序列相似性查找的方法,将现有序列与挖掘到的感兴趣的序列模式进行子序列匹配,得到有用的知识;最后结合实际情况,合理搭建系统平台,将改进的算法应用在该平台之下得到满意的效果。  相似文献   

3.
时间序列序列模式的相似性研究   总被引:1,自引:1,他引:0  
林殉  李志蜀  周勇 《计算机科学》2011,38(9):245-247
时间序列序列模式相似性的度量是从时间序列中获取时序关联规则的重要环节。一般情况下,距离度量法只能度量相同长度序列模式的相似性。借用动态时间弯曲距离的思想,这种基于非线性弯曲技术的算法可以获得很高的识别、匹配精度。在定义元模式相似性的基础上,定义了序列模式的动态时间弯曲距离,最后用两个不同时间序列进行仿真实验,可以得到不同长度的序列的相似度。  相似文献   

4.
时间序列的模糊匹配方法   总被引:1,自引:0,他引:1  
一个时间序列可以定义为一系列的数值,每一个数值代表一个时间点的值。在数据库和数据仓库应用中,时间序列数据是一类非常重要的数据类型。时间序列的相似性的判定,有基于欧几里得距离的判定方法和包络线方法。欧几里得距离方法对序列中的噪声很敏感,而且欧几里得距离随着序列长度的增加而变大。Rakesh Agrawal等所提出的方法,是将匹配的子序列按顺序连接来判定两个序列的相似性,如果一个子序列落入另一个子序列的包络线区间内(如图1),那么认为这两个于序列是匹配的,例外的数据被忽略,该方法的本质是在两个序列中包含一定比率的相匹配的子序列。该方法避免了欧几里得距离的缺点,任意长度序列的相似性的判定使用统一的标准。但是相似性的判定在包络线边界处发生了突变。  相似文献   

5.
提出了新的混合图的同构判定算法.该算法通过考察图的n点连通子图的度序列对混合图进行同构判定,适合计算机并行处理.实验表明这种方法在多数情况下快捷有效.  相似文献   

6.
基于时间序列的模式表示挖掘频繁子模式   总被引:1,自引:0,他引:1  
论文提出了一种基于时间序列的模式表示挖掘时间序列中频繁子模式的算法(TSFSM)。时间序列的模式表示本身就具有压缩数据、保持时间序列基本形态的功能,并且具有一定的除噪能力。在时间序列的模式表示的基础上挖掘其频繁子模式,可以大大提高挖掘的效率和准确性,达到事半功倍的效果。在该算法中,还使用了一定的剪枝策略,使得算法的时间复杂度进一步降低。并且该算法计算简单,实现方便,可以支持时间序列的动态增长。  相似文献   

7.
时间序列相似性定义延拓   总被引:1,自引:0,他引:1       下载免费PDF全文
时间序列相似性定义没有一个明确的、统一的表述方法,造成了研究上的困难。将研究序列分解为多个与参照序列等维的子序列,把问题转化为研究子序列与参照序列的相似性。选择满足保范同构的线性变换算子对子序列和参照序列进行变换,以降低直接计算的复杂度。利用集合理论对相似关系进行了宏观描述,用子序列与参照序列变换前后向量差的范数定义序列相似性度量函数,将相似性度量进行了统一。研究结果为基于傅立叶变换和小波变换研究时间序列的相似性提供了理论依据。  相似文献   

8.
基于符号化表示的时间序列频繁子序列挖掘   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种新的基于符号化表示的时间序列频繁子序列的挖掘算法。利用基于PAA的分段线性表示法进行降维,通过在高斯分布下设置断点,实现时间序列符号化表示,利用投影数据库挖掘频繁子序列。该算法简单、新颖,运行快速,简化了子序列支持数的计算。  相似文献   

9.
时序规则挖掘   总被引:2,自引:0,他引:2  
王勇  张新政  高向军 《计算机工程》2005,31(23):61-62,69
提出了新颖的时间序列模式和规则挖掘技术。该技术先把待挖掘的时间序列转换成子时间序列数据,然后利用子时间序列所隐藏的知识,来指导对原时间序列的挖掘,从中提取模式或规则。给出了时间序列模式和规则的挖掘算法,并举例说明该算法是有效和可行的。  相似文献   

10.
为视频序列匹配提出一个高效精确的最大公共子序列(Efficient and Effective Longest Common Subsequence,EELCS)算法。首先,利用矢量量化(Vector Quantization,VQ)将多维最大公共子序列算法(Multi-dimensional LCS,MLCS)中元素对匹配过程中的实际距离的计算简化成比较操作,较原始的最大公共子序列匹配算法(Original LCS,OLCS),该处理不仅可以继承MLCS的可应用到实际多维时序匹配问题中的优点,同时大大降低了匹配的复杂度;然后进一步区分待匹配序列中由于匹配子序列和未匹配子序列在时间轴上连续性而产生的差异;最后将该算法应用到视频片段的匹配中。实验结果表明,与具有代表性的基于时间规扭曲的最大公共子序列(Time-Warped LCS,T-WLCS)和连续最大公共子序列(Continuous LCS,CLCS)相比,该算法能较好地应用于视频序列的匹配。  相似文献   

11.
基于交叉覆盖算法的时间序列模式匹配   总被引:7,自引:0,他引:7  
为了有效进行时间序列的匹配,提出了基于交叉覆盖算法的模式匹配方法。首先对时间序列进行预处理,使它们分布在n+1维空间中某个中心在原点的球面上,再通过学习构造分类器,实现序列的准确匹配。主要讨论完全匹配查询,即把两两相似的时间序列分别归类,所以利用交叉覆盖算法准确分类的功能可以完成所探讨的问题。  相似文献   

12.
The goal of analyzing a time series database is to find whether and how frequent a periodic pattern is repeated within the series. Periodic pattern mining is the problem that regards temporal regularity. However, most of the existing algorithms have a major limitation in mining interesting patterns of users interest, that is, they can mine patterns of specific length with all the events sequentially one after another in exact positions within this pattern. Though there are certain scenarios where a pattern can be flexible, that is, it may be interesting and can be mined by neglecting any number of unimportant events in between important events with variable length of the pattern. Moreover, existing algorithms can detect only specific type of periodicity in various time series databases and require the interaction from user to determine periodicity. In this paper, we have proposed an algorithm for the periodic pattern mining in time series databases which does not rely on the user for the period value or period type of the pattern and can detect all types of periodic patterns at the same time, indeed these flexibilities are missing in existing algorithms. The proposed algorithm facilitates the user to generate different kinds of patterns by skipping intermediate events in a time series database and find out the periodicity of the patterns within the database. It is an improvement over the generating pattern using suffix tree, because suffix tree based algorithms have weakness in this particular area of pattern generation. Comparing with the existing algorithms, the proposed algorithm improves generating different kinds of interesting patterns and detects whether the generated pattern is periodic or not. We have tested the performance of our algorithm on both synthetic and real life data from different domains and found a large number of interesting event sequences which were missing in existing algorithms and the proposed algorithm was efficient enough in generating and detecting periodicity of flexible patterns on both types of data.  相似文献   

13.
One of the major duties of financial analysts is technical analysis. It is necessary to locate the technical patterns in the stock price movement charts to analyze the market behavior. Indeed, there are two main problems: how to define those preferred patterns (technical patterns) for query and how to match the defined pattern templates in different resolutions. As we can see, defining the similarity between time series (or time series subsequences) is of fundamental importance. By identifying the perceptually important points (PIPs) directly from the time domain, time series and templates of different lengths can be compared. Three ways of distance measure, including Euclidean distance (PIP-ED), perpendicular distance (PIP-PD) and vertical distance (PIP-VD), for PIP identification are compared in this paper. After the PIP identification process, both template- and rule-based pattern-matching approaches are introduced. The proposed methods are distinctive in their intuitiveness, making them particularly user friendly to ordinary data analysts like stock market investors. As demonstrated by the experiments, the template- and the rule-based time series matching and subsequence searching approaches provide different directions to achieve the goal of pattern identification.  相似文献   

14.
传统缓存算法存在命中率低、交换率高等问题,且现有缓存算法在分布式大数据存储系统中并不适用,为此提出了一种基于频繁序列挖掘的自适应缓存策略。该方法使用数据挖掘算法挖掘历史访问窗口内的频繁序列,将频繁序列模糊合并后构建匹配模式集合以供查询。当新的访问来临时,将固定访问长度内的子序列与匹配模式集合进行匹配,然后根据匹配结果预取数据,同时结合修改后的S4LRU(4-segmented least recently used)数据结构进行缓存数据换出。在公开的大数据处理trace集上进行了仿真实验,实验结果表明,在不同的缓存大小下,提出算法与现有典型缓存算法相比,平均命中率提高了0.327倍,平均交换率降低了0.33倍,同时具有低开销和高时效的特点。此结果表明,该方法较传统替换算法而言是一个更为有效的缓存策略。  相似文献   

15.
基于极值点特征的时间序列相似性查询方法*   总被引:4,自引:2,他引:2  
为了提高时间序列子序列匹配的准确度和效率,提出了基于极值点特征的时间序列相似性查询方法。首先识别出时间序列中的极值特征点,根据极值点使用多层次极值划分法对长序列进行划分;然后对划分得到的多层次子序列集使用改进的动态时间弯曲方法与查询序列进行相似性匹配;最后找到与查询序列最相似的子序列。实验表明,此方法在保证准确度的情况下大大提高了相似性搜索过程的效率。  相似文献   

16.
Mining asynchronous periodic patterns in time series data   总被引:4,自引:0,他引:4  
Periodicy detection in time series data is a challenging problem of great importance in many applications. Most previous work focused on mining synchronous periodic patterns and did not recognize the misaligned presence of a pattern due to the intervention of random noise. In this paper, we propose a more flexible model of asynchronous periodic pattern that may be present only within a subsequence and whose occurrences may be shifted due to disturbance. Two parameters min/spl I.bar/rep and max/spl I.bar/dis are employed to specify the minimum number of repetitions that is required within each segment of nondisrupted pattern occurrences and the maximum allowed disturbance between any two successive valid segments. Upon satisfying these two requirements, the longest valid subsequence of a pattern is returned. A two-phase algorithm is devised to first generate potential periods by distance-based pruning followed by an iterative procedure to derive and validate candidate patterns and locate the longest valid subsequence. We also show that this algorithm cannot only provide linear time complexity with respect to the length of the sequence but also achieve space efficiency.  相似文献   

17.
李海林  邬先利 《计算机应用》2018,38(11):3204-3210
针对传统异常片段检测方法在处理增量式时间序列时效率低的问题,提出一种基于频繁模式发现的时间序列异常检测(TSAD)方法。首先,将历史输入的时间序列数据进行符号转化;其次,利用符号化特征找出历史序列数据集中的频繁模式;最后,结合最长公共子序列匹配方法度量频繁模式与当前新增加时间序列数据之间的相似度,从而发现新增加数据中的异常模式。与基于滑动窗口预测的水文时间序列异常检测方法(TSOD)和基于扩展符号聚集近似的水文时间序列异常挖掘方法(ESAA)相比,对于实验选择的三种类型的时间序列数据,TSAD的检测率都超过90%;TSOD对规则性较强的序列检测率较高,能达到99%,但对噪声干扰较大的序列检测率较低,对数据偏向性较强;ESAA对三种类型的数据检测率均不超过70%。实验结果表明,TSAD在时间序列异常检测中能够较好地发现异常片段。  相似文献   

18.
Periodicity detection in time series databases   总被引:7,自引:0,他引:7  
Periodicity mining is used for predicting trends in time series data. Discovering the rate at which the time series is periodic has always been an obstacle for fully automated periodicity mining. Existing periodicity mining algorithms assume that the periodicity, rate (or simply the period) is user-specified. This assumption is a considerable limitation, especially in time series data where the period is not known a priori. In this paper, we address the problem of detecting the periodicity rate of a time series database. Two types of periodicities are defined, and a scalable, computationally efficient algorithm is proposed for each type. The algorithms perform in O(n log n) time for a time series of length n. Moreover, the proposed algorithms are extended in order to discover the periodic patterns of unknown periods at the same time without affecting the time complexity. Experimental results show that the proposed algorithms are highly accurate with respect to the discovered periodicity rates and periodic patterns. Real-data experiments demonstrate the practicality of the discovered periodic patterns.  相似文献   

19.
陈新驰  韩建民  贾泂 《计算机工程》2012,38(11):173-176
Aho-Corasick自动机算法在模式匹配失配时,需要多次回溯才转移到有效的后继状态。为此,提出一种快速多模式匹配算法。该算法为每个状态建立失配时的后继指针,在模式匹配失配时,可以通过失配后继指针快速找到有效后继状态,从而避免Aho-Corasick自动机失配时的过多回溯,提高匹配效率。算法在自动机建立时采用动态规划的方法,为每个状态建立匹配长度和匹配量等信息,在模式匹配过程中,基于这些信息统计模式串在主串中的重复次数、最早出现模式串位置等信息。实验结果表明,该算法匹配精确、效率高,且支持在线操作。  相似文献   

20.
针对匿名用户数据的海量性与冗余性等特点,为提高数字证据的用户身份鉴定性能,文章提出基于用户行为模式的匿名数据鉴定方法.首先,文章研究了基于BIDE算法的用户频繁行为模式挖掘方法,为数据鉴定提供了高质量的用户频繁序列行为模式库.然后,采用基于最长公共子序列的相似度方法得到模式综合相似度,全面描述用户数据之间的吻合程度.最...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号