共查询到20条相似文献,搜索用时 203 毫秒
1.
现有的时间序列分段线性表示一般把局部极值点作为分段点,但是局部极值点并不能完全刻画时间序列的状态变化,根据时间序列线性分段的基本思想,提出在确定局部极值点的基础上引入斜率差值大的分段点,以便得到较高的拟合精度。新的分段点通过比较相邻序列段的斜率实现,斜率差值越大,该点的状态改变越明显。实验证明该方法拟合误差小,有很好的实用性。 相似文献
2.
3.
基于变化点的时间序列近似表示 总被引:1,自引:0,他引:1
时间序列的近似表示能够提高时间序列数据挖掘的效率和可靠性。提出了一种基于变化点的时间序列近似表示,具有简单直观、近似质量高、适应能力强等优点。在来自不同领域的真实数据集上的实验表明:与时间序列的重要点分段表示和分段常量表示相比,基于变化点的时间序列近似表示在近似质量和适应能力上都具有明显的优势。 相似文献
4.
分段线性表示是时间序列降维的有效方法。在总结分析序列趋势变化特点的基础上,提出了一种基于趋势转折点的时间序列分段线性表示算法。首先定义了趋势转折点作为时间序列分段点的备选集,以点到区域的距离度量趋势转折点的重要性,再根据给定的阈值选择重要趋势转折点作为分段点,对时间序列进行分段线性表示。通过与其他6种方法进行实验比较,结果表明:所提方法在具有较好的拟合质量和适应能力以及对转折点明显的序列,都表现出较强的抗噪声干扰能力。 相似文献
5.
时间序列数据的分段线性表示 总被引:2,自引:0,他引:2
在时间序列分段线性表示(PLR)基础上,提出一种新的基于特征点的分段方法,克服采用单一误差算法的模型失配问题,更加准确地反映过程状态的变化. 相似文献
6.
针对目前的时间序列线性表示方法多采用启发式方法提取局部特征点作为分段点,容易陷入局部最优化,不能很好地表示时间序列全局特征,而且多采用单一的拟合误差作为阈值,不能准确预计分段数量,不利于后期进行的时间序列分析应用的问题。提出了一种新的固定分段数的表示方法--PLR_BTBU,首先根据二叉树层次遍历的思想,提取时间序列全局特征点将时间序列初始分段,再通过斜率变化特征将整个时间序列符号化,以各初始分段内的符号特征来确定各初始分段中的分段点分布,最后采用一种改进的固定分段数的自底向上融合算法,将各个子序列逐步融合到要求的分段数。实验结果表明,与已有的方法相比,该方法不仅较好地保留时间序列的全局特征,而且拟合后的时间序列和原时间序列之间的拟合误差更小。 相似文献
7.
从石油录井色谱数据应用的实际需求出发,提出一种新的时间序列分段拟合算法。该算法通过一次扫描数据,根据中线距离阈值和非单调序列中极值点保持时间段阈值两个约束条件,选择反映序列趋势变化的关键点,然后线性拟合时间序列。实验结果表明该算法能够在保持原始序列主要形态的同时剔除噪音干扰,精确定位单调序列中的突变转折点,发现序列中的尖峰状态。 相似文献
8.
分段线性表示是时间序列降维的有效方法,其关键在于分割点的确定。在时间序列分段线性表示的基础上,提出一种新的基于重要点的时间序列分割方法。与一般方法比较相邻三点关系不同的是,将时间窗扩展为前一重要点、待考察点和一个指定时间窗组成的区间,再通过比较数据点前后模式变化来确定重要点。通过与其他7种分割方法进行实验比较,证明该方法适应能力强,不但分割结果总体质量高,在压缩率相同时具有更小的拟合误差,而且能够有效滤除噪声,发现时间序列的模式特征。 相似文献
9.
10.
基于重要点的时间序列线性分段算法能在较好地保留时间序列的全局特征的基础上达到较好的拟合精度。但传统的基于重要点的时间序列分段算法需要指定误差阈值等参数进行分段,这些参数与原始数据相关,用户不方便设定,而且效率和拟合效果有待于进一步提高。为了解决这一问题,提出一种基于时间序列重要点的分段算法——PLR_TSIP,该方法首先综合考虑到了整体拟合误差的大小和序列长度,接着针对优先级较高的分段进行预分段处理以期找到最优的分段;最后在分段时考虑到了分段中最大值点和最小值点的同异向关系,可以一次进行多个重要点的划分。通过多个数据集的实验分析对比,与传统的分段算法相比,减小了拟合误差,取得了更好的拟合效果;与其他重要点分段算法相比,在提高拟合效果的同时,较大地提高了分段效率。 相似文献
11.
Xiang Lian Lei Chen 《Knowledge and Data Engineering, IEEE Transactions on》2009,21(11):1544-1558
Similarity join (SJ) in time-series databases has a wide spectrum of applications such as data cleaning and mining. Specifically, an SJ query retrieves all pairs of (sub)sequences from two time-series databases that epsiv-match with each other, where epsiv is the matching threshold. Previous work on this problem usually considers static time-series databases, where queries are performed either on disk-based multidimensional indexes built on static data or by nested loop join (NLJ) without indexes. SJ over multiple stream time series, which continuously outputs pairs of similar subsequences from stream time series, strongly requires low memory consumption, low processing cost, and query procedures that are themselves adaptive to time-varying stream data. These requirements invalidate the existing approaches in static databases. In this paper, we propose an efficient and effective approach to perform SJ among multiple stream time series incrementally. In particular, we present a novel method, Adaptive Radius-based Search (ARES), which can answer the similarity search without false dismissals and is seamlessly integrated into SJ processing. Most importantly, we provide a formal cost model for ARES, based on which ARES can be adaptive to data characteristics, achieving the minimum number of refined candidate pairs, and thus, suitable for stream processing. Furthermore, in light of the cost model, we utilize space-efficient synopses that are constructed for stream time series to further reduce the candidate set. Extensive experiments demonstrate the efficiency and effectiveness of our proposed approach. 相似文献
12.
13.
Among the major challenges in the realization of practical health monitoring systems is the identification of short-duration events from larger signals. Time-series segmentation refers to the challenge of subdividing a continuous stream of data into discrete windows, which are individually processed using statistical classifiers to recognize various activities or events. In this paper, we propose a probabilistic algorithm for segmenting time-series signals, in which window boundaries are dynamically adjusted when the probability of correct classification is low. Our proposed scheme is benchmarked using an audio-based nutrition-monitoring case-study. Our evaluation shows that the algorithm improves the number of correctly classified instances from a baseline of 75%–94% using the RandomForest classifier. 相似文献
14.
The article considers the problem of detection and recognition of technological events and oil reception-delivery object states
on the base of the analysis of the time-series describing the processes on the object is. Step-by-step, the tasks of preprocessing
raw data, segmenting time-series, data clusterization and classification as well as neural net committee building for the
object condition diagnosing within the scope of Data Mining strategy are resolved. 相似文献
15.
基于时间序列相似性聚类的应用研究综述 总被引:3,自引:1,他引:3
在综合分析近年来时间序列数据挖掘相关文献的基础上从时间序列分割、相似性度量、时间序列聚类等方面对时间序列数据挖掘进行了综述,简要分析了基于时间序列相似性聚类的研究现状,对比较流行的算法进行了比较分析,对当前一些未解决的问题进行了简要介绍,并在此基础上对未来的发展趋势进行了展望,为研究者了解最新的基于时间序列相似性聚类研究动态、新技术及发展趋势提供了参考. 相似文献
16.
17.
Andy Song Feng Xie Vic Ciesielski 《Soft Computing - A Fusion of Foundations, Methodologies and Applications》2016,20(10):3915-3925
A state in time series is time series data stream maintaining a certain pattern over a period of time, for example, holding a steady value, being above a certain threshold and oscillating regularly. Automatic learning and discovery of these patterns of time series states can be useful in a range of scenarios of monitoring and classifying stream data, for example, activity recognition based on body sensor readings. In this study, we present our genetic programming (GP)-based time series analysis method on learning various types of states from multi-channel data streams. This evolutionary learning method can handle relatively complex scenarios using only raw input. This method does not require prior knowledge of the relationships between channels. It does not require manually defined feature to be constructed. The evaluation using both artificial and real-world multi-channel time series data shows that this method on raw input can outperform classic learning methods on pre-defined features. The analysis shows patterns can be discovered by the GP method. 相似文献
18.
大数据流的高效存储与索引是当今数据领域的一大难点.面向带有时间属性的数据流,根据其时间属性,将数据流划分为连续的时间窗口,提出了基于双层B+树的分布式索引结构WB-Index.下层B+树索引基于窗口内流数据构建,索引构建过程结合基于排序的批量构建技术,进一步对时间窗口分片,将数据流接收、分片数据排序以及B+树构建并行化,提高了构建性能.上层B+树索引基于各时间窗口构建,结合时间窗口时间戳的递增性和无限性,提出了避免节点分裂的构建方法,减少了B+树分裂移动开销,提高了空间利用率和更新效率.WB-Index架构中,将流数据和索引分离,同时利用内存缓存尽可能多的双层B+索引和热点数据来提高查询性能.理论和实验结果表明,该分布式索引架构能够支持高效的实时数据流写入以及流数据查询,能够很好地应用于具有时间属性的数据流场景. 相似文献
19.
一种数据流中的频繁模式挖掘算法 总被引:1,自引:0,他引:1
时序数据流的无限性、流动性和不规则性使得传统的频繁模式挖掘算法难以适用。针对时序数据流的特点,提出了一类特殊非规则数据流频繁模式挖掘的新算法。新算法采用时序数据分段的思想,逐段挖掘局部频繁模式,然后依据局部频繁模式有效地挖掘出所有的全局频繁模式。将新算法应用于电信领域的收入保障项目之中,结果表明,新算法具有良好的性能,能有效发现挖掘时序数据流中的频繁模式。 相似文献