共查询到20条相似文献,搜索用时 31 毫秒
1.
基于斜率表示的时间序列相似性度量方法 总被引:5,自引:0,他引:5
时间序列相似性搜索是数据挖掘领域的一个热点研究方向,相似性距离度量方法是其中的一个重要问题.针对含有大量噪声并存在数据缺失的高维多元时间序列数据,本文提出一种基于斜率表示的时间序列相似性度量方法.该方法是在线性分段的基础上,对两个序列间的斜率差进行加权,因而物理概念更为明确.文中还证明斜率距离完全满足相似性度量的基本准则.实例证明了算法的有效性. 相似文献
2.
时间序列的相似性度量是时间序列数据挖掘的研究基础,为数据挖掘任务的效率和准确度提供可靠的保障。提出一种时间序列的层次分段及相似性度量方法,方法首先识别时间序列中的极值点,依据极值点的特征对时间序列进行分层次分段,并以此为基础,通过定义新的距离公式来度量时间序列间的相似性。使用新提出的相似性度量方法对时间序列进行聚类计算,实验结果表明,该方法能够有效地度量时间序列间的相似性,聚类效果明显,具有较好的实用性和良好的应用前景。 相似文献
3.
4.
5.
基于时间序列相似性聚类的应用研究综述 总被引:3,自引:1,他引:3
在综合分析近年来时间序列数据挖掘相关文献的基础上从时间序列分割、相似性度量、时间序列聚类等方面对时间序列数据挖掘进行了综述,简要分析了基于时间序列相似性聚类的研究现状,对比较流行的算法进行了比较分析,对当前一些未解决的问题进行了简要介绍,并在此基础上对未来的发展趋势进行了展望,为研究者了解最新的基于时间序列相似性聚类研究动态、新技术及发展趋势提供了参考. 相似文献
6.
时间序列形态相似性挖掘是目前时间序列数据挖掘研究的热点,然而由于时间序列数据背后真实系统的复杂性,加上观测条件的影响,时间序列会呈现多种相似性变形,如振幅伸缩、振幅漂移、线性漂移等。相似性变形并不会改变序列的形态特征,但现有的ED、DTW和Lp距离等相似性度量算法均不能有效支持识别各类相似性变形。本文首次提出涨落模式(FP)的概念,以涨落模式保存原序列的趋势变化信息,利用最长公共子序列算法计算涨落模式的相似度,消除振幅伸缩、振幅漂移和线性漂移等对相似性挖掘带来的影响,实现基于涨落模式的时间序列相似性度量。设置仿真数据集检验FP相似性度量的相似性变形支持性,同时在真实数据集上进行分类,依据分类准确性对算法鲁棒性进行评估,验证了本文提出的基于涨落模式的相似性度量算法在各类相似性形变上的有效支持性。 相似文献
7.
针对数据挖掘领域中时间序列的相似性度量问题,提出一种斜率复合偏离距离方法。以大量噪声的高维多元时间序列数据为目标,提出了一种基于斜率偏离度的时间序列相似性度量方法。该方法主要是在分段线性的基础上,基于角度和斜率进行偏离度计算,解决普通斜率距离度量的局限性,物理意义更为明确,实际度量更为准确。证明了斜率复合偏离的完备性和连续性,最后用仿真算例对算法的有效性进行了验证。 相似文献
8.
时间序列相似性度量在挖掘时间序列模式,提取时间序列关联关系上发挥着重要作用。分析了当前主流的时间序列相似性度量算法,分别指出了各度量算法在度量时序数据相似性时存在的缺陷,并提出了基于数学形态学的时间序列相似性度量算法。通过将归一化的时间序列二值图像化表示,再引入了图像处理领域中的膨胀、腐蚀操作对时序数据进行形态变换分析,提高相似时序数据部分的抗噪性,同时又不降低时序数据非相似部分间的差异度,实现时序数据相似性度量分类精度的提高。在八种时间序列测试数据集合上进行分类实验,实验结果表明提出的基于数学形态学的时间序列相似性度量算法在时间序列分类精度上得到有效改善,相比于DTW相似性度量算法,分类精度平均水平提升了8.74%,最高提升20%。 相似文献
9.
10.
从应用角度对时间序列数据挖掘中的关键技术-相似性度量-进行了研究。实现了对时间序列的分段线性表示,并将其用于当前主要的几种时间序列距离度量算法。通过将各距离度量算法用于股票收盘数据分析实验,得出实验数据。通过对实验结果的分析并结合各算法的原理,对各方法的适用情况和执行效率进行了分析及比较。通过分析可知,每种算法有自己的特点及适用情况。对于实际应用,应根据实际需求选择合适的距离度量算法。 相似文献
11.
时间序列数据挖掘中的动态时间弯曲研究综述 总被引:1,自引:1,他引:0
动态时间弯曲是一种重要的相似性度量方法,对时间序列数据挖掘的性能起着至为关键的作用,对其进行全面和深入的探索具有十分重要的理论意义和实际应用价值.首先简述动态时间弯曲算法的基本步骤,并分析其优点和存在的不足;然后,从动态时间弯曲度量效率的改进研究、度量效果的提升措施以及其在各个行业的应用研究等进行相关综述;最后,给出动态时间弯曲的进一步研究方向.通过对动态时间弯曲方法相关综述及分析,能为相似性度量、聚类和分类等时间序列数据挖掘技术提供必要的文献资料和理论基础. 相似文献
12.
从应用角度对时间序列数据挖掘中的关键技术一相似性度量一进行了研究。实现了对时间序列的分段线性表示,并将其用于当前主要的几种时间序列距离度量算法。通过将各距离度量算法用于股票收盘数据分析实验,得出实验数据。通过对实验结果的分析并结合各算法的原理,对各方法的适用情况和执行效率进行了分析及比较。通过分析可知,每种算法有自己的特点及适用情况。对于实际应用,应根据实际需求选择合适的距离度量算法。 相似文献
13.
相异性或相似性度量是数据挖掘领域中的2个基本问题。针对时间序列的相异性度量问题,给出时间序列的区域半径、区域极值点、区域等定义,提出一种区域极值点提取策略。通过提取有代表性的极值点以起到对时间序列数据约简和压缩的作用,进一步定义时间序列的动态时间弯曲距离度量其相异性。以此为基础提出一种新的时间序列层次聚类算法。仿真实验结果表明,与时间序列趋势特征提取等算法相比,该算法在数据的压缩效果和聚类准确率方面均有明显提高。 相似文献
14.
时间序列相似性定义没有一个明确的、统一的表述方法,造成了研究上的困难。将研究序列分解为多个与参照序列等维的子序列,把问题转化为研究子序列与参照序列的相似性。选择满足保范同构的线性变换算子对子序列和参照序列进行变换,以降低直接计算的复杂度。利用集合理论对相似关系进行了宏观描述,用子序列与参照序列变换前后向量差的范数定义序列相似性度量函数,将相似性度量进行了统一。研究结果为基于傅立叶变换和小波变换研究时间序列的相似性提供了理论依据。 相似文献
15.
16.
17.
时间序列数据挖掘中特征表示与相似性度量研究综述 总被引:2,自引:1,他引:1
分别分析了时间序列特征表示和相似性度量在数据挖掘中的作用和意义,对目前已有的主要方法进行了综述,分析各自存在的优缺点;同时,探讨了将来值得关注的问题,为进一步研究时间序列数据的特征表示和相似性度量提供了方向。 相似文献
18.
19.
《计算机应用与软件》2017,(9)
时间序列的特征表示与相似性度量是时间序列数据挖掘的重要基础。针对现有的序列表示方法难以具体反映序列的形态变化趋势,导致相似度量结果不精确的问题,提出一种新的基于形态模式的相似性度量算法。该算法在分段线性表示的基础上,根据序列在不同时段的斜率变化情况,划分序列的分段形态模式并用特殊的字符进行表示,把时间序列转换成字符串序列,利用最长公共子序列方法计算字符串序列的距离作为时间序列之间的距离。最后通过实验验证该方法的有效性。理论分析和实验证明该方法对数据点的值不敏感,能够减少噪声的干扰,而且具有较高的准确性。 相似文献
20.
基于SAX方法的股票时间序列数据相似性度量方法研究 总被引:2,自引:0,他引:2
特定数据集上高效的相似性度量方法是目前时间序列数据挖掘领域研究的重点内容之一。针对经过SAX方法降维后的股票数据在相似性度量中缺乏趋势变化的动态信息这一问题,本文提出了一种融合了点距离与模式距离优点的新型相似性度量函数——复合距离函数,并通过实证分析验证了该距离函数在相似性度量中的有效性,为揭示股票数据间相互依赖的规律以及时间序列相似性问题的进一步研究提供了新思路。 相似文献