共查询到18条相似文献,搜索用时 156 毫秒
1.
多元时间序列特征降维方法研究 总被引:2,自引:0,他引:2
针对常见的降维方法难以有效地保留多元时间序列主要特征的问题,分析了传统PCA方法在多元时间序列降维中的局限性;提出一种基于共同主成分分析的线性降维方法;把共同主成分与核技巧相结合,通过数学推导,将其拓展为基于共同核主成分分析的非线性降维方法;最后分析两种方法的降维有效性.与传统PCA方法相比,基于共同核主成分分析的降维方法可以表达变量间的非线性关系、能够选取合适的核函数和形状参数,因此降维手段更为灵活、对数据的适应性更强.实验结果表明,本文提出的降维方法能够更有效地对多元时间序列进行降维. 相似文献
2.
基于形态特征的时间序列符号聚合近似方法 总被引:3,自引:0,他引:3
由于形态特征能够较为客观地反映时间序列的变化趋势,在时间序列数据降维过程中,形态特征的提取能够保留较为充分的数据信息,为提高后期的时序数据挖掘的效率提供可靠的保障。文中提出基于形态特征的时间序列符号聚合近似方法,综合考虑分段序列的均值和数据分布的形态特征,并且通过论域转化对它们实现符号转化。在相同的压缩比环境下,与传统符号化表示方法相比,该方法能更好地提供原始时间序列数据信息,进而提高时间序列数据挖掘的效率。 相似文献
3.
4.
多元时间序列具有高噪声、非线性和海量的特点,但传统基于距离的降维方法难以有效的应对噪声带来的子空间偏移和数据的爆炸式增长。在基于角度优化的全局嵌入算法和共同核主成分分析方法的基础上,提出了一种基于角度优化的共同核主成分分析方法,并将该方法依托Hadoop平台进行了并行化改进,有效解决了噪音带来的子空间偏移和海量数据带来的巨大运算量问题。通过实验,对算法的有效性、运行效率及伸缩性进行了验证,结果表明提出的方法可以有效地对含有噪声的多元时间序列进行降维;基于Hadoop平台并行后的方法具有良好的运行效率和伸缩性。 相似文献
5.
数据降维和特征表示是解决时间序列维灾问题的关键技术和重要方法, 它们在时间序列数据挖掘中起基础性作用. 鉴于此, 提出一种新的时间序列数据降维和特征表示方法, 利用正交多项式回归模型对时间序列实现特征提取, 结合特征序列长度对时间序列的拟合分析结果, 运用奇异值分解方法对特征序列进一步降维处理, 进而得到保存大部分信息且维数更低的特征序列. 数值实验结果表明, 新方法可以在维度较低的特征空间下取得较好的数据挖掘聚类和分类效果.
相似文献6.
7.
基于DTW的多元时间序列模式匹配方法 总被引:1,自引:0,他引:1
现有的模式匹配方法难以高效、准确地度量多元时间序列的相似性.本文对多元时间序列进行多维分段拟合,选取各个变量维度上拟合线段的倾斜角和时间跨度作为特征模式,进而提出一种基于DTW的多元时间序列模式匹配方法,并通过实验验证所提方法的有效性.实验结果表明,该模式匹配方法对时间跨度较大且体现一个连续、完整过程的多元时间序列具有较好的匹配效果;对时间跨度较小、体现状态点的多元时间序列也具有一定的匹配能力. 相似文献
8.
由于不确定时间序列的长度很长,并且每个采样点的取值具有不确定性,导致了维度灾难和庞大的可能世界集,给不确定时间序列相似性匹配带来了巨大的困难,因此对不确定时间序列降维是实现对其方便存储、快速查询和相似性匹配的首要任务。不确定时间序列普遍采用小波变换的降维方法,但是该方法没有考虑到采样点之间的相关性。为解决该问题,提出一种基于概率统计和数据相关性的降维方法,该方法将不确定时间序列分为概率维度和时间维度,并分别对两维度进行降维。在时间维度,根据采样点之间的相关性,使用某个采样点代表后续相关度高的采样点;在概率维度,使用大概率点表示相邻的小概率点。实验效果表明:使用该方法对不确定时间序列进行降维后,降维序列可以保持原序列的变化趋势,压缩程度显著,并且可近似地恢复原序列。 相似文献
9.
10.
动态时间弯曲距离能度量不等长的时间序列、且具有较高的匹配精度,因此广泛应用在时间序列模式匹配中。但其计算复杂度较高,制约了在大规模数据集上的应用。为了实现时间序列模式度量结果和计算复杂度的平衡,提出一种基于特征点界标过滤的时间序列模式匹配方法。首先,提出一种特征点界标过滤的特征提取方法,保留时间序列主要特征,压缩时间维度;然后,利用动态时间弯曲距离对特征序列进行相似性度量;最后,在应用数据集上对所提方法进行有效性验证。实验结果表明,所提方法在保证高精度的前提下,能有效降低计算复杂度。 相似文献
11.
一种基于DTW的新型故事时间序列相似性度量方法 总被引:1,自引:0,他引:1
现有时间序列相似性度量方法在进行股市序列相似性分析时,通常忽略成交量等其他重要因素对股价的影响,从而导致序列聚类、分类不精确。针对这一问题,本文提出了新的股市时间序列相似性度量方法。该方法在动态时间弯曲算法的基础上,通过引进时间衰竭因子,并结合成交量因素,给出了股市序列的最终度量公式。为了证明提出方法的可行性和有效性,本文实验部分通过选取家电等三个行业中的股票数据进行测试。实验结果表明,基于动态时间弯曲(Dynamic time warping,DTW)的新型股市时间序列相似性度量方法能够在保持股票序列形态特征的基础上,较好地解决股市技术分析中量价关系问题,从而更有效地应用于股市技术分析里关于模式发现等领域。 相似文献
12.
13.
针对动态时间弯曲方法计算时间过长的问题,提出增量动态时间弯曲来度量较长时间序列之间的相似性。首先利用动态时间弯曲方法对历史时间序列数据进行相似性度量,得到相应的历史最优弯曲路径和路径中各元素的累积距离代价。其次,通过逆向弯曲度量方法完成当前序列数据 的相似性度量,结合历史数据信息找到与历史弯曲路径相交且度量时间序列距离为当前最小值的新路径,进而实现增量动态时间弯曲的相似性度量。该方法不仅具有良好的度量质量,还具有较高的时间效率。数值实验表明,对于大部分时间序列数据集,新方法的分类准确率和计算性能要优于经典动态时间弯曲。 相似文献
14.
时间序列数据挖掘中的动态时间弯曲研究综述 总被引:1,自引:1,他引:0
动态时间弯曲是一种重要的相似性度量方法,对时间序列数据挖掘的性能起着至为关键的作用,对其进行全面和深入的探索具有十分重要的理论意义和实际应用价值.首先简述动态时间弯曲算法的基本步骤,并分析其优点和存在的不足;然后,从动态时间弯曲度量效率的改进研究、度量效果的提升措施以及其在各个行业的应用研究等进行相关综述;最后,给出动态时间弯曲的进一步研究方向.通过对动态时间弯曲方法相关综述及分析,能为相似性度量、聚类和分类等时间序列数据挖掘技术提供必要的文献资料和理论基础. 相似文献
15.
基于分段时间弯曲距离的时间序列挖掘 总被引:22,自引:1,他引:22
在时间序列库中的数据挖掘是个重要的课题,为了在挖掘的过程中比较序列的相似性,大量的研究都采用了欧氏距离度量或者其变形,但是欧氏距离及其变形对序列在时间轴上的偏移非常敏感.因此,采用了更鲁棒的动态时间弯曲距离,允许序列在时间轴上的弯曲,并且提出了一种新的序列分段方法,在此基础上定义了特征点分段时间弯曲距离.与经典时间弯曲距离相比,大大提高了效率,而且保证了近似的准确性. 相似文献
16.
鉴于传统方法不能直接有效地对多元时间序列数据进行聚类分析,提出一种基于分量属性近邻传播的多元时间序列数据聚类方法.通过动态时间弯曲方法度量多元时间序列数据之间的总体距离,利用近邻传播聚类算法分别对数据之间的总体距离矩阵和分量近似距离矩阵进行聚类分析,综合考虑这两种视角下序列数据之间的关联关系,使用近邻传播方法对反映原始多元时间序列数据的综合关系矩阵实现较高质量的聚类.数值实验结果表明,与传统聚类方法相比,所提出方法不仅能够有效地反映总体数据特征之间的关系,而且通过重要分量属性序列之间的关联关系分析能够提高原始时间序列数据的聚类效果. 相似文献
17.
相似性搜索在股票交易行情、网络安全、传感器网络等众多领域应用广泛.由于这些领域中产生的数据具有无限的、连续的、快速的、实时的特性,所以需要适合数据流上的在线相似性搜索算法.首先,在具有或不具有全局约束条件下,分别提出了没有索引结构的DTW(dynamic time warping)下限函数LB_seg_WFglobal和LB_seg_WF,它们是一种分段DTW技术,能够处理数据流上的非等长序列间在线相似性匹配问题.然后,为了进一步提高LB_seg_WFglobal和LB_seg_WF的近似程度,提出了一系列的改进方法.最后,针对流上使用LB_seg_WFglobal或LB_seg_WF可能会出现连续失效的情况,分别提出了DTW的下限函数LB_WFglobal(具有全局约束条件)和上限函数UB_WF、下限函数LB_WF(不具有全局约束条件).通过增量方式快速估计DTW,极大地减少了估计DTW的冗余计算量.通过理论分析和统计实验,验证了该方法的有效性. 相似文献
18.
现有的索引结构难以有效地支持DTW距离度量下的多元时间序列相似性搜索.首先给出一种将不等长多元时间序列转换为等长一元时间序列的方法,并证明这种转换满足下界距离引理;以此为基础,提出一种多元时间序列的DTW下界距离,并对其性质进行分析;然后,针对给出的下界距离,提出一种支持DTW距离度量的多元时间序列索引结构,对多元时间序列数据库进行有效组织;再给出多元时间序列相似模式搜索算法及流程,并证明该搜索方法具有非漏报性;最后,通过实验对所提方法的有效性进行验证. 相似文献