首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
序列数据相似性查询技术研究综述   总被引:2,自引:0,他引:2  
序列数据在文本、Web访问日志文件、生物数据库等应用中普遍存在,对其进行相似性查询是一种提取有用信息的重要手段.近年来,随着各种科学计算的发展和序列数据的大量产生,序列相似性查询已经成为数据分析领域一个研究热点.其涉及到的几个重要问题有面向各种应用领域的相似性度量及其相互之间的关系;随机序列数据中距离分布的统计信息及其对分析查询算法性能的作用;在大规模数据中,各种高效回答相似性查询的关键技术及各自的优缺点比较.总结了序列数据的分类和特点,给出了几种序列数据相似性度量和随机序列之间距离分布的统计信息,并进一步分析了这些度量之间的关系.接着给出了几种序列相似性查询的类型,以及序列相似性查询要解决的核心问题.在此基础上,针对各种序列相似性查询关键技术进行分类和评价.最后,讨论了关于序列数据相似性查询研究所面临的挑战,并归结了未来的研究方向.  相似文献   

2.
汤春蕾  董家麒 《计算机学报》2012,35(11):2228-2236
子序列的相似性查询是时间序列数据集中的一种重要操作,包括范围查询和k近邻查询.现有的大多算法是基于欧几里德距离或者DTW距离的,缺点在于查询效率低下.文中提出了一种新的基于LSH的距离度量方法,可以在保证查询结果质量的前提下,极大提高相似性查询的效率;在此基础上,给出一种DS-Index索引结构,利用距离下界进行剪枝,进而还提出了两种优化的OLSH-Range和OLSH-kNN算法.实验是在真实的股票序列集上进行的,数据结果表明算法能快速精确地找出相似性查询结果.  相似文献   

3.
戴东波  熊赟  朱扬勇 《软件学报》2010,21(4):718-731
序列数据在文本、Web访问日志文件、生物数据库中普遍存在,对其进行相似性查找是一种重要的获取和分析知识的手段.基于参考集索引技术是一类解决序列相似性查找的有效方法,主要思想是找到序列数据库中的少数序列作为参考集,通过参考集过滤掉数据库中与查询序列不相关的数据,从而高效地回答查询.在现有基于参考集索引技术的基础上,提出一种过滤能力更强的序列相似性查询算法IRI(improved reference indexing).首先,充分利用了先前的查询结果集来加速当前的查询,其次考虑了基于序列特征的上界和下界,使得应用参考集进行过滤的上下界更紧,过滤能力进一步加强.最后,为了避免候选集中费时的编辑距离计算,则只计算前缀序列间的编辑距离,从而进一步加速算法运行.实验采用真实的DNA序列和蛋白质序列数据,结果表明,算法IRI在查询性能上明显优于现有的基于参考集索引方法RI(reference indexing).  相似文献   

4.
序列相似性描述是序列分类的关键,根据序列产生的背景和机理,融合利用具有不同物理意义的特征子模式集合进行序列相似性描述可以改进序列分类的效果.对于在多个特征子模式集合的核变换空间上进行的相似性描述,可利用半定规划方法,在使得分类边界距离最大的意义下对核矩阵相似性描述结果进行优化,从而建立起一种能够融合利用多种意义特征子模式集合的序列分类方法.该方法用于手写签名序列的识别实验,在基准签名数据集上取得了较好的实验结果.  相似文献   

5.
基于整体和局部相似性的序列聚类算法   总被引:1,自引:0,他引:1  
戴东波  汤春蕾  熊赟 《软件学报》2010,21(4):702-717
现有的很多序列聚类算法是基于“局部特征可以表征整个序列”的假设来进行的,即不区分实际应用中序列的整体相似性和局部相似性.这对存在保守子模式的序列,如DNA和蛋白质序列是适用的,但对一些注重整体序列相似性的应用领域,如:在交易数据库中用户购买行为的比较,时间序列数据中全局模式的匹配等,由于难以产生频繁子模式,用基于全局相似性的度量方法进行聚类显得更为合理.此外,在基于局部相似性的序列聚类算法中,选取的局部子模式表征序列的能力也有待进一步提高.由此,针对不同应用领域,分别提出基于整体相似性的序列聚类算法GSClu和基于局部相似性的序列聚类算法LSClu.GSClu和LSClu分别利用带剪枝策略的二分k均值算法和基于有gap约束的强区分度子模式方法对各自领域的序列数据进行聚类.实验采用交易序列数据和蛋白质序列数据,实验结果表明,GSClu和LSClu对各自领域的序列数据具有较快的处理速度和良好的聚类质量.  相似文献   

6.
随机非平稳时间序列数据的相似性研究   总被引:3,自引:0,他引:3       下载免费PDF全文
赵慧  侯建荣  施伯乐 《软件学报》2004,15(5):633-640
传统相似性查询的维数约简方法导致时间序列的非线性和分形这些重要特征消失,基于小波变换的匹配方法是通过某一分辨级的距离标准来度量相似性.但是,在未知非平稳时间序列分形维数的情况下,序列相似性匹配的局部误差就会增大,曲线形状的相似性查询过程在一定程度上也因此受到影响.鉴于随机非平稳时间序列在时空动力学演化过程中呈现出非线性特征和分形特征,提出了序列分形时变维数的概念,原始分数布朗运动模型被加以改造成为一个具有局部自相似性的随机过程.给出了时变Hurst指数的估计式和算法,提出了一种新的序列相似性判别标准.在某一分辨级水平上进行曲线形状的相似性查询和度量,同时,对于局部相似性的局部维数曲线进行匹配.最后,用仿真算例对方法的有效性加以验证.  相似文献   

7.
在时间序列数据库中,大多数现有的相似性搜索方法都集中在如何提高算法的效率,而对于由不精确数据组成的时间序列如何进行相似性搜索,则研究比较少,不精确数据经常用区间数据来表示;通过识别区间数时间序列中的重要区间数,使得区间数时间序列的维数大幅度降低,该文针对由区间数组成的时间序列,提出了一种基于低分率聚类的索引方法。实验表明,该方法加快了区间数时间序列的查找过程,不会出现漏报现象。  相似文献   

8.
传统的基于相关反馈的时间序列相似性搜索是将正反馈和负反馈融合在一起创建新查询向量,这样并没有充分利用负反馈序列的价值,而且容易对初始查询向量进行过多的更改。本文提出一种基于反馈的时间序列相似搜索方法,将反馈的正相关和负相关序列分开处理,最终的相似序列不但要与正相关序列相似,还要尽量与负相关序列不相似。在UCR数据集上的实验结果表明,本文提出的相似搜索方法与传统的基于反馈的相似搜索方法相比,在某些数据集上可以提高查询的准确率以及查全率。  相似文献   

9.
利用反馈的时序模式挖掘算法研究   总被引:2,自引:0,他引:2  
针对时序数据相似性挖掘方法进行研究,提出一种利用反馈的时序数据相似性挖掘算法,由用户赋予各初始范围查询得到的相似序列相应的权值,通过反馈与给定序列叠加产生新的查询序列,再次进行范围查询,获得相似序列,将该算法用于某钢铁企业的电力负荷时序数据,计算结果表明了算法的有效性。  相似文献   

10.
基于SAX方法的股票时间序列数据相似性度量方法研究   总被引:2,自引:0,他引:2  
特定数据集上高效的相似性度量方法是目前时间序列数据挖掘领域研究的重点内容之一。针对经过SAX方法降维后的股票数据在相似性度量中缺乏趋势变化的动态信息这一问题,本文提出了一种融合了点距离与模式距离优点的新型相似性度量函数——复合距离函数,并通过实证分析验证了该距离函数在相似性度量中的有效性,为揭示股票数据间相互依赖的规律以及时间序列相似性问题的进一步研究提供了新思路。  相似文献   

11.
飞行数据是一种典型的多元时间序列数据,基于奇异值分解提取飞行数据序列的特征,通过奇异值距离过滤获得相似模式查询的候选集,依据线性空间中的坐标变换原理构造多元时间序列的相似性度量模型,从而实现候选集上的精确匹配并获得最终的结果集。给出了相似子序列的冲突消解策略,深入分析了查询的完备性问题,指出该方法可能导致误判或成为误判的根源,提出融入先验规则来减少误判并提高查询效率的方法。在真实飞行数据上的实验结果验证了方法的有效性。  相似文献   

12.
序列数据一类重要的数据类型,在文本、Web访问日志文件、生物数据库等应用中普遍存在,对其进行相似性查询是一种获取有用信息的重要手段.在大型序列数据库中进行高效相似性查询的关键因素之一就是查询算法的过滤能力,即设计能快速过滤与查询序列不相关序列集的过滤器十分重要.提出了结合序列距离的度量性质和序列自身特征的多重过滤算法SSQ_MF,SSQ_MF使用了长度过滤器、前缀过滤器和基于参考集的过滤器,使得算法过滤能力较基于单一过滤器算法进一步增强.此外,设计了有关数据结构对查询数据库的一些统计信息进行了预计算和保存,有效估计了各过滤器的过滤集大小,并构建了一个由过滤集大小确定的最优过滤顺序模型,使得算法的过滤代价最低.实验结果表明,算法SSQ_MF的查询性能优于单一过滤器算法和随机过滤顺序的多过滤器算法.  相似文献   

13.
基于参数重要度的多元时间序列相似性查询   总被引:3,自引:1,他引:2       下载免费PDF全文
针对多元时间序列的相似性查询问题,给出参数重要度的定义,提出一种基于参数重要度的候选集查询方法。通过对多元时间序列的SVD分解,将奇异值向量和特征矩阵作为多元序列的特征,基于线性空间中的坐标变换原理构造2个多元时间序列的相似性度量模型,实现在候选集上的精确匹配并获得最终的结果集。对飞行数据的相似性查询实验验证了该方法的有效性。  相似文献   

14.
王晓龙  袁艳  张泰山 《计算机仿真》2009,26(11):110-112
运动模式相似性度量在实际工作有广泛应用.提出了一种利用序列分析手段来实现实体运动模式相似性度量的算法.序列分析方法用于提取序列各种特征,然后利用上述特征分别对运动序列中的位置序列、速度序列、方向序列进行相似性度量,再将度量综合起来作为最终的运动模式相似性度量方法.最后,仿真研究表明,算法可以比较有效度量各种运动模式之间的相似性,从而町以应用于各项需要进行运动模式相似性度量的工作.  相似文献   

15.
一种基于分形时变维数的非平稳时间序列相似性匹配方法   总被引:2,自引:0,他引:2  
随机非平稳时间序列在时空动力学演化过程中呈现出非线性特征和分形特征,传统相似性查询的维数约简方法导致时间序列的非线性和分形这些重要特征消失,序列相似性匹配的局部误差也就会增大.该文提出了序列分形时变维数的概念,给出了时变Hurst指数的小波估计式和算法;提出了一种新的序列相似性判别标准.新方法在某一分辨级水平上进行曲线形状相似性查询和度量的同时也进行维数曲线的度量和匹配.用仿真算例对方法的有效性进行了验证。  相似文献   

16.
在时间序列相似性研究领域已经发展了多种方法用于时间序列的表示,以达到降低序列维度的目的.作为一种经典的时域-频域转换方法,离散余弦变换目前已经在图形图像处理等领域得到了广泛的应用.将此方法应用于时间序列的表示上,在变换后的数据上进行相似性查询等操作.实验表明,相对以前的方法,这种方法具有明显的性能提升.  相似文献   

17.
遥感高光谱数据是一种具有空间聚集特性的高维数据。对PT方法进行改进使之与iDistance的索引机制相适应,并融合这两种不同的空间划分策略,提出一种适用于高光谱数据的索引结构。该索引是一种度量空间的高维索引,采用两级空间划分,在处理光谱相似性查询时可同时完成针对距离和空间方位的数据过滤。实验证明该索引可以有效降低I/O和距离计算次数,具有较高的剪枝效率,适用于高光谱数据相似性查询。  相似文献   

18.
几乎所有的多维空间索引都没有考虑空间对象之间的顺序关系,只支持单个空间对象的索引和查询,无法直接支持空间对象序列查询.本文在R-Tree的基础上,提出一种可直接用于空间对象序列查询的动态索引--OR-Tree,保存了空间对象序列中对象之间的序关系.时间序列的相似性查询实验表明:与R-Tree相比,基于OR-Tree的方法在磁盘I/O次数和查询结果的候选集大小上显著降低,并且查询序列越长,性能提高就越明显.  相似文献   

19.
序列数据是一种重要的数据类型,在诸多领域都有应用,比如说文本、生物数据库以及Web访问日志等。在对该类型数据进行分析的时候,对于相关信息的获取一般都是通过相似性查询得到的。本文首先根据序列查询算法的特点,提出了SSQ_MF,也就是多重过滤算法。并在此基础上设计了最优过滤顺序模型和过滤集大小估计的相关实验。实验结果表明,SSQ_MF算法的查询性能优于单一过滤器算法和随机过滤顺序的多过滤器算法。  相似文献   

20.
为了进一步改善和提高基于模式的时间序列趋势相似性度量效果,在时间序列分段线性表示的基础上,依据分段子序列的均值及其线性拟合函数的导数符号,实现时间序列的分段模式化,以模式之间的异同性定义模式匹配距离,借鉴动态时间弯曲(Dynamic Time Warping,DTW)的动态规划原理,提出一种动态模式匹配方法(Dynamic Pattern Matching,DPM)。实验结果表明,该方法能够在不同压缩率条件下,准确度量等长时间序列的趋势相似性,而且时间消耗较低。时间序列不等长作为存在数据缺失的一种表现形式,该方法的度量效果与数据缺失比例之间的关系值得进一步的深入研究。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号