共查询到19条相似文献,搜索用时 78 毫秒
1.
提出了一种能够对含有时间序列数据的数据库信息进行数据挖掘的方法。首先使用时间序列相似搜索方法对其中的时间序列数据进行模式发现,然后将时间序列数据转化为离散型数值,进一步使用粗糙集理论进行数据约简和规则提取。通过使用这种方法能够对含有时序数据的信息进行充分的挖掘并发现其中的规律。 相似文献
2.
提出了一种能够对含有时间序列数据的数据库信息进行数据挖掘的方法.首先使用时间序列相似搜索方法对其中的时间序列数据进行模式发现,然后将时间序列数据转化为离散型数值,进一步使用粗糙集理论进行数据约简和规则提取.通过使用这种方法能够对含有时序数据的信息进行充分的挖掘并发现其中的规律. 相似文献
3.
多维时序数据中的相似子序列搜索研究 总被引:4,自引:0,他引:4
由于动态时间弯曲距离较之欧氏距离有更好鲁棒性,因此被广泛用作时序数据相似子序列搜索研究领域中的相似性度量.在单一维度上的相似子序列搜索可能不能获得足够的匹配结果作为继续深入分析的依据,因此通过引入在多维数据分析中常用的数据立方体模型将相似子序列搜索问题扩展到了多维场景之下,从而在多个维度上得到搜索结果以获取更多有价值的知识.在此基础上利用数据立方体相邻层次单元间的相关性对基本的搜索算法进行了改进,在保证准确性的基础上提高了搜索效率.在真实网络安全数据集上的实验验证了所提方法的有效性. 相似文献
4.
大规模时间序列数据库降维及相似搜索 总被引:4,自引:0,他引:4
提出一种基于分段多项式表示(PPR)的时间序列数据库相似查询的系统化方法.PPR是一类基于线性多项式回归的正交变换.用PPR变换索引时间序列数据在理论上具备非漏报性质.文中分析了PPR的计算复杂性以及查询阈值的下界,并提出了一种衡量时间序列相似查询算法之查询效率的定量指标.与基于离散傅立叶变换(DFT)和离散小波变换(DWT)的时间序列相似查询算法所作的对比实验表明,所提算法可以用低的索引结构维数获得高的查询效率. 相似文献
5.
该文提出了一种基于二进制压缩(BC)的时间序列相似搜索的方法。该方法是把时间序列分段,提取每段上面的关键点把这些点转换成一个比特流,这些关键点是把每一段分成子段取这些子段的中间点,记录下比特流达到压缩的目的。该文证明了该方法在理论上具备非漏报的性质。然后使用天际线对时间序列进行索引。实验表明,该文提出的基于BC的方法比PAA方法有更小的边界,在相似度搜索的时候基于天际线索引的BC方法比基于R*树的PPA方法更有效率。 相似文献
6.
提前终止(Early Abandon)是在受限的相似搜索中的一项技术,在提高时间序列相似搜索的效率,减少冗余计算中取得成功应用.但是以往的工作中提前终止的效率往往都只是通过大量的实验测试来体现,而缺少一种理论化的方法.从理论上提出了一种对提前终止技术的实际效率的估算方法,采用统计概率的方式分析了提前终止技术在时间序列相似搜索中的效率,同时对理论结果进行了实验验证.实验结果表明,理论上的估计方法在一定程度上可以估算出提前终止的效率,为时间序列相似搜索的实际效率计算提供了理论工具. 相似文献
7.
高效时序相似搜索技术 总被引:6,自引:0,他引:6
时序相似搜索被认为是将来最有前途的技术之一.然而,时序数据是典型的高维海量数据,如何开发高效算法非常关键.文中概述了时序相似搜索技术的研究现状和进展以及研究的主要内容,讨论了该技术的几个重要应用范例,并对一些典型算法进行了定量分析;然后晕点论述了高效时序相似搜索的关键技术,包括边界过滤、三角不等式修剪、多辨析率检索方法、过滤精炼方案等.最后讨论并分析了时序的近似相似搜索技术.上述所有技术通过对比,其正面和反面都被深入分析.最后指出了存在的问题和未来的研究热点和方向. 相似文献
8.
基于时间序列的数据挖掘时,一般需要对时间序列离散化,再聚类成不同的子模式。已有的方法常忽略时间序列本身的位置和整体特征,并且计算量大。针对其不足,文中提出一种检索时间序列分段关键点的算法,以关键点为边界分段,使用形态距离测度和快速剪除的算法,高效简便地检索出相似子模式。 相似文献
9.
基于时间序列的相似子模式发现算法 总被引:4,自引:0,他引:4
基于时问序列的数据挖掘时,一般需要对时间序列离散化,再聚类成不同的子模式。已有的方法常忽略时间序列本身的位置和整体特征,并且计算量大。针对其不足,文中提出一种检索时间序列分段关键点的算法,以关键点为边界分段,使用形态距离测度和快速剪除的算法,高效简便地检索出相似子模式。 相似文献
10.
11.
随着云计算的广泛应用,数据中心的数据量急速增加,同时,用户文档通常包含隐私敏感信息,需要先加密然后上传到云服务器,面对如此大量的密文数据,现有技术在大数据量的密文数据上的检索效率很低.针对此问题,本文提出在大数据下的基于相似查询树的密文检索方法(MRSE-SS),该方法通过设置聚类中心和成员之间的最大距离对文档向量进行聚类,并把中心向量看成n维超球体的球心,最大距离作为半径,再逐步将小聚类聚合成大聚类.使用该方法构建的密文文档集合,在查询阶段仅需检索查询向量相邻的聚类即可获得理想的查询结果集合,从而提高了密文检索的效率.本文还以《软件学报》期刊最近10年的论文作为样本进行了实验,数据集中选取2900篇文章和4800个关键词,实验结果显示,当文档集个数呈指数增长的时候,检索时间仅呈线性增长,并且检索结果的关联性比传统检索方法更强. 相似文献
12.
序列数据在文本、Web访问日志文件、生物数据库中普遍存在,对其进行相似性查找是一种重要的获取和分析知识的手段.基于参考集索引技术是一类解决序列相似性查找的有效方法,主要思想是找到序列数据库中的少数序列作为参考集,通过参考集过滤掉数据库中与查询序列不相关的数据,从而高效地回答查询.在现有基于参考集索引技术的基础上,提出一种过滤能力更强的序列相似性查询算法IRI(improved reference indexing).首先,充分利用了先前的查询结果集来加速当前的查询,其次考虑了基于序列特征的上界和下界,使得应用参考集进行过滤的上下界更紧,过滤能力进一步加强.最后,为了避免候选集中费时的编辑距离计算,则只计算前缀序列间的编辑距离,从而进一步加速算法运行.实验采用真实的DNA序列和蛋白质序列数据,结果表明,算法IRI在查询性能上明显优于现有的基于参考集索引方法RI(reference indexing). 相似文献
13.
An interesting issue in moving object databases is to find similar trajectories of moving objects. Previous work on this topic
focuses on movement patterns (trajectories with time dimension) of moving objects, rather than spatial shapes (trajectories
without time dimension) of their trajectories. In this paper we propose a simple and effective way to compare spatial shapes
of moving object trajectories. We introduce a new distance function based on “one way distance” (OWD). Algorithms for evaluating
OWD in both continuous (piece wise linear) and discrete (grid representation) cases are developed. An index structure for
OWD in grid representation, which guarantees no false dismissals, is also given to improve the efficiency of similarity search.
Empirical studies show that OWD out-performs existent methods not only in precision, but also in efficiency. And the results
of OWD in continuous case can be approximated by discrete case efficiently.
相似文献
Jianwen SuEmail: |
14.
15.
16.
17.
一种有效的量化交易数据相似性搜索方法 总被引:7,自引:0,他引:7
量化交易数据与一般交易数据的不同之处在于它在各个维上的值是数值型而不是二值型的。研究这种数据的有效的相似性搜索方法是一个重要而具有挑战性的课题,提出了一个新的相似性度量函数Hsim(),这个度量函数可以较好地克服Lp等传统的距离函数在高维空间中的缺点,并能将二值型和数值型数据距离的计算整合到一个统一的框架中去。结合量化交易数据的特点,构造了定义在该函数上的相似性索引结构,并对建立在该索引结构上的相似性查询方法进行了阐述。实验表明,这种搜索方法对量化交易数据的相似性搜索有较高的修剪率,能大大地加快搜索的速度。 相似文献
18.