首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
大规模时间序列数据库降维及相似搜索   总被引:4,自引:0,他引:4  
李爱国  覃征 《计算机学报》2005,28(9):1467-1475
提出一种基于分段多项式表示(PPR)的时间序列数据库相似查询的系统化方法.PPR是一类基于线性多项式回归的正交变换.用PPR变换索引时间序列数据在理论上具备非漏报性质.文中分析了PPR的计算复杂性以及查询阈值的下界,并提出了一种衡量时间序列相似查询算法之查询效率的定量指标.与基于离散傅立叶变换(DFT)和离散小波变换(DWT)的时间序列相似查询算法所作的对比实验表明,所提算法可以用低的索引结构维数获得高的查询效率.  相似文献   

2.
The problem of similarity search in large time series databases has attracted much attention recently. It is a non-trivial problem because of the inherent high dimensionality of the data. The most promising solutions involve first performing dimensionality reduction on the data, and then indexing the reduced data with a spatial access method. Three major dimensionality reduction techniques have been proposed: Singular Value Decomposition (SVD), the Discrete Fourier transform (DFT), and more recently the Discrete Wavelet Transform (DWT). In this work we introduce a new dimensionality reduction technique which we call Piecewise Aggregate Approximation (PAA). We theoretically and empirically compare it to the other techniques and demonstrate its superiority. In addition to being competitive with or faster than the other methods, our approach has numerous other advantages. It is simple to understand and to implement, it allows more flexible distance measures, including weighted Euclidean queries, and the index can be built in linear time. Received 16 May 2000 / Revised 18 December 2000 / Accepted in revised form 2 January 2001  相似文献   

3.
In this paper, a hierarchical algorithm, HierarchyScan, is proposed to efficiently locate one-dimensional subsequences within a collection of sequences with arbitrary length. The proposed algorithm performs correlation between the stored sequences and the template pattern in the transformed domain to identify subsequences in a scale- and phase-independent fashion. This is in contrast to those approaches based on the computation of Euclidean distance in the transformed domain. In the proposed hierarchical algorithm, the transformed domain representation of each original sequence is divided into multiple groups of coefficients. The matching is performed hierarchically from the group with the greatest filtering capability to the group with the lowest filtering capability. Only those subsequences whose maximum correlation value is higher than a predefined threshold will be selected for additional screening. This approach is compared to the sequential scanning and an order-of-magnitude speedup is observed.  相似文献   

4.
基于关系数据库的关键词查询   总被引:5,自引:1,他引:5  
林子雨  杨冬青  王腾蛟  张东站 《软件学报》2010,21(10):2454-2476
介绍了基于关系数据库的关键词查询问题的研究背景;阐述了解决该问题的两大类方法,即基于数据图的方法和基于模式图的方法,并详细介绍了各种方法的原理以及各自的优缺点;最后展望了未来的研究方向.  相似文献   

5.
SQL查询语言被用于检索关系数据库中的数据,但对于没有经验的用户来说,学习复杂的SQL语法是一件困难的事情。实现基于关键词的关系数据库信息检索,将使用户不需要任何SQL语言和底层数据库模式的知识,用搜索引擎的方式来获取数据库中的相关数据。本文总结了基于关键字的数据库检索工作的关键技术和研究进展,展望了今后的研究方向。  相似文献   

6.
高艳  胡启平 《计算机应用》2003,23(6):66-68,77
介绍一种支持可扩展数据类型及查询集的索引结构——通用索引树GiST,阐述了它的原理和实现方法。着重讨论了GiST的同步控制问题,对扩展链接技术和混合锁技术作了改进。  相似文献   

7.
本文介绍的是语音搜索平台Cell-Talk的主要功能以及相关软硬件架构,Cell-Talk除提供运营商多样化内容资源搜寻平台,还提供运营商内容服务管理功能以及语音辨识流程,提供给运营商一套强大完整的语音辨识搜索平台。  相似文献   

8.
Efficient Correlation Search from Graph Databases   总被引:1,自引:0,他引:1  
Correlation mining has gained great success in many application domains for its ability to capture the underlying dependency between objects. However, research on correlation mining from graph databases is still lacking despite the proliferation of graph data in recent years. We propose a new problem of correlation mining from graph databases, called Correlated Graph Search (CGS). CGS adopts Pearson's correlation coefficient to take into account the occurrence distributions of graphs. However, the problem poses significant challenges, since every subgraph of a graph in the database is a candidate but the number of subgraphs is exponential. We derive two necessary conditions that set bounds on the occurrence probability of a candidate in the database. With this result, we devise an efficient algorithm that mines the candidate set from a much smaller projected database and thus a significantly smaller set of candidates is obtained. Three heuristic rules are further developed to refine the candidate set. We also make use of the bounds to directly answer high-support queries without mining the candidates. Experimental results justify the efficiency of our algorithm. Finally, we generalize the CGS problem and show that our algorithm provides a general solution to most of the existing correlation measures.  相似文献   

9.
田雪  朱晓杰  申培松  陈驰  邹洪 《软件学报》2016,27(6):1566-1576
随着云计算的广泛应用,数据中心的数据量急速增加,同时,用户文档通常包含隐私敏感信息,需要先加密然后上传到云服务器,面对如此大量的密文数据,现有技术在大数据量的密文数据上的检索效率很低.针对此问题,本文提出在大数据下的基于相似查询树的密文检索方法(MRSE-SS),该方法通过设置聚类中心和成员之间的最大距离对文档向量进行聚类,并把中心向量看成n维超球体的球心,最大距离作为半径,再逐步将小聚类聚合成大聚类.使用该方法构建的密文文档集合,在查询阶段仅需检索查询向量相邻的聚类即可获得理想的查询结果集合,从而提高了密文检索的效率.本文还以《软件学报》期刊最近10年的论文作为样本进行了实验,数据集中选取2900篇文章和4800个关键词,实验结果显示,当文档集个数呈指数增长的时候,检索时间仅呈线性增长,并且检索结果的关联性比传统检索方法更强.  相似文献   

10.
基于关系数据库的关键词查询,使得用户在不需要掌握结构化查询语言和数据库模式的情况下,可以方便地进行关系数据库查询.给定一个关键词查询,已有的方法通过数据库中的主外键关联,查询得到包含关键词的元组集合.但是,在很多实际应用中,元组集合的聚合结果对用户更有价值;研究了基于关系数据库的top-k聚合关键词查询,提出了基于递归的聚合单元枚举算法——基于递归的完全搜索(recursion-based full search, RFS).为了获得更好的查询性能,设计了新的排序方法、二维索引和快速搜索算法——基于输出的快速搜索(output-based quick search, OQS),从而可以高效地枚举top-k个聚合单元;在不同的数据集上进行了大量的实验,实验结果表明OQS算法具有良好的查询性能.  相似文献   

11.
12.
字符串相似性查找问题主要包括两方面,基于阈值的字符串相似性查找以及top-k字符串相似性查找。目前处理基于阈值的字符串相似性查找问题的算法多是基于过滤-验证框架的。基于该框架提出了PBsearch算法,算法在过滤阶段首次加入One-Off条件过滤掉大量的无效匹配,并在验证阶段提出了一种新的验证算法MultiThreshold算法,大大减少了计算编辑距离的次数。在top-k字符串相似性查找问题方面,提出了两种基于分割思想的算法,Pb-topk算法和PbCount-topk算法。其中,Pb-topk算法采用差值递增的策略,减少了需处理的字符串数目;PbCount-topk算法采用匹配数目划分的策略,进一步缩小了候选集的规模。最后,通过在3个真实数据集上的实验结果,验证了提出算法的高效性。  相似文献   

13.
We introduce a method that enables scalable similarity search for learned metrics. Given pairwise similarity and dissimilarity constraints between some examples, we learn a Mahalanobis distance function that captures the examples' underlying relationships well. To allow sublinear time similarity search under the learned metric, we show how to encode the learned metric parameterization into randomized locality-sensitive hash functions. We further formulate an indirect solution that enables metric learning and hashing for vector spaces whose high dimensionality makes it infeasible to learn an explicit transformation over the feature dimensions. We demonstrate the approach applied to a variety of image data sets, as well as a systems data set. The learned metrics improve accuracy relative to commonly used metric baselines, while our hashing construction enables efficient indexing with learned distances and very large databases.  相似文献   

14.
关系数据库上的关键词查询使得用户不必了解SQL语法或者数据库模式即可方便进行检索,并利用关系表的连接来保证查询的完整性。由于关键词集合查询的信息通常与不同数据类型的字段相关,并且分散在多个表中,而关系数据库缺乏对这类信息有效的索引,从而导致查询效率和准确率比较低。针对关系数据库的结构化模式,提出了一种基于层次树的数据提取方法,将关系数据库模型化为一棵层次树,关键词查询问题转化为树的遍历问题,并从关键词数据类型的分类、属性值之间的相关度、查询结果评分排序等方面设计了一个综合的优化方法。通过实验验证,该方法可以实现以较高的效率和较低的计算代价完成关键词查询。  相似文献   

15.
字符串相似性查询是众多应用的基础操作,如数据清洁、拼写校验、生物信息学和信息集成等.随着数据的爆炸性增长,大规模字符串数据日益普遍,现代的信息系统中也广泛使用字符串作为数据的表达形式.现有支持字符串相似性查询的方法大多是基于q-gram的内存倒排索引,在处理大规模字符串集合会消耗无法忍受的内存容量,甚至在数据量过大时造成内存容量不足而无法支持查询处理.现有的外存倒排索引Behm-Index在查询的过滤阶段只支持少数过滤器,不能有效地减少查询I/O代价.提出了LPA-Index:一种支持长度过滤器和位置过滤器的外存倒排索引,并通过选择查询时使用的倒排表来有效地降低查询I/O代价.实验结果表明,与现有性能最好的外存索引Behm-Index相比,LPA-Index能够大幅降低查询的I/O代价,获得了更短的查询响应时间.  相似文献   

16.
现今的图像搜索引擎主要利用图像周围文本信息为图像排序,根据图像内容重排序可以进一步提高搜索性能。图像相似性的度量对重排序算法的性能至关重要。然而已有的相似性度量没有考虑针对不同的查询,图像的相似性应该不同。提出一种与查询相关的相似性度量方法,将基于全局特征的相似性,基于局部特征的相似性,以及视觉单词同时出现率融合到一个迭代算法中,挖掘出与查询相关的图像信息,计算图像相似性。在Bing图像搜索引擎上的实验结果证明本文提出的相似性度量方法优于基于全局特征,局部特征,或它们线性组合的相似性。  相似文献   

17.
为了增强关系数据库中的关键字搜索查询结果,考虑了多表之间以及元组之间的语义关系,提出了一种语义评分函数.该语义评分函数不仅涵盖了当前的评分思想,并且加入新指标来衡量查询结果与查询关键字之间的相关性.基于该评分函数,提出两种以数据块为处理单位的Top-K搜索算法,分别为BA(blocking algorithm)算法和EBA(early-stopping blocking algorithm)算法.EBA在BA基础上引入了过滤域值,以便尽早终止算法的迭代次数.最后实验结果显示语义评分函数保证了搜索结果的高查准率和查全率,所提出的BA算法和EBA算法改善了现有方法的查询性能.  相似文献   

18.
彭朝晖  崔立真  王珊  张俊  王长亮 《软件学报》2009,20(Z1):286-297
在关系数据库关键词检索(KSORD)中,用户的检索往往不能一次成功,有时需要多次重构查询(找到一组新关键词)来进行检索,但是查询的重构往往要花费用户大量的时间和精力.针对KSORD的结果,提出了一种相关反馈方法来自动重构查询.该方法选用基于向量空间模型的打分机制对KSORD结果打分,根据用户反馈或伪反馈的结果信息,采用基于概率的方法计算扩展用的语词,以查询扩展的方法自动重构查询进行再次检索.实验结果表明,这种方法能够为用户提供更多的相关结果.  相似文献   

19.
关系数据库中的关键词搜索技术已经成为信息检索领域的研究热点,它为没有任何SQL语法知识的用户提供了一个简单友好的接口.但是现存的关键词搜索系统主要依赖于数据图或模式图,而单独使用数据图或模式图的算法搜索效率不高,结果准确率也较低.设计实现了一个Top-k关键词搜索系统(keyword search system based on database graph and schema graph,KWSDS),用户提交关键词后,系统对关键词进行预处理,消除一些脏关键词.首次提出使用数据图与模式图相结合的方法,设计了同表查询算法和异表查询算法,分析了算法的正确性和时间复杂度,并且提出了相关性结果排序方法.KWSDS系统的搜索算法运行时间短,搜索结果准确性高,具有良好的查询性能.最后通过实验验证了KWSDS的效率.  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号