首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
子序列匹配是时间序列挖掘的经典课题,旨在发现大型数据集中的相似数据序列.很多文献关注固定时间段的序列的查询.但对于多种不同时间段的查询的问题仍然未解决好.基于时间段的查询含义是有时间窗口限制的查询.为了满足多时间段上的查询,简单地为每个时间段的子序列构建索引既耗时又耗存储空间.从目前的文献来看,已有的索引无法满足具有不...  相似文献   

2.
基于二分频率变换的序列相似性查询处理技术   总被引:1,自引:0,他引:1  
作为基因功能预测的主要手段,序列相似性查询技术是生物信息学领域的研究热点.基因序列和结构的相似性往往决定了基因功能的相似性,因此可以通过基因序列的相似性查找来预测新基因的功能.分析了MRS索引中频率变化和小波变换等相关技术,讨论了它们的缺点和不足,提出了一种基于二分频率变换2-PFT的序列似性查询处理技术.首先,设计了二分频率变换和相应的距离函数,使得系统较之频率变换和小波变换具有更高的过滤能力,极大地提高了系统的性能;其次,解决了处理任意长度查询的问题.理论证明和实验结果均表明,2-PFT系统的性能远远优于MRS系统.  相似文献   

3.
王金宝  高宏  李建中  杨东华 《计算机学报》2011,34(11):2142-2154
字符串相似性操作在很多领域中被广泛应用,如数据清洁、信息集成等.现有研究工作主要为基于q-Gram和倒排索引的内存方法,在处理大量数据时具有以下缺点:内存消耗大、更新效率低、支持操作类型有限.现有的外存索引Bed树无法将相似的字符串聚类,在查询处理过程中导致了较大的I/O代价.该文设计了支持多种字符串相似性操作的RM树...  相似文献   

4.
金字塔多维索引分析及其算法实现   总被引:1,自引:0,他引:1       下载免费PDF全文
许多多维索引结构随着维度的增加会遇到“维度灾难”问题,而金字塔技术是基于一种依赖特殊优化数据维度的非平均分割策略,能够克服“维度灾难”问题。本文提出了基于金字塔技术的完整算法集,并针对完备高维索引算法,对金字塔索引技术的性能特性进行了深入分析。  相似文献   

5.
以在P2P网络下实现对海量、高维数据的高效相似性检索为目标,提出PLCID索引方法(modified iDistance based on Proximity Location Code),该方法有效地缩小了需要搜索的范围,减少了数据对象间的距离计算次数,提高了检索性能;根据PLCID索引方法,在结构化P2P网络上实现高维数据检索.通过实验表明,相比原来的iDistance索引方法,在时间性能和系统开销上都有了明显提高.  相似文献   

6.
在时间序列数据库中,大多数现有的相似性搜索方法都集中在如何提高算法的效率,而对于由不精确数据组成的时间序列如何进行相似性搜索,则研究比较少,不精确数据经常用区间数据来表示;通过识别区间数时间序列中的重要区间数,使得区间数时间序列的维数大幅度降低,该文针对由区间数组成的时间序列,提出了一种基于低分率聚类的索引方法。实验表明,该方法加快了区间数时间序列的查找过程,不会出现漏报现象。  相似文献   

7.
VAR-Tree--一种新的高维数据索引结构   总被引:7,自引:1,他引:6  
在多媒体信息检索和数据挖掘等应用领域,实现高维矢量的K近邻搜索是非常具有挑战性的研究课题,为此人们提出了很多种索引结构.然而,现有研究成果表明,随着矢量维数的增加,基于树状索引结构的查询性能急剧下降,例如在R-Tree,X-Tree和SS-Tree中都会出现“维数灾难”.为此,又引入近似压缩的思想,即通过压缩数据来减少查询过程中的磁盘读写代价,例如VA-File等,不过,VA-File没有对近似矢量数据做任何的排序或层次处理.提出了一种新的索引结构VAR-Tree,它将VA-File与R-Tree有机结合起来,用R-Tree管理和组织VA-File中的近似数据,并用已提出的R-Tree类相似查询算法实现基于VAR-Tree的查询.实验结果表明,VAR-Tree较好地提高了检索性能.  相似文献   

8.
基于DCT的时序数据相似性搜索   总被引:2,自引:0,他引:2  
数据的高维度是造成时序数据相似性搜索困难的主要原因。最有效的解决方法是对时序数据进行维归约,然后对压缩后的数据建立空间索引。目前维归约的方法主要是离散傅立叶变换(DFT)和离散小波变换(DWT)。提出了一种新的方法,利用离散余弦变换(DCT)进行维归约,并在此基础上给出了对时序数据进行范围查询和近邻查询的相似性搜索方法。与基于DFT、DWT的搜索方法相比,该方法在理论分析和实验结果上都显示出较高的效率。  相似文献   

9.
多聚类中心近邻传播聚类算法(MEAP),在处理任意形状具有流形分布结构的数据时,往往得不到理想的聚类结果。为此,基于流形学习的思想,设计了一种全新的相似性度量,该相似性度量能够扩大位于同一流形中数据点间的相似性,同时缩小处于不同流形上数据点间的相似性,从而使得相似性矩阵能够准确地反映数据集内在的流形分布结构。将该相似性度量与MEAP相结合,提出基于流形结构的多聚类中心近邻传播聚类算法MS-MEAP(Manifold Structure based Multi-Exemplar Affinity Propagation),从而有效地拓展了算法处理任意形状具有流形分布结构数据集的能力,同时提高了算法的运行效率。在人工数据集与USPS手写体数据集上进行了实验,仿真实验结果及算法有效性分析证明,MS-MEAP算法相比于原算法在处理任意形状具有流形分布结构的数据时,具有更好的聚类性能。  相似文献   

10.
目前的动态文摘方法几乎都是基于文档批处理机制的,无法适应实际应用中文档数据是以不稳定的数据流形式到来,需要实时更新摘要的需求。针对上述问题,提出一种利用K近邻思想对句子进行建模,再增量聚类句子实现子主题划分的动态文本摘要方法。该方法根据K近邻基本思想形成两层句子图模型,用增量图聚类方法对句子进行处理,同时考虑结合时间因素提高句子新颖度来抽取动态文摘。该方法能基于文档数据流增量式地抽取动态文摘,实现文摘内容的实时更新。通过在TAC2008和TAC2009的Update Summarization数据集上的测试,证明本文方法在动态文摘抽取上的有效性。  相似文献   

11.
索引是数据库的对象之一,在关系数据库中,索引建立在一张基本表的一列或多列上,索引的逻辑结构是一张二维表,索引表由两类信息组成,一是索引关键字,即在基本表上经常查询的一列或多列属性,二是地址信息,即索引关键字在基本表中所在行的物理地址;索引的物理结构以B树形式组织。按照对基本表的组织方式,索引分为聚集索引和非聚集索引;按照索引关键字取值的唯一性,分为唯一索引和不唯一索引。文章着重探讨聚集索引及其B树结构,用实例分析二维表的B树索引的创建,在B树结构上的查询和更新操作,形象说明索引是如何提高查询效率的,以及进行更新操作时对索引的影响。  相似文献   

12.
Multidimensional Index Structures in Relational Databases   总被引:2,自引:0,他引:2  
Efficient query processing is one of the basic needs for data mining algorithms. Clustering algorithms, association rule mining algorithms and OLAP tools all rely on efficient query processors being able to deal with high-dimensional data. Inside such a query processor, multidimensional index structures are used as a basic technique. As the implementation of such an index structure is a difficult and time-consuming task, we propose a new approach to implement an index structure on top of a commercial relational database system. In particular, we map the index structure to a relational database design and simulate the behavior of the index structure using triggers and stored procedures. This can be easily done for a very large class of multidimensional index structures. To demonstrate the feasibility and efficiency, we implemented an X-tree on top of Oracle8. We ran several experiments on large databases and recorded a performance improvement up to a factor of 11.5 compared to a sequential scan of the database.  相似文献   

13.
为解决时间序列的反向查询问题,提出了一种新的时间序列动态索引方法——IC-索引。采用单调链表示时间序列的状态变化,利用AVL树对时间序列的变化区间进行索引。实验结果表明,算法的运行时间比现有的IP-索引减少了50%。  相似文献   

14.
VA-Trie:一种用于近似k近邻查询的高维索引结构   总被引:2,自引:1,他引:1  
近年来,随着多媒体信息检索技术的不断发展,如何实现高维特征矢量的快速相似性查询成为一个重要的研究课题.为此,人们提出了许多索引结构,包括:R—Tree及其变种、对矢量进行量化近似的VA—File、引入量化思想的A—Tree等等.从公开发表的成果看,这些索引结构在较低维数时,都能够表现出较好的查询性能;而当维数增加时,性能则急剧恶化.为了在更高维数下实现快速相似查询,可采用VA—File和A—Tree中的近似思想,并借助Trie结构来组织和管理压缩后的近似矢量,即所谓的VA—Trie.实验结果表明,在高达128维时VA—Trie仍有查询加速,其性能远好于A—Tree.  相似文献   

15.
字符串相似性查询是众多应用的基础操作,如数据清洁、拼写校验、生物信息学和信息集成等.随着数据的爆炸性增长,大规模字符串数据日益普遍,现代的信息系统中也广泛使用字符串作为数据的表达形式.现有支持字符串相似性查询的方法大多是基于q-gram的内存倒排索引,在处理大规模字符串集合会消耗无法忍受的内存容量,甚至在数据量过大时造成内存容量不足而无法支持查询处理.现有的外存倒排索引Behm-Index在查询的过滤阶段只支持少数过滤器,不能有效地减少查询I/O代价.提出了LPA-Index:一种支持长度过滤器和位置过滤器的外存倒排索引,并通过选择查询时使用的倒排表来有效地降低查询I/O代价.实验结果表明,与现有性能最好的外存索引Behm-Index相比,LPA-Index能够大幅降低查询的I/O代价,获得了更短的查询响应时间.  相似文献   

16.
数据仓库中的维数据通常都是有层次的,基于维层次路径的聚簇能有效地在物理空间上将关联数据组织到一起,减少查询访问磁盘的次数。而现在的Cube存储结构都关注于Cube操作的计算和存储,忽视了这一特点。论文提出基于维层次聚簇的Cube存储结构HC(HierarchicallyClustered)Cube及相关算法,解决了目前存在的问题。  相似文献   

17.
String similarity search and join are two important operations in data cleaning and integration, which extend traditional exact search and exact join operations in databases by tolerating the errors and inconsistencies in the data. They have many real-world applications, such as spell checking, duplicate detection, entity resolution, and webpage clustering. Although these two problems have been extensively studied in the recent decade, there is no thorough survey. In this paper, we present a comprehensive survey on string similarity search and join. We first give the problem definitions and introduce widely-used similarity functions to quantify the similarity. We then present an extensive set of algorithms for string similarity search and join. We also discuss their variants, including approximate entity extraction, type-ahead search, and approximate substring matching. Finally, we provide some open datasets and summarize some research challenges and open problems.  相似文献   

18.
随着室内定位技术的广泛应用,室内位置服务快速发展.移动对象索引技术作为支撑位置服务的核心技术,大多数都基于室外环境,难以直接应用于室内空间.现有的室内移动对象索引,仅关注对移动对象历史数据的查询,且支持的查询类型单一.为此,提出MQII(multiple queries indoor index)索引结构,对移动对象历史和当前位置信息进行索引,能够同时支持对象位置查询、轨迹查询以及时空范围查询.索引采用对象链表和桶链表结构,实现从对象和时空范围2个方面对移动对象数据的管理;提出针对该索引结构的有效更新、查询算法;实验结果表明,与现有室内移动对象索引相比,索引不仅能够支持历史查询和当前查询,还能够同时高效支持对象位置查询、轨迹查询和范围查询.该方法可应用于办公楼、医院等多种室内空间.  相似文献   

19.
利用覆盖区域设计与实现移动对象索引   总被引:1,自引:0,他引:1       下载免费PDF全文
对移动对象索引频繁更新问题进行了研究,提出了一种基于区域覆盖的空间索引结构虚拟网格四分树(virtual grid quadtree,VGQ);通过索引移动对象所在的区域而非移动对象本身来减少由于移动对象位置的改变而引起的索引结构的改变,并给出了近似连续范围查询算法及增量和自底向上优化策略。实验结果表明,VGQ在查询效率和空间使用上是一种有效的索引方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号