共查询到19条相似文献,搜索用时 109 毫秒
1.
半结构化数据相似搜索的索引技术研究 总被引:6,自引:0,他引:6
为了在海量、高维、动态的半结构化数据集上进行有效的相似搜索,该文提出一种采用聚类技术进行索引构建与更新的多路平衡树--CSS-树以及基于CSS-树的相似搜索与动态更新的算法。CSS-树借鉴SS^ -树基于聚类进行节点组织与分裂的基本思想,避免了根据坐标准进行分裂时所要求的维不相关性,同时在节点组织、分裂算法和搜索算法等方面进行了改进,提出了新的搜索剪枝策略,实验表明,该结构及算法对海量半结构化数据相似搜索和效率明显优于传统算法。 相似文献
2.
3.
一种有效的支持海量图像数据库QBE查询的聚类索引算法 总被引:2,自引:0,他引:2
对海量图像数据进行基于内容的查询与检索有赖于高效的索引和检索机制。因此,如何将海量图像数据进行合理的分类,人而建立相应的索引机制就成为了一个亟待解决的问题。本文提出了一种有效的支持海量图像数据库QBE查询的聚类索引算法。实验在1万多幅的图像数据库上进行了反复测试,结果表明该算法可以极大地提高检索效率。 相似文献
4.
5.
为提高多格式海量数据统一存取效率,提出了一种基于Hadoop的分布式数据读取模式。并通过对海量数据非主键索引结构的研究,结合统一存取的描述理念,提出了基于HDFS的一种可适用于B-树和R-树及其变种的层次索引结构,改变了原键—值存储在非主键索引结构中的劣势。通过提出Hadoop缓冲策略、基于随机读取的新数据传输模型以及相应的查询处理策略,进一步降低了数据传输开销。实验表明,该系列方法优化了统一存取中随机存取效率,减少了相应的查询响应时间和数据传输开销,提高了多格式海量数据统一存取的性能。 相似文献
6.
现有的基于DHT的P2P系统只能通过精确匹配整个数据识别器来查询数据。但用户一般只有部分信息可以确认这些信息,为了在用户需求和基于DHT的P2P系统能力间架起一座桥梁,本文提出了一种新的索引和查询数据的方法。这种方法在数据的XML描述上建立了DHT索引,并方便了Xpath表达式的复杂查询。 相似文献
7.
针对树形空间索引中多路查询及未考虑时间维索引的问题,提出一种结合时间和聚类结果的Hilbert-R树索引构建策略。首先,按照数据采集的周期划分时空数据集,并在此基础上建立时间索引,通过Hilbert曲线对空间数据进行分割编码,将空间坐标映射到一维区间;其次,依据数据要素在空间中的分布,采用动态确定K值的聚类算法,结合聚类结果构建高效的Hilbert-R树空间索引;最后,基于Redis几种常见的键值数据结构,对时空数据的时间属性和聚类结果构建分级索引。在时空范围及目标矢量对象查询的实验中,与缓存敏感R+树(CCR+)相比,所提算法可有效减少时间开销,查询时间平均缩短约25%,对不同密集型数据具有良好的适应性,可更好地支持Redis应用于海量时空数据查询。 相似文献
8.
在大数据时代,数据具有体量大、时空复杂性明显、对实时性要求较高等特点,而传统基于树形结构对大规模时空数据进行索引的方法存在存储空间浪费和查询效率较低的问题。为了解决该问题,提出了一种基于数据和历史查询记录分布建立时空索引的新方法HDL-index。该算法一方面根据数据在空间上的分布,通过空间划分的思想建立索引网格;另一方面考虑到查询在时间上的延续性,对查询记录对象进行密度聚类后抽象出查询代表模型,然后根据模型的坐标位置和其查询粒度对整体查询区域进行分割。两部分所得到的索引网格都采用Geohash编码,最终合并得到最优的索引编码。HDL-index在考虑数据分布的同时充分考虑用户查询行为,使得频繁查询区域上的索引更加细化。在真实航空数据集上与同类方法进行比较测试的结果表明,其创建索引的效率提高了50%;同时在数据均匀分布的情况下对热点区域的查询效率可提高75%以上。 相似文献
9.
为了提高查询速度,对SQL Server中的索引机制进行了深入讨论,分析了如何选取索引来有效地提高查询速度、合理分配存储器空间等问题,举例说明了几种典型情况下的具体实施方法,为有关搞索引工作的同志提供了借鉴。 相似文献
10.
讨论了高维数据空间索引的基本结构、建树算法,重,最对几种有代表性的索引方法,如R—Tree,X-Tree,M—tree,VP-tree在重叠、插入原则、分裂原则、再插入等方面进行了比较研究。该文中主要介绍了一些索引结构的特点和一些具有代表性的索引结构。 相似文献
11.
云数据管理索引技术研究 总被引:4,自引:3,他引:4
数据的爆炸式增长给传统的关系型数据库带来了巨大的挑战,使其在扩展性、容错性等方面遇到了瓶颈.而云计算技术依靠其高扩展性、高可用性、容错性等特点,成为大规模数据管理的有效方案.然而现有的云数据管理系统也存在不足之处,其只能支持基于主键的快速查询,因缺乏索引、视图等机制,所以不能提供高效的多维查询、join等操作,这限制了云计算在很多方面的应用.主要对云数据管理中的索引技术的相关工作进行了深入调研,并作了对比分析,指出了其各自的优点和不足;对在云计算环境下针对海量物联网数据的多维索引技术研究工作进行了简单介绍;最后指出了在云计算环境下针对大数据索引技术的若干挑战性问题. 相似文献
12.
余冬梅 《计算机与数字工程》2011,39(11):94-96
空间数据库在当今社会经济发展中的作用变得日趋重要,对其进行的研究也日趋迫切。对空间索引及其发展分类、空间数据查询及其与传统关系数据库的区别进行了研究,并对优化空间索引和空间数据查询的研究思路进行了分析说明。 相似文献
13.
14.
新一代高能物理实验装置的建成与运行,产生了PB乃至EB量级的数据,这对数据采集、存储、传输与共享、分析与处理等数据管理技术提出了巨大挑战.事例是高能物理实验的基本数据单元,一次大型实验即可产生万亿级的事例.传统高能物理数据处理以ROOT文件为基本存储和处理单位,每个ROOT文件可以包含数千至数亿个事例.这种基于文件的处理方式虽然降低了高能物理数据管理系统的开发难度,但物理分析仅对极少量的稀有事例感兴趣,这导致了数据传输量大、I/O瓶颈以及数据处理效率低等问题.提出一种面向事例的高能物理数据管理方法,重点研究海量事例特征高效索引技术.在这种方法中,将物理学家感兴趣的事例的特征量抽取出来建立专门的索引,存储在NoSQL数据库中.为便于物理分析处理,事例的原始数据仍然存放在ROOT文件中.最后,通过系统验证和分析表明,基于事例特征索引进行事例筛选是可行的,优化后的HBase系统可以满足事例索引的需求. 相似文献
15.
16.
空间数据索引与查询技术研究及其应用 总被引:3,自引:3,他引:3
由于空间数据本身的复杂性,以及目前对海量空间数据快速查询的要求日益提高,当前地理信息系统正面临着大数据量空间数据存储及管理的挑战。因此,该文在对当今空间存储方法及空间查询的一些主要技术进行比较和分析之后,提出了基于R树的优化的空间查询系统框架设计,并在一个地理信息系统的应用实例中实现了该设计。 相似文献
17.
基于不均匀空间划分和R树的时空索引 总被引:1,自引:0,他引:1
随着移动互联网以及物联网的发展,越来越多的移动设备都内置GPS服务,从而产生了大量的时空数据.这些数据体量大、分布不均匀且带有时间和空间经纬度等多维属性.传统的时空索引还有很多问题有待解决,例如难以处理大规模数据、无法同时处理时间和空间维度等.基于Geohash和R-Tree,提出一种2层时空索引GRIST(Geohash and R-Tree based index for spatio-temporal data),第1层是空间索引,它将空间划分为不同大小的网格并使用Geohash进行编码;第2层是时间索引,由R-Tree构成,不同R-Tree索引不同网格里的数据.GRIST索引支持面向时间和面向时空的查询.在大量随机数据和真实Uber数据上的实验表明:GRIST在索引的构建效率上较于GeoMesa和PostGIS系统可以提升10~45倍,在查询效率上可以提升2~4倍. 相似文献
18.
数据分析和清理中相关算法研究 总被引:4,自引:0,他引:4
数据清理的一个主要作用是识别重复的记录.结合过滤算法和启发式剪枝算法提出了启发式剪枝改进算法.然后,针对重复记录的特点提出了长度约束条件,能有效地提高比较字段不等长时的执行速度.数据库中经常会出现各种形式不同的缩写,而启发式剪枝算法等无法识别缩写情况下的重复记录,本文因此提出了基于动态规划的缩写发现算法,该算法既可以用于缩写发现也可用于缩写存在时的重复记录识别.另外,重复记录的甄别目前必须人工处理,传统方式下用户不得不逐条浏览和分析,工作时间冗长而且乏味,容易引入新的数据质量隐患,作者提出了聚类清除方案和聚类闭包算法,它将重复的记录聚类显示,用户一次可以处理完一个重复聚类,在有效提高速度的同时方便了用户. 相似文献
19.