首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
针对树形空间索引中多路查询及未考虑时间维索引的问题,提出一种结合时间和聚类结果的Hilbert-R树索引构建策略。首先,按照数据采集的周期划分时空数据集,并在此基础上建立时间索引,通过Hilbert曲线对空间数据进行分割编码,将空间坐标映射到一维区间;其次,依据数据要素在空间中的分布,采用动态确定K值的聚类算法,结合聚类结果构建高效的Hilbert-R树空间索引;最后,基于Redis几种常见的键值数据结构,对时空数据的时间属性和聚类结果构建分级索引。在时空范围及目标矢量对象查询的实验中,与缓存敏感R+树(CCR+)相比,所提算法可有效减少时间开销,查询时间平均缩短约25%,对不同密集型数据具有良好的适应性,可更好地支持Redis应用于海量时空数据查询。  相似文献   

2.
随着时代的发展,轨迹数据的数据量越来越大。提出使用LevelDB作为存储轨迹数据的数据库,解决了数据快速入库、短时间捞出大量数据的问题;同时使用Google S2作为轨迹数据的时空索引,并提出了一种区域查询算法。经实验证明,使用该索引进行区域查询,无论是在查询数据的精准度上,还是查询时间上,均优于基于GeoHash作为轨迹数据时空索引。  相似文献   

3.
针对HBase无法直接建立时空索引所带来的交通数据查询性能问题,基于HBase行键设计了面向海量交通数据的HBase时空索引。首先利用Geohash降维方法将二维空间位置数据转化为一维编码,再与时间维度进行组合;然后根据组合顺序的不同,提出了四种结构模型,分别讨论了模型的具体构成以及交通数据查询中的适应面;最后提出了相应的时空索引管理算法及基于Hbase时空索引的交通数据查询方法。通过实验验证了提出的HBase时空索引结构能有效提升海量交通数据的区域查询性能,并比较了四种时空索引结构在不同数据规模、不同查询半径以及不同时间范围的查询性能,量化验证了不同索引结构在交通数据查询中的适应场景。  相似文献   

4.
针对XML文档索引查询中非法路径查询响应时问过长的问题,提出一种利用DTD模式进行预处理的索引方法。建立索引DWBI,采用新的基十区域编码方式,有效地支持祖先一后代判断。查询时利用DTD模式对查询进行预处理,再查询带有DTD信息的XML索引树,从而提高查询的效率。  相似文献   

5.
基于不均匀空间划分和R树的时空索引   总被引:1,自引:0,他引:1       下载免费PDF全文
随着移动互联网以及物联网的发展,越来越多的移动设备都内置GPS服务,从而产生了大量的时空数据.这些数据体量大、分布不均匀且带有时间和空间经纬度等多维属性.传统的时空索引还有很多问题有待解决,例如难以处理大规模数据、无法同时处理时间和空间维度等.基于Geohash和R-Tree,提出一种2层时空索引GRIST(Geohash and R-Tree based index for spatio-temporal data),第1层是空间索引,它将空间划分为不同大小的网格并使用Geohash进行编码;第2层是时间索引,由R-Tree构成,不同R-Tree索引不同网格里的数据.GRIST索引支持面向时间和面向时空的查询.在大量随机数据和真实Uber数据上的实验表明:GRIST在索引的构建效率上较于GeoMesa和PostGIS系统可以提升10~45倍,在查询效率上可以提升2~4倍.  相似文献   

6.
云计算在实际应用的过程中具有较强的数据处理能力,能够对大容量的数据展开存储和处理,具有较高的实际应用价值.基于此,本文将分析云计算数据查询系统的建立,并研究在云计算基础上数据查询系统安全索引的构建方法,其中主要包括相似子图的查询构造、哈希索引构造以及安全索引的仿真建立三方面内容.  相似文献   

7.
随着数字采集和存储技术的快速发展,视频监测系统得到快速普及,以此带来了海量的监测视频数据。与文本数据不同的是,监测数据具有时空特征,如何在规模庞大且动态增长的数据量下进行高效的查询成为许多时空数据应用所关心的问题。针对云存储体系结构中监测视频大数据高效的时空联合查询需求,充分利用时空特征值和属性特征值在应用中的关联关系,以及HBase数据库在海量查询方面的优良性能,提出了基于HBase Bloomfilter的时空大数据多重过滤机制,创新性地利用视频文件特征值之间的依赖与关联关系来安排rowkey索引键。在此基础上设计出两种时空关联查询算法。最后通过实验证明了算法在时空大数据查询方面的可行性、灵活性和高效性,对其他大数据关联查询应用有较好的指导意义。  相似文献   

8.
张军旗  周向东  施伯乐 《软件学报》2008,19(8):2054-2065
为了改进高维数据库查询的效率,通常需要根据数据分布来选择合适的索引策略.然而,经典的分布模型难以解决实际应用中图像、视频等高维数据复杂的分布估计问题.提出一种基于查询采样进行数据分布估计的方法,并在此基础上提出了一种支持最近邻查询的混合索引,即针对多媒体数据分布的不均匀性,自适应地对不同分布的数据使用不同的索引结构,建立统一的索引结构.为了实现混合索引,采用构造性方法:首先通过聚类分解分割数据并建立树状索引;然后使用查询采样算法,对数据实际分布进行估计;最后根据数据分布的特性,把稀疏数据从树状索引中剪裁出来,进行基于顺序扫描策略的索引,而分布比较密集的数据仍然保留在树状索引中.在4个真实的图像数据集上进行了充分的实验,结果显示,该索引方法明显优于iDistance,M-Tree等度量空间索引,在维数达到336时,查询效率仍高于顺序扫描.实验结果显示,该查询采样算法在采样数据量仅为N~(1/2)(N为数据量)的情况下即可获得满足索引需要的分布估计结果.  相似文献   

9.
李峰  罗磊 《计算机应用》2012,32(8):2205-2222
针对Mon-tree索引的不足提出一种基于道路网络的时空索引方法IMon-tree。索引分三层,顶部用四叉树网格来索引道路网络,底部二维R树用来索引物体的运动信息,中部单链表将上述两层连接起来,完成从道路到运动信息的映射。为了支持轨迹查询,用哈希表将物体的运动信息组织起来。对比实验表明IMon-tree轨迹查询比TMN-tree性能更好,时空查询算法平均响应时间是Mon-tree的65%,是TMN-tree的81%。该方法可应用于各种空间数据库以及地理信息系统。  相似文献   

10.
针对当前无线传感器网络中数据查询通信开销大而带宽资源有限的问题,提出了一种基于局部聚类的数据存储模型.该模型通过将整个网络按地理位置划分区域,采用局部数据聚集存储,避免了将同种数据发送至一个存储点存储所造成的巨大通信开销,从而均衡通信带宽.在数据存储模型之上,提出了一种基于空间索引的数据查询方法(SIQ).在SIQ中只利用存储节点构建成索引的叶子节点,与利用所有节点建成的索引相比,其维护的节点数量少,索引的构建成本降低.同时SIQ采用数据属性为空间索引内容,有效地对监测数据进行多维属性的范围查询.仿真结果表明,与较成熟的DD算法和GHT算法相比,SIQ方法能克服泛洪查询所引起的高通信复杂度.  相似文献   

11.
密度峰值聚类算法综述   总被引:1,自引:0,他引:1       下载免费PDF全文
密度峰值聚类(density peak, DPeak)算法是一种简单有效的聚类算法,它可将任意维度数据映射成2维,在降维后的空间中建构出数据之间的层次关系,可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度峰值点,可以用来作为聚类中心.根据建构好的层次关系,该算法提供了2种不同的方式完成最后聚类:一种是与用户交互的决策图,另一种是自动化方式.跟踪了DPeak近年来的发展与应用动态,对该算法的各种改进或变种从以下3方面进行了总结和梳理:首先,介绍了DPeak算法原理,对其在聚类算法分类体系中的位置进行了讨论.将其与5个主要的聚类算法做了比较之后,发现DPeak与均值漂移聚类算法(mean shift)有诸多相似之处,因而认为其可能为mean shift的一个特殊变种.其次,讨论了DPeak的几个不足之处,如复杂度较高、自适应性不足、精度低和高维数据适用性差等,将针对这些缺点进行改进的相关算法做了分类讨论.此外,梳理了DPeak算法在不同领域中的应用,如自然语言处理、生物医学应用、光学应用等.最后,探讨了密度峰值聚类算法所存在的问题及挑战,同时对进一步的工作进行展望.  相似文献   

12.
王黎明  程晓  柴玉梅 《计算机应用》2010,30(8):2013-2016
在属性基数(该属性可能的取值数)很高的情况下,简单位图索引需要占用太大存储空间。Bin位图索引可以很好解决这个问题。这种索引不像简单位图索引那样建立在不同的属性值上,而是建立在属性范围上,但候选检查往往占用大部分的查询时间。为了提高查询性能,提出一种排序方法来对各属性进行排序,以减少候选检查数目,并在此基础上提出动态预扫描算法。实验结果表明,排序和动态预扫描算法都取得了良好的效果。  相似文献   

13.
马慧  吴凌坤 《计算机工程》2011,37(19):41-43,46
为提高多属性区域的查询效率,在物理层重新安排记录排列顺序,以减少查询访问磁盘块数。在此基础上,构造数学模型,将待查询记录按属性值映射至多维坐标空间中的点,以求解一个线性序,使空间中相距越远的点在线性序中也相距越远,并提出一种适用于多属性范围查询的聚簇方法。实验结果表明,与光谱算法及传统聚簇算法相比,该方法查询性能更优。  相似文献   

14.
    
Many scientific applications produce very large amounts of data as advances in hardware fuel computing and experimental facilities. Managing and analyzing massive quantities of scientific data is challenging as data are often stored in specific formatted files, such as HDF5 and NetCDF, which do not offer appropriate search capabilities. In this research, we investigated a special class of search capability, called membership query, to identify whether queried elements of a set are members of an attribute. Attributes that naturally have classification values appear frequently in scientific domains such as category and object type as well as in daily life such as zip code and occupation. Because classification attribute values are discrete and require random data access, performing a membership query on a large scientific data set creates challenges. We applied bitmap indexing and parallelization to membership queries to overcome these challenges. Bitmap indexing provides high performance not only for low cardinality attributes but also for high cardinality attributes, such as floating‐point variables, electric charge, or momentum in a particle physics data set, due to compression algorithms such as Word‐Aligned Hybrid. We conducted experiments, in a highly parallelized environment, on data obtained from a particle accelerator model and a synthetic data set.  相似文献   

15.
随着数据的爆炸式增加,不完整数据普遍存在,传统的数据修复方法对于海量数据处理代价过高,且不能彻底修复,在这些不完整的海量数据上进行满足给定需求的近似查询引起了学术界的关注.因此,提出一种基于压缩的海量不完整数据近似查询方法,该方法对属性值缺失字段进行标记,根据频繁查询条件对标记后的数据进行压缩,并建立对应索引;根据属性划分对索引文件再次压缩以节省存储空间,采用编码字典对索引压缩文件进行选择和投影操作,最终获得不完整数据的近似查询结果.实验表明,该方法能够快速定位不完整数据的压缩位置,提高了查询效率,节省了存储空间,并且保证了查询结果的完整性.  相似文献   

16.
DBSCAN(density-based spatial clustering of applications with noise)是应用最广的密度聚类算法之一. 然而,它时间复杂度过高(O(n2)),无法处理大规模数据. 因而,对它进行加速成为一个研究热点,众多富有成效的工作不断涌现. 从加速目标上看,这些工作大体上可分为减少冗余计算和并行化两大类;就具体加速手段而言,可分为6个主要类别:基于分布式、基于采样化、基于近似模糊、基于快速近邻、基于空间划分以及基于GPU加速技术. 根据该分类,对现有工作进行了深入梳理与交叉比较,发现采用多重技术的融合加速算法优于单一加速技术;近似模糊化、并行化与分布式是当前最有效的手段;高维数据仍然难以应对. 此外,对快速化DBSCAN算法在多个领域中的应用进行了跟踪报告. 最后,对本领域未来的方向进行了展望.  相似文献   

17.
云数据管理索引技术研究   总被引:4,自引:3,他引:4  
马友忠  孟小峰 《软件学报》2015,26(1):145-166
数据的爆炸式增长给传统的关系型数据库带来了巨大的挑战,使其在扩展性、容错性等方面遇到了瓶颈.而云计算技术依靠其高扩展性、高可用性、容错性等特点,成为大规模数据管理的有效方案.然而现有的云数据管理系统也存在不足之处,其只能支持基于主键的快速查询,因缺乏索引、视图等机制,所以不能提供高效的多维查询、join等操作,这限制了云计算在很多方面的应用.主要对云数据管理中的索引技术的相关工作进行了深入调研,并作了对比分析,指出了其各自的优点和不足;对在云计算环境下针对海量物联网数据的多维索引技术研究工作进行了简单介绍;最后指出了在云计算环境下针对大数据索引技术的若干挑战性问题.  相似文献   

18.
时空一体化的海量数据管理及相应的时序分析能力是新一代GIS软件体系的重要研究目标之一。当前,基于无缝海量大表的空间及时态空间数据的存取效率亟待提高。为了对海量时空数据进行有效管理和提高时空检索效率,以扩充关系型时空模型为基础,对大型对象一关系型数据库平台所提供的数据分区与聚簇方法进行了时空维的扩展,提出了基于时空分区聚簇(spatio-temporal partition clustering,STPC)的海量时空数据性能优化方法。基于2GB~60GB的单表所进行的检索效率对比测试结果表明,STPC机制较普通的数据组织方式时空检索效率平均提高了10.1%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号