首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
根据本向量的维分布的稀疏性,提出了基于倒排索引的本相似搜索算法。该算法通过倒排索引进行维过滤,快速获得尽量小的目标集的超集。实验表明,在海量本环境下,该方法虽略微损失准确度,但其速度远远高于传统基于多维索引的算法。  相似文献   

2.
在传统的地图可视化中,面对海量地图标记物展示会采用点聚合的方式,但是各类点聚合算法都是运行时计算,没有分层机制,在海量点的散开展示时,对于地图标记物堆叠没有过滤机制。针对这一问题,提出了分层的网格划分实现海量地图标记物聚散一体化解决方案。该方法对分层网格中心点构建K-D树索引,对海量点构建四叉树索引,通过索引和存储技术,实现了聚合的高效查询。对海量点散开时增加网格过滤,消除堆叠问题。在实验案例数据集上进行对比,结果表明,与传统的点聚合方案相比,在数据量大的情况下,计算性能显著提高,对海量标记物散开展示增加过滤算法,有效提升了用户体验。  相似文献   

3.
半结构化数据相似搜索的索引技术研究   总被引:6,自引:0,他引:6  
杨建武  陈晓鸥 《计算机学报》2002,25(11):1219-1226
为了在海量、高维、动态的半结构化数据集上进行有效的相似搜索,该文提出一种采用聚类技术进行索引构建与更新的多路平衡树--CSS-树以及基于CSS-树的相似搜索与动态更新的算法。CSS-树借鉴SS^ -树基于聚类进行节点组织与分裂的基本思想,避免了根据坐标准进行分裂时所要求的维不相关性,同时在节点组织、分裂算法和搜索算法等方面进行了改进,提出了新的搜索剪枝策略,实验表明,该结构及算法对海量半结构化数据相似搜索和效率明显优于传统算法。  相似文献   

4.
海量文本快速索引是云检索系统的一个难点,而分布式索引程序的开发难度较大。文中提出了一种基于MapReduce的分布式索引方法,通过在Map函数中执行文档的解析及索引,以及在Reduce函数中合并索引数据,以减少文档排序的工作量,提高索引效率。实验结果表明,该方法适用于海量数据的并行处理。  相似文献   

5.
为提高多格式海量数据统一存取效率,提出了一种基于Hadoop的分布式数据读取模式。并通过对海量数据非主键索引结构的研究,结合统一存取的描述理念,提出了基于HDFS的一种可适用于B-树和R-树及其变种的层次索引结构,改变了原键—值存储在非主键索引结构中的劣势。通过提出Hadoop缓冲策略、基于随机读取的新数据传输模型以及相应的查询处理策略,进一步降低了数据传输开销。实验表明,该系列方法优化了统一存取中随机存取效率,减少了相应的查询响应时间和数据传输开销,提高了多格式海量数据统一存取的性能。  相似文献   

6.
电信行业由于在话单采集过程中的某些异常可能会产生重复话单,如果不及时剔除,将导致用户的费用统计有误,引起客户投诉,造成客源流失。本文通过对电信行业海量数据的分析提出了一个利用文件索引、Swap技术、事务控制和并发处理相结合的方法解决话单判重和去重的问题,为设计去重算法提供了一个可以借鉴的方案。  相似文献   

7.
万婵  江疆  吴穹 《微型电脑应用》2023,(1):197-200+204
针对当前电网数据集市海量信息索引未考虑排序处理数据信息,导致系统检索效率和查全率低,稳定性差的问题,提出考虑哈希索引的电网数据集市海量信息索引系统设计方法。该系统聚类融合处理数据信息,根据关联规则挖掘结果提取与检索数据,结合哈希算法排序融合电网数据信息。该系统采用B/S三层体系,将其分为表示层、功能层和数据层,从而实现了系统的功能模块的设计,完成电网数据集市海量信息索引系统设计。实验结果表明,该系统设计方法的检索效率和查全率更高,稳定性更好。  相似文献   

8.
基于分区技术的静态R树索引并行计算技术   总被引:1,自引:0,他引:1       下载免费PDF全文
海量空间数据静态R树索引的加载时耗很大。该文利用关系数据库的优势,以空间数据分区存储技术为基础,提出针对自上而下的贪婪分裂算法的静态R树并行加载方法。该方法提高了海量数据批量加载效率,支持分区粒度的索引重建。论证与实验结果表明,并行构建的R树在合理空间数据分区下可以获得更高查询效率。  相似文献   

9.
索引在飞行仿真系统数据库中的应用与优化   总被引:2,自引:0,他引:2  
仿真数据库在计算机飞行仿真系统中具有相当重要的地位,整个仿真的过程都是围绕仿真数据库中的数据进行的。仿真结果数据是仿真数据库中最重要的数据,并且是海量的数据,要求有高效的方法对这些数据进行访问、处理。针对此问题,对仿真数据库中的索引技术进行了重点研究。索引技术是数据库应用中提高数据检索最有效的方法,如何有效利用索引技术来优化数据库是提高飞行仿真系统性能的一个重点。结合飞行仿真数据库系统的开发和应用实践,对索引的建立和优化进行了深入研究,提出了仿真数据库中索引的应用策略,并应用到飞行仿真系统的仿真数据库中。仿真结果表明,提出的索引策略有效地提高了仿真数据库的性能。  相似文献   

10.
分片位图索引:一种适用于云数据管理的辅助索引机制   总被引:3,自引:0,他引:3  
云计算技术的快速发展为海量数据的存储和管理提供了可能.然而,由于存储模型的根本改变,传统关系数据库管理系统中成熟的索引技术既不能直接应用于海量数据的处理,也无法被简单地迁移到云计算环境中.通过分析对比辅助索引在云环境中的两种截然不同的基本逻辑结构,即集中式方案与分布式方案,在吸收两者的优势并规避其弱点的基础上,提出了具有良好可扩展性的分片位图索引机制,从而对云环境中海量数据的检索任务提供高效的支持.通过充分利用云环境中的并行计算资源,使单条查询的响应速度得到提升;与此同时,局部节点根据其所掌握的全局信息规避了不必要的检索开销从而使大量请求并发到达时的查询吞吐量得以保证.在真实数据上进行实验的结果表明,分片位图索引的查询性能大大优于其它方法.  相似文献   

11.
从序列SAR影像中选取全部有效的相干像元是提高SAR干涉变形监测空间密度和可靠性的重要保障。针对地基SAR的局域性、连续观测、数据量大、零基线干涉、相干性强和空间分辨率不一致等特点,在研究其成像特点的基础上,提出从海量时序地基SAR干涉图中提取相干目标的双阈值法,利用隔河岩水利工程区域1 330幅地基SAR影像对该方法进行了检验,实验结果证明该方法可有效提取可靠的相干像元,并指出当地基SAR影像多于600幅时,小于0.3的平均相干系数阈值对相干目标数量几乎没有影响,而振幅离差指数阈值是影响地基SAR相干目标数量的主要因素。  相似文献   

12.
在大数据时代,数据具有体量大、时空复杂性明显、对实时性要求较高等特点,而传统基于树形结构对大规模时空数据进行索引的方法存在存储空间浪费和查询效率较低的问题。为了解决该问题,提出了一种基于数据和历史查询记录分布建立时空索引的新方法HDL-index。该算法一方面根据数据在空间上的分布,通过空间划分的思想建立索引网格;另一方面考虑到查询在时间上的延续性,对查询记录对象进行密度聚类后抽象出查询代表模型,然后根据模型的坐标位置和其查询粒度对整体查询区域进行分割。两部分所得到的索引网格都采用Geohash编码,最终合并得到最优的索引编码。HDL-index在考虑数据分布的同时充分考虑用户查询行为,使得频繁查询区域上的索引更加细化。在真实航空数据集上与同类方法进行比较测试的结果表明,其创建索引的效率提高了50%;同时在数据均匀分布的情况下对热点区域的查询效率可提高75%以上。  相似文献   

13.
空间数据索引与查询技术研究及其应用   总被引:3,自引:3,他引:3  
由于空间数据本身的复杂性,以及目前对海量空间数据快速查询的要求日益提高,当前地理信息系统正面临着大数据量空间数据存储及管理的挑战。因此,该文在对当今空间存储方法及空间查询的一些主要技术进行比较和分析之后,提出了基于R树的优化的空间查询系统框架设计,并在一个地理信息系统的应用实例中实现了该设计。  相似文献   

14.
一种矢量数据的双层次多尺度表达模型与检索技术   总被引:1,自引:0,他引:1       下载免费PDF全文
空间数据的多尺度表达是当代GIS研究的热点问题之一。该文针对矢量数据快速可视化的需求,结合制图综合领域的相关理论,提出了一种矢量数据双层次多尺度表达模型,用来将矢量数据抽象为空间要素和要素内的点坐标两个层次进行表达。其中空间要素层次的表达以空间要素为最小研究单元,通过建立多尺度索引来描述空间要素因尺度改变而引起的数量或性质变化;要素点坐标层次的表达则是以要素内坐标点为最小研究单元,通过尺度层次标记的方式来表达空间要素内的点坐标随尺度变化的渐变过程。该模型在开源数据库管理系统PostgreSQL支持下,扩展了相应的索引与函数,实现了矢量数据的双层次多尺度表达模型,同时设计了相应的检索算法,并以某城市1:10 000土地利用数据为例,对上述模型与检索算法进行了验证。实验结果表明,在基本不影响可视化效果的前提下,该矢量数据多尺度模型能极大地提高海量矢量数据的可视化与传输的效率。  相似文献   

15.
刘英  张曙光 《计算机应用》2005,25(6):1277-1278
针对空间数据的访问控制的特点,提出了基于空间索引的区域访问控制概念。定义了其授权和访问请求判断的规则和约束条件。给出了授权和访问请求判断的方法,建立了二维空间区域访问控制模型。  相似文献   

16.
With the rocket development of the Internet, WWW(World Wide Web), mobile computing and GPS (Global Positioning System) services, location-based services like Web GIS (Geographical Information System) portals are becoming more and more popular. Spatial keyword queries over GIS spatial data receive much more attention from both academic and industry communities than ever before. In general, a spatial keyword query containing spatial location information and keywords is to locate a set of spatial objects that satisfy the location condition and keyword query semantics. Researchers have proposed many solutions to various spatial keyword queries such as top-K keyword query, reversed kNN keyword query, moving object keyword query, collective keyword query, etc. In this paper, we propose a density-based spatial keyword query which is to locate a set of spatial objects that not only satisfies the query’s textual and distance condition, but also has a high density in their area. We use the collective keyword query semantics to find in a dense area, a group of spatial objects whose keywords collectively match the query keywords. To efficiently process the density based spatial keyword query, we use an IR-tree index as the base data structure to index spatial objects and their text contents and define a cost function over the IR-tree indexing nodes to approximately compute the density information of areas. We design a heuristic algorithm that can efficiently prune the region according to both the distance and region density in processing a query over the IR-tree index. Experimental results on datasets show that our method achieves desired results with high performance.  相似文献   

17.
基于聚类的Hilbert R-树空间索引算法   总被引:2,自引:2,他引:0  
R-树适合于动态索引,但空间重叠大,而Hilbert R-树也不能有效降低节点覆盖和交叠,直接影响R-树的查询效率。为适应大量的GIS查询应用需要,提出对Hilbert R-树节点进行聚类的索引算法,较好地解决相邻数据的聚类存放,使叶节点MBR面积减小,内部节点交叠降低,并对该算法进行实验测试和性能分析,结果表明该算法具有较高的查询效率。  相似文献   

18.
对大型高维数据集进行高效的聚类分析已成为许多领域的迫切需要,但是一般的聚类技术在处理高维数据时性能低下。树型空间索引可以高效地组织并检索高维数据,因此使用树型空间索引是改善聚类性能的有力途径。该文介绍各种树型空间索引的结构,并对它们的性能加以分析,接着讨论树型空间索引在聚类分析中的应用,并提出将树型空间索引与聚类技术相融合的思想。  相似文献   

19.
住宅的生活便利度指数指住宅居民在一定范围内可利用的设施种类与数量,是城市宜居度的重要指标.兴趣点(point of interest, POI)数据是一组包含物理实体属性的地理坐标点,具有数据种类详尽、粒度精细、范围广和时效性强的优点.基于高德POI数据,对北京市城区住宅的生活便利度指数进行研究,提出面向地铁出行的各向异性距离度量方法,根据构建的生活便利度指数指标体系将住宅分为优质、良好、中等和待改进4个等级.各等级住宅在城区中的空间分布结果表明,考虑地铁出行后,对住宅的生活便利度指数度量更为合理.  相似文献   

20.
为了解决空间技术不断发展造成的大量空间数据难以及时处理的缺陷,提出用于数据检索的数据结构模式快速匹配方法。将网络划分多个不同的区域,每个区域分配一个域首,负责采集区域的信息,将采集的所有信息发送至中心管理系统,获取不同层次的匹配内容。通过匹配内容,获取各个匹配方式的相似度函数,通过相似度计算结果完成数据结构模式快速匹配。实验结果表明,所提方法能够有效减少通信降低,提高匹配速度,增加匹配精度,达到理想的匹配效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号