共查询到19条相似文献,搜索用时 62 毫秒
1.
讨论了高维数据空间索引的基本结构、建树算法,重点对几种有代表性的索引方法,如R-Tree,X-Tree,M-tree,VP-tree在重叠、插入原则、分裂原则、再插入等方面进行了比较研究。该文中主要介绍了一些索引结构的特点和一些具有代表性的索引结构。 相似文献
2.
以在P2P网络下实现对海量、高维数据的高效相似性检索为目标,提出PLCID索引方法(modified iDistance based on Proximity Location Code),该方法有效地缩小了需要搜索的范围,减少了数据对象间的距离计算次数,提高了检索性能;根据PLCID索引方法,在结构化P2P网络上实现高维数据检索.通过实验表明,相比原来的iDistance索引方法,在时间性能和系统开销上都有了明显提高. 相似文献
3.
提出了一种压缩金字塔树,将d维数据空间划分为2d个金字塔,由于在低维空间中无效的信息在高维数据空间中往往无效,采用γ划分策略对低维空间中的数据进行压缩,减小索引结构,克服了金字塔技术的缺点。给出了压缩金字塔树的构造方法以及基于压缩金字塔树的查询算法。实验证明,压缩金字塔树是一种有效的空间划分策略,在高维稀疏空间有良好的性能。 相似文献
4.
提出了一种压缩金字塔树,基本思想是,首先将d维数据空间划分为2d个金字塔,由于在低维空间中无效的信息在高维数据空间中往往无效,采用γ划分策略对低维空间中的数据进行压缩,减小索引结构,解决了金字塔技术的缺点,给出了压缩金字塔树的插入、查询、删除算法。最后经实验证明,压缩金字塔树是一种有效的空间划分策略,在高维稀疏空间有良好的性能。 相似文献
5.
高维数据相似性度量方法研究 总被引:4,自引:0,他引:4
将低维空间中的距离度量方法(如Lk-范数)应用于高维空间时,随着维数的增加,对象之间距离的对比性将不复存在。研究高维数据有效的距离或相似(相异)度度量方法是一个重要且具有挑战性的课题。通过对传统的距离度量或相似性(相异性)度量方法在高维空间中表现出的不适应性的分析,并对现有的应用于高维数据的相似性度量方法进行总结,提出了高维数据相似性度量函数Hsim(X,Y)的改进方法HDsim(X,Y)。函数HDsim(X,Y)整合了各类型数据的相似性度量方法,在处理数值型、二值型以及分类属性数据上充分体现了原Hsim(X,Y)处理数值型数据、Jaccard系数处理二值数据以及匹配率处理分类属性数据的优越性。通过有效性及实例分析,充分论证了HDsim(X,Y)在高维空间中的有效性。 相似文献
6.
目前,个人和组织的信息呈现急剧增长趋势,且非结构化数据所占比重在不断增加,这些属于某个主体的海量、分布、异构和共存的数据构成了一个异构数据空间,如何为用户提供高效、便捷和多样化的搜索查询服务是数据空间面临的巨大挑战,为数据空间中异构数据构建高效的索引方法是解决这一问题的基础。对iMeMex数据模型的特点和数据空间中查询方法进行了分析,在此基础上通过扩展倒排列表方法,提出了一种基于iMeMex数据模型的索引方法,来提高对数据空间中异构数据的搜索查询效率。新的索引方法通过扩展倒排列表的关键字列和链表节点信息索引资源视图,来支持和提高关键字查询、谓词查询和路径查询的处理效率。实验结果表明,该索引方法能够有效、可行地解决数据空间中异构数据索引和查询效率问题。 相似文献
7.
VAR-Tree--一种新的高维数据索引结构 总被引:6,自引:1,他引:6
在多媒体信息检索和数据挖掘等应用领域,实现高维矢量的K近邻搜索是非常具有挑战性的研究课题,为此人们提出了很多种索引结构.然而,现有研究成果表明,随着矢量维数的增加,基于树状索引结构的查询性能急剧下降,例如在R-Tree,X-Tree和SS-Tree中都会出现“维数灾难”.为此,又引入近似压缩的思想,即通过压缩数据来减少查询过程中的磁盘读写代价,例如VA-File等,不过,VA-File没有对近似矢量数据做任何的排序或层次处理.提出了一种新的索引结构VAR-Tree,它将VA-File与R-Tree有机结合起来,用R-Tree管理和组织VA-File中的近似数据,并用已提出的R-Tree类相似查询算法实现基于VAR-Tree的查询.实验结果表明,VAR-Tree较好地提高了检索性能. 相似文献
8.
9.
CKDB-Tree:一种有效的高维动态索引结构 总被引:1,自引:0,他引:1
在高维数据空间中提出了一种新的索引结构:CKDB-Tree(Compact KDB-Tree),该索引结构采用一种新的分裂策略,在进行分裂时,引入插入安全点和删除安全点的概念,不仅考虑到将来的数据,而且对已经进行索引的数据也进行考虑;给出了CK-DB-Tree的定义以及节点结构的特点,针对CKDB-Tree,给出了相应的插入、查找、删除操作的算法;对该索引结构的存储性能进行定量分析和推理;最后经实验证明,CKDB-Tree是高维空间中一种有效的动态索引结构。 相似文献
10.
GIS空间索引技术探究 总被引:2,自引:0,他引:2
空间索引是空间数据库的关键技术之一,也是困扰GIS工作者的最大难题之一。因而对如何建立更有效的空间索引结构一直是GIS领域最现实、最急迫、也是最前沿的研究课题。本文介绍了GIS中具有代表性的几种空间索引方法,并且进行了分析对比。最后,简要的讨论了空间索引方法的发展方向。 相似文献
11.
基于聚类分解的高维度量空间索引B~ -Tree 总被引:2,自引:0,他引:2
为了提高索引性能,高维度量空间索引通常采用K-Means等聚类技术来获取数据的分布信息.但是,已知的工作需要根据经验来确定聚类参数,缺乏对聚类与查询性能之间关系的理论分析.提出了一种基于聚类分解的高维度量空间B~ -tree索引,通过聚类分解,对数据进行更细致的划分来减少查询的数据访问.对聚类与查询代价的关系进行了讨论,通过查询代价模型,给出了最小查询代价条件下的聚类分解数目等理论的计算方法.实验显示,提出的索引方法明显优于iDistance等度量空间索引,最优聚类分解数的估计接近实际最优查询时所需的聚类参数. 相似文献
12.
VA-Trie:一种用于近似k近邻查询的高维索引结构 总被引:1,自引:1,他引:1
近年来,随着多媒体信息检索技术的不断发展,如何实现高维特征矢量的快速相似性查询成为一个重要的研究课题.为此,人们提出了许多索引结构,包括:R—Tree及其变种、对矢量进行量化近似的VA—File、引入量化思想的A—Tree等等.从公开发表的成果看,这些索引结构在较低维数时,都能够表现出较好的查询性能;而当维数增加时,性能则急剧恶化.为了在更高维数下实现快速相似查询,可采用VA—File和A—Tree中的近似思想,并借助Trie结构来组织和管理压缩后的近似矢量,即所谓的VA—Trie.实验结果表明,在高达128维时VA—Trie仍有查询加速,其性能远好于A—Tree. 相似文献
13.
沈萍 《数字社区&智能家居》2009,(6)
数据挖掘是致力于数据分析和理解,揭示数据内部蕴藏知识的技术。它是未来信息技术应用的重要目标之一。而高维数据在实际应用中的使用,使得对高维数据挖掘的研究有着非常重要的意义。文章介绍了高维数据挖掘对数据挖掘的挑战及应对策略,提出了一些挖掘模型的创新点。 相似文献
14.
余冬梅 《计算机与数字工程》2011,39(11):94-96
空间数据库在当今社会经济发展中的作用变得日趋重要,对其进行的研究也日趋迫切。对空间索引及其发展分类、空间数据查询及其与传统关系数据库的区别进行了研究,并对优化空间索引和空间数据查询的研究思路进行了分析说明。 相似文献
15.
空间数据索引与查询技术研究及其应用 总被引:3,自引:3,他引:3
由于空间数据本身的复杂性,以及目前对海量空间数据快速查询的要求日益提高,当前地理信息系统正面临着大数据量空间数据存储及管理的挑战。因此,该文在对当今空间存储方法及空间查询的一些主要技术进行比较和分析之后,提出了基于R树的优化的空间查询系统框架设计,并在一个地理信息系统的应用实例中实现了该设计。 相似文献
16.
高维数据挖掘算法的研究与进展 总被引:1,自引:1,他引:1
生物信息学和电子商务应用的迅速发展积累了大量高维数据,对高维数据的挖掘变得越来越重要,一般的数据挖掘方法在处理高维数据时会遇到维灾的问题,同时传统相似性度量在高维空间中也变得没有意义。文章从频繁项集挖掘、聚类、分类等三个方面对最新的高维数据挖掘算法的现状进行了综述,对这些算法如何解决高维数据挖掘存在的问题进行研究。 相似文献
17.
高维房地产数据中包含着复杂的空间和时间趋势,为了使用户能够创建自己的可视化形式并理解房地产市场中的内容,提出基于HTML5的在线房地产信息的、包含4个组件的可视分析方法.该方法提出了基于楼盘地理位置聚类的可视化方法来展示楼盘地理信息的地学可视化组件,结合多种布局和排序方式来展示楼盘销售数量变化的堆栈图组件,基于楼盘销量和价格的聚类方法来展示楼盘多维属性的像素条图组件,并结合多种节点布局和排序的方式展示数据层次结构的树图组件;最后对各组件设计了良好的交互操作,丰富了系统的分析能力.文中方法已用于杭州市房地产的真实数据分析中,用户和专家反馈效果良好. 相似文献
18.
目前的关系数据库代价模型及查询优化算法无法处理保存在第三级存储器中的海量数据.提出了估算第三级关系代数操作的代价模型,通过定义若干基本数据访问模式及两种模式合成方法的代价,导出关系代数操作的代价.提出了针对第三级存储器的查询优化方法,该方法不仅可以选择最高效的关系代数操作实现算法,而且可以选择I/O代价最小的关系副本,从而提高查询效率.实验结果表明,应用提出的代价模型及查询优化方法后可以显著地提高第三级存储器上数据的查询效率.关系副本的引入充分证明了用存储空间换取查询执行时间的策略的可行性. 相似文献