首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
XML数据索引技术   总被引:26,自引:3,他引:26  
孔令波  唐世渭  杨冬青  王腾蛟  高军 《软件学报》2005,16(12):2063-2079
对XML数据建立有效的索引,是左右XML数据处理性能的重要因素.深入地讨论了目前XML索引技术的研究现状,将XML索引技术分为两大类:节点记录类索引(本身还可以分为3个小的类型)和结构摘要类索引.根据XML数据查询处理效率以及XML数据修改对XML索引的要求,讨论了相关XML索引方法的优点和不足,并归结出XML索引后续研究的3个方向:XML结构信息的获取,路径信息的多维处理,数据修改合法性的有效支持,以及涉及能够同时有效满足XML查询和信息获取的索引.  相似文献   

2.
Web中存在着越来越多的XML的文档,如何高效地从XML文档查询出有效信息已经成为当前在半结构化数据研究领域中的热点问题。针对XML文档节点进行编码和建立索引结构可以有效地提高查询速度,提出一种SBXHCI(Schema-Based XML Hybrid Coding Indexing)查询技术,该方法充分利用Schema信息对XML文档进行编码和构建索引。对创建索引所花费的时间和空间,查询响应的时间进行大量的实验分析,结果表明SBXHCI方法的编码机制降低了索引结构在时间和空间的资源消耗,并且在路径查询的响应速度有着显著的提高。  相似文献   

3.
XML文档的查询索引是当前研究的热点.该文探讨XML文档的索引技术,包括索引结构的设计等问题,给出了一个高效的XML索引方法,采用独特的编码方法,对XML文档及其遵循的DTD同时建立索引,有效支持内容和结构的双重检索;该方法结合了区间编码、倒排表和路径索引的思想,利用DTD结构信息来提高查询的效率.实验结果表明,本文提出的方法可以有效地降低建立XML数据索引的代价,能够缩短查询的响应时间.  相似文献   

4.
一种高效的XML路径查询索引   总被引:1,自引:0,他引:1       下载免费PDF全文
XML文档的查询索引是当前研究的热点。提出一种高效的XML路径查询索引KDXI,首先对XML文档进行编码,然后建立结构索引并对结构索引进行编码。研究了基于KDXI索引结构的半结构连接算法和路径查询处理过程。通过KDXI索引机制,可以有效执行一般的路径查询语句,并避免冗余的结构连接操作。实验证明了KDXI索引机制的优越性。  相似文献   

5.
已有的XML数据索引方法从实现思想上可分为两类:结构归纳法和节点定位法.这两种方法都存在一定的问题,结构归纳法的缺点是索引规模较大而且难以有效支持较复杂的查询,而节点定位法的主要缺点是容易形成过多的连接操作.针对这些问题,提出了一种新的动态的XML索引体系DifX。它扩展了已有的动态索引方法,采用一种动态的Bisimilarity的概念,可以根据实际查询需求以及最优化的要求动态决定索引中保存的结构信息,以实现对各种形式的查询最有效的支持.实验结果证明DifX是一种有效而且高效的XML索引方法,其可以获得比已有的XML索引方法更高的查询执行效率.  相似文献   

6.
F&B索引及其相关技术是XML结构化索引研究方面的热点问题.利用树模型XML文档特有的结构性质,以最小化空间代价为目标,提出了一种新的F&B索引创建算法.该算法以后根顺序遍历XML文档,通过合并节点构建F&B索引,避免了将整个文档读入内存,极大地减少了构建索引需要的空间.理论分析和实验结果表明,该算法在创建索引过程中拥有很好的时空性能,有利于F&B索引的广泛应用.  相似文献   

7.
在关键字查询领域,目前提出的大多数索引结构主要考虑的是静态的XML文档.当XML文档出现频繁更新时,这些索引结构可能面临着大范围的重新编码,从而增加了数据库索引维护的代价.为了能在XML文档动态更新的环境下保持其索引结构的稳定,提出了一种支持动态XML文档上关键字查询的索引结构DLSS( DDE Level Structure Summary).该索引结构采用了一种针对动态更新改进的Dewey编码,该编码只需在文档更新时对新的节点赋予相应的编码,而不需要调整原有的编码结构.实验证明,DLSS索引结构可以在XML文档频繁更新或者较少更新时都能保持索引结构的相对稳定,并能在其上实现较高的关键字查询效率.  相似文献   

8.
一种基于DTD的XML索引方法   总被引:9,自引:0,他引:9  
路径查询是XML查询的一个主要特征,现已提出了多种XML索引方法.DTD的结构信息对于XML索引的建立及查询效率的提高很重要,但现有的大部分索引方法没有利用DTD这一有效资源,提出一种利用DTD的XML索引方法——DBXI(DTD-based XML indexing),该方法采用了新的编码方法,可使路径查询具备如下特征:对于由N个元素/属性组成的具有1个谓词约束的路径表达式,DBXI处理每个XML文档仅需0次或1次元素/属性结点集的结构连接操作;对于在XML文档中不存在匹配结构的路径查询,DBXI能够在比现有的XML索引方法较短的时间内给出无查询结果的判断.实验表明,与Lore,SphinX和XISS等索引方法相比,DBXI能够缩短路径查询的响应时间.  相似文献   

9.
对XML数据索引的回顾   总被引:3,自引:1,他引:3  
随着Internet的迅速发展,XML已成为Internet同上数据表示与交换的事实标准.大量应用采纳了XML.例如Web Service中的数据表示和交换、MPEG7中定义的多媒体特征描述子等。目前.查询XML数据需要用XPath.由于查询语句的复杂性.很难找到一种通用的索引结构能有效支持任意查询。因此,在近十年的研究历程中.为了实现XML数据的快速查询,人们提出了大量索引结构。本文就是对已经提出的一些代表性的索引结构进行分类和总结.并指出其优缺点和所能支持的查询。  相似文献   

10.
XML作为一种数据表示方式,越来越为人们所接受.最近,基于XML/半结构化数据的索引的查询引起了人们的广泛关注.有人提出来用结构索引来支持基于XML/半结构化数据的查询.由于XML/半结构化数据的结构不严格、不规则,结构索引会随着数据的增加或删除而变化,维护结构索引就成了首要问题.在本文中,我们研究了在XML文档集合上增加多个文档和删除一个文档时结构索引的更新,提出了在这两种情况下的索引维护算法,这两种算法比现在已知的其他算法的性能要更优秀.  相似文献   

11.
支持XML信息检索的索引技术*   总被引:4,自引:0,他引:4  
作为互联网的新技术, XML 已经渗透到了Internet 的很多领域, 结构文档XML 的信息交换、提取、处理、查询的研究也日益受到重视。目前, 已经提出了许多面向XML 的查询语言, 这些查询语言一般基于路径和树模式。从信息检索理论与技术角度出发, 探讨XML 文档的索引技术, 以期达到内容和结构的双重检索。  相似文献   

12.
从信息检索角度出发,提出一种高效的索引,在结构索引中集成了倒排文档,可同时查询XML结构部分和关键词.双重索引策略很好地解决了基于路径表达查询效率低的问题.  相似文献   

13.
为实现可以为单独的网站提供站内全文检索系统,采用独立于专门商业搜索引擎的lucene索引结构,在网站所有的文档基础上,首先使用xml转换技术建立文档的xml索引格式,抽取文档主题内容写入xml链表,索引过程基于伪xml的存储布局。该方法在检索效率和准确性上都有很明显的提高,并且扩展性好,在原来解析链的结构下可以直接增加新的解析模块。  相似文献   

14.
一种基于XML文档关键字检索的结构索引   总被引:2,自引:0,他引:2  
娄颖  李战怀  郭文琪  陈群  韩萌 《计算机科学》2010,37(12):120-124
XML数据索引对其检索效率有较大的影响。在深入分析现有XMI、结构索引之后,结合XML文档特点,提出了一种基于关键字检索的结构索引--LSS(Level Structure Summary) . LSS采用了把具有相同标签路径的结点进行合并的策略,具有高效判断结点之间同构异构关系的能力。实现了LSS索引生成算法CSCAN,并在LSS索引的基础上设计了XML关键字检索算法LSSearch。该算法依据LSS索引,将各个关键字的原始倒排表集合分拆成不同类型的子集合,最后在所有子集合上进行查询。实验结果表明,LSS可以帮助减少XML文档中关键字倒排表的规模,提高检索效率。  相似文献   

15.
Isearch是由美国国家自然科学基金投资,网络信息发掘与检索中心研制开发的一个全文检索引擎,也是最早实现诸如XML文档等基于标记的检索的搜索引擎之一。与一般XML检索引擎的设计相比,Isearch由于结合采用了全文检索引擎的一些技术,有效地控制了索引文件的大小,并保持了较高的检索效率。Isearch系统机制的研究,对于深入了解XML文档检索原理,尤其是拓展XML文档检索系统的功能具有重要意义。  相似文献   

16.
基于XML的C代码抄袭检测算法   总被引:3,自引:0,他引:3       下载免费PDF全文
主要研究一种基于XML文本的C代码抄袭检测算法。将C程序源代码转化为XML文本,提取XML文本各行标记的属性,计算XML文本行的相似值,得到程序对的相似度。并对抄袭检测算法实行分类测试:按十二种抄袭手段分类;按复杂语义和复杂数据结构分类。测试结果对比验证了抄袭检测算法的有效性。  相似文献   

17.
随着XML逐渐成为Internet数据表示与交换的标准,如何快速准确地访问XML文档中的数据已成为亟待解决的关键问题,建立路径索引是提高查询效率的一种重要手段.本文设计了一种基于PATRICIA-TRIES的路径索引,简称PT索引.该索引有如下特点:一、基于PATRICIA-TRIES结构,实现快速检索.二、采用压缩编码能够将路径索引放入内存,三、索引含有结构和文本信息,通过查询索引就能提供结果,无需打开原文档.其后,分析了PT索引的时间和空间复杂性,并与三种的典型的索引结构进行了对比实验,结果证明了其在路径查询方面具有更高的效率.  相似文献   

18.
XML搜索引擎研究   总被引:31,自引:3,他引:28  
WWW上大量信息的涌现,对信息的查询提出了严峻的挑战,XML作为一种扩展标记语言,具有多HTML所不具备的优点,使得开展WWW上的深层应用成为可能,对基于XML的搜索引擎中涉及的关键技术进行了研究,并提出了对XML这种半结构化文化档建立索引和查询时采用的数据结构和算法,它在不丢失文档中结构信息的情况下,充分利用XML的标签所带来的上下文信息,能够大幅度提高查询的准确率。  相似文献   

19.
隐含语义索引及其在中文文本处理中的应用研究   总被引:33,自引:0,他引:33  
信息检索本质上是语义检索,而传统信息检索系统都是基于独立词索引,因此检索效果并不理想,隐含语义索引是一种新型的信息检索模型,它通过奇异值分析,将词向量和文档向量投影到一个低维空间,消减了词和文档之间的语义模糊度,使得文档之间的语义关系更为明晰。实验和理论结果证实了隐含语义索引能够取得更好的检索效果。本文论述了隐含语义索引的理论基础,研究了隐含语义索引在中文文本处理中的应用,包括中文文本检索、中文文本分类和中文文本聚类等。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号