首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
面向XPath执行的XML数据流压缩方法   总被引:13,自引:0,他引:13  
由于XML(extensible markup language)本身是自描述的,所以XML数据流中存在大量冗余的结构信息.如何压缩XML数据流,使得在减少网络传输代价的同时有效支持压缩数据流上的查询处理,成为一个新的研究领域.目前已有的XML数据压缩技术,都需要扫描数据多遍,或者不支持数据流之上的实时查询处理.提出了一种XML数据流的压缩技术XSC(XML stream compression),实时完成XML数据流的压缩和解压缩,XSC动态构建XML元素事件序列字典并输出相关索引,能够根据XML数据流所遵从的DTD,产生XML元素事件序列图,在压缩扫描之前,产生更加合理的结构序列编码.压缩的XML数据流能够直接解压缩用于XPath的执行.实验表明,在XML数据流环境中,XSC在数据压缩率和压缩时间上要优于传统算法.同时,在压缩数据之上查询的执行代价是可以接受的.  相似文献   

2.
随着Web技术及其应用的快速发展,XML已经成为万维网上信息表示和数据交换的一个重要标准。当前,学术界对于XML数据管理的研究,其内容广泛,如XML数据存储、XML数据查询、XML索引、Native XML数据库、XML流处理、XML数据发布等。聚焦于其中的XML数据存储,即基于Hibernate的DOM4J技术把XML数据存储到关系数据库中的应用研究。  相似文献   

3.
XML数据的查询技术   总被引:31,自引:1,他引:31  
XML规范已成为当前网络应用(包括数字图书馆、Web服务以及电子商务)中事实上的数据表达、交换的标准.针对XML数据的查询在当前XML数据管理研究中占有重要的地位,也是当前XML数据处理研究领域的热点方向,相关的研究文献有很多.根据查询模式描述的不同,将当前XML查询技术归入两大类:XML Query方式和XML IR方式.后者又进而可分以为3个子类:XML IR/keyword方式、XML IR/fragment和XML IR/query方式,并从中挑选出3个研究者关注的问题进行了简述,它们是:Twig查询模式的处理、SLCA(smallest lowest common ancestor)节点的获取以及对所获取的XML片段相似性的度量.以方便普通用户使用为准则探讨了相关XML查询技术的优、缺点,将如下4个问题作为需要进一步关注的研究内容:结构化关键字查询及相应的结构相似性度量方法,如何消除XML Query查询处理模式(包含XML IR/query)和XML IR/keyword查询处理模式间数据冗余的问题,XML Query查询方式的理论探讨及其实现以及针对特定应用的XML数据的有效管理.  相似文献   

4.
本文将当前数据库领域的2个研究热点-XML文档和数据流处理一的最新研究结合起来,提出了XML文档流关键字查询的问题。基于最小连通子树的概念。设计了相应的数据结构和基于栈的查询算法,可以有效解决XML文档流上进行关键字查询的问题。具体方法是把XML数据流表示成3类SAX事件:BEGIN(tag)、END(tag)和TEXT0。对每类事件的处理算法进行了详细,并进行了正确性证明。从理论上分析了算法的复杂度,并在XMark和treebank.xml两个数据集上对所提方法进行了广泛的实验。结果验证了本文工作的有效性。  相似文献   

5.
基于剪切的XML数据流自适应发布算法   总被引:1,自引:0,他引:1  
XML数据流上的分片策略是基于剪切的XML数据流发布系统面临的首要问题.文中针对基于剪切的XML数据流中对XML片段解析和连接的操作代价,提出了基于Hole-Filler模型的XML数据流的基本代价模型,在此基础上提出数据流自适应发布算法AXF,以期在数据和查询动态变化的情况下自动调整XML数据分片策略以获得最佳的系统运行性能、自适应能力和扩展性.实验结果表明AXF算法可以提高XML片段的有效率,在客户端、服务器及网络传输方面均获得良好的性能.  相似文献   

6.
在目前支持关系及XML数据统一管理的数据库管理系统中,由于XML固有的表达复杂结构数据的特点,以及XQueryXPath查询语言越来越复杂等原因,如果没有对XML数据的树结构以及查询语义有准确的了解,对于一般用户而言,要查询到所需要的信息有一定难度.针对该问题,在已有工作的基础上,设计并实现了一种基于XML标记(Tag)子集的XML查询方法,该方法只需要用户使用类SQL提交针对包含XML数据列的关系表(RXTable)中XML数据的查询,就可以将数据中所有满足条件的XML数据返回,同时可基于该查询结果进行进一步的更精确的查询.  相似文献   

7.
XML数据流分页频繁子树挖掘研究   总被引:1,自引:0,他引:1  
随着XML数据流的广泛应用,从挖掘XML数据流中发现知识具有重要的理论与应用价值.相比其他频繁模式挖掘,大型XML文档与数据流的频繁子树挖掘面临困难:XML数据流不可能整体在内存解析;对XML数据流分段挖掘必须考虑XML数据的半结构化特征等.针对上述问题,提出数据流分页频繁子树挖掘模型Tmlist.Tmlist对XML数据流进行分页,管理跨页节点及频繁候选子树的跨页增长,逐页挖掘频繁子树;频繁候选子树的增长根据根节点层次由浅至深地在最右路径加入频繁候选节点,避免以低层次为根子树的重复性递归增长;对频繁候选子树采用子树拓扑序列和最右路径共同标识,子树的增长不需要对子树前缀进行匹配,省去前缀节点存储与匹配开销;以页面最小支持度对频繁候选子树按页筛选,子树按页面衰减度衰减支持度、剪枝.Tmlist在可控误差范围内降低频繁子树挖掘的空间消耗,提高内存利用率和挖掘效率.  相似文献   

8.
随着Web技术的快速发展,如何有效地存储、索引、查询和显示XML数据已经成为数据库研究领域的一个热点研究问题。本文介绍了XML数据的3种不同存储方法;XML搜索查询的工具和语言;XML数据的访问控制模型;XML最直接的显示方法以及正在实现的真正的XML数据库等。通过这些XML数据管理技术,可以了解到当下XML研究领域的先进技术和方法,指导今后的研究方向和重点。  相似文献   

9.
概率XML数据管理技术研究进展   总被引:2,自引:0,他引:2  
随着网络应用的快速发展,XML数据已大量存在于当前的信息社会,使得XML类型的数据成为当前主流的数据形式,并已经成为Internet中进行数据交换和表示事实上的标准.由于客观世界的复杂性,不确定性是数据常见的内在属性,因此不确定的信息是普遍存在的.通常不确定信息以概率值的形式在XML文件(称为概率XML文件)中表示,因此,研究表示和处理概率XML数据将成为一个新的研究领域.自2001年以来,概率XML数据管理技术取得了一系列研究成果.从概率XML数据模型、PXML代数、查询、原型系统等几个方面综述了概率XML数据管理的研究进展,讨论了目前存在的主要问题和需要进一步研究的方向.  相似文献   

10.
1.引言作为目前信息表示和交换的标准,XML得到越来越广泛的应用。对XML进行管理,传统的方法是利用文件系统。目前,传统的关系数据库在市场上仍占有主流地位,如何利用关系数据库来管理XML数据成为现实的问题。由于XML文档本质上是基于图模式的半结构化数据,而目前商用数据库管理系统管理的是基于关系模式的结构化数据,利用关系数据库来管理XML数据可能带来非常高的存贮代价和查询代价,因此利用关系数据库来管理XML数据必须解决两种异构模式之间的转换问题,生成合理的关系模式。对于上述问题,工业界和学术界从不同的角度进行了研究,文Oracle 8i利用关系数据库引擎来完成XML文档的简单查询,但是,Oracle 8i的当前版本要求手工生成XML文档所对应的关系模式,增加了使用人员的负担。  相似文献   

11.
王宏志  李建中  骆吉洲 《软件学报》2008,19(8):2032-2042
XML数据流的特点是所有元素和值仅允许扫描1次.针对XML数据流上的聚集问题,提出了高效的XML数据流聚集算法.这种算法不但能够有效地支持XML数据流上具有复杂结构聚集查询的处理,而且能够有效地支持具有递归结构XML数据流上的聚集查询处理.理论分析和实验结果表明,算法能够有效地处理XML数据流上的聚集查询。并且具有很好的可扩展性.  相似文献   

12.
孙东海  张昱  吴晓勇 《计算机科学》2007,34(10):137-142
如何在XML流上高效地执行大量复杂XQuery查询是当今研究的热点之一。在数据选择分发等应用中,还希望在解析流的同时尽早地输出查询结果。为此,本文将XQuery查询的路径导航和结果构造两个阶段分别运行于服务器、客户机两端。导航阶段针对XQuery查询定义了扩展的基本XSIEQ机E-XSIEQ(Extended XML Stream Quervwith Immediate Evaluation),它是一种被索引化、基于栈的自动机。在EXSIEQ机上设计应用了TreeBuf(TreeBuffer)算法,它是一种树型提升缓冲的查询算法,算法使用了前缀共享计算的技术,能高效处理XQuery查询,而且能优化XPath查询。实验证明了TreeBuf算法的高效性。  相似文献   

13.
从传统XML数据流查询处理中存在的问题出发,设计了XML数据流主动服务系统的框架模型,并提出了系统的实现策略,为用户快速、准确的找到所需信息提供了途径。  相似文献   

14.
从传统XML数据流查询处理中存在的问题出发,设计了XML数据流主动服务系统的框架模型,并提出了系统的实现策略,为用户快速、准确的找到所需信息提供了途径。  相似文献   

15.
基于自动机的XML流多查询处理   总被引:1,自引:0,他引:1  
张兵令 《计算机工程》2008,34(16):63-65
XML流数据处理在研究领域引起广泛关注,该文针对XML流上的多查询处理提出一种算法,把多个查询合并为一个共享前缀的查询树,应用自动机和运行时栈相结合的方法,单遍扫描XML流处理数据流上的多个查询。该算法采用一种分层栈结构保存查询模式匹配候选集,利用XML节点的区间编码来确定节点之间的关系,返回整条匹配路径。  相似文献   

16.
针对目前XML数据流处理中通常采用的查询语言XPath和XQuery均不支持空间运算,无法应用到空间数据流处理技术中的问题,设计了一种通过扩展现有商业化XQuery引擎功能基础上的空间数据流检索方法。  相似文献   

17.
With the extensive use of XML in applications over the Web, efficient query processing over streaming XML has become a core challenge due to one-pass processing and limited resources. Taking advantage of Hole-Filler model for XML fragments, this paper proposes a hybrid structure (FQ-Index) for both the queries and fragments, and proposes an XML fragment processing algorithm to evaluate forward XPath queries over streamed XML fragments. Two optimization rules, dependence pruning and prefix pruning are also developed. Dependence pruning scheme prunes off the dependent operations caused by fragmentation and transforms the queries for XML tag into queries for XML fragments, while prefix pruning scheme prunes off the “redundant” prefix along the path according to the tag structure. The effectiveness of the techniques developed is illustrated with a detailed set of experiments.  相似文献   

18.
汪万根 《计算机工程》2009,35(8):107-109
针对在XML文档树模型中进行后兄弟节点查询时内存消耗大、匹配效率低等缺陷,提出一种基于XML数据流与栈的后兄弟查询算法。采用SAX解析器与结构连接方法,对XML文档中所有已知节点与后兄弟节点进行精确匹配并输出。结果表明,该算法具有适用范围广、占用系统资源少、匹配效率高等优势。  相似文献   

19.
XML stream applications bring the challenge of efficiently processing queries on sequentially accessible token-based data streams. The automata paradigm is naturally suited for pattern recognition on tokenized XML streams, but requires patches for fulfilling the filtering or restructuring functionalities in the XML query language. In contrast, the algebraic paradigm is a well-established technique for processing self-contained tuples. It however does not traditionally support token inputs. The Raindrop framework is the first to accommodate these two paradigms within one algebraic framework, taking advantage of both. This paper describes the overall framework, highlighting in particular three aspects. First, we describe how the tokens and tuples are modeled in one uniform query processing model. Second, we present the query rewriting that switches computations between these two data models. Third, we discuss strategies for the implementation and synchronization of the operators within the framework. We report experimental results that illustrate the unique optimization opportunities offered by this novel framework.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号