首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 125 毫秒
1.
张胜  舒坚  包晓玲 《计算机应用》2008,28(10):2537-2540
XML已经成为互联网上信息交换和信息表示的事实标准。然而XML文档中包含大量重复出现的标签和结构等冗余信息,导致XML文档在查询处理和数据交换时付出更高的代价,特别在带宽和资源受限的设备上显得更为突出。压缩技术是解决这一问题的重要途径。搜集了近几年提出的各种XML压缩方法,从压缩率、压缩与解压时间、内存消耗、查询性能等方面比较分析了六个具有代表性的XML压缩技术,最后简要归纳了各自的优点和存在的不足,并探讨未来努力的方向。  相似文献   

2.
XML已成为各种网络应用中数据存储和数据交换的标准.XML数据管理面临的最大困难在于结构与数据混合存储导致大量数据冗余,这极大地增加了XML数据存储、交换和处理的代价.对XML文档进行压缩可以在一定程度上解决这个问题.但现有XML压缩方法大都仅压缩单文档中的冗余信息.利用XML文档间的相似性,提出一种支持查询的多XML文档压缩存储方法XCluster.XCluster先利用XML有根有序标签树上改进的pq-gram近似距离对XML文档集进行层次聚类;然后合并每个聚类结果子集中文档的结构得到结构代表并进行字典编码压缩;同时合并不同文档内同一标签下的值内容,并根据其数据类型进行相应编码压缩.实验结果表明,在真实和生成的XML多文档数据集上,XCluster比XGrind和XQilla具有更好的压缩效果和查询效率.  相似文献   

3.
XML的自描述特性使得XML数据中存在大量冗余信息。如何压缩XML数据以提高XML数据管理的效率成为一个新的研究领域。从2001年起,XML数据压缩技术的研究已经取得了很多研究成果。从面向存储的XML数据压缩技术、面向查询的XML数据压缩技术和面向特定应用的XML数据压缩技术三个方面综述了XML数据压缩技术的研究进展,讨论了目前存在的主要问题和需要进一步研究的方向,并提供了广泛的参考文献。  相似文献   

4.
随着互联网技术的迅速发展,XML已经成为Web上信息表示和数据交换的事实标准。由于XML具有自我描述能力,使得XML文档显得冗长,以至于包含了大量的冗余信息,这样必将影响数据查询处理和交换的效率。因此,XML数据压缩技术对于减少资源的使用显得特别重要。概述了XML压缩研究的现状;分析了典型的XML压缩技术,对其性能进行了比较;总结XML压缩技术的不足及发展趋势。  相似文献   

5.
面向XPath执行的XML数据流压缩方法   总被引:13,自引:0,他引:13       下载免费PDF全文
由于XML(extensible markup language)本身是自描述的,所以XML数据流中存在大量冗余的结构信息.如何压缩XML数据流,使得在减少网络传输代价的同时有效支持压缩数据流上的查询处理,成为一个新的研究领域.目前已有的XML数据压缩技术,都需要扫描数据多遍,或者不支持数据流之上的实时查询处理.提出了一种XML数据流的压缩技术XSC(XML stream compression),实时完成XML数据流的压缩和解压缩,XSC动态构建XML元素事件序列字典并输出相关索引,能够根据XML数据流所遵从的DTD,产生XML元素事件序列图,在压缩扫描之前,产生更加合理的结构序列编码.压缩的XML数据流能够直接解压缩用于XPath的执行.实验表明,在XML数据流环境中,XSC在数据压缩率和压缩时间上要优于传统算法.同时,在压缩数据之上查询的执行代价是可以接受的.  相似文献   

6.
ArithBi^+—一种基于反向算术压缩的XML索引结构   总被引:2,自引:0,他引:2  
XML在数据交换中的应用越来越广泛,但由于加入标记后的空间膨胀较大,对传输及存储资源耗费严重。压缩后的XML数据容量明显减少,但怎样基于压缩后的XML数据直接进行查询及处理,仍然是需要深入研究的问题。本文以反向算术压缩为基本压缩算法,提出针对XML数据库中压缩XML文件的索引结构ArithBi^+。基于该索引结构,可高效实现对类似//elenlent1/element2/…/elmentm的查询处理。  相似文献   

7.
XML压缩方法的比较分析   总被引:1,自引:0,他引:1       下载免费PDF全文
张胜  包晓玲  舒坚  陈莎 《计算机工程》2009,35(11):26-28,3
搜集近几年提出的各种XML压缩方法,比较、分析具有代表性的XML压缩技术。实验表明,XMill拥有出色的压缩率、较少的压缩与解压时间、较低的内存消耗,以及最优的平均压缩性能,但不支持对压缩文档的直接查询。XGRIND与XPRESS的压缩性能不如XMill,却能较好地支持对压缩文档的直接查询。总结XML压缩方法各自的优点和不足,并探讨未来努力的方向。  相似文献   

8.
近年来,XML已成为Web上信息交流和资源共享的主要载体。但XML自身的自冗余特性限制了它的普遍应用。目前,已经有研究成果提出了XML的压缩方法。压缩的XML文档能够有效利用存储空间,节省网络带宽。在实际应用中,经常需要对压缩存储的XML文档进行更新。对于大的压缩文档,如果先解压再更新,会消耗大量时间,因此,高效的更新方法应该避免解压缩文档,在压缩的XML文档上直接进行更新操作。本文针对压缩XML文档中的数值类型(包括整型和浮点型)数据,研究了在保持压缩状态条件下如何进行有效的数值更新,提出了基于XPRESS实现的Naive数值更新方法,以及修改XPRESS编码方法实现的更为高效的Pivot数值更新方法。通过大量的实验证明,Pivot数值更新方法不仅能够提供高效的更新处理,而且保持了XPRESS的高压缩率。  相似文献   

9.
针对支持查询的XML数据压缩方法存在的路径和数据重复等问题,通过去除XML数据中的重复路径,简化XML数据结构,提出结构标记树的概念及其生成算法,设计一种基于结构标记树的可查询XML数据压缩方法SSTQC,对XML数据进行压缩和组织查询。SSTQC一次扫描XML文档,具有较好的的压缩性能和查询效率。  相似文献   

10.
XML数据的查询技术   总被引:31,自引:1,他引:31  
XML规范已成为当前网络应用(包括数字图书馆、Web服务以及电子商务)中事实上的数据表达、交换的标准.针对XML数据的查询在当前XML数据管理研究中占有重要的地位,也是当前XML数据处理研究领域的热点方向,相关的研究文献有很多.根据查询模式描述的不同,将当前XML查询技术归入两大类:XML Query方式和XML IR方式.后者又进而可分以为3个子类:XML IR/keyword方式、XML IR/fragment和XML IR/query方式,并从中挑选出3个研究者关注的问题进行了简述,它们是:Twig查询模式的处理、SLCA(smallest lowest common ancestor)节点的获取以及对所获取的XML片段相似性的度量.以方便普通用户使用为准则探讨了相关XML查询技术的优、缺点,将如下4个问题作为需要进一步关注的研究内容:结构化关键字查询及相应的结构相似性度量方法,如何消除XML Query查询处理模式(包含XML IR/query)和XML IR/keyword查询处理模式间数据冗余的问题,XML Query查询方式的理论探讨及其实现以及针对特定应用的XML数据的有效管理.  相似文献   

11.
Comparative Analysis of XML Compression Technologies   总被引:1,自引:0,他引:1  
XML provides flexibility in publishing and exchanging heterogeneous data on the Web. However, the language is by nature verbose and thus XML documents are usually larger in size than other specifications containing the same data content. It is natural to expect that the data size will continue to grow as XML data proliferates on the Web. The size problem of XML documents hinders the applications of XML, since it substantially increases the costs of storing, processing and exchanging the data. The hindrance is more apparent in bandwidth- and memory-limited settings such as those applications related to mobile communication. In this paper, we survey a range of recently proposed XML specific compression technologies and study their efforts and capabilities to overcome the size problem. First, by categorizing XML compression technologies into queriable and unqueriable compressors, we explain the efforts in the representative technologies that aim at utilizing the exposed structure information from the input XML documents. Second, we discuss the importance of queriable XML compressors and assess whether the compressed XML documents generated from these technologies are able to support direct querying on XML data. Finally, we present a comparative analysis of the state-of-the-art XML conscious compression technologies in terms of compression ratio, compression and decompression times, memory consumption, and query performance.  相似文献   

12.
XML(extensible markup language)文档已经被广泛用作应用程序的一个数据交换格式,针对XML数据的压缩技术也逐渐成为新的研究领域。提出XSLC(XMLstream layered-coding compression)算法,通过预先扫描DTD对数据模式进行分析,继而根据元素的父子关系进行子元素层面的编码;同时根据数据类型进行数据压缩,能够在压缩之后的文档上进行查询,因为仅需一遍压缩扫描所以可以应用于数据流环境。实验表明:XSLC算法的压缩比率和压缩时间均优于传统算法。  相似文献   

13.
The gap between storing data in relational databases and transferring data in form of XML has been closed e.g. by SQL/XML queries that generate XML data out of relational data sources. However, only few relational database systems support the evaluation of SQL/XML queries. And even in those systems supporting SQL/XML, the evaluation of such queries is quite slow compared to the evaluation of SQL queries. In this paper, we present S2CX, an approach that allows to efficiently evaluate SQL/XML queries on any relational database system, no matter whether it supports SQL/XML or not. As a result to an SQL/XML query, S2CX supports different output formats ranging from plain XML to different compressed XML representations including a succinct encoding of XML data, schema-aware compressed XML to grammar compressed XML. In many cases, S2CX produces compressed XML as a result to an SQL/XML query even faster than the evaluation of SQL/XML queries into non-compressed XML as provided by Oracle 11 g and by DB2. Furthermore, our approach to query evaluation scales better, i.e., the larger the dataset, the faster is our approach compared to SQL/XML query evaluation in Oracle 11 g and in DB2.  相似文献   

14.
XML为在Web上发布和交换异质数据提供了相当的灵活性。但由于这种语言自身就有冗余的特性所以XML文档在体积都大于有相同数据内容的其他类型的文档。随着XML在web上应用的扩展其数据大小自然也会随之而增加.而这实质上增加了数据的存储量、处理量和交换量,因此XML文档的体积问题也阻碍了XML的应用,特别是阻碍了XML在具有带宽和内存容量限制的应用上如移动通讯应用。在这篇文章中,我们将大致的介绍一下最近提出的几种针对XML的压缩算法并分析它们在解决XML文档体积问题上的技术和效能。  相似文献   

15.
XML查询优化研究   总被引:23,自引:2,他引:23  
孟小峰  王宇  王小锋 《软件学报》2006,17(10):2069-2086
XML已经成为网络上信息描述和信息交换的标准.由于网络上信息的本质特性和XML数据内在的灵活性,很多用XML编码的数据都是半结构化的.随着XML应用得越来越广泛,人们提出了多种XML数据的存储模型.与此同时,XML的查询优化也是数据库领域研究的一个重要课题.综合论述了XML数据查询优化技术的现状,指出了XML查询优化的特点和研究的关键性问题.描述了查询优化技术各个方面的重要研究成果以及存在的问题,进一步展望了未来的研究方向,并在此基础上提出了对XML查询优化方法的一些观点.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号