共查询到15条相似文献,搜索用时 125 毫秒
1.
2.
XML已成为各种网络应用中数据存储和数据交换的标准.XML数据管理面临的最大困难在于结构与数据混合存储导致大量数据冗余,这极大地增加了XML数据存储、交换和处理的代价.对XML文档进行压缩可以在一定程度上解决这个问题.但现有XML压缩方法大都仅压缩单文档中的冗余信息.利用XML文档间的相似性,提出一种支持查询的多XML文档压缩存储方法XCluster.XCluster先利用XML有根有序标签树上改进的pq-gram近似距离对XML文档集进行层次聚类;然后合并每个聚类结果子集中文档的结构得到结构代表并进行字典编码压缩;同时合并不同文档内同一标签下的值内容,并根据其数据类型进行相应编码压缩.实验结果表明,在真实和生成的XML多文档数据集上,XCluster比XGrind和XQilla具有更好的压缩效果和查询效率. 相似文献
3.
XML的自描述特性使得XML数据中存在大量冗余信息。如何压缩XML数据以提高XML数据管理的效率成为一个新的研究领域。从2001年起,XML数据压缩技术的研究已经取得了很多研究成果。从面向存储的XML数据压缩技术、面向查询的XML数据压缩技术和面向特定应用的XML数据压缩技术三个方面综述了XML数据压缩技术的研究进展,讨论了目前存在的主要问题和需要进一步研究的方向,并提供了广泛的参考文献。 相似文献
4.
5.
由于XML(extensible markup language)本身是自描述的,所以XML数据流中存在大量冗余的结构信息.如何压缩XML数据流,使得在减少网络传输代价的同时有效支持压缩数据流上的查询处理,成为一个新的研究领域.目前已有的XML数据压缩技术,都需要扫描数据多遍,或者不支持数据流之上的实时查询处理.提出了一种XML数据流的压缩技术XSC(XML stream compression),实时完成XML数据流的压缩和解压缩,XSC动态构建XML元素事件序列字典并输出相关索引,能够根据XML数据流所遵从的DTD,产生XML元素事件序列图,在压缩扫描之前,产生更加合理的结构序列编码.压缩的XML数据流能够直接解压缩用于XPath的执行.实验表明,在XML数据流环境中,XSC在数据压缩率和压缩时间上要优于传统算法.同时,在压缩数据之上查询的执行代价是可以接受的. 相似文献
6.
7.
8.
近年来,XML已成为Web上信息交流和资源共享的主要载体。但XML自身的自冗余特性限制了它的普遍应用。目前,已经有研究成果提出了XML的压缩方法。压缩的XML文档能够有效利用存储空间,节省网络带宽。在实际应用中,经常需要对压缩存储的XML文档进行更新。对于大的压缩文档,如果先解压再更新,会消耗大量时间,因此,高效的更新方法应该避免解压缩文档,在压缩的XML文档上直接进行更新操作。本文针对压缩XML文档中的数值类型(包括整型和浮点型)数据,研究了在保持压缩状态条件下如何进行有效的数值更新,提出了基于XPRESS实现的Naive数值更新方法,以及修改XPRESS编码方法实现的更为高效的Pivot数值更新方法。通过大量的实验证明,Pivot数值更新方法不仅能够提供高效的更新处理,而且保持了XPRESS的高压缩率。 相似文献
9.
10.
XML数据的查询技术 总被引:31,自引:1,他引:31
XML规范已成为当前网络应用(包括数字图书馆、Web服务以及电子商务)中事实上的数据表达、交换的标准.针对XML数据的查询在当前XML数据管理研究中占有重要的地位,也是当前XML数据处理研究领域的热点方向,相关的研究文献有很多.根据查询模式描述的不同,将当前XML查询技术归入两大类:XML Query方式和XML IR方式.后者又进而可分以为3个子类:XML IR/keyword方式、XML IR/fragment和XML IR/query方式,并从中挑选出3个研究者关注的问题进行了简述,它们是:Twig查询模式的处理、SLCA(smallest lowest common ancestor)节点的获取以及对所获取的XML片段相似性的度量.以方便普通用户使用为准则探讨了相关XML查询技术的优、缺点,将如下4个问题作为需要进一步关注的研究内容:结构化关键字查询及相应的结构相似性度量方法,如何消除XML Query查询处理模式(包含XML IR/query)和XML IR/keyword查询处理模式间数据冗余的问题,XML Query查询方式的理论探讨及其实现以及针对特定应用的XML数据的有效管理. 相似文献
11.
Comparative Analysis of XML Compression Technologies 总被引:1,自引:0,他引:1
XML provides flexibility in publishing and exchanging heterogeneous data on the Web. However, the language is by nature verbose
and thus XML documents are usually larger in size than other specifications containing the same data content. It is natural
to expect that the data size will continue to grow as XML data proliferates on the Web. The size problem of XML documents hinders the applications of XML, since it substantially increases the costs of storing, processing and exchanging
the data. The hindrance is more apparent in bandwidth- and memory-limited settings such as those applications related to mobile
communication.
In this paper, we survey a range of recently proposed XML specific compression technologies and study their efforts and capabilities
to overcome the size problem. First, by categorizing XML compression technologies into queriable and unqueriable compressors,
we explain the efforts in the representative technologies that aim at utilizing the exposed structure information from the
input XML documents. Second, we discuss the importance of queriable XML compressors and assess whether the compressed XML
documents generated from these technologies are able to support direct querying on XML data. Finally, we present a comparative
analysis of the state-of-the-art XML conscious compression technologies in terms of compression ratio, compression and decompression
times, memory consumption, and query performance. 相似文献
12.
XML(extensible markup language)文档已经被广泛用作应用程序的一个数据交换格式,针对XML数据的压缩技术也逐渐成为新的研究领域。提出XSLC(XMLstream layered-coding compression)算法,通过预先扫描DTD对数据模式进行分析,继而根据元素的父子关系进行子元素层面的编码;同时根据数据类型进行数据压缩,能够在压缩之后的文档上进行查询,因为仅需一遍压缩扫描所以可以应用于数据流环境。实验表明:XSLC算法的压缩比率和压缩时间均优于传统算法。 相似文献
13.
The gap between storing data in relational databases and transferring data in form of XML has been closed e.g. by SQL/XML queries that generate XML data out of relational data sources. However, only few relational database systems support the evaluation of SQL/XML queries. And even in those systems supporting SQL/XML, the evaluation of such queries is quite slow compared to the evaluation of SQL queries. In this paper, we present S2CX, an approach that allows to efficiently evaluate SQL/XML queries on any relational database system, no matter whether it supports SQL/XML or not. As a result to an SQL/XML query, S2CX supports different output formats ranging from plain XML to different compressed XML representations including a succinct encoding of XML data, schema-aware compressed XML to grammar compressed XML. In many cases, S2CX produces compressed XML as a result to an SQL/XML query even faster than the evaluation of SQL/XML queries into non-compressed XML as provided by Oracle 11 g and by DB2. Furthermore, our approach to query evaluation scales better, i.e., the larger the dataset, the faster is our approach compared to SQL/XML query evaluation in Oracle 11 g and in DB2. 相似文献
14.
杨容 《数字社区&智能家居》2007,(4):32-35
XML为在Web上发布和交换异质数据提供了相当的灵活性。但由于这种语言自身就有冗余的特性所以XML文档在体积都大于有相同数据内容的其他类型的文档。随着XML在web上应用的扩展其数据大小自然也会随之而增加.而这实质上增加了数据的存储量、处理量和交换量,因此XML文档的体积问题也阻碍了XML的应用,特别是阻碍了XML在具有带宽和内存容量限制的应用上如移动通讯应用。在这篇文章中,我们将大致的介绍一下最近提出的几种针对XML的压缩算法并分析它们在解决XML文档体积问题上的技术和效能。 相似文献