首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 48 毫秒
1.
一种基于XML文档聚类的XML近似查询算法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出了一种基于XML文档聚类的XML近似查询算法。给出了基于语义的XML文档间距离的计算方法,结合该语义距离,提出了基于网格的八邻域聚类算法对XML数据库进行聚类划分,进而利用在聚类过程中得到的聚类中心对静态有序选择算法的近似查询评估阶段进行优化,使得不用对XML数据库进行完全遍历就能及时返回满足用户需要的查询结果。最后,在汽车外形智能化设计的实验中表明该算法有效地提高了静态有序选择算法的查询效率。  相似文献   

2.
近年来,XML已成为Web上信息交流和资源共享的主要载体。但XML自身的自冗余特性限制了它的普遍应用。目前,已经有研究成果提出了XML的压缩方法。压缩的XML文档能够有效利用存储空间,节省网络带宽。在实际应用中,经常需要对压缩存储的XML文档进行更新。对于大的压缩文档,如果先解压再更新,会消耗大量时间,因此,高效的更新方法应该避免解压缩文档,在压缩的XML文档上直接进行更新操作。本文针对压缩XML文档中的数值类型(包括整型和浮点型)数据,研究了在保持压缩状态条件下如何进行有效的数值更新,提出了基于XPRESS实现的Naive数值更新方法,以及修改XPRESS编码方法实现的更为高效的Pivot数值更新方法。通过大量的实验证明,Pivot数值更新方法不仅能够提供高效的更新处理,而且保持了XPRESS的高压缩率。  相似文献   

3.
基于频繁结构的XML文档聚类   总被引:1,自引:1,他引:0       下载免费PDF全文
研究基于频繁结构的XML文档聚类方法,其频繁结构包括频繁路径和频繁子树。首先介绍一种挖掘XML文档中所有嵌入频繁子树的算法SSTMiner,对SSTMiner算法进行修改,得到FrePathMiner算法和FreTreeMiner算法,分别用于挖掘XML文档中最大频繁路径和最大频繁子树,在此基础上,提出一种凝聚的层次聚类算法XMLCluster,分别以最大频繁路径和最大频繁子树作为XML文档的特征,对文档进行聚类。实验结果表明FrePathMiner算法和FreTreeMiner算法找到频繁结构的数量都比传统的ASPMiner算法多,这就可以为文档聚类提供更多的结构特征,从而获得更高的聚类精度。  相似文献   

4.
张胜  舒坚  包晓玲 《计算机应用》2008,28(10):2537-2540
XML已经成为互联网上信息交换和信息表示的事实标准。然而XML文档中包含大量重复出现的标签和结构等冗余信息,导致XML文档在查询处理和数据交换时付出更高的代价,特别在带宽和资源受限的设备上显得更为突出。压缩技术是解决这一问题的重要途径。搜集了近几年提出的各种XML压缩方法,从压缩率、压缩与解压时间、内存消耗、查询性能等方面比较分析了六个具有代表性的XML压缩技术,最后简要归纳了各自的优点和存在的不足,并探讨未来努力的方向。  相似文献   

5.
基于划分的XML文档聚类研究   总被引:1,自引:0,他引:1  
本文在文本聚类的基础上对XML文档聚类进行了研究,对划分聚类法进行了改进,使之适合于XML文档聚类.最后通过路径划分聚类算法根据频繁结构对XML文档进行挖掘聚类,并对实验结果进行讨论.  相似文献   

6.
基于结构化联接的多版本XML文档查询处理   总被引:1,自引:0,他引:1  
结构连接是XML查询处理的核心操作,受到了研究界的关注。高效的算法是高效查询处理的关键。目前已经提出了许多结构连接的算法,但都不支持多版本的XML文档。文章对经典结构连接算法进行了扩充,使之支持多版本的XML文档。  相似文献   

7.
XML文档聚类在众多数据应用领域都具有重要作用。基于特征偏好的XML文档聚类算法是对XML文档进行特征选择,将XML文档描述为[n]维特征向量,再结合CFP(Clustering with Feature order Preference)算法,根据特征偏好为其赋予权重,每次迭代聚类过程中进行权重的更新。实验结果表明当CFP算法中的特征偏好权重和XML文档向量化时所用的层次权重设定相结合时,可弥补XML文档向量化时的弊端,提高了XML文档聚类的精度。  相似文献   

8.
XML压缩方法的比较分析   总被引:1,自引:0,他引:1       下载免费PDF全文
张胜  包晓玲  舒坚  陈莎 《计算机工程》2009,35(11):26-28,3
搜集近几年提出的各种XML压缩方法,比较、分析具有代表性的XML压缩技术。实验表明,XMill拥有出色的压缩率、较少的压缩与解压时间、较低的内存消耗,以及最优的平均压缩性能,但不支持对压缩文档的直接查询。XGRIND与XPRESS的压缩性能不如XMill,却能较好地支持对压缩文档的直接查询。总结XML压缩方法各自的优点和不足,并探讨未来努力的方向。  相似文献   

9.
为解决XML文档对动态性表示不足的问题,通过对XML文档加入时间信息进行建模,提出2种基于时间序列的XML文档频繁变化结构挖掘算法FCSBF和FCSDF,实现对动态XML文档频繁变化结构的高效挖掘。在此基础上提出一种针对动态XML文档的聚类新方法,实验结果证明,该方法能够对动态XML文档进行有效的聚类。  相似文献   

10.
基于量子遗传算法的XML聚类方法   总被引:1,自引:0,他引:1  
主要用模式分析的核方法与量子遗传算法相结合研究XML聚类,提出了一种基于量子遗传算法混合核聚算法的XML文档聚类新方法。该方法先对XML文档约简,以频繁标签序列建立向量空间核的核矩阵,用高斯核函数求解初始聚类和聚类中心,然后用初始聚类中心构造量子遗传算法的初始种群,通过量子遗传算法与核聚算法相结合求得全局最优解的聚类。实验结果表明,使用该算法的聚类比改进的核聚算法、K均值算法等单一方法具有良好的收敛性、稳定性和更高的全局最优。  相似文献   

11.
可查询XML数据压缩技术概述   总被引:1,自引:0,他引:1  
随着互联网技术的迅速发展,XML已经成为Web上信息表示和数据交换的事实标准。XML数据的冗余性影响了XML数据传输、查询处理等方面的效率,数据压缩是解决冗余的一种途径。介绍了典型的可查询XML压缩技术,阐述了各种压缩技术的优缺点,比较了各压缩技术的压缩率、压缩时间、支持查询的类型等;最后总结了可查询XML压缩技术的不足之处及其发展的趋势。  相似文献   

12.
Comparative Analysis of XML Compression Technologies   总被引:1,自引:0,他引:1  
XML provides flexibility in publishing and exchanging heterogeneous data on the Web. However, the language is by nature verbose and thus XML documents are usually larger in size than other specifications containing the same data content. It is natural to expect that the data size will continue to grow as XML data proliferates on the Web. The size problem of XML documents hinders the applications of XML, since it substantially increases the costs of storing, processing and exchanging the data. The hindrance is more apparent in bandwidth- and memory-limited settings such as those applications related to mobile communication. In this paper, we survey a range of recently proposed XML specific compression technologies and study their efforts and capabilities to overcome the size problem. First, by categorizing XML compression technologies into queriable and unqueriable compressors, we explain the efforts in the representative technologies that aim at utilizing the exposed structure information from the input XML documents. Second, we discuss the importance of queriable XML compressors and assess whether the compressed XML documents generated from these technologies are able to support direct querying on XML data. Finally, we present a comparative analysis of the state-of-the-art XML conscious compression technologies in terms of compression ratio, compression and decompression times, memory consumption, and query performance.  相似文献   

13.
XML为在Web上发布和交换异质数据提供了相当的灵活性。但由于这种语言自身就有冗余的特性所以XML文档在体积都大于有相同数据内容的其他类型的文档。随着XML在Web上应用的扩展其数据大小自然也会随之而增加,而这实质上增加了数据的存储量、处理量和交换量,因此XML文档的体积问题也阻碍了XML的应用,特别是阻碍了XML在具有带宽和内存容量限制的应用上如移动通讯应用。在这篇文章中,我们将大致的介绍一下最近提出的几种针对XML的压缩算法并分析它们在解决XML文档体积问题上的技术和效能。  相似文献   

14.
XML为在Web上发布和交换异质数据提供了相当的灵活性。但由于这种语言自身就有冗余的特性所以XML文档在体积都大于有相同数据内容的其他类型的文档。随着XML在web上应用的扩展其数据大小自然也会随之而增加.而这实质上增加了数据的存储量、处理量和交换量,因此XML文档的体积问题也阻碍了XML的应用,特别是阻碍了XML在具有带宽和内存容量限制的应用上如移动通讯应用。在这篇文章中,我们将大致的介绍一下最近提出的几种针对XML的压缩算法并分析它们在解决XML文档体积问题上的技术和效能。  相似文献   

15.
针对支持查询的XML数据压缩方法存在的路径和数据重复等问题,通过去除XML数据中的重复路径,简化XML数据结构,提出结构标记树的概念及其生成算法,设计一种基于结构标记树的可查询XML数据压缩方法SSTQC,对XML数据进行压缩和组织查询。SSTQC一次扫描XML文档,具有较好的的压缩性能和查询效率。  相似文献   

16.
随着互联网技术的迅速发展,XML已经成为Web上信息表示和数据交换的事实标准。由于XML具有自我描述能力,使得XML文档显得冗长,以至于包含了大量的冗余信息,这样必将影响数据查询处理和交换的效率。因此,XML数据压缩技术对于减少资源的使用显得特别重要。概述了XML压缩研究的现状;分析了典型的XML压缩技术,对其性能进行了比较;总结XML压缩技术的不足及发展趋势。  相似文献   

17.
The security of published XML data receives exceptional attention due to its sensitive nature in many applications. This paper proposes an XML view publishing method called XFlat. Compared with other methods, XFlat focuses on query performance over the published XML view while simultaneously protecting the sensitive data via encryption techniques. XFlat decomposes an XML tree into a set of sub-trees, in each of which multiple users have the same accessibility to all nodes, and may encrypt and store each sub-tree in a flat, sequential manner. This storage strategy can avoid the nested encryption cost in view construction and the nested decryption cost in query evaluation. In addition, we discuss how to generate a user-specific schema and how to minimize the total space cost of the published XML view when considering the overhead of the relationships among the sub-trees. We also propose an XML schema index to enhance query performance over the final XML view. The experimental results demonstrate the effectiveness and efficiency of the proposed XFlat method.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号