首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
XML关键字查询是一个用户比较方便的信息搜索方法,非常适用于用户在不熟悉XML查询语言和底层结构的情况下进行信息查询。现有的XML数据流上关键字查询多采用查找SLCA结果集的方式,为了解决基于SLCA结果集定义的不完备性,引入了基于XLCA的结果集定义,使其查询包含尽可能全的结果。文中对于XML数据流提出利用滑动窗口模型保存数据,基于XLCA的结果集定义,提出了一种TOP-K关键字查询算法,并从理论上证明了此算法的正确性和查询的完备性,分析了其时间复杂性和空间复杂性。  相似文献   

2.
随着互联网数据爆炸式的增长,信息检索系统逐步采用分布式多数据源架构存储数据,在关键字检索时,选择与用户查询的关键字相关度大的数据源进行查询对提高检索效率显得格为重要.提出一种基于关键字检索的XML数据源选择方法,针对XML文档结构的层次特性,提出一种递归定义的结果评分模型,将结点的关键字频率与路径长度递归地加入到评分模型中,使得评分模型能够准确地评判结果的优劣.同时,利用评分模型定义并提取了XML数据源的摘要,并给出了摘要存储中涉及的压缩、优化、更新等问题的解决方案及算法.根据摘要信息,提出4种数据源选择的方案,并使用DBLP数据集来验证了文章所提出的数据源选择算法的有效性.  相似文献   

3.
XML数据查询中值匹配查询代价估计算法   总被引:6,自引:0,他引:6  
曲卫民  孙乐  孙玉芳 《软件学报》2005,16(4):561-569
XML数据查询中值匹配查询条件的查询代价估计问题是一种典型的多元素查询条件代价估计问题.它与传统关系型数据库中的多元素查询条件不同,因为XML数据中的值信息分布不仅与其他值信息分布相关,还与XML数据中的结构信息相关,而且当XML数据结构比较复杂时,可能会形成高维元素相关.针对以上问题,提出了一种面向XML数据的基于小波的多维直方图查询代价估计算法,并提出了确定XML数据中以某值元素为主键的相互依赖元组的方法,将值匹配条件改写为多元素查询条件的方法以及结构信息的值化方法.实验结果证明,提出的方法取得了较准确的查询代价估计结果.  相似文献   

4.
基于关键字的XML检索技术是近几年信息检索领域的研究热点.但是由于关键字缺少XML结构语义信息,检索结果和用户需求偏差较大,检索质量难以提高;而XML结构检索由于用户难以提出准确描述查询意图的查询表达式而难以普及.另一个更突出的问题是现有的XML检索研究绝大多数都集中在单文档上,缺乏实用性.因此提出一种基于关键字的结构检索方法,即用分布式方式实现对多XML文档的检索,简称为MXDR(Multi-XML Distributed Retrieval).MXDR首先用一种兼顾结构和内容的聚类方法对多文档进行分类,通过分析查询关键字和类别结构信息,确定分布查找策略,再结合查询关键字和XML的结构信息,构建结构查询语句,最后通过结构查询系统实现关键字检索.在多组真实数据Sigmod数据集上的验证结果表明,与经典的SLCA方法比较,MXDR方法具有较高的查全率和查准率,尤其在检索效率上MXDR方法有显著优势.  相似文献   

5.
李婷  程海涛 《计算机科学》2017,44(9):216-221, 226
在精确XML文档上的关键字查询方法的研究大多是基于LCA语义或者其变种语义(SLCA,ELCA等)开展的,将包含所有关键字的最紧致XML子树片段作为查询结果返回。但是这些基于LCA语义产生的查询结果中通常包含了大量的冗余信息,现实世界中存在着大量的不确定和模糊信息,因而如何从模糊XML文档中搜索到高质量的关键字查询结果是一个需要研究的问题。针对模糊XML文档上的关键字近似查询方法进行研究,通过引入最小连接树(MCT)的概念,提出在模糊XML文档上关键字查询的所有GDMCTs问题,并给出解决这一问题的基于栈的算法All fuzzy GDMCTs,该算法可以得到满足用户指定的子树大小阈值和可能性阈值条件的所有GDMCTs结果。实验表明,该算法在模糊XML文档上能够得到较高质量的关键字查询结果。  相似文献   

6.
提出了一种结构编码与簇集索引相结合的XML混合索引结构(H iSC)。引入簇集索引结构,将XML节点分类,尽量多地保存XML数据的结构信息,缩小查询范围,提高了查询效率并能支持关键字的查询。实验表明此索引结构可以高效并准确地查询XML数据中的结构信息。  相似文献   

7.
XML数据流上的关键字查询   总被引:3,自引:1,他引:3  
XML数据流上的XPath & XQuery查询处理是目前研究者关注的热点问题,但由于XPath & XQuery查询语言相对复杂,在不知道模式信息的前提下,用户很难通过已有的查询接口得到自己感兴趣的数据片断,因此如何在数据流模型上根据XML数据的特点为用户提供最友好的查询接口就成为一个亟待解决的问题.针对这个问题,创新地提出了在XML数据流上做关键字查询的问题,给出了最小相关连通子树(SRCT)的概念用于处理返回的结果,并设计了一种新的基于栈的Lookup算法,可以有效解决在XML数据流上进行关键字查询的问题,最后通过实验从不同角度对Lookup算法的各项性能指标进行了验证.  相似文献   

8.
目前可扩展标示语言(XML)关键字查询大多是基于最小公共祖先(LCA)语义子树产生查询结果,而未能加入除LCA语义子树之外与用户查询意图相关的结果。为解决该问题,提出一种基于扩展查询表达式的XML关键字查询方法。将用户查询日志作为查询扩展统计模型,对其进行统计分析,并结合最佳检索概念判断是否需要扩展查询表达式。使用XML TF-IDF方法计算候选属性的权重,根据初检结果的上下文信息,利用聚类方法获得与查询意图最相关的扩展查询关键字,从而扩展查询表达式。实验结果表明,与XSeek和基于语义词典的查询扩展方法相比,该方法的平均F度量值分别提高了7%和17%,具有较高的查询质量。  相似文献   

9.
非空结果的XML关键字查询中,多个查询关键字之间必然存在联系,这种联系可以通过SLCA(最紧致片段)的结构关系获得.基于SLCA的结构关系,提出了一种推测多个关键字内在联系的XML关键字查询结果排序方法:通过LISA Ⅱ 算法获得SLCA;根据SLCA的结构信息推测出各个关键字之间的内在结构关系,得到所有关键字组成的关系树;然后根据关系树中各关键字对查询结点的严格程度得到对应SLCA的重要程度,据此得到有序的SLCA并输出.该方法利用了XML文档的结构信息对查询结果进行排序.实验结果和分析表明,提出的方法具有较高的准确率,能够较好地满足当前用户的需求和偏好.  相似文献   

10.
XML数据包含丰富的语义信息,但现有的大多数XML搜索引擎并未利用这一信息.如何利用XML数据的语义信息提高检索质量已成为当前研究所关注的问题.设计并实现了一个基于语义相关的XML关键字搜索引擎:Ropeway. 对于用户给定的关键字,Ropeway分析了XML数据的语义和用户信息需求,推断用户的查询主题,然后从XML数据中搜索与该主题相关的结果,并根据主题相似度对结果进行排序.结果证明: Ropeway具有良好的检索性能.  相似文献   

11.
XML强多值依赖的推理规则集问题是解决不完全信息环境下XML数据依赖蕴涵问题的基础,是不完全信息环境下XML模式设计理论的关键问题之一。提出了XML Schema、符合XML Schema的不完全XML文档树等概念;基于子树信息等价和子树信息相容的概念提出了XML强多值依赖的定义及性质;给出了相应的推理规则集,并对其正确性和完备性进行了证明。研究成果为不完全信息环境下存在XSMVD的XML Schema设计奠定了基础。  相似文献   

12.
基于演化计算的XML数据的关系存储   总被引:5,自引:0,他引:5  
随着XML规范的制定和推广,XML数据管理技术受到数据库界广泛重视,XML数据的存储是XML数据管理的关键.研究了利用数据库技术和人工智能技术,为XML数据的关系存储提供一种灵活的策略.首次提出了代价驱动的基于遗传算法的关系存储策略CDGABRS,针对不同的用户和查询模型,产生不同的映射模型方案,引进遗传算法,计算对应的系统开销,从中求出使系统的存储代价和查询代价最优的关系存储方案.实验证明了CDGABRS方法的可行性和高效性.  相似文献   

13.
沈刚  罗军 《计算机工程》2009,35(12):56-58
XML保持语义下的冗余检测问题对于防止XML文档的更新异常和减少XML冗余信息的存储具有很大意义,是XML规范化理论的关键问题之一。对XML schema、树元组、XML键、XML范式等进行研究,定义基于schema的XML函数依赖形式化模型,并基于该定义模型设计一种新的XAP算法,可有效发现XML文档中的函数依赖和冗余,并对算法的复杂性进行分析。  相似文献   

14.
XML多值依赖的推理规则集问题是解决XML数据依赖的蕴涵问题的基础,是XML规范化理论的关键问题之一。该文对XML树、树元组等进行了重新定义,与Vincent等人不同,提出了基于DTD的XML多值依赖的概念,通过对XML的关系化表示给出了其形式化定义,定义了XML多值依赖集的闭包、XML多值依赖路径依赖基以及XML多值依赖路径集的闭包等概念,给出了一个有效且完备的推理规则集,并对其有效性及完备性进行了证明。  相似文献   

15.
XML的普及带来了一个不容回避的问题:安全。从XML技术在信息系统应用中的多个方面进行分析,涉及从客户端、传输媒介至服务器的整个过程,并提出采用XML的计算机系统安全分析模式,指出相应的安全隐患。在给出一般系统级的安全措施后,有针对性的对各风险点的给出应对策略,并对XML安全相关技术进行总结。  相似文献   

16.
XML的普及带来了一个不容回避的问题:安全。从XML技术在信息系统应用中的多个方面进行分析.涉及从客户端、传输媒介至服务器的整个过程,并提出采用XML的计算机系统安全分析模式,指出相应的安全隐患。在给出一般系统级的安全措施后,有针对性的对各风险点的给出应对策略,并对XML安全相关技术进行总结。  相似文献   

17.
The problem of answering XML queries using path-based indexes is to find efficient methods for accelerating the XML query with pre-designed index structures over the XML database. This problem received increasing interests and have been lucubrated in recent years. Regular path expression is the core of the XML query languages e.g., XPath and XQuery. Most of the state-of-the-art path-based XML indexes, therefore, hammer at how to efficiently answer the path-based XML queries. This paper surveys various approaches to indexing XML data proposed in the literature. We give a step by step analysis to show the evolution of index structures for XML path information, based on tree structures or more commonly, directed labeled graphs. For each approach, we first present the specific issue it aims to tackle, and then the proposed solution presented. Furthermore, construction, physical data storage and maintenance costs, are analyzed.  相似文献   

18.
XML access control models proposed in the literature enforce access restrictions directly on the structure and content of an XML document. Therefore access authorization rules (authorizations, for short), which specify access rights of users on information within an XML document, must be revised if they do not match with changed structure of the XML document. In this paper, we present two authorization translation problems. The first is a problem of translating instance-level authorizations for an XML document. The second is a problem of translating schema-level authorizations for a collection of XML documents conforming to a DTD. For the first problem, we propose an algorithm that translates instance-level authorizations of a source XML document into those for a transformed XML document by using instance-tree mapping from the transformed document instance to the source document instance. For the second problem, we propose an algorithm that translates value-independent schema-level authorizations of non-recursive source DTD into those for a non-recursive target DTD by using schema-tree mapping from the target DTD to the source DTD. The goal of authorization translation is to preserve authorization equivalence at instance node level of the source document. The XML access control models use path expressions of XPath to locate data in XML documents. We define property of the path expressions (called node-reducible path expressions) that we can transform schema-level authorizations of value-independent type by schema-tree mapping. To compute authorizations on instances of schema elements of the target DTD, we need to identify the schema elements whose instances are located by a node-reducible path expression of a value-independent schema-level authorization. We give an algorithm that carries out path fragment containment test to identify the schema elements whose instances are located by a node-reducible path expression.  相似文献   

19.
乔加新 《微机发展》2007,17(11):131-134
在深入分析XML签名规范的基础上,针对XML签名规范在解决业务链的多方通信过程中XML敏感数据安全问题的不足,提出了一种改进的XML签名技术,研究实现它们的工作原理。同时设计了基于XML改进签名技术的XMLSchema,并给出了发送方XML整体签名和各接收方分别验证的实现过程,可以很好地满足业务链中一方对所要提供给其它各方的多个XML敏感数据进行整体签名、部分验证的要求,保证了这些数据在多方通信过程中的确认性、完整性和不可否认性。  相似文献   

20.
XML为在Web上发布和交换异质数据提供了相当的灵活性。但由于这种语言自身就有冗余的特性所以XML文档在体积都大于有相同数据内容的其他类型的文档。随着XML在web上应用的扩展其数据大小自然也会随之而增加.而这实质上增加了数据的存储量、处理量和交换量,因此XML文档的体积问题也阻碍了XML的应用,特别是阻碍了XML在具有带宽和内存容量限制的应用上如移动通讯应用。在这篇文章中,我们将大致的介绍一下最近提出的几种针对XML的压缩算法并分析它们在解决XML文档体积问题上的技术和效能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号