首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
为了准确推断用户的查询意图,提出一个XML关键词查询和排序的方法。该方法首先根据XML文档结构和语义,分别建立标签信息表和文本信息表表示文档的结构和数据,然后通过标签和文本两个指标确定查询关键词和目标节点的相似性得分,给出排序方法。同时给出该方法实现的算法,并通过实验验证了该方法的有效性。实验结果表明,该方法可以更准确地推断用户查询的目标节点。  相似文献   

2.
在处理XML关键词查询时,首先要确定答案结点的语义,即什么样的结点是答案结点.通过两步分析答案结点的语义:首先推导候选答案结点的类型,然后根据答案结点与查询的关系来精选答案结点.在第1步中,将XML结点映射到ER模型中的概念,利用结点的内容特征、出现特征和引用特征等来推导结点类型,并要求答案结点代表了实体;在第2步中,要求答案结点与查询相关且最精确,在此基础上提出了SLCEA的语义.实验证明,按照这种方法识别出的答案结点是有意义的.  相似文献   

3.
针对XML文档集的关键词检索结果排序   总被引:1,自引:0,他引:1       下载免费PDF全文
探讨了针对XML文档集中只与内容相关的关键词检索结果的排序问题,针对XML文档特征提出了一种新的排序模型,它不同于面向Web的XML网页的搜索结果的排序。设计了满足这种排序模型的倒排列表索引结构和搜索引擎的体系结构。  相似文献   

4.
XML关键字查询结果质量不高的一个很重要的原因是查询关键词难以反映用户真实的查询意图,而给关键词设置权重在一定程度上可以解决这一难题. 本文结合关键字之间的结构关系提出了一种新的结果排序方法,该方法给查询关键词设置权重,并参照查询关键词的权重给包含关键字的结点设定结点权重,然后根据关系树中的结点权重和关键词之间结构关系[1]统计SLCA结点的重要程度,再以此依据对查询结果进行排序,最后返回给用户有序的查询结果. 实验结果和分析表明,提出的排序方法具有较高的准确率,能够较好地满足用户查询的需求和偏好.  相似文献   

5.
伪反馈一直以来都被认为是一种有效的查询扩展技术.但是近来的研究表明传统的伪反馈容易带来主题漂移并因此而影响检索性能.如何确定相关文档以及如何从相关文档中挑选有用的扩展词项是伪反馈中两个重要的方面.与传统查询扩展不同,XML查询扩展不仅需要内容扩展还需要考虑结构扩展.提出了一个解决框架,利用聚类和词组抽取技术来查找相关文档和选择有用的扩展信息.结合XML的语义特征,提出了一种全新的基于层次信息的文档相似性度量方案.基于此,将初始检索结果聚类,获得与查询请求最为相关的文档簇,然后在文档簇中抽取词组,找到符合用户查询意图的扩展查询词组,并在扩展查询词组的基础上进行结构扩展,最终形成完整的"内容+结构"的查询扩展表达式.IEEE CS实验数据上的实验结果表明,结合了聚类和抽取技术的XML伪反馈查询扩展方法能有效地降低主题漂移现象,获得更好的检索质量.  相似文献   

6.
基于Nearest Pair 的XML 关键词检索算法   总被引:1,自引:0,他引:1  
随着大量数据以XML格式保存,针对XML文档的关键词检索技术已经成为信息检索和数据库等相关领域的研究热点.以树的杜威编码为基础,分析并证明了XML 关键词检索中核心概念SLCA(smallest lowest commonancestor)的两个重要性质,并在其基础上提出了Nearest Pair 算法.该算法采用二分迭代查找技术寻找最邻近点,将求解中间结果的次数降低了一个量级.实验结果表明,该算法的性能在绝大多数情况下优于现有主流算法.  相似文献   

7.
XML数据查询中值匹配查询代价估计算法   总被引:6,自引:0,他引:6  
曲卫民  孙乐  孙玉芳 《软件学报》2005,16(4):561-569
XML数据查询中值匹配查询条件的查询代价估计问题是一种典型的多元素查询条件代价估计问题.它与传统关系型数据库中的多元素查询条件不同,因为XML数据中的值信息分布不仅与其他值信息分布相关,还与XML数据中的结构信息相关,而且当XML数据结构比较复杂时,可能会形成高维元素相关.针对以上问题,提出了一种面向XML数据的基于小波的多维直方图查询代价估计算法,并提出了确定XML数据中以某值元素为主键的相互依赖元组的方法,将值匹配条件改写为多元素查询条件的方法以及结构信息的值化方法.实验结果证明,提出的方法取得了较准确的查询代价估计结果.  相似文献   

8.
XML查询优化研究   总被引:25,自引:2,他引:23  
孟小峰  王宇  王小锋 《软件学报》2006,17(10):2069-2086
XML已经成为网络上信息描述和信息交换的标准.由于网络上信息的本质特性和XML数据内在的灵活性,很多用XML编码的数据都是半结构化的.随着XML应用得越来越广泛,人们提出了多种XML数据的存储模型.与此同时,XML的查询优化也是数据库领域研究的一个重要课题.综合论述了XML数据查询优化技术的现状,指出了XML查询优化的特点和研究的关键性问题.描述了查询优化技术各个方面的重要研究成果以及存在的问题,进一步展望了未来的研究方向,并在此基础上提出了对XML查询优化方法的一些观点.  相似文献   

9.
XML查询语言     
本文综述XML查询语言的研究现状,重点分析W3C的XML查询语言XQuery1.0,同时也介绍了XQuery需要增加的更新功能.本文还介绍了XML查询处理的两种不同思路:基于关系数据库的XML查询处理和基于内存的XML文档的查询处理.  相似文献   

10.
可查询XML数据压缩技术概述   总被引:1,自引:0,他引:1  
随着互联网技术的迅速发展,XML已经成为Web上信息表示和数据交换的事实标准。XML数据的冗余性影响了XML数据传输、查询处理等方面的效率,数据压缩是解决冗余的一种途径。介绍了典型的可查询XML压缩技术,阐述了各种压缩技术的优缺点,比较了各压缩技术的压缩率、压缩时间、支持查询的类型等;最后总结了可查询XML压缩技术的不足之处及其发展的趋势。  相似文献   

11.
目前可扩展标示语言(XML)关键字查询大多是基于最小公共祖先(LCA)语义子树产生查询结果,而未能加入除LCA语义子树之外与用户查询意图相关的结果。为解决该问题,提出一种基于扩展查询表达式的XML关键字查询方法。将用户查询日志作为查询扩展统计模型,对其进行统计分析,并结合最佳检索概念判断是否需要扩展查询表达式。使用XML TF-IDF方法计算候选属性的权重,根据初检结果的上下文信息,利用聚类方法获得与查询意图最相关的扩展查询关键字,从而扩展查询表达式。实验结果表明,与XSeek和基于语义词典的查询扩展方法相比,该方法的平均F度量值分别提高了7%和17%,具有较高的查询质量。  相似文献   

12.
用户使用关键字查询时可能不能准确地表达他们的意图,即使用户正确地表达了查询意图,查询引擎也可能不能准确地返回查询结果.针对这一问题,重点研究了在XML关键字查询中如何进行有效的查询改写并生成有意义的结果.提出4种查询改写操作和查询改写代价的概念,给出了动态规划的方法计算查询改写代价.为了找出最优的查询改写,给出了基于栈的查询改写和结果生成算法,并提出了基于划分的优化算法.最后通过丰富的实验对提出的方法进行了验证.  相似文献   

13.
为准确地推断可扩展标记语言(XML)关键字检索中的用户查询目标,提出一种目标节点推断方法。在获取目标节点时,考虑相应类型下XML节点出现的频率,以及用户输入关键字所在的不同位置对目标节点类型的影响,赋予词频不同的权重参数,同时引入XReal中XML文档树的层次信息,进行目标节点的推断。实验结果表明,该方法可以得到更准确的目标节点,提高查询准确率。  相似文献   

14.
基于最低最小公共祖先(SLCA)的XML关键字搜索语义,提出一种使用XML结构摘要(summary)对关键字进行索引的方法XKSS.XKSS索引方法通过避免重复存储大量XML树上的含义相同的节点,大幅度降低了索引的空间耗费,并提高了查询性能.基于XKSS建立的索引,提出一个算法SSB-SLCA来计算SLCA节点.实验表明,基于XKSS的关键字搜索方法能够更高效地寻找关键字的SLCA.  相似文献   

15.
本文将当前数据库领域的2个研究热点-XML文档和数据流处理一的最新研究结合起来,提出了XML文档流关键字查询的问题。基于最小连通子树的概念。设计了相应的数据结构和基于栈的查询算法,可以有效解决XML文档流上进行关键字查询的问题。具体方法是把XML数据流表示成3类SAX事件:BEGIN(tag)、END(tag)和TEXT0。对每类事件的处理算法进行了详细,并进行了正确性证明。从理论上分析了算法的复杂度,并在XMark和treebank.xml两个数据集上对所提方法进行了广泛的实验。结果验证了本文工作的有效性。  相似文献   

16.
随着互联网数据爆炸式的增长,信息检索系统逐步采用分布式多数据源架构存储数据,在关键字检索时,选择与用户查询的关键字相关度大的数据源进行查询对提高检索效率显得格为重要.提出一种基于关键字检索的XML数据源选择方法,针对XML文档结构的层次特性,提出一种递归定义的结果评分模型,将结点的关键字频率与路径长度递归地加入到评分模型中,使得评分模型能够准确地评判结果的优劣.同时,利用评分模型定义并提取了XML数据源的摘要,并给出了摘要存储中涉及的压缩、优化、更新等问题的解决方案及算法.根据摘要信息,提出4种数据源选择的方案,并使用DBLP数据集来验证了文章所提出的数据源选择算法的有效性.  相似文献   

17.
关键字检索是大多数普通用户用来查找信息的首选方式,概率XML数据是时下受到较多关注的不确定数据的一种表现形式.论文主要针对概率XML数据研究其关键字检索的方法.首先选取在确定XML数据上受到广泛认可的ELCA检索结果集,进而提出概率XML数据上的ELCA的结果集定义.其次,基于这样的结果集理论,给出在概率XML数据上进行ELCA的关键字检索的算法,并引入概率阈值的概念加以实现.最后利用实验数据证明了使用合成数据的检索算法具有效率和有效性.  相似文献   

18.
可扩展标记语言(extensible markup language,XML)数据的关键词搜索面临着搜索结果数量庞大,同质化严重和不易区分等问题,针对这些问题,提出了一种新的基于多样化的方法.首先从查询结果抽取原型以标识查询结果语义,然后根据结果原型的特点,定义了原型的兴趣度和原型之间的距离,在此基础上,实现了原型的多样化.进一步提出了一种XML关键词搜索结果组织方法,即按照原型聚集查询结果.这种组织方式能够解决上述问题.最后通过实验证明了所提方法的有效性.  相似文献   

19.
XML流上的关键字查询算法   总被引:2,自引:1,他引:1       下载免费PDF全文
针对当前XML流过滤研究中存在的问题,使用关键字查询方法作为解决方案。提出最右包含边界的概念,结合一个虚拟栈实现用于在XML数据流上进行关键字查询的XVirtual Stack算法。理论分析和实验结果证明,该算法具有高效性。  相似文献   

20.
近年来,随着XML数据的爆炸式增长,对XML关键字查询技术的研究日益受到关注。数据编码是关键字查询的基础,目前主要有2种方式--基于路径的编码及区间编码。区间编码可更好地适应对查询中的XML数据进行动态的更新,因而具有更多的优势。本文研究基于区间编码的关键字查询问题,提出一种新的查询算法。该算法首先根据预留的区间值建立索引,再根据最小范围值对索引进行选择遍历,减少了不必要的比较,达到了提高查询效率的目的。研究发现,预留空间的选择对查询效率有一定的影响。为此,本文设计一种基于节点自身进行区间预留的编码方式(Interval Reservation Based on Node, IRBN),为节点设置权值,并根据权值进行区间值的设定,形成根据节点自身分配区间的较为均衡的编码。实验表明,IRBN编码是合理的,有较高的查询效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号