首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 93 毫秒
1.
XML关键字查询结果质量不高的一个很重要的原因是查询关键词难以反映用户真实的查询意图,而给关键词设置权重在一定程度上可以解决这一难题. 本文结合关键字之间的结构关系提出了一种新的结果排序方法,该方法给查询关键词设置权重,并参照查询关键词的权重给包含关键字的结点设定结点权重,然后根据关系树中的结点权重和关键词之间结构关系[1]统计SLCA结点的重要程度,再以此依据对查询结果进行排序,最后返回给用户有序的查询结果. 实验结果和分析表明,提出的排序方法具有较高的准确率,能够较好地满足用户查询的需求和偏好.  相似文献   

2.
魏珂  任建华  孟样福 《计算机科学》2012,39(10):164-169
提出了一种基于XML小枝查询片段松弛的近似查询与结果排序方法来实现用户在XML文档中的近似查询:通过收集用户的查询历史来推测用户偏好,并以此计算原始小枝查询分解得到的查询片段的重要程度,然后按照重要程度的排序进行查询松弛;在松弛方法中,根据查询片段数目的不同采用不同的松弛方法,若片段数目较多则以查询片段为粒度对其松弛,较少则以查询结点为粒度对数值查询与非数值查询采用不同的方法进行松弛,得到最为相关的近似查询结果;最后按近似查询结果对原始查询和用户偏好的满足程度进行排序并输出。实验证明,该近似查询方法能够较好地满足用户的需求和偏好,具有较高的查全率和准确率。  相似文献   

3.
张永  李泉霖  刘博 《计算机科学》2016,43(10):229-233
XML关键字查询作为一种信息检索方式,一直是相关领域的热点研究问题。在经典查询语义SLCA的基础上,设计并实现了一种基于智能分组策略的XML关键字查询的优化算法。提出的算法通过合理的分组策略可以保证在运算过程中及时 去除组内祖先节点和重复节点,减少了大量冗余计算,提高了算法的效率。最后设计多组实验在不同的XML数据上进行测试,实验结果表明了该算法的有效性和高效性。  相似文献   

4.
XML关键字查询处理研究   总被引:9,自引:0,他引:9  
关键字查询作为一种有效的信息检索手段,一直以来都是XML数据管理领域研究的热点问题,每年均有大量最新研究成果出现在各种顶级会议和期刊上.针对众多国内外研究者在XML关键字查询领域所作出的创新性工作,该文以XML关键字查询处理系统为框架来组织现有工作,重点分析和比较了查询生成、语义定义、排序机制、查询算法及结果展示等5个关键技术点所涉及的代表性工作的特点,并结合最新的应用需求从有效性和高效性的角度归纳出XML关键字查询技术后续研究面临的问题和挑战.  相似文献   

5.
用户使用关键字查询时可能不能准确地表达他们的意图,即使用户正确地表达了查询意图,查询引擎也可能不能准确地返回查询结果.针对这一问题,重点研究了在XML关键字查询中如何进行有效的查询改写并生成有意义的结果.提出4种查询改写操作和查询改写代价的概念,给出了动态规划的方法计算查询改写代价.为了找出最优的查询改写,给出了基于栈的查询改写和结果生成算法,并提出了基于划分的优化算法.最后通过丰富的实验对提出的方法进行了验证.  相似文献   

6.
为了解决普通用户对XML文档的近似查询问题,提出一种基于查询片段松弛的XML小枝近似查询方法.该方法利用查询历史推测用户偏好,进而根据用户偏好为原始小枝查询中的每个查询片段分配重要程度,然后基于查询片段重要程度对原始小枝查询条件进行松弛处理,最不重要的查询片段最先松弛,从而确保获取最为相关的查询结果;最后,根据对原始查询和用户偏好的满足程度,将得到的满足松弛查询条件的结果进行排序.实验结果表明,本文提出的查询松弛和结果排序方法能够获得较高的查全率和准确率,并且能较好地满足用户需求和偏好.  相似文献   

7.
提出了基于结果类型分组的XML(extensible markup language,可扩展标志语言)关键字查询算法。采用熵值赋权法确定结果类型,继而对XML文档节点虚拟分组,并在虚拟组的基础上给出了相应的查询算法,不仅确保了结果信息的完整,避免了丢失某些有意义结果和返回无意义结果的现象。实验结果表明,所提出算法与SLCA、MLCEA相比,在查询质量、效率及稳定性上有一定提高。  相似文献   

8.
目前,现有的大多数关键字查询方法都是计算XML包含关键字元素的最紧致片段,这类方法大都忽略了XML文档中嵌入的结构关系,而XML结构化查询能够准确捕捉用户查询的信息,具有较高的准确率.将结构化查询方法与关键字信息检索相结合,通过分析关键字与XML文档的结构关系判断用户查询的需求,将面向对象的思想和松弛查询的方法引入到关键字查询方法中,提出一个新的XML关键字近似查询框架(Rtop-k).实验结果表明,所提近似查询方法能够较为准确地捕捉用户的查询意图,具有较高的查全率和查准率.  相似文献   

9.
李婷  程海涛 《计算机科学》2017,44(9):216-221, 226
在精确XML文档上的关键字查询方法的研究大多是基于LCA语义或者其变种语义(SLCA,ELCA等)开展的,将包含所有关键字的最紧致XML子树片段作为查询结果返回。但是这些基于LCA语义产生的查询结果中通常包含了大量的冗余信息,现实世界中存在着大量的不确定和模糊信息,因而如何从模糊XML文档中搜索到高质量的关键字查询结果是一个需要研究的问题。针对模糊XML文档上的关键字近似查询方法进行研究,通过引入最小连接树(MCT)的概念,提出在模糊XML文档上关键字查询的所有GDMCTs问题,并给出解决这一问题的基于栈的算法All fuzzy GDMCTs,该算法可以得到满足用户指定的子树大小阈值和可能性阈值条件的所有GDMCTs结果。实验表明,该算法在模糊XML文档上能够得到较高质量的关键字查询结果。  相似文献   

10.
本文将当前数据库领域的2个研究热点-XML文档和数据流处理一的最新研究结合起来,提出了XML文档流关键字查询的问题。基于最小连通子树的概念。设计了相应的数据结构和基于栈的查询算法,可以有效解决XML文档流上进行关键字查询的问题。具体方法是把XML数据流表示成3类SAX事件:BEGIN(tag)、END(tag)和TEXT0。对每类事件的处理算法进行了详细,并进行了正确性证明。从理论上分析了算法的复杂度,并在XMark和treebank.xml两个数据集上对所提方法进行了广泛的实验。结果验证了本文工作的有效性。  相似文献   

11.
针对XML文档集的关键词检索结果排序   总被引:1,自引:0,他引:1       下载免费PDF全文
探讨了针对XML文档集中只与内容相关的关键词检索结果的排序问题,针对XML文档特征提出了一种新的排序模型,它不同于面向Web的XML网页的搜索结果的排序。设计了满足这种排序模型的倒排列表索引结构和搜索引擎的体系结构。  相似文献   

12.
关系数据库的关键词搜索面临的最大挑战在于满足需求的答案可能来自多个关系的元组的组合。现有主流方法通过定位每个关键词对应的元组并动态发现元组之间的关联来得到搜索结果。然而当数据库规模较大或模式复杂时,这些方法存在搜索效率低的问题;此外,这些方法因只能支持简单的关键词查询而实用性受到限制。为此,提出对元组的组合进行预先索引从而加快搜索,此外还对其索引效率及查询能力进行改进以提高系统的可用性。首先,为了提高搜索和索引效率,提出基于模式图的元组连接枚举技术,该技术利用无环模式图枚举合适的关系连接,将其转换为SQL语句在数据库中执行以得到可能的元组连接;其次,为了保证结果的紧致性,提出了1到m元组连接的预先索引与顺序搜索机制,该机制对元组连接进行由小到大的搜索,并限制所有包含已有结果的元组连接都不再参与搜索;最后,为了支持复杂查询,提出基于域的索引结构,为每个元组连接建立面向不同查询类型的域,通过查找多个域并对结果进行逻辑组合得到最终结果。实验表明,相比于已有技术,本技术具有较快的索引速度与较高的查询效率,并能提供如布尔查询、属性查询等的复杂查询能力。  相似文献   

13.
目前可扩展标示语言(XML)关键字查询大多是基于最小公共祖先(LCA)语义子树产生查询结果,而未能加入除LCA语义子树之外与用户查询意图相关的结果。为解决该问题,提出一种基于扩展查询表达式的XML关键字查询方法。将用户查询日志作为查询扩展统计模型,对其进行统计分析,并结合最佳检索概念判断是否需要扩展查询表达式。使用XML TF-IDF方法计算候选属性的权重,根据初检结果的上下文信息,利用聚类方法获得与查询意图最相关的扩展查询关键字,从而扩展查询表达式。实验结果表明,与XSeek和基于语义词典的查询扩展方法相比,该方法的平均F度量值分别提高了7%和17%,具有较高的查询质量。  相似文献   

14.
李求实  王秋月  王珊 《软件学报》2012,23(8):2002-2017
与纯文本文档集相比,使用语义标签标注的半结构化的XML文档集,有助于信息检索系统更好地理解待检索文档.同样,结构化查询,比如SQL,XQuery和Xpath,相对于纯关键词查询更加清晰地表达了用户的查询意图.这二者都能够帮助信息检索系统获得更好的检索精度.但关键词查询因其简单和易用性,仍被广泛使用.提出了XNodeRelation算法,以自动推断关键词查询的结构化信息(条件/目标节点类型).与已有的推断算法相比,综合了XML文档集的模式和统计信息以及查询关键词出现的上下文及其关联关系等推断用户的查询意图.大量的实验验证了该算法的有效性.  相似文献   

15.
可扩展标记语言(extensible markup language,XML)数据的关键词搜索面临着搜索结果数量庞大,同质化严重和不易区分等问题,针对这些问题,提出了一种新的基于多样化的方法.首先从查询结果抽取原型以标识查询结果语义,然后根据结果原型的特点,定义了原型的兴趣度和原型之间的距离,在此基础上,实现了原型的多样化.进一步提出了一种XML关键词搜索结果组织方法,即按照原型聚集查询结果.这种组织方式能够解决上述问题.最后通过实验证明了所提方法的有效性.  相似文献   

16.
一种基于XLCA的XML关键字搜索方法   总被引:1,自引:0,他引:1  
关键字搜索是大多数普通用户搜索信息的有效手段,因为他们不需要学习复杂的查询语言,也不需要了解底层数据的结构.本文研究了针对XML文档的关键字搜索问题,首先指出前人基于SLCA的结果集定义的不完备性,进而提出基于XLCA的结果集定义,使得其能够包含所有可能的结果.基于这样的结果集定义,给出了一种精简的索引结构以及相应的搜索算法,并实现了这两种不同的方法,实验证明本文提出的方法在性能以及可扩展性方面均有较大的提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号