首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
提出一种基于XML的文档图像在原生数据库中存储和检索的新方法,该方法将文档图像切分标记为XML文档,将此类XML文档存储到原生数据库中;利用XML:DB API接口对XML数据进行查询和管理,XSL样式表完成XML数据的显示.  相似文献   

2.
目的提出一种XML文档存储和查询方法,解决XML文档有效的存储和查询,避免处理XML数据时进行多级复杂的转换.方法充分利用关系数据库成熟技术,有效实现大量数据的存储和查询.采用SAX技术解析XML文档,并通过对现有哈夫曼编码进行扩展,实现将XML文档结点信息和属性以关系结构进行存储和查询.利用扩展后的哈夫曼编码来存储结点信息和结点之间关系.结果通过遍历XML文档生成了XML文档对应扩展哈夫曼编码,实现了XML文档信息以关系数据形式存储和查询,并实现了SQL语句与XML查询语句的转换.结论基于扩展哈夫曼编码结点映射的存储与查询方法能较好地实现结点信息与结点关系的存储,并有效地实现查询,在应用中具有一定可行性.  相似文献   

3.
XML检索中基于聚类的查询词扩展   总被引:1,自引:0,他引:1  
XML文档是一种半结构化的数据,它包含的结构信息可有效解决传统文本信息检索中存在的语言二义性等问题.但用户提出的查询质量低并没有得到解决,因此需要通过反馈等手段来解决这一问题.该文提出了一种基于聚类的XML信息检索的查询词扩展方法,利用聚类手段来确定用户查询的对应检索结果的特征,通过提取这些特征来进行查询词扩展,得到更全面的反映用户查询意图的查询条件,提高检索的查全率与查准率.  相似文献   

4.
提出一种新型XML数据存储和查询的方法,解决了XML文档有效的存储和查询复杂的问题.采用SAX技术输出XML流,并通过对哈夫曼编码的分析,对XML文档中各个元素生成基于哈夫曼编码加以扩展,并随元素信息存入关系数据库.即在关系数据库中存放结点信息及结点之间的关系,使查询结点与子结点信息更方便,实现以文档为中心的文档粒度较大的文档的存储和查询.应用SAX技术生成扩展的哈夫曼编码,存储结点的信息,方便地实现XML文档信息的查询.基于扩展哈夫曼编码的XML有效地提高了XML文档存储和查询效率,在应用中具有一定可行性.  相似文献   

5.
传统数据库只管理确定性信息.但在许多应用中涉及大量不确定数据。本文把概率数据引入XML文档中.提出概率XML文档树、概率XML模式树、概率XML文档树符合概率XML模式树的定义;给出了概率XML Twig查询树和概率XML Twig查询匹配的定义,最后提出了计算概率XML Twig查询结果概率的定理。  相似文献   

6.
目前Web上大多是非结构化的信息,检索主要是通过基于体、协会在Web上通过DTD/Schema定义XML(Extensible Markup Language)文档,由于XML描述了结构化的信息,对XML文档的检索也与以往的搜索引擎不同.为此,本文设计了一个新的基于XML文档的智能信息检索原型系统ⅪIRC,给出了它的体系结构及功能,并对用户界面、索引机制、查询机制、检索结果概念聚类等问题进行了探讨.  相似文献   

7.
信息检索是从文档集合或互联网中找出用户所需信息的过程,细化为召回和排序两个阶段。针对排序阶段中相关文档的重排序,提出一种称为融合排序学习与预训练模型的检索排序方法(Pair-Wise FineTuned Bidirectional Encoder Representation from Transformers,PWFTBERT)。通过对候选论文数据集使用BM25等算法召回出与查询相关的小范围文档后,可应用PWFT-BERT对召回得到的文档集合进行排序。为构造pair-wise形式的训练数据,提出一种伪负例生成算法生成训练数据,并使用排序学习方法微调预训练模型使其适配排序任务。对比IT-IDF和BM25基线方法,PWFT-BERT在WSDM-DiggSci 2020数据集上的检索结果提升了240%和74%,证明了所提方法的有效性。  相似文献   

8.
传统的信息检索系统都是按照结果与用户查询的相关性大小进行排序,返回结果之间相互孤立缺乏整体性,冗余性很大.为了使用户获得完整的相关信息,采用一种基于子主题提取的文档集合生成算法聚类相关检索结果,引入一个新概念"并集度",最后利用相关度、并集度和新颖度对结果集重新排序.实验结果表明在进行算法改进后,整体相关度有所上升,同时排在前面的文档集合的并集度和新颖度也较大,包含的信息更加完整,冗余性更小,可以更好地满足用户的查询需求.  相似文献   

9.
为了解决微博检索面临的"用户查询"和"相关文档"都是极端短文本的情况,及由此造成的检索性能欠佳的难题,研究并实现了一种微博检索结果的二次重排算法,基于微博内容相似关系构建关系图模型,利用PageRank算法对微博检索结果进行二次排序.比较了基于余弦相似度、戴斯系数、单向戴斯系数等文本内容相似度计算方法.实验结果表明:二次排序算法能够有效提升微博检索性能,同时图模型迭代性能与相关主题比例存在依存关系.有鉴于此,讨论通过决策树重排算法去除非相关主题对微博排序的影响.  相似文献   

10.
为了解决在多文档下插入节点或需要修改节点编码时查询效率比较低的问题,提出了一种有效的结构连接算法.在分析现有单文档下的XML结构连接算法基础上,对祖先/后裔与双亲/孩子结构查询进行改进,基于归并思想解决多文档下的结构连接,以适应在面向方面的XML Schema中定义的基于多文档的查询.改进后的结构连接算法可以进一步利用XML数据的特点、索引和织入文档信息减少连接扫描的代价,具有一定的合理性、有效性和实用性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号