首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
一种基于XML的文档处理模型   总被引:1,自引:0,他引:1  
在某军用软件开发过程中,由于系统文档格式不一致、结构性差,造成了系统文档管理、数据库存储及资源共享的不便。为解决这些问题,给出了一种基于XML的文档处理模型,应用XML和Oracle XML DB技术,对文档作结构化处理,并映射到关系数据库,映射过程中保持了文档模式语义约束和文档保真性;详细介绍了模型的结构和实现技术,并给出了应用实例。  相似文献   

2.
结构化文档是云计算环境中实现信息交互与传播的载体,针对已有研究工作缺乏能够描述这种载体的结构化文档模型的问题,在深入分析云计算环境中结构化文档特征的基础上,对文档元素、原子文档元素、连接、文档片段、复杂文档元素等进行形式化定义,建立能够满足这种特征的结构化文档形式化模型。最后,指出云计算环境中结构化文档进一步的研究方向。  相似文献   

3.
针对基于关系型数据库的地理信息传播模型在互联网虚拟计算环境下的不足,提出了一种基于文档数据库的全栈式地理信息传播模型。该模型以多粒度地理特征的映射规约分析计算和文档数据库的多版本并发控制为框架,用统一的内建域指定语言作为传播媒介描述载体,结合数据的运行时元编程和地理服务的REST风格部署,实现地理空间数据的动态开放式传播,证明非结构化地理空间数据的传播模型能满足逻辑语义和物理存储双重易扩展性。  相似文献   

4.
互联网上存在海量数据,如何在大量的信息中查找到有用信息就变成了一个至关重要的问题。语义网为解决这一问题带来了曙光。然而当今网络现状与语义网之间存在巨大差距,即海量非结构化的页面内容难直接转化为语义的知识。提出了一种基于文档内容的语义标注方法,利用本体所表达的语义环境,即本体知识相关词汇及其所处的语义上下文环境在文档中出现频率,实现对文档的语义标注。实验显示方法取得良好的效果,但受本体知识质量和标注文档质量两个因素影响较大。  相似文献   

5.
随着信息化技术的发展,面对材料等相关领域数据的多源异构、扩展性强、爆炸增长等特点,传统关系数据库无法对数据进行存储,因此可利用NoSQL的无模式存储、高扩展性等特性来解决这一难题。作为NoSQL数据库常用的数据存储格式,JSON因简单性和灵活性备受欢迎。然而,NoSQL数据库缺乏模式信息,在JSON文档存入数据库之前,需要对其进行数据验证与分析。目前,大多数方法是基于JSON schema对JSON文档格式的规范性进行校验,无法有效解决JSON文档的异常检测以及语义歧义问题。为此,文中提出了面向NoSQL数据库的JSON文档异常检测与语义消歧模型doctorJSON。该模型基于JSON schema对存入的JSON文档分别设计了异常检测算法deoutJSON和语义消歧算法disemaJSON,以检测JSON文档存在的异常和歧义。在真实数据集与合成数据集上的实验验证了所提模型的有效性和执行效率。  相似文献   

6.
基于编码器—解码器架构的序列到序列学习模型是近年来主流的生成式文摘方法。但是,传统的编码器尚不能有效地对长文档进行语义编码,并且只能学习线性链结构的信息, 忽视了文档具有的层次结构。而文档的层次结构(字—句—文档)有助于自动文摘系统更加准确地判断文档内不同结构单元的语义信息和重要程度。为了使编码器能够获取文档的层次结构信息,该文根据文档的层次结构对文档进行编码: 首先构建字级语义表示,然后由字级语义表示构建句级语义表示。另外,该文还提出了一种语义融合单元来对输入文档不同层次的语义信息进行融合,作为最终的文档表示提供给编码器生成摘要。实验结果表明,在加入该文提出的层次文档阅读器与语义融合单元后,系统性能在 ROUGE 评价指标上有显著提高。  相似文献   

7.
为解决企业经营管理等活动中涉及的文档信息的管理、集成与共享问题,建立一种基于Web的文档信息管理系统。对企业的实际需求进行系统的调研与分析,整理企业的文档管理类型与对象,提出文档管理系统的基本流程。对文档的数据库进行分析与设计,提出基于Web的系统模型,开发了多层次的文档信息管理系统。实践表明,该系统能够实现企业的文档信息的集成管理和共享。  相似文献   

8.
基于语义查询本体的语义网文档检索   总被引:1,自引:0,他引:1  
语义网的发展使人们需要对语义网文档进行检索.为了在不需要专业知识和技巧的情况下让用户能形成语义的查询,提出了一种基于本体可以在结构化的知识库里检索语义网文档的算法.通过将自然语言查询术语映射到词汇意义来构造查询本体,以及检索跟查询本体最相似的语义网文档,提高了对语义网文档检索的查准率,使用户能更好地利用语义检索服务.  相似文献   

9.
互联网技术的发展产生的海量非结构化数据在传统关系型数据库中难以被高速有效地进行存储和处理,各类NoSQL数据库可以有效存储处理非结构化数据,但是对关系运算功能的弱化难以满足应用场景的需求。具备非结构化数据处理能力的新型关系型数据库提供了适用多种应用场景的高效存储方式。为了能够定量地比较关系型数据库和面向文档的NoSQL数据库的数据存储与处理能力,比较了PostgreSQL的hstore数据类型和MongoDB的内嵌文档对非结构化数据的储存方式,并通过非结构化数据的批量加载、磁盘占用、主键查询、非主键查询、地理空间坐标查询等方面的对比来以分析性能特征与适用场景。  相似文献   

10.
针对目前文档级别关系抽取主要关注实体间的逻辑推理,未充分利用实体间的层次语义信息问题,提出一种基于实体层次结构的文档级别关系抽取模型。考虑多句文本中实体间的交互,将实体构建为文档图并使用图卷积神经进行信息传播;通过实体间的上下位关联构建实体层次树,使用注意力机制将层次语义信息融入实体;为降低模型对实体表面信息的关注,使用实体类型对实体词进行替换。实验结果表明,在大规模文档级别关系抽取数据集上实体语义信息增强的方案能够有效提高文档级别关系抽取的效果。  相似文献   

11.
一种通过内容和结构查询文档数据库的方法   总被引:4,自引:0,他引:4       下载免费PDF全文
文档是有一定逻辑结构的,标题、章节、段落等这些概念是文档的内在逻辑.不同的用户对文档的检索,有不同的需求,检索系统如何提供有意义的信息,一直是研究的中心任务.结合文档的结构和内容,对结构化文件的检索,提出了一种新的计算相似度的方法.这种方法可以提供多粒度的文档内容的检索,包括从单词、短语到段落或者章节.基于这种方法实现了一个问题回答系统,测试集是微软的百科全书Encarta,通过与传统方法实验比较,证明通过这种方法检索的文章片断更合理、更有效.  相似文献   

12.
人工对文档进行排版是一项比较复杂、繁琐的工作.为了提高工作效率,提出了一种文档编辑与排版系统的设计模型,该模型将文档的内容和式样完全分离,分别放置于事先设计好结构的XML容器中,通过转换器将文档内容和式样集成,并自动输出为符合特定文档格式的最终结果文档.给出了一个科技论文编辑与排版原型系统的实现方案,表明了系统模型的设计原理和可行性.  相似文献   

13.
This paper describes our research into a query-by-semantics approach to searching the World Wide Web. This research extends existing work, which had focused on a query-by-structure approach for the Web. We present a system that allows users to request documents containing not only specific content information, but also to specify that documents be of a certain type. The system captures and utilizes structure information as well as content during a distributed query of the Web. The system also allows the user the option of creating their own document types by providing the system with example documents. In addition, although the system still gives users the option of dynamically querying the web, the incorporation of a document database has improved the response time involved in the search process. Based on extensive testing and validation presented herein, it is clear that a system that incorporates structure and document semantic information into the query process can significantly improve search results over the standard keyword search.  相似文献   

14.
文章通过对PowerBuilder数据库系统表所封装的数据库信息和PBL库文件中所封装的各种对象信息的分析和挖掘,详细地论述了PowerBuilder文档动态生成工具的设计思想和具体实现技术。该系统的研制与开发,基本上解决了PowerBuilder开发者整理文档的需求,具有较强的实用性。  相似文献   

15.
分析了当前Web信息检索的技术现状,指出检索效率不高的根本原因在于搜索引擎所采用的排序函数和标引词加权技术。介绍了传统的信息检索排序函数和标引词加权技术。分析了Web文档的特点,指出其主要形式HTML文档是一种结构化文档,结构由标签显式地定义,不同文档结构对检索性能的贡献不同。对本领域国内外学者的成果作了对比研究。最后探讨了Web信息检索排序函数及标引词加权技术的发展方向。  相似文献   

16.
针对照明系统故障诊断专家库中故障诊断信息的特点,提出用XML文档来构建专家库的思想。在研究无序树包含匹配的基础上,提出了一种改进的基于XML文档树型结构编码的XML树匹配算法。并通过实例阐述算法在城市照明故障诊断系统中的应用。实验结果表明,这种设计思想和算法在故障诊断信息查询匹配过程中具有较高的查全率和查准率,能够有效降低照明系统中的故障发生率。  相似文献   

17.
郑毅 《信息安全与技术》2012,3(10):56-58,62
当用户通过合法或非法途径获取了企业信息系统中数字文档的访问权限,即可以不受限地通过下载、拷贝、网络等方式传播他人,而导致带有企业机密的泄密,使得共享与保密之间存在突出的问题,集成基于DRM技术构建的文档安全管理系统,对于已联网的企业存储信息的机密性和完整性是一个快速有效的解决方法。在本文中,对企业非结构化数字文档信息安全现状与存在问题进行了分析,研究了使用DRM对数字文档在线与离线应用信息防泄密进行保护的技术原理,提出了一种在企业现有信息系统体系下,通过二次开发集成基于DRM技术专业机密文档保护产品的嵌入式架构设计。  相似文献   

18.
Most documents have a hierarchical structure, which can be made explicit by markup languages such as SGML. In this paper we propose a formal model for representation of hierarchically structured documents, to be used as the basis for document query languages. The model uses a redundant representation of the document elements to simplify the expression of common queries. As an illustration of the power of the model we show how queries might be expressed, both as set-theoretic expressions and in a simple algebra, and outline how queries might be evaluated in a practical system.  相似文献   

19.
XML文件系统的设计   总被引:9,自引:0,他引:9       下载免费PDF全文
本文提出了一种基于XML的新型文件系统模型,实现了数据和数据表现的分离,使得各种文档和数据库相互兼容,最后给出了该模型在数据 库上的简单原型。  相似文献   

20.
针对因应急文档知识查找和利用效率不高造成应急决策者不能快速有效制定应急决策的问题,从知识系统工程的角度出发,结合知识元理论对应急文档知识进行结构化建模,为决策者快速有效地使用应急文档知识提供了一种新的途径。通过对物理结构分析提取元数据和进行文档结构化处理,对逻辑结构分析提出知识元提取的方法,知识元导航链接建立知识与结构化文档间的关联,进行知识推理与检索,并对应急文档的细粒度知识挖掘模式进行了深入的探讨。最后开发了应急决策知识支持系统原型并进行了验证,结果表明该建模方法能有效解决应急文档知识查找和利用效率不高的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号