首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
关于处理大型XML数据的NXD方法研究   总被引:2,自引:0,他引:2  
XML作为SGML标记语言的一个子集,由于它能很好地表示结构化和半结构化数据,而逐渐成为Internet上或应用程序间数据交换和信息表示的标准。分析和处理XML文档的场合也越来越多,其方法和工具也有很多,然而,对于很大的文档,传统的处理方法存在着很多的缺点和不足之处。文中提出了一种新的分析处理XML文档的方法,即利用Native XML Database(NND),以提高分析处理的性能。  相似文献   

2.
吕锋  余丽 《微机发展》2007,17(6):53-55
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。  相似文献   

3.
基于XML的Web数据抽取研究   总被引:1,自引:0,他引:1  
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。  相似文献   

4.
基于PCA的XML文档特征提取方法   总被引:1,自引:0,他引:1  
郭丽红  王箭 《计算机工程与设计》2011,32(11):3894-3896,3911
为了更好地对XML文档进行分类或聚类分析,以主成分分析的理论基础为指导,在研究了文本表示的各种模型的基础上,提出了两种对XML文档进行向量化表示并进行特征提取的方法,同时也实现了对XML文档的有效降维。实验结果表明,两种方法都能有效地表示XML文档的主体特征,但全路径特征向量抽取方法能更好地描述XML信息,为下一步有效处理XML文档做了良好铺垫,具有一定的研究价值。  相似文献   

5.
XML已经成为Web上表示结构化和半结构化数据的标准格式,为了描述XML数据的结构和内容,业界已经提出了多个XML模式语言。虽然XML模式对ValidatingXML文档非常有用,但它不适用于要求表示数据有关语义知识的任务,对这样的任务最好使用概念模式。针对XML模式的概念建模,介绍了一种扩展实体关系模型及将用XML模式语言定义的模式转换成扩展实体模式的过程。  相似文献   

6.
首先对XML文档的编码方式作了改进,提出了用浮点数对插入子树进行编码的方法,新的编码方法能较好地支持XML文档的插入更新,在此基础上提出了支持多版本XML文档的新的索引机制,最后扩展了一个经典的结构化连接算法使之不仅能支持多版本XML文档的查询,而且还能较好地避免连接过程中的冗余操作.对XML的版本管理,尤其是在索引和查询优化方面提供了一些新的思路.  相似文献   

7.
随着XML文档的广泛应用,使用实体识别技术对XML文档数据质量进行管理变得非常重要。 XML中实体识别技术主要用于在XML文档中发现同一实体的不同描述,其在数据质量管理中可以用于错误检测、数据集成等。由于XML文档是半结构化的, XML文档上的实体识别与纯文本和关系数据上的实体识别有着很大不同。文中介绍了XML文档上实体识别的概念和应用,分别讨论了 XML文档上几种实体识别技术的概念和原理,给出了相应的树匹配算法,最后得出结论并展望了未来的研究方向。  相似文献   

8.
针对传统CAPP产品结构方案的不足,提出了基于XML的产品结构解决方案,分析了XML在树型结构表达及非结构化数据处理方面的优势。结合具体的焊接工艺CAPP系统,介绍了基于XML的产品结构信息描述、操作,图元文件在XML文档中的处理及XML文档的数据库存储等关键技术。  相似文献   

9.
黄晓 《微型机与应用》2003,22(11):57-60
用一个时序数据模型表示XML文档的变化过程。这种模型基于XPATH数据模型,能表示XML文档的变化历史。  相似文献   

10.
在某大型软件系统中,采用XML来表示多种不同格式的文书和其它信息,能够大大简化系统编程接口和加快信息交流共享.XML文档处理子系统是该大型软件系统的重要组成部分,为其他子系统提供高效存储处理各种信息的统一接口.从XML文档映射模式的相关研究开始,在XML文档处理子系统的设计中提出了一种简单高效的XML文档到关系数据库的映射模式,有效提高了系统处理XML文档的速度.  相似文献   

11.
XML is acknowledged as the most effective format for data encoding and exchange over domains ranging from the World Wide Web to desktop applications. However, large-scale adoption into actual system implementations is being slowed down due to the inefficiency of its document-parsing methods. The recent development of lazy parsing techniques is a major step towards improving this situation, but lazy parsers still have a key drawback—they must load the entire XML document in order to extract the overall document structure before document parsing can be performed. We have developed a framework for efficient parsing based on the idea of placing internal physical pointers within the XML document that allow the navigation process to skip large portions of the document during parsing. We show how to generate such internal pointers in a way that optimizes parsing using constructs supported by the current W3C XML standard. A double-lazy parser (2LP) exploits these internal pointers to efficiently parse the document. The usage of supported W3C constructs to create internal pointers allows 2LP to be backward compatible—i.e., the pointer-augmented documents can be parsed by current XML parsers. We also implemented a mechanism to efficiently parse large documents with limited main memory, thereby overcoming a major limitation in current solutions. We study our pointer generation and parsing algorithms both theoretically and experimentally, and show that they perform considerably better than existing approaches.  相似文献   

12.
范书义  李岩  孟晨 《微型电脑应用》2011,27(12):42-44,70,71
针对目前XML文档的两种解析方法SAX和DOM各自的特点,探讨了在哪些情况下适宜将两种解析方法结合应用对文档进行解析,并给出了SAX和DOM结合应用的一般方法,最后对单纯采用DOM和两种方法结合解析XML文档的性能进行了比较。实验结果表明,将SAX和DOM结合使用,在解析大XML文档时,可以极大地提高解析程序的性能。  相似文献   

13.
传统AJAX引擎在解析较大的回传XML文档时时间开销过大,为了解决这一问题,提出了一种改进的AJAX模型,并给出了一个应用实例.改进AJAX模型采用结构化的并行数组来存储回传数据,避免了对半结构化的XML文档进行解析,提高了数据利用效率.实验结果表明,改进AJAX模型可以满足较大数据量的业务处理要求,明显缩短了用户等待时间.在3000千条记录以下的数据表中应用这一模型,客户端与服务器交互顺畅,可以很好地满足用户实时性要求.  相似文献   

14.
XML正成为Internet上数据描述和交换的主要标准,因此对面向对象XML存储研究变的很重要。扩展后的XMLSchema支持面向对象XML,通过对XMLSchema文档的解析得到面向对象XML文档中元素之间的关系,这些关系不仅支持新的数据模型,而且支持新的查询方式。在扩展XMLSchema的语法后,介绍扩展后XMLSchema中继承信息查找的算法设计。  相似文献   

15.
利用关系表构建XML文档解析的树模型   总被引:2,自引:1,他引:1  
祝青  阳王东 《计算机应用》2009,29(6):1719-1721
在对XML文档的数据解析和查询操作研究中,发现树能较好地反映XML文档的层次结构,但其查询效率较低,而关系表是一种适合存储大量数据且有较好查询效率与操作功能的数据结构。给出了一个把树和关系表相结合构建一种存储XML文档的数据模型;在这个模型的解析过程中,采用回调事件式的分段解析方法以减少解析时间和存储空间。这样既能较好保存XML文档的结构特点,又能提高其查询的效率和操作的便利性。通过对大数据量XML文档的解析和操作实验,实验结果证明这种数据模型在处理大型XML文档中具有明显优势。  相似文献   

16.
徐明  庄毅 《计算机科学》2006,33(2):205-207
作为构建开放和分布式应用系统的一种主流模式,多Agent系统有着广阔的研究前帚和应用价值。在统一建模语言(UML)的支持下,面向Agent的软件工程研究开始走向成熟。一些面向Agent的方法学提供了开发多A—gent系统的工具、应用方法或技术。随着Web服务技术的发展,XML成为Internet上数据组织和交换的标准。现有研究工作所提出的多Agent系统对XML文档提供很少的支持。针对上述问题,设计了一个基于XML的多Agent系统——XMAS。该系统采用带根连通有向图来表示XML文档数据模型,并给出相应的文档模式提取算法,XML文档数据的解析以及对Web服务的相关支持。在数据存储过程中的索引优化使得XMAS在数据查询上具有良好的性能。  相似文献   

17.
在祖先-后裔关系匹配算法中,多数都是首先利用XML解析器将XML文档解析分裂为元素(或属性) 列表进行存储,然后在这些分裂得到的元素(或属性) 列表之间进行祖先-后裔关系的结构连接.该文的算法SSD不需要事先将源XML文档分裂为元素(或属性) 列表进行存储,而是直接将源XML文档作为输入,采用SAX来产生XML数据流,然后基于XML数据流实现祖先-后裔关系匹配.通过分析可知,该算法适用面广,仅需要对源XML文档进行一次扫描,占用系统资源少,且具有很高的匹配效率.  相似文献   

18.
网格GIS及其实现技术*   总被引:3,自引:0,他引:3  
介绍了网格GIS的体系结构,详细讨论了使用Java语言完成客户与服务器的通信、服务器端实时处理XML文档的关键技术,以及数据库的设计,以实现网格GIS的全过程。  相似文献   

19.
基于区间编码方案分裂大型XML文档到关系存储   总被引:6,自引:0,他引:6  
将一个XML文档分裂存储到关系数据库中,通常的方法是利用DOM对该XML文档进行解析,并利用DOM接口提供的XML文档树信息来实现分裂。但是,DOM在解析一个大型XML文档时效率特别低,甚至是无法胜任。文中对转换XML文档到关系数据库中进行存储和查询的策略以及区间编码方案进行了综述;基于区间编码方案探讨了如何分裂一个大型XML文档到关系存储的基本原理,并给出了相应的算法。实验结果表明,该方法是通用的、高效的。  相似文献   

20.
基于XML的数字图书馆Web应用开发   总被引:4,自引:0,他引:4  
分析了XML在开发Web应用时的优点,以图书馆中常用的新书通报服务为实例,论述了在数字图书馆Web应用程序开发中,如何利用图书馆业务软件(DataTrans-1000)生成XML文档,以及访问XML数据文档的方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号