首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
随着Internet技术的发展与应用的深入,特别是电子商务等深层次应用的迅速崛起,结构化地组织Internet上的信息,保持信息本身的结构与语义变得越来越重要.文章首先给出一种基于SGML/XML进行结构化信息组织与Internet信息发布的模型,并重点讨论了实现该模型的两个关键问题:SGML/XML信息的获取与信息的Internet发布.文中讨论的模型与关键问题对基于XML的应用系统具有很好的参考价值.  相似文献   

2.
以XML作为信息表现模型,以XSLT作为信息抽取规则,设计并实现了一套面向科技论文的PDF文档的信息抽取系统.首先将PDF源文档转换为一种中间XML文档,然后利用文本特征、位置特征以及显示特征对中间XML文档进行基于XSLT规则的信息抽取.测试结果表明,系统的抽取效果良好,并具有较强的扩展性.  相似文献   

3.
仲华  崔志明 《微机发展》2007,17(7):49-52
在分析了传统索引技术的缺陷的基础上,提出了一种基于XML架构信息抽取的多层向量空间的模型,重点阐述了如何建立一个基于XML的Web信息抽取平台,从构造知识库、网页优化和信息抽取这三方面进行研究,并阐述了基于XML的多层向量空间模型及其形成。通过这种技术不仅使网页内容得到了清晰的剖析和抽取,更能大大提高对Web网页文档检索效率和准确率。目的在于寻求一种更为高效简洁的检索方法。  相似文献   

4.
基于Internet的军事演习信息抽取系统   总被引:3,自引:0,他引:3  
论文论述了Web文档的信息抽取的基本方法,设计并实现了一个基于Internet上的军事演习信息抽取系统—SBIES。在系统中引入了分装器的机器学习算法来获取网页抽取规则,采用基于最大熵模型的组块分析方法进行部分语法分析,利用模式匹配的方法实现信息的自动抽取,以数据库与XML相结合的方式组织信息库,并实现信息的Web表示和查询。系统测试结果表明,它具有较高的抽取召回率和抽准确率。  相似文献   

5.
在分析了传统索引技术的缺陷的基础上,提出了一种基于XML架构信息抽取的多层向量空间的模型,重点阐述了如何建立一个基于XML的Web信息抽取平台,从构造知识库、网页优化和信息抽取这三方面进行研究,并阐述了基于XML的多层向量空间模型及其形成。通过这种技术不仅使网页内容得到了清晰的剖析和抽取,更能大大提高对Web网页文档检索效率和准确率。目的在于寻求一种更为高效简洁的检索方法。  相似文献   

6.
XML电子公文编辑器XWord的设计与实现   总被引:1,自引:0,他引:1  
随着Internet的迅猛发展,电子政务成为当代信息化建设的重要领域之一。XML作为一种开放型数据描述语言,正逐渐成为电子政务信息传输和数据交换的实际标准。目前市场上的XML编辑器都不是针对电子公文的编辑而开发的,不适合政府部门用户使用。论文设计并实现了符合用户编辑习惯、具备MicrosoftWord编辑风格和常用功能、能够生成XML文件、并且可以对电子公文进行智能化审查的XML电子公文编辑器,并在实际中得到了很好的应用。  相似文献   

7.
基于XML安全技术的电子公文交换系统   总被引:1,自引:0,他引:1  
颜勇  胡华平 《微机发展》2006,16(5):103-105
在跨越企业边界的电子公文交换系统中,如何提高信息的安全性、开放性和互操作性是一个重要的研究课题。文中针对目前Internet/Intranet环境中跨系统边界交换数据存在的关键数据的传送与储存不安全、各系统身份验证不统一、安全技术标准不统一等问题,提出了一个基于XML安全技术的电子公文交换系统模型。该系统采用基于SAML的单点登录和认证授权,基于XACML的集成访问控制,以及基于XML加密和签名的关键数据加密保护。并在此基础上分析系统面临的威胁,提出可以应对的措施。  相似文献   

8.
首先对基于Internet或Intranet异构数据库构成的信息系统结构进行初步分析。利用Java、XML的特性及分析数据挖掘中数据抽取的特点,提出一个基于缓冲数据库的数据抽取的系统结构;以便在数据挖掘和开发基于Web/Server的统一信息平台时,更便利地进行数据抽取工作。  相似文献   

9.
利用标准的XML技术来解决信息抽取问题,提出一个基于XML技术的Web信息抽取平台.通过归纳学习算法,寻找和识别出感兴趣的数据.利用XSLT和Xpath技术在数据定位和转换方面的优势,解决信息抽取中的关键问题:编写抽取规则.并对抽取规则进行优化,使其更加简单、健壮和通用.  相似文献   

10.
传统的信息检索方法无法为用户准确地提供所需的资料,这主要是由于传统的HTML网页结构上的缺陷造成的.文中通过比较HTML文档和XML文档在结构和语义上的差异,阐述了XML文档在信息检索技术中的优势和XML文档必将成为新一代网页模式的趋势.目前已经有很多权威编程工具和数据库支持从XML文档中抽取信息,越来越多的软件提供XML接口,文中以Microft公司的.NET Framework为例,介绍了如何从XML文档中检索信息.试验证明基于XML的信息检索技术较好地解决了Internet上资料获取的困难.  相似文献   

11.
本文提出了一种对XML 文本进行快速串匹配的算法- XMatch。在对于XML 文本的含路径信息的模式串匹配中,由于XML 文本的结构化特点,使得传统的串匹配算法不能直接有效的使用;而现有的大部分XML 内容筛选方法都是基于SAX 分析的事件驱动过程,效率普遍较低。XMatch 在对XML 文本的结构-schema 进行分析的同时,结合模式串的路径信息,建立一个扫描自动机的有限状态自动机;此外,算法还支持带循环引用路径信息的模式串匹配。XMatch 容易扩展,可以支持普通的结构化文本的串匹配。实验结果显示,本算法的效率比使用SAX事件驱动的方法有明显的提高。  相似文献   

12.
In order to facilitate the XML query processing, several labeling schemes have been proposed to directly determine the structural relationships between two arbitrary XML nodes without accessing the original XML documents. However, the existing XML labeling schemes have to re-label the pre-existing nodes or re-calculate the label values when a new node is inserted into the XML document during an update process. In this paper, we devise a novel encoding scheme based on the fractional number to encode the labels of the XML nodes. Moreover, we propose a mapping method to convert our proposed fractional number based encoding scheme to bit string based encoding scheme with the intention to minimize the label size and save the storage space. By applying our proposed bit string encoding scheme to the range-based labeling scheme and the prefix labeling scheme, the process of re-labeling the pre-existing nodes can be avoided when nodes are inserted as leaf nodes and sibling nodes without affecting the order of XML nodes. In addition, we propose an algorithm to control the increment of label size when new nodes are inserted frequently at a fix place of an XML tree. Experimental results show that our proposed bit string encoding scheme provides efficient support to the process of XML updating without sacrificing the query performance when it is applied to the range-based labeling schemes.  相似文献   

13.
丘威 《微机发展》2005,15(5):155-157
基于XSL的转换技术提供了强大的机制和功能,可以实现多种文件变换。它具有部分高级编程语言的特征,因而利用XSL可以方便灵活地转换异构的超媒体XML文档。文中介绍了一个利用XML技术的超媒体课件系统,该系统使用XML保存课件内容,利用XSL来重新组织课件和指示课件对外表示的模式或风格,根据超媒体课件在不同场合不同情况下根据要求展现不同的外在风格和形式。通过应用XML及其XSL的超媒体文档格式转换,描述了基于XSL对超媒体课件文档的转换应用,并实现了基于XML的超媒体课件系统。  相似文献   

14.
基于DTD节点自动机的XML模式验证方法   总被引:1,自引:0,他引:1  
XML已经成为Web环境中数据表示和交换的标准。XML的模式验证在XML的使用中地位重要。DTD作为模式描述的一种方法,应用广泛,但使用DTD描述的模式不能正常表示同构的XML数据。文章扩展了DTD并提出了一种基于自动机的模式验证方法,将扩展的DTD中每个元素转换为一个自动机,将XML文档编码为字符串,并将字符串作为自动机的输入进行验证,可以有效地验证同构的XML。  相似文献   

15.
Flesca  Sergio  Furfaro  Filippo  Greco  Sergio 《World Wide Web》2002,5(2):125-157
In this paper we present a graphical query language for XML. The language, based on a simple form of graph grammars, permits us to extract data and reorganize information in a new structure. As with most of the current query languages for XML, queries consist of two parts: one extracting a subgraph and one constructing the output graph. The semantics of queries is given in terms of graph grammars. The use of graph grammars makes it possible to define, in a simple way, the structural properties of both the subgraph that has to be extracted and the graph that has to be constructed. We provide an example-driven comparison of our language w.r.t. other XML query languages, and show the effectiveness and simplicity of our approach.  相似文献   

16.
17.
该文所做的工作主要集中在如何将XML这一新技术有效地运用在电子政务标准技术参考模型的应用支撑层和应用层中。对基于XML的电子公文格式、用XSL格式化电子公文、使用XML来定义电子政务中的业务流程和XML Web Scrvices技术等新思想、新方法进行了深入的研究。  相似文献   

18.
基于扩展路径表达式的XML查询   总被引:4,自引:0,他引:4  
XML查询问题是当前计算机界研究的热点问题之一,国内外学者提出了众多的模型与算法.其中,日本学者Makoto Murata等提出采用扩展路径表达式来表达查询,并利用hedge自动机和字符串自动机进行XML的查询计算.这种方法与采用路径表达式控制的XML查询相比,克服了后者不能充分利用XML文档有序性的缺点.另外,扩展路径表达式具有较强的表达能力,可以表达任何MSO(一元二阶逻辑)查询.因此,扩展路径表达式已作为XML查询问题研究的主要理论框架之一,但是扩展路径表达式的编写比较困难,表达式也比较复杂,导致算法时间复杂度的提高.在扩展路径表达式中引入通配符,使得扩展路径表达式更加简单灵活;同时在查询的计算过程中提出并应用带截止集的自动机提高计算的时间效率.  相似文献   

19.
该文对电子政务系统体系结构进行了分析,并针对电子政务系统信息资源难以共享的问题,提出了以XML文件作为异构环境数据交换平台的解决方案,并重点探讨了基于XML的有关数据交换组件设计方法。  相似文献   

20.
Excel 2007文档采用了一种新的默认文件格式,即Excel XML格式,这种新的格式为在Excel文档中隐藏信息提供了新的思路。结合Excel 2007的自身特点和XML规范,提出了一种基于无用属性的Excel 2007文档信息隐藏方法。该方法首先将待隐藏的信息加密后转换为十六进制的Unicode码,然后通过算法选择可用于隐藏信息的XML部件,并创建无用属性,最后将转换后的字符串作为无用属性的属性值写入,从而达到信息隐藏的目的。实验表明,该方法的容量较大,隐蔽性好,可用于隐秘通信。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号