首页 | 本学科首页   官方微博 | 高级检索  
 共查询到19条相似文献,搜索用时 296 毫秒
传统的信息检索方法无法为用户准确地提供所需的资料,这主要是由于传统的HTML网页结构上的缺陷造成的.文中通过比较HTML文档和XML文档在结构和语义上的差异,阐述了XML文档在信息检索技术中的优势和XML文档必将成为新一代网页模式的趋势.目前已经有很多权威编程工具和数据库支持从XML文档中抽取信息,越来越多的软件提供XML接口,文中以Microft公司的.NET Framework为例,介绍了如何从XML文档中检索信息.试验证明基于XML的信息检索技术较好地解决了Internet上资料获取的困难.  相似文献   

基于XML的HTML自动阅卷算法设计与实现   总被引:1,自引:0,他引:1  
自动阅卷技术在当今计算机基础教育中起着重要作用。当前主流的基于文档对象模型的HTML网页自动阅卷方法存在准确性低及在大数据量时阅卷效率差的问题。文中介绍了一种基于XML的HTML网页自动阅卷算法,它根据XML与HTML格式上的相似性将HTML文件转换成XML文件,然后利用各种程序语言对XML良好的支持来进行HTML网页自动阅卷过程中的信息处理。该算法不仅可以避免传统人工阅卷的低效率及结果的主观性,而且在准确率及稳定性方面比文档对象模型方法有很大提高,为HTML网页制作考核提供了一种有效可行的方法。  相似文献   

XML与HTML在Web环境中的应用分析   总被引:3,自引:0,他引:3  
林清  董占球 《计算机应用》2001,21(Z1):67-68
传统网页编程语言HTML已经越来越无法满足人们的各种需求,文中分析了HTML的局限性,从XML标准的产生背景出发,阐述了XML的特点及其优越性,并对XML在Web环境中的应用进行了详细论述.  相似文献   

XML语言在网页中的应用   总被引:1,自引:0,他引:1  
SGML是一种在互联网上发布信息所使用的"出版"语言,是所有计算机都能够理解的标准通用标记语言,目前流行的HTML、XML等语言是SGML的实际应用。本文对网页制作中使用的HTML、XML尤其是XML等标记语言相关知识做了介绍,比较了两种种语言的不同与优缺点。  相似文献   

基于HTML和XML的信息提取方法研究   总被引:2,自引:0,他引:2  
陈红叶 《微机发展》2003,13(Z2):54-55
Web作为巨大的数据源,从Web中提取知识是当前信息研究的热点之一。主要研究针对HTML和XML页面如何生成Wrapper程序以便能够自动地从特定网页中提取有用信息,并成为将来进行Web挖掘的基础。  相似文献   

Web作为巨大的数据源,从Web中提取知识是当前信息研究的热点之一.主要研究针对HTML和XML页面如何生成Wrapper程序以便能够自动地从特定网页中提取有用信息,并成为将来进行Web挖掘的基础.  相似文献   

随着XML在数据交换和数据存储中的普遍应用,基于XML文档的信息检索研究逐渐成为新的研究热点。XML文档本身含有的结构信息可以使其检索精度得到很大提高,但相应地,XML检索中使用的较复杂的评分模型(如组合语言模型和推理网络的结构化评分模型)和较细的返回结果粒度(由文档转变为元素或者段落),也使得传统的信息检索由I/O密集型应用转变为CPU密集型应用。针对上述应用特点的转变,提出了一种新的检索处理框架,即保存数据的两种索引形式,根据系统的状态动态地调整任务调度,平衡I/O和CPU的处理,以达到减少单个查询的平均响应时间的目的。  相似文献   

基于扩展标记图的虚拟网页技术   总被引:2,自引:2,他引:0  
大量的Web信息资源采用HTML文档形式存放,带来诸多不利因素。其一,HTML文档因包含具体数据内容,不可避免地会涉及到数据冗余和一致性维护的问题。比如,在一个电子商场网站设计中,为服务于不同客户群,一双皮鞋的基础数据(厂家介绍、产品说明和图片等)可能会重复地放入多个网页中,如按分类、按品牌和按厂家等方式组织的网页。其二,HTML文档不利于构建新网页的重用,难以适应变化需求,如当有新客户群希望按老中幼年龄段来浏览商品时,新网页须从头组织,且可能产生新的数据冗余。其三,HTML文档的信息检索和查询优化较为困难。然而,关系数据模型中由于采用基表和视图技术,使类似问题得到很好解决。由此得到启发,提出了虚拟网页设计技术。通过建立素材库和定义扩展标记图,将网页的数据组织结构和具体内容分离,使问题得到较好解决。虚拟网页技术,还有利于借鉴标记图、OEM和OIM等数据模型已有研究成果,有利于Web查询语言和信息检索优化的研究。  相似文献   

新锐 《软件》2001,(6):47-49
XML是扩展标记语言(Extensible Markup Language)的缩写,它的标准定义是:扩展标记语言(XML)是SGML的子集,其目标是允许普通的SGML在Web上以目前HTML的方式被服务、接收和处理。XML被设计成易于实现,且可在SGML和HTML之间互相操作。对于初学者,可以把XML简单地理解为如同HTML一样,是一种专门在World Wide Web上传递消息的语言。只要你的计算机上有IE5.0以上的浏览器,你就可以实验本文介绍的XML例子。在本文介绍的XML例子中,我们将创建几个XML文档,并在浏览器上显示它们的结果。  相似文献   

吴斌 《软件世界》2000,(11):116-118
XML是当今热门的IT技术之一,它提供了一种公共的信息存储格式,能够使信息内容与描述这些信息内容的元数据共存于同一个文件中。而在以往,实现这种共存是十分困难的,如今XML的出现使它变得相当容易了。在外观上,XML与HTML十分相似(如清单1),但在本质上,两者是完全不同的。两者最根本的区别在于XML描述的是信息的类型而HTML描述的是如何显示信息。每一个XML文档都可以被看作是一个微型数据库,以此类比,XML文档中的标记就如同数据库中的记录和字段,而标记之间的文本就如同数据库中的数据。在XML文档中,可以使用[CDAT…  相似文献   

基于XML文档的图书信息XQuery查询技术   总被引:2,自引:0,他引:2  
魏衍君  何洁月 《微机发展》2004,14(4):43-44,47
XML与HTML相比在数据管理和格式化组织上具有更大的优越性,XQuery能够有效地查询和处理XMI文档。为了查询网上基于XML文档的图书信息,文章设计了一些统一格式的XML文档作为图书信息的数据源,利用XQuery技术,将XQuery查询程序嵌入实现格式控制的JAVA程序中,JAVA程序可以调用并运行XQuery查询程序,查询的结果保存到一个XML文件中,将查询得到的XML文档转换成需要的格式输出给用户。初步实验证明这种方法是可行的并具有较强的实用性,为实现网上基于XML文档的信息查询提供了技术基础。  相似文献   

吕锋  余丽 《微机发展》2007,17(6):53-55
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。  相似文献   

Transforming paper documents into XML format with WISDOM++   总被引:1,自引:1,他引:0  
The transformation of scanned paper documents to a form suitable for an Internet browser is a complex process that requires solutions to several problems. The application of an OCR to some parts of the document image is only one of the problems. In fact, the generation of documents in HTML format is easier when the layout structure of a page has been extracted by means of a document analysis process. The adoption of an XML format is even better, since it can facilitate the retrieval of documents in the Web. Nevertheless, an effective transformation of paper documents into this format requires further processing steps, namely document image classification and understanding. WISDOM++ is a document processing system that operates in five steps: document analysis, document classification, document understanding, text recognition with an OCR, and transformation into HTML/XML format. The innovative aspects described in the paper are: the preprocessing algorithm, the adaptive page segmentation, the acquisition of block classification rules using techniques from machine learning, the layout analysis based on general layout principles, and a method that uses document layout information for conversion to HTML/XML formats. A benchmarking of the system components implementing these innovative aspects is reported. Received June 15, 2000 / Revised November 7, 2000  相似文献   

Integrating XML and databases   总被引:1,自引:0,他引:1  

基于XML的互连网信息资源描述及其应用研究   总被引:5,自引:0,他引:5  
XML作为有效组织网络资源的一种技术正引起世界各国的重视。该文对比HTML,研究了XML语言的技术特征。对比数据结构,研究了XML文档结构定义的本质。研究了基于XML的信息资源描述与交换机制。给出了XML标准的应用层次及其应用类型。  相似文献   

The diffusion of the World Wide Web (WWW) and the consequent increase in the production and exchange of textual information demand the development of effective information retrieval systems. The HyperText Markup Language (HTML) constitues a common basis for generating documents over the internet and the intranets. By means of the HTML the author is allowed to organize the text into subparts delimited by special tags; these subparts are then visualized by the HTML browser in distinct ways, i.e. with distinct typographical formats. In this paper a model for indexing HTML documents is proposed which exploits the role of tags in encoding the importance of their delimited text. Central to our model is a method to compute the significance degree of a term in a document by weighting the term instances according to the tags in which they occur. The indexing model proposed is based on a contextual weighted representation of the document under consideration, by means of which a set of (normalized) numerical weights is assigned to the various tags containing the text. The weighted representation is contextual in the sense that the set of numerical weights assigned to the various tags and the respective text depend (other than on the tags themselves) on the particular document considered. By means of the contextual weighted representation our indexing model reflects not only the general syntactic structure of the HTML language but also the information conveyed by the particular way in which the author instantiates that general structure in the document under consideration. We discuss two different forms of contextual weighting: the first is based on a linear weighted representation and is closer to the standard model of universal (i.e. non contextual) weighting; the second is based on a more complex non linear weighted representation and has a number of novel and interesting features.  相似文献   

本文介绍了一种树型结构的存储、显示和维护方法。以二叉链表的数据结构将树的信息存储在数据库中,服务器端将数据库中树的信息转化成XML,客户端将其加载到浏览器的(DOM)实例中,并采用深度优先搜索算法对该实例中的结点进行递归遍历,生成浏览器端树的HTML代码,它是一个与上述XML文档逻辑相同的树型结构。同时在各结点上设置JS事件,可以对该树进行维护,生成针对结点维护的XML,服务器解析该XML并生成一系列SQL提交到数据库中。  相似文献   

XML is a new standard for exchanging and representing information on the Internet. Documents can be hierarchically represented by XML-elements. In this paper, we propose that an XML document collection be represented and indexed using a bitmap indexing technique. We define the similarity and popularity operations suitable for bitmap indexes. We also define statistical measurements in the BitCube: center, and radius. Based on these measurements, we describe a new bitmap indexing based technique to cluster XML documents. The techniques for clustering are motivated by the fact that the bitmap indexes are expected to be very sparse.Furthermore, a 2-dimensional bitmap index is extended to a 3-dimensional bitmap index, called the BitCube. Sophisticated querying of XML document collections can be performed using primitive operations such as slice, project, and dice. Experiments show that the BitCube can be created efficiently and the primitive operations can be performed more efficiently with the BitCube than with other alternatives.  相似文献   

XML作为SGML标记语言的一个子集,由于它能很好地表示结构化和半结构化数据,而逐渐成为Internet上或应用程序间数据交换和信息表示的标准。分析和处理XML文档的场合也越来越多,其方法和工具也有很多,然而,对于很大的文档,传统的处理方法存在着很多的缺点和不足之处。文中提出了一种新的分析处理XML文档的方法,即利用NativeXML Database(NXD),以提高分析处理的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号