首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
研究了HTML页面和Domino/Notes文档数据相互转换和调用的方法,在原有信息管理系统上加入了邮件服务功能,实现了管理工作的需要。  相似文献   

2.
吕锋  余丽 《微机发展》2007,17(6):53-55
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。  相似文献   

3.
基于XML的Web数据抽取研究   总被引:1,自引:0,他引:1  
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。  相似文献   

4.
对HTML文档进行预处理,包括HTML文档的清洗、建立页面树、去除无用节点和相似或相同基本项节点的合并等步骤。  相似文献   

5.
上一期介绍了Word97的HTML转换,本文将介绍Excel97和PowerPoint97的Web制作功能。Excel97一、HTML转换Excel97是office家族中的电子表格处理组件,提供有相当智能化的“InierntAssistant向导”,能够逐步引导用户,将原有Excel文档的数据、图表及页眉等转换为独立的Web页面,或者将数据表格插入到已有的Web页面。Excel97的HTML转换步骤如下:①用Excel97打开原有的Excel文档。②单击“文件”菜单,选择“另存为HTML”命令,进入“InterneAssistant向导”。③“InternetAssistant向导”的第一步,列出了即将进行HTML转换的…  相似文献   

6.
HTML过滤器的分析与模块化实现   总被引:2,自引:0,他引:2  
HTML过滤器是WAP网关平台系统的重要组成部分,其主要功能是实现HTML文档和WML文档之间的内容转换。该文分析了WML文档和HTML文档的相似与差异之处,并提出了一种模块化的HTML过滤器实现方案。  相似文献   

7.
对HTML文档进行预处理,包括HTML文档的清洗、建立页面树、去除无用节点和相似或相同基本项节点的合并等步骤.  相似文献   

8.
使用DOM编写的脚本都是嵌套在客户端的HTML页面中,因为基于安全的因素,DOM的许多功能受到限制,如不能动态修改XML文档内容。而使用ASP,可以利用脚本来动态生成、修改XML文档。本文从多个方面讨论了使用ASP技术进行XML文档的处理。  相似文献   

9.
相信用过Gmail的朋友都知道,Gmail很早就提供了在线查看Office文档的功能(见图1),单击“在HTML格式下查看”按钮,很快就可以新建一个页面以HTML格式显示DOC、XLS文档的内容,虽然这里只能支持浏览文字和表格的内容,  相似文献   

10.
方睿  韩斌  陈灵 《计算机应用》2006,26(Z1):317-320
通过研究HTML文档和WordML文档格式,实现了对HTML文档的解析以及HTML DOM结构的转换,将HTML文档转换成WordML文档,再将WordML文档转换成Word文档.避免了Office系统开发中通过COM调用本地Word对象来操作Word文档的过程,并通过Office 2003支持的XML来构建其他应用.  相似文献   

11.
Web文档清洗系统中HTML解析器的开发   总被引:7,自引:0,他引:7  
对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,描述了一个自主开发的HTML解析器的结构 ,并对其组成部分 :词典、词法分析器和语法分析器的设计作了详细的讨论  相似文献   

12.
语义网文档搜索是发现语义网数据的重要手段.针对传统信息检索方法的不足,提出基于RDF句子的文档词向量构建方法.首先,文档被看作RDF句子的集合,从而在文档分析和索引时能够保留基于RDF句子的结构信息.其次,引入资源的权威描述的定义,能够跨越文档边界搜索到语义网中互连的数据.此外,扩展了传统的倒排索引结构,使得系统能够提取出更加便于阅读和理解的片段.在大规模真实数据集上的实验表明,该方法可以显著地提高文档检索的效率,在可用性上具有明显的提升.  相似文献   

13.
一种基于分类算法的网页信息提取方法   总被引:3,自引:0,他引:3  
在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识.本文提出一种基于分类算法的Web信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以显示属性值为基础对Web页面文本进行分类,获取所关注文本,从而完成对web页面的信息提取.这种提取方法操作简单,易于实现,对网页结构的依赖性小.  相似文献   

14.
Web页面信息块的自动分割   总被引:8,自引:2,他引:8  
随着Internet的发展,Web页面数量的急剧增加,如何快速有效地获取信息变得越来越重要。一类Web页面往往包含着多个信息单元,它们在展现上排列紧凑、风格相似,在HTML语法上具有类似的模式,例如一个BBS页面上多个发言,每个信息被称为一个信息块。对于信息抽取、信息过滤等应用,需要首先将原始页面中分割为若干合适的信息块以便于后续的处理。本文提出了一种自动将Web页面分割为信息块的方法:首先通过创建Web页面结构化的HMTL分析树,然后根据包含有效文本量等确定包含信息块的子树,最后根据子树深度信息利用2-rank PAT算法进行分割。通过对BBS页面的信息块抽取实验,证明了该方法的有效性。  相似文献   

15.
Named graphs     
The Semantic Web consists of many RDF graphs nameable by URIs. This paper extends the syntax and semantics of RDF to cover such named graphs. This enables RDF statements that describe graphs, which is beneficial in many Semantic Web application areas. Named graphs are given an abstract syntax, a formal semantics, an XML syntax, and a syntax based on N3. SPARQL is a query language applicable to named graphs. A specific application area discussed in detail is that of describing provenance information. This paper provides a formally defined framework suited to being a foundation for the Semantic Web trust layer.  相似文献   

16.
目前网页标题的抽取方法大多结合HTML结构和标签特征进行抽取,但是这些方法并没有考虑标题与正文信息之间内容上的联系。该文提出一种基于相似度的网页标题抽取方法,该方法利用网页标题与正文信息之间的关系,通过计算语言“单位”之间的相似度和对应的权值,并引入HITS算法模型对权值进行调整,根据特定的选取方法抽取出真实标题。实验结果表明,该方法不仅对“非标准网页”的抽取达到满意的效果,而且对“标准网页”具有较高的泛化能力。  相似文献   

17.
以采用HTML为文件格式,JavaScript作为客户端脚本,JSP作为服务器端执行代码的Web应用系统为研究对象,在现有Web应用结构抽取方法所存在的缺陷分析基础下,通过静态分析Web应用系统的源代码,获得整个Web应用的目录结构和文档类型,再进一步抽取页面内主要结构元素,将所得到的信息以XML语言形式进行存储。通过构建和遍历XML语法树,抽取主要组件及组件间的关联信息,最终形成Web应用的系统结构图,从而提高Web应用系统维护和演化工作的效率,有效帮助维护人员对整个Web应用系统的理解。  相似文献   

18.
19.
文中提出了一种为了检索万维网上的信息机制并构建了一个关系数据库。解决这个问题分三步:处理了基于HTML的WEB页面的困难;从WEB页面上抽取指定的信息并整合成结构化的文档;给出了把结构化的文档转换成相关的数据表的算法。满足了用户以最小代价、最短时间买到适合自己的商品。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号