共查询到19条相似文献,搜索用时 93 毫秒
1.
因特网给我们提供了巨大的信息量,在信息量极其丰富的Web资源中,蕴涵着大量有用的知识信息.信息爆炸而知识匮乏是当今人们所面临的一个很重要的问题.通过搜索引擎来查找信息将不容易定位到用户最感兴趣的数据上.而通过wleb信息抽取的自动化实现,可以提高信息获得的效率.信息抽取可以从网络上分析和发现有用的信息,废弃冗余的数据,提取用户知识领域的知识.本文分析了基于XML的web信息提取,讨论了相关技术在Web信息抽取中的应用并建立了相应的Web信息抽取摸型,通过自动学习来获取信息抽取规则,实现Wleb信息的自动提取. 相似文献
2.
基于DOM的Web信息提取 总被引:58,自引:0,他引:58
当前,Web已经成为人们获取信息的主要渠道之一。然而,用于表达Web页面信息的HTML语言存在着与生俱来的缺点。HTML的“标记”只是告诉浏览器软件如何显示所定义的信息,却不包含任何语义。因此由HTML语言所表述的Web页面经过浏览器分析后只适合人们浏览,不适合作为一种数据交换的方式由机器处理。该文以文档对象模型DOM为基础,把所要提取的信息在DOM层次结构中的路径作为信息抽取的“坐标”,并以这个基本原理为基础设计了一种归纳学习算法来半自动地生成提取规则,然后根据提取规则生成Java类.生成的Java类可以作为Web数据源包装器组成的重要构件。 相似文献
3.
DUAN Ai-hua 《数字社区&智能家居》2008,(23)
在分析网站结构的基础上,把同类信息划归为一个页面组,建立相应的XML模板库,进行web信息挖掘,为实现页面信息快速查询和信息分类提供了很好的方法。 相似文献
4.
5.
研究Web信息提取技术,提出数据获取、规则定义和规则执行3个步骤的基于XML的半结构化Web信息提取方法,为进一步满足Web信息提取提供了一种高效的新方法. 相似文献
6.
以检测零件的特征建模作为CAD与超声检测系统集成的基础,构建了基于特征造型信息的模型,根据超声检测系统对模型信息的要求,从特征造型、特征关系、特征表达等方面对于轴类零件进行了特征信息提取技术的深入研究,并在此基础上提取了特征信息。采用UGNX的二次开发工具UG/OPEN API并结合XML技术,讨论了在超声检测系统中如何对一个轴类零件的特征信息进行提取,并给出了信息存储的XML格式。 相似文献
7.
XML与HTML在Web环境中的应用分析 总被引:3,自引:0,他引:3
传统网页编程语言HTML已经越来越无法满足人们的各种需求,文中分析了HTML的局限性,从XML标准的产生背景出发,阐述了XML的特点及其优越性,并对XML在Web环境中的应用进行了详细论述. 相似文献
8.
9.
基于DOM和元数据的Web信息提取 总被引:5,自引:0,他引:5
以W3C的文档对象模型DOM和元数据为基础,把要提取的信息以DOM层次结构中的路径表达式来表示,通过归纳学习来获得所需信息的路径表达式,从而获得提取信息;元数据在信息提取过程中起到关键作用,它以XML的DTD表示,可以由信息服务商提供,也可以由开发人员给出,适应了信息源不断变化的特点。 相似文献
10.
基于HTML模式代数的Web信息提取方法 总被引:3,自引:0,他引:3
高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采用在整个训练例子中学习表示各属性提取规则的一致模式集,再由多个模式组成的一致模式集提取数据,适用于提取具有缺省属性、多值属性、属性具有多种不同顺序的表结构网页和层次结构网页,其有效性在原型系统中通过实验得到验证. 相似文献
11.
Web信息抽取 总被引:14,自引:0,他引:14
With the tremendous amount of information available on the Web,the ability to quickly obtain information has become a crucial problem.It is not enough for us to acquire information only with Web information retrieval technology.Therefore more and more people pay attention to Web information extraction technology.This paper first introduces some concepts of information extraction technology,then introduces and analyzes several typical Web information extraction methods based on the differences in extraction patterns. 相似文献
12.
13.
钟祥睿 《数字社区&智能家居》2006,(5):96-97
在分析当前一些主流的wrapper技术的基础上,提出了一个基于移动Agent的web信息抽取系统框架。在该框架中,利用移动Agent所具有的自治性、移动性、交互性和智能性.将数据抽取和转换任务交给移动Agent.让其移动到Web数据源上去完成信息抽取任务,并将抽取结果传田。这样不但可以减少数据传输量,节约网络带宽。降低响应时间;还可以减少对网络的依赖性,允许网络的间断连接。 相似文献
14.
钟祥睿 《数字社区&智能家居》2006,(14)
在分析当前一些主流的wrapper技术的基础上,提出了一个基于移动Agent的Web信息抽取系统框架。在该框架中,利用移动Agent所具有的自治性、移动性、交互性和智能性,将数据抽取和转换任务交给移动Agent,让其移动到Web数据源上去完成信息抽取任务,并将抽取结果传回。这样不但可以减少数据传输量,节约网络带宽,降低响应时间;还可以减少对网络的依赖性,允许网络的间断连接。 相似文献
15.
如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取。 相似文献
16.
金涛 《电脑与微电子技术》2012,(1):16-18
网络爬虫是为了实现网络资源下栽功能的程序,是搜索引擎最重要的构件。考虑到网络上信息的种类繁多,研究一种基于网络爬虫的网页信息提取技术,并给出相关的设计方案,对设计方案进行验证,结果表明设计的可行性。 相似文献
17.
基于Ontology的文本信息抽取 总被引:8,自引:1,他引:8
网络中的电子文档以爆炸式的速度增长,其中很多数据是没有结构的或者半结构的,使信息的查询非常困难。提出一种基于Ontology的信息抽取方法。对需要信息抽取的领域,抽出它的关键词和信息片,并将其组织成为数据库的元组属性值,以方便查找。其实验数据来自WWW。 相似文献
18.
XML及其在Web中的应用 总被引:4,自引:0,他引:4
介绍了可扩展标识语言XML的基本概念、主要特点、应用范围及其相对于HTML语言的区别和优点。作为XML的应用,也对XML下的Web体系结构、该体系结构的优越性以及XML用于Web应用的发展趋势等问题进行了讨论。 相似文献
19.
Web表格信息抽取是信息抽取在Web表格上的一种应用,是当今的一个研究热点。本文首先分析了Web表格信息抽取的过程,包括表格识别、结构识别以及“属性-值”对的提取;然后对当前国内外在基于特定域和独立城两种表格信息抽取研究方法上的动态及成果追行了比较和分析。在此基础上,提出了表格抽取的关键技术——表格结构识别上的一些想法;最后展望了Web表格信息抽取技术的发展趋势。 相似文献