共查询到18条相似文献,搜索用时 62 毫秒
1.
基于DOM和元数据的Web信息提取 总被引:5,自引:0,他引:5
以W3C的文档对象模型DOM和元数据为基础,把要提取的信息以DOM层次结构中的路径表达式来表示,通过归纳学习来获得所需信息的路径表达式,从而获得提取信息;元数据在信息提取过程中起到关键作用,它以XML的DTD表示,可以由信息服务商提供,也可以由开发人员给出,适应了信息源不断变化的特点。 相似文献
2.
基于DOM模型扩展的Web信息提取 总被引:5,自引:0,他引:5
提出了一种基于DOM模型扩展的Web信息提取方法.将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容.该方法不要求对网页的结构有预先认识,具有自动和通用的特点.提取结果除可以直接用于Web浏览外,还可用于互联网数据挖掘、基于主题的搜索引擎等应用中. 相似文献
3.
4.
文章提出一种基于DOM的Web信息提取方法,通过归纳学习获得被提取信息的定位路径,利用XPath和XSLT在数据定位和数据转换方面的特点编写提取模式,根据网页元素与DOM节点对应关系,判断所获得信息源是否适用于已有提取模式。 相似文献
5.
文章提出一种基于DOM的Web信息提取方法,通过归纳学习获得被提取信息的定位路径,利用XPath和XSLT在数据定位和数据转换方面的特点编写提取模式,根据网页元素与DOM节点对应关系,判断所获得信息源是否适用于已有提取模式。 相似文献
6.
7.
基于HTML模式代数的Web信息提取方法 总被引:3,自引:0,他引:3
高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采用在整个训练例子中学习表示各属性提取规则的一致模式集,再由多个模式组成的一致模式集提取数据,适用于提取具有缺省属性、多值属性、属性具有多种不同顺序的表结构网页和层次结构网页,其有效性在原型系统中通过实验得到验证. 相似文献
8.
本文讨论了如何利用DOM设计一个用于数据库中数据和XML文档转换的中间件,详细介绍了它的设计思想、方案及原理。 相似文献
9.
本文在深入分析国内外相关研究工作的基础上。提出了一种新的网页主题信息提取方法。基于STU—DOM模型,设计了基于该模型的HTML结构过滤和分块算法以及基于主题相关度的剪枝算法.设计并实现了网页主题信息提取系统。 相似文献
10.
用DOM树实现XML与高级语言的数据交互 总被引:3,自引:0,他引:3
用DOM树解析XML文档,实现XML与高级语言的数据交互。以VB6.0为例,提供二段源代码完成XML文档的生成、数据提取等工作。 相似文献
11.
基于本体论的Web信息抽取 总被引:15,自引:0,他引:15
以本体论为基础,以所要提取的信息的层次结构作为信息提取的路径,定义了Web页面的信息项本体,并自动解析生成Web页面的结构本体.通过对这两个本体进行对比,构造了一种归纳学习算法来半自动地生成信息提取规则,对Web页面的信息提取具有较高的效率. 相似文献
12.
邓箴 《计算机光盘软件与应用》2010,(10):18-18
传统基于DOM的信息抽取方法采用路径作为抽取规则,由于规则过于单一,因此效果并不十分理想。本文从相似页面的获取出发,逐步介绍了基于DOM采用特征比较法进行信息抽取的过程,最后还给出了针对多记录网页抽取时的试探策略、实验证明,该方法可以有效地抽取出网页中的数据。 相似文献
13.
14.
15.
因特网给我们提供了巨大的信息量,在信息量极其丰富的Web资源中,蕴涵着大量有用的知识信息.信息爆炸而知识匮乏是当今人们所面临的一个很重要的问题.通过搜索引擎来查找信息将不容易定位到用户最感兴趣的数据上.而通过wleb信息抽取的自动化实现,可以提高信息获得的效率.信息抽取可以从网络上分析和发现有用的信息,废弃冗余的数据,提取用户知识领域的知识.本文分析了基于XML的web信息提取,讨论了相关技术在Web信息抽取中的应用并建立了相应的Web信息抽取摸型,通过自动学习来获取信息抽取规则,实现Wleb信息的自动提取. 相似文献
16.
17.
Web信息抽取 总被引:14,自引:0,他引:14
With the tremendous amount of information available on the Web,the ability to quickly obtain information has become a crucial problem.It is not enough for us to acquire information only with Web information retrieval technology.Therefore more and more people pay attention to Web information extraction technology.This paper first introduces some concepts of information extraction technology,then introduces and analyzes several typical Web information extraction methods based on the differences in extraction patterns. 相似文献
18.
对现有的信息抽取技术和XML技术加以研究,在此基础上提出了适合XML的通用的web信息抽取模型,它能够把Web上的数据抽取出来整合到指定模式的XML文档中去,最大限度地实现了Web信息的查询与共享. 相似文献