共查询到20条相似文献,搜索用时 62 毫秒
1.
基于DOM树的可适应性Web信息抽取 总被引:6,自引:2,他引:4
Web信息抽取通常采用的是一种归纳学习方法,从给定的训练样本网页中学习到抽取规则,这种方法虽然能够准确地抽取出信息,但是当网站的模版发生改变后,必须重新获得抽取规则,因而这种抽取器的维护成本比较高,可适应性差.提出一种新的可适应性Web信息抽取方法,该方法首先通过聚类方法获取商品在网页中频繁出现的关键词组,然后利用网页的DOM树结构来确定包含这些关键词的信息块,从而实现Web信息的自动抽取.对大量商业网站进行信息抽取的实验表明,该算法不仅能有效抽取出商品信息,而且是一种与站点结构无关的可适应性信息抽取方法. 相似文献
2.
Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法。在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息。实验证明,这种方法具有很好的准确率及召回率。 相似文献
3.
4.
基于扩展DOM树的Web页面信息抽取 总被引:1,自引:0,他引:1
随着Internet的发展,Web页面提供的信息量日益增长,信息的密集程度也不断增强.多数Web页面包含多个信息块,它们布局紧凑,在HTML语法上具有类似的模式.针对含有多信息块的Web页面,提出一种信息抽取的方法:首先创建扩展的DOM(Document Object Model)树,将页面抽取成离散的信息条;然后根据扩展DOM树的层次结构,并结合必要的视觉特性和语义信息对离散化的信息条重新整合;最后确定包含信息块的子树,深度遍历DOM树实现信息抽取.该算法能对多信息块的Web页面进行信息抽取. 相似文献
5.
基于关键词聚类和节点距离的网页信息抽取 总被引:2,自引:0,他引:2
大部分网页信息抽取方法都针对特定的网站,例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时,必须人为地增加抽取规则或者提供新的训练网页集。而且,当网站的模版改变时,也要重新设计这些规则或重新输入训练网页集。这些方法难以维护,因此不能应用到从大量不同的网站上进行信息抽取。本文提出了一种新的网页信息抽取方法,该方法基于特定主题的关键词组和节点距离,能够不加区分地对不同的网站页面信息自动抽取。对大量网站的网页进行信息抽取的实验显示,该方法能够不依赖网页的来源而正确和自动地抽取相关信息,并且已经成功应用到电子商务智能搜索和挖掘系统中。 相似文献
6.
文章提出了一种基于DOM(文档结构模型)和网页模板的Web信息提取方法.参照DOM的定义,通过构造HTML解析树来描述网页结构.在抽取网页之前,先通过归纳网页模板来过滤网页中的噪音信息.然后,使用基于相对路径的抽取规则来进行信息抽取.最后,本文给出了归纳网页模板和抽取网页信息的实验结果.实验结果表明本文提出的归纳网页模板方法和信息抽取方法是正确的和高效的. 相似文献
7.
8.
9.
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法.该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web贞面中信息项的抽取路径.通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则.使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点. 相似文献
10.
为了获取分散Web页面中隐含信息,设计了Web信息抽取系统。该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于DOM树的XPath绝对路径生成算法来获取被标注结点的XPath表达式,并使用XPath语言结合XSLT技术来编写抽取规则,从而得到结构化的数据库或XML文件,实现了Web信息的定位和抽取。通过一个购物网站的抽取实验证明,该系统的抽取效果良好,可以实现相似Web页面的批量抽取。 相似文献
11.
12.
信息隐藏技术是将一个有意义的信息隐藏在某种载体中,使非法者不容易感知隐藏信息存在的技术,本文主要对信息隐藏技术的特点、方法和应用进行一个概括性介绍。 相似文献
13.
基于Agent的网络信息收集中的“信息度” 总被引:2,自引:0,他引:2
文章首先简单描述了一个基于Agent的信息收集系统的模型。然后针对此类基于Agent的网络信息收集系统中存在的效率问题,提出了信息度的概念,用信息度反映历史查询的状态,并作为将来查询的依据,来改善在信息收集过程中的效率问题,减少将来查询的盲目性。 相似文献
14.
16.
魏颖 《数字社区&智能家居》2007,1(2):370-371
本文通过对网络化信息服务体系的构成、任务、功用的探讨,阐述了向网络化信息服务转化、过渡应采取的对策、措施.为适应网络化信息服务和未来发展的需要,现代信息服务必须重新设计定位,要加速网络化信息服务的实现及功效的充分发挥. 相似文献
17.
18.
为保证野生动植物资源管理中信息交流渠道的畅通性,设计开发野生动植物管理信息系统的信息交流平台。信息交流平台以ASP技术、Oracle数据库和Internet技术为支撑,包括普通信息管理、图文信息管理、站内短消息管理三大功能模块。作为整个野生动植物管理系统中的重要组成部分,不仅实现各类公共信息的发布,而且通过模拟邮件系统的传输方式,实现管理者内部信息的传递。 相似文献
19.
从信息论中熵的概念为出发点,分析信息孤岛集成的需要,通过熵增原理揭示系统不能孤立地存在于环境中,必须与环境交换物质、能量与信息才能生成、存在与发展. 相似文献
20.
基于信息语义的异构信息集成方法 总被引:3,自引:0,他引:3
在系统集成的过程中,异构信息资源给人们信息共享、处理造成了困难,而异构信息中的语义表示方法一直是一个难点。该文采用基于信息语义的定义方法,提出一个以语义为核心的信息模型,给出异构信息系统集成的一种解决方法。 相似文献