首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于DOM树的可适应性Web信息抽取   总被引:6,自引:2,他引:4  
Web信息抽取通常采用的是一种归纳学习方法,从给定的训练样本网页中学习到抽取规则,这种方法虽然能够准确地抽取出信息,但是当网站的模版发生改变后,必须重新获得抽取规则,因而这种抽取器的维护成本比较高,可适应性差.提出一种新的可适应性Web信息抽取方法,该方法首先通过聚类方法获取商品在网页中频繁出现的关键词组,然后利用网页的DOM树结构来确定包含这些关键词的信息块,从而实现Web信息的自动抽取.对大量商业网站进行信息抽取的实验表明,该算法不仅能有效抽取出商品信息,而且是一种与站点结构无关的可适应性信息抽取方法.  相似文献   

2.
Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法。在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息。实验证明,这种方法具有很好的准确率及召回率。  相似文献   

3.
基于数据区域发现的信息抽取规则生成方法   总被引:2,自引:2,他引:0       下载免费PDF全文
提出一种自动检测网页中数据记录结构特点并生成Web信息抽取规则的方法,以网页DOM树为基础,自动发现和分离Web数据区域所对应的DOM子树,将其分解为数据记录子树集合,综合数据记录子树的结构特点生成抽取规则。实验结果显示,该方法具有较高的抽取准确率和查全率。  相似文献   

4.
基于扩展DOM树的Web页面信息抽取   总被引:1,自引:0,他引:1  
随着Internet的发展,Web页面提供的信息量日益增长,信息的密集程度也不断增强.多数Web页面包含多个信息块,它们布局紧凑,在HTML语法上具有类似的模式.针对含有多信息块的Web页面,提出一种信息抽取的方法:首先创建扩展的DOM(Document Object Model)树,将页面抽取成离散的信息条;然后根据扩展DOM树的层次结构,并结合必要的视觉特性和语义信息对离散化的信息条重新整合;最后确定包含信息块的子树,深度遍历DOM树实现信息抽取.该算法能对多信息块的Web页面进行信息抽取.  相似文献   

5.
基于关键词聚类和节点距离的网页信息抽取   总被引:2,自引:0,他引:2  
大部分网页信息抽取方法都针对特定的网站,例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时,必须人为地增加抽取规则或者提供新的训练网页集。而且,当网站的模版改变时,也要重新设计这些规则或重新输入训练网页集。这些方法难以维护,因此不能应用到从大量不同的网站上进行信息抽取。本文提出了一种新的网页信息抽取方法,该方法基于特定主题的关键词组和节点距离,能够不加区分地对不同的网站页面信息自动抽取。对大量网站的网页进行信息抽取的实验显示,该方法能够不依赖网页的来源而正确和自动地抽取相关信息,并且已经成功应用到电子商务智能搜索和挖掘系统中。  相似文献   

6.
文章提出了一种基于DOM(文档结构模型)和网页模板的Web信息提取方法.参照DOM的定义,通过构造HTML解析树来描述网页结构.在抽取网页之前,先通过归纳网页模板来过滤网页中的噪音信息.然后,使用基于相对路径的抽取规则来进行信息抽取.最后,本文给出了归纳网页模板和抽取网页信息的实验结果.实验结果表明本文提出的归纳网页模板方法和信息抽取方法是正确的和高效的.  相似文献   

7.
张鑫  陈梅  王翰虎  王嫣然 《微机发展》2011,(2):58-61,65
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法。该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web页面中信息项的抽取路径。通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则。使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点。  相似文献   

8.
Web页面中的主题信息一般分布比较集中,可利用网页的这一特性进行网页主题信息的自动提取。网页源代码中的HTML标签不规范,使得正向匹配难以生成嵌套结构准确的DOM树,该文提出一种通过逆向匹配的方法,构建完整的网页源代码DOM树。通过对DOM树进行剪枝,删除无关节点,对保留下来的信息块的节点标签进行人工选择与唯一性判定,从而生成提取模板。该方法能够实现对电子商务网站源网页中的主题信息进行提取,是一种半自动、通用的方法,可用于信息检索系统中的信息采集。  相似文献   

9.
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法.该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web贞面中信息项的抽取路径.通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则.使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点.  相似文献   

10.
为了获取分散Web页面中隐含信息,设计了Web信息抽取系统。该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于DOM树的XPath绝对路径生成算法来获取被标注结点的XPath表达式,并使用XPath语言结合XSLT技术来编写抽取规则,从而得到结构化的数据库或XML文件,实现了Web信息的定位和抽取。通过一个购物网站的抽取实验证明,该系统的抽取效果良好,可以实现相似Web页面的批量抽取。  相似文献   

11.
信息检索与信息抽取技术的研究   总被引:15,自引:1,他引:15  
在当今信息社会 ,人们对于信息获取的要求越来越高。特别是互联网的普及 ,可以很方便地从互联网上获取信息。然而目前的信息检索技术和信息抽取技术还远远不能满足人们的要求。首先介绍信息检索和信息抽取技术 ,然后分析两者的特点和不足 ,最后提出一个结合两者优势的信息获取模型  相似文献   

12.
信息隐藏技术是将一个有意义的信息隐藏在某种载体中,使非法者不容易感知隐藏信息存在的技术,本文主要对信息隐藏技术的特点、方法和应用进行一个概括性介绍。  相似文献   

13.
基于Agent的网络信息收集中的“信息度”   总被引:2,自引:0,他引:2  
文章首先简单描述了一个基于Agent的信息收集系统的模型。然后针对此类基于Agent的网络信息收集系统中存在的效率问题,提出了信息度的概念,用信息度反映历史查询的状态,并作为将来查询的依据,来改善在信息收集过程中的效率问题,减少将来查询的盲目性。  相似文献   

14.
信息编码与面向对象的信息编码模型研究   总被引:5,自引:1,他引:5  
首先对信息编码的原理进行了讨论,在此基础上用面向对象方法对信息编码进行分析并建立了面向对象的信息编码描述模型。通过该模型描述企业内部的信息编码,从而实现企业内部信息分类、编码的集成,达到信息编码和应用系统的分离,提高了信息编码的柔性。  相似文献   

15.
介绍网上房源信息管理系统的结构设计、系统功能及实现代码.  相似文献   

16.
本文通过对网络化信息服务体系的构成、任务、功用的探讨,阐述了向网络化信息服务转化、过渡应采取的对策、措施.为适应网络化信息服务和未来发展的需要,现代信息服务必须重新设计定位,要加速网络化信息服务的实现及功效的充分发挥.  相似文献   

17.
加强档案信息化建设   总被引:1,自引:0,他引:1  
档案信息化建设有利于提升档案服务效能、创新档案工作模式。因此,我们要高度重视档案信息化建设。本文分析了我国档案信息化建设存在的问题,并针对这些问题,提出了包括树立开放的档案服务意识、完善配套的技术标准、法律法规、加快档案信息安全建设、建立高水平的信息开发和管理队伍等多项保障措施。  相似文献   

18.
为保证野生动植物资源管理中信息交流渠道的畅通性,设计开发野生动植物管理信息系统的信息交流平台。信息交流平台以ASP技术、Oracle数据库和Internet技术为支撑,包括普通信息管理、图文信息管理、站内短消息管理三大功能模块。作为整个野生动植物管理系统中的重要组成部分,不仅实现各类公共信息的发布,而且通过模拟邮件系统的传输方式,实现管理者内部信息的传递。  相似文献   

19.
从信息论中熵的概念为出发点,分析信息孤岛集成的需要,通过熵增原理揭示系统不能孤立地存在于环境中,必须与环境交换物质、能量与信息才能生成、存在与发展.  相似文献   

20.
基于信息语义的异构信息集成方法   总被引:3,自引:0,他引:3  
董明哲  张同军 《计算机工程》2005,31(2):202-203,221
在系统集成的过程中,异构信息资源给人们信息共享、处理造成了困难,而异构信息中的语义表示方法一直是一个难点。该文采用基于信息语义的定义方法,提出一个以语义为核心的信息模型,给出异构信息系统集成的一种解决方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号