首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
Web信息抽取已经成为下一代Web应用的一个研究热点.在分析了当前Web信息抽取技术面临问题的基础上,结合网格技术的发展,提出了一个基于网格的Web信息抽取系统(GWIES),并给出了GWIES的设计方案,描述了系统实现的关键技术.  相似文献   

2.
为了获取分散Web页面中隐含信息,设计了Web信息抽取系统。该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于DOM树的XPath绝对路径生成算法来获取被标注结点的XPath表达式,并使用XPath语言结合XSLT技术来编写抽取规则,从而得到结构化的数据库或XML文件,实现了Web信息的定位和抽取。通过一个购物网站的抽取实验证明,该系统的抽取效果良好,可以实现相似Web页面的批量抽取。  相似文献   

3.
基于模板流程配置的Web信息抽取   总被引:1,自引:0,他引:1       下载免费PDF全文
针对Web信息抽取中存在的包装器构造复杂及抽取精度等问题,提出并实现了一种基于模板流程配置的Web信息抽取框架。将用户请求、访问和获取Web页面的动作进行分解,抽取其中的动作模式,并映射到流程配置模板中的节点。通过流程解析器对用户创建的流程配置XML描述文档进行解析,抽取感兴趣的信息。试验结果表明,系统可快速、准确地实现抽取。  相似文献   

4.
在现有的相关研究的基础上,提出一个基于KPS的Web信息抽取的多Agent系统(MAS)模型.基于KPS的Web信息抽取方法集合了分别基于关键字、模式和样本的信息抽取技术的优点,有利于满足抽取高精度、高复杂度和高性能信息的要求.一个多Agent系统(MAS)可以把问题由大化小,由复杂变简单,每个Agent完成一个小目标,Agent间通过协调和合作,共同完成复杂的Web信息处理.而将基于KPS的Web信息抽取方法与多Agent系统进行有机的结合,可以大大降低Web信息抽取的难度,提高信息抽取的精度,从而更大地满足用户的需求.  相似文献   

5.
Web信息抽取技术在统一检索系统中的应用研究   总被引:1,自引:1,他引:0  
结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例.实验证明,该方法在基于Web过程模拟的统一检索系统中能保证很高的数据抽取回召率和查准率,并且成功应用于四家省级科技文献共享平台.  相似文献   

6.
一种自动抽取Web信息方法的设计与实现   总被引:1,自引:1,他引:0  
针对目前Web信息抽取技术实现复杂、维护困难以及抽取速度慢的问题,本文根据Web页面的特点,提出一种新的Web抽取策略.此策略在处理Web页面时降低了处理Web页面的结构的复杂性,提高了Web信息抽取的速度.并根据策略建立了该Web信息自动抽取方法的模型,此模型首先分析页面的结构,根据结构快速生成抽取规则,构建规则库;并对页面抽取的内容进行分析,构建资源库.基于此模型的方法能自主学习,实现自动抽取.这在很大程度上减少了人工参与,并能获得比较好的抽取结果.  相似文献   

7.
表格信息抽取引擎的设计与实现   总被引:3,自引:0,他引:3  
王治和 《计算机科学》2006,33(10):126-127
讨论针对Web表格的信息抽取,分析并给出了表格信息抽取引擎的系统结构,以及实现该系统所涉及的关键技术和数据模型,为用户提供一种以Web表格为信息抽取对象的、支持抽取方式选择的Web表格信息抽取工具。  相似文献   

8.
提出了一种基于XPath的Web信息抽取方法,鉴于目前还没有免费的商用XPath引擎可用,于是利用DOM定制了一个XPath引擎,实现了Web信息抽取。该文着重介绍了原型系统的工作原理和实现中所采用的具体技术,该方法可用于Web查询和包装器的构造,也可用于格式转换。  相似文献   

9.
通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型,并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性。最后用实验证实了文中方法的有效性与正确性。  相似文献   

10.
刘伟  贺露 《软件》2013,(12):211-212
所谓基于本体的Web信息研究其实质就是对所构建的本体为信息抽取核心,本文通过对信息抽取系统的相关概念理论进行基础分析,分类比较基于本体的信息抽取系统,对基于本体的Web信息抽取系统分析研究,主要研究其整体构造、技术方法的分析和评价两方面内容。  相似文献   

11.
信息抽取研究综述   总被引:89,自引:8,他引:89  
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹———通过系统化、大规模的定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的有效性、快速NLP系统开发的必要性,都极大地推动了自然语言处理研究的发展,促进了NLP研究与应用的紧密结合。回顾信息抽取研究的历史,总结信息抽取研究的现状,将有助于这方面研究工作向前发展。  相似文献   

12.
基于框架语义标注的自由文本信息抽取研究   总被引:1,自引:0,他引:1       下载免费PDF全文
信息抽取是从自由文本语料库构建数据库,实现信息自动收集的有效途径之一。提出了一种以框架语义标注为基础构建信息抽取规则的信息抽取方法。基于框架语义标注的信息抽取是用统一的方法来指导信息抽取过程。这种方法具有较细的处理粒度,对语义规则性强的领域有一定的普遍适用性。设计了基于框架语义的BAIE(图书内容简介信息抽取)系统,并对图书的内容简介试行信息抽取。抽取结果表明,基于框架语义的信息抽取方式有一定的可行性和适用性。  相似文献   

13.
网络信息抽取是从半结构化的Web海量数据中,按用户要求抽取且形成相关的有效的结构数据处理过程。论文以隐马尔科夫模型(HMM)进行数据抽取中的若干关键问题进行研究,提出了基于数据挖掘聚类的模型合并方法生成隐马尔可夫模型,即可根据数据自动生成HMM,同时对一般的隐马尔可夫模型进行了扩展,为每个抽取域生成一个隐马尔可夫模型,用于获取更多的有用信息。  相似文献   

14.
大规模Web信息提取是面向Internet非规范知识处理中的一个典型问题.以网格计算框架为实现平台,设计了分层的网格应用系统架构,针对Web信息提取中链接分析和信息提取功能,描述了面向一般网格计算框架的资源调度与编程模型.最后结合Web信息提取系统的实验结果,给出了网格应用系统的评价标准.  相似文献   

15.
遥感地质信息提取主要包括遥感蚀变信息的提取、线性构造信息的提取和岩性信息的提取等几个方面。目前,遥感蚀变信息的提取、线性构造信息的提取技术已经取得了较大的进展,而岩性信息的提取研究还没有成熟的方法。本介绍了在ERDAS平台的基础上,结合前人的有关地质信息提取的成熟方法和我们新增加的提取方法,将这些遥感异常提取方法进行整合与二次开发,设计并实现了地质信息提取的模块化。  相似文献   

16.
介绍了一种多策略联合信息抽取方法——MSCIE(Multi-Strategy Comtbination Information Extraction).MSCIE将对表格式网页的信息抽取分为基于网页结构特征分析的信息抽取和基于模式匹配的信息抽取,提出了一种对网页DoM(Document Object Moclel)树的冗余信息进行剪枝分析的方法和一种实体特征模式发现算法分别用于这两种信息抽取方法,并通过两种策略联合完成信息抽取工作.应用于互联网竞争情报监测系统中,从大量网站中抽取多种商品的供求信息,取得了较高的准确率和召回率(平均在95%以上)。  相似文献   

17.
基于规则归纳的信息抽取系统实现   总被引:2,自引:0,他引:2  
面对Web信息的迅猛增长,信息抽取技术非常适合于从大量的文档中抽取需要的事实数据。通过文档对象模型(DOM)解析以及检索、抽取、映射等规则的定义,设计并实现了一种具有规则归纳能力的信息抽取系统,用于Web信息的自动检索。在用于抽取规则归纳的框架下,还重点对用于生成抽取模式的WHISK学习算法进行了实验对比分析,结果表明系统对于单槽和多槽数据都具有不错的归纳学习能力。  相似文献   

18.
关系抽取(RE)是为了抽取文本中包含的关系,是信息抽取(IE)的重要组成部分。近年来,研究人员利用深度学习技术在该领域开展了深入研究。由于神经网络类型丰富,基于深度学习的关系抽取方法也更加多样。该文从关系抽取的基本概念出发,对关系抽取方法依据不同的视角进行了类别划分。随后,介绍了基于深度学习的关系抽取方法常用的数据集,并总结出基于深度学习的关系抽取框架。在此框架下,对关系抽取方法在面向深度学习的输入数据预处理、面向深度学习的神经网络模型设计等方面的具体工作进行了分析与评述,最后对未来的研究方向进行了探讨和展望。  相似文献   

19.
针对Web信息抽取(WIE)技术在健康领域应用的问题,提出了一种基于WebHarvest的健康领域Web信息抽取方法。通过对不同健康网站的结构分析设计健康实体的抽取规则,实现了基于WebHarvest的自动抽取健康实体及其属性的算法;再把抽取的实体及其属性进行一致性检查后存入关系数据库中,然后对关系数据库中隐含健康实体的属性值利用Ansj自然语言处理方法进行实体识别, 进而抽取健康实体之间的联系。该技术在健康实体抽取实验中,平均F值达到99.9%,在实体联系抽取实验中,平均F值达到80.51%。实验结果表明提出的Web信息抽取技术在健康领域抽取的健康信息具有较高的质量和可信性。  相似文献   

20.
文章从分析一个实例出发,采用标记索引集的方法建立了一种Web信息提取的形式化模型。该模型是构建包装器的基础,它对于表格化Web信息具有普遍的适应性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号