共查询到20条相似文献,搜索用时 78 毫秒
1.
常丽君 《数字社区&智能家居》2014,(16):3726-3728
随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中,利用领域本体的关键词、概念及关系来生成抽取规则,采用语法分析模块对输入的文档进行预处理,最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明,该方法具有良好的性能。 相似文献
2.
根据所要抽取网页的特点,提出了一种基于网页结构和ontology领域知识的自动网页数据抽取。并且使得ontology在数据抽取的过程中自动扩充。 相似文献
3.
基于统计的网页正文信息抽取方法的研究 总被引:47,自引:6,他引:47
为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠统计信息,从中文新闻类网页中抽取正文内容的方法。该方法先根据网页中的HTML 标记把网页表示成一棵树,然后利用树中每个结点包含的中文字符数从中选择包含正文信息的结点。该方法克服了传统的网页内容抽取方法需要针对不同的数据源构造不同的包装器的缺点,具有简单、准确的特点,试验表明该方法的抽取准确率可以达到95%以上。采用该方法实现的网页文本抽取工具目前为一个面向旅游领域的问答系统提供语料支持,很好的满足了问答系统的需求。 相似文献
4.
5.
Web数据抽取技术研究进展 总被引:8,自引:0,他引:8
由于Web上存在着大量有用而复杂的信息,近年来学术界和企业界开发了许多从Web中抽取数据的方法和工具。本文总结了Web数据抽取技术的研究进展和从Web中抽取数据的主要原理、过程、方法和抽取规则,并讨论了未来的研究方向。 相似文献
6.
动态网页是Internet上重要的网页类型,它们通常是由网站的后台数据库通过某种通用的模板构成.提出了一种新的基于树模型算法的动态网页信息抽取方法.它在已有算法和系统的基础上,进行了多方面的扩充.实验表明,这种基于树模型的抽取方法能够准确地定位和抽取动态网页信息. 相似文献
7.
《计算机应用与软件》2013,(7)
针对Web信息抽取主要依据内容进行抽取的思想,通过对基于本体的Web信息抽取技术的分析,在对网页进行预处理的过程中引入网页分块思想。通过网页分块技术准确提取出所需信息的抽取区域,再根据本体抽取规则对得到的抽取区域进行处理,最终得到需要的信息。实验验证了改进的基于本体的Web信息抽取算法具有更高的准确率和召回率,具有良好的应用前景。 相似文献
8.
一种基于未知结构网页抽取本体的方法 总被引:1,自引:1,他引:0
在Web上数据大多是结构化的,但事先并不熟知数据的结构,因此不能有效地查询感兴趣的数据.提出了一种独立于文本抽取本体的方法,其过程包括表的理解、数据集成和本体生成,其中表理解是搜寻定位兴趣表、识别及匹配属性和值,并形成记录;数据集成是匹配源记录和目标模式;本体卷积是将源记录的数据抽取到目标模式.结果表明这种方法可以通过已知的目标模式有效地抽取未知结构的数据. 相似文献
9.
10.
11.
12.
基于HTML模式代数的Web信息提取方法 总被引:3,自引:0,他引:3
高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采用在整个训练例子中学习表示各属性提取规则的一致模式集,再由多个模式组成的一致模式集提取数据,适用于提取具有缺省属性、多值属性、属性具有多种不同顺序的表结构网页和层次结构网页,其有效性在原型系统中通过实验得到验证. 相似文献
13.
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。Ontology作为领域知识的共同理解,能有效地解决现在信息抽取所面临的主要挑战——知识工程的瓶颈问题。文中详细介绍了本体的定义和建模语言,分析了现有基于本体信息抽职的几种典型方法,得出了其所存在的主要问题。 相似文献
14.
15.
16.
DUAN Ai-hua 《数字社区&智能家居》2008,(23)
在分析网站结构的基础上,把同类信息划归为一个页面组,建立相应的XML模板库,进行web信息挖掘,为实现页面信息快速查询和信息分类提供了很好的方法。 相似文献
17.
随着大量的科研论文出现在互联网上,从中精确地抽取论文头部信息和引文信息显得十分重要。提出了基于本体相似度的信息抽取方法,该方法的关键在于用本体相似度判定某个行本体是正例还是反例,然后通过主动学习选择最有可能包含抽取信息的行本体集,再充分利用本体的语义推理能力找到正确的片断。从论文中提取头部信息和引文信息为进一步的语义检索和语义存储奠定基础。测试数据集的实验结果显示该方法比其他方法具有较高的准确率。 相似文献
18.
基于本体的电力信息系统的语义集成研究 总被引:2,自引:1,他引:2
在语义网以及OWL等本体技术的基础上,构建了一种新型的信息集成系统(EOSIS)来实现电力企业信息的集成、语义连接及推理。其中包括EOSIS的业务需求分析、集成策略以及系统结构。EOSIS不同与现有的集成系统之处在于,它可以支持支持概念和对象的多维查询及导航、隐含业务信息推理、领域概念、事实的动态增加等功能。 相似文献
19.
基于Web的包装器技术的现状与发展 总被引:1,自引:0,他引:1
Web信息抽取技术已成为当前一个研究热点,信息抽取的主要工作由包装器来完成。根据包装器的原理,对现有的信息抽取技术进行了分类,并结合典型的系统讨论各抽取技术的特点,提出了以本体来构建包装器的规则模型。 相似文献
20.
所谓基于本体的Web信息研究其实质就是对所构建的本体为信息抽取核心,本文通过对信息抽取系统的相关概念理论进行基础分析,分类比较基于本体的信息抽取系统,对基于本体的Web信息抽取系统分析研究,主要研究其整体构造、技术方法的分析和评价两方面内容。 相似文献