首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中,利用领域本体的关键词、概念及关系来生成抽取规则,采用语法分析模块对输入的文档进行预处理,最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明,该方法具有良好的性能。  相似文献   

2.
俞琰 《微处理机》2006,27(6):86-88
根据所要抽取网页的特点,提出了一种基于网页结构和ontology领域知识的自动网页数据抽取。并且使得ontology在数据抽取的过程中自动扩充。  相似文献   

3.
基于统计的网页正文信息抽取方法的研究   总被引:47,自引:6,他引:47  
为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠统计信息,从中文新闻类网页中抽取正文内容的方法。该方法先根据网页中的HTML 标记把网页表示成一棵树,然后利用树中每个结点包含的中文字符数从中选择包含正文信息的结点。该方法克服了传统的网页内容抽取方法需要针对不同的数据源构造不同的包装器的缺点,具有简单、准确的特点,试验表明该方法的抽取准确率可以达到95%以上。采用该方法实现的网页文本抽取工具目前为一个面向旅游领域的问答系统提供语料支持,很好的满足了问答系统的需求。  相似文献   

4.
针对现今较流行的动态Web网页数量巨大、数据价值高,并且网页结构高度模板化的特点,设计了一个基于网页聚类的Web信息自动抽取系统。在DOM抽取技术基础上利用网页聚类寻找高相似簇,并引入列相似度和全局自相似度计算方法,提高了聚类结果的准确性。抽取模板中应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,达到了较高的准确率和查全率。  相似文献   

5.
Web数据抽取技术研究进展   总被引:8,自引:0,他引:8  
由于Web上存在着大量有用而复杂的信息,近年来学术界和企业界开发了许多从Web中抽取数据的方法和工具。本文总结了Web数据抽取技术的研究进展和从Web中抽取数据的主要原理、过程、方法和抽取规则,并讨论了未来的研究方向。  相似文献   

6.
邵辉  李芳 《计算机应用与软件》2007,24(10):99-100,144
动态网页是Internet上重要的网页类型,它们通常是由网站的后台数据库通过某种通用的模板构成.提出了一种新的基于树模型算法的动态网页信息抽取方法.它在已有算法和系统的基础上,进行了多方面的扩充.实验表明,这种基于树模型的抽取方法能够准确地定位和抽取动态网页信息.  相似文献   

7.
针对Web信息抽取主要依据内容进行抽取的思想,通过对基于本体的Web信息抽取技术的分析,在对网页进行预处理的过程中引入网页分块思想。通过网页分块技术准确提取出所需信息的抽取区域,再根据本体抽取规则对得到的抽取区域进行处理,最终得到需要的信息。实验验证了改进的基于本体的Web信息抽取算法具有更高的准确率和召回率,具有良好的应用前景。  相似文献   

8.
一种基于未知结构网页抽取本体的方法   总被引:1,自引:1,他引:0  
强宇  胡运发 《计算机科学》2009,36(2):186-189
在Web上数据大多是结构化的,但事先并不熟知数据的结构,因此不能有效地查询感兴趣的数据.提出了一种独立于文本抽取本体的方法,其过程包括表的理解、数据集成和本体生成,其中表理解是搜寻定位兴趣表、识别及匹配属性和值,并形成记录;数据集成是匹配源记录和目标模式;本体卷积是将源记录的数据抽取到目标模式.结果表明这种方法可以通过已知的目标模式有效地抽取未知结构的数据.  相似文献   

9.
多本体中子本体抽取的研究   总被引:1,自引:2,他引:1  
企业各部门中存在大量的知识源本体,在实际应用中,往往需要使用多个知识源本体的部分内容,即子本体。当前的子本体抽取方法大都是针对单一本体,分析了多本体中抽取子本体的主要问题,提出了一种可以从多本体中抽取所需子本体的有效方法。该方法降低了子本体抽取的复杂性。  相似文献   

10.
互联网商品信息抽取技术   总被引:1,自引:0,他引:1       下载免费PDF全文
于鲁波  陈超 《计算机工程》2008,34(5):274-276
针对网页信息抽取中格式多样化的问题,提出一种基于路径统计聚类的信息抽取算法。该算法充分利用电子商务网站网页的特点,给出网页统计信息的一般数学表达式,在此基础上,采用基于统计聚类的思想,分割信息块,实现抽取信息。通过对实际电子商务网站网页信息的抽取,证明算法的有效性,分割正确率达92.27%,信息抽取正确率达98.24%。  相似文献   

11.
12.
基于HTML模式代数的Web信息提取方法   总被引:3,自引:0,他引:3  
高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采用在整个训练例子中学习表示各属性提取规则的一致模式集,再由多个模式组成的一致模式集提取数据,适用于提取具有缺省属性、多值属性、属性具有多种不同顺序的表结构网页和层次结构网页,其有效性在原型系统中通过实验得到验证.  相似文献   

13.
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。Ontology作为领域知识的共同理解,能有效地解决现在信息抽取所面临的主要挑战——知识工程的瓶颈问题。文中详细介绍了本体的定义和建模语言,分析了现有基于本体信息抽职的几种典型方法,得出了其所存在的主要问题。  相似文献   

14.
基于模板流程配置的Web信息抽取   总被引:1,自引:0,他引:1       下载免费PDF全文
针对Web信息抽取中存在的包装器构造复杂及抽取精度等问题,提出并实现了一种基于模板流程配置的Web信息抽取框架。将用户请求、访问和获取Web页面的动作进行分解,抽取其中的动作模式,并映射到流程配置模板中的节点。通过流程解析器对用户创建的流程配置XML描述文档进行解析,抽取感兴趣的信息。试验结果表明,系统可快速、准确地实现抽取。  相似文献   

15.
为了对重大突发性危机事件的应急预警并及时有效的处理,提出了一个基于应急案例本体的信息抽取的模型的设计思想和实现方法,该模型首先使用本体来描述应急知识领域中的案例,再在领域知识的指导下抽取Web资源中的相关案例并构建其案例库,供决策者或领域专家选用。应急决策系统既利用了特征模式匹配的快速性,同时又利用了同一数据项在层次结构中的优良特性,从资源中抽取了更为精确的知识,取得了较好的效果  相似文献   

16.
在分析网站结构的基础上,把同类信息划归为一个页面组,建立相应的XML模板库,进行web信息挖掘,为实现页面信息快速查询和信息分类提供了很好的方法。  相似文献   

17.
徐慧  ;杨学兵 《微机发展》2008,(12):203-206
随着大量的科研论文出现在互联网上,从中精确地抽取论文头部信息和引文信息显得十分重要。提出了基于本体相似度的信息抽取方法,该方法的关键在于用本体相似度判定某个行本体是正例还是反例,然后通过主动学习选择最有可能包含抽取信息的行本体集,再充分利用本体的语义推理能力找到正确的片断。从论文中提取头部信息和引文信息为进一步的语义检索和语义存储奠定基础。测试数据集的实验结果显示该方法比其他方法具有较高的准确率。  相似文献   

18.
基于本体的电力信息系统的语义集成研究   总被引:2,自引:1,他引:2  
在语义网以及OWL等本体技术的基础上,构建了一种新型的信息集成系统(EOSIS)来实现电力企业信息的集成、语义连接及推理。其中包括EOSIS的业务需求分析、集成策略以及系统结构。EOSIS不同与现有的集成系统之处在于,它可以支持支持概念和对象的多维查询及导航、隐含业务信息推理、领域概念、事实的动态增加等功能。  相似文献   

19.
基于Web的包装器技术的现状与发展   总被引:1,自引:0,他引:1  
Web信息抽取技术已成为当前一个研究热点,信息抽取的主要工作由包装器来完成。根据包装器的原理,对现有的信息抽取技术进行了分类,并结合典型的系统讨论各抽取技术的特点,提出了以本体来构建包装器的规则模型。  相似文献   

20.
刘伟  贺露 《软件》2013,(12):211-212
所谓基于本体的Web信息研究其实质就是对所构建的本体为信息抽取核心,本文通过对信息抽取系统的相关概念理论进行基础分析,分类比较基于本体的信息抽取系统,对基于本体的Web信息抽取系统分析研究,主要研究其整体构造、技术方法的分析和评价两方面内容。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号