首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为了有效解决这种异构信息源的集成问题,将整个网络信息集成过程划分为三个阶段:数据抽取、数据集成和数据输出。在数据抽取阶段,研究关系数据库的模式抽取问题,解决从大量动态变化的HTML数据源中精确、快速地寻找有效信息的数据抽取问题。  相似文献   

2.
提出了一种基于KPS的Web信息抽取方法,它结合了基于K(Keywords)、P(Patterms)和(Samples)抽取方法的优点,能够更加有效地抽取Web信息。  相似文献   

3.
在现有的相关研究的基础上,提出一个基于KPS的Web信息抽取的多Agent系统(MAS)模型.基于KPS的Web信息抽取方法集合了分别基于关键字、模式和样本的信息抽取技术的优点,有利于满足抽取高精度、高复杂度和高性能信息的要求.一个多Agent系统(MAS)可以把问题由大化小,由复杂变简单,每个Agent完成一个小目标,Agent间通过协调和合作,共同完成复杂的Web信息处理.而将基于KPS的Web信息抽取方法与多Agent系统进行有机的结合,可以大大降低Web信息抽取的难度,提高信息抽取的精度,从而更大地满足用户的需求.  相似文献   

4.
标题是描述一个HTML文档主题的重要信息,但常常不能被准确指明。本文通过对过去标题抽取方法优缺点的总结和进一步分析,提出了通过机器学习策略进行标题抽取的方法。我们将HTML格式及DOM树结构等信息引入了机器学习标题抽取过程中,并通过实验验证了我们提出方法的可行性。  相似文献   

5.
信息在网络上传播具有高时效,低成本等特性,因而越来越多的企业和个人都选择在网上发布商品信息,例如汽车、房产等信息.这些内容多数是以有一定的结构的信息呈现,如表格,但是不同网站的表现形式却大相径庭.提出了以领域本体知识为指导,抽取表格信息表达为主的商品信息,以房产为例,自动集成不同网站的同类服务或产品的信息,用以实现专业检索的功能.  相似文献   

6.
对现有的信息抽取技术和XML技术加以研究,在此基础上提出了适合XML的通用的web信息抽取模型,它能够把Web上的数据抽取出来整合到指定模式的XML文档中去,最大限度地实现了Web信息的查询与共享.  相似文献   

7.
信息检索与信息抽取技术的研究   总被引:15,自引:1,他引:15  
在当今信息社会 ,人们对于信息获取的要求越来越高。特别是互联网的普及 ,可以很方便地从互联网上获取信息。然而目前的信息检索技术和信息抽取技术还远远不能满足人们的要求。首先介绍信息检索和信息抽取技术 ,然后分析两者的特点和不足 ,最后提出一个结合两者优势的信息获取模型  相似文献   

8.
提出了一种利用结点语义关系分析的新方法来优化自然语言信息抽取,以结点语义关系树和结点语义关系列表作为优先判断依据,在没有信息损失的前提下实现高效率的语义信息抽取。  相似文献   

9.
杨舟  卓林  赵朋朋  崔志明 《计算机工程》2010,36(23):262-265
提出一种针对电子商务网站商品列表页数据记录的自动抽取方法。该方法根据商品记录的特点,通过商品记录中商品的文本、图片以及布局等节点类型信息计算节点对应的值,依据节点值的相似度对节点进行分组,再从不同分组中过滤出包含数据记录节点的集合,从而抽取整个页面的数据记录。实验结果证明该方法有效且抽取效率较高。  相似文献   

10.
传统的信息集成虚拟方法通常采用Wrapper技术实现结构化异构数据的抽取。针对Wrapper与结构化异构数据源间一对一关系的非灵活性,提出了一种基于公共仓库元模型CWM(Common Warehouse Metamodel)的信息集成架构,利用CWM独立于任何具体实现的优势,在其基础上生成的Wrapper程序可以很好地适用于与之相关的所有结构化异构数据源的抽取。CWM元模型所提供的统一文档类型定义(DTD),使结构化异构数据源拥有了统一的XML表达方式,从而使抽取后的信息可以进行更有效的共享和转换。  相似文献   

11.
12.
史树敏  刘东升 《计算机科学》2006,33(B12):141-145
面对日益激增的信息量,人们迫切希望能够拥有快速、便捷获取有用信息的技术或方法。信息检索及稍晚发展起来的信息抽取技术应运而生。本文旨在介绍并分析比较信息抽取与信息检索技术各自的发展历程、相关研究方法等重要问题,为笔者及相关研究人员今后研究提供一项基础性调研报告。  相似文献   

13.
有效HTML文本信息抽取方法的研究*   总被引:4,自引:1,他引:4  
从新闻网页和博客网页中抽取出正文内容是一个非常有意义的研究问题,但是多数网页中含有大量与正文无关的噪声内容,导致很难从网页中获取正确的文本信息。分析了中文新闻与博客网页的正文特征,用实验表明了利用HTML与文本的密度比可以进行文本的识别与抽取。提出了机器学习、统计估计以及FDR三种HLML正文抽取方法,并作了大量的实验比较和分析。实验结果表明,该算法可以有效地过滤噪声而且算法的复杂度很低,效率与效果均达到一个很好的平衡。  相似文献   

14.
信息抽取研究综述   总被引:89,自引:8,他引:89  
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹———通过系统化、大规模的定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的有效性、快速NLP系统开发的必要性,都极大地推动了自然语言处理研究的发展,促进了NLP研究与应用的紧密结合。回顾信息抽取研究的历史,总结信息抽取研究的现状,将有助于这方面研究工作向前发展。  相似文献   

15.
针对目前BBS信息爬取时网页噪声严重的特点,研究BBS信息抽取的实现。应用ITTML Parser平台以及正则匹配技术,实现BBS信息的抽取、存储。设计建立了包含网页抽取模块、网页解析模块、数据库存储模块组成的信息抽取系统。实验结果表明,此方法能有效抽取BBS信息,减少网页噪声的干扰。  相似文献   

16.
随着互联网技术的快速发展,Web信息呈现爆炸性增长,人们发现用信息检索的方法不能及时的得到想要的信息,于是出现了信息抽取。在回顾Web信息抽取基本理论的基础上,该文对Web信息抽取技术进行较全面的综述,通过分析信息抽取的概念、信息抽取的类型和功能等进行介绍,以此有助于本研究继续向前发展。  相似文献   

17.
本文介绍利用分装器和簇技术,在没有人工干涉和不知道其数据源的情况下,对含有标记的网页进行分割和查找我们所关心的数据段,最后借用匹配索引技术来抽取感兴趣的数据,并存入到数据库中去。通过对二次搜索和二级数据挖掘的研究,我们可以在不知道数据源的情况下对数据搜索和抽取,从而提供个性化的信息。  相似文献   

18.
信息抽取是-种帮助人们在海量信息源中迅速找到真正需要的信息的技术.该文从信息抽取的概念出发,辨析了与信息检索两者的不同之处,评述了信息抽取技术的发展趋势,并提出了信息抽取存在的问题和解决策略.  相似文献   

19.
基于规则的HTML文档元数据提取   总被引:2,自引:0,他引:2  
狄涤  周竞扬  潘金贵 《计算机工程》2004,30(9):85-86,165
提出了一种基于规则提取HTML文档元数据的方法,介绍了规则的语法、语义和规则库的设计,研制了一个原型系统MEDES(MEtaData Extracting System),实现HTML文档元数据的自动提取。文章的最后给出了实验结果和评价,并指出进一步的工作。  相似文献   

20.
把Web数据并入数据仓库的研究   总被引:4,自引:1,他引:4  
因特网对大多数组织机构而言,都是最大的外部数据库。如何把Web数据集成并入组织机构的数据仓库为之所用,是一个有实际意义的新课题。介绍了Web集成(WebIntegration,WI)这种系统化的方法,使用它可把Web数据并入数据仓库从而改善组织机构的决策制定过程,并提出了WI面临的问题,展望了WI的未来。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号