共查询到20条相似文献,搜索用时 15 毫秒
1.
为了有效解决这种异构信息源的集成问题,将整个网络信息集成过程划分为三个阶段:数据抽取、数据集成和数据输出。在数据抽取阶段,研究关系数据库的模式抽取问题,解决从大量动态变化的HTML数据源中精确、快速地寻找有效信息的数据抽取问题。 相似文献
2.
提出了一种基于KPS的Web信息抽取方法,它结合了基于K(Keywords)、P(Patterms)和(Samples)抽取方法的优点,能够更加有效地抽取Web信息。 相似文献
3.
在现有的相关研究的基础上,提出一个基于KPS的Web信息抽取的多Agent系统(MAS)模型.基于KPS的Web信息抽取方法集合了分别基于关键字、模式和样本的信息抽取技术的优点,有利于满足抽取高精度、高复杂度和高性能信息的要求.一个多Agent系统(MAS)可以把问题由大化小,由复杂变简单,每个Agent完成一个小目标,Agent间通过协调和合作,共同完成复杂的Web信息处理.而将基于KPS的Web信息抽取方法与多Agent系统进行有机的结合,可以大大降低Web信息抽取的难度,提高信息抽取的精度,从而更大地满足用户的需求. 相似文献
4.
标题是描述一个HTML文档主题的重要信息,但常常不能被准确指明。本文通过对过去标题抽取方法优缺点的总结和进一步分析,提出了通过机器学习策略进行标题抽取的方法。我们将HTML格式及DOM树结构等信息引入了机器学习标题抽取过程中,并通过实验验证了我们提出方法的可行性。 相似文献
5.
信息在网络上传播具有高时效,低成本等特性,因而越来越多的企业和个人都选择在网上发布商品信息,例如汽车、房产等信息.这些内容多数是以有一定的结构的信息呈现,如表格,但是不同网站的表现形式却大相径庭.提出了以领域本体知识为指导,抽取表格信息表达为主的商品信息,以房产为例,自动集成不同网站的同类服务或产品的信息,用以实现专业检索的功能. 相似文献
6.
对现有的信息抽取技术和XML技术加以研究,在此基础上提出了适合XML的通用的web信息抽取模型,它能够把Web上的数据抽取出来整合到指定模式的XML文档中去,最大限度地实现了Web信息的查询与共享. 相似文献
7.
8.
9.
10.
传统的信息集成虚拟方法通常采用Wrapper技术实现结构化异构数据的抽取。针对Wrapper与结构化异构数据源间一对一关系的非灵活性,提出了一种基于公共仓库元模型CWM(Common Warehouse Metamodel)的信息集成架构,利用CWM独立于任何具体实现的优势,在其基础上生成的Wrapper程序可以很好地适用于与之相关的所有结构化异构数据源的抽取。CWM元模型所提供的统一文档类型定义(DTD),使结构化异构数据源拥有了统一的XML表达方式,从而使抽取后的信息可以进行更有效的共享和转换。 相似文献
12.
面对日益激增的信息量,人们迫切希望能够拥有快速、便捷获取有用信息的技术或方法。信息检索及稍晚发展起来的信息抽取技术应运而生。本文旨在介绍并分析比较信息抽取与信息检索技术各自的发展历程、相关研究方法等重要问题,为笔者及相关研究人员今后研究提供一项基础性调研报告。 相似文献
13.
14.
15.
针对目前BBS信息爬取时网页噪声严重的特点,研究BBS信息抽取的实现。应用ITTML Parser平台以及正则匹配技术,实现BBS信息的抽取、存储。设计建立了包含网页抽取模块、网页解析模块、数据库存储模块组成的信息抽取系统。实验结果表明,此方法能有效抽取BBS信息,减少网页噪声的干扰。 相似文献
16.
随着互联网技术的快速发展,Web信息呈现爆炸性增长,人们发现用信息检索的方法不能及时的得到想要的信息,于是出现了信息抽取。在回顾Web信息抽取基本理论的基础上,该文对Web信息抽取技术进行较全面的综述,通过分析信息抽取的概念、信息抽取的类型和功能等进行介绍,以此有助于本研究继续向前发展。 相似文献
17.
本文介绍利用分装器和簇技术,在没有人工干涉和不知道其数据源的情况下,对含有标记的网页进行分割和查找我们所关心的数据段,最后借用匹配索引技术来抽取感兴趣的数据,并存入到数据库中去。通过对二次搜索和二级数据挖掘的研究,我们可以在不知道数据源的情况下对数据搜索和抽取,从而提供个性化的信息。 相似文献
18.
沈杰 《计算机光盘软件与应用》2011,(8)
信息抽取是-种帮助人们在海量信息源中迅速找到真正需要的信息的技术.该文从信息抽取的概念出发,辨析了与信息检索两者的不同之处,评述了信息抽取技术的发展趋势,并提出了信息抽取存在的问题和解决策略. 相似文献
19.
20.
把Web数据并入数据仓库的研究 总被引:4,自引:1,他引:4
因特网对大多数组织机构而言,都是最大的外部数据库。如何把Web数据集成并入组织机构的数据仓库为之所用,是一个有实际意义的新课题。介绍了Web集成(WebIntegration,WI)这种系统化的方法,使用它可把Web数据并入数据仓库从而改善组织机构的决策制定过程,并提出了WI面临的问题,展望了WI的未来。 相似文献