共查询到20条相似文献,搜索用时 109 毫秒
1.
一种高效Web数据抽取包装器的设计与实现 总被引:1,自引:0,他引:1
Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术.详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果.充分体现了此Web包装器的可行性、高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成. 相似文献
2.
3.
《计算机应用与软件》2013,(4)
提出一种基于SVM和AdaBoost的Web实体信息抽取方法。首先提出一种基于SVM的Web页面主数据区域识别方法,基于Web实体实例在页面中的展示特征,有效地将Web页面进行数据区域分割,识别出Web实体实例所在的主数据区域;然后基于Web实体属性标签的特征,提出一种基于AdaBoost的集成学习方法,从页面的主数据区域自动地抽取Web实体信息。在两个真实数据集上进行实验,并与相关研究工作进行比较,实验结果说明该方法能够取得良好的抽取效果。 相似文献
4.
基于结果模式的Deep Web数据抽取 总被引:3,自引:0,他引:3
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础. 相似文献
5.
6.
7.
全面准确地标注Deep Web查询结果是Deep Web数据集成的关键问题,但现有的Web数据库标注方法还不能较好地解决该问题,为此提出一种基于结果模式的Deep Web数据标注方法。首先通过结果页面解析和抽取结构化数据来完成数据预处理的工作,并在集成结果模式和待标注数据之间建立正确的语义映射,进而确定Deep Web数据的标注信息。通过对4个领域Web数据库进行实验测试,结果表明所提方法能有效地标注Deep Web查询结果数据。 相似文献
8.
为了从海量数据空间中快速、准确获取用户所需Web信息,设计并实现了一个基于分类本体的Web信息集成系统.设计了Web信息自动归类算法,研究了基于分类本体的异构分类体系集成方法,实现了异构分类体系的合并,形成逻辑统一的、基于分类的Web集成视图.通过Web数据抽取机制以及Web信息分类技术实现了检索结果的分类和层次化展示,方便用户浏览、快速定位所需信息. 相似文献
9.
一种基于未知结构网页抽取本体的方法 总被引:1,自引:1,他引:0
在Web上数据大多是结构化的,但事先并不熟知数据的结构,因此不能有效地查询感兴趣的数据.提出了一种独立于文本抽取本体的方法,其过程包括表的理解、数据集成和本体生成,其中表理解是搜寻定位兴趣表、识别及匹配属性和值,并形成记录;数据集成是匹配源记录和目标模式;本体卷积是将源记录的数据抽取到目标模式.结果表明这种方法可以通过已知的目标模式有效地抽取未知结构的数据. 相似文献
10.
精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例分析发现,新闻网页内容与其上的标签路径存在潜在的关联性.因此,设计了标签路径特征系,以从不同视角区分网页内容和噪音.在特征相似性分析的基础上,提出了一种基于组合特征选择的特征融合策略,并设计了基于融合特征的Web新闻内容抽取方法CEPF.CEPF是一种快速的通用、无需训练的在线Web新闻内容抽取算法,可抽取多种来源、多种风格、多种语言的Web新闻网页.在CleanEval等测试数据集上的实验结果表明,CEPF方法优于CETR等抽取方法. 相似文献
11.
一种基于XML的数据集成系统及实现 总被引:15,自引:0,他引:15
使用DBMS管理半结构数据具有这样一个优点,即可以较容易地从异构数据源或WWW上集成信息,而且其转换代价较低,文中就与半结构数据集成有关的问题,如半结构数据集成系统的体系结构等问题进入深入的分析和研究,并在此基础上实现了一种基于XML的数据源集成的Wrapper原型系统。 相似文献
12.
Web包装器将网页内容转换为XML格式,用于系统集成。进行XML转换的XSLT技术能较好地支持包装器的信息抽取和组织。本文从包含查询接口、结果模式和映射规则的包装器描述文件(XML)出发,给出了自动生成可执行代码的技术方案。包装器的执行及其生成过程完全基于XSLT技术,系统具有较强的可移植性。提出“元数据对齐”方法进行内
容辅助定位,提高了对页面变化的容忍度。原型系统的实现验证了以上技术的可行性。 相似文献
容辅助定位,提高了对页面变化的容忍度。原型系统的实现验证了以上技术的可行性。 相似文献
13.
Web信息的自主抽取方法 总被引:12,自引:0,他引:12
提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取。对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值。采用自学习的方法以适应网页信息的动态变化。 相似文献
14.
Building intelligent Web applications using lightweight wrappers 总被引:20,自引:0,他引:20
The Web so far has been incredibly successful at delivering information to human users. So successful actually, that there is now an urgent need to go beyond a browsing human. Unfortunately, the Web is not yet a well organized repository of nicely structured documents but rather a conglomerate of volatile HTML pages.
To address this problem, we present the World Wide Web Wrapper Factory (W4F), a toolkit for the generation of wrappers for Web sources, that offers: (1) an expressive language to specify the extraction of complex structures from HTML pages; (2) a declarative mapping to various data formats like XML; (3) some visual tools to make the engineering of wrappers faster and easier. 相似文献
15.
基于HTML和XML的信息提取方法研究 总被引:2,自引:0,他引:2
Web作为巨大的数据源,从Web中提取知识是当前信息研究的热点之一。主要研究针对HTML和XML页面如何生成Wrapper程序以便能够自动地从特定网页中提取有用信息,并成为将来进行Web挖掘的基础。 相似文献
16.
17.
18.
数据仓库方法和虚拟方法是建立Web信息集成系统的两种基本方法,本文结合这两种方法的优点,以Wrapper/Mediator结构为基础,在用户和协调器之间增加一个数据缓存Cache,并由此提出一种Wrapper/Mediator/Cache体系结构.通过实验的验证,这种新的体系结构在解决异地数据源规模比较大、数据更新不是很频繁、但查询效率要求比较高的情况下建立信息集成系统的问题上,显示出较为明显的优势. 相似文献
19.