首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
一种高效Web数据抽取包装器的设计与实现   总被引:1,自引:0,他引:1  
Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术.详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果.充分体现了此Web包装器的可行性、高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成.  相似文献   

2.
李贵  李征宇  陈韶刚  韩子扬  孙平  孙焕良 《计算机科学》2013,40(Z6):157-159,175
面向领域的Web数据挖掘包括领域Web数据抽取和领域Web数据集成。针对领域数据抽取,提出了Web结构数据模型和Web表模式,给出了Web表定位和数据记录抽取的算法,针对领域Web数据集成,提出了基于领域模型的数据集成算法。结合行业领域的实际需求,验证了模型和算法的有效性。  相似文献   

3.
提出一种基于SVM和AdaBoost的Web实体信息抽取方法。首先提出一种基于SVM的Web页面主数据区域识别方法,基于Web实体实例在页面中的展示特征,有效地将Web页面进行数据区域分割,识别出Web实体实例所在的主数据区域;然后基于Web实体属性标签的特征,提出一种基于AdaBoost的集成学习方法,从页面的主数据区域自动地抽取Web实体信息。在两个真实数据集上进行实验,并与相关研究工作进行比较,实验结果说明该方法能够取得良好的抽取效果。  相似文献   

4.
基于结果模式的Deep Web数据抽取   总被引:3,自引:0,他引:3  
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础.  相似文献   

5.
基于元数据的数据整合平台   总被引:2,自引:0,他引:2  
针对数据资源整合的共性问题,提出了一种基于元数据、结合Web服务与本体技术的数据资源共享与整合平台的实现框架(MDDI).重点讨论了基于JavaCC设计与实现的元数据自动抽取与转换工具,该工具把与各平台相关的元数据自动提取并转换为与平台无关的元数据,实现了基于元模型的元数据集成,为最终实现数据的共享和整合奠定了基础.  相似文献   

6.
XWIS中基于预定义模式的包装器   总被引:3,自引:0,他引:3  
目前,从HTML文档中有效的抽取数据是一个值得研究的问题。文中提出了一种基于预定义模式的方法来构造HTML包装器,并将它运用到XWIS(基于XML的Web信息查询系统)中。这种方法下,由用户定义模式并给出模式与HTML页面的映射关系,接着系统推导出规则同时生成包装器。  相似文献   

7.
李明  李秀兰 《计算机应用》2011,31(7):1733-1736
全面准确地标注Deep Web查询结果是Deep Web数据集成的关键问题,但现有的Web数据库标注方法还不能较好地解决该问题,为此提出一种基于结果模式的Deep Web数据标注方法。首先通过结果页面解析和抽取结构化数据来完成数据预处理的工作,并在集成结果模式和待标注数据之间建立正确的语义映射,进而确定Deep Web数据的标注信息。通过对4个领域Web数据库进行实验测试,结果表明所提方法能有效地标注Deep Web查询结果数据。  相似文献   

8.
为了从海量数据空间中快速、准确获取用户所需Web信息,设计并实现了一个基于分类本体的Web信息集成系统.设计了Web信息自动归类算法,研究了基于分类本体的异构分类体系集成方法,实现了异构分类体系的合并,形成逻辑统一的、基于分类的Web集成视图.通过Web数据抽取机制以及Web信息分类技术实现了检索结果的分类和层次化展示,方便用户浏览、快速定位所需信息.  相似文献   

9.
一种基于未知结构网页抽取本体的方法   总被引:1,自引:1,他引:0  
强宇  胡运发 《计算机科学》2009,36(2):186-189
在Web上数据大多是结构化的,但事先并不熟知数据的结构,因此不能有效地查询感兴趣的数据.提出了一种独立于文本抽取本体的方法,其过程包括表的理解、数据集成和本体生成,其中表理解是搜寻定位兴趣表、识别及匹配属性和值,并形成记录;数据集成是匹配源记录和目标模式;本体卷积是将源记录的数据抽取到目标模式.结果表明这种方法可以通过已知的目标模式有效地抽取未知结构的数据.  相似文献   

10.
精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例分析发现,新闻网页内容与其上的标签路径存在潜在的关联性.因此,设计了标签路径特征系,以从不同视角区分网页内容和噪音.在特征相似性分析的基础上,提出了一种基于组合特征选择的特征融合策略,并设计了基于融合特征的Web新闻内容抽取方法CEPF.CEPF是一种快速的通用、无需训练的在线Web新闻内容抽取算法,可抽取多种来源、多种风格、多种语言的Web新闻网页.在CleanEval等测试数据集上的实验结果表明,CEPF方法优于CETR等抽取方法.  相似文献   

11.
一种基于XML的数据集成系统及实现   总被引:15,自引:0,他引:15  
使用DBMS管理半结构数据具有这样一个优点,即可以较容易地从异构数据源或WWW上集成信息,而且其转换代价较低,文中就与半结构数据集成有关的问题,如半结构数据集成系统的体系结构等问题进入深入的分析和研究,并在此基础上实现了一种基于XML的数据源集成的Wrapper原型系统。  相似文献   

12.
Web包装器将网页内容转换为XML格式,用于系统集成。进行XML转换的XSLT技术能较好地支持包装器的信息抽取和组织。本文从包含查询接口、结果模式和映射规则的包装器描述文件(XML)出发,给出了自动生成可执行代码的技术方案。包装器的执行及其生成过程完全基于XSLT技术,系统具有较强的可移植性。提出“元数据对齐”方法进行内
容辅助定位,提高了对页面变化的容忍度。原型系统的实现验证了以上技术的可行性。  相似文献   

13.
Web信息的自主抽取方法   总被引:12,自引:0,他引:12  
许建潮  侯锟 《计算机工程与应用》2005,41(14):185-189,198
提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取。对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值。采用自学习的方法以适应网页信息的动态变化。  相似文献   

14.
Building intelligent Web applications using lightweight wrappers   总被引:20,自引:0,他引:20  
The Web so far has been incredibly successful at delivering information to human users. So successful actually, that there is now an urgent need to go beyond a browsing human. Unfortunately, the Web is not yet a well organized repository of nicely structured documents but rather a conglomerate of volatile HTML pages.

To address this problem, we present the World Wide Web Wrapper Factory (W4F), a toolkit for the generation of wrappers for Web sources, that offers: (1) an expressive language to specify the extraction of complex structures from HTML pages; (2) a declarative mapping to various data formats like XML; (3) some visual tools to make the engineering of wrappers faster and easier.  相似文献   


15.
基于HTML和XML的信息提取方法研究   总被引:2,自引:0,他引:2  
陈红叶 《微机发展》2003,13(Z2):54-55
Web作为巨大的数据源,从Web中提取知识是当前信息研究的热点之一。主要研究针对HTML和XML页面如何生成Wrapper程序以便能够自动地从特定网页中提取有用信息,并成为将来进行Web挖掘的基础。  相似文献   

16.
赵赛  陈松乔  邓莎莎 《微机发展》2006,16(6):242-244
在基于Web数据集成的3点研究假设的前提下,探讨了基于规则树的包装器(Wrapper)生成模型。它包括预处理、生成HTML树、生成模式树、获取映射规则、生成规则树、修复规则树和执行Wrapper。详细介绍了该系统中映射规则的实现和规则树生成算法。通过实验测试,证明该方法适合Web数据的抽取。  相似文献   

17.
鄢沛  郭皎  应宏 《微机发展》2007,17(12):96-98
异构环境的信息提取技术在企业应用集成中有着很大的作用。介绍了.NET环境的多线程程序设计技术,分析了多线程信息提取框架的需求,提出了基于Mediator/Wrapper的多线程信息提取框架的架构模型,详细阐述了该框架的设计与实现,并分析了.NET中的线程中止方法Abort()的缺陷和改进方法。该框架的可以应用在很多领域,它的优点体现在性能、持续反馈和坚持最大响应时间上。  相似文献   

18.
数据仓库方法和虚拟方法是建立Web信息集成系统的两种基本方法,本文结合这两种方法的优点,以Wrapper/Mediator结构为基础,在用户和协调器之间增加一个数据缓存Cache,并由此提出一种Wrapper/Mediator/Cache体系结构.通过实验的验证,这种新的体系结构在解决异地数据源规模比较大、数据更新不是很频繁、但查询效率要求比较高的情况下建立信息集成系统的问题上,显示出较为明显的优势.  相似文献   

19.
文章从分析一个实例出发,采用标记索引集的方法建立了一种Web信息提取的形式化模型。该模型是构建包装器的基础,它对于表格化Web信息具有普遍的适应性。  相似文献   

20.
针对军械保障领域内不同信息系统之间的异构问题和元数据的特点,提出了基于元数据的WebService资源共享解决方案.设计了一种SXML统一中间信息格式,作为信息交换调用的桥梁,将JDBC和JDOM应用于信息包装器和信息解析器的设计,实现了异构信息的交换.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号