首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
张鑫  陈梅  王翰虎  王嫣然 《微机发展》2011,(2):58-61,65
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法。该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web页面中信息项的抽取路径。通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则。使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点。  相似文献   

2.
本文分析了目前Web数据抽取主流技术,针对领域网站上文本信息采用MDR算法进行抽取,阐述了网页抽取的工作流程,并通过引入文本分类算法提高了网页抽取的查准率.  相似文献   

3.
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法.该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web贞面中信息项的抽取路径.通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则.使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点.  相似文献   

4.
大规模Web信息抽取需要准确、自动地从众多相关网站上抽取Web数据对象.现有的Web信息抽取方法主要针对单个网站进行处理,无法适应大规模Web信息抽取的需要.调查研究表明,有效地实现Web数据语义自动标注,结合现有的包装器生成技术,可以满足大规模Web信息抽取的要求.文中提出一种基于集成学习和二维关联边条件随机场的Web数据语义自动标注方法,首先,利用已抽取的信息和目标网站训练页面中呈现的特征构造多个分类器,使用Dempster合成法则合并分类器结果,区分训练页面中的属性标签和数据元素;然后,利用二维关联边条件随机场模型对Web数据元素间的长距离依赖联系和短距离依赖联系进行建模,实现数据元素的自动语义标注.通过在多个领域真实数据集上的实验结果表明,所提出的方法可以高效地解决Web数据语义自动标注问题,满足大规模Web信息抽取的需要.  相似文献   

5.
本文介绍了在建设出入境人员健康状况实时监测网络采用的基于Web Services的全相联异构数据集成方案,该方案利用Web Services的跨平台等特点,综合了数据仓库和虚拟数据库在异构数据集成中的优点,通过设计领域字典表及字段、量纲等映射表,有效地解决了异构数据集成中的环境异构和数据异构等问题,并从异构数据转化、全局查询等方面阐述了该方案的实现过程。实践表明,该方案对了分布式异构数据的共享问题解决具有可行性和高效性。  相似文献   

6.
基于结果模式的Deep Web数据抽取   总被引:3,自引:0,他引:3  
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础.  相似文献   

7.
Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术.针对网页结构的不确定性和易变性,详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果.充分体现了此Web包装器的可行性,并具有一定的高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成.  相似文献   

8.
一种基于XML的Web数据集成方案   总被引:2,自引:2,他引:2  
冯少荣 《计算机工程与设计》2004,25(12):2318-2320,2345
介绍了Web环境下异构数据集成技术产生的背景和研究目的以及相关的概念、技术和方法,针对XML作为合适的数据交换格式的特点介绍了基于XML的信息集成的关键因素,提出了一种基于XML的Web数据集成操作模型,并讨论了该模型在Web数据集成时数据交换和共享过程,给出了集成构架的结构及组成。  相似文献   

9.
Deep Web集成中数据模式映射失效检测方法研究   总被引:1,自引:1,他引:0  
查询接口集成是Deep Web数据集成的关键,在动态环境下,Web数据源的变化会引起数据模式映射的失效,使得查询接口集成维护难度增加,因此数据模式映射失效检测是Deep Web数据集成研究中的热点问题.针对目前数据模式映射失效检测方法的局限,在模糊聚集算子的研究基础上,提出一种适用于数据模式映射失效检测的结果融合算法.通过实验对比测试,并对映射失效检测方法的性能和效率进行了分析和实验,结果证明了提出的方法对于失效模型的检测是有效的.  相似文献   

10.
Web数据语义标注是Web信息抽取中的关键步骤.条件随机场是利用序列特征处理序列标注问题的经典方法.然而现有条件随机场模型无法综合利用已有的Web数据库信息和Web数据元素之间的逻辑关系,导致Web数据语义标注准确率不高.因此,提出一种约束条件随机场模型(CCRF).该模型通过引入可信约束和逻辑约束,有效利用了已有的Web数据库信息和Web数据元素之间的逻辑关系.为了克服现有条件随机场模型Viterbi推理方法无法综合利用这2类约束的不足,该模型采用整数线性规划推理方法,将两类约束同时引入推理过程.通过在多个领域的真实数据集上的实验结果表明,所提出的模型能够显著提高Web数据语义标注的性能,并且为Web信息抽取奠定了良好的基础.  相似文献   

11.
基于构件和面向服务体系结构(SOA)的软件工程被认为是提高大规模的分布式软件开发效率和质量的有效途径.但是,SOA目前还停留在抽象的高层概念模型层面上,还没有一个实用、具体的应用参考模型.介绍了一种基于Web服务软件体系结构的领域系统构造过程.在此基础上,提出了一种面向Web服务的领域软件体系结构参考模型(WS-DSARD),对其主要元元素角色、操作、服务构件和服务构件类等进行了较为详细的描述,并从服务构件交互与集成的角度分析了服务构件的组合语义.该研究对于面向服务领域软件开发活动的成功实施具有一定的指导作用.  相似文献   

12.
Deep Web自动分类是建立深网数据集成系统的前提和基础。提出了一种基于领域特征文本的Deep Web分类方法。首先借助本体知识对表达同一语义的不同词汇进行了概念抽象,进而给出了领域相关度的定义,并将其作为特征文本选择的量化标准,避免了人为选取的主观性和不确定性;在接口向量模型构建中,考虑了不同特征文本对于分类作用的差异,提出了一种改进的W-TFIDF权重计算方法;最后采用KNN算法对接口向量进行了分类。对比实验证明,利用所提方法选择的特征文本是准确有效的,新的特征文本权重计算方法能显著地提高分类精度,且在KNN算法中表现出较好的稳定性。  相似文献   

13.
优化组合在现代物流服务中占据着重要的地位。现阶段的物流Web服务组合研究多侧重于Web服务通用的QoS指标评价,难以满足特定领域的服务选择需求,并且多集中于经济学、管理学方面,缺乏服务计算技术的支撑。针对上述问题,从服务组合的角度通过领域QoS感知的方法构建了领域QoS评价模型来研究物流服务商的选择、进化以及最终的优化组合,然后运用Dijkstra算法计算出组合方案的最短路径,即组合服务的QoS值,从而获得领域QoS感知的物流Web服务较优化的组合方案,并预测领域QoS感知的服务组合,这对现代物流业的发展具有一定的理论和现实意义。  相似文献   

14.
以GB/T16260质量模型为基础,提出一种面向领域的软件质量评价方法。首先,依据GB/T16260和针对领域软件质量评价的需求,建立一个通用模型;然后,在领域分析的基础上,生成反映领域特色的特性和子特性,并抽取GB-T16260质量模型中适用于目标领域的特性、子特性及属性,生成目标领域质量评价模型。最后,以该方法建立信贷领域质量评价模型并评价三款信贷软件系统,验证了该方法的可行性。  相似文献   

15.
Web数据库系统物理模型的优化策略   总被引:4,自引:1,他引:4  
简要探讨了关系型数据库规范化的设计规范,提出了Web环境下关系型数据库物理建模的优化策略是:在保证数据完整性的基础上,物理建模的设计应该使得Web程序编码实现方便,同时避免因设计不合理导致数据库服务器性能的降低。  相似文献   

16.
基于域分析的软件体系结构研究   总被引:5,自引:0,他引:5  
彭宏  王锦  张激 《计算机工程》2002,28(2):120-122,139
以提高软件RRS特性为目的,提出了建立基于域分析的软件体系结构的观点,在此观点的基础上,对域分析进行了全面的研究,其中包括:定义域分析基本概念,建立完整的域模型,讨论域模型组成之间以及域模型与软件体系结构的相互关系等。最后指出域分析是软件体系结构的基础和前提,并为软件体系结构建立创造良好的工作环境。  相似文献   

17.
MVC模式在分布式环境下的应用研究   总被引:13,自引:0,他引:13       下载免费PDF全文
陈乐  杨小虎 《计算机工程》2006,32(19):62-64
随着分布式技术的发展,MVC的含义和用途变得更加广泛,不仅可以用于组件的构造,也可用于分布式程序的设计。文章介绍了传统的MVC模式,分析了在分布式环境下如何合理、有效地应用MVC模式,并在此基础上结合Web Services和消息中间件技术,提出了一个分布式MVC模式的实现框架。该框架可以帮助创建结构良好、松散耦合的分布式应用。  相似文献   

18.
本文在分析Web数据挖掘相关理论基础上,深入探讨XML在Web数据挖掘中应用问题,利用XML和Web数据挖掘技术的结合点,提出建立基于XML的Web文本数据挖掘模型,为如何从大量的Web资源中获得有价值的知识提供了一种可行的解决方案。  相似文献   

19.
Deep Web蕴涵丰富的分类信息,是融合型在线旅游业务良好的数据源。本文对Deep Web接口模式进行分析,提出了接口集成方案的流程和领域实例库的建模方法,并就酒店查询业务进行了对方案的评估。测试结果显示,在对接口页面一定积累的基础上,可以达到较高的模式匹配准确率,从而保证了Deep Web接口的正确的自动查询。  相似文献   

20.
基于XML的Web数据挖掘关键技术的研究   总被引:8,自引:0,他引:8       下载免费PDF全文
由于存在着大量的在线信息,WWW成为数据挖掘的热点。该文介绍了Web网页的数据挖掘技术,提出一种基于XML的Web数据挖掘模型,阐述将半结构化HTML文档转换成良构的XML文档的原因,并给出基于HTML Tide库的转换代码,介绍了利用XML技术从Web网页析取数据的关键技术,包括XHTML、XSLT和XQuery等,对Web数据挖掘的其他方面如数据检验和集成作了一定的探讨。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号