首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
针对传统Web数据集成系统实用性、伸缩性和适应性差的问题,提出了一种新的Web数据集成系统体系结构UQSIQ,实现Web规模的数据集成.系统根据用户查询的模式映射相关领域,选择Web数据库,执行查询排序查询结果.介绍了组成系统的关键组件,及领域映射和用户模式匹配等处理大规模异构Web数据的关键技术.  相似文献   

2.
近年来,随着Web上在线数据库的大量涌现,Deep Web数据集成(即Web数据库集成)成为当前信息领域的一个研究热点.查询转换是其中的核心部分,它主要负责将集成接口上的查询转换到相关Web数据库的接口上.由于Web数据库具有异构性和自治性的特点, 各查询接口上的属性名、数据格式以及查询能力都不尽相同,因此相当一部分查询不能进行精确转换,那么选择何种策略进行近似查询转换是一个很具有挑战性的工作.对这一问题进行了深入探讨,提出了基于最小超集的近似查询转换方法.实验结果表明,该方法在Deep Web数据集成中可以有效地提高返回结果的准确性.  相似文献   

3.
传统Deep Web数据集成研究侧重满足用户的即时查询需求,对数据分析应用缺乏充分支持,提出一个面向分析的Deep Web数据集成系统DWDIS,能够在较少人工参与下对大量Web数据库进行高质量数据获取、抽取和整合,为分析型应用提供优质全面的结构化数据.DWDIS支持领域模型的自动演化;通过自动识别和理解查询接口,采用查询词采新率模型以较小代价最大限度地获取Deep Web页面;充分利用集成系统已有数据中隐含的数据特征,对Deep Web页面进行有效页面抽取和语义标注;结合Web数据源特征,使用机器学习方法对来自大量Web数据库的数据实现高准确率的重复记录检测和数据融合.  相似文献   

4.
基于多标注源的Deep Web查询结果自动标注   总被引:1,自引:1,他引:1  
Deep Web查询结果的语义标注,是Deep Web数据集成的关键问题之一。提出基于多标注源的Deep Web查询结果自动标注框架,根据不同的特征设计多个标注器。基于搜索引擎的标注器,扩展AI领域常用的问答技术,构造验证查询并提交到搜索引擎,利用返回结果选择最合适的词汇用于标注,有效提高了标注的查准率和查全率。多个领域Web数据库的测试证明了该方法的有效性。  相似文献   

5.
集成Web 数据的系统框架与实现方法   总被引:5,自引:0,他引:5  
基于我们正在研究和开发的项目Panorama,本文提出了一个基于XML和CORBA的Web数据集成系统框架,该框架可以集成来自Web上多个异构的数据源,包括关系数据库、面向对象数据库,HTML和XML文档及结构化文本文件。在系统实现中,把Web看作是一个巨大的虚拟数据库,以CORBA作为分布式对象模型,以XML作为公共誓据模型,并且以XML-QL作为全局查询语言来完成Web上的数据查询和集成。文中还详细分析和描述了系统框架中的一些主要模块的实现方法,具有很好的可操作性。  相似文献   

6.
Web数据集成系统基于QC模型的物化视图选择   总被引:2,自引:0,他引:2  
在Web数据集成系统中,物化视图能够有效地减少网络传输代价,提高系统的查询效率.如何选择查询进行物化,使得选中的查询满足集成层的空间限制,同时获取最大物化收益,成为集成系统中一个迫切需要解决的问题.传统方法没有考虑到海量XML查询之间的包含关系,其选择的物化视图中可能包含冗余的信息.针对上述问题,提出了①Web数据集成系统中海量查询集合的QC(query containment)模型,该模型能够捕捉查询之间最常见的包含关系;②基于QC模型的物化视图选择算法,算法考虑了物化视图选择相关的主要因素,包括查询提交的频率、空间代价、查询重写能力和查询结果的完备性,提出了查询位图的物化视图组织方式,从而获取更加合理的物化视图选择方案.实验结果证明了该方法的有效性.  相似文献   

7.
随着越来越多的信息隐藏在Deep Web中,针对用户查询找出最相关的Web数据库成为亟待解决的问题。提出了一种基于Web数据库主题分布的方法用于Deep Web数据集成中的Web数据库选择。获取主题覆盖度形式的Web数据库内容描述,而后利用选定的Web数据库获取查询主题,最终由查询主题和主题分布矩阵来选择Web数据库。在真实Web数据库上的实验结果表明,该方法既取得了较高的查询召回率,也可有效降低数据库内容描述建立的代价。  相似文献   

8.
结合用户相关反馈的超平面查询在基于内容的图像检索中面临数据不平衡等问题,即对于给定的查询,图像数据库中负样例(与查询无关的图像)数目往往远大于正样例,使得传统的用户相关反馈技术难以获得足够的相关图像,影响了超平面查询的性能.提出一种新的基于支持向量机的Web图像检索的主动学习策略,根据Web图像的URL、视觉特征来估计图像与查询样本的相关性,用潜在的正样例图像来弥补图像数据的不平衡性,并且提出了对SVM返回结果的重新排序方法.对10000多幅来自50多个不同网站的Web图像数据进行了实验.实验结果显示,与传统的方法相比,该方法对检索性能有明显的提高.  相似文献   

9.
基于搜索引擎的Deep Web数据源发现技术   总被引:1,自引:0,他引:1  
随着Web数据库的广泛应用,Web正在不断"深化".传统搜索引擎只能检索浅层网络,却不能直接索引到深层网络(Deep Web)的资源.为了有效地利用Deep Web资源,必须要对Deep Web数据进行大规模集成.其中,数据源发现是整合DeepWeb资源的首要工作,能否高效地发现DeepWeb站点是DeepWeb数据获取的关键.提出了一种基于传统搜索引擎的Deep Web数据源发现方法,该方法通过分析返回结果来扩展查询,从而进一步提高了数据源发现的效率.实验证明该方法能得到较好的结果.  相似文献   

10.
一种基于图模型的Web数据库采样方法   总被引:5,自引:0,他引:5  
刘伟  孟小峰  凌妍妍 《软件学报》2008,19(2):179-193
Web数据库中,海量的信息隐藏在具有特定查询能力的查询接口后面,使人无法了解一个Web数据库内容的特征,比如主题的分布、更新的频率等,这就为DeepWeb数据集成带来了巨大的挑战.为了解决这个问题,提出了一种基于图模型的Web数据库采样方法,可以通过查询接口从Web数据库中以增量的方式获取近似随机的样本,即每次查询获取一定数量的样本记录,并且利用已经保存在本地的样本记录生成下一次的查询.该方法的一个重要特点是不受查询接口中属性表现形式的局限,因此是一种一般的Web数据库采样方法.在本地的模拟实验和真实Web数据库上的大量实验表明,该方法可以在较小代价下获得高质量的样本.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号