首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
Deep Web中的海量信息只能通过查询接口访问获得,为了能够同时访问同一领域多个Web数据库,需要对多个Web数据库的查询接口进行集成.因此,引入本体技术,提出基于本体的Deep Web查询接口集成方法.Deep Web查询接口集成主要完成两个方面的工作:模式匹配与模式融合.模式匹配采用本体的"Bridge(桥接)"效应建立不同接口模式间的属性映射关系,以准确发现不同接口属性间的语义关联.模式融合根据模式匹配的结果,合并DeepWeb数据库查询接口集合中表示同一语义的属性,并尽可能地保持该领域查询接口的结构特征和属性顺序,以获得集成查询接口.通过实验分析,基于本体的DeepWeb查询接口集成方法不仅简化了模式匹配的复杂过程,而且很大程度上提高了模式集成的精度.因此,基于本体的Deep Web查询接口集成方法是高效可行的.  相似文献   

2.
李明  李秀兰 《计算机应用》2011,31(7):1733-1736
全面准确地标注Deep Web查询结果是Deep Web数据集成的关键问题,但现有的Web数据库标注方法还不能较好地解决该问题,为此提出一种基于结果模式的Deep Web数据标注方法。首先通过结果页面解析和抽取结构化数据来完成数据预处理的工作,并在集成结果模式和待标注数据之间建立正确的语义映射,进而确定Deep Web数据的标注信息。通过对4个领域Web数据库进行实验测试,结果表明所提方法能有效地标注Deep Web查询结果数据。  相似文献   

3.
Deep Web中蕴含着丰富的高质量的信息,通过Deep Web集成查询接口可以获取到包含这些信息的结果页面,因此,Deep Web查询结果页面的数据抽取成为Deep Web数据集成的关键。提出了将索引方法和编辑相似度相结合的方法,来完成Deep Web查询结果页面的数据抽取工作。大量实验结果表明:该方法是可行的,并且能够提高Deep Web数据实体抽取的准确性和召回率。  相似文献   

4.
Deep Web集成服务的不确定模式匹配   总被引:5,自引:0,他引:5  
随着Deep Web的迅猛发展,从高度自治、异构及动态变化的Web数据库中,为用户提供高质量的数据逐渐成为当前Deep Web集成服务的一个研究热点.在大部分Web数据库只能通过查询接口为用户提供服务的前提下,如何建立用户请求与集成查询接口模式之间以及集成查询接口模式与Web数据库查询接口模式之间的匹配关系,是Deep Web集成服务中进行合理的用户请求转换的关键.之前的相关工作都是寻找最佳的匹配结果,回避匹配的不确定性,丢弃了可能有价值的其他匹配结果.文中首先剖析了请求转换中模式匹配的不确定性,提出了数字类型的相似度计算方法,给出了进行数字类型的模式匹配的有效的剪枝方法以及数据类型驱动的模式匹配优化方法,并在此基础上提出了一种基于相似度计算的不确定性模式匹配方法,最后通过大量的实验证明了该方法的有效性.  相似文献   

5.
近年来,随着Web上在线数据库的大量涌现,Deep Web数据集成(即Web数据库集成)成为当前信息领域的一个研究热点.查询转换是其中的核心部分,它主要负责将集成接口上的查询转换到相关Web数据库的接口上.由于Web数据库具有异构性和自治性的特点, 各查询接口上的属性名、数据格式以及查询能力都不尽相同,因此相当一部分查询不能进行精确转换,那么选择何种策略进行近似查询转换是一个很具有挑战性的工作.对这一问题进行了深入探讨,提出了基于最小超集的近似查询转换方法.实验结果表明,该方法在Deep Web数据集成中可以有效地提高返回结果的准确性.  相似文献   

6.
强保华  李巍  邹显春  汪天天  吴春明 《计算机科学》2013,40(11):228-230,247
集成查询接口的生成是Deep Web数据集成的重要组成环节。如何对不同领域的查询接口进行有效的聚类是生成集成查询接口时需要解决的核心问题之一。针对传统的向量空间模型在Deep Web查询接口聚类时单纯依赖关键词匹配的缺点,引入潜在语义分析(LSA)的方法来发掘查询接口之间的语义关系,并给出了基于潜在语义分析的Deep Web查询接口聚类算法,最后采用UIUC的Web集成资源库提供的数据进行了实验。结果表明,潜在语义分析的方法提高了同一领域查询接口之间的相似度,明显改善了Deep Web查询接口聚类的质量。  相似文献   

7.
Deep Web中,查询接口属性的抽取是Deep Web数据集成中必不可少的一个环节。本文通过将接口属性中文文本翻译成为汉语拼音和英文,利用N-Gram方法完成中文查询接口中属性的抽取。经过多个领域的查询接口的实验,证明该方法能有效地抽取出查询接口的属性。  相似文献   

8.
Deep Web蕴涵丰富的分类信息,是融合型在线旅游业务良好的数据源。本文对Deep Web接口模式进行分析,提出了接口集成方案的流程和领域实例库的建模方法,并就酒店查询业务进行了对方案的评估。测试结果显示,在对接口页面一定积累的基础上,可以达到较高的模式匹配准确率,从而保证了Deep Web接口的正确的自动查询。  相似文献   

9.
传统Deep Web数据集成研究侧重满足用户的即时查询需求,对数据分析应用缺乏充分支持,提出一个面向分析的Deep Web数据集成系统DWDIS,能够在较少人工参与下对大量Web数据库进行高质量数据获取、抽取和整合,为分析型应用提供优质全面的结构化数据.DWDIS支持领域模型的自动演化;通过自动识别和理解查询接口,采用查询词采新率模型以较小代价最大限度地获取Deep Web页面;充分利用集成系统已有数据中隐含的数据特征,对Deep Web页面进行有效页面抽取和语义标注;结合Web数据源特征,使用机器学习方法对来自大量Web数据库的数据实现高准确率的重复记录检测和数据融合.  相似文献   

10.
随着Internet信息的迅速增长,许多Web信息已经被各种各样的可搜索在线数据库所深化,并被隐藏在Web查询接口下面.传统的搜索引擎由于技术原因不能索引这些信息--Deep Web信息.由于Deep Web惟一"入口点"是查询接口.为使查询接口自动产生有意义有查询,给出了Deep Web信息集成系统框架,提出了基于数据类型的搜索驱动的用户查询转换方法,基于此设计并实现了一个针对中文Deep Web信息集成原型系统.通过在实际Deep web站点上的实验证明了此方法是非常有效的.  相似文献   

11.
The Web as a global information space is developing from a Web of documents to a Web of data. This development opens new ways for addressing complex information needs. Search is no longer limited to matching keywords against documents, but instead complex information needs can be expressed in a structured way, with precise answers as results. In this paper, we present Hermes, an infrastructure for data Web search that addresses a number of challenges involved in realizing search on the data Web. To provide an end-user oriented interface, we support expressive user information needs by translating keywords into structured queries. We integrate heterogeneous Web data sources with automatically computed mappings. Schema-level mappings are exploited in constructing structured queries against the integrated schema. These structured queries are decomposed into queries against the local Web data sources, which are then processed in a distributed way. Finally, heterogeneous result sets are combined using an algorithm called map join, making use of data-level mappings. In evaluation experiments with real life data sets from the data Web, we show the practicability and scalability of the Hermes infrastructure.  相似文献   

12.
Web中大量可访问的数据源为人们获取有用的信息带来了极大的便利。作为Web数据源集成的一个必要的步骤,需要将存在于不同数据源表达形式各异的重复Web实体准确地识别出来。在已有的重复实体识别的工作中,主要是在两个数据源之间进行。由于Web数据源数量众多,使得这些方法无法应用于多个Web数据源之间的重复实体识别。针对这个问题提出了一种基于迭代训练的Web重复实体识别方法,可以在较小规模的训练样本上实现在多个Web数据源上的重复实体识别。通过在图书和计算机产品两个不同领域中多个Web数据源上的广泛实验,表明了提出方法的有效性。  相似文献   

13.
语义Web的高速发展使其具有动态性和异构性特征,解决语义信息的异构性问题成为实现信息集成的关键。本体作为一种语义Web的知识表示形式,增强了Web的语义信息。因此,为了解决语义异构性,实现数据间的互操作,必须建立异构本体间的映射关系。然而,为庞大的异构本体建立完全精确的本体映射是不现实的,本体映射中存在一定的不确定性。提出了一种新型的本体映射框架——语义集成中的不确定性本体映射。从不同方面研究本体特征,集合了多种映射策略,并引入了各映射策略中不确定性匹配的解决方案。实验证明,该方法具有可靠的实验性能,并且具有很好的通用性和可扩展性。  相似文献   

14.
Deep Web中包含内容丰富、主题专一的高质量信息,为了自动地采集和集成这些数据,数据源的发现是关键。本文设计了一种基于本体的DeepWeb数据源聚焦搜索系统,给出了核心搜索算法。并通过实验,表明该方法是可行有效的。  相似文献   

15.
自治异构数据源聚集模型与算法研究   总被引:1,自引:0,他引:1  
自治异构数据源信息共享的主要问题是如何在P2P环境下对自治数据节点的信息进行统一访问.采用分层结构组织数据源节点能够提高查询效率,减小计算开销,但需要节点根据彼此相似度实现局部的聚类.给出了数据源节点信息发布的形式化描述,提出了基于模式元素匹配的自治异构数据源多重聚集模型以及聚类组织构建过程,采用TA算法解决top-K聚类节点搜索问题,并在此基础上提出TAL算法.实验结果表明,TA和TAL算法能够高效地解决节点聚类排序的问题,特别是TAL算法在聚类节点范围较大时计算性能优于TA.  相似文献   

16.
一种支持异构数据集成的Web服务合成方法   总被引:1,自引:0,他引:1  
全立新  岳昆  刘惟一 《计算机应用》2007,27(6):1438-1441
基于“协作者”数据集成架构,以网络环境中的数据查询为基本Web服务、关系数据库和XML文档为异构数据源的典型代表,并以其上已有的查询处理和XML数据绑定技术为基础,给出了Web服务环境下的数据集成模型。通过定义该模型上的基本操作(服务),利用有向图结构描述服务合成过程,提出了支持异构数据集成的Web服务合成方法和相应的优化策略。  相似文献   

17.
Technologies for overcoming heterogeneities between autonomous data sources are key in the emerging networked world. In this paper we discuss the initial results of a formal investigation into the underpinnings of technologies for alleviating structural heterogeneity. At the core of structural heterogeneity is the data mapping problem: discovering effective mappings between structured representations of data. Automating the discovery of these mappings is one of the fundamental unsolved challenges for data interoperability, integration, and sharing. We introduce a novel data model and calculus for expressing data mappings between relational data sources, laying the ground for a better understanding of the data mapping problem. This research uncovers several new safety issues in data mapping languages. We discuss ongoing investigations of syntactic and semantic restrictions on the calculus to deal with these issues.  相似文献   

18.
集成Web 数据的系统框架与实现方法   总被引:5,自引:0,他引:5  
基于我们正在研究和开发的项目Panorama,本文提出了一个基于XML和CORBA的Web数据集成系统框架,该框架可以集成来自Web上多个异构的数据源,包括关系数据库、面向对象数据库,HTML和XML文档及结构化文本文件。在系统实现中,把Web看作是一个巨大的虚拟数据库,以CORBA作为分布式对象模型,以XML作为公共誓据模型,并且以XML-QL作为全局查询语言来完成Web上的数据查询和集成。文中还详细分析和描述了系统框架中的一些主要模块的实现方法,具有很好的可操作性。  相似文献   

19.
深网查询在Web上众多的应用,需要查询大量的数据源才能获得足够的数据,如多媒体数据搜索、团购网站信息聚合等.应用的成功,取决于查询多数据源的效率和效果.当前研究侧重查询与数据源的相关性而忽略数据源之间的重叠关系,使得不同数据源上相同结果的数据被重复查询,增加了查询开销及数据源的工作负载.为了提高深网查询的效率,提出一种元组水平的分层抽样方法来估计和利用查询在数据源上的统计数据,选择高相关、低重叠的数据源.该方法分为两个阶段:离线阶段,基于元组水平对数据源进行分层抽样,获得样本数据;在线阶段,基于样本数据迭代地估计查询在数据源上的覆盖率和重叠率,并采用一种启发式策略以高效地发现低重叠的数据源.实验结果表明,该方法能够显著提高重叠数据源选择的精度和效率.  相似文献   

20.
Web2.0 has enabled contributions to the Web on an unprecedented scale, through simple interfaces that provide engaging interactions. This wealth of data has spawned countless mashups that integrate heterogenous information, but using techniques that will not scale beyond a handful of sources. In contrast, the Semantic Web provides the key to large-scale data integration, yet still lacks approachable interfaces allowing contributions from non-specialists. In this paper we present Revyu, a reviewing and rating site in the Web2.0 mould that is built on Semantic Web infrastructure and both publishes and consumes linked RDF data. This combination of approaches affords ease of interaction for regular users and ease of integration with external data sources.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号