首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
不一致数据无法正确反映现实世界,其上的查询结果内含错误或矛盾,而现有的很多不一致数据查询处理相关研究都存在信息丢失的问题。 AQA(annotation based query answer)针对这一问题采用信任标签在属性级别上区分一致和不一致数据,避免了信息丢失。但 AQA 假设记录在依赖左边属性上的分量可信,且只针对函数依赖一种约束,具有应用局限性。在综合约束(函数依赖、包含依赖和域约束)范围内、不确定属性任意的情况下扩展了AQA,重新审视了 AQA 的数据模型及其上的查询代数,讨论了任意约束在查询结果上的蕴含约束计算问题。实验结果表明,扩展后的AQA非连接类查询的性能和普通的SQL基本相同,连接查询经优化后性能接近普通SQL查询,但AQA不丢失信息,与部分同类研究相比有很大优势。  相似文献   

2.
不一致关系数据库上的初始信任标记算法   总被引:1,自引:0,他引:1  
不一致数据无法正确反映现实世界客观事物的真实状态,导致其上的查询会得到错误的或矛盾的查询结果,降低了数据的利用价值.而现有的很多不一致数据查询处理方面的研究方案都存在信息丢失的问题.Annotation Based Query Answer方案针对这一问题,采用信任标签在属性级别上区分一致和不一致数据,避免了信息丢失.但同时考虑多类约束(函数依赖、健依赖、包含依赖和域约束)且任意分量都不可信时,该研究方案的不一致检测和初始标记算法失效,有一定的应用局限性.针对这一问题,采用启发式近似修复算法,在一个矛盾数据的各类可能修复操作中,通过比较其修复代价,以寻找出错概率更大的分量(或元组),以此纠正明显错误,并确定引起数据不一致的属性.实验结果表明,算法复杂度是候选修复数量的平方阶.  相似文献   

3.
李卫榜  李战怀  陈群  杨婧颖  姜涛 《软件学报》2016,27(8):2068-2085
关系数据库中可能存在数据不一致性现象,关系数据库数据质量的一个主要问题是存在违反函数依赖情况.为找出不一致数据,需要进行函数依赖冲突检测.集中式数据库中可以通过SQL技术检测不一致情况,尽管检测效率不高;而分布式环境下不一致性检测更富有挑战性,不仅需要考虑数据的迁移,检测任务如何分配也是一个难题.在大数据背景下,上述问题更加突出.提出了一种分布式环境单函数依赖不一致性检测方法,给出了不一致性检测响应时间代价模型.为减少数据迁移量和响应时间,基于等价类对待检测数据进行预处理.由于分布式环境不一致性检测问题为NP-hard问题,多项式时间内难以得到最优解,给出了代价模型的多项式时间3/2-近似最优解.提出了一种分布式环境多函数依赖不一致性检测方法,基于最小集合覆盖理论,通过一次数据遍历,对多个函数依赖进行并行批检测,同时考虑检测过程中的负载均衡等问题.在真实和人工数据集上的实验表明:相对于传统的检测方法以及基于Hadoop的Naïve方法,所提出的检测方法检测效率有明显的提升,且扩展性能良好.  相似文献   

4.
对于不一致数据库上的一致性聚集查询问题,Fuxman扩展基于合取查询类C_(forest)的一阶查询重写方法并给出了查询重写算法RewriteCount和RewriteAgg来分别处理包含不同聚集函数的查询.算法产生的重写聚集查询能够使用SQL语句表达,但是其性能却不够理想.文中重点考虑在数据集成环境下如何有效地提高一致性聚集查询的整体性能,通过OR-database集成模式有效地隔离集成数据库的一致性部分和非一致新部分,并在此基础上同样针对合取查询类C_(forest)上的分组聚集查询提出了基于OR-database的一致性查询重写算法RewriteCount_OR(主要处理Count函数)和RewriteAgg_OR(主要处理Max,Min和Sum函数),后面的查询代价比较及模拟实验都表明:与Fuxman的一致性聚集查询方法相比,文中的一致性聚集查询方法在OR-database集成数据库上具有明显的性能优势.  相似文献   

5.
完整性约束有效地维护了数据的合法性和有效性,而越来越多的数据库应用依赖于多个独立的数据源,即使对于给定的约束,这些数据源分别是一致的,集成时就可能不一致.一致性查询应答(CQA)基于候选数据库语义,保持非一致性源数据不变,在查询时获取一致性信息.本文讨论了CQA的查询重写、概率方法、冲突图和逻辑编程等计算机制,并基于普通CQA语义进一步分析了聚集查询的范围语义;通过对CQA计算方法和聚集查询计算复杂性的比较,分析得到在实际中大部分查询是PTIME的;对于是单一函数依赖的一些聚集函数,CQA采用查询重写是PTIME的.此外总结了不同的应用领域下其他候选数据库语义,最后提出了需要进一步研究的问题.  相似文献   

6.
MapReduce分布式计算框架有助于提升大规模数据连接查询的效率,但当连接属性分布不均匀时,其简单的散列策略容易导致计算节点间负载不均衡,影响作业的整体性能。针对连接查询操作中的数据倾斜问题,研究了MapReduce框架下大规模数据连接查询操作的优化算法。首先对经典的改进重分区连接查询算法进行实验分析,研究了传统MapReduce计算框架下连接查询操作的执行流程,找出了基于MapReduce计算框架的连接查询算法在数据分布不均匀时的性能瓶颈;进而提出了组合分割平衡分区优化策略,设计并实现了基于组合分割平衡分区优化策略的改进型连接查询算法。实验结果表明,提出的优化策略在大规模数据的连接查询处理上很好地解决了数据倾斜带来的性能影响,具有好的时间性能和可扩展性。  相似文献   

7.
目前主流的RDF存储系统都是基于关系数据库的,其查询引擎都是将SPARQL转换为SQL,然后由数据库的查询引擎来执行查询.但是,目前的数据库查询优化器对于连接查询的选择度估计都是基于属性独立假设的,这往往导致估计错误而选择了效率低的执行计划,所以属性相关性信息对于SPARQL查询优化器能否找到效率高的执行计划是非常重要的.针对SPARQL转换为SQL后,因连接操作没有优化导致查询效率不高的问题,提出了利用本体信息自动计算属性相关性的方法,从而调整连接操作的选择度估计值,调整连接顺序,提高SPARQL查询中基本图模式的连接查询效率.  相似文献   

8.
数据库技术中尽管有完整性约束技术用来维护数据的确定性,但有些情况可能不满足完整性约束。本文提出了非确定性数据的确定性查询概念,给出的查询重写方法能有效地进行数据库SQL查询语句,它可以违反一系列的约束条件,重写查询去查找相应的与约束一致的数据。  相似文献   

9.
流数据的查询应用十分广泛,而标准SQL语言不支持这类查询功能,因此有必要对标准SQL语言进行扩展,以满足流数据的查询应用需求。支持流数据的查询语言StreamSQL在标准SQL语言的基础上增加了对流数据对象的处理机制,通过引入滑动窗口的概念,以支持流数据与关系表的相互转换操作,同时提供用户自定义函数功能,弥补了SQL在流数据处理方面的不足。  相似文献   

10.
胡艳丽  张维明 《计算机科学》2009,36(12):115-118
介绍了条件函数依赖理论及如何用于检测不一致数据.首先介绍了条件函数依赖的概念及其推理系统,以及如何通过依赖传播实现视图的规范化;阐述了条件函数依赖的一致性和蕴含判定问题,并在此基础上介绍了基于条件函数依赖检测关系数据库数据一致性的技术;最后讨论了条件函数依赖的扩展及应用.  相似文献   

11.
黄飞  刘杰  叶丹 《计算机应用研究》2009,26(11):4146-4150
完整性约束常用来定义数据库的数据语义,违反约束的数据库实例为不一致数据库,返回含有不一致结果的查询称为不一致查询。一致性查询目的在于不修改数据库实例而从不一致数据库获取满足约束的查询结果,已有方法因其支持的约束类型有限或计算复杂度高而影响其应用范围。提出了一种基于空值修复的数据库一致性查询方法,首先将原始完整性约束转换为与查询相关的统一约束,然后根据统一约束对原SQL查询进行查询重写,重写后的查询将不一致属性值当做空值来处理以获得满足完整性约束的结果。系统实现与实验证明,该方法在多种完整性约束类型与SQL  相似文献   

12.
为解决基于本体的数据集成系统中的查询转换问题,提出SPARQL查询的关系代数表示和转换方法。引入RDF图模式的关系代数,定义了五种基本的关系运算,给出了SPARQL查询的关系代数表示;提出了SPARQL到SQL的查询转换方法,将基于本体的SPARQL查询转换为可在关系数据库上直接执行的SQL查询,从而实现关系数据库的集成。系统实现表明,该方法能够有效地实现查询语言的转换。  相似文献   

13.
文章以高校招生数据提取为例,分析了高校招生数据的特点,设计了元数据表.通过程序从元数据表自动生成表间连接条件,动态生成结构化查询语句,实现了高校招生数据的自动提取.结果表明该方法具有操作简单、高效等特点.  相似文献   

14.
Non-availability of part of the data is a problem common to many database systems. We study here some aspects relating to incomplete information. Obviously, when the information in a database is not complete the answer to any query is only an approximation to the true result. The aim is to get a precise approximation. We regard databases as many-sorted algebras. Based on the concept of extended algebra we define what it means for an algebra to approximate another algebra. We then give the following simple principle for extending query languages to handle missing data: “Whenever information is added to an incomplete database subsequent answers to queries must not be contradictory or less informative than previously.” We then apply this principle to extend the functional query language Varqa. Finally, we compare the previously proposed many-valued logic systems with the system devised based on our principles.  相似文献   

15.
刘雪莉  王宏志  李建中  高宏 《软件学报》2015,26(6):1421-1437
按照元组描述的实体对其进行组织和查询处理,是一种管理劣质数据的有效方法.考虑到同一个实体的同一属性存在多个描述的值,因此,基于实体的数据库上的连接是支持多个值的相似性连接.与字符串的相似性连接相比较,实体的相似性连接在数据清洗、信息集成、模糊关键字查询、诈骗检测和文本聚集等领域有着更好的应用效果.通过建立双层索引结构,提出了实体数据库上相似性连接算法ES-JOIN.同时,该方法适用于解决集合中字符串模糊匹配的相似性连接问题,而传统的集合相似性连接只针对集合中元素精确匹配的情况.为了加速连接,还提出了过滤措施对算法进行优化,进一步给出了优化算法OPT_ES-JOIN.实验验证了ES-JOIN算法和OPT_ES-JOIN算法具有很好的效率和可扩展性.实验结果表明,过滤措施具有很好的过滤效果.  相似文献   

16.
在大型强子对撞机(LHC)上紧凑型缪子螺线管探测器(CMS)实验的复杂数据环境下,有多个关系型数据源记录了关于数据组织和分布的信息。为实现数据查询系统的精确关键词查询功能,通过分析数据库模式图的方法,将关键词查询语言动态翻译成SQL语言,设计并实现一个跨数据库平台的关键词查询系统。针对动态翻译过程中存在的二义性问题,提出基于查询实体的模式图分析算法,以及基于最小权重树查找的动态连接算法。实验结果表明,该动态连接算法能为关键词查询正确生成所需数据库表的连接方式,使关键词查询系统具有较高的查询效率,以满足用户实时、精确查询的需求。  相似文献   

17.
石柯 《计算机工程》2008,34(8):66-68
为了集成网格环境中的数据库资源,促进网格应用支持现有数据库的访问,提出一种基于服务的数据库访问和集成系统(GridDBAdmin)。GridDBAdmin为用户提供了虚拟的全局逻辑数据库视图,支持用户使用现有的SQL语言同时访问多个数据库。系统由元数据服务和网格虚拟数据库服务构成。其中元数据服务负责发现含有用户所需数据的数据库,网格虚拟数据库服务提供全局逻辑视图,通过分布式查询机制将用户的SQL请求分解到具体的数据库中并进行结果合并。对基于Globus和OGSA-DAI工具包开发的原型系统进行了测试,得到了较好的结果。  相似文献   

18.
Semantics preserving SPARQL-to-SQL translation   总被引:2,自引:0,他引:2  
Most existing RDF stores, which serve as metadata repositories on the Semantic Web, use an RDBMS as a backend to manage RDF data. This motivates us to study the problem of translating SPARQL queries into equivalent SQL queries, which further can be optimized and evaluated by the relational query engine and their results can be returned as SPARQL query solutions. The main contributions of our research are: (i) We formalize a relational algebra based semantics of SPARQL, which bridges the gap between SPARQL and SQL query languages, and prove that our semantics is equivalent to the mapping-based semantics of SPARQL; (ii) Based on this semantics, we propose the first provably semantics preserving SPARQL-to-SQL translation for SPARQL triple patterns, basic graph patterns, optional graph patterns, alternative graph patterns, and value constraints; (iii) Our translation algorithm is generic and can be directly applied to existing RDBMS-based RDF stores; and (iv) We outline a number of simplifications for the SPARQL-to-SQL translation to generate simpler and more efficient SQL queries and extend our defined semantics and translation to support the bag semantics of a SPARQL query solution. The experimental study showed that our proposed generic translation can serve as a good alternative to existing schema dependent translations in terms of efficient query evaluation and/or ensured query result correctness.  相似文献   

19.
用SQL实现工作流的并发控制   总被引:1,自引:0,他引:1  
工作流技术在信息系统的应用中,并发控制机制的设计是经常要面临的问题。给出一种基于将工作流中数据和任务分离的工作流并发控制机制,在保证工作流正确性的前提下,引入“数据约束”和“任务约束”的概念来提高工作流的工作性能和降低工作流设计的复杂性,并用数据库中SQL语言强有力的约束控制加以实现。  相似文献   

20.
This paper presents an approach to query decomposition in a multidatabase environment. The unique aspect of this approach is that it is based on performing transformations over an object algebra that can be used as the basis for a global query language. In the paper, we first present our multidatabase environment and semantic framework, where a global conceptual schema based on the Object Data Management Group standard encompasses the information from heterogeneous data sources that include relational databases as well as object-oriented databases and flat file sources. The meta-data about the global schema is enhanced with information about virtual classes as well as virtual relationships and inheritance hierarchies that exist between multiple sources. The AQUA object algebra is used as the formal foundation for manipulation of the query expression over the multidatabase. AQUA is enhanced with distribution operators for dealing with data distribution issues. During query decomposition we perform an extensive analysis of traversals for path expressions that involve virtual relationships and hierarchies for access to several heterogeneous sources. The distribution operators defined in algebraic terms enhance the global algebra expression with semantic information about the structure, distribution, and localization of the data sources relevant to the solution of the query. By using an object algebra as the basis for query processing, we are able to define algebraic transformations and exploit rewriting techniques during the decomposition phase. Our use of an object algebra also provides a formal and uniform representation for dealing with an object-oriented approach to multidatabase query processing. As part of our query processing discussion, we include an overview of a global object identification approach for relating semantically equivalent objects from diverse data sources, illustrating how knowledge about global object identity is used in the decomposition and assembly processes.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号