首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
基于聚类的非清洁数据库的聚集查询处理算法   总被引:1,自引:0,他引:1  
现实数据库中的不完整数据、不一致数据、重复数据等非清洁数据为数据库的有效使用带来了影响,从包含非清洁数据的数据库中得到满足清洁度要求的统计分析结果,为数据库研究带来了新的挑战,聚集查询是统计分析的基础.面向非清洁数据,提出了有清洁度保证的聚集查询处理算法,用于处理包含group by子句的聚集查询.考虑到在非清洁数据中,同一个元组可能属于不同的分组,提出的方法是利用可重叠聚类的方法将数据库中的元组加以分组,从而得到考虑数据非清洁性的分组,以及基于这些分组计算得到的聚集结果及其以概率表达的清洁度.提出的方法适用于多种聚集函数以及包含选择条件的聚集查询.通过实验验证了方法的效率.  相似文献   

2.
金澈清  刘辉平  周傲英 《软件学报》2016,27(7):1671-1684
随着经济与信息技术的发展,在许多应用中均产生大量数据.然而,受硬件设备、人工操作、多源数据集成等诸多因素的影响,在这些应用之中往往存在较为严重的数据质量问题,特别是不一致性问题,从而无法有效管理数据.因此,首要的任务就是开发新型数据清洗技术来提升数据质量,以支持后续的数据管理与分析.现有工作主要研究基于函数依赖的数据修复技术,即以函数依赖来描述数据一致性约束,通过变更数据库中部分元组的属性值(而非增加/删除元组)来使得整个数据库遵循函数依赖集合.从一致性约束描述的角度来看,函数依赖并非是唯一的表达方式,还存在其他表达方式,例如硬约束、数量约束、等值约束、非等值约束等.然而,随着一致性约束种类的增加,其处理难度也远比仅有函数依赖的场景要困难.本文考虑以函数依赖与其他一致性约束共同表述数据库的一致性约束,并在此基础上设计数据修复算法,从而提升数据质量.实验结果表明,本文所提方法的执行效率较高.  相似文献   

3.
传统Web服务提供一组包含固定输入、输出参数的操作,通常无法满足针对数据资源的内容提出的各种查询请求.提出一种支持可变输入、输出参数的数据服务,其操作可以满足基于数据内容的各种查询请求.首先,服务描述中添加数据内容的描述,指明服务能够提供哪些数据;然后,定义了一个支持可变输入、输出参数的操作,其输入是一个包含输入、输出参数及参数约束的查询请求,输出是查询请求中输出参数所对应的数据;最后,给出了关系型数据的服务化方法,并通过实验从功能角度验证了方法的有效性.  相似文献   

4.
数据库服务外包是近几年兴起的一种新的数据库应用模式.外包数据库模型中数据的完整性检测是为了防止外包数据库提供商内部和外部人员对数据库内容篡改,保证查询者获得正确查询结果的一种手段.现有的完整性检测方法都是针对关系型数据库中的结构化数据,对于文本这种非结构化数据目前还没有成型的解决方案.为了完善外包数据库模型中数据完整性检测技术,提出了一种基于数字指纹的文本数据的完整性检测方案,该方案不仅可以检测文本数据的完整性,还可以对被篡改数据的位置进行精确定位;提出了两种指纹管理方案,对两种方案的安全性进行了分析;最后通过理论分析和实验验证了该文本数据完整性检测方案的准确性和有效性.  相似文献   

5.
标注是个人数据空间中对非结构化数据进行管理与维护的重要手段。标注技术如何与网络环境中个人信息管理模型有机结合,是数据管理与共享的前提。本文提出一种分布式个人信息管理系统架构,支持网络环境中个人数据空间的内容管理及共享;在此基础上,定义了个人信息标注的数据模型与操作模型,支持数据项粒度的多种管理服务,并通过原型系统的实现验证了上述研究中的关键技术。  相似文献   

6.
本文基于企业服务总线,从多数据库支持、数据操作请求调度、数据操作的安全性、数据库的访问优化四个方面考虑,对ESB系统内部模块对数据库的访问操作进行分析和研究,提出数据访问控制层,即ESB数据操纵控制器. 数据操纵控制器的目的是将ESB内的数据操作限制在尽可能小的指令范围内,这样提高了其数据操作的安全性和高效性. 并且数据操纵控制器支持多种数据库的访问和操作,使得ESB系统的产品通用性更强.  相似文献   

7.
杨健 《软件世界》2005,(6):46-46
1970年,E.F.Codd提出了关系数据库理论,在此基础上,出现了关系数据库管理系统,成为当今数据库应用的主体。上世纪九十年代以来,随着对数据分析和决策支持需求的增长,数据仓库技术应运而生。1992年,数据仓库之父Bill.Inmon在《Building The Data Warehouse》中对数据仓库的定义是:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合, 用于支持管理决策和信息的全局共享。数据仓库用于支持管理和决策,面向分析型数据处理,它不同于企业现有的面向交易的操作型数据库;数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据。从狭义的数据引擎角度看,数据库系统,如Oracle、DB2、Informix、SQL Server等,作为各种数据库应用的数据  相似文献   

8.
劣质数据普遍存在于现代数据管理系统中,严重影响了数据的质量,从而降低了数据的实用性以及数据的价值,这为数据管理带来了新的挑战.当前,已经有不少管理劣质数据的数据模型被提出,实体关系数据模型是其中一种,其中每条元组表示一个现实世界中的实体.该模型允许劣质数据的存在,给出了衡量数据质量的方法,并且可根据用户对结果质量的需求给出达到一定质量的查询结果.鉴于该模型的特点,传统的查询代价估计方法不再适用,需要新的代价估计技术.文中研究如何估计连接操作结果的大小,提出了在应用局部敏感Hash算法对属性值聚类的基础上,再进行采样估计的方法,并且在聚类过程中考虑数据质量对查询结果的影响.与传统随机采样方法对比,实验结果表明文中估计方法有更好的准确性.  相似文献   

9.
网格数据库管理模型与策略   总被引:2,自引:0,他引:2  
越来越多的网格应用需要管理大容量和广域分布的数据。开放网格服务体系结构中的网格服务提供了动态创建、管理和在网格服务中交换的一致接口。本文探讨了以OGSA网格服务管理网格数据库的模型,网格数据库服务提供支持数据访问的控制和发现、执行数据管理的操作,实现数据资源的虚拟化,通过网格实现现有数据库的访问与集成。同时讨论了相关的优化策略。  相似文献   

10.
集成对象代理数据库的科学工作流服务框架中的数据跟踪   总被引:2,自引:0,他引:2  
文中提出了一个集成数据库的科学工作流服务框架,它采用对象代理模型描述一系列科学任务的执行过程,使得工作流管理操作以类似于传统数据库管理操作的方式来完成.同时,基于对象代理数据库中的双向指针机制,文中提出了一种新的数据跟踪方法,该方法能提供比注释或反向方法更高的性能,不仅节省了大量的存储空间,而且减少了额外的计算代价,为了进一步提高数据跟踪的高效性,文中也提出了一种部分物化中间数据模式,实验显示它具有较好的系统性能.  相似文献   

11.
In recent years, data quality issues have attracted wide attentions. Data quality problems are mainly caused by dirty data. Currently, many methods for dirty data management have been proposed, and one of them is entity-based relational database in which one tuple represents an entity. The traditional query optimizations are not suitable for the new entity-based model. Then new query optimizations need to be developed. In this paper, we propose a new query selectivity estimation strategy based on histogram, and focus on solving the overestimation which traditional methods lead to. We prove our approaches are unbiased. The experimental results on both real and synthetic data sets show that our approaches can give good estimates with low error.  相似文献   

12.
现代数据管理系统普遍存在劣质数据,影响了数据质量,给数据管理带来了新的挑战.已经有不少管理劣质数据的数据模型,实体关系数据模型就是其中一种,该模型允许劣质数据的存在,并给出衡量数据质量的方法,并且可根据对结果质量的需求给出查询结果.鉴于该模型的特点,传统的估计查询代价的优化方法很难再适用,需要新的代价估计技术.本文提出了一种新的估计连接结果大小的方法.使用加权的最小哈希函数获得某一属性的最小哈希签名,这使得属性具有相同维数,便于利用直方图进行快速估计;然后建立其直方图,最后使用改进的离散余弦变换压缩直方图信息,使用压缩信息直接进行代价估计,这使得即使对于高维数据也能保证低错误率和低存储代价.此外,此方法可以很好的支持动态数据更新,消除周期性重建直方图的时间开销.  相似文献   

13.
知识图谱数据管理研究综述   总被引:2,自引:0,他引:2  
王鑫  邹磊  王朝坤  彭鹏  冯志勇 《软件学报》2019,30(7):2139-2174
知识图谱是人工智能的重要基石.各领域大规模知识图谱的构建和发布对知识图谱数据管理提出了新的挑战.以数据模型的结构和操作要素为主线,对目前的知识图谱数据管理理论、方法、技术与系统进行研究综述.首先,介绍知识图谱数据模型,包括RDF图模型和属性图模型,介绍5种知识图谱查询语言,包括SPARQL、Cypher、Gremlin、PGQL和G-CORE;然后,介绍知识图谱存储管理方案,包括基于关系的知识图谱存储管理和原生知识图谱存储管理;其次,探讨知识图谱上的图模式匹配、导航式和分析型3种查询操作.同时,介绍主流的知识图谱数据库管理系统,包括RDF三元组库和原生图数据库,描述目前面向知识图谱的分布式系统与框架,给出知识图谱评测基准.最后,展望知识图谱数据管理的未来研究方向.  相似文献   

14.
A Taxonomy of Dirty Data   总被引:3,自引:0,他引:3  
Today large corporations are constructing enterprise data warehouses from disparate data sources in order to run enterprise-wide data analysis applications, including decision support systems, multidimensional online analytical applications, data mining, and customer relationship management systems. A major problem that is only beginning to be recognized is that the data in data sources are often dirty. Broadly, dirty data include missing data, wrong data, and non-standard representations of the same data. The results of analyzing a database/data warehouse of dirty data can be damaging and at best be unreliable. In this paper, a comprehensive classification of dirty data is developed for use as a framework for understanding how dirty data arise, manifest themselves, and may be cleansed to ensure proper construction of data warehouses and accurate data analysis. The impact of dirty data on data mining is also explored.  相似文献   

15.
丁光耀  徐辰  钱卫宁  周傲英 《软件学报》2024,35(3):1207-1230
计算机视觉因其强大的学习能力,在各种真实场景中得到了广泛应用.随着数据库的发展,利用数据库中成熟的数据管理技术来处理视觉分析应用,已成为一种日益增长的研究趋势.图像、视频和文本等多模态数据的相互融合处理,也促进了视觉分析应用的多样性和准确性.近年来,因深度学习的兴起,支持深度学习的视觉分析应用开始受到广泛关注.然而,传统的数据库管理技术在深度学习场景下面临着复杂视觉分析语义难以表达、应用执行效率低等问题.因此,支持深度学习的视觉数据库管理系统得到了广泛关注.综述了目前视觉数据库管理系统的研究进展:首先,总结了视觉数据库管理系统在不同层面上面临的挑战,包括编程接口、查询优化、执行调度和数据存储;其次,分别探讨了上述4个层面上的相关技术;最后,对视觉数据库管理系统未来的研究方向进行了展望.  相似文献   

16.
Some database models have already been developed to deal with complex values but they have constrains that data stored is precise and queries are crisp. However, as many researchers have pointed out, there is a need to present, manipulate, and query complex and uncertain data of various non-traditional database applications such as oceanography, multimedia, meteorology, office automation systems, engineering designs, expert database systems and geographic information systems. In this paper, we present a logical database model, which is an extension of a nested relational data model (also known as an NF2 data model), for representing and manipulating complex and uncertain data in databases. We also introduce a possible physical representation of such complex and uncertain values in databases and describe the query processing of the model that we discuss here.  相似文献   

17.
Large image databases are commonly employed in applications like criminal records, customs, plant root databases, and voters' registration databases. Efficient and convenient mechanisms for database organization and retrieval are essential. A quick and easy-to-use interface is needed which should also mesh naturally with the overall image management system. In this paper we describe the design and implementation of an integrated image database system. This system offers support for both alphanumeric query, based on alphanumeric data attached to the image file, and content-based query utilizing image examples. Content-based retrieval, specifically Query by Image Example, is made possible by the SHOSLIF approach. Alphanumeric query is implemented by a collection of parsing and query modules. All these are accessible from within a user-friendly GUI.  相似文献   

18.
当前网络中分布着大量与出生缺陷相关的电子病历、医学文献和临床实验数据库。如果对这些数据库进行数据整合,实现有效地管理,将便于医学工作者对海量数据进行快速查询和综合分析。基于以上需求,设计了基于本体的出生缺陷相关医学知识管理平台,实现了基于本体的数据整合、数据标注和数据查询。该系统已用于国家科技支撑计划重点课题人口和生殖健康综合信息服务大型门户系统中。  相似文献   

19.
Currently relational databases are widely used, while object-oriented databases are emerging as a new generation of database technology. This paper presents a methodology to provide effective sharing of information in object-oriented databases and relational databases. The object-oriented data model is selected as a common data model to build an integrated view of the diverse databases. An object-oriented query language is used as a standard query language. A method is developed to transform a relational data definition to an equivalent object-oriented data definition and to integrate local data definitions. Two distributed query processing methods are derived. One is for general queries and the other for a special class of restricted queries. Using the methods developed, it is possible to access distributed object-oriented databases and relational databases such that the locations and the structural differences of the databases are transparent to users.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号