首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 78 毫秒
1.
条件函数依赖(Conditional Functional Dependence,CFD)的挖掘是一种重要的数据库分析技术,它是在函数依赖(Functional Dependence,FD)挖掘的基础上加入条件分析功能扩展而来,当前被应用于数据质量检测.CFD挖掘是在FD挖掘的基础上通过条件分析进行更细粒度的信息挖掘,其时间复杂度较高.文章详细介绍一种经典的CFD挖掘方法(即CTANE算法),对其实现方法提出了优化措施,并通过实验比较了不同实现方法的效率,得出了优化措施改进效率的结论.  相似文献   

2.
针对复杂庞大有研究价值的数据,查找其中蕴含的条件函数依赖可以有效地利用这些有价值的数据。但现有的条件函数依赖搜索算法在面对庞大的数据时查找效率较慢,所以对现有的算法的改进意义重大。针对水利普查数据的特点对查找条件函数依赖的算法进行了改进,在原有算法的基础上加入了剪枝策略。实验和理论证明,改进后的算法相比传统的搜索算法在保证搜索质量的前提下加快了搜索速度,使得查找数据中的条件函数依赖更加快捷便利。  相似文献   

3.
目前绝大部分冲突消解方法都是基于迭代计算数据源可靠度和事实可信度的机制。当数据源较少时,数据源的可靠度难于进行评估,仅凭投票来消解冲突往往会造成较大误差。针对数据源较少时的冲突消解问题,提出基于常量条件函数依赖的冲突消解算法。根据多个数据源之间的冲突,找出冲突匹配对及对应的冲突候选值集合。考虑常量条件函数依赖中具体到部分实例子集的约束关系,将常量条件函数依赖集作为先验知识,通过判断候选值是否符合常量条件函数依赖来选择正确的候选值,避免了错误数据比例较大时直接投票选择产生的误差。通过两个真实数据集上的对比实验验证了上述算法的有效性。  相似文献   

4.
文章在介绍Oracle数据库服务及相关体系软件结构的基础上,给出了利用Oracle数据仓库建立水利普查数据展现系统的实现技术,解决了因为原始数据库数据量庞大,数据关系复杂,导致数据查询速度慢等性能问题,并从多方面清晰、简洁、直观地展现水利普查数据.  相似文献   

5.
金澈清  刘辉平  周傲英 《软件学报》2016,27(7):1671-1684
随着经济与信息技术的发展,在许多应用中均产生大量数据.然而,受硬件设备、人工操作、多源数据集成等诸多因素的影响,在这些应用之中往往存在较为严重的数据质量问题,特别是不一致性问题,从而无法有效管理数据.因此,首要的任务就是开发新型数据清洗技术来提升数据质量,以支持后续的数据管理与分析.现有工作主要研究基于函数依赖的数据修复技术,即以函数依赖来描述数据一致性约束,通过变更数据库中部分元组的属性值(而非增加/删除元组)来使得整个数据库遵循函数依赖集合.从一致性约束描述的角度来看,函数依赖并非是唯一的表达方式,还存在其他表达方式,例如硬约束、数量约束、等值约束、非等值约束等.然而,随着一致性约束种类的增加,其处理难度也远比仅有函数依赖的场景要困难.本文考虑以函数依赖与其他一致性约束共同表述数据库的一致性约束,并在此基础上设计数据修复算法,从而提升数据质量.实验结果表明,本文所提方法的执行效率较高.  相似文献   

6.
针对第一次全国水利普查数据融合存在的问题,提出自适应编辑距离相似性度量,通过调整编辑操作权重及启发式学习权重等措施,对传统的编辑距离进行改进,提高相似性搜索的准确性,并给出基于编辑距离的水利普查数据融合的方法和流程,算法的有效性在第一次全国水利普查数据处理中得到验证。  相似文献   

7.
水利普查数据更新维护是全国水利普查成果长期有效应用的重要支撑和保障。第一次全国水利普查后,数据更新是否及时,质量能否保障,共享能否畅通,以及现有数据能否满足需求等问题将是影响普查成果在水利信息系统应用的重要制约因素。针对这些问题,着眼于构建"统一化、专业化、标准化"的水利数据中心,形成一体化的国家基础水信息平台为总体目标,提出数据更新维护应遵循的多样性、适用性、规范性、协同性、同步性等5项原则,重点研究数据更新维护实施的技术手段及路径,并初步探讨相关标准、管理制度及工作流程,以建立数据更新维护过程的长效机制,确保水利数据资源得到充分利用。  相似文献   

8.
条件函数依赖(Conditional Functional Dependeny,CFD)是对函数依赖(Functional Depencency,FD)加入语义约束扩展而来,它在数据库一致性检测、数据清洗方面更优于后者.讨论了条件函数依赖的相关概念及其基本性质,讨论如何将它应用于数据清洗,并对已提出的基于CFD的数据清洗方案提出改进措施,并通过实验说明改进措施的可行性.  相似文献   

9.
分布式大数据函数依赖发现   总被引:1,自引:0,他引:1  
在关系数据库中,函数依赖发现是一种十分重要的数据库分析技术,在知识发现、数据库语义分析、数据质量评估以及数据库设计等领域有着广泛的应用.现有的函数依赖发现算法主要针对集中式数据,通常仅适用于数据规模比较小的情况.在大数据背景下,分布式环境函数依赖发现更富有挑战性.提出了一种分布式环境下大数据的函数依赖发现算法,其基本思想是首先在各个节点利用本地数据并行进行函数依赖发现,基于以上发现的结果对函数依赖候选集进行剪枝,然后进一步利用函数依赖的左部(left hand side, LHS)的特征,对函数依赖候选集进行分组,针对每一组候选函数依赖并行执行分布式环境发现算法,最终得到所有函数依赖.对不同分组情况下所能检测的候选函数依赖数量进行了分析,在算法的执行过程中,综合考虑了数据迁移量和负载均衡的问题.在真实的大数据集上的实验表明,提出的检测算法在检测效率方面与已有方法相比有明显的提升.  相似文献   

10.
大数据时代,数据的来源复杂,数据质量存在严重问题,有些数据不准确、缺失或存在错误。不正确的数据严重影响了数据挖掘的质量,给决策造成重大的影响。关于缺失数据的修复方法很多,其中条件函数依赖就是一个有效的方法,在如何发现条件函数依赖方面已经有了很多研究成果。文中提出一种应用关联规则构建条件函数依赖的方法,由于关联规则通过数据挖掘得到,具有一定的隐蔽性,不是一般的方法能够发现,所以,由关联规则构建的条件函数依赖具有一定的应用价值,文中给出了构建方法,并通过实验证明其有效性。  相似文献   

11.
针对水利普查数据海量、多维的特点,研究近年来在“大数据”概念下发展迅速的Hadoop与Hive,结合传统数据仓库在多维数据分析方面的成熟技术,提出基于Hive的水利普查数据仓库的构建方法,描述数据仓库系统的架构,并根据Hive的设计特点,通过分桶、消减维度表和冗余事实表的方法来改进传统的多维分析模型,最后搭建集群系统对水利普查数据集进行查询与分析测试。测试结果表明该数据仓库可以满足海量多维水利普查数据的存储与查询要求。   相似文献   

12.
随着第一次全国水利普查的结束,海量的水利普查数据随之产生。将云计算技术应用在水利普查数据挖掘领域,可以更加快速、高效和低成本地为水利决策提供科学、合理的支持。本文提出基于Map/Reduce的水利普查数据决策树分类挖掘方法MRC4.5算法,并将该算法应用于全国水利普查地下水取水井数据挖掘中。实验结果表明,与传统的C4.5算法相比,MRC4.5算法在处理大规模数据集时具有更高的执行效率和良好的加速比。  相似文献   

13.
n维的立方体将生成2n个聚集立方体.如何进行立方体计算,在存储空间和查询时间方面寻求平衡,成为多维分析应用中的关键问题.基于部分物化的策略,并结合水利普查数据特征,改进Minimal cubing方法,提出了层次维编码片段方法HDEF cubing.该方法利用编码长度较小的层次维编码及其前缀,快速检索出与查询关键字相匹配的层次维编码,减少了多表连接操作,从而提高查询效率.以水利普查数据为例,验证了改进的立方体计算方法能高效地对立方体进行存储和查询,适用于水利普查成果分析.  相似文献   

14.
数据一致性是数据质量管理的一项核心事务.规则约束作为一种抽象化、形式化的数据关系表达技术,可以有效地进行数据一致性管理.但是,在进行多源数据一致性管理的过程中,由于异源数据所属的关系模式不同,给一致性规则融合带来了挑战.另外,不论同源数据还是异源数据,数据之间是相互关联的,可以利用这种关系强化规则约束中语义含义的表达作用,发现数据中的潜在错误.具体地,条件包含依赖(conditional inclusion dependencies, CINDs)和内容相关的条件函数依赖(content-related conditional functional dependencies, CCFDs)可以分别用于异构模式的属性匹配和内容关联数据的一致性维护.基于此,对面向异构关系模式中关于关联数据的一致性规则发现问题进行研究.首先,针对使用CINDs进行异构模式中CCFDs规则发现的基本问题进行分析,对规则发现的可满足性、蕴含性和可验证性问题进行解释,它们分别满足NP-complete,coNP-complete,PTIME的复杂性判定问题.其次,为了对规则空间内的全部CCFDs进行发现,以CCFDs中的条件属性和变量属性为划分依据,提出了一种2级lattice的搜索结构.再次,设计了一种基于CINDs和CCFDs的异构关联数据一致性规则发现方法,使用CINDs对规则形式进行融合,而后通过增量发现方式查找一致性规则.最后,通过在2组真实数据进行实验,验证了方法的有效性和高效性.  相似文献   

15.
针对企业数据集成中存在的数据质量问题,为解决集成数据的不一致性问题,提出基于CFD、CIND进行数据一致性检测和基于订阅规则进行数据发布的主数据管理系统。系统搭建于SOA架构之上,通过主数据抽取、主数据质量控制、主数据发布等组件功能为各应用系统提供透明的单一主数据视图,并实现了主数据变更流程的自动管理。应用结果表明,使用主数据管理有效地解决了在各应用系统中流转数据的一致性问题,从而提高了集成数据的质量。  相似文献   

16.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号