首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 203 毫秒
1.
针对复杂庞大有研究价值的数据,查找其中蕴含的条件函数依赖可以有效地利用这些有价值的数据。但现有的条件函数依赖搜索算法在面对庞大的数据时查找效率较慢,所以对现有的算法的改进意义重大。针对水利普查数据的特点对查找条件函数依赖的算法进行了改进,在原有算法的基础上加入了剪枝策略。实验和理论证明,改进后的算法相比传统的搜索算法在保证搜索质量的前提下加快了搜索速度,使得查找数据中的条件函数依赖更加快捷便利。  相似文献   

2.
针对XML函数依赖(XFD)不能充分检测XML局部数据源语义上的数据不一致,借鉴关系数据库中条件函数依赖(CFD)的概念,并根据XML自身结构和约束特性,提出了基于内容感知发现(CAD)XML条件函数依赖(XCFD),CAD使用隐藏在数据值中的内容发现局部XML文档的XCFDs,检测异构数据源中数据一致性,提高数据的质量,并给出了详细的算法,同时引入修剪规则集减少搜索点阵和候选的XCFD的数量,提高算法的效率,使得XCFD无冗余、最小化.通过案例研究表明,基于CAD方法发现的XCFD比现有XFD发现更多的函数依赖和语义约束.  相似文献   

3.
条件函数依赖是函数依赖在语义上的扩充,可以应用于数据清洗工作,在数据库一致性的修复上应用广泛。讨论了条件函数依赖的相关语义规则,重点研究了基于条件函数依赖对违反数据库一致性元组的检测工作,并引入置信度评价机制,对相关的检测规则进行了改进。改进后的检测方法在基于多个函数依赖的检测中显示出了优越性,使得检测工作更为精简,检测标准更加明确。  相似文献   

4.
数据质量规则是检测数据库质量的关键。为从关系数据库中自动发现数据质量规则,并以其为依据检测错误数据,研究质量规则表示形式及其评估度量,提出以数据项分组及其可信度为依据的最小质量规则计算准则、挖掘算法以及采用质量规则检测错误数据的思路。该数据质量规则形式借鉴关联规则的可信度评估机制、条件函数依赖的表达能力,统一描述函数依赖、条件函数依赖、关联规则等,具有简洁、客观、全面、检测异常数据准确等特性。与相关研究相比,降低挖掘算法的时间复杂度,提高检错率。用实验证明该方法的有效性和正确性。  相似文献   

5.
条件函数依赖(Conditional Functional Dependeny,CFD)是对函数依赖(Functional Depencency,FD)加入语义约束扩展而来,它在数据库一致性检测、数据清洗方面更优于后者.讨论了条件函数依赖的相关概念及其基本性质,讨论如何将它应用于数据清洗,并对已提出的基于CFD的数据清洗方案提出改进措施,并通过实验说明改进措施的可行性.  相似文献   

6.
针对第一次全国水利普查数据融合存在的问题,提出自适应编辑距离相似性度量,通过调整编辑操作权重及启发式学习权重等措施,对传统的编辑距离进行改进,提高相似性搜索的准确性,并给出基于编辑距离的水利普查数据融合的方法和流程,算法的有效性在第一次全国水利普查数据处理中得到验证。  相似文献   

7.
胡艳丽  张维明 《计算机科学》2009,36(12):115-118
介绍了条件函数依赖理论及如何用于检测不一致数据.首先介绍了条件函数依赖的概念及其推理系统,以及如何通过依赖传播实现视图的规范化;阐述了条件函数依赖的一致性和蕴含判定问题,并在此基础上介绍了基于条件函数依赖检测关系数据库数据一致性的技术;最后讨论了条件函数依赖的扩展及应用.  相似文献   

8.
分布式大数据函数依赖发现   总被引:1,自引:0,他引:1  
在关系数据库中,函数依赖发现是一种十分重要的数据库分析技术,在知识发现、数据库语义分析、数据质量评估以及数据库设计等领域有着广泛的应用.现有的函数依赖发现算法主要针对集中式数据,通常仅适用于数据规模比较小的情况.在大数据背景下,分布式环境函数依赖发现更富有挑战性.提出了一种分布式环境下大数据的函数依赖发现算法,其基本思想是首先在各个节点利用本地数据并行进行函数依赖发现,基于以上发现的结果对函数依赖候选集进行剪枝,然后进一步利用函数依赖的左部(left hand side,LHS)的特征,对函数依赖候选集进行分组,针对每一组候选函数依赖并行执行分布式环境发现算法,最终得到所有函数依赖.对不同分组情况下所能检测的候选函数依赖数量进行了分析,在算法的执行过程中,综合考虑了数据迁移量和负载均衡的问题.在真实的大数据集上的实验表明,提出的检测算法在检测效率方面与已有方法相比有明显的提升.  相似文献   

9.
仲志平  仲晓辉 《微机发展》2012,(1):217-220,224
数据冲突是数据库中数据质量中心问题之一。在集中式数据库中,基于SQL技术可以有效地检测出违背给定条件函数依赖集的元组。然而,当数据库中数据被水平或垂直划分且分布在不同站点时,检测数据冲突将面临更大的挑战,常常需要将数据从一个站点移动到另外一个站点。提出了分布式数据库中条件函数依赖冲突检测算法,该算法不仅能有效地检测出水平划分数据中条件函数依赖冲突,而且能减少数据传输。实验结果证实算法是有效的。  相似文献   

10.
随着第一次全国水利普查的结束,海量的水利普查数据随之产生。将云计算技术应用在水利普查数据挖掘领域,可以更加快速、高效和低成本地为水利决策提供科学、合理的支持。本文提出基于Map/Reduce的水利普查数据决策树分类挖掘方法MRC4.5算法,并将该算法应用于全国水利普查地下水取水井数据挖掘中。实验结果表明,与传统的C4.5算法相比,MRC4.5算法在处理大规模数据集时具有更高的执行效率和良好的加速比。  相似文献   

11.
针对条件函数依赖(CFDs)对不一致数据检测不完备问题,提出基于最大依赖集(MDS)的依赖提升算法(DLA),通过获取依赖中包含的隐性依赖(RCFDs)对数据集中的不一致数据进行检测。利用动态值域调整,设置数值变化的前移和后移指针,改进原算法的枚举过程,提高了算法对连续属性的适用性,给出动态值域调整和依赖提升算法的算法流程和伪代码,并对算法的收敛性和时间复杂度进行分析。最后通过对照实验,对比了依赖提升算法和基于CFDs的检测方法的检测精度和时间代价,验证了算法的有效性。  相似文献   

12.
Conditional functional dependencies(CFDs) are important techniques for data consistency. However, CFDs are limited to 1) provide the reasonable values for consistency repairing and 2) detect potential errors. This paper presents context-aware conditional functional dependencies(CCFDs) which contribute to provide reasonable values and detect potential errors. Especially, we focus on automatically discovering minimal CCFDs. In this paper, we present context relativity to measure the relationship of CFDs. The overlap of the related CFDs can provide reasonable values which result in more accuracy consistency repairing, and some related CFDs are combined into CCFDs.Moreover,we prove that discovering minimal CCFDs is NP-complete and we design the precise method and the heuristic method. We also present the dominating value to facilitate the process in both the precise method and the heuristic method. Additionally, the context relativity of the CFDs affects the cleaning results. We will give an approximate threshold of context relativity according to data distribution for suggestion. The repairing results are approvedmore accuracy, even evidenced by our empirical evaluation.  相似文献   

13.
王欢  张云峰  张艳 《计算机科学》2018,45(3):311-316
数据一致性是大数据质量管理研究的一个重要内容。条件函数依赖(CFDs)是维护数据一致性的有效技术手段。然而,在修复过程中选择不同的CFDs修复顺序,会影响修复的准确性和效率。因此,如何选取一个正确且合理的修复顺序对数据修复至关重要。针对该问题,提出一种基于CFDs规则的快速判定修复序列的计算方法。首先,设计了一种数据修复框架。然后,利用CFDs之间的关联关系,提出了修复序列图的概念, 以用于CFDs修复顺序的计算。一方面,可以避免某些错误的或者不必要的数据修复,提高修复的准确性。另一方面,使用规则来判定修复顺序比使用实际数据进行判定更为快速。此外,在判定修复序列的过程中,对修复死锁进行了检测,保证了修复过程的可终止性。最后,通过在真实数据集上与现有方法进行对比实验,证明了所提方法具有更高的准确性和运行效率。  相似文献   

14.
Conditional functional dependencies (CFDs) are a critical technique for detecting inconsistencies while they may ignore some potential inconsistencies without considering the content relationship of data. Content-related conditional functional dependencies (CCFDs) are a type of special CFDs, which combine content-related CFDs and detect potential inconsistencies by putting content-related data together. In the process of cleaning inconsistencies, detection and repairing are interactive: 1) detection catches inconsistencies, 2) repairing corrects caught inconsistencies while may bring new inconsistencies. Besides, data are often fragmented and distributed into multiple sites. It consequently costs expensive shipment for inconsistencies cleaning. In this paper, our aim is to repair inconsistencies in distributed content-related data. We propose a framework consisting of an inconsistencies detection method and an inconsistencies repairing method, which work iteratively. The detection method marks the violated CCFDs for computing the inconsistencies which should be repaired preferentially. Based on the repairing-cost model presented in this paper, we prove that the minimum-cost repairing using CCFDs is NP-complete. Therefore, the repairing method heuristically repairs the inconsistencies with minimum cost. To improve the efficiency and accuracy of repairing, we propose distinct values and rules sequences. Distinct values make less data shipments than real data for communication. Rules sequences determine appropriate repairing sequences to avoid some incorrect repairs. Our solution is proved to be more effective than CFDs by empirical evaluation on two real-life datasets.  相似文献   

15.
16.
现有基于学习的人脸超分辨率算法假设高低分辨率特征具有流形一致性(耦合字典学习),然而低分辨率图像的降质过程使得高低分辨率特征产生了“一对多”的映射关系偏差,减少了极低分辨率图像特征的判决信息,降低了超分辨率重建图像的识别率。针对这一问题,引入了半耦合稀疏字典学习模型,松弛高低分辨率流形一致性假设,同时学习稀疏表达字典和稀疏表达系数之间的映射函数,提升高低分辨率判决特征的一致性,在此基础上,引入协同分类模型,实现半耦合特征的高效分类。实验表明:相比于传统稀疏表达分类算法,算法不仅提高了识别率,并且还大幅度降低了时间开销,验证了半耦合稀疏学习字典在人脸识别中的有效性。  相似文献   

17.
利用语音信号在离散余弦变换( DCT)域的近似稀疏性和量化压缩感知理论,文中提出一种基于量化压缩感知的语音压缩编码方案。编码端利用压缩感知技术,将语音信号投影成数据量大大减少的观测序列,然后对观测序列采用Lloyd-Max量化得到量化后的观测样值;解码端直接利用量化后的观测样值,结合重构算法重构出原始语音信号的DCT系数,经过DCT反变换得到重构后的语音信号,并采用后置低通滤波器改善重构语音的听觉效果。该编码方案解码端不需要进行反量化,而是直接利用量化后的观测样值进行重构,有效降低了解码端的运算量及复杂度。仿真结果表明:采用量化迭代硬阈值(QIHT)算法重构效果优于迭代硬阈值算法(IHT),重构语音的信噪比能达到20 dB以上,MOS分达到3.26。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号