首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
李卫榜  李战怀  陈群  杨婧颖  姜涛 《软件学报》2016,27(8):2068-2085
关系数据库中可能存在数据不一致性现象,关系数据库数据质量的一个主要问题是存在违反函数依赖情况.为找出不一致数据,需要进行函数依赖冲突检测.集中式数据库中可以通过SQL技术检测不一致情况,尽管检测效率不高;而分布式环境下不一致性检测更富有挑战性,不仅需要考虑数据的迁移,检测任务如何分配也是一个难题.在大数据背景下,上述问题更加突出.提出了一种分布式环境单函数依赖不一致性检测方法,给出了不一致性检测响应时间代价模型.为减少数据迁移量和响应时间,基于等价类对待检测数据进行预处理.由于分布式环境不一致性检测问题为NP-hard问题,多项式时间内难以得到最优解,给出了代价模型的多项式时间3/2-近似最优解.提出了一种分布式环境多函数依赖不一致性检测方法,基于最小集合覆盖理论,通过一次数据遍历,对多个函数依赖进行并行批检测,同时考虑检测过程中的负载均衡等问题.在真实和人工数据集上的实验表明:相对于传统的检测方法以及基于Hadoop的Naïve方法,所提出的检测方法检测效率有明显的提升,且扩展性能良好.  相似文献   

2.
在现实应用中,一些关系数据的规范化程度不高,往往存在数据冗余和不一致现象。为了有效评估此类数据 中的属性重要程度,提出了一种基于近似函数依赖的属性权重评估方法。该方法基于一致集的概念导出最大集,生成 最小非平凡函数依赖集,从而找出属性之间的近似函数依赖关系,进而求出近似候选码和近似关键字,在此基础上根 据属性支持度计算属性权重。实验结果和分析表明,提出的属性权重评估方法能够合理地获取关系数据中的属性重 要程度,算法具有较好的稳定性和较高的执行效率。  相似文献   

3.
金澈清  刘辉平  周傲英 《软件学报》2016,27(7):1671-1684
随着经济与信息技术的发展,在许多应用中均产生大量数据.然而,受硬件设备、人工操作、多源数据集成等诸多因素的影响,在这些应用之中往往存在较为严重的数据质量问题,特别是不一致性问题,从而无法有效管理数据.因此,首要的任务就是开发新型数据清洗技术来提升数据质量,以支持后续的数据管理与分析.现有工作主要研究基于函数依赖的数据修复技术,即以函数依赖来描述数据一致性约束,通过变更数据库中部分元组的属性值(而非增加/删除元组)来使得整个数据库遵循函数依赖集合.从一致性约束描述的角度来看,函数依赖并非是唯一的表达方式,还存在其他表达方式,例如硬约束、数量约束、等值约束、非等值约束等.然而,随着一致性约束种类的增加,其处理难度也远比仅有函数依赖的场景要困难.本文考虑以函数依赖与其他一致性约束共同表述数据库的一致性约束,并在此基础上设计数据修复算法,从而提升数据质量.实验结果表明,本文所提方法的执行效率较高.  相似文献   

4.
大数据时代悄然而至,数据质量也引起人们的关注。在提高数据质量方面,很重要的一部分是解决数据不一致性问题。针对大数据情况下的数据不一致问题,本文提出了在MAP-REDUCE框架下的聚类算法。本文在MAP-REDUCE框架下对K-MEDOIDS聚类算法进行了改进,增强了算法的适用性和精确性,并通过仿真实验验证了在大数据环境下该算法的并行性和有效性。  相似文献   

5.
软件需求中不一致性处理方案的评估方法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出了一种评估软件需求中不一致性处理方案的方法。给定应用场景,对于每个处理方案,主要关注采用该方案修正后的需求规格说明所能推导出的待开发系统的期望响应,并且这些期望响应的相对重要程度被视为评估该方案适合程度的一个重要参数。在这个意义上,定义效用向量函数来度量每一处理方案的适合程度。进一步采用效用向量函数来比较任意两个处理方案。通过这种比较,定义不一致需求处理方案集上的一种序关系(“更适合”)。文章提出的评估方法将为自动选择不一致性处理方案提供基础。  相似文献   

6.
王欢  张云峰  张艳 《计算机科学》2018,45(3):311-316
数据一致性是大数据质量管理研究的一个重要内容。条件函数依赖(CFDs)是维护数据一致性的有效技术手段。然而,在修复过程中选择不同的CFDs修复顺序,会影响修复的准确性和效率。因此,如何选取一个正确且合理的修复顺序对数据修复至关重要。针对该问题,提出一种基于CFDs规则的快速判定修复序列的计算方法。首先,设计了一种数据修复框架。然后,利用CFDs之间的关联关系,提出了修复序列图的概念, 以用于CFDs修复顺序的计算。一方面,可以避免某些错误的或者不必要的数据修复,提高修复的准确性。另一方面,使用规则来判定修复顺序比使用实际数据进行判定更为快速。此外,在判定修复序列的过程中,对修复死锁进行了检测,保证了修复过程的可终止性。最后,通过在真实数据集上与现有方法进行对比实验,证明了所提方法具有更高的准确性和运行效率。  相似文献   

7.
随着语义网技术的发展,本体不一致性问题成为本体研究中的热点之一.度量本体的不一致度是处理本体不一致的基础和前提.在分析证据理论不确定推理方法特点与本体不一致性度量问题特点的基础上,提出了一种基于证据理论的本体不一致性度量ETOICM方法,对相关结果进行了证明,给出了度量的计算公式和实现算法,通过实验将该方法与相关方法进行对比分析,说明了该方法的特点.另外,ETOICM方法的度量结果可以作为权重值,为下一步采用不确定性方法进行本体不一致的诊断修复和推理工作提供依据.  相似文献   

8.
资源描述框架(RDF)是由W3C提出的开放型数据模型,对语义Web中信息资源的语义表达和描述标准化。语义网的快速发展和RDF的普遍应用,产生大量的时态RDF数据。时态RDF数据的一致性能提高时态RDF数据的准确性,也有助于提高数据库系统的可靠性和高效性,对于时态信息处理也能提供可靠的保证。针对支持有效时间的时态RDF数据存在的不一致性情况,提出了相关的修复算法,对于时态RDF数据实时更新,分析变化操作产生的不一致性并进行了预处理,实验验证了可行性。  相似文献   

9.
基于可能世界的网构软件模型及可信性研究*   总被引:1,自引:0,他引:1  
刘超  王文杰 《计算机应用研究》2010,27(12):4604-4607
为了解决网构软件的应用建模中发生的主观逻辑冲突问题,首先从认识论入手,提出了影子实体的概念,将逻辑冲突归结为实体内涵的不一致所致;为了解决影子实体的自身安全问题,引入了可能世界理论,给出了一种可能世界的语义学解释,并在可能世界的基础之上构建了软件实体交互模型。然后,结合形式概念分析技术,提出了信任格的概念。最后,讨论了信任模型的几点应用,证明了资源分配公平存在性定理,在资源分配问题上为阿罗不可能定理提供了新的解决方案,进而表明主观逻辑冲突问题是可解的。  相似文献   

10.
为了实现网构软件的自动推理问题,在基于可能世界的网构软件模型上,给出了一种基于概念分析的自动推理系统。通过对三段论的分析得到了自动推理的一般原则,并运用这些原则解释了三段论中正确的24式。通过对形式概念的讨论得到了概念编码的方法,并给出了编码的三值运算规则。最后,通过一个具体例子的应用分析,给出了使用该编码进行自动推理的一般步骤,运算结果表明,自动推理方法在机械化与效率方面优于传统的归结原理。  相似文献   

11.
基于数据依赖的数据修复研究进展   总被引:2,自引:0,他引:2  
介绍了数据依赖理论及如何基于数据依赖修复不一致数据,提高数据质量。首先介绍了数据依赖理论;给出了数据修复的语义假设及对应的修复操作;总结了基于数据依赖修复不一致数据的方法;最后讨论了基于数据依赖修复不一致数据的未来发展方向。  相似文献   

12.
孙平平  刘方爱 《微机发展》2011,(10):70-72,76
不确定数据普遍存在于大量应用之中,如在传感器网络、P2P系统、移动计算及RFID(Radio Frequency IDentification)等,研究者已经提出了多种针对不确定数据库的数据模型,其核心思想都源自于可能世界模型。针对可能世界模型能够演化出数量远大于不确定数据库规模的可能世界实例,文中提出一种减小可能世界的RPW—kBest算法,此算法利用概率和评定条件进行筛选,尽可能将不影响查询结果的数据抛弃,使之在最小的搜索空间内完成查询处婵过程,以降低存储开销。实验结果表明,此算法能正确的得到查询结果并显著提高查淘效率和降低内存使用。  相似文献   

13.
在实际应用中,为不一致的XML 文档计算最优修复意义重大.但求解最优修复是一个NP 完全问题,特别是在XML 文档同时违反函数依赖约束和主键约束时.提出一个基于代价模型的、可以在多项式时间内完成的启发式修复求解算法.该算法首先借助索引表,在一遍扫描原始XML 文档的情况下寻找不一致数据集,然后为每一类约束的不一致数据集构造候选修复,同时计算其修复代价,最后启发式地求解一个代价最小的修复方案.实验结果表明,该算法的时间复杂度不超过冲突类的3 次方,即便是在不一致数据量很大、噪声比例很大以及涉及多类语义约束时,也能较快地完成修复.  相似文献   

14.
Classical logic cannot be used to effectively reason about concurrent systems with inconsistencies (inconsistencies often occur, especially in the early stage of the development, when large and complex concurrent systems are developed). In this paper, we propose the use of a paraconsistent temporal logic (QCTL) for supporting the verification of temporal properties of such systems even where the consistent model is not available. We introduce a novel notion of paraKripke models, which grasps the paraconsistent character of the entailment relation of QCTL. Furthermore, we explore the methodology of model checking over QCTL, and describe the detailed algorithm of implementing QCTL model checker. In the sequel, a simple example is presented, showing how to exploit the proposed model checking technique to verify the temporal properties of inconsistent concurrent systems.  相似文献   

15.
针对传统词袋方法在深网(Deep Web)数据源分类应用中的局限性,提出一种基于世界知识的Deep Web数据源增强分类模型,通过对外部知识库的主题分析,建立特征映射,构造基于领域概念的辅助分类器,丰富Deep Web查询表单的特征集合。基于Wikipedia百科知识库对真实Web数据进行分类。实验结果证明该模型有效。  相似文献   

16.
An Extended Relational Data Model For Probabilistic Reasoning   总被引:3,自引:0,他引:3  
Probabilistic methods provide a formalism for reasoning aboutpartial beliefs under conditions of uncertainty. This paper suggests a newrepresentation of probabilistic knowledge. This representation encompassesthe traditional relational database model. In particular, it is shown thatprobabilistic conditional independence is equivalent to the notion of generalized multivalued dependency. More importantly,a Markov network can be viewed as a generalized acyclic joindependency. This linkage between these two apparently different butclosely related knowledge representations provides a foundation fordeveloping a unified model for probabilistic reasoning and relationaldatabase systems.  相似文献   

17.
刘琴 《计算机科学》2018,45(4):169-172
为了发现线索,提高数据质量,提出了一种应用于计算机取证领域的基于约束的数据修复算法。首先,利用等价类,针对不同的约束对数据进行初始化;然后,对初始化阶段发现的有问题的数据进行修正,修正值依据约束类型的不同而取不同的值;最后, 根据函数依赖集合和其他约束集,对经过修复的单元格集合重新生成问题单元格集合,如果依然存在问题单元格集合,则继续修复,直到不存在问题单元格为止。实验数据证明了所提方法的有效性和高效性。  相似文献   

18.
自组织机制是可以解释许多系统形成的原因之一。为了模拟现实世界中的网络形成,在自组织网络模型的基础上引入局域世界的概念,提出了一种网络演化模型。讨论了该模型的聚簇系数、介数、效率、可达性、最大簇规模和簇直径等6种拓扑属性。实验结果表明,该网络模型对随机故障和蓄意攻击表现出双重容忍特性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号