首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
数据一致性是数据质量管理的一个重要内容。为了提升图数据一致性,大量关系型数据库中的数据依赖理论被引入到图数据库,包括图函数依赖、图关联规则等。图修复规则是最新提出的一种针对图数据的数据依赖规则,具有强大的修复能力,但目前尚无有效的挖掘算法。为了自动生成图修复规则并提高图数据修复的可靠性,提出一种将图常量条件函数依赖转化为图修复规则的方法(GenGRR)。通过图模式在图中匹配同构子图并映射成节点-属性二维表,从表中相应属性域中抽取错误模式把图常量条件函数依赖转化成图属性值修复规则;删去图模式中常量条件函数依赖RHS对应的节点与相连边生成图属性补充规则。基于最大公共同构子图筛选并验证生成图修复规则的一致性。在多个真实数据集上进行测试,验证相比图常量条件函数直接修复图数据,通过转化生成的图修复规则具有更好的修复效果。  相似文献   

2.
金澈清  刘辉平  周傲英 《软件学报》2016,27(7):1671-1684
随着经济与信息技术的发展,在许多应用中均产生大量数据.然而,受硬件设备、人工操作、多源数据集成等诸多因素的影响,在这些应用之中往往存在较为严重的数据质量问题,特别是不一致性问题,从而无法有效管理数据.因此,首要的任务就是开发新型数据清洗技术来提升数据质量,以支持后续的数据管理与分析.现有工作主要研究基于函数依赖的数据修复技术,即以函数依赖来描述数据一致性约束,通过变更数据库中部分元组的属性值(而非增加/删除元组)来使得整个数据库遵循函数依赖集合.从一致性约束描述的角度来看,函数依赖并非是唯一的表达方式,还存在其他表达方式,例如硬约束、数量约束、等值约束、非等值约束等.然而,随着一致性约束种类的增加,其处理难度也远比仅有函数依赖的场景要困难.本文考虑以函数依赖与其他一致性约束共同表述数据库的一致性约束,并在此基础上设计数据修复算法,从而提升数据质量.实验结果表明,本文所提方法的执行效率较高.  相似文献   

3.
在普适计算环境中,上下文信息由于受到噪声等不可控因素的干扰,面临着一致性错误的问题。这些错误会影响应用的正常运行,使其表现异常甚至失效。目前已经有自动的一致性错误处理方法来保障应用所获取的上下文满足数据层面的一致性约束,然而在数据层面保持一致是否能提升应用的运行质量并不明确。系统地研究了这个问题,并基于一组真实的上下文感知机器人小车应用,设计了一系列受控实验,来分析和比较在模拟和真实世界中上下文一致性错误的处理方式对应用运行质量的改善程度及潜在的负面影响。利用该实验的分析结果,将有助于提高普适计算中上下文感知应用的运行质量。  相似文献   

4.
完整性约束有效地维护了数据的合法性和有效性,而越来越多的数据库应用依赖于多个独立的数据源,即使对于给定的约束,这些数据源分别是一致的,集成时就可能不一致.一致性查询应答(CQA)基于候选数据库语义,保持非一致性源数据不变,在查询时获取一致性信息.本文讨论了CQA的查询重写、概率方法、冲突图和逻辑编程等计算机制,并基于普通CQA语义进一步分析了聚集查询的范围语义;通过对CQA计算方法和聚集查询计算复杂性的比较,分析得到在实际中大部分查询是PTIME的;对于是单一函数依赖的一些聚集函数,CQA采用查询重写是PTIME的.此外总结了不同的应用领域下其他候选数据库语义,最后提出了需要进一步研究的问题.  相似文献   

5.
针对XML函数依赖(XFD)不能充分检测XML局部数据源语义上的数据不一致,借鉴关系数据库中条件函数依赖(CFD)的概念,并根据XML自身结构和约束特性,提出了基于内容感知发现(CAD)XML条件函数依赖(XCFD),CAD使用隐藏在数据值中的内容发现局部XML文档的XCFDs,检测异构数据源中数据一致性,提高数据的质量,并给出了详细的算法,同时引入修剪规则集减少搜索点阵和候选的XCFD的数量,提高算法的效率,使得XCFD无冗余、最小化.通过案例研究表明,基于CAD方法发现的XCFD比现有XFD发现更多的函数依赖和语义约束.  相似文献   

6.
胡艳丽  张维明 《计算机科学》2009,36(12):115-118
介绍了条件函数依赖理论及如何用于检测不一致数据.首先介绍了条件函数依赖的概念及其推理系统,以及如何通过依赖传播实现视图的规范化;阐述了条件函数依赖的一致性和蕴含判定问题,并在此基础上介绍了基于条件函数依赖检测关系数据库数据一致性的技术;最后讨论了条件函数依赖的扩展及应用.  相似文献   

7.
分布式数据库系统出现了支持多协调器和多副本存储的新架构,这给事务调度的正确性带来了新的挑战,包括缺少中心协调器带来的新数据异常以及多副本机制带来的读取数据一致性等问题.基于事务隔离级别和分布式系统一致性协议的定义,为多协调器多副本分布式数据库的事务多级一致性构建了一个混合依赖图模型.该形式化模型为事务的正确调度提供具有鲁棒性的评价标准,可以方便地对数据库事务调度情况进行动态或静态分析检验.  相似文献   

8.
在实时协同系统中,传统的语义维护主要是针对文本编辑器中基于字符操作的一致性维护。 在这种编辑环境下,字符和字符之间虽然具有前后继关系,但在属性上没有参照或者依赖关系。然而,在图形编辑领域,在操作执行过程中,常通过捕获方式建立对象和对象之间的参照关系。针对这种参照关系的维持,目前实时协同中尚未有相关的研究。因此本文提出了CRSCM(Create Relation Semantic Consistency Maintenance)语义一致性维护策略。该策略首先根据参照操作的语义信息,构建参照实体与目标实体之间的依赖关系图DRG(Dependency Relation Graph)结构。然后,通过远程操作重新获取被捕捉对象属性、并发操作执行更新转换的策略。从而实现了参照操作与其它并发操作的语义维持,并在一定程度上有效解决了协同图编辑中的一致性问题。  相似文献   

9.
针对企业数据集成中存在的数据质量问题,为解决集成数据的不一致性问题,提出基于CFD、CIND进行数据一致性检测和基于订阅规则进行数据发布的主数据管理系统。系统搭建于SOA架构之上,通过主数据抽取、主数据质量控制、主数据发布等组件功能为各应用系统提供透明的单一主数据视图,并实现了主数据变更流程的自动管理。应用结果表明,使用主数据管理有效地解决了在各应用系统中流转数据的一致性问题,从而提高了集成数据的质量。  相似文献   

10.
苏杰  杨祖超  田聪  段振华 《软件学报》2023,34(7):3064-3079
模型检测是一种基于状态空间搜索的自动化验证方法,可以有效地提升程序的质量.然而,由于并发程序中线程调度的不确定性以及数据同步的复杂性,对该类程序验证时存在更为严重的状态空间爆炸问题.目前,大多采用基于独立性分析的偏序约简技术缩小并发程序探索空间.针对粗糙的独立性分析会显著增加需探索的等价类路径问题,开发了一款可细化线程迁移依赖性分析的并发程序模型检测工具CDG4CPV.首先,构造了待验证可达性性质对应的规约自动机;随后,根据线程迁移边的类型和共享变量访问信息构建约束依赖图;最后,利用约束依赖图剪裁控制流图在展开过程中的独立可执行分支.在SV-COMP 2022竞赛的并发程序数据集上进行了对比实验,并对工具的效率进行比较分析.实验结果表明,该工具可以有效地提升并发程序模型检测的效率.特别是,与基于BDD的程序分析算法相比,该工具可使探索状态数目平均减少91.38%,使时间和空间开销分别平均降低86.25%和69.80%.  相似文献   

11.
针对目前已有的文本分类方法未考虑文本内部词之间的语义依存信息而需要大量训练数据的问题,提出基于语义依存分析的图网络文本分类模型TextSGN。首先对文本进行语义依存分析,对语义依存关系图中的节点(单个词)和边(依存关系)进行词嵌入和one-hot编码;在此基础上,为了对语义依存关系进行快速挖掘,提出一个SGN网络块,通过从结构层面定义信息传递的方式来对图中的节点和边进行更新,从而快速地挖掘语义依存信息,使得网络更快地收敛。在多组公开数据集上训练分类模型并进行分类测试,结果表明,TextSGN模型在短文本分类上的准确率达到95.2%,较次优分类法效果提升了3.6%。  相似文献   

12.
王欢  张云峰  张艳 《计算机科学》2018,45(3):311-316
数据一致性是大数据质量管理研究的一个重要内容。条件函数依赖(CFDs)是维护数据一致性的有效技术手段。然而,在修复过程中选择不同的CFDs修复顺序,会影响修复的准确性和效率。因此,如何选取一个正确且合理的修复顺序对数据修复至关重要。针对该问题,提出一种基于CFDs规则的快速判定修复序列的计算方法。首先,设计了一种数据修复框架。然后,利用CFDs之间的关联关系,提出了修复序列图的概念, 以用于CFDs修复顺序的计算。一方面,可以避免某些错误的或者不必要的数据修复,提高修复的准确性。另一方面,使用规则来判定修复顺序比使用实际数据进行判定更为快速。此外,在判定修复序列的过程中,对修复死锁进行了检测,保证了修复过程的可终止性。最后,通过在真实数据集上与现有方法进行对比实验,证明了所提方法具有更高的准确性和运行效率。  相似文献   

13.
粗糙集理论作为一种处理不精确和不一致数据的数学工具被广泛应用于特征子集选择和属性约简中。在大多数现存的算法中,属性依赖度被用来度量特征子集的重要性,而依赖度在处理不一致信息系统时会出现找不到任何特征子集的问题。文中讨论了使用属性依赖性作为度量的缺点和不足,引入一种一致性度量,分析了其和依赖性之间的关系,重新定义了信息系统的多余属性和约简的概念,并构造了基于一致性度量的前向贪婪搜索算法。通过UCI数据集合验证了算法能够有效地处理不一致信息系统。  相似文献   

14.
Schema matching is one of the key challenges in information integration. It is a labor-intensive and time-consuming process. To alleviate the problem, many automated solutions have been proposed. Most of the existing solutions mainly rely upon textual similarity of the data to be matched. However, there exist instances of the schema matching problem for which they do not even apply. Such problem instances typically arise when the column names in the schemas and the data in the columns are opaque or very difficult to interpret. In our previous work [36] we proposed a two-step technique to address this problem. In the first step, we measure the dependencies between attributes within tables using an information-theoretic measure and construct a dependency graph for each table capturing the dependencies among attributes. In the second step, we find matching node pairs across the dependency graphs by running a graph matching algorithm. In our previous work, we experimentally validated the accuracy of the approach. One remaining challenge is the computational complexity of the graph matching problem in the second step. In this paper we extend the previous work by improving the second phase of the algorithm incorporating efficient approximation algorithms into the framework.  相似文献   

15.
Development processes in engineering disciplines are inherently complex. Throughout the development process, the system to be built is modeled from different perspectives, on different levels of abstraction, and with different intents. Since state-of-the-art development processes are highly incremental and iterative, models of the system are not constructed in one shot; rather, they are extended and improved repeatedly. Furthermore, models are related by manifold dependencies and need to be maintained mutually consistent with respect to these dependencies. Thus, tools are urgently needed which assist developers in maintaining consistency between inter-dependent and evolving models. These tools have to operate incrementally, i.e., they have to propagate changes performed on one model into related models which are affected by these changes. In addition, they need to support user interactions in settings where the effects of changes cannot be determined automatically and deterministically. We present an algorithm for incremental and interactive consistency maintenance which meets these requirements. The algorithm is based on graphs, which are used as the data model for representing the models to be integrated, and graph transformation rules, which describe the modifications of the graphs to be performed on a high level of abstraction. This paper is an extended version of [6].  相似文献   

16.
近年来,图神经网络模型因其对非欧氏数据的建模和对全局依赖关系的捕获能力而广泛应用于文本分类任务。现有的基于图卷积网络的分类模型中的构图方法存在消耗内存过大、难以适应新文本等问题。此外,现有研究中用于描述图节点间的全局依赖关系的方法并不完全适用于分类任务。为解决上述问题,该文设计并提出了基于概率分布的文本分类网络模型,以语料库中的词和标签为节点构建标签-词异构关系图,利用词语在各标签上的概率分布描述节点间的全局依赖关系,并通过图卷积操作进行文本表示学习。在5个公开的文本分类数据集上的实验表明,该文提出的模型在有效缩减图尺寸的同时,相比于其他文本分类网络模型取得了较为先进的结果。  相似文献   

17.
刘鹏  赵荣彩  庞建民  姚远 《软件学报》2014,25(11):2486-2498
指针分析是数据流分析中的关键性技术,其分析结果是编译优化和程序变换的基础。在基于包含的指针分析算法研究的基础上,对 Narse 优先权约束评估算法中存在的冗余约束评估和优先权评估模型计算开销较大的问题进行分析,以指针的指向集更新信息确定约束评估的候选集,提出了基于指向更新的约束评估算法。采用约束语句间的解,引用依赖和标量依赖构建约束依赖图,通过依赖关系确定约束评估的优先权,提出了基于约束依赖图的优先权算法,简化了既有算法中复杂的优先权评估模型,进一步给出了优化后算法的整体框架。在基准测试集 SPEC 2000/SPEC 2006上进行实验,其结果表明,该算法与Narse优先权算法相比,在时间开销和存储开销上都有明显的性能提升。  相似文献   

18.
傅妤婧  张俊  王毅恒 《计算机科学》2018,45(Z11):511-517
实体间存在各种各样的依赖关系,尤其是在软件开发过程中,软件实体间的依赖关系对软件的变更影响分析以及风险分析等都具有重大影响。依赖图作为最常用的依赖关系表示方法,其节点与边的定义与属性计算不尽相同,且大部分方法中并没有考虑到节点与边的时态属性。针对时态实体依赖图,文中系统地提出了时态实体依赖关系的形式化定义并分析了其特性,然后分析了时态实体依赖图的节点中心性、节点重要性、节点依赖度和边的重要性等4个度量指标,同时,针对MAVEN数据集分析了上述各个指标随时间变化的规律。  相似文献   

19.
随着数据来源方式的多样化发展,多视图聚类成为研究热点。大多数算法过于专注利用图结构寻求一致表示,却忽视了如何学习图结构本身;此外,一些方法通常基于固定视图进行算法优化。为了解决这些问题,提出了一种基于相似图投影学习的多视图聚类算法(multi-view clustering based on similarity graph projection learning, MCSGP),通过利用投影图有效地融合了全局结构信息和局部潜在信息到一个共识图中,而不仅是追求每个视图与共识图的一致性。通过在共识图矩阵的图拉普拉斯矩阵上施加秩约束,该算法能够自然地将数据点划分到所需数量的簇中。在两个人工数据集和七个真实数据集的实验中,MCSGP算法在人工数据集上的聚类效果表现出色,同时在涉及21个指标的真实数据集中,有17个指标达到了最优水平,从而充分证明了该算法的优越性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号