首页 | 本学科首页   官方微博 | 高级检索  
     

分布式大数据不一致性检测
引用本文:李卫榜,李战怀,陈群,杨婧颖,姜涛. 分布式大数据不一致性检测[J]. 软件学报, 2016, 27(8): 2068-2085
作者姓名:李卫榜  李战怀  陈群  杨婧颖  姜涛
作者单位:西北工业大学 计算机科学学院, 陕西 西安 710072,西北工业大学 计算机科学学院, 陕西 西安 710072,西北工业大学 计算机科学学院, 陕西 西安 710072,西北工业大学 计算机科学学院, 陕西 西安 710072,西北工业大学 计算机科学学院, 陕西 西安 710072
基金项目:国家重点基础研究发展计划(973)(2012CB316203);国家自然科学基金(61472321,61332006,61502390);国家高技术研究发展计划(863)(2015AA015307);西北工业大学基础研究基金(3102014JSJ0005,3102014JSJ0013)
摘    要:关系数据库中可能存在数据不一致性现象,关系数据库数据质量的一个主要问题是存在违反函数依赖情况.为找出不一致数据,需要进行函数依赖冲突检测.集中式数据库中可以通过SQL技术检测不一致情况,尽管检测效率不高;而分布式环境下不一致性检测更富有挑战性,不仅需要考虑数据的迁移,检测任务如何分配也是一个难题.在大数据背景下,上述问题更加突出.提出了一种分布式环境单函数依赖不一致性检测方法,给出了不一致性检测响应时间代价模型.为减少数据迁移量和响应时间,基于等价类对待检测数据进行预处理.由于分布式环境不一致性检测问题为NP-hard问题,多项式时间内难以得到最优解,给出了代价模型的多项式时间3/2-近似最优解.提出了一种分布式环境多函数依赖不一致性检测方法,基于最小集合覆盖理论,通过一次数据遍历,对多个函数依赖进行并行批检测,同时考虑检测过程中的负载均衡等问题.在真实和人工数据集上的实验表明:相对于传统的检测方法以及基于Hadoop的Naïve方法,所提出的检测方法检测效率有明显的提升,且扩展性能良好.

关 键 词:函数依赖  不一致性  冲突检测  分布式数据  大数据
收稿时间:2015-08-07
修稿时间:2016-02-23

Inconsistency Detection in Distributed Big Data
LI Wei-Bang,LI Zhan-Huai,CHEN Qun,YANG Jing-Ying and JIANG Tao. Inconsistency Detection in Distributed Big Data[J]. Journal of Software, 2016, 27(8): 2068-2085
Authors:LI Wei-Bang  LI Zhan-Huai  CHEN Qun  YANG Jing-Ying  JIANG Tao
Affiliation:College of Computer Science, Northwestern Polytechnical University, Xi''an 710072, China,College of Computer Science, Northwestern Polytechnical University, Xi''an 710072, China,College of Computer Science, Northwestern Polytechnical University, Xi''an 710072, China,College of Computer Science, Northwestern Polytechnical University, Xi''an 710072, China and College of Computer Science, Northwestern Polytechnical University, Xi''an 710072, China
Abstract:
Keywords:functional dependency  inconsistency  violation detection  distributed data  big data
点击此处可从《软件学报》浏览原始摘要信息
点击此处可从《软件学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号