首页 | 本学科首页   官方微博 | 高级检索  
     

分布式大数据函数依赖发现
引用本文:李卫榜,李战怀,陈群,姜涛,刘海龙,潘巍.分布式大数据函数依赖发现[J].计算机研究与发展,2015,52(2):282-294.
作者姓名:李卫榜  李战怀  陈群  姜涛  刘海龙  潘巍
作者单位:西北工业大学计算机科学学院 西安710072
基金项目:国家“九七三”重点基础研究发展计划基金项目,国家自然科学基金项目,国家“八六三”高技术研究发展计划基金项目,西北工业大学基础研究基金项目
摘    要:在关系数据库中,函数依赖发现是一种十分重要的数据库分析技术,在知识发现、数据库语义分析、数据质量评估以及数据库设计等领域有着广泛的应用.现有的函数依赖发现算法主要针对集中式数据,通常仅适用于数据规模比较小的情况.在大数据背景下,分布式环境函数依赖发现更富有挑战性.提出了一种分布式环境下大数据的函数依赖发现算法,其基本思想是首先在各个节点利用本地数据并行进行函数依赖发现,基于以上发现的结果对函数依赖候选集进行剪枝,然后进一步利用函数依赖的左部(left hand side,LHS)的特征,对函数依赖候选集进行分组,针对每一组候选函数依赖并行执行分布式环境发现算法,最终得到所有函数依赖.对不同分组情况下所能检测的候选函数依赖数量进行了分析,在算法的执行过程中,综合考虑了数据迁移量和负载均衡的问题.在真实的大数据集上的实验表明,提出的检测算法在检测效率方面与已有方法相比有明显的提升.

关 键 词:函数依赖发现  函数依赖  大数据  知识发现  并行计算

Functional Dependencies Discovering in Distributed Big Data
Li Weibang,Li Zhanhuai,Chen Qun,Jiang Tao,Liu Hailong,Pan Wei.Functional Dependencies Discovering in Distributed Big Data[J].Journal of Computer Research and Development,2015,52(2):282-294.
Authors:Li Weibang  Li Zhanhuai  Chen Qun  Jiang Tao  Liu Hailong  Pan Wei
Affiliation:Li Weibang;Li Zhanhuai;Chen Qun;Jiang Tao;Liu Hailong;Pan Wei;College of Computer Science,Northwestern Polytechnical University;
Abstract:
Keywords:discovering functional dependencies  functional dependencies  big data  knowledge discovery  parallel computing
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号