首页 | 本学科首页   官方微博 | 高级检索  
     

不完整大数据的分布式聚类填充算法
引用本文:冷泳林,陈志奎,张清辰,鲁富宇.不完整大数据的分布式聚类填充算法[J].计算机工程,2015(5).
作者姓名:冷泳林  陈志奎  张清辰  鲁富宇
作者单位:1. 渤海大学信息科学与技术学院,辽宁 锦州121000; 大连理工大学软件学院,辽宁 大连116620
2. 大连理工大学软件学院,辽宁 大连,116620
3. 渤海大学信息科学与技术学院,辽宁 锦州,121000
基金项目:国家自然科学基金资助项目,中国高等职业技术教育研究会规划课题基金资助项目,辽宁省自然科学基金资助项目,辽宁省社会科学基金资助项目(L14AGL002)。
摘    要:传统大数据填充算法是根据整个数据集对缺失数据进行填充,使得填充值容易受到不同类别数据的干扰,导致填充结果不精确。针对该问题,给出不完整数据的相似度度量方法,使用近邻传播( AP )算法对不完整数据进行聚类。采用云计算技术优化AP聚类算法,实现一种基于MapReduce的分布式聚类算法,根据算法聚类结果将同一类数据对象划分到相同簇中,并利用同一类对象的属性值对缺失值进行填充。实验结果表明,该算法能实现不完整大数据的聚类,同时加快聚类速度,提高缺失数据的填充精度。

关 键 词:不完整大数据  近邻传播聚类  云计算  数据填充  不完整信息系统

Distributed Clustering and Filling Algorithm of Incomplete Big Data
LENG Yonglin,CHEN Zhikui,ZHANG Qingchen,LU Fuyu.Distributed Clustering and Filling Algorithm of Incomplete Big Data[J].Computer Engineering,2015(5).
Authors:LENG Yonglin  CHEN Zhikui  ZHANG Qingchen  LU Fuyu
Abstract:
Keywords:incomplete big data  Affinity Propagation (AP) clustering  cloud computing  data filling  incomplete information system
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号