首页 | 本学科首页   官方微博 | 高级检索  
     

基于AP聚类的不完整大数据填充
引用本文:冷泳林,张清辰,鲁富宇. 基于AP聚类的不完整大数据填充[J]. 计算机工程与应用, 2015, 51(10): 123-127
作者姓名:冷泳林  张清辰  鲁富宇
作者单位:1.渤海大学 信息科学与技术学院,辽宁 锦州 1210002.大连理工大学 软件学院,辽宁 大连 116620
基金项目:国家自然科学基金(No.U1301253);辽宁省自然科学基金(No.2013020014);中国高等职业技术教育研究会规划课题(No.GZYGH1213036,No.GZYGH1213035)。
摘    要:不完整数据的分析与填充一直是大数据处理的热点研究课题,传统的分析方法无法对不完整数据直接聚类,大部分方法先填充缺失值,然后对数据聚类。这些方法一般利用整个数据集对缺失数据进行填充,使得填充值容易受到噪声的干扰,导致填充结果不精确,进而造成聚类精度很低。提出一种不完整数据聚类算法,对不完全信息系统的相似度公式进行重新定义,给出不完整数据对象间的相似度度量方式,进而直接对不完整数据聚类。根据聚类结果将同一类对象划分到相同的簇中,通过同一类对象的属性值对缺失值进行填充,避免噪声对填充值的干扰,提高填充结果的精确性。实验结果表明,提出的方法能够对不完整数据进行聚类,并有效提高缺失数据的填充精度。

关 键 词:不完整大数据  聚类分析  数据填充  

Incomplete big data imputation algorithm based on AP clustering
LENG Yonglin,ZHANG Qingchen,LU Fuyu. Incomplete big data imputation algorithm based on AP clustering[J]. Computer Engineering and Applications, 2015, 51(10): 123-127
Authors:LENG Yonglin  ZHANG Qingchen  LU Fuyu
Affiliation:1.College of Information Science and Technology, Bohai University, Jinzhou, Liaoning 121000, China2.School of Software Technology, Dalian University of Technology, Dalian, Liaoning 116620, China
Abstract:Imputing missing values is a hot research topic in big data processing. Incomplete big data could not be clustered directly, which must be preprocessed, such as inputing missing values. Traditional algorithms, which fill missing values depending on the statistical theory of the data set, are corrupted by noise data, which decreases the imputation accuracy. The paper proposes a novel algorithm to fill missing values based on AP clustering, which clusters incomplete big data directly by proposing a new similarity metrics. The data in the same cluster is utilized to fill missing values which aims at avoiding noise corruption to improve the filling accuracy. Experiment demonstrates the proposed algorithm can cluster the incomplete big data directly and improve the accuracy for filling missing data effectively.
Keywords:incomplete big data  clustering analysis  data imputation
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号