首页 | 官方网站   微博 | 高级检索  
     

基于哈希技术和MapReduce的大数据集K-近邻算法
引用本文:翟俊海,张明阳,王婷婷,郝璞.基于哈希技术和MapReduce的大数据集K-近邻算法[J].计算机科学,2017,44(7):210-214.
作者姓名:翟俊海  张明阳  王婷婷  郝璞
作者单位:河北大学数学与信息科学学院 保定071002,河北大学数学与信息科学学院 保定071002,河北大学数学与信息科学学院 保定071002,河北大学数学与信息科学学院 保定071002
基金项目:本文受国家自然科学基金项目(71371063),河北省自然科学基金项目(F2017201026),河北省高等学校科学技术研究重点项目(ZD20131028),河北大学研究生创新资助
摘    要:K-近邻是一种著名的分类算法。由于简单且易于实现,因此其被广泛应用于许多领域,如人脸识别、基因分类、决策支持等。然而,在大数据环境中,K-近邻算法变得非常低效,甚至不可行。针对这一问题,提出了一种基于哈希技术和MapReduce的大数据集K-近邻分类算法。为了验证算法的有效性,在4个大数据集上进行了实验,结果显示,在保持分类能力的前提下,所提算法可以大幅度地提高K-近邻算法的效率。

关 键 词:K-近邻  哈希技术  分类算法  大数据集
收稿时间:2016/6/16 0:00:00
修稿时间:2016/10/5 0:00:00

K-Nearest Neighbor Algorithm Based on Hash Technology and MapRecuce
ZHAI Jun-hai,ZHANG Ming-yang,WANG Ting-ting and HAO Pu.K-Nearest Neighbor Algorithm Based on Hash Technology and MapRecuce[J].Computer Science,2017,44(7):210-214.
Authors:ZHAI Jun-hai  ZHANG Ming-yang  WANG Ting-ting and HAO Pu
Affiliation:College of Mathematics and Information Science,Hebei University,Baoding 071002,China,College of Mathematics and Information Science,Hebei University,Baoding 071002,China,College of Mathematics and Information Science,Hebei University,Baoding 071002,China and College of Mathematics and Information Science,Hebei University,Baoding 071002,China
Abstract:K-nearest neighbor(K-NN) is a famous classification algorithm.Because the idea of K-NN is simple and it is easy to implement,K-NN has been widely applied to many fields,such as face recognition,gene classification and decision making,etc.However,in the big data environment,the efficiency of K-NN is very low,even it is not workable.In order to deal with this problem,based on hash technology and MapRecuce,this paper proposed an improved K-nearest neighbor algorithm.In order to verify the effectiveness of the proposed algorithm,some experiments were conducted on 4 big data sets.The experimental results show that the proposed algorithm is effective and efficient.
Keywords:K-nearest neighbor  Hash technology  Classification algorithms  Big data sets
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号