首页 | 本学科首页   官方微博 | 高级检索  
     

基于Spark的并行SVM算法研究
引用本文:刘泽燊,潘志松.基于Spark的并行SVM算法研究[J].计算机科学,2016,43(5):238-242.
作者姓名:刘泽燊  潘志松
作者单位:解放军理工大学指挥信息系统学院 南京210007,解放军理工大学指挥信息系统学院 南京210007
基金项目:本文受国家自然科学基金项目(61473149)资助
摘    要:随着数据规模的不断增加,支持向量机(SVM)的并行化设计成为数据挖掘领域的一个研究热点。针对SVM算法训练大规模数据时存在寻优速度慢、内存占用大等问题,提出了一种基于Spark平台的并行支持向量机算法(SP-SVM)。该方法通过调整层叠支持向量机(Cascade SVM)的合并策略和训练结构,并利用Spark分布式计算框架实现;其次,进一步分析并行操作算子的性能,优化算法并行化实现方案,有效克服了层叠模型训练效率低的缺点。实验结果表明,新的并行训练方法在损失较小精度的前提下,在一定程度上减少了训练时间,能够很好地提高模型的学习效率。

关 键 词:并行计算  支持向量机  大规模数据  层叠模型  Spark
收稿时间:2015/10/19 0:00:00
修稿时间:1/3/2016 12:00:00 AM

Research on Parallel SVM Algorithm Based on Spark
LIU Ze-shen and PAN Zhi-song.Research on Parallel SVM Algorithm Based on Spark[J].Computer Science,2016,43(5):238-242.
Authors:LIU Ze-shen and PAN Zhi-song
Affiliation:Institute of Command Information System,PLA University of Science and Technology,Nanjing 210007,China and Institute of Command Information System,PLA University of Science and Technology,Nanjing 210007,China
Abstract:With the constant increasing of data scale,the parallel design of support vector machine(SVM) has become a hot research topic in data mining field.In view of the problems in model training including slow optimization and large memory,we proposed a new parallel SVM algorithm(SP-SVM) based on Spark.First of all,this paper implemented algorithm using Spark parallel computing framework.Secondly,this paper analyzed the performance of the parallel operator and optimized the algorithm in parallel design scheme,solving the problem of low efficiency that cascade training model encounters.Experimental results show that the new parallel training method can save more training time and greatly improve the efficiency in the case of a small precision loss.
Keywords:Parallel computing  Support vector machine  Large scale data  Cascade model  Spark
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号