基于二维划分的杰卡德相似系数批量计算效率优化 |
| |
作者姓名: | 廖彬 张陶 于炯 国冰磊 刘继 |
| |
作者单位: | 新疆财经大学统计与信息学院 乌鲁木齐830012,新疆医科大学医学工程技术学院 乌鲁木齐830011,新疆大学软件学院 乌鲁木齐830008,新疆大学软件学院 乌鲁木齐830008,新疆财经大学统计与信息学院 乌鲁木齐830012 |
| |
基金项目: | 本文受国家自然科学基金项目(61562078,61262088,71261025),新疆财经大学博士启动基金(2015BS007)资助 |
| |
摘 要: | 随着互联网用户及内容的指数级增长,大规模数据场景下的杰卡德相似系数计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适用于迭代型及交互型任务的特点,基于二维划分算法将算法从MapReduce平台移植到Spark平台;并通过参数调整、内存优化等方法进一步提高了算法的执行效率。两组数据集分别在3组不同规模的集群上的实验结果表明,与MapReduce相比,Spark平台下的算法执行效率提高了4倍以上,能耗效率提升了3倍以上。
|
关 键 词: | 绿色计算 MapReduce 任务调度 温度感知 |
收稿时间: | 2015-11-05 |
修稿时间: | 2016-04-17 |
|
|
点击此处可从《计算机科学》下载全文 |
|