基于MapReduce的健康大数据并行挖掘算法研究 |
| |
作者姓名: | 陈榆 何慧敏 梁志胜 欧旭 |
| |
作者单位: | 广西医科大学信息中心 |
| |
基金项目: | 2018年广西高等教育本科教学改革工程项目(2018JGA144); |
| |
摘 要: | 随着信息技术的发展,健康大数据呈指数级别剧增,但数据量过大使得较多有价值的数据被埋没,医疗服务的质量与效率难以提升。为解决上述问题,文中提出一种基于MapReduce的健康大数据并行挖掘算法。首先对健康大数据进行预处理,消除一些不利因素对数据的影响;再以预处理后的健康大数据为依据,获取初始簇中心,度量健康大数据与簇中心之间的距离,聚类处理健康大数据;最后,应用MapReduce制定健康大数据并行挖掘程序,执行制定程序即可完成健康大数据的并行挖掘。实验结果表明,所提算法的健康大数据挖掘效率最大值为94 GB/s,加速比最大值为4.5,相比于其他方法,该算法对健康大数据挖掘的性能更佳。
|
关 键 词: | 健康大数据 并行挖掘算法 MapReduce 数据预处理 数据聚类 挖掘程序 |
|