海量数据离散化算法的并行设计与实现 |
| |
作者单位: | ;1.辽宁师范大学计算机与信息技术学院 |
| |
摘 要: | 连续属性的离散化是机器学习和数据挖掘的重要预处理步骤,如何高效处理海量数据连续属性离散化已成为急需要解决的问题。近年来兴起的Hadoop技术能够有效处理基于海量数据的应用。为此,设计和实现一种基于MapReduce编程模型的连续属性离散化并行算法,并给出算法设计的方法和策略。在保证离散效果的情况下,使用不同大小数据集在不同节点的集群环境下的实验结果表明,所设计的并行离散化算法具有较高的执行效率和较好的可扩展性,适合用于海量数据的快速离散化处理。
|
关 键 词: | 海量数据 并行化 连续属性离散化 Hadoop |
PARALLEL DESIGN OF MASSIVE DATA DISCRETISATION ALGORITHM AND ITS IMPLEMENTATION |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 CNKI 等数据库收录! |
|