海量数据离散化算法的并行设计与实现 PARALLEL DESIGN OF MASSIVE DATA DISCRETISATION ALGORITHM AND ITS IMPLEMENTATION期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

海量数据离散化算法的并行设计与实现

作者单位：	;1.辽宁师范大学计算机与信息技术学院

摘要：	连续属性的离散化是机器学习和数据挖掘的重要预处理步骤,如何高效处理海量数据连续属性离散化已成为急需要解决的问题。近年来兴起的Hadoop技术能够有效处理基于海量数据的应用。为此,设计和实现一种基于MapReduce编程模型的连续属性离散化并行算法,并给出算法设计的方法和策略。在保证离散效果的情况下,使用不同大小数据集在不同节点的集群环境下的实验结果表明,所设计的并行离散化算法具有较高的执行效率和较好的可扩展性,适合用于海量数据的快速离散化处理。
关键词：	海量数据并行化连续属性离散化 Hadoop
PARALLEL DESIGN OF MASSIVE DATA DISCRETISATION ALGORITHM AND ITS IMPLEMENTATION

Abstract:

Keywords:
本文献已被 CNKI 等数据库收录！