Spark平台的分布式阶段自适应关联规则挖掘算法 |
| |
作者姓名: | 石慧 陈恩 |
| |
作者单位: | 汕尾职业技术学院信息工程系,广东 汕尾,516600;华为技术有限公司,广东 深圳,518129 |
| |
基金项目: | 全国高等院校计算机基础教育研究会2016年度科研规划纵向课题(2016GHB02005); 广东省高职高专云计算与大数据专业委员会2019年度教育科研课题(GDYJSKT19-02) |
| |
摘 要: | 为满足日益增长的海量数据挖掘需求,迫切需要设计一种能够在多台机器上运行的分布式关联规则挖掘算法。Apriori这种高度迭代算法在Hadoop平台上运行时每次迭代执行大量的磁盘I/O操作,大大影响并限制了算法的运行效率。本文利用Spark对分布式计算内置支持的特点,在Spark平台上设计并实现一种分布式关联规则挖掘算法,称为阶段式自适应挖掘算法(Staged Adaptive Apriori)。算法使用自适应的数据集部分处理的策略对频繁项集进行高效挖掘,在每次迭代前初步评估执行时间,并采用较为合适的方法来减少时间和空间的复杂性,是一种基于数据集性质的自适应关联规则挖掘算法。实验结果表明了算法的有效性。
|
关 键 词: | 关联规则挖掘 Apriori算法 MapReduce Spark |
收稿时间: | 2019-12-11 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《计算机与现代化》浏览原始摘要信息 |
|
点击此处可从《计算机与现代化》下载全文 |
|