首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于Hadoop的关联规则挖掘算法
引用本文:丁勇,朱长水,武玉艳. 一种基于Hadoop的关联规则挖掘算法[J]. 计算机科学, 2018, 45(Z11): 409-411, 416
作者姓名:丁勇  朱长水  武玉艳
作者单位:南京理工大学泰州科技学院 江苏 泰州225300,南京理工大学泰州科技学院 江苏 泰州225300,南京理工大学泰州科技学院 江苏 泰州225300
基金项目:本文受2015江苏省高校自然科学研究面上项目(15KJB520016),2017年度江苏省高校“青蓝工程”资助
摘    要:传统的并行关联规则算法对每一次迭代都定义一个MapReduce任务,以实现候选项集的生成和计数功能,但多次启动MapReduce任务会带来极大的性能开销。文中定义了一种并行关联规则挖掘算法PST-Apriori,该算法采取分治策略,在每个分布式计算节点定义一个前缀共享树,通过递归调用的方式将事务T生成的候选项集逐层压缩到前缀共享树(PST)中。然后广度遍历PST,逐层将每个节点对应的〈key,value〉作为map函数的输入,并由Map-Reduce框架自动按照key值进行聚集。最后调用reduce函数对多个任务的处理结果进行汇总,得到满足最小支持度阈值的频繁项集。算法只使用两个MapReduce任务,且PST按照key值排序便于Mapper端的shuffle操作,提高了运行效率。

关 键 词:关联规则  Hadoop  MapReduce  前缀共享树

Association Rule Mining Algorithm Based on Hadoop
DING Yong,ZHU Chang-shui and WU Yu-yan. Association Rule Mining Algorithm Based on Hadoop[J]. Computer Science, 2018, 45(Z11): 409-411, 416
Authors:DING Yong  ZHU Chang-shui  WU Yu-yan
Affiliation:Taizhou College of Science and Technology,Nanjing University of Science and Technology,Taizhou,Jiangsu 225300,China,Taizhou College of Science and Technology,Nanjing University of Science and Technology,Taizhou,Jiangsu 225300,China and Taizhou College of Science and Technology,Nanjing University of Science and Technology,Taizhou,Jiangsu 225300,China
Abstract:
Keywords:Association rule  Hadoop  MapReduce  Prefix shared tree
点击此处可从《计算机科学》浏览原始摘要信息
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号