首页 | 本学科首页   官方微博 | 高级检索  
     

数据流中基于滑动窗口的最大频繁项集挖掘算法*
引用本文:杨路明,刘立新,毛伊敏,谢东.数据流中基于滑动窗口的最大频繁项集挖掘算法*[J].计算机应用研究,2010,27(2):519-522.
作者姓名:杨路明  刘立新  毛伊敏  谢东
作者单位:中南大学,信息科学与工程学院,长沙,410083
基金项目:湖南省教育厅科研资助项目(08B040)
摘    要:挖掘数据流中最大频繁项集是从数据流中获得信息的一种有效手段,是数据流挖掘研究的热点之一。结合数据流的特点,提出了一种新的基于滑动窗口的最大频繁项集挖掘算法。该算法用位图来存储数据流中流动的数据;采用直接覆盖的方法存储和更新数据流上的数据;在深度优先搜索挖掘最大频繁项集时,除采用经典的剪枝策略外,还提出了与父等价原理相对应的子等价剪枝策略;最后将挖掘结果存储在索引链表中以提高超集检测效率,进一步减少挖掘最大频繁项集的时间。理论分析和实验结果证实了该算法在时间和空间上的有效性。

关 键 词:数据流    数据挖掘    最大频繁项集    滑动窗口    位图

Mining maximal frequent itemsets over data streams using sliding window
YANG Lu-ming,LIU Li-xin,MAO Yi-min,XIE Dong.Mining maximal frequent itemsets over data streams using sliding window[J].Application Research of Computers,2010,27(2):519-522.
Authors:YANG Lu-ming  LIU Li-xin  MAO Yi-min  XIE Dong
Affiliation:(School of Information Science & Engineering, Central South University, Changsha 410083, China)
Abstract:Mining maximal frequent itemsets over streaming data is one of the most important issues in mining data stream. This paper proposed an efficient algorithm to mine maximal frequent itemsets in sliding window. First, used bitmap to deal with the streaming data. Second, adopted depth first to find maximal frequent itemsets when mining. Moreover, besides typical pruning strategies, this paper developed a new pruning strategy corresponding to the parent equivalency pruning to prune. Third, used index structure to store the maximal frequent itemsets, which could speed up the speed of superset test. Theoretical analysis and experimental results show that the proposed method is efficient.
Keywords:data stream  data mining  maximal frequent itemsets  sliding window  bitmap
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号