挖掘数据流中的频繁模式 |
| |
引用本文: | 刘学军, 徐宏炳, 董逸生, 王永利, 钱江波. 挖掘数据流中的频繁模式[J]. 计算机研究与发展, 2005, 42(12): 2192-2198. |
| |
作者姓名: | 刘学军 徐宏炳 董逸生 王永利 钱江波 |
| |
作者单位: | 东南大学计算机科学与技术系,南京,210096;南京工业大学信息科学与工程学院,南京,210009;东南大学计算机科学与技术系,南京,210096 |
| |
基金项目: | 江苏省高技术基金项目(BG2004034);江苏省2004年度研究生创新计划基金项目(xm04-36) |
| |
摘 要: | 发现数据流中的频繁项是数据流挖掘中最基本的问题之一.数据流的无限性和流动性使得传统的频繁模式挖掘算法难以适用.针对数据流的特点,在借鉴FP-growth算法的基础上,提出了一种数据流频繁模式挖掘的新方法:FP-DS算法.算法采用数据分段的思想,逐段挖掘频繁项集,用户可以连续在线获得当前的频繁项集,可以有效地挖掘所有的频繁项集,算法尤其适合长频繁项集的挖掘.通过引入误差ε,裁减了大量的非频繁项集,减少了数据的存储量,也能保证整个数据集中项目集支持度误差不超过ε. 分析和实验表明算法有较好的性能.
|
关 键 词: | 数据流 频繁模式 FP-DS算法 流数据挖掘 |
收稿时间: | 2004-12-13 |
修稿时间: | 2004-12-132005-09-05 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
| 点击此处可从《计算机研究与发展》浏览原始摘要信息 |
|
点击此处可从《计算机研究与发展》下载免费的PDF全文 |
|