首页 | 本学科首页   官方微博 | 高级检索  
     

大规模语料的频繁模式快速发现算法
引用本文:龚才春,贺 敏,陈海强,许洪波,程学旗.大规模语料的频繁模式快速发现算法[J].通信学报,2007,28(12):161-166.
作者姓名:龚才春  贺 敏  陈海强  许洪波  程学旗
作者单位:1. 中国科学院,计算技术研究所,北京,100080;中国科学院,研究生院,北京,100039
2. 中国科学院,计算技术研究所,北京,100080
基金项目:国家重点基础研究发展计划(973计划)
摘    要:提出了一种大规模语料频繁模式快速发现算法,通过采用合适的策略将语料划分为若干子语料,对每个子语料单独进行处理,即可获得原始语料的频繁模式;同时该算法能够避免处理频次在设定阈值以下的模式,进一步减少了内存占用,提高了处理速度。实验表明,对3.6G互联网新闻语料发现频次大于100的所有频繁模式中最高消耗内存为1.6GB,单机平均每秒处理文本语料3.28M。

关 键 词:频繁模式  语料划分  重复串
文章编号:1000-436X(2007)12-0161-06
收稿时间:2007-09-22
修稿时间:2007-12-02

Frequent-pattern discovering algorithm for large-scale corpus
GONG Cai-chun,HE Min,CHEN Hai-qiang,XU Hong-bo,CHENG Xue-qi.Frequent-pattern discovering algorithm for large-scale corpus[J].Journal on Communications,2007,28(12):161-166.
Authors:GONG Cai-chun  HE Min  CHEN Hai-qiang  XU Hong-bo  CHENG Xue-qi
Abstract:A memory-based frequent-pattern discovering algorithm for large-scale corpus was presented. First, the original corpus was partitioned into several parts using appropriate dividing policy. Then each partition was processed independently to produce a temporary result, and the union of all temporary results is the final frequent-pattern set. The algorithrn prunes a subtree once it is sure that none of the corresponding pattern will be frequent. Experiment shows that it takes no more than 1.6 gigabytes of memory to discover all patterns appearing more than 100 times for a 3.6 gigabytes news corpus, the average speed is 3.28 magabytes per second.
Keywords:frequent pattern  corpus partition  repeat
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《通信学报》浏览原始摘要信息
点击此处可从《通信学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号