首页 | 本学科首页   官方微博 | 高级检索  
     

基于Hadoop平台的海量文本分类的并行化
作者姓名:向小军  高阳  商琳  杨育彬
作者单位:南京大学计算机科学与技术系 南京210093
基金项目:国家自然科学基金项目(61035003,60875011); 科技部国际科技合作计划项目(2010DFA11030); 江苏省自然科学基金项目(BK2010054)资助
摘    要:文本分类是信息检索与数据挖掘的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。近来年 随着文本数据呈指数增长,要有效地管理这些数据,就必须在分布式环境下用有效的算法来处理这些数据。在Ha- doop分布式平台下实现了一简单有效的文本分类算法—TFIDF分类算法,即一种基于向量空间模型的分类算法, 它用余弦相似度得到分类结果。在两个数据集上做了实验,结果表明,这一并行化算法在大数据集上很有效并可以在 实际领域中得到良好的应用。

关 键 词:文本分类  并行化  海量数据  Hadoop
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号