基于Hadoop平台的海量文本分类的并行化 |
| |
作者姓名: | 向小军 高阳 商琳 杨育彬 |
| |
作者单位: | 南京大学计算机科学与技术系 南京210093 |
| |
基金项目: | 国家自然科学基金项目(61035003,60875011); 科技部国际科技合作计划项目(2010DFA11030); 江苏省自然科学基金项目(BK2010054)资助 |
| |
摘 要: | 文本分类是信息检索与数据挖掘的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。近来年
随着文本数据呈指数增长,要有效地管理这些数据,就必须在分布式环境下用有效的算法来处理这些数据。在Ha-
doop分布式平台下实现了一简单有效的文本分类算法—TFIDF分类算法,即一种基于向量空间模型的分类算法,
它用余弦相似度得到分类结果。在两个数据集上做了实验,结果表明,这一并行化算法在大数据集上很有效并可以在
实际领域中得到良好的应用。
|
关 键 词: | 文本分类 并行化 海量数据 Hadoop |
本文献已被 CNKI 万方数据 等数据库收录! |
|