基于机器学习的文本分类技术研究进展期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于机器学习的文本分类技术研究进展

作者姓名：	苏金树张博锋徐昕

作者单位：	国防科学技术大学,计算机学院,湖南,长沙,410073;国防科学技术大学,计算机学院,湖南,长沙,410073;国防科学技术大学,机电工程与自动化学院,湖南,长沙,410073

基金项目：	国家自然科学基金;高等学校博士学科点专项科研项目

摘要：	文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.
关键词：	自动文本分类机器学习降维核方法未标注集偏斜数据集分级分类大规模文本分类 Web页分类
收稿时间：	2005-12-15
修稿时间：	2006-04-03
本文献已被 CNKI 维普万方数据等数据库收录！
	点击此处可从《软件学报》浏览原始摘要信息
	点击此处可从《软件学报》下载免费的PDF全文