首页 | 本学科首页   官方微博 | 高级检索  
     

多特征融合的博客文章分类方法
引用本文:麦林,俞能海.多特征融合的博客文章分类方法[J].小型微型计算机系统,2010,31(6).
作者姓名:麦林  俞能海
作者单位:中国科学技术大学,多媒体计算与通信教育部微软重点实验室,安徽,合肥,230027
基金项目:国家自然科学基金,国家高技术研究发展计划(863计划),高等学校博士学科点专项研究基金 
摘    要:博客已经成为了互联网上最热门的应用之一.博客文章内容千差万别,对其进行分类具有重要意义.博客文章有别于新闻文章,普通文本分类方法直接应用于博客文章效果不理想.提出一种新的方法,充分利用了博客文章特有的Tag、用户自定义类别等多个特征,并对各项特征进行融合.另外,通过对自定义类别进行预处理,过滤与类别无关的噪声单词.实验结果表明多特征融合的方法能够有效提高博客文章分类的准确率.

关 键 词:文本分类  博客文章分类  博客文章特征  多特征融合

Multi-feature Fusion Method for Blog Post Classification
MAI Lin,YU Neng-hai.Multi-feature Fusion Method for Blog Post Classification[J].Mini-micro Systems,2010,31(6).
Authors:MAI Lin  YU Neng-hai
Affiliation:MAI Lin,YU Neng-hai(MOE-Microsoft Key Laboratory of MCC , Department of EEIS University of Science , Technology of China,Hefei 230027,China)
Abstract:Blog has become one of the most popular applications on Internet.The content of Blog posts is various,so it's meaningful to have a research on Blog post classification.As Blog posts are different from News articles,common text classification methods doesn't perform well.We present a new method which is fit for Blog post classification in this paper.The method can make full use of the features of Blog post like Tag and custom category and fuse them.The noise words in custom category are filtered by pretreame...
Keywords:text classification  blog post classification  blog post feature  multi-feature fusion  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号