首页 | 本学科首页   官方微博 | 高级检索  
     

基于文章要素影响分析的博客文章分类方法
引用本文:鲁梦平,黄翰,蔡昭权,朱一帆,何翊宇,徐震宇. 基于文章要素影响分析的博客文章分类方法[J]. 计算机工程与应用, 2011, 47(29): 124-126. DOI: 10.3778/j.issn.1002-8331.2011.29.034
作者姓名:鲁梦平  黄翰  蔡昭权  朱一帆  何翊宇  徐震宇
作者单位:1.华南理工大学 软件学院,广州 5100062.惠州学院 教育技术中心,广东 惠州 516007
基金项目:国家自然科学基金(the National Natural Science Foundation of China under Grant No.61003066,No.61070033); 教育部博士点基金(No.20090172120035); 广东省自然科学基金(No.9151008901000165,No.10151601501000015); 广东省科技计划项目(No.2009B010800026); 惠州市现代信息服务业专项资金项目; 惠州市科技计划项目(No.2009G024)
摘    要:现有的博客文章分类的研究通常直接沿用传统文本分类方法,并没有结合博客自身的特点。研究基于文章要素的影响分析实现分类效果的改进。提出了一种简单的博客文本去噪方法,以保证博客数据的可靠性;提出了基于博客标签的中文词库扩展方法,用于改善中文分词效果,以提高博客分类的准确性;根据综合评价模型G1法计算博客文章中标题、标签、类别、首段、末段以及正文等文章要素的权重,分析它们对博客分类的影响。实验结果表明,研究提出的方法比传统的TFIDF方法有更好的分类效果。

关 键 词:博客文章分类  博客文本去噪  博客标签  文章要素  G1法  
修稿时间: 

Blog posts classification method based on analysis of article elements
LU Mengping,HUANG Han,CAI Zhaoquan,ZHU Yifan,HE Yiyu,XU Zhenyu. Blog posts classification method based on analysis of article elements[J]. Computer Engineering and Applications, 2011, 47(29): 124-126. DOI: 10.3778/j.issn.1002-8331.2011.29.034
Authors:LU Mengping  HUANG Han  CAI Zhaoquan  ZHU Yifan  HE Yiyu  XU Zhenyu
Affiliation:1.School of Software Engineering,South China University of Technology,Guangzhou 510006,China2.Educational Technology Center,Huizhou University,Huizhou,Guangdong 516007,China
Abstract:Traditional text classification methods are directly used to classify blog posts without considering characteristics of blog posts,so this paper proposes a method to improve classification results by considering the impact of article elements.This paper proposes an easy method to get rid of noisy posts in order to ensure the reliability of the posts;blog tags are used to extend the thesaurus so as to improve words segment and the accuracy of blog classification;G1 method proposed in comprehensive evaluation...
Keywords:blog posts classification  blog text filtering  blog tags  article element  G1 method
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号