首页 | 本学科首页   官方微博 | 高级检索  
     

基于标题类别语义识别的文本分类算法研究
引用本文:王强,关毅,王晓龙.基于标题类别语义识别的文本分类算法研究[J].电子与信息学报,2007,29(12):2885-2890.
作者姓名:王强  关毅  王晓龙
作者单位:哈尔滨工业大学计算机科学与技术学院,哈尔滨,150001
摘    要:本文提出了一种基于标题类别语义识别的文本分类算法.算法利用基于类别信息的特征选择策略构造分类的特征空间,通过识别文本标题中的特征词的类别语义来预测文本的候选类别,最后在候选类别空间中用分类器执行分类操作.实验表明该算法在有效降低分类候选数目的基础上可显著提高文本分类的精度,通过对类别空间表示效率指标的验证,进一步表明该算法有效地提高了文本表示空间的性能.

关 键 词:标题类别语义识别  候选类别  类别空间表示效率
文章编号:1009-5896(2007)12-2885-06
收稿时间:2006-04-17
修稿时间:2006-09-26

Applying Title Category Semantic Recognition for Text Categorization
Wang Qiang,Guan Yi,Wang Xiao-long.Applying Title Category Semantic Recognition for Text Categorization[J].Journal of Electronics & Information Technology,2007,29(12):2885-2890.
Authors:Wang Qiang  Guan Yi  Wang Xiao-long
Affiliation:School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China
Abstract:This paper presents a new algorithm using title category semantic recognition for text categorization. The algorithm generates feature space based on its category, picks up category semantic words of the title to produce candidate category and finally classifies it under these candidate categories. The experimental results firmly prove that the new algorithm performs better with fewer candidates and higher precision. Further research introduces category space representation efficiency to verify the validity of the new algorithm and proves that it can achieve great improvement in text representation.
Keywords:Title Category Semantic Recognition(TCSR)  Candidate category  Category space representation efficiency
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《电子与信息学报》浏览原始摘要信息
点击此处可从《电子与信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号