首页 | 本学科首页   官方微博 | 高级检索  
     

基于混合特征的中文文本分类
引用本文:罗永莲,张永奎.基于混合特征的中文文本分类[J].电脑开发与应用,2005,18(4):4-5,11.
作者姓名:罗永莲  张永奎
作者单位:山西大学,太原,030006
基金项目:国家自然科学基金;山西省自然科学基金;山西省留学回国人员科研项目
摘    要:特征抽取是中文文本分类的重点和难点,文中比较了不同特征单元对分类性能的影响,将字特征与词特征相结合以期更好地表现文本特征。并在构建的实验系统中比较了不同特征单元的分类准确性,发现采用混合特征来进行分类,能得到较好的分类效果。

关 键 词:文本分类  特征抽取  特征组合
文章编号:1003-5850(2005)04-0004-03

Chinese Text Categorization based on Mixed Features
Abstract:Features extraction is keystone and difficulty of Chinese text categorization.This paper presents the influence of different feature units in text classification,and integrates the Chinese character feature with the world feature to efficiently represent the text character.An example system is designed to compare the classification accuracy of different feature units.The preferable categorization effectiveness is achieved by using mixed features to do the classification.
Keywords:text categorization  feature extraction  feature combination
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号