一种基于类别强信息特征和贝叶斯算法的中文文本分类器 |
| |
作者单位: | ;1.大连东软信息技术学院计算机科学与技术系;2.大连海洋大学经济管理学院 |
| |
摘 要: | 为了提高中文文本分类的效率与精度,设计一种新型的分类器。该分类器采用基于语料库的正向扫描统计分词。在词频统计阶段,采取训练阶段的按类别统计和测试阶段的按文章不同区域统计的方法;为了更好地选择特征词,提出了频度、集中度、相关度三个强信息特征标准;在特征权重计算上,提出了将词频和综合特征选择函数相结合的权重计算方法;最后,结合朴素贝叶斯原理进行分类。实验证明该分类器简单有效。
|
关 键 词: | 中文文本分类 特征选择 特征权重 分类算法 |
A CHINESE TEXT CLASSIER BASED ON STRONG INFORMATION FEATURE OF CATEGORY AND BAYESIAN ALGORITHM |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 CNKI 等数据库收录! |
|