首页 | 本学科首页   官方微博 | 高级检索  
     

文本分类中基于基尼指数的特征选择算法研究
引用本文:尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694.
作者姓名:尚文倩  黄厚宽  刘玉玲  林永民  瞿有利  董红斌
作者单位:北京交通大学计算机与信息技术学院,北京,100044
基金项目:国家自然科学基金;北京交通大学校科研和教改项目
摘    要:随着网络的发展,大量的文档数据涌现在网上,用于处理海量数据的自动文本分类技术变得越来越重要,自动文本分类已成为处理和组织大量文档数据的关键技术.对于采用矢量空间模型(VSM)的大多数分类器来说,文本预处理成为分类的瓶颈,高维的特征空间对于大多数分类器来说是难以忍受的,因此采用适当的文本特征选择算法降低原始文本特征空间的维数成为文本分类的首要任务.目前也有很多的文本特征选择算法,介绍了另一种新的基于基尼指数的文本特征选择算法,使用基尼指数原理进行了文本特征选择的研究,构造了基于基尼指数的适合于文本特征选择的特征选择评估函数.实验表明,基于基尼指数的文本特征选择能进一步提高分类性能,而且计算复杂度小.

关 键 词:文本分类  文本特征选择  基尼指数  文本预处理
收稿时间:04 29 2006 12:00AM
修稿时间:2006-04-292006-05-19

Research on the Algorithm of Feature Selection Based on Gini Index for Text Categorization
Shang Wenqian,Huang Houkuan,Liu Yuling,Lin Yongmin,Qu Youli,Dong Hongbin.Research on the Algorithm of Feature Selection Based on Gini Index for Text Categorization[J].Journal of Computer Research and Development,2006,43(10):1688-1694.
Authors:Shang Wenqian  Huang Houkuan  Liu Yuling  Lin Yongmin  Qu Youli  Dong Hongbin
Affiliation:School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044
Abstract:
Keywords:text categorization  text feature selection  Gini index  text preprocessing
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号