首页 | 本学科首页   官方微博 | 高级检索  
     

面向文本分类的特征词选取方法研究与改进
引用本文:李国和,岳 翔,吴卫江,洪云峰,刘智渊,程 远.面向文本分类的特征词选取方法研究与改进[J].中文信息学报,2015,29(4):120-125.
作者姓名:李国和  岳 翔  吴卫江  洪云峰  刘智渊  程 远
作者单位:1. 中国石油大学(北京 地球物理与信息工程学院,北京 102249;
2. 中国石油大学(北京 油气数据挖掘北京市重点实验室,北京 102249;
3. 石大兆信数字身份管理与物联网技术研究院,北京 100029
基金项目:国家高新技术研究发展计划(2009AA062802);国家自然科学基金(60473125);中国石油(CNPC)石油科技中青年创新基金(05E7013);国家重大专项子课题(G5800-08-ZS-WX)
摘    要:中文特征词的选取是中文信息预处理内容之一,对文档分类有重要影响。中文分词处理后,采用特征词构建的向量模型表示文档时,导致特征词的稀疏性和高维性,从而影响文档分类的性能和精度。在分析、总结多种经典文本特征选取方法基础上,以文档频为主,实现文档集中的特征词频及其分布为修正的特征词选取方法(DC)。采用宏F值和微F值为评价指标,通过实验对比证明,该方法的特征选取效果好于经典文本特征选取方法。

关 键 词:文本文档  特征词  特征选取  文本分类  

Feature Word Selection for Document Classification
LI Guohe,YUE Xiang,WU Weijiang,HONG Yunfeng,LIU Zhiyuan,CHEN Yuan.Feature Word Selection for Document Classification[J].Journal of Chinese Information Processing,2015,29(4):120-125.
Authors:LI Guohe  YUE Xiang  WU Weijiang  HONG Yunfeng  LIU Zhiyuan  CHEN Yuan
Affiliation:1. College of Geophysics and Information Engineering, China University of Petroleum, Beijing 102249, China;
2. Beijing Key Lab of Data Mining for Petroleum Data, China University of Petroleum, Beijing 102249, China;
3. PanPass Institute of Digital Identification Management and Internet of Things, Beijing 100029, China
Abstract:Feature words selection from texts is a significant step in Chinese text information pre-processing. After the segmentation of Chinese texts, a Vector Model constructed by feature words representing the Chinese text documents cannot avoid low accuracy of document classification (or document retrieval) due to the sparseness and high-dimension of feature words. On the basis of an analysis of several classical text feature selection methods, a new method of text feature selection(DC) is presented, which is based on a modified document frequency. Experiments prove the performance of DC, is better than that of typical other methods according to macro-F values and micro-F values.
Keywords:Text document  Feature word  Feature selection  Text classification  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号