首页 | 本学科首页   官方微博 | 高级检索  
     

几种典型特征选取方法在中文网页分类上的效果比较
引用本文:单松巍,冯是聪,李晓明. 几种典型特征选取方法在中文网页分类上的效果比较[J]. 计算机工程与应用, 2003, 39(22): 146-148
作者姓名:单松巍  冯是聪  李晓明
作者单位:北京大学计算机科学与技术系,北京,100871
基金项目:国家973重大基础研究项目(编号:G1999032706)资助
摘    要:针对中文网页,比较研究了CHI、IG、DF以及MI特征选取方法。主要的实验结果有:(1)CHI、IG和DF的性能明显优于MI;(2)CHI、IG和DF的性能大体相当,都能够过滤掉85%以上的特征项;(3)DF具有算法简单、质量高的优点,可以用来代替CHI和IG;(4)使用普通英文文本和中文网页评测特征选取方法的结果是一致的。

关 键 词:机器学习  中文网页分类  特征选取  评测
文章编号:1002-8331-(2003)22-0146-03
修稿时间:2003-05-01

A Comparative Study on Several Typical Feature Selection Methods for Chinese Web Page Categorization
Shan Songwei Feng Shicong Li Xiaoming. A Comparative Study on Several Typical Feature Selection Methods for Chinese Web Page Categorization[J]. Computer Engineering and Applications, 2003, 39(22): 146-148
Authors:Shan Songwei Feng Shicong Li Xiaoming
Abstract:This paper reports a comparative study with CHI ,IG,DF and MI feature selection methods for Chinese Web pages.The main experimental results are:(1)CHI ,IG and DF significantly outperforms MI ;(2)CHI ,IG and DF perform similarly and all can filter out more than85%features;(3)DF is the simplest method with the lowest cost in computa-tion and can be used instead of CHI or IG;(4)The experimental results are similar using plain English text and Chi-nese Web pages to evaluate feature selection methods.
Keywords:Machine Learning  Chinese Web Page Categorization  Feature Selection  Evaluation  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号