首页 | 本学科首页   官方微博 | 高级检索  
     

一种改进的文本网页分类特征选择方法
引用本文:李粤,李星,刘辉,许静芳.一种改进的文本网页分类特征选择方法[J].计算机应用,2004,24(7):119-121.
作者姓名:李粤  李星  刘辉  许静芳
作者单位:清华大学,电子工程系,北京,100084
基金项目:国家自然科学基金资助项目 (90 1 0 4 0 0 2 )
摘    要:网页分类是网络信息检索研究的关键技术之一。文中针对分类技术中的特征选择方法展开研究。在分析、比较常用的文本分类特征选择方法基础上,提出了一种联合特征选择方法。该方法将已有的X^2统计方法和互信息方法综合起来,在标准文本网贞数据集分类实验中,综合查全率和查准率得到明显的提高。该选择方法已应用于“网络指南针”系统大规模文本网页分类中。

关 键 词:文本网页分类  特征选择  X^2统计量  互信息量  联合特征选择
文章编号:1001-9081(2004)07-0119-03

A Novel Feature Selection Method for Web Pages Categorization
LI Yue,LI Xing,LIU Hui,XU Jing fang.A Novel Feature Selection Method for Web Pages Categorization[J].journal of Computer Applications,2004,24(7):119-121.
Authors:LI Yue  LI Xing  LIU Hui  XU Jing fang
Abstract:Web Pages Categorization is one of the key technologies for Web Pages Information Retrieval. This Paper proposes a novel feature selection method named Combined X 2 method, which combines X 2 method with Mutual Information method. Our Experiments based on real world data collected from Web, show that Combined X 2 method outperforms Mutual Information method, X 2 method, and other existing feature selection method based on X 2 Statistics. Finally, the research results in this paper has been applied in Network Compass system, a large scale hypertextual web search engine.
Keywords:Web pages categorization  feature selection  X  2 statistics  mutual information  combined  X  2 feature selection
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号