首页 | 本学科首页   官方微博 | 高级检索  
     

层次化中文文档分类
引用本文:袁时金,李荣陆,周水庚,胡运发.层次化中文文档分类[J].通信学报,2004,25(11):55-63.
作者姓名:袁时金  李荣陆  周水庚  胡运发
作者单位:复旦大学,计算机与信息技术系,上海,200433
基金项目:国家自然科学基金资助项目(60173027)
摘    要:对层次化中文文档分类进行了研究。采用两种途径进行层次化中文文档分类:第一是按照文档类别的层次结构,将一个大的分类问题分化成若干个小的分类问题,用Bayes分类方法分别建立分类器;第二是将层次化分类问题看成是一个更普遍的多类别、多标注分类问题进行求解,分别利用KNN和基于Boosting的分类方法进行层次化中文文档分类。测试结果显示层次化分类比平面分类能够取得更好的分类效果。

关 键 词:文档分类  属性选择  层次分类  分类器
文章编号:1000-436X(2004)11-0055-09
修稿时间:2003年9月28日

Hierarchical chinese document categorization
YUAN Shi-jin,LI Rong-lu,ZHOU Shui-geng,HU Yun-fa.Hierarchical chinese document categorization[J].Journal on Communications,2004,25(11):55-63.
Authors:YUAN Shi-jin  LI Rong-lu  ZHOU Shui-geng  HU Yun-fa
Abstract:Hierarchical Chinese document categorization was researched. Two measures to classify documents hierarchically were taken. One was to use Bayes classifier according to the structure of document categories. Another was to use KNN classifier and classifier based on Boosting by dividing the large categories into the small ones. Experiment results show that hierarchical categorization does better than plane categorization.
Keywords:document categorization  features selection  hierarchical categorization  classifier
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号