首页 | 本学科首页   官方微博 | 高级检索  
     

基于相邻字对信息的中文文档分类研究
引用本文:周水庚,俞红奇,胡江滔,付辛,胡运发. 基于相邻字对信息的中文文档分类研究[J]. 小型微型计算机系统, 2001, 22(4): 462-466
作者姓名:周水庚  俞红奇  胡江滔  付辛  胡运发
作者单位:复旦大学计算机系
基金项目:国家自然科学基金资助项目"电子图书馆的相关关键技术”(69933010)和国家863计划资助项目"智能图书馆系统”(863-306-ZT04-02-2)的资助
摘    要:本文首次提出利用相邻字对信息进行中文文档分类,使中文文档分类摆脱了对词典和切词处理的依赖,实现中文文档分类的领域无关性和时间无关性性。分别利用Naive Bayes和kNN分类方法建立了基于相邻字对信息的中文文档分类系统。初步的测试结果表明本文文档系统具有和同类文档分类系统相当的性能。

关 键 词:文档分类 属性选择 相邻宇对 kNN法 中文文档分类 信息处理
文章编号:1000-1220(2001)04-0462-05

CHINESE DOCUMENT CATEGORIZATION BASED ON ADJACENT CHINESE CHARACTER-PAIRS INFORMATION
ZHOU Shui geng YU Hong qi HU Jiang tao FU Xin HU Yun fa. CHINESE DOCUMENT CATEGORIZATION BASED ON ADJACENT CHINESE CHARACTER-PAIRS INFORMATION[J]. Mini-micro Systems, 2001, 22(4): 462-466
Authors:ZHOU Shui geng YU Hong qi HU Jiang tao FU Xin HU Yun fa
Abstract:Categorization is an efficient way to organize massive documents in our information age. Current Chinese text classifiers are based on
Keywords:in the documents   which rely on dictionaries and efficient segmentation procedures. In this paper   a new idea that utilizes the adjacent Chinese character pairs to categorize Chinese documents is proposed   so that the classifiers can be indepe
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号