首页 | 本学科首页   官方微博 | 高级检索  
     

独立于语种的文本分类方法
引用本文:黄萱菁,吴立德,石崎洋之.独立于语种的文本分类方法[J].中文信息学报,2000,14(6):1-7.
作者姓名:黄萱菁  吴立德  石崎洋之
作者单位:1.复旦大学计算机科学系2.富士通研究开发中心有限公司
基金项目:国家自然科学基金(69873011);863项目(863-306一ZD02一02-4)
摘    要:文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻语料上得到实现,并获得了较好的分类性能。

关 键 词:文本分类  特征抽取  机器学习  
修稿时间:2000年5月19日

Language Independent Text Categorization
HUANG Xuan-jing.Language Independent Text Categorization[J].Journal of Chinese Information Processing,2000,14(6):1-7.
Authors:HUANG Xuan-jing
Affiliation:1.Dept. of Computer Science ,Fudan University2.FRDC
Abstract:Text categorization is defined as the task of assigning pre defined category labels to new documents.This paper proposes a language independent text categorization model based on machine learning,and describes the feature extraction,classifier and evaluation method in detail.This model has been implemented on two news corpus of Chinese and Japanese and satisfactory categorization effectiveness has been achieved.
Keywords:text categorization  feature selection  machine learning
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号