首页 | 本学科首页   官方微博 | 高级检索  
     

基于句类向量空间模型的自动文本分类研究
引用本文:张运良,张 全.基于句类向量空间模型的自动文本分类研究[J].计算机工程,2007,33(22):45-47.
作者姓名:张运良  张 全
作者单位:中国科学院研究生院,中国科学院声学研究所 北京100039,中国科学院声学研究所,北京100080,北京100080
基金项目:国家重点基础研究发展计划(973计划) , 中国科学院知识创新工程项目
摘    要:向量空间模型是自动文本分类中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项通常只能提供较少的局部语义信息。为实现基于内容的文本分类,该文用HNC理论中的句类作为特征项,通过混合句类分解等技术对句类向量空间降维,使用tfc算法对特征项进行权重计算,用KNN算法进行分类。该分类器的平均准确率和召回率都是可接受的,对类别的抽象程度无要求,即抽象度较高和较低的类别可以同时分类。通过使用更好的机器学习算法和其他的HNC语言理解技术,性能可以进一步提高。

关 键 词:文本分类  句类  向量空间模型  HNC理论
文章编号:1000-3428(2007)22-0045-03
修稿时间:2006-11-30

Research of Automatic Text Categorization Based on Sentence Category VSM
ZHANG Yun-liang,ZHANG Quan.Research of Automatic Text Categorization Based on Sentence Category VSM[J].Computer Engineering,2007,33(22):45-47.
Authors:ZHANG Yun-liang  ZHANG Quan
Affiliation:1. Graduate School, Chinese Academy of Sciences, Beijing 100039; 2. Institute of Acoustics, Chinese Academy of Sciences, Beijing 100080
Abstract:Vector space model is a mature model of text representation in automatic text categorization.Words and phrases are commonly used as feature items,but these items provide little local semantic information.This paper uses sentence categories,which include more semantic information,as feature items.To reduce the dimensionality of sentence category vector space,it divides mixed sentence categories and reformes the weights by tfc algorithm and buildsthe classifier by KNN algorithm.The average precision and recall of the classifier are acceptable,especially in the case of categories having different abstraction.The performance can be improved by HNC techniques and machine learning algorithm.
Keywords:text classification  sentence category  vector space model(VSM)  HNC theory
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号