首页 | 本学科首页   官方微博 | 高级检索  
     

基于句子级的最大频繁序列的文本分类
引用本文:邹晶 冯剑琳 李曲 王元珍. 基于句子级的最大频繁序列的文本分类[J]. 计算机科学, 2006, 33(1): 236-239
作者姓名:邹晶 冯剑琳 李曲 王元珍
作者单位:华中科技大学计算机学院,武汉,430074;华中科技大学计算机学院,武汉,430074;华中科技大学计算机学院,武汉,430074;华中科技大学计算机学院,武汉,430074
基金项目:同济大学校科研和教改项目;中国博士后科学基金
摘    要:本文提出了一种新的文本分类方法。这种方法将一篇文本的一个句子看作一个事务,一个段落看作是一个序列,则一篇文本表示成一个序列的集合。我们从每篇训练文本中挖出最大频繁序列用以表示这篇文本,这种表示方法可大大提高训练及分类速度,同时也可以几乎不损失分类精度。在数据集Reuters-21578上的大量实验证明这种方法要远远好于其他的文本级的基于关联的分类方法。

关 键 词:文本分类  句子级  最大序列  频繁序列

Text Classification Based on Sentence-level Maximal Frequent Sequence
ZOU Jing,FENG Jian,Lin LI,Qu WANG,Yuan Zhen. Text Classification Based on Sentence-level Maximal Frequent Sequence[J]. Computer Science, 2006, 33(1): 236-239
Authors:ZOU Jing  FENG Jian  Lin LI  Qu WANG  Yuan Zhen
Affiliation:Department of Computer Science, Huazhong University of Science and Technology, Wuhan 430074
Abstract:In this paper, we present a novel text classification method . It views a sentence as an association transaction, and a paragraph as a sequence, then a document becomes a set of sequneces. We find maximal frequent sequences from each training document to present it, so the training and classification speed can be improved greatly. The effectiveness of this method has been demonstrated comparable to well-known alternatives and much better than current document-level words association based methods on the Reuters corpus.
Keywords:Text classification   Sentence-level   Maximal sequence   Frequent sequence
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号