首页 | 本学科首页   官方微博 | 高级检索  
     

一种用于大规模文本分类的特征表示方法
作者姓名:郝春风  王忠民
作者单位:北京科技大学,计算机系,北京,100083;北京科技大学,计算机系,北京,100083
摘    要:随着网络和信息技术的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。文本的特征表示严重地限制了文本分类性能的提升。以经典的向量空间模型和tf-idf权值计算公式为基础,提出了以应用于文本分类为目的的权值改进公式p-idf公式。在比较了贝叶斯、K近邻、神经网络和支持向量机四种典型的文本分类器的基础上,采用支持向量机分类器搭建了一个文本分类试验系统。经过科学的试验比较了tf-idf、p-idf、LTC三种权值公式在文本分类系统中对分类器性能的影响,证实了所提出的p-idf公式的合理性和有效性。

关 键 词:文本分类  向量空间模型  p-idf  支持向量机
文章编号:1002-8331(2007)15-0170-03
修稿时间:2006-09-01
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号