首页 | 本学科首页   官方微博 | 高级检索  
     

基于潜在语义分析的中文文本层次分类技术*
引用本文:王怡,盖杰,武港山,王继成.基于潜在语义分析的中文文本层次分类技术*[J].计算机应用研究,2004,21(8):151-154.
作者姓名:王怡  盖杰  武港山  王继成
作者单位:(南京大学 软件新技术国家重点实验室;南京大学计算机系 江苏 南京 210093)
基金项目:国家自然科学基金资助项目(60073030);国家“863”计划基金资助项目(2002AA117010-10)
摘    要:从网络文本自动分类的需求出发,针对基于VSM模型的分类处理中词条无关假设和词条维度过高等问题,对基于类中心向量的分类方法进行了改进。利用LSA分析中的SVD分解获得Web文档的语义特征向量,并在此基础上进行分类处理,在不损害分类精度的同时提高了分类及其后处理速度,并设计实现了一个原型系统。

关 键 词:潜在语义分析  类重心分类  向量空间模型  文本分类  特征向量

Technology of Chinese Documents Multi hierarchy Categorization Based on Latent Semantic Analysis
WANG Yi,GAI Jie,WU Gang-shan,WANG Ji-cheng.Technology of Chinese Documents Multi hierarchy Categorization Based on Latent Semantic Analysis[J].Application Research of Computers,2004,21(8):151-154.
Authors:WANG Yi  GAI Jie  WU Gang-shan  WANG Ji-cheng
Affiliation:(State Key Laboratory for Novel Software Technology,Dept. of Computer Science & Technology, Nanjing University,Nanjing Jiangsu 210093,China)
Abstract:To satisfy the need of the categorization of Chinese Web documents,expends text categorization based on category centroid to solve the problem of term independence hypothesis and dimension nimiety of documents.Uses the SVD technology of LSA to get semantic eigenvectors of documents,and categorize documents based on them.From the theoretical viewpoint,this method improves the categorization and post-categorization speed meal while accuracy is guaranteed.
Keywords:
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号