首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于潜在语义分析和直推式谱图算法的文本分类方法LSASGT
引用本文:戴新宇,田宝明,周俊生,陈家骏.一种基于潜在语义分析和直推式谱图算法的文本分类方法LSASGT[J].电子学报,2008,36(8):1626-1630.
作者姓名:戴新宇  田宝明  周俊生  陈家骏
作者单位:1. 南京大学计算机软件新技术国家重点实验室,江苏南京,210093
2. 南京师范大学计算机科学系,江苏南京,210097
基金项目:国家高技术研究发展计划(863计划),国家自然科学基金,江苏省自然科学基金
摘    要: 本文针对训练数据较少以及在基于图的分类算法中的文本表示问题,提出了一种基于潜在语义分析技术和直推式谱图算法的文本分类方法LSASGT,该方法将潜在语义分析技术和直推式谱图算法这两种基于谱分析理论的技术有机地结合在一起,对所有训练数据和测试数据进行统一建模,挖掘数据中潜在的多种结构信息.LSASGT引入潜在语义分析技术用于构造文本图表示模型,在能够反映人的分类标准的潜在语义特征空间中,描述文本之间的语义相关性;基于这样的文本表示,利用半监督的直推式谱图算法进行文本分类.在基准英文文本分类数据集Reuters21578和中文文本分类数据集Tan-Corp上的实验结果表明,本文给出的LSASGT文本分类方法获得了较好的分类结果.

关 键 词:直推式谱图  潜在语义分析  文本分类  图构造
收稿时间:2008-01-17

LSASGT:an Approach to Text Categorization Based on Latent Semantic Analysis and Spectral Graph Transducer
DAI Xin-yu,TIAN Bao-ming,ZHOU Jun-sheng,CHEN Jia-jun.LSASGT:an Approach to Text Categorization Based on Latent Semantic Analysis and Spectral Graph Transducer[J].Acta Electronica Sinica,2008,36(8):1626-1630.
Authors:DAI Xin-yu  TIAN Bao-ming  ZHOU Jun-sheng  CHEN Jia-jun
Affiliation:DAI Xin-yu1,TIAN Bao-ming1,ZHOU Jun-sheng2,CHEN Jia-jun1(1.State Key Laboratory for Novel Software Technology,Nanjing University,Nanjing,Jiangsu 210093,China,2.Department of Computer Science,Nanjing Normal University,Jiangsu 210097,China)
Abstract:In this paper,an approach to text categorization named LSASGT is proposed,which combines Latent Semantic Analysis(LSA) with Spectral Graph Transducer(SGT) for the task of text categorization.For both LSA and SGT are originated from spectral analysis theory which can mine some latent structure information within all training and testing data,we integrate them tightly in one model.Firstly,according to the characteristic of natural language,LSA is used to represent documents in a latent semantic space in which...
Keywords:spectral graph transducer  latent semantic analysis  text categorization  graph construction  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《电子学报》浏览原始摘要信息
点击此处可从《电子学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号