首页 | 本学科首页   官方微博 | 高级检索  
     

融入内部语义关系对文本分类的影响研究
引用本文:朱建林,杨小平,彭鲸桥.融入内部语义关系对文本分类的影响研究[J].计算机科学,2016,43(9):82-86.
作者姓名:朱建林  杨小平  彭鲸桥
作者单位:中国人民大学财政金融学院 北京100083,中国人民大学信息学院 北京100083,中国人民大学信息学院 北京100083
基金项目:本文受国家自然科学基金(71271209),北京市自然科学基金(4132067),教育部人文社会科学青年基金(11YJC630268),河北省自然科学基金项目(A2013410011)资助
摘    要:为了在不加入外部语义知识的前提下改善向量空间模型的文本分类效果,通过挖掘语料库内部蕴含的词间关系和文本间关系,并以不同的方式融入原始的词文本矩阵,然后选择常用的SVM和KNN算法,在领域性较强的法律语料库和领域性较宽泛的新闻语料库上进行文本分类的对比实验。实验证明,加入词间关系和文本间关系通常能有效改善文本分类的效果,但是对不同的分类方法和领域特征有不同的影响,在实际应用中应该区别对待。

关 键 词:向量空间模型  文本分类  语义挖掘  特征矩阵
收稿时间:2015/7/20 0:00:00
修稿时间:2015/11/20 0:00:00

Research on Effect of Adding Internal Semantic Relationship into Text Categorization
ZHU Jian-lin,YANG Xiao-ping and PENG Jing-qiao.Research on Effect of Adding Internal Semantic Relationship into Text Categorization[J].Computer Science,2016,43(9):82-86.
Authors:ZHU Jian-lin  YANG Xiao-ping and PENG Jing-qiao
Affiliation:The School of Finance,Renmin University of China,Beijing 100083,China,School of Information,Renmin University of China,Beijing 100083,China and School of Information,Renmin University of China,Beijing 100083,China
Abstract:In order to improve the effect of text categorization on the premise of no addition of the external knowledge,this paper presented a feature matrix-based categorization framework.First,the internal knowledge of corpus is mined and added into the original word-text matrix in different ways.Two common algorithms named SVM and KNN are chosen for contrastive experiment of text categorization in highly territorial legal corpus and domain-wide news corpus.Experi-mental results show that it is generally helpful when adding the semantic relationships extracted from corpus into the original matrix,but the adding method should be chosen according to different classification methods and domain chara-cteristics.
Keywords:Vector space model  Text categorization  Semantic mining  Feature matrix
点击此处可从《计算机科学》浏览原始摘要信息
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号