首页 | 本学科首页   官方微博 | 高级检索  
     

基于上下文语义的朴素贝叶斯文本分类算法
引用本文:郑开雨,竹翠.基于上下文语义的朴素贝叶斯文本分类算法[J].计算机与现代化,2018,0(6):1.
作者姓名:郑开雨  竹翠
摘    要:朴素贝叶斯分类器基于样本各属性相互条件独立的假设前提,它作为一种简单的词袋模型,忽略了上下文语境下同义词对分类的影响。本文提出相似词概念,使用相似词词簇代替传统的特征词典参与训练。首先训练word2vec得到词向量。然后,将特征词典用词向量表示后层次聚类,构建相似词词簇,并对其扩展。实验结果表明,改进后算法有效提高了文本分类的准确度,避免了因分类训练语料的差异导致分类效果的不稳定。

关 键 词:文本分类  朴素贝叶斯  word2vec  
收稿时间:2018-07-05

ContextSemantic-basedNaiveBayesianAlgorithmforTextClassification
ZHENGKai-yu,ZHUCui.ContextSemantic-basedNaiveBayesianAlgorithmforTextClassification[J].Computer and Modernization,2018,0(6):1.
Authors:ZHENGKai-yu  ZHUCui
Abstract:TheNaiveBayesclassifierisbasedontheassumptionthatthesamples’attributesareindependentoneanother.Asasimplebag-of-wordsmodel,itignorestheinfluenceofsynonymsincontexttoclassification.Thispaperproposestheconceptofsimilarwordandusesclustersofsimilarwordsinsteadofkeyworddictionaryintraining.First,word2vecistrainedtogetwordembedding.Second,thekeyworddictionaryisrepresentedbywordembeddingwhichisthenclusteredhierarchically,theclustersofsimiliarwordsarebuiltandexpanded.Theexperimentalresultsshowthattheabovemethodcanimprovetheaccuracyoftextclassification,andavoidtheinstabilityofclassificationeffectduetothedifferencesintrainingcorpus.
Keywords:textcategorization  NaiveBayes  word2vec  
点击此处可从《计算机与现代化》浏览原始摘要信息
点击此处可从《计算机与现代化》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号