首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
从特征选择、局部区域划分和词汇语义相似性计算入手,利用随机词汇迭代模型(random terms iterativemodel,RTIM)进行海量兴趣点(point of interest,POI)文本分类.通过词汇频度、集中度和离散度方法筛选出特征词汇;依据文本与各POI类别间的相似度进行局部区域划分;在每个局部区域内基于词汇在文本中的排列顺序构建词频向量,基于词频向量中词频的随机删除和重构,获取特征映射矩阵;通过特征映射矩阵将文本转为特征向量,并采用SVM分类器进行POI文本分类.实验证明,该方法有效提升了POI文本分类准确性和覆盖率.  相似文献   

2.
文本特征选择是文本分类和信息提取的关键技术。针对文本分类中特征向量的高维稀疏问题,提出了非负矩阵分解和概念语义空间结合的特征抽取方法,对特征矩阵分解算法加入非负限制能够给出概念语义向量面向主题的解释,较好体现文本的局部特征。采用非负矩阵分解对全局和局部语义空间进行降维处理提高了体征提取效率,对不同概念语义空间中文本分类效果比对分析。实验结果表明基于非负矩阵分解的局部概念语义空间中文本分类精度较高。  相似文献   

3.
基于核方法的Web挖掘研究   总被引:2,自引:0,他引:2  
基于词空间的分类方法很难处理文本的高维特性和捕获文本语义概念.利用核主成分分析和支持向量机。提出一种通过约简文本数据维数抽取语义概念、基于语义概念进行文本分类的新方法.首先将文档映射到高维线性特征空间消除非线性特征,然后在映射空间中通过主成分分析消除变量之间的相关性,实现降维和语义概念抽取,得到文档的语义概念空间,最后在语义概念空间中采用支持向量机进行分类.通过新定义的核函数,不必显式实现到语义概念空间的映射,可在原始文档向量空间中直接实现基于语义概念的分类.利用核化的GHA方法自适应迭代求解核矩阵的特征向量和特征值,适于求解大规模的文本分类问题.试验结果表明该方法对于改进文本分类的性能具有较好的效果.  相似文献   

4.
基于向量空间模型的文本分类中特征向量是极度稀疏的高维向量,只有降低向量空间维数才能提高分类效率。在利用统计方法选择文本分类特征降低特征空间维数的基础上,采用隐含语义分析技术,挖掘文档特征间的语义信息,利用矩阵奇异值分解理论进一步降低了特征空间维数。实验结果表明分类结果宏平均F1约提高了5%,验证了该方法的有效性。  相似文献   

5.
为了更好地表示文本语义信息,提高文本分类准确率,改进了特征权重计算方法,并融合特征向量与语义向量进行文本表示.首先基于文本复杂网络实现文本特征提取,接着利用网络节点统计特征改进TF-IDF得到特征向量,再基于LSTM抽取语义向量,最后将特征向量与语义向量相融合,使新的文本表示向量信息区分度更高.以网络新闻数据为实验对象的实验结果表明,改进特征权重计算方法,在特征向量中引入了语义和结构信息,并融合特征向量和语义向量,能进一步丰富文本信息,改善文本分类效果.  相似文献   

6.
基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。  相似文献   

7.
运用空间向量对文本信息进行合理且有效的表示对文本聚类以及检索的结果有较大影响.共现潜在语义向量空间模型(CLSVSM)深度挖掘了文本特征词之间的共现潜在语义信息并且提升了文本聚类的性能.本文在CLSVSM基础上先引入特征词词频信息,再将引入的词频作为权重赋予CLSVSM的共现强度,最终构建特征加权的CLSVSM.特征加...  相似文献   

8.
张群  王红军  王伦文 《计算机科学》2016,43(Z11):443-446, 450
短文本因具有特征信息不足且高维稀疏等特点,使得传统文本聚类算法应用于短文本聚类任务时性能有限。针对上述情况,提出一种结合上下文语义的短文本聚类算法。首先借鉴社会网络分析领域的中心性和权威性思想设计了一种结合上下文语义的特征词权重计算方法,在此基础上构建词条-文本矩阵;然后对该矩阵进行奇异值分解,进一步将原始特征词空间映射到低维的潜在语义空间;最后通过改进的K-means聚类算法在低维潜在语义空间完成短文本聚类。实验结果表明,与传统的基于词频及逆向文档频权重的文本聚类算法相比,该算法能有效改善短文本特征不足及高维稀疏性,提高了短文的本聚类效果。  相似文献   

9.
程玉胜  梁辉  王一宾  黎康 《计算机应用》2016,36(11):2963-2968
传统的文本分类多以空间向量模型为基础,采用层次分类树模型进行统计分析,该模型多数没有结合特征项语义信息,因此可能产生大量频繁语义模式,增加了分类路径。结合基本显露模式(eEP)在分类上的良好区分特性和基于最小期望风险代价的决策粗糙集模型,提出了一种阈值优化的文本语义分类算法TSCTO:在获取文档特征项频率分布表之后,首先利用粗糙集联合决策分布密度矩阵,计算最小阈值,提取满足一定阈值的高频词;然后结合语义分析与逆向文档频率方法获取基于语义类内文档频率的高频词;采用eEP分类方法获得最简模式;最后利用相似性公式和《知网》提供的语义相关度,计算文本相似性得分,利用三支决策理论对阈值进行选择。实验结果表明,TSCTO算法在文本分类的性能上有一定提升。  相似文献   

10.
传统词嵌入通常将词项的不同上下文编码至同一参数空间,造成词向量未能有效辨别多义词的语义;CNN网络极易关注文本局部特征而忽略文本时序语义,BiGRU网络善于学习文本时序整体语义,造成关键局部特征提取不足.针对上述问题,提出一种基于词性特征的CNN_BiGRU文本分类模型.引入词性特征构建具有词性属性的词性向量;将词性向量与词向量交叉组合形成增强词向量,以改善文本表示;采用CNN网络获取增强词向量的局部表示,利用BiGRU网络捕获增强词向量的全局上下文表示;融合两模型学习的表示形成深度语义特征;将该深度语义特征连接至Softmax分类器完成分类预测.实验结果表明,该模型提高了分类准确率,具有良好的文本语义建模和识别能力.  相似文献   

11.
藏语微博是目前流行的藏文网络媒体形式。对藏文微博文本进行情感挖掘,能够有效提高政府对藏语言的监测能力。传统的文本分类方法对中文微博能够达到不错的效果,但由于藏文具有自身的语言特点,传统方法对藏语的分类效率并不高。本文提出了一种基于语义空间的藏文微博情感分析方法。该方法首先使用句法树生成句法结构;然后结合句法结构和语义特征向量构建语义特征空间,在特征空间中通过K-means方法聚类形成语义簇质心;最后计算基于簇的TF-IDF值作为最终的微博情感特征值。实验结果表明,与目前常用的SVM TF-IDF和Naive Bayes 最大熵方法相比,该方法能更准确地对藏文微博进行情感分类。  相似文献   

12.
近年来,卷积神经网络模型常常被用于文本情感分类的研究中,但多数研究都会忽略文本特征词本身所携带的情感信息和中文文本分词时被错分的情况.针对此问题,提出一种融合情感特征的双通道卷积神经网络情感分类模型(Dual-channel Convolutional Neural Network sentiment classifi...  相似文献   

13.
基于归一化向量的文本分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
基于归一化思想和矩阵投影运算提出一种文本分类算法。该算法综合考虑单个类别内的文档频率和词频,用于进行矩阵投影运算。将训练样例中表示文本特征的三维空间投影到二维空间上,得到归一化的特征向量,可有效地达到降低特征空间维数、提高分类效率和精度的目的。与kNN算法的对比实验表明,该算法在时间性能和精度上都有较大提高。  相似文献   

14.
传统的文本分类都是根据文本的外在特征进行的,最常见的就是基于向量空间模型的方法,使用空间向量表示文本,通过相似度比较来确定分类。为了克服向量空间模型中的词条独立性假设,文章提出了一种基于潜在语义索引的文本分类模型,通过对大量的文本集进行统计分析,揭示了词语的上下文使用含义,通过奇异值分解有效地降低了向量空间的维数,消除了同义词、多义词的影响,从而提高了文本分类的精度。  相似文献   

15.
在文本分类研究中,向量空间模型具有表示形式简单的特点,但只能表示特征词的词频信息而忽视了特征词间的结构信息和语义语序信息,所以可能导致不同文档被表示为相同向量。针对这种问题,本文采用图结构模型表示文本,把文本表示成一个有向图(简称文本图),可有效解决结构化信息缺失的问题。本文将图核技术应用于文本分类,提出适用于文本图之间的相似度计算的图核算法--间隔通路核,然后利用支持向量机对文本进行分类。在文本集上的实验结果表明:与向量空间模型相比,间隔通路核相比于其他核函数的分类准确率更高,所以间隔通路核是一种很好的图结构相似性计算算法,能广泛应用于文本分类中。  相似文献   

16.
基于领域知识的专利自动分类   总被引:5,自引:1,他引:5  
根据改进的词语权重计算方法构造给定文本的特征向量,并用之从专利分类的领域知识——国际分类表IPC中直接提取类别的概念向量和待分类专利文本的特征向量,然后采用向量空间模型实现专利的自动分类,该方法不需要大量的训练样本,具有较高的分类正确率和执行速度。  相似文献   

17.
采用向量空间模型(V SM)描述文本,利用隐性语义索引(LSI)技术进行特征重构与降维,构造了BP神经网络文本分类器。将贝叶斯分类技术与前者结合构造了一种混合文本分类器。实验结果表明混合分类器分类准确度和分类速度得到提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号