首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
《计算机科学与探索》2016,(9):1320-1331
海量网络信息的出现,使得提取文本信息情感观点成为研究的热点。针对文本情感分类中文本信息模糊及分类准确率低的问题,提出了一种基于Mixed-Fisher特征选择的文本云向量模型聚类算法。该算法首先分别计算文档中各个词性特征项的Fisher判别比,根据Fisher判别比越大特征向量判别性越强的Fisher准则,选择Fisher比值较大的前q个特征,并按照词性进行组合生成文档的Mixed-Fisher特征向量。然后在Mixed-Fisher特征向量集上构建文档的云向量模型,根据云向量模型间的差异度对模型进行聚类和合并。将该算法应用于文本情感观点的分类,选择核Fisher判别技术用于最终文本观点的判定。仿真实验结果表明,基于Mixed-Fisher特征的云向量聚类模型的分类准确率明显优于传统向量空间模型,从而验证了核Fisher判别技术的有效性。  相似文献   

2.
为了提高文本情感分类准确率,提出基于多约简Fisher向量空间模型和支持向量机的文本情感分类算法。该算法首先采用Fisher判别准则提取TF-IDF特征向量,然后依据低维文档向量空间模型间的相似度对文档进行聚类,减少文档的数目。该算法从维度和数量两个方面对文档的向量空间模型进行约简,以期提高支持向量机的训练速度和分类性能。仿真实验结果表明,该算法具有良好的召回率和分类准确率。  相似文献   

3.
传统词嵌入通常将词项的不同上下文编码至同一参数空间,造成词向量未能有效辨别多义词的语义;CNN网络极易关注文本局部特征而忽略文本时序语义,BiGRU网络善于学习文本时序整体语义,造成关键局部特征提取不足.针对上述问题,提出一种基于词性特征的CNN_BiGRU文本分类模型.引入词性特征构建具有词性属性的词性向量;将词性向量与词向量交叉组合形成增强词向量,以改善文本表示;采用CNN网络获取增强词向量的局部表示,利用BiGRU网络捕获增强词向量的全局上下文表示;融合两模型学习的表示形成深度语义特征;将该深度语义特征连接至Softmax分类器完成分类预测.实验结果表明,该模型提高了分类准确率,具有良好的文本语义建模和识别能力.  相似文献   

4.
音乐的情感标签预测对音乐的情感分析有着重要的意义。该文提出了一种基于情感向量空间模型的歌曲情感标签预测算法,首先,提取歌词中的情感特征词构建情感空间向量模型,然后利用SVM分类器对已知情感标签的音乐进行训练,通过分类技术找到与待预测歌曲情感主类一致的歌曲集合,最后,通过歌词的情感相似度计算找到最邻近的k首歌曲,将其标签推荐给待预测歌曲。实验发现本文提出的情感向量空间模型和“情感词—情感标签”共现的特征降维方法比传统的文本特征向量模型能够更好地提高歌曲情感分类准确率。同时,在分类基础上进行的情感标签预测方法可以有效地防止音乐“主类情感漂移”,比最近邻居方法达到更好的标签预测准确率。  相似文献   

5.
通过文档基于模糊限定词的特征表达,定义特征的模糊函数,将文档表示为隶属度限幅的特征向量,构 造文本集隶属度限幅的类特征矩阵,将每一类文本集映射为类期望向量,所有类期望向量便构成了隶属度限幅 的特征VSM。在此基础上设计了一种新的文本分类模型。实验结果证明,该分类模型能有效实现文本分类。  相似文献   

6.
基于关键词语的文本特征选择及权重计算方案   总被引:2,自引:3,他引:2  
文本的形式化表示一直是文本分类的重要难题.在被广泛采用的向量空间模型中,文本的每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征。提出一种基于关键词语的特征选择及权重计算方案,它利用了文本的结构信息同时运用互信息理论提取出对文本内容起到关键性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等信息,突出了文本中关键词语的贡献,弥补了TFIDF的缺陷。通过采用支持向量机(SVM)分类器进行实验,结果显示提出的Score权重计算法比传统TFIDF法的平均分类准确率要高5%左右。  相似文献   

7.
针对传统的校园网络行为日志分析仅考虑文本内容而忽视结构信息的问题,提出了融合压缩DOM树结构向量的行为类别标签预测模型。模型通过融合网页文本特征向量和DOM树结构向量并使用分类器进行分类,对于网页文本特征向量,利用TF-IDF方法,计算每个词的权重,然后进行加权平均,最终表示整段文本的特征向量。对于DOM树结构向量,提取网页中的全部DOM树结构并进行压缩,降低向量冗杂度,提高向量的表达能力。实验结果显示,与现有方法相比,行为类别标签预测模型能有效提升类别预测准确率。  相似文献   

8.
基于向量空间模型的贝叶斯文本分类方法   总被引:2,自引:0,他引:2  
提出基于向量空间模型的贝叶斯文本分类方法。首先提取出文本训练集的特征词,建立特征向量空间模型。然后采用贝叶斯文本分类方法对未知类别文档进行分类。给出了贝叶斯文本分类方法过程的详细描述和文本分类的一个测试实例。  相似文献   

9.
单词的统计特征在自然语言处理中具有广泛的应用。针对统计特征对关键词抽取和文本分类精确度的影响,分析了八种常见的统计特征,通过情感词抽取和商品评论分类,研究统计特征在情感分析领域中的作用。情感词提取实验的结果表明,通过结合统计特征与词性,情感词提取的准确率能够达到76.4%,显著高于基于统计特征或单词词性的情感词提取算法。商品评论分类的测试结果表明,与传统的基于单词的文本情感分类相比,基于统计特征的商品评论分类的准确率提高了10.8%。利用八种统计特征构造文本向量空间模型,替代基于单词构造文本向量空间模型的方法,能够降低文本向量的维度,具有隐形语义空间(LSA/SVD)的压缩效果,在保证分类结果准确率的前提下有效降低了算法的复杂度,能够替代传统的向量空间模型。  相似文献   

10.
在文本情感分类中,传统的特征表达通常忽略了语言知识的重要性。提出了一种基于词性嵌入的特征权重计算方法,通过构造一种特征嵌入模式将名词、动词、形容词、副词四种词性对情感分类的贡献度嵌入到传统的TF-IDF(Term Frequency-Inverse Document Frequency)权值中。其中,词性的情感贡献度通过粒子群优化算法获得。实验采用支持向量机完成分类,并对比了不同知识的嵌入情况,包括词性、情感词及词性和情感词的组合。结果表明基于词性嵌入的方法分类性能最优,可以显著提高中文文本情感分类的准确率。  相似文献   

11.
Owing to its openness, virtualization and sharing criterion, the Internet has been rapidly becoming a platform for people to express their opinion, attitude, feeling and emotion. As the subjectivity texts are often too many for people to go through, how to automatically classify them into different sentiment orientation categories (e.g. positive/negative) has become an important research problem. In this paper, based on Fisher’s discriminant ratio, an effective feature selection method is proposed for subjectivity text sentiment classification. In order to validate the proposed method, we compared it with the method based on Information Gain while Support Vector Machine is adopted as the classifier. Two experiments are conducted by combining different feature selection methods with two kinds of candidate feature sets. Under 2739 subjectivity documents of COAE2008s and 1006 car-related subjectivity documents, the experimental results indicate that the Fisher’s discriminant ratio based on word frequency estimation has the best performance respectively with accuracy 86.61% and 82.80% under two corpus while the candidate features are the words which appear in both positive and negative texts.  相似文献   

12.
This paper proposes a novel method for breast cancer diagnosis using the feature generated by genetic programming (GP). We developed a new feature extraction measure (modified Fisher linear discriminant analysis (MFLDA)) to overcome the limitation of Fisher criterion. GP as an evolutionary mechanism provides a training structure to generate features. A modified Fisher criterion is developed to help GP optimize features that allow pattern vectors belonging to different categories to distribute compactly and disjoint regions. First, the MFLDA is experimentally compared with some classical feature extraction methods (principal component analysis, Fisher linear discriminant analysis, alternative Fisher linear discriminant analysis). Second, the feature generated by GP based on the modified Fisher criterion is compared with the features generated by GP using Fisher criterion and an alternative Fisher criterion in terms of the classification performance. The classification is carried out by a simple classifier (minimum distance classifier). Finally, the same feature generated by GP is compared with a original feature set as the inputs to multi-layer perceptrons and support vector machine. Results demonstrate the capability of this method to transform information from high-dimensional feature space into one-dimensional space and automatically discover the relationship among data, to improve classification accuracy.  相似文献   

13.
为提高互联网中在线评论文本的情感倾向分类准确率,方便消费者和商家准确高效地获取信息,该文提出一种将语义规则方法与深度学习方法相结合的在线评论文本情感分类模型,对基于情感词典的语义规则信息进行扩展,嵌入到常用特征模板中组合成更有效的混合特征模板;采用Fisher判别准则方法对混合特征模板进行降维以消除特征间的信息冗余;深度学习模型采用基于LSTM改进的RNN模型,将网络爬取的数据输入到模型进行训练和测试。结果表明,语义规则抽取出的特征包含更多、更准确的情感信息,使得混合特征模板可以更加全面地考虑文本的情感特征粒度;Fisher准则可有效识别出高判别性的低维文本特征,进一步提高改进RNN模型对评论文本的分类性能。  相似文献   

14.
文本情感分类通过对带有情感色彩的主观性文本进行分析和推理,帮助用户更好地做出判断与决策。针对传统情感分类模型难以根据上下文信息调整词向量的问题,提出一种双通道文本情感分类模型。利用ELMo和Glove预训练模型分别生成动态和静态词向量,通过堆叠嵌入2种词向量生成输入向量。采用自注意力机制处理输入向量,计算内部的词依赖关系。构建融合卷积神经网络(CNN)和双向门控递归单元(BiGRU)的双通道神经网络结构,同时获取文本局部特征和全局特征。最终将双通道处理结果进行拼接,经过全连接层处理后输入分类器获得文本情感分类结果。实验结果表明,与同类情感分类模型中性能较优的H-BiGRU模型相比,ELMo-CNN-BiGRU模型在IMDB、yelp和sentiment140数据集上的准确率和F1值分别提升了2.42、1.98、2.52和2.40、1.94、2.43个百分点,具有更好的短文本情感分类效果和稳定性。  相似文献   

15.
胡均毅  李金龙 《计算机工程》2020,46(3):46-52,59
文本中的词并非都具有相似的情感倾向和强度,较好地编码上下文并从中提取关键信息对于情感分类任务而言非常重要。为此,提出一种基于情感评分的分层注意力网络框架,以对文本情感进行有效分类。利用双向循环神经网络编码器分别对词向量和句向量进行编码,并通过注意力机制加权求和以获得文档的最终表示。设计辅助网络对文本的词、句进行情感评分,利用该评分调整注意力权重分布。在探究文本的情感信息对分类性能的影响后,通过辅助网络进一步促使模型关注情感色彩强烈的信息。在4个常用情感分类数据集上的实验结果表明,该框架能够关注文本中的情感表达并获得较高的分类准确率。  相似文献   

16.
针对标签随着时间变化的动态多标签文本分类问题,提出了一种基于标签语义相似的动态多标签文本分类算法。该算法在训练阶段,首先按照标签固定训练得到一个基于卷积神经网络的多标签文本分类器,然后以该分类器的倒数第二层的输出为文本的特征向量。由于该特征向量是在有标签训练得到的,因而相对于基于字符串即文本内容而言,该特征向量含有标签语义信息。在测试阶段,将测试文档输入训练阶段的多标签文本分类器获取相应的特征向量,然后计算相似性,同时乘以时间衰减因子修正,使得时间越近的文本具有较高的相似性。最后,采用最近邻算法分类。实验结果表明,该算法在处理动态多标签文本分类问题上具有较优的性能。  相似文献   

17.
针对传统的卷积神经网络未能充分利用不同通道间的文本特征语义信息和关联信息,以及传统的词向量表示方法采用静态方式对文本信息进行提取,忽略了文本的位置信息,从而导致文本情感分类不准确的问题,提出了一种结合ALBERT(a lite BERT)和注意力特征分割融合网络(attention feature split fusion network,AFSFN)的中文短文本情感分类模型ALBERT-AFSFN。该模型利用ALBERT对文本进行词向量表示,提升词向量的表征能力;通过注意力特征分割融合网络将特征分割为两组,对两组不同通道的特征进行提取和融合,最大程度保留不同通道之间的语义关联信息;借助Softmax函数对中文短文本情感进行分类,得到文本的情感倾向。在三个公开数据集Chnsenticorp、waimai-10k和weibo-100k上的准确率分别达到了93.33%、88.98%和97.81%,F1值也分别达到了93.23%、88.47%和97.78%,结果表明提出的方法在中文短文本情感分析中能够达到更好的分类效果。  相似文献   

18.
李卫疆  漆芳  余正涛 《软件学报》2021,32(9):2783-2800
针对情感分析任务中没有充分利用现有的语言知识和情感资源,以及在序列模型中存在的问题:模型会将输入文本序列解码为某一个特定的长度向量,如果向量的长度设定过短,会造成输入文本信息丢失.提出了一种基于多通道特征和自注意力的双向LSTM情感分类方法(MFSA-BiLSTM),该模型对情感分析任务中现有的语言知识和情感资源进行建模,形成不同的特征通道,并使用自注意力重点关注加强这些情感信息.MFSA-BiLSTM可以充分挖掘句子中的情感目标词和情感极性词之间的关系,且不依赖人工整理的情感词典.另外,在MFSA-BiLSTM模型的基础上,针对文档级文本分类任务提出了MFSA-BiLSTM-D模型.该模型先训练得到文档的所有的句子表达,再得到整个文档表示.最后,对5个基线数据集进行了实验验证.结果表明:在大多数情况下,MFSA-BiLSTM和MFSA-BiLSTM-D这两个模型在分类精度上优于其他先进的文本分类方法.  相似文献   

19.
Sentiment analysis for social media and online document has been a burgeoning area in text mining for the last decade. However, Email sentiment analysis has not been studied and examined thoroughly even though it is one of the most ubiquitous means of communication. In this research, a hybrid sentiment analysis framework for Email data using term frequency-inverse document frequency term weighting model for feature extraction, and k-means labeling combined with support vector machine classifier for sentiment classification is proposed. Empirical results indicate comparatively better classification results with the proposed framework than other combinations.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号