首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
由于人类语言的复杂性,文本情感分类算法大多都存在因为冗余而造成的词汇量过大的问题。深度信念网络(DBN)通过学习输入语料中的有用信息以及它的几个隐藏层来解决这个问题。然而对于大型应用程序来说,DBN是一个耗时且计算代价昂贵的算法。针对这个问题,提出了一种半监督的情感分类算法,即基于特征选择和深度信念网络的文本情感分类算法(FSDBN)。首先使用特征选择方法(文档频率(DF)、信息增益(IG)、卡方统计(CHI)、互信息(MI))过滤掉一些不相关的特征从而使词汇表的复杂性降低;然后将特征选择的结果输入到DBN中,使得DBN的学习阶段更加高效。将所提算法应用到中文以及维吾尔语中,实验结果表明在酒店评论数据集上,FSDBN在准确率方面比DBN提高了1.6%,在训练时间上比DBN缩短一半。  相似文献   

2.
《计算机科学与探索》2016,(9):1320-1331
海量网络信息的出现,使得提取文本信息情感观点成为研究的热点。针对文本情感分类中文本信息模糊及分类准确率低的问题,提出了一种基于Mixed-Fisher特征选择的文本云向量模型聚类算法。该算法首先分别计算文档中各个词性特征项的Fisher判别比,根据Fisher判别比越大特征向量判别性越强的Fisher准则,选择Fisher比值较大的前q个特征,并按照词性进行组合生成文档的Mixed-Fisher特征向量。然后在Mixed-Fisher特征向量集上构建文档的云向量模型,根据云向量模型间的差异度对模型进行聚类和合并。将该算法应用于文本情感观点的分类,选择核Fisher判别技术用于最终文本观点的判定。仿真实验结果表明,基于Mixed-Fisher特征的云向量聚类模型的分类准确率明显优于传统向量空间模型,从而验证了核Fisher判别技术的有效性。  相似文献   

3.
针对DataFountain平台举办竞赛所提供的剧本角色情感数据集,采用中文分词、去停用词和绘制词云图等工具对数据进行预处理,利用词频-逆向文档频率(TF-IDF)算法提取文本特征,分别建立了基于支持向量机和朴素贝叶斯算法的机器学习分类识别模型。将建立的新模型应用于剧本角色情感的识别和分析研究,结果表明,朴素贝叶斯分类模型的识别效果要优于支持向量机分类模型;并且,当拉普拉斯平滑系数α=0.2时,朴素贝叶斯算法的分类准确率接近于80%。  相似文献   

4.
笔者提出了一种新的情感分类的特征选择方法。为了识别属于特定类别的明显的特性,使用Z-score方法,可以识别确定的特征并使用信息增益(IG)方法来获得在确定特征领域中出现的词值。基于此,笔者提出了一个新的加权方案来进行情感分类。提出的特征选择和分类方法是在两个公开可用的数据集上使用各种文本表示方法来评估的。准确率超过10倍交叉验证法,所提出的方法执行同样层次的分类,有时优于SVM和Naive Bayes方法。  相似文献   

5.
张志强 《福建电脑》2011,27(11):11-13
以Web文档特征为基础,进行了分块加权的词频繁集抽取,并利用其生成的极大类频繁集设计了关联规则的文档分类算法,使并联文本分类方法在web文档上得以应用并取得较高的分类准确率与召回率。  相似文献   

6.
龚静  胡平霞  胡灿 《微机发展》2014,(9):128-132
TF-IDF算法是文本分类中一种常用的权重计算方法,但是TF-IDF仅仅考虑了特征项在文本中出现的次数以及该特征项在训练集中的出现频率,没有考虑特征项在各个类间的分布情况及特征项的语义信息。因此针对TF-IDF的不足提出了一种改进的TF-IDF算法,此算法既考虑了特征项在类内的分布情况又考虑了特征项的位置及长度等语义因素,能更好地反映特征项的重要性。用朴素贝叶斯分类器验证其有效性,实验结果表明该算法优于TF-IDF算法,能较好地提高文本分类的准确率。  相似文献   

7.
针对文本情感分类准确率不高的问题,提出基于CCA-VSM分类器和KFD的多级文本情感分类方法。采用典型相关性分析对文档的权重特征向量和词性特征向量进行降维,在约简向量集上构建向量空间模型,根据模型之间的差异度设计VSM分类器,筛选出与测试文档差异度较小的R个模型作为核Fisher判别的输入,最终判别出文档的情感观点。实验结果表明:该方法比传统支持向量机有较高的分类准确率和较快的分类速度,权重特征和词性特征对分类准确率的影响较大。  相似文献   

8.
《计算机工程》2017,(3):193-199
针对K最近邻(KNN)算法在文本分类决策规则上由于样本重要性相同而导致分类效果不佳的问题,提出一种基于文本加权的KNN文本分类算法,并将其应用于垃圾短信的分类问题。在提取出特征词之后,考虑到特征词在文本中出现的频率对文本重要性的影响,引入第1个加权公式,同时针对垃圾短信数据集,采用关联规则算法挖掘出在垃圾短信中频繁出现的共现词组,并以此引入第2个加权公式,最后将引入的2种文本权重计算公式对每个短信文本进行复合加权处理,以区分各个训练样本对于判定隶属类别的影响程度,从而在分类决策规则上作出改进。实验结果表明,与未经过文本加权的KNN算法相比,该算法对垃圾短信和正常短信在分类准确率、召回率、F1值等指标上都有较大的提升。  相似文献   

9.
文本表示是使用分类算法处理文本时必不可少的环节,文本表示方法的选择对最终的分类精度起着至关重要的作用。针对经典的特征权重计算方法TFIDF(Term Frequency and Inverted Document Frequency)中存在的不足,提出了一种基于信息熵理论的特征权重算法ETFIDF(Entropy based TFIDF)。ETFIDF不仅考虑特征项在文档中出现的频率及该特征项在训练集中的集中度,而且还考虑该特征项在各个类别中的分散度。实验结果表明,采用ETFIDF计算特征权重可以有效地提高文本分类性能,对ETFIDF与特征选择的关系进行了较详细的理论分析和实验研究。实验结果表明,在文本表示阶段考虑特征与类别的关系可以更为准确地表示文本;如果综合考虑精度与效率两个方面因素,ETFIDF算法与特征选择算法一起采用能够得到更好的分类效果。  相似文献   

10.
针对互信息(mutual information,MI)特征选择方法存在的正负相关性的现象以及未考虑特征项在不同类别内词频的问题,提出了一种混合互信息特征选择算法(hybrid mutual information,HMI)。引入逆文档频率系数和类间词频信息系数,使得整个文档中的词频信息以及每个类之间的词频信息得以有效利用;引入正负相关性系数,区分正相关性和负相关性并进行有效的利用。通过实验对比表明,混合互信息算法可以有效地提高特征选择的质量,进而提高文本情感分析的效果。  相似文献   

11.
Term weighting is a strategy that assigns weights to terms to improve the performance of sentiment analysis and other text mining tasks. In this paper, we propose a supervised term weighting scheme based on two basic factors: Importance of a term in a document (ITD) and importance of a term for expressing sentiment (ITS), to improve the performance of analysis. For ITD, we explore three definitions based on term frequency. Then, seven statistical functions are employed to learn the ITS of each term from training documents with category labels. Compared with the previous unsupervised term weighting schemes originated from information retrieval, our scheme can make full use of the available labeling information to assign appropriate weights to terms. We have experimentally evaluated the proposed method against the state-of-the-art method. The experimental results show that our method outperforms the method and produce the best accuracy on two of three data sets.  相似文献   

12.
在文本情感分类中,传统的特征表达通常忽略了语言知识的重要性。提出了一种基于词性嵌入的特征权重计算方法,通过构造一种特征嵌入模式将名词、动词、形容词、副词四种词性对情感分类的贡献度嵌入到传统的TF-IDF(Term Frequency-Inverse Document Frequency)权值中。其中,词性的情感贡献度通过粒子群优化算法获得。实验采用支持向量机完成分类,并对比了不同知识的嵌入情况,包括词性、情感词及词性和情感词的组合。结果表明基于词性嵌入的方法分类性能最优,可以显著提高中文文本情感分类的准确率。  相似文献   

13.
Sentiment analysis for social media and online document has been a burgeoning area in text mining for the last decade. However, Email sentiment analysis has not been studied and examined thoroughly even though it is one of the most ubiquitous means of communication. In this research, a hybrid sentiment analysis framework for Email data using term frequency-inverse document frequency term weighting model for feature extraction, and k-means labeling combined with support vector machine classifier for sentiment classification is proposed. Empirical results indicate comparatively better classification results with the proposed framework than other combinations.  相似文献   

14.
Term frequency–inverse document frequency (TF–IDF), one of the most popular feature (also called term or word) weighting methods used to describe documents in the vector space model and the applications related to text mining and information retrieval, can effectively reflect the importance of the term in the collection of documents, in which all documents play the same roles. But, TF–IDF does not take into account the difference of term IDF weighting if the documents play different roles in the collection of documents, such as positive and negative training set in text classification. In view of the aforementioned text, this paper presents a novel TF–IDF‐improved feature weighting approach, which reflects the importance of the term in the positive and the negative training examples, respectively. We also build a weighted voting classifier by iteratively applying the support vector machine algorithm and implement one‐class support vector machine and Positive Example Based Learning methods used for comparison. During classifying, an improved 1‐DNF algorithm, called 1‐DNFC, is also adopted, aiming at identifying more reliable negative documents from the unlabeled examples set. The experimental results show that the performance of term frequency inverse positive–negative document frequency‐based classifier outperforms that of TF–IDF‐based one, and the performance of weighted voting classifier also exceeds that of one‐class support vector machine‐based classifier and Positive Example Based Learning‐based classifier. Copyright © 2013 John Wiley & Sons, Ltd.  相似文献   

15.
基于文档频率的特征选择方法   总被引:1,自引:1,他引:0       下载免费PDF全文
杨凯峰  张毅坤  李燕 《计算机工程》2010,36(17):33-35,38
传统的文档频率(DF)方法在进行特征选择时仅考虑特征词在类别中出现的DF,没有考虑特征词在每篇文档中出现的词频率(TF)问题。针对该问题,基于特征词在每篇文档中出现的TF,结合特征词在类别中出现的DF提出特征选择的新算法,并使用支持向量机方法训练分类器。实验结果表明,在进行特征选择时,考虑高词频特征词对类别的贡献,可提高传统DF方法的分类性能。  相似文献   

16.
针对传统的深度学习算法作情感分析未充分考虑文本特征和输入优化的问题,提出了结合注意力机制和句子排序的双层CNN-BiLSTM模型(DASSCNN-BiLSTM)。利用情感词典对文档数据进行情感极性排序,得到优化的文档数据;将优化的文档数据输入第一层模型(由CNN和BiLSTM组成)生成句子表示;将句子表示输入第二层模型(由BiLSTM和注意力机制组成)生成文档表示,作为分类的依据,由此解决了输入优化的问题并且充分捕获了句子之间的语义信息,提升了情感分类精度。实验结果表明,该模型在分类精度上相对于现有的方法有明显的提升,且拥有较好的MSE值,能够较好应用于一般的情感分析任务。  相似文献   

17.
基于单层标注级联模型的篇章情感倾向分析   总被引:1,自引:0,他引:1  
情感分类是目前篇章情感分析的主要方法,但该方法存在难以融入中文结构特征的问题。针对此问题,采用级联模型对篇章情感倾向进行分析,将篇章情感倾向分析分为两层 小句级和篇章级,对篇章情感倾向分析引入小句级的情感分析。该文使用最大熵模型处理小句级情感分类,小句级的输出作为上层篇章级的输入,并结合句型特征和句子位置等信息作为特征,采用支持向量机模型进行篇章级情感分类。同时对于级联模型中双层标注问题,基于交叉验证的思想提出了单层标注级联模型,避免了多层标注工作以及错误。实验结果表明,该方法的准确率较传统情感分类方法提高了2.53%。  相似文献   

18.
19.
衡红军  徐天宝 《计算机应用》2022,42(9):2674-2679
针对现有的文档级情感分析模型大多只是考虑从词级对文本进行编码的问题,提出了一种基于多尺度卷积和门控机制的注意力情感分析模型。首先,使用多尺度卷积捕获不同粒度的局部相关性,从而得到更多不同层次的文本语义信息并形成更丰富的文本表示;其次,考虑到用户个性及产品信息对文本情感分类的影响,将全局用户产品信息融合到注意力中捕捉与用户和产品相关度较高的关键语义成分来生成文档表示;然后,引入门控机制来控制情感信息流向汇集层的路径;最后,通过全连接层和argmax函数实现情感分类。实验结果表明,与基准模型中性能最好的相比,所提模型在IMDB和Yelp2014两个数据集上的情感分类准确率分别提高了1.2个百分点和0.7个百分点,并且在IMDB和Yelp2013数据集上获得了最小的均方根误差(RMSE)。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号