首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 500 毫秒
1.
用户评论往往同时包含多个方面、多种情感,如何正确判断一条评论中不同方面的情感倾向性是方面情感分析的难点.文中提出基于词嵌入与记忆网络的方面情感分类.通过在记忆网络的不同模块引入方面词向量,加强方面词的语义信息,指导注意力机制捕捉方面相关的上下文信息,提升方面情感分类效果.在SemEval 2014任务4的短文本英文评论数据集和文中标注的长文本中文新闻数据集上实验表明,文中方法分类效果较好,在记忆网络框架下引入方面词嵌入信息是有效的.  相似文献   

2.
单词的统计特征在自然语言处理中具有广泛的应用。针对统计特征对关键词抽取和文本分类精确度的影响,分析了八种常见的统计特征,通过情感词抽取和商品评论分类,研究统计特征在情感分析领域中的作用。情感词提取实验的结果表明,通过结合统计特征与词性,情感词提取的准确率能够达到76.4%,显著高于基于统计特征或单词词性的情感词提取算法。商品评论分类的测试结果表明,与传统的基于单词的文本情感分类相比,基于统计特征的商品评论分类的准确率提高了10.8%。利用八种统计特征构造文本向量空间模型,替代基于单词构造文本向量空间模型的方法,能够降低文本向量的维度,具有隐形语义空间(LSA/SVD)的压缩效果,在保证分类结果准确率的前提下有效降低了算法的复杂度,能够替代传统的向量空间模型。  相似文献   

3.
情感分析作为文本挖掘的一个新型领域,可用于分类、归纳用户发布的产品评论,从而有助于商家改善服务,提高产品质量;同时为其他消费者提供购买决策。本文提出一种基于情感词抽取与LDA特征表示的情感分析方法,对产品评论进行褒贬二元分类。在情感词抽取中,采用人工构造的情感词典对预处理之后的文本抽取情感词;用LDA模型建立文档的主题分布,以评论-主题分布作为特征,用SVM分类器进行分类。实验结果表明,本文方法在评论褒贬分类方面有着良好的效果。  相似文献   

4.
基于LSTM的商品评论情感分析   总被引:1,自引:0,他引:1  
随着电子商务的发展,产生了大量的商品评论文本.针对商品评论的短文本特征,基于情感词典的情感分类方法需要大量依赖于情感数据库资源,而机器学习的方法又需要进行复杂的人工设计特征和提取特征过程.本文提出采用长短期记忆网络(Long Short-Term Memory)文本分类算法进行情感倾向分析,首先利用Word2vec和分词技术将评论短文本文本处理为计算机可理解的词向量传入LSTM网络并加入Dropout算法以防止过拟合得出最终的分类模型.实验表明:在基于深度学习的商品评论情感倾向分析中,利用LSTM网络的短时记忆独特特征对商品评论的情感分类取得了很好的效果,准确率达到99%以上.  相似文献   

5.
针对商品评论中的细粒度情感要素抽取问题,提出基于条件随机场模型( CRFs)和支持向量机( SVM)的层叠模型。针对情感对象与情感词的识别,将评论的句法信息、语义信息等引入CRFs模型,进一步提高CRFs特征模板的鲁棒性。在SVM模型中,引入情感对象和情感词的深层词义及情感词的基本情感倾向等特征,改进传统的词包模型,对掖情感对象,情感词业词对进行细粒度的情感分类判断,从而获得商品评论中的情感关键信息:(情感对象,情感词,情感倾向性)三元组。实验表明,文中的CRFs和SVM层叠模型可提高情感要素抽取与情感分类判断的准确性。  相似文献   

6.
周杰  林琛  李弼程 《计算机应用》2010,30(4):1011-1014
首先对网络新闻评论数据的特点进行归纳总结,选取不同的特征集、特征维度、权重计算方法和词性等因素进行分类测试,并对实验结果进行分析比较。对比结果表明:情感词和论据词语搭配效果优于仅使用情感词作为评论特征;另外该类数据中特征维度对分类准确率的影响减小,且TF-IDF权重计算方法仍优于布尔型权重;在词性选择上,名词和动词词性比形容词和副词取得更好的分类效果。  相似文献   

7.
旅游在线评论情感分析的基础是情感词典的构建。在领域情感词典构建过程中,通常仅使用词频作为筛选种子词集的标准,而并未考虑其内部词语的关联程度,这会导致种子词集聚类效果不明显,进而影响情感词语归类精度。因此,基于词向量模型,提出一种情感词典种子词集筛选方法。该方法将情感词语以向量形式表征并计算词向量间距离,形成种子词集的筛选标准和分类依据,再通过类别判断形成在线评论的情感词典。最后,构建了山岳型旅游景区在线评论情感词典,并通过对比实验验证了方法的有效性,对提高情感词语归类精度和旅游在线评论情感词典的构建起到了积极的作用。  相似文献   

8.
短文本具有长度短、特征稀疏以及上下文依赖强等特点,传统方法对其直接进行分类精度有限。针对上述问题,提出了一种结合字符和词的双输入卷积神经网络模型CP-CNN。该模型通过加入一种用拼音序列表征字符级输入的方法,构建字符级和词级的双输入矩阵,并在采样层使用k-max采样方法,增强模型特征的表达能力。利用豆瓣电影评论数据集对该模型进行识别精度评估,实验结果表明,与传统分类模型和标准卷积神经网络模型相比,该模型可有效提高短文本分类效果。  相似文献   

9.
随着移动互联网的发展,以商品评论等带有主观性的短文本信息急剧增加.海量的文本信息使得人工管理越来越困难.本文以商品评论为研究对象进行情感分析.针对商品评论为短文本的特点,本文在词向量的基础上提出了词向量叠加方法和加权词向量方法进行文本特征的提取,从而更深层次的提取短文本特征.在进行评论情感分析模型性能的比较中,说明了本文所提方法的有效性.基于情感分析技术可以解决人工难以胜任的海量商品评论的分类,方便用户快速获取有效信息.  相似文献   

10.
通过对商品评论进行基于方面的情感分析,可以得到某件商品各个方面的优劣情况。本文提出利用三层CRFs模型进行情感极性分类及强度分析。在CRFs模型中,融合了词、词性、语气词、程度词、方面和评价词的共现等特征。在情感句识别、情感极性分类和情感强度分析上得到的F1值分别为86.3%、77.2%、70.7%,证明了:(1)分层CRFs模型在各个层次的任务中都能取得较好的结果;(2) 语气词、程度词、方面和评价词的共现特征在情感分类时是的有效性。  相似文献   

11.
In order to meet the requirement of customised services for online communities, sentiment classification of online reviews has been applied to study the unstructured reviews so as to identify users’ opinions on certain products. The purpose of this article is to select features for sentiment classification of Chinese online reviews with techniques well performed in traditional text classification. First, adjectives, adverbs and verbs are identified as the potential text features containing sentiment information. Then, four statistical feature selection methods, such as document frequency (DF), information gain (IG), chi-squared statistic (CHI) and mutual information (MI), are adopted to select features. After that, the Boolean weighting method is applied to set feature weights and construct a vector space model. Finally, a support vector machine (SVM) classifier is employed to predict the sentiment polarity of online reviews. Comparative experiments are conducted based on hotel online reviews in Chinese. The results indicate that the highest accuracy of the sentiment classification of Chinese online reviews is achieved by taking adjectives, adverbs and verbs together as the feature. Besides that, different feature selection methods make distinct performances on sentiment classification, as DF performs the best, CHI follows and IG ranks the last, whereas MI is not suitable for sentiment classification of Chinese online reviews. This conclusion will be helpful to improve the accuracy of sentiment classification and be useful for further research.  相似文献   

12.
With the emergence of a large amount of short texts, using short text classification technology to mine a large amount of effective information in short text has become a hot topic of research. For the feature selection method in the current classification process, which only considers the word frequency, and the short text is short in length and sparse keywords, the paper proposes a short text classification method based on emotional features, combined with TF-IDF, the weight of the feature words is modified with the 〖JP2〗sentiment dictionary, which can effectively improve the weight of the feature words with distinguishing ability, and avoid the problem of low accuracy caused by traditional methods which do not consider emotion but only word frequency. Using the Chinese corpus of teacher Tan Songbo for short text classification, through comparative experiments, the effectiveness of the method is verified.  相似文献   

13.
中文短文本自身包含词汇个数少、描述信息能力弱,常用的文本分类方法对于短文本分类效果不理想。同时传统的文本分类方法在处理大规模文本分类时会出现向量维数很高的情况,造成算法效率低,而且一般用于长文本分类的特征选择方法都是基于数理统计的,忽略了文本中词项之间的语义关系。针对以上问题本文提出基于卡方特征选择和LDA主题模型的中文短文本分类方法,方法使用LDA主题模型的训练结果对传统特征选择方法进行特征扩展,以达到将数理信息和语义信息融入分类算法的目的。对比试验表明,这种方法提高了中文短文本分类效果。  相似文献   

14.
针对微博短文本有效特征较稀疏且难以提取,从而影响微博文本表示、分类与聚类准确性的问题,提出一种基于统计与语义信息相结合的微博短文本特征词选择算法。该算法基于词性组合匹配规则,根据词项的TF-IDF、词性与词长因子构造综合评估函数,结合词项与文本内容的语义相关度,对微博短文本进行特征词选择,以使挑选出来的特征词能准确表示微博短文本内容主题。将新的特征词选择算法与朴素贝叶斯分类算法相结合,对微博分类语料集进行实验,结果表明,相比其它的传统算法,新算法使得微博短文本分类准确率更高,表明该算法选取出来的特征词能够更准确地表示微博短文本内容主题。  相似文献   

15.
分析了传统信息增益(IG)特征选择方法忽略了特征项在类间、类内分布信息的缺点,引入类内分散度、类间集中度等因素,区分与类强相关的特征;针对传统信息增益(IG)特征选择方法没有很好组合正相关特征和负相关特征的问题,引入比例因子来平衡特征出现和不出现时的信息量,降低在不平衡语料集上负相关特征的比例,提高分类效果.通过实验证明了改进的信息增益特征选择方法的有效性和可行性.  相似文献   

16.
Sentiment classification is one of the important tasks in text mining, which is to classify documents according to their opinion or sentiment. Documents in sentiment classification can be represented in the form of feature vectors, which are employed by machine learning algorithms to perform classification. For the feature vectors, the feature selection process is necessary. In this paper, we will propose a feature selection method called fitness proportionate selection binary particle swarm optimization (F-BPSO). Binary particle swarm optimization (BPSO) is the binary version of particle swam optimization and can be applied to feature selection domain. F-BPSO is a modification of BPSO and can overcome the problems of traditional BPSO including unreasonable update formula of velocity and lack of evaluation on every single feature. Then, some detailed changes are made on the original F-BPSO including using fitness sum instead of average fitness in the fitness proportionate selection step. The modified method is, thus, called fitness sum proportionate selection binary particle swarm optimization (FS-BPSO). Moreover, further modifications are made on the FS-BPSO method to make it more suitable for sentiment classification-oriented feature selection domain. The modified method is named as SCO-FS-BPSO where SCO stands for “sentiment classification-oriented”. Experimental results show that in benchmark datasets original F-BPSO is superior to traditional BPSO in feature selection performance and FS-BPSO outperforms original F-BPSO. Besides, in sentiment classification domain, SCO-FS-BPSO which is modified specially for sentiment classification is superior to traditional feature selection methods on subjective consumer review datasets.  相似文献   

17.
低速率分布式拒绝服务(Low-rate Distributed Denial of Service, LDDoS)攻击是一种新型的DDoS攻击方式,因其具有低速率、周期性和隐蔽性等特点,可躲避传统的DDoS攻击检测技术,更加难于检测和防御。本文提出一种基于特征选择和双向长短期记忆(Bidirectional Long Short Term Memory, BiLSTM)神经网络结合的LDDoS攻击检测方法。该方法使用分层交叉验证的递归特征消除(Recursive Feature Elimination CV, REFCV)特征选择算法挖掘双向流中最优的11个特征集合作为神经网络的输入,建立基于BiLSTM神经网络模型的LDDoS攻击检测分类器进行分类,达到LDDoS攻击检测的目的。实验结果表明该方法比卡尔曼滤波和NCAS算法有较高的检测率,误报率和漏报率都很低。  相似文献   

18.
首先针对公共情感词典对专业领域适用性较低问题,以公共情感词典作为种子情感词典,以评论语料库中未出现在公共情感词典中的形容词作为候选情感词,在此基础之上利用点互信息理论构建专业领域的情感词典。其次针对在线评论情感分类问题,利用复杂网络理论提出了一种新的情感分类特征选择算法,改进了传统特征选择算法忽略特征语义相关信息,遗漏评论情感资源的问题。通过构建候选特征词关系网络,利用复杂网络节点重要性理论,考虑节点的局部和全局重要性,提出了利用网络节点的度中心性、介数中心性和接近中心性综合衡量节点重要性来选择情感分类特征的算法NTFS(Complex network feature selection)。最后以iPhone手机的在线评论为实验数据,利用SVM、NNET、NB分类器对比了NTFS、GI、CHI传统特征选择方法,实验证明NTFS在分类性能上优于GI,CHI算法。  相似文献   

19.
特征选择是维吾尔语文本分类的关键技术,对分类结果将产生直接的影响。为了提高传统信息增益在维吾尔文特征选择中的效果,在深度分析维吾尔文语种特点的基础上,提出了一种新的信息增益特征选择方法。该方法结合类词频和特征分布系数以及倒逆文档频率,对传统信息增益进行修正;引入一个备选特征分布系数来平衡类间选取的特征个数;在维吾尔文数据集上实验验证。实验结果表明,改进的算法对维吾尔文分类效果有明显的提高。  相似文献   

20.
为提高对数据量较少的短文本分类效果,有效降低特征空间的特征维度,本文针对传统CHI统计方法和TF-IDF权重计算方法的缺点,提出一种新的类词因子改进特征选择方法,用来提高分类准确性。对于传统CHI统计方法对低频词敏感、TF-IDF权重计算方法忽略特征项在类别间和类别内分布情况,通过引入类词因子来改进传统CHI统计方法和TF-IDF权重计算方法,并将两者结合使用,减少低频词带来的干扰。同时考虑类内和类间特征词分布的特殊情况,使用XGBoost分类算法将提出方法用在数据量少且文本短的话题文本分类实验中,实验结果表明,与传统的CHI和TF-IDF方法相比,加入类词因子的特征选择方法提高了在平衡和非平衡语料集上的分类准确性,大幅度降低了对内存的占用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号