首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
在研究文本倾向性识别方法的基础上,分别实现基于文本分类、基于语义规则模式和基于情感词的倾向性分析算法.研究情感本体构建和基于HowNet与主题领域语料的情感概念选择方法,两者结合能提高情感本体中概念的全面性和领域针对性.利用情感本体抽取特征词并判断其情感倾向度,结合句法规则及程度副词影响,用特征情感倾向度作为特征权重,采用机器学习的方法对主题网络舆情web文本进行倾向性分析.实验表明,其分析结果有更高的准确率和召回率,实现方案的普遍性和稳定性值得进一步研究.  相似文献   

2.
罗永莲  赵昌垣 《计算机应用》2014,34(10):2865-2868
针对突发事件新闻网页语料处理问题,提出了一种基于此类新闻特点与网页标记信息的抽取和定位新闻内容的方法。该方法将网页标记与文本相似度作为机器学习的特征项,利用贝叶斯分类方法提取新闻标题。利用事件新闻的用词稳定性与网页标记的嵌套特点,减少了文本处理数量,降低了文本向量维数,在此基础上计算向量相似度以定位新闻篇首与篇尾。实验结果表明,该方法抽取标题的准确率达到86.5%,抽取正文的平均准确率在78%以上,能有效抽取新闻内容,且易于实现,对其他网页文本处理中挖掘标记信息与文本自身信息具有一定的借鉴意义。  相似文献   

3.
针对基于词袋的机器学习文本分类方法所存在的:高维度、高稀疏性、不能识别同义词、语义信息缺失等问题,和基于规则模式的文本分类所存在的虽然准确率较高但鲁棒性较差的问题,本文提出了一种采用词汇-语义规则模式从金融新闻文本中提取事件语义标注信息,并将其作为分类特征用于机器学习文本分类中的新方法。实验证明采用该方法相比基于词袋的文本分类方法在采用相同的特征选择算法和分类算法的基础上,F1值提高8.6 %,查准率提高7.7% ,查全率提高8.8%。本文方法融合了知识驱动和数据驱动在文本分类中的优点,同时避免了它们所存在的主要缺点,具有显著的实用性和研究参考价值。  相似文献   

4.
情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。目前针对中文情感分类的研究相对较少,该文考虑将一些网络评论进行情感分类,判断一篇评论是正面还是反面。文本分类的机器学习方法较多,该文采用支持向量机的方法进行分类。该文特点在于采用具有语意倾向的词并综合其词性作为特征项,采用TF-IDF的值作为特征项权值。实验表明,用这种方法对网上的一些评论进行分类可以达到一个高的准确率。  相似文献   

5.
情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。目前针对中文情感分类的研究相对较少,该文考虑将一些网络评论进行情感分类,判断一篇评论是正面还是反面。文本分类的机器学习方法较多,该文采用支持向量机的方法进行分类。该文特点在于采用具有语意倾向的词并综合其词性作为特征项.采用TF—IDF的值作为特征项权值。实验表明,用这种方法对网上的一些评论进行分类可以达到一个高的准确率。  相似文献   

6.
分析和监测微博文本中所包含的情感信息,能够挖掘用户行为,为微博舆情监管提供借鉴。但微博文本具有长度较短、不规范、存在大量变形词和新词等特点,仅以情感词为特征对微博进行分类的方法准确率较低,难以满足实际使用。为此,基于微博语料构建二元搭配词库,并根据PMI-IR算法结合语料库统计信息,提出搭配词组情感权值的计算方法PMI-IR-P。结合情感词典,采用统计方法生成微博情感特征向量,利用机器学习中的C4.5算法构建分类模型,对微博文本进行情感倾向分类。分别使用不同的数据集用于构建搭配词库及分类模型,并与基于情感词典的分类方法以及朴素贝叶斯分类方法进行对比。实验结果表明,提出的情感特征通过运用C4.5算法对微博文本情感分类的准确率达到87%,具有较好的效果。  相似文献   

7.
传统文本情感分类方法通常以词或短语等词汇信息作为文本向量模型特征,造成情感指向不明和隐藏观点遗漏的问题。针对此问题提出一种基于主题角色的文本情感分类方法。该方法首先提取出文本中的潜在评价对象形成评价对象集,评价对象作为情感句描述的主体能够很好地保存文本情感信息;然后使用LDA模型对评价对象集进行主题抽取,将抽取出的主题分裂成"正""负"两种特征项,将这两种特征项记为正负主题角色用于保存文本情感信息;最后,计算主题角色在文本中的情感影响值并建立主题角色模型。实验结果表明,所提方法与传统方法相比可有效提高主观性文本情感分类的准确率。  相似文献   

8.
该文提出了一种基于情感词向量的情感分类方法。词向量采用连续实数域上的固定维数向量来表示词汇,能够表达词汇丰富的语义信息。词向量的学习方法,如word2vec,能从大规模语料中通过上下文信息挖掘出潜藏的词语间语义关联。本文在从语料中学习得到的蕴含语义信息的词向量基础上,对其进行情感调整,得到同时考虑语义和情感倾向的词向量。对于一篇输入文本,基于情感词向量建立文本的特征表示,采用机器学习的方法对文本进行情感分类。该方法与基于词、N-gram及原始word2vec词向量构建文本表示的方法相比,情感分类准确率更高、性能和稳定性更好。  相似文献   

9.
针对传统情感分类方法因情感项指向不明引发的误判和隐藏观点遗漏等问题,提出一种基于评价对象情感角色模型的文本情感分类方法.该方法首先识别文本中的潜在评价对象,通过局部语义分析对潜在评价对象所在语句进行情感标注,确定潜在评价对象所在语句的正负极性,并定义其情感角色;然后,改进特征权值计算方法,将情感角色对应的倾向值融入模型特征空间中;最后,通过特征聚合对特征空间实现模型降维.实验结果表明,所提方法与提取强主观性情感项作为特征的情感分类方法相比,分类准确率约提高3.2%,可有效改善文本情感分类效果.  相似文献   

10.
基于LSTM的商品评论情感分析   总被引:1,自引:0,他引:1  
随着电子商务的发展,产生了大量的商品评论文本.针对商品评论的短文本特征,基于情感词典的情感分类方法需要大量依赖于情感数据库资源,而机器学习的方法又需要进行复杂的人工设计特征和提取特征过程.本文提出采用长短期记忆网络(Long Short-Term Memory)文本分类算法进行情感倾向分析,首先利用Word2vec和分词技术将评论短文本文本处理为计算机可理解的词向量传入LSTM网络并加入Dropout算法以防止过拟合得出最终的分类模型.实验表明:在基于深度学习的商品评论情感倾向分析中,利用LSTM网络的短时记忆独特特征对商品评论的情感分类取得了很好的效果,准确率达到99%以上.  相似文献   

11.
This paper presents a process of building a Sentiment Analysis Framework for Serbian (SAFOS). We created a hybrid method that uses a sentiment lexicon and Serbian WordNet (SWN) synsets assigned with sentiment polarity scores in the process of feature selection. As the use of stemming for morphologically rich languages (MRLs) may result in loss or giving incorrect sentiment meaning to words, we decided to expand the sentiment lexicon, as well as the lexicon generated using SWN, by adding morphological forms of emotional terms and phrases. It was done using Serbian Morphological Electronic Dictionaries. A new feature reduction method for document-level sentiment polarity classification using maximum entropy modeling is proposed. It is based on mapping of a large number of related feature candidates (sentiment words, phrases and their inflectional forms) to a few concepts and using them as features. Testing was performed on a 10-fold cross validation set and on test sets containing news and movie reviews. The results of all experiments show that sentiment feature mapping for feature set reduction achieves better results over the basic set of features. For both test sets, the best classification accuracy scores were achieved for the combination of unigram and bigram features reduced by sentiment feature mapping (accuracy 78.3 % for movie reviews and 79.2 % for news test set). In 10-fold cross-validation, best average accuracy score of 95.6 % was obtained using unigrams as features, reduced by the mapping procedure.  相似文献   

12.
针对从大数据评论语料库中检索出与新闻主题相关且含有情感倾向性的中文评论的研究较少的问题,研究在不同新闻粒度下的特征检索方法,从中文评论语料库中检索生成评论。采用主题特征检索的方法检索出与新闻主题特征相关的评论;采用情感特征融合的检索方法从主题特征检索的结果中生成所需情感倾向性的评论。实验结果表明,在新闻标题粒度下生成评论的主题相关性最高;采用主题特征融合的检索方法和情感特征融合的检索方法比单一检索方法生成准确率更高。  相似文献   

13.
Text classification systems will help to solve the text clustering problem in the Azerbaijani language. There are some text-classification applications for foreign languages, but we tried to build a newly developed system to solve this problem for the Azerbaijani language. Firstly, we tried to find out potential practice areas. The system will be useful in a lot of areas. It will be mostly used in news feed categorization. News websites can automatically categorize news into classes such as sports, business, education, science, etc. The system is also used in sentiment analysis for product reviews. For example, the company shares a photo of a new product on Facebook and the company receives a thousand comments for new products. The systems classify comments like positive or negative. The system can also be applied in recommended systems, spam filtering, etc. Various machine learning techniques such as Naive Bayes, SVM, Multi-layer Perceptron have been devised to solve the text classification problem in Azerbaijani language.  相似文献   

14.
张铭泉    周辉    曹锦纲   《智能系统学报》2022,17(6):1220-1227
在计算社会科学中,理解政治新闻文本中不同政治实体间的情感关系是文本分类领域一项新的研究内容。传统的情感分析方法没有考虑实体之间情感表达的方向,不适用于政治新闻文本领域。针对这一问题,本文提出了一种基于注意力机制的双变换神经网络的双向编码表示(bi-directional encoder representations from transformers, BERT)有向情感文本分类模型。该模型由输入模块、情感分析模块、政治实体方向模块和分类模块四部分组成。情感分析模块和政治实体方向模块具有相同结构,都先采用BERT预训练模型对输入信息进行词嵌入,再采用三层神经网络分别提取实体之间的情感信息和情感方向信息,最后使用注意力机制将两种信息融合,实现对政治新闻文本的分类。在相关数据集上进行实验,结果表明该模型优于现有模型。  相似文献   

15.
情感分类是一项具有较大实用价值的分类技术.它可以对网上纷繁复杂的信息进行情感倾向标注.为用户提供一个简洁的总结信息,进而为人们制定决策提供帮助,然而目前针对汉语的情感分类开展的工作并不多。提出一种基于SVM机器学习的情感分类方法,并引入基于2-POS模型的句子主观性分析方法,利用SVM进行机器学习,实现汉语评论的情感分类。实验表明这种方法能够有效地判定评论信息的情感倾向。  相似文献   

16.
该文针对中文网络评论情感分类任务,提出了一种集成学习框架。首先针对中文网络评论复杂多样的特点,采用词性组合模式、频繁词序列模式和保序子矩阵模式作为输入特征。然后采用基于信息增益的随机子空间算法解决文本特征繁多的问题,同时提高基分类器的分类性能。最后基于产品属性构造基分类器算法综合评论文本中每个属性的情感信息,进而判别评论的句子级情感倾向。实验结果表明了该框架在中文网络评论情感分类任务上的有效性,特别是在Logistic Regression分类算法上准确率达到90.3%。  相似文献   

17.
高旸  周莉  张勇  邢春晓  孙一钢  朱先忠 《软件学报》2010,21(Z1):349-362
互联网新闻资讯对证券市场和投资者有举足轻重的影响,新闻进行情感分类后再展示给用户,可以帮助投资者迅速做出投资决定.从文本分类的基本方法出发,实现了基于N-gram 统计模型的新词发现方法,并将所得结果用于构建中文分词词典和情感词典.同时引入评价理论,并用朴素贝叶斯、K 近邻和支持向量机3 种方法进行股票新闻标题的情感分类实验.所用实验数据来自2009 年“新浪财经”共计23 万余条的新闻标题,结果表明二分类的准确率最高可达82.9%.此外,还实现了一个原型系统用于展示股票新闻的分类结果.  相似文献   

18.
In this study, we introduce Slovene web-crawled news corpora with sentiment annotation on three levels of granularity: sentence, paragraph and document levels. We describe the methodology and tools that were required for their construction. The corpora contain more than 250,000 documents with political, business, economic and financial content from five Slovene media resources on the web. More than 10,000 of them were manually annotated as negative, neutral or positive. All corpora are publicly available under a Creative Commons copyright license. We used the annotated documents to construct a Slovene sentiment lexicon, which is the first of its kind for Slovene, and to assess the sentiment classification approaches used. The constructed corpora were also utilised to monitor within-the-document sentiment dynamics, its changes over time and relations with news topics. We show that sentiment is, on average, more explicit at the beginning of documents, and it loses sharpness towards the end of documents.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号