首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
樊振  过弋  张振豪  韩美琪 《计算机应用》2018,38(11):3084-3088
针对评论文本情感分析研究中数据标注费时费力的问题,提出了一种新的数据自动标注方法。首先,通过基于情感词典的方法计算出评论文本的情感倾向;其次,利用用户评分的弱标注信息和基于词典方法的情感倾向对评论文本自动标注;最后,利用支持向量机(SVM)对评论文本进行情感分类。所提出的数据自动标注方法在两种类型数据集情感分类准确率上分别达到了77.2%和77.8%,相对于单一的利用用户评分对数据标注的方法,分别提高了1.7个百分点和2.1个百分点。实验结果表明,提出的数据自动标注方法在电影评论情感分析中能提高分类效果。  相似文献   

2.
用户评论的分类获取   总被引:1,自引:0,他引:1  
对网上获取的用户评论进行标注,并提取出与用户评论内容相关的特征,使用χ2统计提取不同类型评论进行特征选择,使用支持向量机分类方法进行学习,获得分类器,以此对网上时时更新的用户评论进行分类,挖掘出优秀的评论。实验结果显示该方法具有很高的召回率和准确率。  相似文献   

3.
针对传统基于主动学习的支持向量机(support vector machine,SVM)方法中所采用的欧式距离不能有效衡量高维样本之间的相关程度,导致学习器泛化能力下降的问题,提出了一种基于向量余弦的支持向量机主动学习(SVM active learning based on vector cosine)策略,称为COS_SVMactive方法。该方法通过在主动学习过程中引入向量余弦来度量训练集中样本信息的冗余度,以挑选那些含有重要分类信息的最有价值样本交给专家进行人工标注,并在迭代的样本标注过程中对训练集的平衡度进行逐步调整,使学习器获得更好的泛化性能。实验结果表明,与传统基于随机采样的SVM主动学习方法(SVM active learning based on ran-dom sampling,RS_SVMactive)和基于距离的SVM主动学习方法(SVM active learning based on distance, DIS_SVMactive)相比,COS_SVMactive方法不仅可以提高分类精度,而且能够减少专家标记代价。  相似文献   

4.
张冬雯  杨鹏飞  许云峰 《计算机科学》2016,43(Z6):418-421, 447
利用有监督的机器学习的方法来对中文产品评论文本进行情感分类,该方法结合了word2vec和SVMperf两种工具。先由word2vec训练出语料中每个词语的词向量,通过计算相互之间的余弦距离来达到相似概念词语聚类的目的,通过相似特征聚类将高相似度领域词汇扩充到情感词典;再使用word2vec训练出词向量的高维度表示;然后采用主成分分析方法(PCA)对高维度向量进行降低维度处理,形成特征向量;最后使用两种方法抽取有效的情感特征,由SVMperf进行训练和预测,从而完成文本的情感分类。实验结果表明,采用相似概念聚类方法对词典进行扩充任务或情感分类任务都可以获得很好的效果。  相似文献   

5.
针对目前流派分类技术分类性能不够好的问题,将支持向量机和模糊集理论的优点结合起来,提出了一种基于模糊集和支持向量机的文本流派分类方法。并以电影评论作为数据集,比较和分析了该方法在不同文本特征生成方法、不同特征数目下的分类效果,并与SVM方法进行了比较,实验结果表明其微平均查准率要优于SVM方法。理论和实验都证明了提出的方法可以取得较好的分类性能。  相似文献   

6.
提出并实现了一种基于支持向量机(SVM)的中文文本中人名的自动识别方法。对训练文本进行自动分词、词性标注及分类标注,然后按字抽取特征,并将其转化为二进制表示,在此基础上建立了训练集。然后通过对多项式Kernel函数的测试,得到了用支持向量机进行人名识别的机器学习模型。实验结果表明,所建立的SVM人名识别模型是有效的。  相似文献   

7.
中文分词的关键技术之一在于如何正确切分新词,文中提出了一种新的识别新词的方法。借助支持向量机良好的分类性,首先对借助分词词典进行分词和词性标注过的训练语料中抽取正负样本,然后结合从训练语料中计算出的各种词本身特征进行向量化,通过支持向量机的训练得到新词分类支持向量。对含有模拟新词的测试语料进行分词和词性标注,结合提出的相关约束条件和松弛变量选取候选新词,通过与词本身特征结合进行向量化后作为输入与通过训练得到的支持向量机分类器进行计算,得到的相关结果与阈值进行比较,当结果小于阈值时判定为一个新词,而计算结果大于阈值的词为非新词。通过实验结果比较选取最合适的支持向量机核函数。  相似文献   

8.
由于目前缺乏维吾尔文情感分类特征表示方面的系统性研究,以传统◢n◣-gram特征为基础,按不同规模从维吾尔文情感标注语料库中提取了新特征及其组合特征,基于支持向量机(SVM)分类器对维吾尔文情感语料库进行了正负情感分类。实验结果表明,所提取的基本特征中unigram特征的分类效率最佳;unigram特征与词组特征的组合可以进一步提高分类效率,其最佳分类效果比unigram特征的分类效果提高了1.78%。首次在统一标注数据集上对不同特征的分类性能进行了综合评价,研究成果可以为今后的维吾尔文情感分类研究提供指导。  相似文献   

9.
提出基于改进PSO优化支持向量机的文本分类方法,首先采用向量空间模型对文本特征进行提取,使用互信息对文本特征进行降维,然后提出改进PSO算法,该算法可实现对SVM参数的精确、稳定、快速优化选择,对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。  相似文献   

10.
情感分析作为文本挖掘的一个新型领域,可用于分类、归纳用户发布的产品评论,从而有助于商家改善服务,提高产品质量;同时为其他消费者提供购买决策。本文提出一种基于情感词抽取与LDA特征表示的情感分析方法,对产品评论进行褒贬二元分类。在情感词抽取中,采用人工构造的情感词典对预处理之后的文本抽取情感词;用LDA模型建立文档的主题分布,以评论-主题分布作为特征,用SVM分类器进行分类。实验结果表明,本文方法在评论褒贬分类方面有着良好的效果。  相似文献   

11.
针对在线评论情感分析的复杂特征抽取问题,提出一种基于粗糙集的在线评论情感分析模型。分析传统词袋性特征,指出固定搭配特征在情感极性判别中的作用,采用粗糙集方法挖掘在线评论中的固定搭配特征,将其融合于SVM与Naive Bayes等情感分析模型中。实际酒店的在线评论情感分析结果表明,增加粗规则后,SVM模型与Naive Bayes模型获得的评论情感判别精度都有所提高。  相似文献   

12.
针对蛋白质交互作用关系(PPI)抽取方法中特征利用的片面性问题,提出了一种从上下文环境和句法结构中抽取特征的方法。该方法抽取词法特征、位置特征、距离特征、依存句法特征和深层句法特征等丰富特征构成特征集,并且使用支持向量机(SVM)分类器进行PPI抽取。方法在5个公开的PPI语料上进行了评估。实验结果表明,丰富特征有效地利用了更为全面的信息,避免丢失重要特征的危险,得到了较好的PPI抽取性能。即在AImed语料上的实验取得了59.2%的F值和85.6%的曲线下面积(AUC)值。  相似文献   

13.
钟将  程一峰 《计算机工程》2012,38(8):144-146
为更好地对歌词进行情感分类,提出一种改进的基于类间差别的CHI特征选择方法。该方法可单独用于歌词情感特征提取,将选取的特征应用于支持向量机分类器中,融合音频特征与利用改进CHI方法选择的歌词特征对歌曲进行情感分类。实验结果表明,融合后的特征可以取得比任何单一种类特征更好的分类效果。  相似文献   

14.
Twitter messages are increasingly used to determine consumer sentiment towards a brand. The existing literature on Twitter sentiment analysis uses various feature sets and methods, many of which are adapted from more traditional text classification problems. In this research, we introduce an approach to supervised feature reduction using n-grams and statistical analysis to develop a Twitter-specific lexicon for sentiment analysis. We augment this reduced Twitter-specific lexicon with brand-specific terms for brand-related tweets. We show that the reduced lexicon set, while significantly smaller (only 187 features), reduces modeling complexity, maintains a high degree of coverage over our Twitter corpus, and yields improved sentiment classification accuracy. To demonstrate the effectiveness of the devised Twitter-specific lexicon compared to a traditional sentiment lexicon, we develop comparable sentiment classification models using SVM. We show that the Twitter-specific lexicon is significantly more effective in terms of classification recall and accuracy metrics. We then develop sentiment classification models using the Twitter-specific lexicon and the DAN2 machine learning approach, which has demonstrated success in other text classification problems. We show that DAN2 produces more accurate sentiment classification results than SVM while using the same Twitter-specific lexicon.  相似文献   

15.
产品特征抽取是文本观点抽取和倾向性分析中的重要研究课题之一,提出了一种基于无监督学习的产品特征自动抽取方法。该方法从产品评论语句中抽取文本模式,以文本模式作为特征,将产品评论中所有的名词和名词短语(除产品名称)表示为向量,采用聚类算法将表示为向量的名词和名词短语聚为两类,以产品名称作为外部知识,利用表示“整体-部件”关系的文本模式识别产品特征集合。实验结果表明,该方法在电子产品领域的产品评论语料上取得了较好的实验效果。  相似文献   

16.
动态情感知识的获取,特别是领域相关极性词典的构建一直是意见挖掘和情感分析系统在开放应用时面临的主要挑战之一。该文面向产品评价文本提出一种汉语情感极性词典扩展方法。该方法首先采用序列标注方法从意见文本中抽取产品意见要素,同时构建属性-评价对;然后,对抽取的属性-评价对进行正规化,以减少词典扩展中的复杂性和噪声;最后,改进PolarityRank算法的构图方式以使其适用于汉语文本,从而完成词典扩展。在汽车和手机两个领域的意见文本的实验结果表明领域相关的情感极性词语的扩展有利于情感极性分类性能的提高。
  相似文献   

17.
提出一种基于支持向量机(SVM)的大鱼际掌纹图像二分类法。采用高频强调滤波,对分割得到的大鱼际掌纹图像进行图像增强,提取其灰度共生矩阵4个方向的8个特征量作为分类特征向量。对比不同核函数下的分类准确率,结果表明,组合特征向量的SVM方法对大鱼际掌纹的初步二分类效果较好。  相似文献   

18.
This paper presents a process of building a Sentiment Analysis Framework for Serbian (SAFOS). We created a hybrid method that uses a sentiment lexicon and Serbian WordNet (SWN) synsets assigned with sentiment polarity scores in the process of feature selection. As the use of stemming for morphologically rich languages (MRLs) may result in loss or giving incorrect sentiment meaning to words, we decided to expand the sentiment lexicon, as well as the lexicon generated using SWN, by adding morphological forms of emotional terms and phrases. It was done using Serbian Morphological Electronic Dictionaries. A new feature reduction method for document-level sentiment polarity classification using maximum entropy modeling is proposed. It is based on mapping of a large number of related feature candidates (sentiment words, phrases and their inflectional forms) to a few concepts and using them as features. Testing was performed on a 10-fold cross validation set and on test sets containing news and movie reviews. The results of all experiments show that sentiment feature mapping for feature set reduction achieves better results over the basic set of features. For both test sets, the best classification accuracy scores were achieved for the combination of unigram and bigram features reduced by sentiment feature mapping (accuracy 78.3 % for movie reviews and 79.2 % for news test set). In 10-fold cross-validation, best average accuracy score of 95.6 % was obtained using unigrams as features, reduced by the mapping procedure.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号