首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
为了有效识别商品虚假评论,提出一种基于情感极性与SMOTE过采样的虚假评论识别方法。首先,根据在线虚假评论的特点,构建一个多维虚假评论特征模型。其次,在情感极性算法中增加了情感极性均值和情感极性标准差等统计指标来全面刻画虚假评论。最后,针对虚假评论中的类不平衡问题,使用SMOTE算法优化随机森林分类模型,从而提高虚假评论识别效果。基于大众点评网的真实评论数据进行了多组实验,实验结果表明该方法在正负样本不平衡的虚假评论数据集中具有更高的准确率、召回率及F值。综合考虑情感极性和正负样本不平衡等因素可帮助电商平台有效过滤虚假评论,为消费者提供更加真实可靠的评论数据。  相似文献   

2.
为了提高商品虚假评论的识别效果,提出了一种基于习惯偏差与xgboost算法的虚假评论识别方法。首先,通过提出新的算法来计算情感极性,同时在位置因素的基础上加入本地化情感词,从而提高评论文本情感极性计算的精准度。然后,提出新的用户习惯偏差指标和商家异常波动区间值并将其与几维重要特征融合在一起,进而得到一个关于评论-评论者-商户三者特征的新模型。最后,再与xgboost算法进行结合完成虚假评论的检测。实验结果证明,其能更有效识别虚假的评论信息,为消费者提供更加安全有价值的参考信息。  相似文献   

3.
微博作为时下热门的社交网络平台,针对其所产生的评论文本进行情感分析已经成为人工智能领域的一个研究热点。考虑到虚假评论会降低情感分析的准确度,从评论用户的状态和行为出发,提出一种基于用户状态与行为的可信度评价体系,用于提取虚假评论特征。结合该特征与PU(Positive and unlabeled)学习算法进行虚假评论识别;运用SVM分类器和随机梯度下降回归模型对去除虚假评论的文本进行主观句分类与情感分析。实验表明,进行虚假评论识别后的情感分析准确率、召回率分别达到0.88和0.89,比传统方法具有更高的分析效能。  相似文献   

4.
随着电子商务的迅速发展,人们越来越亲睐于网上购物。在网上购物之前,消费者往往会参考该产品相关的评价以决定是否购买。因此虚假评论者的识别具有非常重要的意义。基于虚假评论者和真实评论者在情感极性上存在的差异,在特征建模过程中增加了评论文本的情感特征,并结合用户之间对于特定商品之间的关系,创建了一个多边图的模型并提出了一种识别虚假评论者的方法。实验结果验证了该算法的有效性。  相似文献   

5.
在线评论是用户判断商品质量的一个依据。虚假评论严重影响了消费者的购买行为,现有的虚假评论检测方法从文本出发,忽略了评分的虚假性,评分通常是不精确和不确定的,对虚假评论检测效果不佳。提出融合情感极性与信任函数的虚假评论检测方法(EP-BFRD),利用信任函数处理给定评论者评分中的不确定性和不准确性,考虑与其他评分者提供的评分的相似性,以检测误导性,并判断评论文本情感极性与评分一致性。综合考虑信任函数处理的结果以及评分与文本情感一致性的结果来判断评论的虚假性。在一个真实的数据库上进行实验,实验表明该方法可有效解决虚假评论检测问题。  相似文献   

6.
针对电商平台提出一个基于评论的商品特征抽取及情感分析框架,并将该框架在京东生鲜类商品的评论中进行应用。实验结果表明该框架确实能够成功抽取出商品的典型特征及该特征对应的情感极性,且在小样本数据集上测试了特征词和观点词抽取算法以及情感极性计算方法的性能,其中显式<特征词,观点词>词对抽取的准确率达到了53.6%,召回率达到了81.5%,极性判断的准确率达到了98.3%。主要贡献包括:提出一种依据观点词与特征词关联度的隐含特征词映射方法;基于word2vec词向量模型计算特征词相似度,并利用改进的半监督层次聚类算法对特征词进行典型特征聚类,建立特征词关联表。  相似文献   

7.
商品评论信息是用户线上决策的重要依据,但在利益的驱使下商家往往会通过雇佣专业的写手撰写大量虚假评论的方式来误导用户,进而达到包装自己或诋毁竞争对手的 目的.这种现象会造成不正当的商业竞争和极差的用户体验.针对这一现象,我们通过情感预训练的方法对现有的虚假评论识别模型进行了改进,并提出了一种能够同时整合评论语义和情感信息的联合预训练学习方法.鉴于预训练模型强大的语义表示能力,在联合学习框架中采用了 2种预训练模型编码器分别用于抽取评论的语义和情感上下文特征,并通过联合训练的方法整合2种特征,最后使用Center Loss损失函数对模型进行优化.在多个公开数据集和多个不同任务上进行了验证实验,实验表明提出的联合模型在虚假评论检测与情感极性分析任务上都取得了 目前最好的效果且具有更强的泛化能力.  相似文献   

8.
随着互联网的发展,用户倾向于在购物、旅游、用餐之前参考线上评论.之后,他们也会发表评论来表达自身意见.线上评论越来越具有价值.评论对用户决策的重要导向作用催生了虚假评论.虚假评论,指用户由于利益、个人偏见等因素发布的不符合产品真实特性的评论.这些虚假评论语言上模仿真实评论,消费者很难识别出来.国内外学者综合运用自然语言处理技术来研究虚假评论检测问题.从特征工程的角度分析,虚假评论检测方法可以分为三类:基于语言特征和行为特征的方法、基于图结构的方法、基于表示学习的方法.主要描述了检测的一般流程,归纳了三类研究方法常用的特征,比较了方法的优缺点,并且介绍了研究常用的数据集.最后探讨了未来研究方向.  相似文献   

9.
识别虚假评论有着重要的理论意义与现实价值。先前工作集中于启发式策略和传统的全监督学习算法。最近研究表明:人类无法通过先验知识有效识别虚假评论,手工标注的数据集必定存在一定数量的误例,因此简单使用传统的全监督学习算法识别虚假评论并不合理。容易被错误标注的样例称为间谍样例,如何确定这些样例的类别标签将直接影响分类器的性能。基于少量的真实评论和大量的未标注评论,提出一种创新的PU (positive and unlabeled)学习框架来识别虚假评论。首先,从无标注数据集中识别出少量可信度较高的负例。其次,通过整合LDA(latent Dirichlet allocation)和 K‐means ,分别计算出多个代表性的正例和负例。接着,基于狄利克雷过程混合模型(Dirichlet process mixture model , DPM M ),对所有间谍样例进行聚类,混合种群性和个体性策略来确定间谍样例的类别标签。最后,多核学习算法被用来训练最终的分类器。数值实验证实了所提算法的有效性,超过当前的基准。  相似文献   

10.
对电商的虚假评论检测,需要充分考虑时间突发特性,因此提出了一种融合时间特征的虚假评论检测方法。基于局部异常因子算法构建时间特征指标,将时间特征、评论特征、评论者特征三者相结合,构建一个较为全面的虚假评论识别框架。通过Yelp数据集验证该方法的有效性,结果表明,该方法的性能较好,AUC值较高。  相似文献   

11.
使用机器学习方法进行新闻的情感自动分类   总被引:6,自引:0,他引:6  
本文主要研究机器学习方法在新闻文本的情感分类中的应用,判断其是正面还是负面。我们利用朴素贝叶斯和最大熵方法进行新闻及评论语料的情感分类研究。实验表明,机器学习方法在基于情感的文本分类中也能取得不错的分类性能,最高准确率能达到90%。同时我们也发现,对于基于情感的文本分类,选择具有语义倾向的词汇作为特征项、对否定词正确处理和采用二值作为特征项权重能提高分类的准确率。总之,基于情感的文本分类是一个更具挑战性的工作。  相似文献   

12.
汉语评论文的特点使得可以利用情感主题句表示其浅层篇章结构,该文由此提出一种基于浅层篇章结构的评论文倾向性分析方法。该方法采用基于n元词语匹配的方法识别主题,通过对比与主题的语义相似度大小和进行主客观分类抽取出候选主题情感句,计算其中相似度最高的若干个句子的倾向性,将其平均值作为评论文的整体倾向性。基于浅层篇章结构的评论文倾向性分析方法避免了进行完全篇章结构分析,排除了与主题无关的主观性信息,实验结果表明,该方法准确率较高,切实可行。  相似文献   

13.
In order to meet the requirement of customised services for online communities, sentiment classification of online reviews has been applied to study the unstructured reviews so as to identify users’ opinions on certain products. The purpose of this article is to select features for sentiment classification of Chinese online reviews with techniques well performed in traditional text classification. First, adjectives, adverbs and verbs are identified as the potential text features containing sentiment information. Then, four statistical feature selection methods, such as document frequency (DF), information gain (IG), chi-squared statistic (CHI) and mutual information (MI), are adopted to select features. After that, the Boolean weighting method is applied to set feature weights and construct a vector space model. Finally, a support vector machine (SVM) classifier is employed to predict the sentiment polarity of online reviews. Comparative experiments are conducted based on hotel online reviews in Chinese. The results indicate that the highest accuracy of the sentiment classification of Chinese online reviews is achieved by taking adjectives, adverbs and verbs together as the feature. Besides that, different feature selection methods make distinct performances on sentiment classification, as DF performs the best, CHI follows and IG ranks the last, whereas MI is not suitable for sentiment classification of Chinese online reviews. This conclusion will be helpful to improve the accuracy of sentiment classification and be useful for further research.  相似文献   

14.
基于主题情感句的汉语评论文倾向性分析*   总被引:1,自引:1,他引:0  
提出一种基于主题情感句的汉语评论文倾向性分析方法.根据评论文的特点,采用一种基于n元词语匹配的方法识别主题,通过对比与主题的语义相似度和进行主客观分类抽取出候选主题情感句,计算其中相似度最高的若干个句子的情感倾向,将其平均值作为评论文的整体倾向.基于主题情感句的评论文倾向性分析方法避免了进行篇章结构分析,排除了与主题无...  相似文献   

15.
This paper presents a process of building a Sentiment Analysis Framework for Serbian (SAFOS). We created a hybrid method that uses a sentiment lexicon and Serbian WordNet (SWN) synsets assigned with sentiment polarity scores in the process of feature selection. As the use of stemming for morphologically rich languages (MRLs) may result in loss or giving incorrect sentiment meaning to words, we decided to expand the sentiment lexicon, as well as the lexicon generated using SWN, by adding morphological forms of emotional terms and phrases. It was done using Serbian Morphological Electronic Dictionaries. A new feature reduction method for document-level sentiment polarity classification using maximum entropy modeling is proposed. It is based on mapping of a large number of related feature candidates (sentiment words, phrases and their inflectional forms) to a few concepts and using them as features. Testing was performed on a 10-fold cross validation set and on test sets containing news and movie reviews. The results of all experiments show that sentiment feature mapping for feature set reduction achieves better results over the basic set of features. For both test sets, the best classification accuracy scores were achieved for the combination of unigram and bigram features reduced by sentiment feature mapping (accuracy 78.3 % for movie reviews and 79.2 % for news test set). In 10-fold cross-validation, best average accuracy score of 95.6 % was obtained using unigrams as features, reduced by the mapping procedure.  相似文献   

16.
基于单层标注级联模型的篇章情感倾向分析   总被引:1,自引:0,他引:1  
情感分类是目前篇章情感分析的主要方法,但该方法存在难以融入中文结构特征的问题。针对此问题,采用级联模型对篇章情感倾向进行分析,将篇章情感倾向分析分为两层 小句级和篇章级,对篇章情感倾向分析引入小句级的情感分析。该文使用最大熵模型处理小句级情感分类,小句级的输出作为上层篇章级的输入,并结合句型特征和句子位置等信息作为特征,采用支持向量机模型进行篇章级情感分类。同时对于级联模型中双层标注问题,基于交叉验证的思想提出了单层标注级联模型,避免了多层标注工作以及错误。实验结果表明,该方法的准确率较传统情感分类方法提高了2.53%。  相似文献   

17.
提出了一种基于语义的观点倾向分析方法。按照文本结构特点,依据语义相近的原则,将文本分割为若干语义段,对语义段采用条件随机场模型进行主观内容提取和观点倾向识别,计算各个语义段的权值,确定文本的观点倾向。实验表明,与传统机器学习方法相比,该方法能有效提高文本观点倾向分析的准确率。  相似文献   

18.
情感分类是用于判断数据的情感极性,广泛用于商品评论,微博话题等数据。标记信息的昂贵使得传统的情感分类方法难以对不同领域的数据进行有效的分类。为此,跨领域情感分类问题引起广泛关注。已有的跨领域情感分类方法大多以共现为基础提取词汇特征和句法特征, 而忽略了词语间的语义关系。基于此,提出了基于word2vec的跨领域情感分类方法WEEF(Cross-domain Classification based on Word Embedding Extension Feature),选取高质量的领域共现特征作为桥梁,并以这些特征作为种子,基于词向量的相似度计算,将领域专有特征扩充到这些种子中,形成特征簇,从而减小领域间的差异。在SRAA和Amazon产品评论数据集上的实验结果表明方法的有效性,尤其在数据量较大时。  相似文献   

19.
中文网络评论的IT产品特征挖掘及情感倾向分析   总被引:1,自引:0,他引:1  
为探索中文客户评论中的IT产品特征及相关情感倾向的挖掘,帮助IT生产商和服务商提高改进产品和服务质量,提高竞争力。该文将采用情感分析技术,提出基于客户感知价值的产品特征挖掘算法,实现对于评论中IT产品特征及其情感倾向的语义分析、动态提取和综合信息挖掘;并根据用户的关注权重将产品特征和情感倾向进行排列。采用从互联网下载的真实IT产品评论语料中进行实验,初步验证了该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号