首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
随着电子商务的发展,识别网络中的虚假评论意义重大。传统的启发式策略或全监督学习算法不能有效地解决该问题。虚假评论与真实评论在语言结构和情感极性上存在差异,提出基于遗传算法对语言结构及情感极性特征进行优化选择,并利用选取的特征结合无监督硬、软聚类算法对虚假评论进行识别。实验结果验证了所提算法的有效性。  相似文献   

2.
为了提高商品虚假评论的识别效果,提出了一种基于习惯偏差与xgboost算法的虚假评论识别方法。首先,通过提出新的算法来计算情感极性,同时在位置因素的基础上加入本地化情感词,从而提高评论文本情感极性计算的精准度。然后,提出新的用户习惯偏差指标和商家异常波动区间值并将其与几维重要特征融合在一起,进而得到一个关于评论-评论者-商户三者特征的新模型。最后,再与xgboost算法进行结合完成虚假评论的检测。实验结果证明,其能更有效识别虚假的评论信息,为消费者提供更加安全有价值的参考信息。  相似文献   

3.
为了有效识别在线虚假评论,提出一种基于XGBoost-EasyEnsemble算法的虚假评论识别方法。首先,根据虚假评论的特点和提出的主观倾向值计算方法,建立多维特征模型;其次,针对评论数据中的类别不平衡问题,EasyEnsemble算法借助集成策略弥补欠采样的缺陷,充分利用样本信息;最后,选择“好而不同”的XGBoost模型作为基分类器训练最终分类器。基于Yelp网站上的评论数据,以AUC作为评价指标,与支持向量机、GBDT、神经网络等热门机器学习算法进行对比,验证了该方法的有效性。  相似文献   

4.
近年来,随着在线信贷的飞速发展,贷款总量不断加大,违约概率不断提升。因此对贷款风险进行深入研究,对在线信贷企业预防互联网金融风险是非常具有现实意义的。针对贷款数据非平衡分布、大量噪声、维度高的问题,本文提出一种基于SMOTE和XGBoost的贷款风险预测方法。通过特征工程对数据进行降维和去噪;针对数据的非平衡问题,使用SMOTE算法进行过采样,平衡正负样本数目;基于以上工作,构建XGBoost分类模型,与一些传统分类算法进行对比,然后对比在不同正负样本比例时,预测结果的有效性。实验表明,相比于传统分类模型,XGBoost算法在贷款风险预测模型中具有更好的效果,通过SMOTE算法增加少数类样本的比例可以提高预测结果的有效性。  相似文献   

5.
随着电子商务的迅速发展,人们越来越亲睐于网上购物。在网上购物之前,消费者往往会参考该产品相关的评价以决定是否购买。因此虚假评论者的识别具有非常重要的意义。基于虚假评论者和真实评论者在情感极性上存在的差异,在特征建模过程中增加了评论文本的情感特征,并结合用户之间对于特定商品之间的关系,创建了一个多边图的模型并提出了一种识别虚假评论者的方法。实验结果验证了该算法的有效性。  相似文献   

6.
针对随机森林和SMOTE组合算法在处理不平衡数据集上存在数据集边缘化分布以及计算复杂度大等问题,提出了基于SMOTE的改进算法TSMOTE(triangle SMOTE)和MDSMOTE(Max Distance SMOTE),其核心思想是将新样本的产生限制在一定区域,使得样本集分布趋于中心化,用更少的正类样本点人为构造样本,从而达到限制样本区域、降低算法复杂度的目的。在6种不平衡数据集上的大量实验表明,改进算法与传统算法相比,算法消耗时间大幅减少,取得更高的G-mean值、F-value值和AUC值。  相似文献   

7.
针对油田局域网络环境中,传统基于流量的分析方法无法实现应用系统的有效识别问题,本文设计一种面向不平衡数据集的应用系统识别框架WEBCLA,该框架采用基于基尼增益的SMOTE改进算法(GSMOTE)与XGBoost分类算法相结合的方式对基于网页的应用系统进行有效识别。具体地,本文提出的GSMOTE算法对少数类进行过采样,有效缓解识别样本不平衡问题,并结合XGBoost分类算法进行应用系统的识别。通过在真实数据集上进行实验,结果表明,本文提出的方法在召回率上较传统方法有较明显的提升,比普通集成方法提高约112.8%,比未经过采样处理的方法提升约10.8%,可有效解决油田局域网中的应用系统识别问题。  相似文献   

8.
针对信用数据中的高维稀疏特征与样本不平衡问题易导致模型分类性能欠佳,提出一种新颖的框架来构建信用评分模型。首先,通过计算特征相似度解决高维稀疏特征;其次针对样本不平衡问题提出基于特征聚类改进的SMOTE方法(FC-SMOTE),以平衡数据集进而提高模型分类性能;最后,采用XGBoost作为基分类器构建信用评分模型。选择网上公开的真实信用数据及UCI数据库中的信用数据进行实验,和传统过采样方法 SMOTE、Borderline SMOTE、ADASYN进行对比,实验结果表明,提出的FC-SMOTE方法使基于XGBoost构建的信用评分模型具有更高预测精度。  相似文献   

9.
微博是信息共享的重要平台,同时,也成为虚假消息产生和推广的重要平台,虚假消息的传播严重扰乱了社会秩序。为了快速、有效地识别微博虚假消息,提出一种基于梯度提升决策树(GBDT)的虚假消息检测方法。首先,从评论的角度分析微博虚假消息和真实消息之间存在的差异,在此基础上提取评论中的文本内容、用户属性,信息传播和时间特性的分类特征;然后,基于分类特征,采用GBDT算法实现微博虚假消息识别模型;最后,在两个真实的微博数据集上进行验证。实验结果表明,基于GBDT的识别模型能有效提高微博虚假消息检测的准确率。  相似文献   

10.
人脸检测是生物特征识别技术中一个关键技术。针对人脸检测中正负样本类别不平衡的特性,提出基于BalanceCascade不平衡分类算法的人脸检测系统。系统通过控制分类器的误报率使得每层正负样本的规模相当,然后加权所有弱分类器构建最终的强分类器,消除训练正负样本不平衡的特点。在ORL人脸数据集上进行实验,采用F-measure和AUC作为评判标准,相比于传统的AdaBoost和UnderSamping不平衡分类算法,实验结果表明BalanceCascade算法优于传统的不平衡分类算法。  相似文献   

11.
在线评论是用户判断商品质量的一个依据。虚假评论严重影响了消费者的购买行为,现有的虚假评论检测方法从文本出发,忽略了评分的虚假性,评分通常是不精确和不确定的,对虚假评论检测效果不佳。提出融合情感极性与信任函数的虚假评论检测方法(EP-BFRD),利用信任函数处理给定评论者评分中的不确定性和不准确性,考虑与其他评分者提供的评分的相似性,以检测误导性,并判断评论文本情感极性与评分一致性。综合考虑信任函数处理的结果以及评分与文本情感一致性的结果来判断评论的虚假性。在一个真实的数据库上进行实验,实验表明该方法可有效解决虚假评论检测问题。  相似文献   

12.
情感倾向分析主要用于判断文本的情感极性,在商品评论、舆情监控等领域有着重要的商业和社会价值。传统的机器学习方法主要是浅层的学习算法,并不能很好地抽取文本中高层情感信息。针对该问题,提出了一种以组合了语义信息和情感信息的情感词向量作为输入的改进双向长短期记忆模型,通过构建语义和情感双输入矩阵,并在隐藏层加入情感特征抽取模块,来增强模型的情感特征表达能力。在数据集上的实验结果表明,与标准的BLSTM模型和传统机器学习模型相比,该模型能够有效提升文本情感倾向分析的效果。  相似文献   

13.
基于主题情感句的汉语评论文倾向性分析*   总被引:1,自引:1,他引:0  
提出一种基于主题情感句的汉语评论文倾向性分析方法.根据评论文的特点,采用一种基于n元词语匹配的方法识别主题,通过对比与主题的语义相似度和进行主客观分类抽取出候选主题情感句,计算其中相似度最高的若干个句子的情感倾向,将其平均值作为评论文的整体倾向.基于主题情感句的评论文倾向性分析方法避免了进行篇章结构分析,排除了与主题无...  相似文献   

14.
吴璠  王中卿  周夏冰  周国栋 《软件学报》2020,31(8):2492-2507
情感分析旨在判断文本的情感倾向,而评论质量检测旨在判断评论的质量.情感分析和评论质量检测是情感分析中两个关键的任务,这两个任务受多种因素的影响而密切相关,同一个产品的情感倾向具有相似的情感极性;同时,同一个用户发表的评论质量也具有一定的相似性.因此,为了更好地研究情感分类和评论质量检测任务的相关性以及用户信息和产品信息分别对情感分类和评论质量检测的影响,提出了一个情感分析和评论质量检测联合模型.首先,使用深度学习方法学习评论的文本信息作为联系两个任务的基础;然后,将用户评论及产品评论作为用户的表示和产品的表示;在此基础上,采用用户注意力机制对用户的表示进行编码,采用产品注意力机制对产品的表示进行编码;最后,将用户表示和产品表示结合起来进行情感分析和评论质量检测.通过在Yelp2013和Yelp2015数据集上的实验结果表明,该模型与现有的神经网络模型相比,能够有效地提高情感分析和在线评论质量检测的性能.  相似文献   

15.
针对突发事件的舆情演变态势进行分析,发现社会舆情的演变规律,提出了一种基于情感特征的舆情演化分析方法,该方法包含舆论情感分析模块与舆情演化分析模块.舆论情感分析模块基于B E RT预训练模型和BiGRU模型,其中BERT作为词嵌入模型提取舆情文本特征向量,BiGRU则用于提取文本特征向量的上下文联系实现对舆情数据情感极...  相似文献   

16.
万志超  胡峰  邓维斌 《计算机应用》2019,39(11):3127-3133
传统的特征选择方法在面对不平衡文本情感倾向性分类时会有很大的局限性,这种局限性主要体现在特征维数过高、特征过于稀疏和特征分布不平衡,这会使得分类的准确度大幅度下降。根据不平衡文本情感特征分布的特点,结合三支决策的思想,提出了一种面向不平衡文本情感分类的三支决策特征选择方法(TWD-FS)。该方法将两种有监督特征选择方法相结合,将选择出的特征词进一步筛选,使得最终选择出的特征词同时满足类间离散度最大和类内离散度最小的特点,有效地减少了特征词的数量,降低了特征维度;此外,通过组合正负类情感特征,缓解了情感特征的不平衡性,有效提高了不平衡样本中少数类情感的分类效果。在COAE2013中文微博非平衡数据集等多个数据集上的实验结果表明,所提的特征选择算法TWD-FS可以有效提高不平衡文本情感分类的准确度。  相似文献   

17.

Fraudulent online sellers often collude with reviewers to garner fake reviews for their products. This act undermines the trust of buyers in product reviews, and potentially reduces the effectiveness of online markets. Being able to accurately detect fake reviews is, therefore, critical. In this study, we investigate several preprocessing and textual-based featuring methods along with machine learning classifiers, including single and ensemble models, to build a fake review detection system. Given the nature of product review data, where the number of fake reviews is far less than that of genuine reviews, we look into the results of each class in detail in addition to the overall results. We recognise from our preliminary analysis that, owing to imbalanced data, there is a high imbalance between the accuracies for different classes (e.g., 1.3% for the fake review class and 99.7% for the genuine review class), despite the overall accuracy looking promising (around 89.7%). We propose two dynamic random sampling techniques that are possible for textual-based featuring methods to solve this class imbalance problem. Our results indicate that both sampling techniques can improve the accuracy of the fake review class—for balanced datasets, the accuracies can be improved to a maximum of 84.5% and 75.6% for random under and over-sampling, respectively. However, the accuracies for genuine reviews decrease to 75% and 58.8% for random under and over-sampling, respectively. We also discover that, for smaller datasets, the Adaptive Boosting ensemble model outperforms other single classifiers; whereas, for larger datasets, the performance improvement from ensemble models is insignificant compared to the best results obtained by single classifiers.

  相似文献   

18.
中文网络评论的IT产品特征挖掘及情感倾向分析   总被引:1,自引:0,他引:1  
为探索中文客户评论中的IT产品特征及相关情感倾向的挖掘,帮助IT生产商和服务商提高改进产品和服务质量,提高竞争力。该文将采用情感分析技术,提出基于客户感知价值的产品特征挖掘算法,实现对于评论中IT产品特征及其情感倾向的语义分析、动态提取和综合信息挖掘;并根据用户的关注权重将产品特征和情感倾向进行排列。采用从互联网下载的真实IT产品评论语料中进行实验,初步验证了该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号