首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
微博作为时下热门的社交网络平台,针对其所产生的评论文本进行情感分析已经成为人工智能领域的一个研究热点。考虑到虚假评论会降低情感分析的准确度,从评论用户的状态和行为出发,提出一种基于用户状态与行为的可信度评价体系,用于提取虚假评论特征。结合该特征与PU(Positive and unlabeled)学习算法进行虚假评论识别;运用SVM分类器和随机梯度下降回归模型对去除虚假评论的文本进行主观句分类与情感分析。实验表明,进行虚假评论识别后的情感分析准确率、召回率分别达到0.88和0.89,比传统方法具有更高的分析效能。  相似文献   

2.
尹春勇  朱宇航 《计算机应用》2020,40(8):2194-2201
针对虚假评论会误导用户的偏向并使其利益遭受损失以及大规模人工标注评论的代价过高等问题,通过利用以往迭代过程中生成的分类模型来提高检测的准确性,提出一种基于垂直集成的Tri-training(VETT)的虚假评论检测模型。该模型在评论文本特征的基础上结合用户行为特征作为特征进行提取。在VETT算法中,迭代过程被分成组内垂直集成和组间水平集成两部分:组内集成是利用分类器以往的迭代模型集成为一个原始分类器,而组间集成是利用3个原始分类器通过传统过程训练得到这一轮迭代后的二代分类器,以此来提高标签标记的准确率。对比Co-training、Tri-training、基于AUC优化的PU学习(PU-AUC)和基于垂直集成的Co-training(VECT)等算法,VETT算法的F1值分别最大提高了6.5、5.08、4.27和4.23个百分点。实验结果表明VETT算法有较好的分类性能。  相似文献   

3.
为了有效识别商品虚假评论,提出一种基于情感极性与SMOTE过采样的虚假评论识别方法。首先,根据在线虚假评论的特点,构建一个多维虚假评论特征模型。其次,在情感极性算法中增加了情感极性均值和情感极性标准差等统计指标来全面刻画虚假评论。最后,针对虚假评论中的类不平衡问题,使用SMOTE算法优化随机森林分类模型,从而提高虚假评论识别效果。基于大众点评网的真实评论数据进行了多组实验,实验结果表明该方法在正负样本不平衡的虚假评论数据集中具有更高的准确率、召回率及F值。综合考虑情感极性和正负样本不平衡等因素可帮助电商平台有效过滤虚假评论,为消费者提供更加真实可靠的评论数据。  相似文献   

4.
识别虚假评论有着重要的理论意义与现实价值。先前工作集中于启发式策略和传统的全监督学习算法。最近研究表明:人类无法通过先验知识有效识别虚假评论,手工标注的数据集必定存在一定数量的误例,因此简单使用传统的全监督学习算法识别虚假评论并不合理。容易被错误标注的样例称为间谍样例,如何确定这些样例的类别标签将直接影响分类器的性能。基于少量的真实评论和大量的未标注评论,提出一种创新的PU (positive and unlabeled)学习框架来识别虚假评论。首先,从无标注数据集中识别出少量可信度较高的负例。其次,通过整合LDA(latent Dirichlet allocation)和 K‐means ,分别计算出多个代表性的正例和负例。接着,基于狄利克雷过程混合模型(Dirichlet process mixture model , DPM M ),对所有间谍样例进行聚类,混合种群性和个体性策略来确定间谍样例的类别标签。最后,多核学习算法被用来训练最终的分类器。数值实验证实了所提算法的有效性,超过当前的基准。  相似文献   

5.
信息过载问题使得推荐系统迅速发展并广泛应用,同时也出现不法商家将虚假消费记录定量地输入到系统数据库从而改变推荐系统的推荐结果以获利.因此,本文围绕3个问题展开,即:为了提高推荐系统对虚假评论的鉴别能力,首先需要准确标注虚假评论的类标,如何能获取大量准确标定的虚假评论信息;如何有效过滤虚假评论从而提高推荐的可靠性;如何实现一种高效可靠的推荐系统.针对虚假评论信息难以准确标定,本文提出了一种基于文本生成式对抗网络的自动点评技术,依据历史评论文本自动生成虚假评论文本,并依据情感分析确定生成文本的对应评分;为了提高推荐系统对包含虚假信息数据的推荐效果,本文提出了一种基于图过滤的快速密度聚类双层网络推荐算法.该算法首先提出了一种能快速确定节点执行度阈值的基于图的过滤器,有效过滤数据内虚假信息,并设计了一种快速密度聚类双层网络推荐算法,提高推荐效果.将所提出的推荐算法应用到Yelp数据集上展开试验,验证本文提出的推荐方法的有效性.  相似文献   

6.
微博是信息共享的重要平台,同时,也成为虚假消息产生和推广的重要平台,虚假消息的传播严重扰乱了社会秩序。为了快速、有效地识别微博虚假消息,提出一种基于梯度提升决策树(GBDT)的虚假消息检测方法。首先,从评论的角度分析微博虚假消息和真实消息之间存在的差异,在此基础上提取评论中的文本内容、用户属性,信息传播和时间特性的分类特征;然后,基于分类特征,采用GBDT算法实现微博虚假消息识别模型;最后,在两个真实的微博数据集上进行验证。实验结果表明,基于GBDT的识别模型能有效提高微博虚假消息检测的准确率。  相似文献   

7.
通过对微博虚假信息的分析,基于DCA算法的思想,提出一种检测微博虚假信息的方法。以新浪微博为例,从虚假信息发布者的用户属性和虚假信息评论的文本内容两个方面进行分析。从用户方面选取用户的特征属性,如是否认证、有无简介、地址信息是否详细、关注数、粉丝数等,从评论内容方面选取评论与微博内容的相关性、评论的支持性及其置信度等特征属性,将以上属性的分析结果作为区别虚假信息与真实信息的特征信号,并基于树突状细胞算法(Dendritic Cells Algorithm, DCA)实现新浪微博虚假信息的识别。使用新浪微博真实数据对算法有效性进行了验证和对比实验,结果表明该方法能够有效检测出新浪微博中的虚假信息,具有较高的检测准确率。  相似文献   

8.
对电商的虚假评论检测,需要充分考虑时间突发特性,因此提出了一种融合时间特征的虚假评论检测方法。基于局部异常因子算法构建时间特征指标,将时间特征、评论特征、评论者特征三者相结合,构建一个较为全面的虚假评论识别框架。通过Yelp数据集验证该方法的有效性,结果表明,该方法的性能较好,AUC值较高。  相似文献   

9.
为提高对虚假评论的识别精度并对评论数据的有效性进行准确预测,提出一种面向在线产品数据的有效性建模与测量方法。通过结合基于核主成分的特征提取方法和最小二乘支持向量机对在线产品的虚假评论进行识别,另一方面,基于排序Logit构建回归模型对量化的评论数据进行有效性判别预测。实验结果表明,本文方法在虚假评论识别和数据有效性分析方面效果良好,可以为消费者提供了更为精确的消费参考、为商业机构提供了更具辨识意义的评论数据,具有良好的应用价值。  相似文献   

10.
现有的大多数虚假新闻检测方法将视觉和文本特征串联拼接,导致模态信息冗余并且忽略了不同模态信息之间的相关性。为了解决上述问题,提出一种基于矩阵分解双线性池化的多模态融合虚假新闻检测算法。首先,该算法将多模态特征提取器捕捉的文本和视觉特征利用矩阵分解双线性池化方法进行有效融合,然后与虚假新闻检测器合作鉴别虚假新闻;此外,在训练阶段加入了事件分类器来预测事件标签并去除事件相关的依赖。在Twitter和微博两个多模态谣言数据集上进行了对比实验,证明了该算法的有效性。实验结果表明提出的模型能够有效地融合多模态数据,缩小模态间的异质性差异,从而提高虚假新闻检测的准确性。  相似文献   

11.
Web spam uses numerous techniques to misguide Web search engines in exchange of financial profit. A myriad of semi-automatic propagation model has been proposed with the purpose of combating Web spam. In this paper, distrust propagation is used to detect Web spam. An automatic distrust seed set propagation algorithm (DSP), which acts as an extension to the seed set to propagate distrust further to detect more Web spam. Experiments are conducted on WEBSPAM-UK2006 and WEBSPAM-UK2007 dataset; the results have shown that DSP enhanced the baseline algorithms and detected 17.73 % more spam hosts in the former dataset and detected 8.59 % more spam hosts in later dataset.  相似文献   

12.
在线评论对用户的购买决策有重要的影响作用,部分卖方为提高自身信誉或贬低竞争对手的产品,通过雇佣大量水军有组织、有策略地撰写虚假评论来误导潜在消费者。为了检测这种有组织的水军群组,提出了一个综合考虑网络结构与评论者的行为特征水军群组检测算法。首先,根据评分和评论时间相关性得到评论者之间的紧密度,构建评论者关系图;其次,基于构建的评论者关系图,利用标签传播方法检测社区,得到候选群组集合;最后,复原候选群组对应的二部图,以对比可疑度为评估指标,在每个二部图上找到最终的造假者。基于真实数据集的实验结果证明了该算法的有效性。  相似文献   

13.
最近,spam页面急剧增加,这极大的影响了搜索引擎的精度和效率。如何抵御spam页面已经成为一个非常重要的问题。文章合并了基于内容来侦测spam页面和基于链接spam侦测spam页面的方法,从而提出了一个两步的侦测spam页面的方法。第一步是一个过滤的步骤,用于生成spam页面的候选列表;第二步,通过一个自动的分类器从候选页面中侦测出最终的spam页面。  相似文献   

14.
Edelman等人根据其神经元群选择学说(the Theory of Neuronal Group Selection,TNGS)提出了脑感知学习的模型,将该模型中脑对陌生事物的学习类比于垃圾邮件过滤系统中对未知邮件的学习,提出了一种新的基于感知学习的网络垃圾邮件过滤算法,并将其应用于一种基于合作式网络的垃圾邮件过滤系统模型中。系统使用改进的文本数字签名技术得到邮件文本之间的内容相似度矩阵,将其与邮件到达的行为特征等一起作为该算法的参数,最后给出了仿真实验结果。  相似文献   

15.
Today's e-commerce is highly depended on increasingly growing online customers’ reviews posted in opinion sharing websites. This fact, unfortunately, has tempted spammers to target opinion sharing websites in order to promote and demote products. To date, different types of opinion spam detection methods have been proposed in order to provide reliable resources for customers, manufacturers and researchers. However, supervised approaches suffer from imbalance data due to scarcity of spam reviews in datasets, rating deviation based filtering systems are easily cheated by smart spammers, and content based methods are very expensive and majority of them have not been tested on real data hitherto.The aim of this paper is to propose a robust review spam detection system wherein the rating deviation, content based factors and activeness of reviewers are employed efficiently. To overcome the aforementioned drawbacks, all these factors are synthetically investigated in suspicious time intervals captured from time series of reviews by a pattern recognition technique. The proposed method could be a great asset in online spam filtering systems and could be used in data mining and knowledge discovery tasks as a standalone system to purify product review datasets. These systems can reap benefit from our method in terms of time efficiency and high accuracy. Empirical analyses on real dataset show that the proposed approach is able to successfully detect spam reviews. Comparison with two of the current common methods, indicates that our method is able to achieve higher detection accuracy (F-Score: 0.86) while removing the need for having specific fields of Meta data and reducing heavy computation required for investigation purposes.  相似文献   

16.
Nowadays, search engines play a gateway role for users to access their needed information in the Web. However, malicious users can also use them to facilitate their attacks by submitting excessive amounts of bot-generated queries, called spam queries. In this paper, we propose a novel semi-supervised method which can effectively detect spam queries in a practical manner. We first train a model to characterize normal and malicious users, using the linguistic properties of queries as well as the behavioral characteristics of users and IP addresses. Then, we use the trained model to predict the label of arriving requests with a fast and efficient algorithm which works based on the stream clustering approach. The results of our evaluation with the real log of a local search engine show that the proposed algorithm yields an accuracy of about %94, while incurring a low response-time and memory overhead.  相似文献   

17.
为了能够有效提取邮件样本集的特征及提高垃圾邮件过滤系统的性能,介绍基于N—Gram的切分算法及语言模型,在其基础上,提出了一种改进的N—Gram切分算法,给出了一种结合N—Gram语言模型的贝叶斯过滤模型。实验结果表明,提出的方法有效地提高了垃圾邮件过滤的性能。  相似文献   

18.
高维数据中进行各种处理时所需样本数量会成指数级增加,同时样本间距离的价值也逐渐减小,将导致维数灾问题。文本标签数据通常会面临数据维数过高的问题,会影响用户对垃圾标签的检测。文中借助支持向量机的数学模型构建出针对Folksonomy的大规模垃圾标签检测模型。为了减少检测垃圾标签时维数过高的影响,在核主成分分析理论的启发下,将数据降维思想引入数据约简领域,提出基于核主成分分析法的大规模SVM数据集约简模型。最终实例化形成一种新的垃圾标签检测方法,即基于核主成分分析支持向量机( KPCA-SVM)的大规模垃圾标签检测模型。该模型在垃圾标签检测中可以在不影响数据特征的前提下,缩短模型的测试时间且检测性能良好。  相似文献   

19.
针对大量垃圾邮件对用户带来困扰的问题,提出了一种增量被动攻击学习算法。该方法基于半年时间的对本校校园网内邮件宿主机上所发起的简单邮件传输协议(SMTP)会话日志的采集,针对会话中记录的投递率状态及多种类型的失败消息进行了宿主机行为分析,最终达到有效地适应被检测垃圾邮件源宿主机对最近邮件分类行为的目的。实验结果表明,在执行了若干回合分类策略的调整后,该检测的准确度可以达到94.7%。该设计可以有效地检测内部垃圾邮件宿主机行为,继而从根源上抑制了垃圾邮件的产生。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号