共查询到18条相似文献,搜索用时 46 毫秒
1.
为了识别商品垃圾评论,基于垃评论员发表的多为垃圾评论这一基本思想,提出一种基于评论员评论行为来判定其是否为垃圾评论员的方法。分析定义了垃圾评论员常见的三类评论行为,分别是针对同类商品发表垃圾评论,针对同品牌商品发表垃圾评论和针对同一卖家商品发表垃圾评论;在对这三类评论行为建模的同时提出一种依据重复性过高或过低打分的评论数量来计算评论员垃圾指数(spam score)的方法。实验数据为在当当网摄影摄像商品区发表过评论的评论员的所有评论信息。实验结果通过人工评判和计算NDCG(normalize discounted cumulative gain)值的方法来检验,实验结果准确有效。 相似文献
2.
产品垃圾评论检测研究综述 总被引:4,自引:2,他引:2
互联网上的产品垃圾评论混淆视听,误导了潜在消费者。产品垃圾评论检测的目的就是将垃圾评论从评论文本中找到并去除,保留真实的产品评论供用户参考。首先将产品垃圾评论和互联网上其它常见的垃圾信息进行了对比,并把产品垃圾评论的检测和产品评论的质量判断、产品评论的情感分析等相关的工作进行了比较分析。然后从产品垃圾评论检测的数据集、检测方法两个角度对相关工作做了概述和分析。最后,在上述工作的基础上提出了一些产品垃圾评论检测研究中值得进一步关注的问题。 相似文献
3.
4.
基于用户行为的产品垃圾评论者检测研究 总被引:2,自引:0,他引:2
为找到垃圾评论的制造者,提出一种基于用户行为的产品垃圾评论者检测方法。从垃圾评论者的行为目的出发,将其发表垃圾评论的5种行为模式作为垃圾评论者的检测指标,从卓越亚马逊网站获取1 470个评论用户,按单指标选取、5个指标集成选取的方法确定最可能和最不可能成为垃圾评论者的评论用户各25个,并对这50个评论者进行人工标记,根据标记结果设计有监督的线性回归模型。实验结果表明,该模型从1 470个评论者中发现88个用户为垃圾评论者,对垃圾评论者的检测效果优于基于用户有用性投票的基准方法。 相似文献
5.
6.
随着网络技术的发展,越来越多用户生成的内容(user-generated content)出现在网络应用中,其中,用户评论富含用户的观点,它们在网络环境中充当越来越重要的角色.据美国Cone公司2011年的调查报告,64%的用户在购买行为之前会参考已有的用户评论.因此,为用户提供准确、简洁和真实的评论是一个迫切且重要的任务.主要围绕评论质量评估、评论总结和垃圾评论检测这3个方面综述了国际上评论质量检测与控制的研究内容、技术和方法的研究进展.在此基础上,展望该领域的发展给出了可能的研究方向. 相似文献
7.
在线评论已经是影响用户决定是否购买该产品或者服务的重要因素,因而一些不法分子会创建虚假、恶意的评论,对用户和商家造成不良的影响,所以能够快速准确的检测垃圾评论是一个很急迫的需求.已有的研究主要是针对评论文本进行分析,忽略了其它的外部特征并且在准确性上有待提高.本文在评论文本的基础上,考虑了评论者的特征和评论的商品的特征,提出了一种融合多特征的垃圾评论检测模型将三个特征统一考虑进行垃圾评论的检测.首先,使用融入全局-局部注意力机制的卷积神经网络构建评论特征提取模型;其次,分别使用神经网络及卷积神经网络构建评论者及商品特征提取模型;最后,将三个特征模型融合,构成垃圾评论检测模型.通过在真实的数据集上测试证明了本模型的有效性. 相似文献
8.
《计算机应用与软件》2016,(7)
针对评论中蕴含的商品特征数目繁多且同一特征具有多种不同描述的情况,提出一种基于语义相似度的商品特征聚类算法。算法包括"分配"和"转移"两个过程。"分配"过程对特征词进行聚类得到初始簇序列;"转移"过程依次遍历初始簇序列将簇内可能存在的与其他簇语义相似度更高的特征词转移到对应的簇。实验结果表明该算法聚类质量高、时间复杂度小且对数据输入次序不敏感。 相似文献
10.
针对现有商品评论存在数量大、质量参差不齐、可信度差,导致用户难以快速获取有效信息并制定高效的决策,而现有评论可信性评估主要考虑评论来源和投票形式的支持度等问题,提出了一种从评论内在质量角度实现评论可信度评估方法,即通过融合评论者等级、评论支持度和评论观点一致性等实现评论可信性评估。首先基于规则库和方法库完成了评论数据的预处理;然后基于商品特征库、通用词典、情感词典以及方法库,完成了商品特征识别和特征值提取及标准化;最后基于建立的模型完成评论可信度评估。实验结果验证了该方法的可行性,该方法可以应用于其他电商平台实现商品评论可信性自动评估。 相似文献
11.
Web 2.0 technology leads Web users to publish a large number of consumer reviews about products and services on various websites.Major product features extracted from consumer reviews may let product providers find what features are mostly cared by consumers,and also may help potential consumers to make purchasing decisions.In this work,we propose a linear regression with rules-based approach to ranking product features according to their importance.Empirical experiments show our approach is effective and promising.We also demonstrate two applications using our proposed approach.The first application decomposes overall ratings of products into product feature ratings.And the second application seeks to generate consumer surveys automatically. 相似文献
12.
13.
随着互联网的发展,用户倾向于在购物、旅游、用餐之前参考线上评论.之后,他们也会发表评论来表达自身意见.线上评论越来越具有价值.评论对用户决策的重要导向作用催生了虚假评论.虚假评论,指用户由于利益、个人偏见等因素发布的不符合产品真实特性的评论.这些虚假评论语言上模仿真实评论,消费者很难识别出来.国内外学者综合运用自然语言处理技术来研究虚假评论检测问题.从特征工程的角度分析,虚假评论检测方法可以分为三类:基于语言特征和行为特征的方法、基于图结构的方法、基于表示学习的方法.主要描述了检测的一般流程,归纳了三类研究方法常用的特征,比较了方法的优缺点,并且介绍了研究常用的数据集.最后探讨了未来研究方向. 相似文献
14.
文章主要进行了接收端的垃圾邮件处理技术的对比研究,包括预处理、特征选择和分类3大步骤。其中特征选择技术包括文档频率(DF)、信息增益(IG)、优势率(ODD)等方法。文章详细介绍了其中基于粗糙集理论的特征选择方法--信息增益(knowledge gain),并用实验验证了该方法在正确率等指标中的突出表现。主流分类器算法包括k近邻、贝叶斯、SVM等,其中详细展示了线性分类器在垃圾邮件分类算法实验中的突出表现。 相似文献
15.
16.
目前的产品垃圾评论识别方法只考虑评论特征的选取,忽略了评论数据集的不平衡性。因此该文提出基于随机森林的产品垃圾评论识别方法,即对样本中的大、小类有放回的重复抽取同样数量样本或者给大、小类总体样本赋予同样的权重以建立随机森林模型。通过对亚马逊数据集的实验结果表明,基于随机森林的产品评论识别方法优于其他基线方法。 相似文献
17.
目前已有很多种特征选择方法,但就目前所知,没有一种方法能够在非平衡语料上取得很好的效果.依据特征在类别间的分布特点提出了基于类别分布的特征选择框架.该框架能够利用特征的分布信息选出具有较强区分能力的特征,同时允许给类别灵活地分配权重,分配较大的权重给稀有类别则提高稀有类别的分类效果,所以它适用于非平衡语料,也具有很好的扩展性.另外,OCFS和基于类别分布差异的特征过滤可以看作该框架的特例.实现该框架得到了具体的特征选择方法,Retuers-21578语料及复旦大学语料等两个非平衡语料上的实验表明,它们的Macro 和Micro F1效果都优于IG, CHI和OCFS. 相似文献
18.
如何将邮件的头信息和内容信息有效结合起来进行垃圾邮件过滤备受研究人员的关注。基于粗糙集具有很好地处理不确定信息的特点,提出了一种基于粗糙集的两阶段邮件过滤方法,首先根据邮件头信息将其分为正常邮件、垃圾邮件和可疑邮件,再根据邮件内容将可疑邮件分为正常和垃圾邮件。通过在中英文邮件集上的测试实验,证明了所提出的邮件过滤方法不仅能提高垃圾邮件过滤的准确率,而且能大幅降低误杀率。 相似文献