首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
如何在传统垃圾邮件过滤技术基础上实现垃圾邮件个性化过滤是垃圾邮件过滤领域的重要课题。提出一种基于用户反馈的个性化垃圾邮件过滤方法,一方面将用户反馈应用于邮件分类特征的更新,提取用户个性化邮件分类标准;另一方面,将全局邮件分类标准和用户个性化分类标准综合应用于朴素贝叶斯分类过程,实现用户邮件个性化分类。仿真实验结果表明,在用户邮件分类标准存在差异的环境下,基于用户反馈的个性化垃圾邮件过滤方法能够有效提升传统垃圾邮件过滤技术的邮件分类效果。  相似文献   

2.
寇晓淮  程华 《电信科学》2017,33(11):73-82
垃圾邮件过滤技术在保证信息安全、提高资源利用、分拣信息数据等方面都发挥着重要作用。然而,垃圾邮件的出现影响了用户的体验,并且会造成不必要的经济与时间损失。针对现有的垃圾邮件过滤技术的不足,基于多个主题词理论,构建了基于朴素贝叶斯的垃圾邮件分类方法。在邮件主题获取中,采用主题模型LDA得到邮件的相关主题及主题词;并进一步采用Word2Vec寻找主题词的同义词和关联词,扩展主题词集合。在邮件分类中,对训练数据集进行统计学习得到词语的先验概率;基于扩展的主题词集合及其概率,通过贝叶斯公式推导得到某个主题和某封邮件的联合概率,以此作为垃圾邮件判定的依据。同时,基于主题模型的垃圾邮件过滤系统具有简洁易应用的特点。通过与其他典型垃圾邮件过滤方法的对比实验,证明基于主题模型的垃圾邮件分类方法及基于Word2Vec的改进方法均能有效提高垃圾邮件过滤的准确度。  相似文献   

3.
针对现有朴素贝叶斯贝努利模型在垃圾邮件过滤时存在的不能体现待分类邮件中文本特征词重要性而导致合法邮件误判为垃圾邮件等问题,引入特征词加权的思想,提出一种低损失的贝叶斯垃圾邮件过滤算法。实验结果表明:该算法能降低合法邮件被误判而带给用户的损失,提高过滤的正确性。  相似文献   

4.
提出一种基于多特征模糊关联的垃圾邮件过滤方法.该方法分为预处理和实时处理两个阶段,在预处理阶段,分析训练样本集,提取邮件的发送源特征和文本特征的典型特征值集合,计算典型特征值与合法邮件类、垃圾邮件类之间的模糊关联度.在实时处理阶段,根据待分类邮件所包含的特征值,计算邮件的类支持度,然后利用Dempster-Shafer 证据理论实现多个特征的分类融合与判决.实验结果表明,此方法能有效提高垃圾邮件过滤的查全率和查准率.  相似文献   

5.
基于词条时序的朴素贝叶斯垃圾邮件过滤方法   总被引:1,自引:0,他引:1  
朴素贝叶斯分类算法是一种有效的垃圾邮件过滤技术.互联网上的信息随着时间推移产生概念的变迁,最近出现的垃圾邮件词条可作为判定垃圾邮件的重要依据.将新近的垃圾邮件词条单独记录,在进行邮件分类时,对于最近出现的垃圾词条,提高其对垃圾邮件判定的先验概率.通过实验对比,提出的垃圾邮件过滤方法较传统的朴素贝叶斯垃圾邮件过滤具有更高的准确性、精确性和召回率.  相似文献   

6.
基于支持向量机的电子邮件过滤技术   总被引:1,自引:0,他引:1  
有别于传统的电子邮件过滤技术,文章在垃圾邮件识别过程中引入主要针对邮件信头非文本信息的信件分类机制,进而基于支持向量机完成电子邮件信头信息过滤模型的搭建工作。实验结果表明,对应模型能够提高邮件过滤系统对于垃圾邮件的识别率,同时降低了系统对正常邮件的误判率。  相似文献   

7.
为降低对合法邮件的误判,提出一种基于朴素贝叶斯和层次聚类的两阶段垃圾邮件过滤方法。该方法将邮件划分为“合法邮件”、“可疑邮件”和“垃圾邮件”3类,在第一阶段,利用朴素贝叶斯算法速度快、分类性能好的优点,对邮件进行初步分类;在第二阶段,基于垃圾邮件的发送特征,利用层次聚类算法进行相似性比较。实验表明,该方法能够显著提高垃圾邮件的查准率,降低对合法邮件的误判,更加符合实际应用需求。  相似文献   

8.
陆青梅  尹四清 《信息技术》2008,32(2):118-120
邮件过滤技术是反垃圾邮件的重要手段,目前对垃圾邮件的过滤主要有基于内容、基于IP地址和基于信头、信封等方法,这些方法对垃圾邮件的过滤起到了一定作用.但是由于信体是垃圾邮件的最终载体,而仅依据IP地址、信头、信封中的特征容易造成错误判断.在贝叶斯分类器的工作原理的基础上,提出了基于贝叶斯分类器的反垃圾邮件模型的原理与实现方法,将反映垃圾邮件的特征综合在一起统称为"属性",避免了单纯基于IP、信头、信封过滤的规则性太强的缺点,降低将正常邮件判断为垃圾邮件的风险.  相似文献   

9.
在分析传统垃圾邮件过滤技术的基础上,提出了一种基于神经网络和用户反馈的反垃圾邮件技术.通过引入用户反馈机制,使用神经网络分类方法,构建面向特定用户的过滤器,从而进行垃圾邮件过滤.实验证明,该方法能够有效地降低误报率,提高反垃圾邮件系统的可用性,具有较好的实用效果.  相似文献   

10.
电子邮件分类有利于垃圾邮件的过滤,节省网络资源。为了提高邮件分类的精度,提出了改进支持向量机的电子邮件分类器模型。首先提取电子邮件的原始特征,并采用主成分分析法对特征进行选择,减少特征数量,提高邮件分类效率;然后采用支持向量机建立电子邮件分类器,并对传统支持向量机参数选择方法进行改进,改善邮件分类效果,最后采用邮件分类的标准数据库——UCI进行性能分析。结果表明,改进支持向量机解决了当前电子邮件分类模型的不足,获得了理想的电子邮件分类效果,分类结果可以帮助管理人员拦截垃圾邮件。  相似文献   

11.
基于主动学习和否定选择的垃圾邮件分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
胡小娟  刘磊  邱宁佳 《电子学报》2018,46(1):203-209
针对现在网络上泛滥的垃圾邮件问题,本文结合主动学习方法和否定选择算法提出了一种二类文本分类方法:主动否定学习算法.根据用户少量标注建立双向兴趣集,利用否定选择算法的自体异常检测机制改善主动学习中的采样策略,并将双向兴趣集作为检测器,新增样本集作为自体集,对两者进行异常匹配.本文算法与在线垃圾邮件快速识别方法、增强差异性的半监督协同分类算法、垃圾邮件过滤方法、基于人工高免疫的多层垃圾邮件过滤算法和在线主动多领域学习方法在六个常用邮件语料集上进行了分析比较,结果表明本文算法具有较高的准确率、召回率、分类精度,和较低的用户标注负担.使用用户个性喜好转换为双向兴趣特征的方式有助于提高算法的分类能力;利用异常检测匹配选取未知类别特征的方式,有效地降低了用户标注负担.  相似文献   

12.
一种基于N-gram组合的中文垃圾邮件过滤方法   总被引:3,自引:0,他引:3  
中文垃圾邮件的泛滥提出了极为迫切的技术诉求。本文使用了基于简单贝叶斯模型的过滤算法,同时使用N-gram对中文文本进行自动分词,并且组合多个N-gram来加快分类的收敛速度,这样分类是一种切实可行的垃圾邮件过滤方法。对于这种代价敏感性(cost sensitive)的分类,通过移动门限值的方法来处理:在评估结果时采用了TCR以及召回率(SR)和正确率(SP)等参数考察实验数据。实验表明:这种方法代价较小,而正确率较高。最后我们认为可以通过筛选训练邮件以及和其它措施相结合来满足ISP级别等应用场合的要求。  相似文献   

13.
张天润 《移动信息》2023,45(10):167-169
文中旨在研究基于深度学习的垃圾邮件文本分类方法,该方法结合了卷积神经网络(CNN)和循环神经网络(RNN)的模型,通过对邮件文本进行特征提取和分类,能高效、准确地对垃圾邮件进行分类。文中以卷积神经网络和循环神经网络为实验对象,提出了一种垃圾邮件文本分类方法,并在公开数据集上进行了实验。实验结果表明,该方法在垃圾邮件文本分类任务上具有较高的准确率和召回率。  相似文献   

14.
为了逃避基于文本的垃圾邮件系统的检测,越来越多的垃圾邮件制造者将文本信息嵌入到图像中。为了有效地检测出图像型垃圾邮件,提出了一种基于灰度—梯度共生矩阵(GGCM, gray-gradient co-occurrence matrix)的图像型垃圾邮件识别方法。先通过灰度—梯度共生矩阵提取图像的特征信息,然后运用最小二乘支持向量机(LS-SVM, least squares support vector machines)进行分类。实验表明,该方法具有较高的分类精度和较好的实时性。  相似文献   

15.
This paper proposes a stateless open‐digest spam fingerprinting at the packet level (layer 3) based on an open‐digest fingerprinting algorithm Nilsimsa. Spam emails show several characteristics when viewed at gateway level, which are suitable for spam fingerprinting: (a) content invariance and (b) recipient address dispersion. In this paper, Nilsimsa is adapted to support both fingerprinting and fast email class estimation, on a per‐packet basis. Email packets are incrementally fingerprinted on a per‐packet basis, without the need for reassembly. Spam detection status is tagged to the last packet of each email. This in turn allows fast email class estimation (spam detection) at receiving email servers to support more effective spam handling on both inbound and outbound (relayed) emails. The work presented in this paper focuses on evaluating the accuracy of spam fingerprinting at the packet level with consideration on the constraints of processing byte streams over the network, including packet reordering, fragmentation, overlapped bytes, different packet sizes, and possibilities of random addition attacks. Results show that the proposed packet‐level fingerprinting can detect spam with 100% random addition when the similarity threshold is set to between 36 and 59. This method gives 0% false positive and 100% true negative, which equals the performance attained for spam fingerprinting at full email abstraction (layer 7). This shows that classifying emails at the packet level can differentiate non‐spam from spam with high confidence for a viable spam control implementation on middleboxes. Copyright © 2011 John Wiley & Sons, Ltd.  相似文献   

16.
陈侃  陈亮  朱培栋  熊岳山 《通信学报》2015,36(7):120-128
网络水军对广告、谣言、木马和恶意链接进行传播,不仅干扰用户对在线社会网络的正常访问,还可能引发网络安全、社会稳定等方面的问题。针对网络水军信息传播的特点,提出基于交互行为的信息传播模型。模型根据不同传播主体间的交互定义特征来量化传播行为,使用决策树方法对水军传播的信息进行检测。通过新浪微博的真实数据分析传播模型并验证检测方法,结果表明检测方法能够对微博中水军信息进行有效检测。  相似文献   

17.
为了应对违规信息的快速、多样化发展,运营商对违规信息的治理手段也需要与时俱进,需要对违规信息的覆盖更全面、判定更精准.基于以上目标,本文提出了一种基于先验模型的短文本违规信息识别与过滤方法.该方法从文字特征层、关键词模式层、内容特征层3个层面对于违规信息进行分析,最后利用综合分析判定层结合之前的训练对短信进行最终的判定.我们在保证较高违规信息判定准确率的前提下,可以大幅度提高违规信息判定的召回率,较好的解决目前违规信息判定问题,为运营商节省大量人力.  相似文献   

18.
This paper proposes a novel approach to comment spam identification based on content analysis. Three main features including the number of links, content repetitiveness, and text similarity are used for comment spam identification. In practice, content repetitiveness is determined by the length and frequency of the longest common substring. Furthermore, text similarity is calculated using vector space model. The precisions of preliminary experiments on comment spam identification con-ducted on Chinese and English are as high as 93% and 82% respectively. The results show the validity and language independency of this approach. Compared with conventional spam filtering approaches,our method requires no training, no rule sets and no link relationships. The proposed approach can also deal with new comments as well as existing comments.  相似文献   

19.
对海外垃圾信息立法的形式、垃圾信息的定义、相关主体的义务和责任、选择进入和选择退出制度以及谢绝来电登记制度进行了研究梳理,结合我国立法的具体情况,就我国垃圾信息立法的相关问题提出了几点建议。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号