首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
提出一种基于内容的中文垃圾邮件实时过滤系统的实现方案,该系统建立在Linux的Sendmail邮件服务器上,通过Milter接口实时提取邮件内容,并结合中文分词及文本分类算法对邮件实施分类和过滤。该系统可嵌入多种文本分类算法,具有良好的可扩展性。通过测试对该系统内嵌入的不同分类算法模型进行了分析和比较。  相似文献   

2.
一种基于向量空间模型的邮件自动过滤算法研究   总被引:1,自引:0,他引:1  
肖旻 《福建电脑》2006,(8):12-13
对于垃圾邮件的判别和处理的研究,正逐渐成为热点。本文根据垃圾邮件过滤特点,通过对基于概率统计的贝叶斯理论的文本分类方法分析和探讨,引入基于向量空间模型中多变量贝努里事件模型的一种邮件自动过滤算法,并给出该算法的实现过程,完成垃圾邮件的分类与判别,最后给出邮件分类与过滤的实现流图。  相似文献   

3.
基于免疫原理的个性化Spam过滤算法   总被引:2,自引:0,他引:2  
受生物免疫系统工作机制的启发,本文提出一种基于免疫原理的个性化Spam过滤算法.其主要思想是根据用户兴趣和邮件特征定义垃圾邮件社区,将各垃圾邮件归类于不同的垃圾邮件社区,抽取各个垃圾邮件社区的特征并用一组特征检测器来表示,检测时通过判断待检测邮件是否归属于某垃圾邮件社区来进行过滤.该算法是一个增量学习算法,能连续过滤垃圾邮件.算法中免疫学习与免疫记忆机制的采用不仅能提高垃圾邮件过滤的检出率与正确率还能加快邮件过滤的速度.文中通过测试实验和分析表明,本文算法的垃圾邮件过滤性能优于AISEC与Naive Bayesian算法.  相似文献   

4.
电子邮件广泛应用于人们的工作生活中。然而,充斥着虚假信息、恶意软件和营销广告等内容的垃圾邮件也以电子邮件为载体进行传播。这不仅给人们带来不便,而且也占用和耗费大量的网络资源,甚至严重地威胁信息安全。因此,有效地识别、过滤垃圾邮件是一项重要的工作。目前,垃圾邮件过滤方法主要包括基于邮件来源的识别和基于内容的识别,但大部分方法效果不佳且效率不高,并且需要耗费大量的人力标注特征,也跟不上垃圾邮件内容和形式等的改变。近年来,有研究人员将深度强化学习用在自然语言处理上并取得了重大的成果,鉴于此,本文提出基于深度Q网络的垃圾邮件文本分类方法。该方法在对邮件文本进行预处理、分词以及用Word2vec模型得到词向量的基础上用深度Q网络对垃圾邮件进行过滤,充分利用Word2vec中的CBOW模型得到邮件文本中的每个分词对应的词向量,直接用深度Q网络对得到的词向量集进行处理,无需提取邮件的特征,避免了由于特征提取的偏差带来的负面影响,提高了垃圾邮件过滤的效率和精确率。实验结果验证了本文方法的有效性。  相似文献   

5.
基于网络会话层的垃圾邮件行为识别   总被引:1,自引:0,他引:1  
目前最流行的邮件内容过滤技术工作在网络应用层,通过对邮件内容的分析来判别邮件的合法性,无法避免由于垃圾邮件的泛滥而造成的网络带宽资源的浪费。针对这种情况,论文提出一种基于网络会话层的垃圾邮件行为识别方法。该方法运用决策树算法,对邮件发送过程中的网络会话层数据进行挖掘,发现垃圾邮件的行为规律,在垃圾邮件的内容数据发送前就对其实施过滤,有效地解决了垃圾邮件占用网络带宽的问题,是对当前各种垃圾邮件过滤技术的一个有益的补充。  相似文献   

6.
基于人工免疫系统的反垃圾邮件过滤机制   总被引:6,自引:0,他引:6  
胡可  张家树 《计算机应用》2005,25(11):2559-2561
提出了一种基于人工免疫系统(AIS)的垃圾邮件过滤机制。将邮件文本向量空间化并结合免疫识别算法进行过滤。对机制进行了建模与算法描述,对检测器的性能和系统的学习更新进行了向量空间上r 模拟仿真并与Nave Bayes方法进行比较。研究结果说明将人工免疫系统应用于垃圾邮件处理有动态性和自适应强的优点,同时为特定领域的信息分类问题提供了一种参考机制。  相似文献   

7.
邮件过滤技术是反垃圾邮件的重要手段,本文提出了一种基于服务器端的垃圾邮件过滤系统,它采用改进的Bayes算法,将反映垃圾邮件的特征综合在一起统称为"属性",用这些"属性"构成表示邮件特征的向量空间模型重点特征向量,避免了单纯基于IP、信头、信封过滤的规则性太强的缺点,降低将正常邮件判断为垃圾邮件的风险。  相似文献   

8.
将人工免疫思想引入邮件过滤中,设计并实现了一种基于ARTIS(Artificial Immune System)人工免疫模型的反垃圾邮件模型.该模型将垃圾邮件看作侵入系统的抗原,模拟抗体消灭抗原的机理,以分布式方式识别垃圾邮件,并能学习和记忆邮件的特征.利用CCERT的邮件样本集对该模型进行了训练和测试,实验结果表明该系统具有较好的自适应性和稳定性.  相似文献   

9.
基于文本挖掘的邮件分类与过滤   总被引:6,自引:0,他引:6  
该文提出一种基于文本挖掘的邮件分类与过滤的方法,它包括邮件采集与预处理、文本分词、特征选取、邮件分类器和过滤器等功能模块。该系统不仅可使邮件服务器具有自动过滤垃圾邮件的能力,也可以用于电子政务和电子商务,对邮件自动分类和转发。  相似文献   

10.
虽然目前垃圾邮件过滤或检测的研究比较多,但是它们大多数是基于邮件客户端。文章提出了一种基于后缀树的骨干网络垃圾邮件检测方法,它采用后缀树文本表示方法,通过不定长统计方法判定邮件是否相似,然后利用邮件重复出现的次数判定是否为垃圾邮件。该方法不需要任何训练,直接对接收的邮件进行分类统计;对于长度为的邮件,算法的时间复杂度和空间复杂度均为;另外,该方法独立于任何语种。  相似文献   

11.
结构化集成学习垃圾邮件过滤   总被引:4,自引:0,他引:4  
为了解决垃圾邮件过滤算法低计算复杂度与高分类准确率之间的矛盾,在多域学习框架下提出一种结构化集成学习思想,它根据文档结构组合多个基分类器的结果以追求更高分类性能.采用邮件文档的字符串特征生成多个轻量基分类器,并采用字符串-频率索引存储标注数据,使得每次更新和查询的时间开销是常数量级.根据邮件文档的多域结构特性,提出历史域分类器效力线性组合权和当前域文档分类能力线性组合权.综合考虑历史域分类器效力和当前域文档分类能力,还提出一种能够提高整体分类准确率的综合线性组合权.在TREC立即全反馈垃圾邮件过滤任务上的实验结果表明:基于综合线性组合权的结构化集成学习方法能够在较短的时间(47.24min)内完成过滤任务,整体性能1-ROCA达到参加TREC2007评测的最优过滤器性能(0.005 5).  相似文献   

12.
支持向量机在垃圾邮件过滤中能达到较高的分类准确率,实际应用中,将正常邮件误判为垃圾邮件会给用户造成更大的损失。该文提出一个基于代价敏感支持向量机的垃圾邮件过滤方案,通过为正类和负类训练样本设置不同的错误惩罚系数对分类器进行训练,在保证较高的垃圾邮件召回率的前提下,尽可能降低正常邮件的误判率(假阳性率)。实验结果表明,该方案能有效地提高过滤器的整体性能,更好地满足垃圾邮件过滤的实际要求。  相似文献   

13.
Online active multi-field learning for efficient email spam filtering   总被引:1,自引:0,他引:1  
Email spam causes a serious waste of time and resources. This paper addresses the email spam filtering problem and proposes an online active multi-field learning approach, which is based on the following ideas: (1) Email spam filtering is an online application, which suggests an online learning idea; (2) Email document has a multi-field text structure, which suggests a multi-field learning idea; and (3) It is costly to obtain a label for a real-world email spam filter, which suggests an active learning idea. The online learner regards the email spam filtering as an incremental supervised binary streaming text classification. The multi-field learner combines multiple results predicted by field classifiers in a novel compound weight schema, and each field classifier calculates the arithmetical average of multiple conditional probabilities calculated from feature strings according to a data structure of string-frequency index. Comparing the current variance of field classifying results with the historical variance, the active learner evaluates the classifying confidence and takes the more uncertain email as the more informative sample for which to request a label. The experimental results show that the proposed approach can achieve the state-of-the-art performance with greatly reduced label requirements and very low space-time costs. The performance of our online active multi-field learning, the standard (1-ROCA)% measurement, even exceeds the full feedback performance of some advanced individual text classification algorithms.  相似文献   

14.
垃圾邮件的处理是电子邮件服务中非常重要的功能,该文在对标准邮件集表示为向量空间模型,降维处理处理工作的基础上,运用神经网络集成的方法来构造邮件分类器,对邮件进行过滤;该方法在垃圾邮件语料库上进行了实验,实验证明该方法对于垃圾邮件的过滤有较好的效果。  相似文献   

15.
基于词共现模型的垃圾邮件过滤方法研究   总被引:3,自引:1,他引:2  
垃圾邮件过滤就是对邮件做出是垃圾或非垃圾的判断。传统的表示邮件的方法是在向量空间模型基础上通过信息增益等特征选择方法提取一部分词来表示邮件内容,存在语义信息不足的问题。该文提出一种将传统方法和词共现模型结合起来表示邮件特征的新方法,再采用交叉覆盖算法对邮件进行分类得到邮件分类器。实验表明,该文提出的邮件过滤算法与传统方法相比提高了过滤性能,词共现选择的维度要比传统方法选择的维度更具有代表性。  相似文献   

16.
王青松  魏如玉 《计算机科学》2016,43(4):256-259, 269
朴素贝叶斯算法在垃圾邮件过滤领域得到了广泛应用,该算法中,特征提取是一个必不可少的环节。过去针对中文的垃圾邮件过滤方法都以词作为文本的特征项单位进行提取,面对大规模的邮件训练样本,这种算法的时间效率会成为邮件过滤技术中的一个瓶颈。对此,提出一种基于短语的贝叶斯中文垃圾邮件过滤方法,在特征项提取阶段结合文本分类领域提出的新的短语分析方法,按照基本名词短语、基本动词短语、基本语义分析规则,以短语为单位进行提取。通过分别以词和短语为单位进行垃圾邮件过滤的对比测试实验证实了所提出方法的有效性。  相似文献   

17.
Email spam filtering is typically treated as a binary classification problem that can be solved by machine learning algorithms. We argue that a three-way decision approach provides a more meaningful way to users for precautionary handling their incoming emails. Three email folders instead of two are produced in a three-way spam filtering system, a suspected folder is added to allow users make further examinations of suspicious emails, thereby reducing the chances of misclassification. Different from existing ternary email spam filtering systems, we focus on two issues that are less studied, that is, the computation of required thresholds to define the three email categories, and the interpretation of the cost-sensitive characteristics of spam filtering. Instead of supplying the thresholds based on intuitive understandings of the levels of tolerance for errors, we systematically calculate the thresholds based on decision-theoretic rough set model. A loss function is interpreted as the costs of making classification decisions. A decision is made for which the overall cost is minimum. Experimental results show that the new approach reduces the error rate of misclassifying a legitimate email to spam and demonstrates a better performance for the cost-sensitivity aspect.  相似文献   

18.
Bo Yu  Zong-ben Xu   《Knowledge》2008,21(4):355-362
The growth of email users has resulted in the dramatic increasing of the spam emails during the past few years. In this paper, four machine learning algorithms, which are Naïve Bayesian (NB), neural network (NN), support vector machine (SVM) and relevance vector machine (RVM), are proposed for spam classification. An empirical evaluation for them on the benchmark spam filtering corpora is presented. The experiments are performed based on different training set size and extracted feature size. Experimental results show that NN classifier is unsuitable for using alone as a spam rejection tool. Generally, the performances of SVM and RVM classifiers are obviously superior to NB classifier. Compared with SVM, RVM is shown to provide the similar classification result with less relevance vectors and much faster testing time. Despite the slower learning procedure, RVM is more suitable than SVM for spam classification in terms of the applications that require low complexity.  相似文献   

19.
基于粗糙集的加权朴素贝叶斯邮件过滤方法   总被引:5,自引:3,他引:2  
邮件过滤中有两个关键问题,一是如何选择有效的邮件特征集,二是设计较好的邮件过滤算法。在对邮件特性进行分析的基础上,综合邮件头及邮件内容的主要形象特征给出了一种新的邮件特征集提取方法。用粗糙集的信息观点度量了各属性的重要性,并以此为权重进行加权朴素贝叶斯垃圾邮件过滤,有效地解决了朴素贝叶斯分类中的条件依赖性问题。通过在中英文邮件集上的测试实验,证明了所提出的邮件过滤方法的有效性。  相似文献   

20.
针对大量垃圾邮件对用户带来困扰的问题,提出了一种增量被动攻击学习算法。该方法基于半年时间的对本校校园网内邮件宿主机上所发起的简单邮件传输协议(SMTP)会话日志的采集,针对会话中记录的投递率状态及多种类型的失败消息进行了宿主机行为分析,最终达到有效地适应被检测垃圾邮件源宿主机对最近邮件分类行为的目的。实验结果表明,在执行了若干回合分类策略的调整后,该检测的准确度可以达到94.7%。该设计可以有效地检测内部垃圾邮件宿主机行为,继而从根源上抑制了垃圾邮件的产生。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号