首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
传统的贝叶斯垃圾邮件过滤系统虽然具有较高的分类准确性,但是在处理邮件时存在效率低、消耗资源量大的问题。本文针对贝叶斯垃圾邮件过滤算法进行了在Hadoop Map Reduce下的研究,并对判定类别的阈值进行了优化,实验表明,本文提出的算法降低了正常邮件的误判率,提高了垃圾邮件判定的准确率和F值,同时提高了垃圾邮件过滤的效率。  相似文献   

2.
基于内容的垃圾邮件过滤问题是Internet安全技术研究的一个重点问题,而基于贝叶斯的分类方法在垃圾邮件处理上表现了很高的准确度,因此受到了广泛的关注。本文将一种基于模拟退火遗传算法的贝叶斯分类方法引入到中文垃圾邮件过滤中,提高了分类的精确度。实验证明,算法在邮件过滤中有更好的表现。  相似文献   

3.
针对垃圾邮件过滤过程中分类模型难以个性化、难以适应用户兴趣动态变化的问题,提出了一种基于用户行为的邮件分类算法。通过分析朴素贝叶(NB)斯分类算法的原理,改造朴素贝叶斯算法,使其具有动态调整能力。邮件服务器接收到新邮件后自动进行分类判别,用户浏览邮件的过程中对邮件进行操作,根据用户对错分邮件的处理自动将该邮件加入训练数据集,并动态更新相应特征的统计概率,使邮件分类算法能够依据用户对不同邮件的操作行为动态调整分类模型,以达到有效过滤垃圾邮件的目的。与常用的贝叶斯分类算法的实验比较表明在给定小样本集合进行训练的情况下,新算法对于垃圾邮件的识别率比传统的朴素贝叶斯方法、基于风险敏感的朴素贝叶斯方法等提高了10%,获得了较好的分类性能。  相似文献   

4.
本文分析了基于朴素贝叶斯的垃圾邮件过滤技术,发现该算法忽略了把合法邮件错判为垃圾邮件带来的损失。针对该缺陷,提出了基于最小期望损失的贝叶斯过滤算法。在该算法中引入了期望损失因子,分析了期望损失因子与准确率的关系。最后用实际的邮件样本对改进后的算法进行了验证,验证结果表明,选取合适的期望损失因子值,最小期望损失的贝叶斯过滤算法能有效提高邮件过滤的准确率。  相似文献   

5.
基于内容的垃圾邮件过滤问题是Internet安全技术研究的一个重点问题,而基于贝叶斯的分类方法在垃圾邮件处理上表现出了很高的准确度,因此受到了广泛的关注。在朴素贝叶斯算法的基础上,提出了一种基于最小风险贝叶斯方法同Boosting算法相结合的邮件过滤改进算法,提高了分类的精确度。实验证明,算法在邮件过滤中有更好的表现。  相似文献   

6.
在进行文本信息的分类中,通过朴素贝叶斯算法对邮件进行分类是一种简单有效的方法,朴素贝叶斯在分类时假设属性之间条件独立,降低了复杂度。该文结合应用实例,给出了朴素贝叶斯算法在反垃圾邮件中的分类原理,达到了智能动态过滤垃圾邮件的效果。  相似文献   

7.
朴素贝叶斯算法是一种常见的基于内容的垃圾邮件过滤算法,但是,传统朴素贝叶斯过滤存在判断内容的不确定性和邮件表示不完整性等问题。分析邮件信头各域在正常邮件和垃圾邮件中表现出的不同属性,提取非特征信息,结合特征信息和非特征信息改进朴素贝叶斯算法。实验结果表明,改进的朴素贝叶斯分类方法与单纯使用特征信息的方法相比,垃圾邮件的召回率和准确率更高,凸显了该方法涵盖邮件信息、克服内容判断缺陷的优势。  相似文献   

8.
基于MapReduce的贝叶斯垃圾邮件过滤机制   总被引:1,自引:0,他引:1  
陶永才  薛正元  石磊 《计算机应用》2011,31(9):2412-2416
贝叶斯邮件过滤器具有较强的分类能力和较高的准确性,但前期的邮件集训练与学习耗用大量系统资源和网络资源,影响系统效率。提出一种基于MapReduce技术的贝叶斯垃圾邮件过滤机制,一方面对传统贝叶斯过滤技术进行改进,另一方面利用MapReduce模型的海量数据处理优势优化邮件集训练与学习。实验表明,较之目前流行的传统贝叶斯算法、K最近邻(KNN)算法和支持向量机(SVM)算法,基于MapReduce的贝叶斯垃圾邮件过滤机制在召回率、查准率和精确率方面保持了较好的表现,同时降低了邮件学习和分类成本,提高了系统执行效率。  相似文献   

9.
基于Agent的邮件过滤与个性化分类系统设计   总被引:1,自引:1,他引:0  
随着电子邮件的广泛使用,垃圾邮件的危害日益增大,用户的个性化需求也日趋强烈.文中提出了一个基于A-gent的邮件过滤与个性化分类系统,既能过滤垃圾邮件,又可以根据用户的个性化需求对正常邮件进行自动分类.垃圾邮件过滤采用了朴素贝叶斯方法,邮件的个性分类采用了最小风险贝叶斯方法.邮件个性化分类有效地利用了邮件过滤的输出,提高了系统运行的效率.本系统还可以接收用户的反馈并传递给对应的Agent,从而改进分类算法,不断地微调分类系统.  相似文献   

10.
研究了改进的基于SVM-EM算法融合的朴素贝叶斯文本分类算法以及在垃圾邮件过滤中的应用。针对朴素贝叶斯算法无法处理基于特征组合产生的变化结果,以及过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加。为了解决上述问题,提出了一种改进的基于SVM-EM算法的朴素贝叶斯算法,提出的方法充分结合了朴素贝叶斯算法简单高效、EM算法对缺失属性的填补、支持向量机三种算法的优点,首先利用非线性变换和结构风险最小化原则将流量分类转换为二次寻优问题,然后要求EM算法对朴素贝叶斯算法要求条件独立性假设进行填补,最后利用朴素贝叶斯算法过滤邮件,提高分类准确性和稳定性。仿真实验结果表明,与传统的邮件过滤算法相比,该方法能够快速得到最优分类特征子集,大大提高了垃圾邮件过滤的准确率和稳定性。  相似文献   

11.
为了改进已有邮件过滤算法的不足之处,提出一种新的邮件过滤算法。以往的大部分过滤算法采用的都是邮件属性精确匹配算法,并未使用模糊匹配思想,因此邮件的漏检率较高,并且发现未知邮件的效率较低。针对以往邮件过滤算法中漏检率比较高的不足之处,文中提出的邮件过滤算法的改进思路是:首先使用传统的黑白名单过滤技术对已知的邮件进行分类,那些是正常邮件,那些是垃圾邮件。在此基础之上使用相似性算法来计算未知邮件与已知邮件的相似度,从而达到对未知邮件分类目的,最后使用MMTD算法对的邮件相似度的好坏做出衡量,并且以此为邮件过滤提供有效的依据,经过以上的三个步骤之后,最后进行邮件的过滤。  相似文献   

12.
随着互联网的快速发展,垃圾邮件的横行不仅浪费邮件接收人员的时间,也给网络资源的管理和传输带来了无尽的麻烦。分析了垃圾邮件产生的因素和发送的方法,阐述了关联规则挖掘的方法,通过对邮件文本的分类处理,利用关联规则挖掘对垃圾邮件进行识别过滤。  相似文献   

13.
目前的图像垃圾邮件过滤技术,大都采用国际上通用的垃圾图像数据集作为训练集,与中国国内图像垃圾邮件的图像特点不一致,图像数据缺乏实时更新,且分类器单一,过滤效果难以保证。针对该问题,在建立国内垃圾邮件图像数据库的基础上,首先提取图像的颜色、纹理和形状特征,再经K-NN分类算法优选出HSV颜色直方图特征对不同分类器进行训练、测试和性能比较,提出将基于粗糙集的K-NN算法、Naive Bayes算法和SVM算法构成的3种基分类器相结合,并基于串行迭代提升的方法形成集成学习的强分类器。该方法可以实现对国内图像垃圾邮件的有效过滤,使图像垃圾邮件过滤的准确率和召回率同时得到提升,分别为97.3%和96.1%,误判率降低到了2.7%。  相似文献   

14.
通过用于垃圾文本流过滤的在线文本分类研究,提出了一种新的条件概率集成方法。采用语汇序列表示文本,使用索引结构存储分类知识,设计实现了分类模型的在线训练算法和在线分类算法。抽取电子邮件和手机短信的多种文本特征,分别在TREC07P电子邮件语料和真实中文手机短信语料上进行了垃圾信息过滤实验。实验结果表明,提出的方法能够获得很好的垃圾信息过滤效果。  相似文献   

15.
随着垃圾邮件逐渐成为网络用户的一大困扰,垃圾邮件过滤技术的研究显得越来越重要。针对电子邮件存在数据极度稀疏性、高特征维数和多重相关性等特点,本文提出了一种基于偏最小二乘原理的特征抽取方法,可以通过对原始特征进行线性组合抽取出既可反映邮件内容又可反映邮件类型的潜在语义特征,并可解决多重相关性问题。在Enron-Spam邮件数据集上的实验结果表明,同χ2特征选择方法相比,该方法在较低维数上可以获取良好的邮件过滤性能。  相似文献   

16.
研究了基于SVM算法的改进朴素贝叶斯文本分类算法及在垃圾短信过滤中的应用。针对朴素贝叶斯算法条件独立性假设、过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加,提出了改进的基于SVM算法的朴素贝叶斯算法垃圾短信过滤的解决方案,充分结合了朴素贝叶斯算法高效分类和SVM算法增量学习及不依赖样本空间的特点;首先利用结构风险最小化原理和非线性变换将分类问题转化为二次寻优问题,最后利用朴素贝叶斯算法过滤短信,提高分类的准确度和稳定性;仿真实验结果表明,该算法能够快速得到最优分类特征子集,有效提高了垃圾短信过滤的准确率和分类速度。  相似文献   

17.
李新洁  张新有 《微机发展》2011,(10):19-22,27
对反垃圾邮件行为识别技术进行了研究。提出了一种基于会话层的垃圾邮件识别方法,在分析发送过程中的邮件行为特征基础上,提取出能够区分垃圾邮件和正常邮件的行为特征,并采用支持向量机分类算法建立行为特征识别模型,找出垃圾邮件行为规律。该方法在邮件正文发送之前对垃圾邮件进行过滤,能够有效地节省带宽。采用真实的邮件数据集合分别使用行为识别技术与基于内容的过滤技术进行实验,验证该技术具有较好的邮件分类能力。  相似文献   

18.
设计一种基于改进贝叶斯算法的垃圾邮件过滤系统,通过朴素贝叶斯过滤算法以及该算法在反垃圾邮件中的八个处理步骤,分别建立三个哈希表,设置阈值来判别邮件是否为垃圾邮件.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号