首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 46 毫秒
1.
中文垃圾邮件过滤综合方法   总被引:1,自引:0,他引:1  
随着电子邮件在人们生活中的广泛应用,垃圾邮件的危害也日益引起人们的重视。目前,已经有一些过滤系统在英文环境中取得了较好的过滤效果,但在中文环境中,过滤效果不够理想。针对中文垃圾邮件,提出一种将基于IP的白名单过滤、基于规则的SpamAssassin过滤、基于统计的贝叶斯过滤结合在一起的垃圾邮件综合过滤方法,并在Linux下的实验中取得良好的过滤效果。  相似文献   

2.
自从互联网普及以来,电子邮件逐渐成为人们生活中便捷的通信手段之一。但随之产生的垃圾邮件泛滥成灾,污染网络环境,占用大量传输、存储和运算资源,影响了网络的正常运行。垃圾邮件过滤技术逐渐成为信息网络安全研究领域的热点。本文从内容过滤、接入过滤、行为过滤等三方面对垃圾邮件过滤技术的研究现状进行综述。  相似文献   

3.
介绍现在普遍采用的几种垃圾邮件过滤方法,对基于内容的过滤方法中的贝叶斯算法和Winnow算法进行详细的介绍.目前研究中文垃圾邮件的各类文献都基于不同的语料库,缺乏算法之间的效果比较分析.分别实现贝叶斯和Winnow的改进算法,并对CCERT的一个公开邮件语料库进行测试.测试结果表明,两种算法都达到较好的过滤效果.  相似文献   

4.
实现了基本的Winnow算法、Balanced Winnow算法和带反馈学习功能的Winnow算法,并将其成功地应用于大规模垃圾邮件过滤,分别在SEWM2007和SEWM2008数据集上对上述三个算法进行了对比实验.实验结果表明,Winnow算法及其变体在分类效果和效率上都优于Logiisfic算法.  相似文献   

5.
随时信息技术的不断发展,电子邮件已成为人们普遍的交流工具之一,但随之而来的垃圾邮件却严重影响的这一日常交流方式。为了更好的净化电子邮件的收发环境,反垃圾邮件技术的提高迫在眉睫。目前最为常用的技术之一是基于机器学习的垃圾邮件技术。该技术具有语言无关性,笔者通过对中文垃圾邮件过滤技术进行研究,通过分析中文垃圾邮件的特点,特征提取方法和多种过滤模型,采用4元文法提取方法,在线松弛支持向量机模型(ROSVM)的过滤效果较好。  相似文献   

6.
王青松  魏如玉 《计算机科学》2016,43(4):256-259, 269
朴素贝叶斯算法在垃圾邮件过滤领域得到了广泛应用,该算法中,特征提取是一个必不可少的环节。过去针对中文的垃圾邮件过滤方法都以词作为文本的特征项单位进行提取,面对大规模的邮件训练样本,这种算法的时间效率会成为邮件过滤技术中的一个瓶颈。对此,提出一种基于短语的贝叶斯中文垃圾邮件过滤方法,在特征项提取阶段结合文本分类领域提出的新的短语分析方法,按照基本名词短语、基本动词短语、基本语义分析规则,以短语为单位进行提取。通过分别以词和短语为单位进行垃圾邮件过滤的对比测试实验证实了所提出方法的有效性。  相似文献   

7.
运用贝叶斯方法过滤垃圾邮件   总被引:1,自引:0,他引:1  
本文简单介绍了贝叶斯算法,以及如何运用贝叶斯方法过滤垃圾邮件,并对两种反垃圾邮件的方法:贝叶斯过滤法和关键字检测法进行了比较.  相似文献   

8.
大量垃圾邮件的出现给用户收发电子邮件带来极大困扰。贝叶斯算法由于在垃圾邮件处理上表现出很高的准确度,因此受到了广泛关注。本文介绍了贝叶斯算法的理论依据,分析了贝叶斯算法的优缺点,总结了贝叶斯的相关改进算法,最后对贝叶斯算法进行了总结和展望。  相似文献   

9.
基于协同过滤的垃圾邮件过滤系统   总被引:1,自引:0,他引:1       下载免费PDF全文
许志佴  邹恒明 《计算机工程》2008,34(23):153-154
针对当前垃圾邮件过滤技术中邮件性质评价难及邮件附件判断难的问题,提出协同过滤模型,设计一个多层次垃圾邮件过滤系统。该系统针对垃圾邮件一般群发给多人的特点,提取用户的操作和阅读速度进行反馈,利用他人的反馈结果进行协同过滤。实验和分析结果表明,协同过滤技术有效地提高了垃圾邮件过滤的召回率。  相似文献   

10.
本文在简要介绍PPM数据压缩算法及其改进的基础上,着重论述该算法在垃圾邮件过滤中的应用。首先将样本邮件进行文本预处理,并对正常邮件和垃圾邮件训练集进行训练,分别建立上下文模型;然后输入待过滤邮件,与PPM压缩模型进行比较,分别计算交叉熵以判断邮件类型;最后,测试结果表明,该算法达到较好效果。  相似文献   

11.
结构化集成学习垃圾邮件过滤   总被引:4,自引:0,他引:4  
为了解决垃圾邮件过滤算法低计算复杂度与高分类准确率之间的矛盾,在多域学习框架下提出一种结构化集成学习思想,它根据文档结构组合多个基分类器的结果以追求更高分类性能.采用邮件文档的字符串特征生成多个轻量基分类器,并采用字符串-频率索引存储标注数据,使得每次更新和查询的时间开销是常数量级.根据邮件文档的多域结构特性,提出历史域分类器效力线性组合权和当前域文档分类能力线性组合权.综合考虑历史域分类器效力和当前域文档分类能力,还提出一种能够提高整体分类准确率的综合线性组合权.在TREC立即全反馈垃圾邮件过滤任务上的实验结果表明:基于综合线性组合权的结构化集成学习方法能够在较短的时间(47.24 min)内完成过滤任务,整体性能1-ROCA达到参加TREC2007评测的最优过滤器性能(0.0055).  相似文献   

12.
本文提出了一种个性化垃圾邮件过滤方法,它能够根据用户反馈自动学习出用户兴趣,并随时间的推移自动适应用户兴趣的变化。该方法首先抽取邮件的语言特征和行为特征构建多个基于规则的单独过滤器,然后采用SVM集成学习方法组合这些单独过滤器的结果。为了提高学习速度、减少用户提供反馈的数量,本文采用了主动学习方法挑选更加富含知识的邮件请求用户给出反馈。实验结果表明:集成学习和主动学习相结合的个性化过滤方法在个性化程度、分类准确率、过滤速度以及自动学习能力等方面具有更好的性能。  相似文献   

13.
针对朴素贝叶斯算法在垃圾邮件上的“独立性假设”条件这一不足,可以利用神经模糊技术来修正朴素贝叶斯分类算法。通过摒除模糊系统和神经网络各自的缺点,结合各自的优点组成了神经模糊系统。对贝叶斯分类算法及Naive Bayes算法在垃圾邮件处理上的最新应用进行了介绍,在此基础上,展望了该算法进一步的研究工作。  相似文献   

14.
A distributed spam-filtering system that leverages e-mail networks' topological properties is more efficient and scalable than client-server-based solutions. Large-scale simulations of a prototype system reveal that this approach achieves a near-perfect spam detection rate while minimizing bandwidth cost.  相似文献   

15.
朴素Bayes邮件过滤算法由于简单、易于理解,已被人们广泛接受,并应用到一些商用邮件系统当中.但面对目前垃圾邮件问题依然严重的现状,人们逐渐开始认识到采用简单的朴素Bayes邮件过滤算法已不能满足现有邮件过滤的性能要求.Bayes网络一直以来作为知识发现的一个重要分支,是人们研究的热点;邮件过滤问题也可以映射到一个Bayes决策网络模型中.通过构建针对邮件过滤的Bayes决策网络模型,并经过概率学习对关键节点作Bayes参数估计,可以实现邮件的概率分类发现.邮件样本试验结果表明新算法与朴素Bayes邮件过滤算法相比具有更快的收敛速度和更高的稳定性.  相似文献   

16.
针对垃圾邮件过滤,首先对获取的垃圾邮件及合法邮件进行分词,预处理,构建文本矢量,然后用四种常用的特征词提取方法进行矢量降维,再在此基础上,给出了一种综合性的特征词提取算法,即按照各个评估函数的排序结果,取它们交集的前n个特征词作为候选词进行分类测试,仿真比较了各个算法中n对分类结果的影响,从而验证了该算法的有效性。  相似文献   

17.
微博作为目前国内外最活跃的信息分享平台之一,其中却充斥着大量的垃圾内容。因此,如何从给定话题的微博数据中,过滤掉与话题不相关的垃圾微博、保留话题相关微博,成为迫切需要解决的问题。该文提出了一种半监督的中文微博过滤方法,基于朴素贝叶斯分类模型和最大期望算法,实现了利用少量标注数据的垃圾微博过滤算法,其优势是仅仅利用少量标注数据就可以获得较为理想的过滤性能。分别对十个话题140 000余条新浪微博数据进行过滤,该文提出的模型准确度和F值优于朴素贝叶斯和支持向量机模型。
  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号