首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
基于机器学习的垃圾邮件过滤技术是当前垃圾邮件过滤的主流方法。机器学习模型主要分为两类:以朴素贝叶斯(NB)为代表的生成模型和以逻辑回归模型(LR)、支持向量机模型(SVM)为代表的判别学习模型。以往对两种模型的研究都是针对某一种语言进行,对于模型的语言独立性与相关性研究较少。因此,在中文数据集和英文数据集上比较典型的生产模型和判别学习模型的过滤性能。比较Bogo(Bogo系统是基于贝叶斯算法的,它是典型的生成模型)、逻辑回归模型和松弛在线支持向量机(两种典型的判别学习模型)在中英文数据集上的过滤性能。其中:实验是在公开英文数据集TREC05p-1、TREC06p和公开中文数据集TREC06c、SEWM2011上进行。实验结果显示基于判别模型垃圾邮件过滤器性能明显优于基于生成模型,并且相同的模型在中文数据集上显示了较好的效果。  相似文献   

2.
伴随着电子邮件的广泛使用,垃圾邮件日益泛滥,严重影响了人们正常的工作、学习和生活。如今新型的垃圾邮件变化多端,使得传统的、单一的垃圾邮件过滤方法对新型垃圾邮件已经无能为力。针对这一难题,介绍了当前已经应用于垃圾邮件过滤领域主流的3种垃圾邮件过滤技术。通过详细分析各种技术的优缺点,对黑白名单过滤技术、基于规则的过滤技术和贝叶斯过滤技术进行整合,从而建立了一个分层次的垃圾邮件过滤系统模型,并对该过滤系统进行了性能分析。  相似文献   

3.
为减少垃圾邮件在服务器端的出现,以贝叶斯理论为基础,探讨了可在邮件服务器端实现过滤和自我升级的系统;以合法和非法两类邮件的分析为基础,采用贝叶斯模型生成过滤器,用真实邮件进行仿真操作,验证了模型的可行性。  相似文献   

4.
为了提高电子邮件中垃圾邮件的过滤准确率和效率,以x-依赖的贝叶斯分类模型为基础,提出了一种新的N平均1-依赖邮件过滤模型.该模型利用N个1-依赖贝叶斯分类的平均概率估计值来对邮件的类别进行判别.实验证明,该模型可大幅度提高分类精度,得到更低的分类错误率,分类速度也令人满意.  相似文献   

5.
互联网的发展逐渐改变了人们的生活方式,电子邮件因其方便、快捷的特点已受到人们的青睐。但许多垃圾邮件同时也在网络中蔓延,占据了邮件服务器的大量存储空间,用户往往需要花费大量的时间去删除这些垃圾邮件。因此,研究邮件的自动过滤具有重要意义。邮件的自动过滤主要有基于规则和基于统计两种方式。而目前基于统计的过滤器中,常用的贝叶斯方法等是建立在经验风险最小化的基础之上,过滤器推广性能较差。支持向量机(SVM)是在统计学习理论的基础上发展而来的一种新的模式识别方法,在解决有限样本、非线性及高维模式识别问题中表现出许多特有的优势。它不仅考虑了对推广能力的要求,而且追求在有限信息的条件下得到最优结果。因此,本文将支持向量机应用于邮件过滤,实验证明过滤效果较好。  相似文献   

6.
一种混合的垃圾邮件过滤算法研究   总被引:3,自引:0,他引:3  
贝叶斯邮件过滤器具有较强的分类能力,极高的准确率,在内容过滤领域占据主导地位。人工免疫系统具备强大的自学习、自适应,鲁棒性等能力,已发展成为计算智能研究的一个崭新的分支。该文在分析贝叶斯的原理和人工免疫的仿生机理的基础上,将贝叶斯与人工免疫相结合,设计和实现了一种基于贝叶斯和人工免疫的混合垃圾邮件过滤算法,并利用现有的垃圾邮件语料库得到预期的实验结果。  相似文献   

7.
为了提高电子邮件中垃圾邮件的过滤准确率和效率,以朴素贝叶斯算法和K最近邻(KNN:K-Nearest Neighbors)算法为基础,对传统垃圾邮件过滤算法进行改进,给出邮件的合法属性和非法属性的概念,并提出一种新的分类算法——基于邮件合法属性和非法属性的分类算法(SEASF:Simple and Efficient Algorithm to Spam Filter based on legitimate attribute and nonlicet attribute)。SEASF计算复杂度较低,可适用于大规模场合及邮件的在线过滤。将SEASF算法应用于垃圾邮件过滤的结果表明,该算法可大幅度提高分类精度,分类速度也令人满意。  相似文献   

8.
垃圾邮件不仅浪费大量的网络资源,并且给用户带来很大的不便,如何有效地防范垃圾邮件,已成为网络信息安全领域的主要课题之一。本文通过对传统垃圾邮件过滤技术的分析,提出了一种基于指纹的定量过滤方法。对白名单和黑名单过滤、定时过滤、基于指纹的定量过滤和贝叶斯过滤技术进行了整合,建立了一种客户端垃圾邮件过滤系统的模型,该系统具有较高的过滤准确性,并且能适应用户的个性化需求。  相似文献   

9.
基于贝叶斯算法的垃圾邮件过滤技术   总被引:8,自引:0,他引:8  
对基于朴素贝叶斯算法的垃圾邮件过滤技术进行了研究分析和实验验证.介绍了向量空间模型(VSM)方法以及特征向量抽取方法,推导和研究了引入“特征之间互相独立”假设的朴素贝叶斯分类算法.采用K次交叉验证的方法,以收集的一些邮件为语料,应用朴素贝叶斯分类算法,通过训练集计算得到类别的先验概率和特征项的类条件概率,并以此为基础对测试集中的邮件进行归属判断,以正确率和召回率为指标给出了实验结果.  相似文献   

10.
基于主题划分的P2P垃圾邮件过滤模型   总被引:1,自引:0,他引:1  
提出了一种基于主题划分的P2P垃圾邮件过滤模型,可以根据邮件内容把查询限定在P2P网络的局部范围内,减少了邮件搜索的平均路径长度、距离和平均消息数目,提高了查询效率.  相似文献   

11.
近年来,垃圾邮件制造者为了逃避基于文本的垃圾邮件过滤系统的检测,将垃圾信息嵌入到图像中,并将其附着在邮件正文中进行传播。传统的基于文本的过滤方式无法处理此类包含垃圾信息的邮件图像。为了应对这种同时包含文本和图像的垃圾邮件,本文提出了一种基于多模态特征的融合文本、图像等多媒体信息的过滤方法。首先通过抽取邮件的文本特征和图像特征构建多个分类器,然后采用多分类器融合技术对各分类器的输出结果进行综合。通过对TREC垃圾邮件语料集的测试实验表明,本文提出多模态特征融合的方法获得了比单个分类器更好的效果,准确率达到90%以上。  相似文献   

12.
一个大规模垃圾短信实时过滤系统   总被引:1,自引:0,他引:1  
在分析现有短信监控系统不足的基础上,结合文本分类技术和行为识别技术,设计了一种垃圾短信监控和过滤系统. 系统综合考虑短信发送行为特征、短信文本内容等特点,并采用实时分类和离线分类相结合的方法进行高效短信过滤. 此外,还设计了一组基于反馈的自学习机制,使分类器具备增量式学习能力. 与传统方法相比,本文方法在过滤效率和准确率两方面均获得大幅度提升.  相似文献   

13.
基于粗糙集和朴素贝叶斯的垃圾邮件过滤系统   总被引:1,自引:1,他引:0  
提出了基于粗糙集理论和贝叶斯分类算法的垃圾邮件过滤方法。利用粗糙集约简算法对邮件样本集进行特征约简,删除对邮件过滤结果影响不大的冗余特征,从而降低了输入样本集的维数,解决了贝叶斯分类器训练时间长,样本集占用的存储空间过大的问题。实验证明,该方法可以提高邮件过滤  相似文献   

14.
基于贝叶斯分类的邮件过滤方法及模型研究   总被引:6,自引:1,他引:5  
垃圾邮件日益泛滥,给用户带来了极大的不便和危害.并对网络安全构成威胁.传统邮件过滤方法单一,过滤精度不高,已不能很好地满足需求.结合规则过滤技术,分析了基于文本内容的贝叶斯分类器实现的关键技术与方法,并给出核心过滤算法在邮件分类中的实现具体方法及过程,进而完成垃圾邮件的判别.为减少邮件的误判对用户造成的损害及垃圾邮件漏判造成的影响,提出相应的改进措施,使用最小风险贝叶斯决策减小误判率,对分类系统经训练部分进行自适应调整,最后给出基于规则与内容的双重防范机制的邮件过滤模型及基于该框架的邮件判别流程.  相似文献   

15.
信息粒度原理是一种从多个角度来精确描述对象的物理学方法。本文将信息粒度的原理应用到垃圾邮件的过滤中,提出了一种基于信息粒度原理的垃圾邮件过滤方法。通过对原始样本空间更精细的划分来实现对邮件类别的更准确描述。本文在Ling-Spam语料库上进行了试验,结果表明,新方法具有较高的分类精度和良好的处理速度。  相似文献   

16.
分析了基于内容过滤的反垃圾邮件技术存在的不足,如概念漂移和偏斜类分布会导致召回率降低.在Minoru Sasaki和Hiroyuki Shinnou提出的邮件检测方法的基础上,对特征选择算法做了改进,并增加了自动学习机制,提出了一种基于改进K-均值聚类的垃圾邮件过滤算法.实验表明此方法能较好地适应概念漂移和偏斜类分布现象.  相似文献   

17.
随着对垃圾邮件问题的普遍关注,针对目前邮件过滤方法中存在着的语义缺失现象和处理群发型垃圾邮件低效问题,提出一种基于潜在语义分析(LSA)和信息-摘要算法5(MD5)的垃圾邮件过滤模型。利用潜在语义分析标注垃圾邮件中潜在特征词,从而在过滤技术中引入语义分析;利用MD5在LSA分析基础上,对群发型垃圾邮件生成"邮件指纹",解决过滤技术在处理群发型垃圾邮件中低效的问题。结合该模型设计了一个垃圾邮件过滤系统。采用自选数据集对文中设计的系统进行测试评估,经与Naïve Bayes算法过滤器进行比较,证明该方法在垃圾邮件过滤上优于Naïve Bayes方法,实验结果达到了预期的效果,验证了该方法的可行性、优越性。  相似文献   

18.
为了实现人脸图像特征的自动检测,提出了一种基于线性组合模型的人脸特征检测新方法.该方法通过原型人脸标定获取人脸特征知识,并使用模型匹配来检测目标人脸特征.在建立人脸线性组合模型的过程中,提出了局部约束光流算法,解决了有局部特征信息的人脸图像稠密对应问题.在MPI和ORL人脸数据库上进行的人脸特征检测得到的平均误差分别为96.7%和86%,该结果表明了基于线性组合模型的人脸特征检测方法是有效和实用的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号