首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
基于贝叶斯算法的垃圾邮件过滤技术   总被引:8,自引:0,他引:8  
对基于朴素贝叶斯算法的垃圾邮件过滤技术进行了研究分析和实验验证.介绍了向量空间模型(VSM)方法以及特征向量抽取方法,推导和研究了引入“特征之间互相独立”假设的朴素贝叶斯分类算法.采用K次交叉验证的方法,以收集的一些邮件为语料,应用朴素贝叶斯分类算法,通过训练集计算得到类别的先验概率和特征项的类条件概率,并以此为基础对测试集中的邮件进行归属判断,以正确率和召回率为指标给出了实验结果.  相似文献   

2.
基于朴素贝叶斯算法的垃圾邮件过滤器是目前比较高效、经济的垃圾邮件过滤技术之一,它已经广泛应用到垃圾邮件过滤领域。文章在对朴素贝叶斯过滤器分析的基础上,针对朴素贝叶斯算法的缺陷结合损失最小化的思想,并根据垃圾邮件的特性对朴素贝叶斯算法做了改进,提出了改进朴素贝叶斯算法,该算法能够通过调整k值,降低合法邮件被错判为垃圾邮件的概率,从而最大程度减少用户的损失。  相似文献   

3.
针对垃圾邮件的特性,提出了一种基于朴素贝叶斯算法的过滤模型,并进行了过滤器的设计与实现,经仿真实验证明该中文邮件过滤系统切实可行,效果良好.  相似文献   

4.
为减少垃圾邮件在服务器端的出现,以贝叶斯理论为基础,探讨了可在邮件服务器端实现过滤和自我升级的系统;以合法和非法两类邮件的分析为基础,采用贝叶斯模型生成过滤器,用真实邮件进行仿真操作,验证了模型的可行性。  相似文献   

5.
基于粗糙集和朴素贝叶斯的垃圾邮件过滤系统   总被引:1,自引:1,他引:0  
提出了基于粗糙集理论和贝叶斯分类算法的垃圾邮件过滤方法。利用粗糙集约简算法对邮件样本集进行特征约简,删除对邮件过滤结果影响不大的冗余特征,从而降低了输入样本集的维数,解决了贝叶斯分类器训练时间长,样本集占用的存储空间过大的问题。实验证明,该方法可以提高邮件过滤  相似文献   

6.
为了提高电子邮件中垃圾邮件的过滤准确率和效率,以x-依赖的贝叶斯分类模型为基础,提出了一种新的N平均1-依赖邮件过滤模型.该模型利用N个1-依赖贝叶斯分类的平均概率估计值来对邮件的类别进行判别.实验证明,该模型可大幅度提高分类精度,得到更低的分类错误率,分类速度也令人满意.  相似文献   

7.
一种混合的垃圾邮件过滤算法研究   总被引:3,自引:0,他引:3  
贝叶斯邮件过滤器具有较强的分类能力,极高的准确率,在内容过滤领域占据主导地位。人工免疫系统具备强大的自学习、自适应,鲁棒性等能力,已发展成为计算智能研究的一个崭新的分支。该文在分析贝叶斯的原理和人工免疫的仿生机理的基础上,将贝叶斯与人工免疫相结合,设计和实现了一种基于贝叶斯和人工免疫的混合垃圾邮件过滤算法,并利用现有的垃圾邮件语料库得到预期的实验结果。  相似文献   

8.
为了提高电子邮件中垃圾邮件的过滤准确率和效率,以朴素贝叶斯算法和K最近邻(KNN:K-Nearest Neighbors)算法为基础,对传统垃圾邮件过滤算法进行改进,给出邮件的合法属性和非法属性的概念,并提出一种新的分类算法——基于邮件合法属性和非法属性的分类算法(SEASF:Simple and Efficient Algorithm to Spam Filter based on legitimate attribute and nonlicet attribute)。SEASF计算复杂度较低,可适用于大规模场合及邮件的在线过滤。将SEASF算法应用于垃圾邮件过滤的结果表明,该算法可大幅度提高分类精度,分类速度也令人满意。  相似文献   

9.
电子邮件的普及给人们的生活带来极大的方便,但目前垃圾邮件的泛滥严重影响了用户的正常使用。贝叶斯算法因简单在英文邮件过滤中取得了良好的过滤效果,分析了贝叶斯算法的原理及其在垃圾邮件过滤中的应用,给出垃圾邮件过滤的整个过滤流程,设计并实现了一种语言无关的垃圾邮件过滤系统。  相似文献   

10.
基于机器学习的垃圾邮件过滤技术是当前垃圾邮件过滤的主流方法。机器学习模型主要分为两类:以朴素贝叶斯(NB)为代表的生成模型和以逻辑回归模型(LR)、支持向量机模型(SVM)为代表的判别学习模型。以往对两种模型的研究都是针对某一种语言进行,对于模型的语言独立性与相关性研究较少。因此,在中文数据集和英文数据集上比较典型的生产模型和判别学习模型的过滤性能。比较Bogo(Bogo系统是基于贝叶斯算法的,它是典型的生成模型)、逻辑回归模型和松弛在线支持向量机(两种典型的判别学习模型)在中英文数据集上的过滤性能。其中:实验是在公开英文数据集TREC05p-1、TREC06p和公开中文数据集TREC06c、SEWM2011上进行。实验结果显示基于判别模型垃圾邮件过滤器性能明显优于基于生成模型,并且相同的模型在中文数据集上显示了较好的效果。  相似文献   

11.
基于贝叶斯分类的邮件过滤方法及模型研究   总被引:6,自引:1,他引:5  
垃圾邮件日益泛滥,给用户带来了极大的不便和危害.并对网络安全构成威胁.传统邮件过滤方法单一,过滤精度不高,已不能很好地满足需求.结合规则过滤技术,分析了基于文本内容的贝叶斯分类器实现的关键技术与方法,并给出核心过滤算法在邮件分类中的实现具体方法及过程,进而完成垃圾邮件的判别.为减少邮件的误判对用户造成的损害及垃圾邮件漏判造成的影响,提出相应的改进措施,使用最小风险贝叶斯决策减小误判率,对分类系统经训练部分进行自适应调整,最后给出基于规则与内容的双重防范机制的邮件过滤模型及基于该框架的邮件判别流程.  相似文献   

12.
针对非线性动态系统估计问题,引入了一种不完全观测数据的统计模型——HMM模型。其双层随机结构较好地满足了实际估计的要求.在具体滤波过程中,将处理非线性问题常用的贝叶斯方法和HMM模型进行结合,通过预测和更新操作实现系统状态后验的连续递推估计,提高了运算速度.  相似文献   

13.
提出一种包含核函数的Bayesian参数估计方法,提高了Bayesian参数估计的实用性。结合邮件内容和报文格式两个方面分析和提取邮件的重要特征,建立了对应的Bayesian邮件分类网络。将包含核函数的Bayesian参数估计方法应用到邮件分类网络,在对不同邮件测试集的在线学习试验结果证明,这种新的分类模型能够有效地实现垃圾邮件的分类过滤。  相似文献   

14.
在先验信息下,确定动物总数和捕捉概率分别服从离散均匀分布和Beta分布,对捕捉与再捕捉试验推导了封闭总体中个体总数N的Bayes点估计与区间估计;另外,对多次重复的捕捉与再捕捉试验推导了个体总数Ⅳ的Bayes综合估计,最后对一个实例进行了分析。  相似文献   

15.
设计并实现中文垃圾短信过滤器,能够较好识别不断变化的垃圾短信。以逻辑回归模型为基础,提出字节级n元文法提取短信特征,并采用TONE(Train On or Near Error)方法训练过滤器。通过实验测试,证明应用该方法实现的垃圾短信过滤效果很好。  相似文献   

16.
对给定的寿命试验数据X,利用似然比检验法可对该数据是来自截尾指数分布还是截尾正态分布进行判别,但却很难求出似然统计量的分布形式.基于Bayes公式,在错判损失不同和最小后验风险准则下,给出有助于判别的Bayes方法.  相似文献   

17.
Web spam是指采用某些技术手段,使得网页在搜索引擎检索结果中的排名高于其应得排名的行为,它严重影响搜索结果的质量。考虑到Web spam数据集的严重不平衡情况,本研究提出先使用SMOTE过抽样方法平衡数据集,再利用随机森林算法训练分类器。通过对常见的单分类器和集成学习分类器的对比实验,发现SMOTE+RF方法表现较为突出,并根据实验结果优化了方法中的重要参数,对使用SMOTE方法后AUC值提高的原因进行了分析。在WEBSPAM UK2007数据集上的实验证明,该方法可以显著提高分类器的分类效果,其AUC值已经超过了Web Spam Challenge 2008上的最好成绩。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号