共查询到19条相似文献,搜索用时 62 毫秒
1.
2.
介绍了朴素贝叶斯垃圾邮件过滤算法,对于朴素贝叶斯算法中条件概率的计算,选用了多变量贝努里事件模型的计算方法,在多变量贝努里事件模型的基础上进行了改进,并在Ling-Spam语料库上进行实验,实验结果表明改进后的算法有效地提高了过滤器的召回率和精确率,并且降低了过滤器的错误率。 相似文献
3.
设计一种基于改进贝叶斯算法的垃圾邮件过滤系统,通过朴素贝叶斯过滤算法以及该算法在反垃圾邮件中的八个处理步骤,分别建立三个哈希表,设置阈值来判别邮件是否为垃圾邮件. 相似文献
4.
介绍贝叶斯方法的理论依据及近几年的典型贝叶斯分类方法,并给出不同方法下垃圾邮件过滤实验数据对比,总结贝叶斯方法在垃圾邮件处理中的优点和局限性,并提出下一步可能的研究方向. 相似文献
5.
一种基于多贝叶斯算法的垃圾邮件过滤方法 总被引:5,自引:0,他引:5
贝叶斯算法在垃圾邮件过滤中应用广泛。针对算法提高精确率和召回率的矛盾,提出了一种新的基于多贝叶斯算法组合的垃圾邮件过滤方法,并给出了不同方法下中、英文垃圾邮件过滤实验数据对比。实验表明该方法显著提高了垃圾邮件的过滤性能。 相似文献
6.
7.
8.
由于朴素贝叶斯分类模型的简单高效,在垃圾邮件分类时可以达到较好的效果;但朴素贝叶斯的条件独立假设割裂了属性之间的关系,影响了分类的准确性。放松朴素贝叶斯分类模型关于属性之间条件独立假设,介绍一种新的基于不完全朴素贝叶斯分类模型的垃圾邮件分类模型,N平均1 依赖邮件过滤模型。使用N个1 依赖分类模型的平均概率作为分类的预测概率。实验证明,该模型在简单、高效的同时降低了对垃圾邮件分类的错误率。 相似文献
9.
本文基于黑名单、白名单、反向DNS查询和朴素贝叶斯过滤技术,建立一个多技术整合的垃圾邮件过滤系统。该系统通过对各种技术的结合可以弥补单一过滤技术的缺点,发挥每种技术的优势,从而达到有效过滤垃圾邮件的目的。 相似文献
10.
11.
如何将邮件的头信息和内容信息有效结合起来进行垃圾邮件过滤备受研究人员的关注。基于粗糙集具有很好地处理不确定信息的特点,提出了一种基于粗糙集的两阶段邮件过滤方法,首先根据邮件头信息将其分为正常邮件、垃圾邮件和可疑邮件,再根据邮件内容将可疑邮件分为正常和垃圾邮件。通过在中英文邮件集上的测试实验,证明了所提出的邮件过滤方法不仅能提高垃圾邮件过滤的准确率,而且能大幅降低误杀率。 相似文献
12.
针对当前中文垃圾邮件过滤中存在的问题,提出了一种基于改进最小风险贝叶斯算法的多层次垃圾邮件过滤方法,并研究了其中关键应用技术。实验结果表明,所设计的多层次过滤算法不但在召回率和准确率上具有一定优势,还具有较高的过滤速率,实际应用性较强。 相似文献
13.
14.
15.
针对AISEC模型中自体库和基因库生成效率不高的弊端,提出基于词频和MI互信息的自体库和基因库生成算法,同时对自体库和基因库的更新策略进行改进。实验结果表明,应用改进后的算法至少可以将邮件分类时间缩短10%,同时在虚报率方面得到了明显改善。 相似文献
16.
改进ReliefF算法在图像型垃圾邮件检测中的应用研究* 总被引:1,自引:0,他引:1
图像型垃圾邮件的传播给社会和人民生活造成了极大的负面影响。一些垃圾图像过滤技术的应用在一定程度上遏制了它的泛滥,但是在时间消耗和精确度方面很难兼顾。在对垃圾邮件图像的特征数据深入分析后,提出一种基于特征冗余度的ReliefF特征选择算法(R-ReliefF算法)。本算法首先获取图像特征,结合数据特征进行离散化,并对这些离散化后的特征集合进行优化,最后应用在垃圾图像识别上。对比发现,优化后提取的特征子集在识别垃圾邮件图像方面既减少了时间消耗,又提高了垃圾图像识别的精确度。 相似文献
17.
Email spam has become a major problem for Internet users and providers. One major obstacle to its eradication is that the potential solutions need to ensure a very low false‐positive rate, which tends to be difficult in practice. We address the problem of low‐FPR classification in the context of naive Bayes, which represents one of the most popular machine learning models applied in the spam filtering domain. Drawing from the recent extensions, we propose a new term weight aggregation function, which leads to markedly better results than the standard alternatives. We identify short instances as ones with disproportionally poor performance and counter this behavior with a collaborative filtering‐based feature augmentation. Finally, we propose a tree‐based classifier cascade for which decision thresholds of the leaf nodes are jointly optimized for the best overall performance. These improvements, both individually and in aggregate, lead to substantially better detection rate of precision when compared with some of the best variants of naive Bayes proposed to date. Copyright © 2009 John Wiley & Sons, Ltd. 相似文献
18.