共查询到20条相似文献,搜索用时 46 毫秒
1.
如何将邮件的头信息和内容信息有效结合起来进行垃圾邮件过滤备受研究人员的关注。基于粗糙集具有很好地处理不确定信息的特点,提出了一种基于粗糙集的两阶段邮件过滤方法,首先根据邮件头信息将其分为正常邮件、垃圾邮件和可疑邮件,再根据邮件内容将可疑邮件分为正常和垃圾邮件。通过在中英文邮件集上的测试实验,证明了所提出的邮件过滤方法不仅能提高垃圾邮件过滤的准确率,而且能大幅降低误杀率。 相似文献
2.
《计算机应用与软件》2015,(10)
如何高效地特征提取和分类算法设计是衡量基于内容邮件过滤技术优缺点的关键。针对互信息MI(Mutual Information)特征提取算法和朴素贝叶斯分类算法,通过引入特征项区分度的概念,分析特征项在分类中区分能力之间的差异,进而提出一种兼顾特征项区分度和互信息的特征提取算法。通过进一步将区分度添加到分类算法设计中,最终提出一种加权朴素贝叶斯算法,高效地解决基于内容邮件过滤问题。实验结果证明,改进后的算法在召回率、精确率和正确率上均有明显提高,且分类性能更加稳定。 相似文献
3.
基于特征加权的朴素贝叶斯分类器 总被引:13,自引:0,他引:13
朴素贝叶斯分类器是一种广泛使用的分类算法,其计算效率和分类效果均十分理想。但是,由于其基础假设“朴素贝叶斯假设”与现实存在一定的差异,因此在某些数据上可能导致较差的分类结果。现在存在多种方法试图通过放松朴素贝叶斯假设来增强贝叶斯分类器的分类效果,但是通常会导致计算代价大幅提高。该文利用特征加权技术来增强朴素贝叶斯分类器。特征加权参数直接从数据导出,可以看作是计算某个类别的后验概率时,某个属性对于该计算的影响程度。数值实验表明,特征加权朴素贝叶斯分类器(FWNB)的效果与其他的一些常用分类算法,例如树扩展朴素贝叶斯(TAN)和朴素贝叶斯树(NBTree)等的分类效果相当,其平均错误率都在17%左右;在计算速度上,FWNB接近于NB,比TAN和NBTree快至少一个数量级。 相似文献
4.
一种基于多贝叶斯算法的垃圾邮件过滤方法 总被引:5,自引:0,他引:5
贝叶斯算法在垃圾邮件过滤中应用广泛。针对算法提高精确率和召回率的矛盾,提出了一种新的基于多贝叶斯算法组合的垃圾邮件过滤方法,并给出了不同方法下中、英文垃圾邮件过滤实验数据对比。实验表明该方法显著提高了垃圾邮件的过滤性能。 相似文献
5.
6.
本文针对当前中文垃圾邮件过滤中存在的问题,提出了一种基于贝叶斯算法的中文垃圾邮件过滤模型。实验结果表明。所设计的邮件过滤算法在召回率和准确率上具有良好的应用效果。 相似文献
7.
8.
《计算机应用与软件》2013,(5)
邮件过滤是当前网络信息安全研究的一个热点。针对传统邮件过滤方法容错能力方面的不足,提出一种基于决策粗糙集模型DTRS(Decision-Theoretic Rough Set)的邮件过滤方法。通过将无法明确判断的邮件用DTRS的边界域进行刻画,实现正常邮件、垃圾邮件和可疑邮件的三枝决策,确保总体决策的完备性。仿真实验结果表明文中方法是有效的,并且在控制邮件误分类上具有优势。 相似文献
9.
针对特征词变异的中文垃圾邮件问题,提出了一种基于变形特征词匹配还原的新贝叶斯邮件过滤算法。改进的模型能自动发现邮件中的变异特征词,并根据对应的变异类型还原算法将其还原,避免了变异特征词的匹配逃脱。算法提高了对于含有拼音替换、同音字替换、符号插入等变形特征词样本的分类准确率。实验表明,改进的过滤算法比普通贝叶斯算法有更好的性能。 相似文献
10.
11.
12.
在传统垃圾短信过滤系统基础上引入了中文分词算法和朴素贝叶斯算法,使其具有了自学习能力,克服了传统垃圾短信系统需要人工设置、无法适应短信内容变化、误判率高的缺点。实践证明该短信过滤系统具有较高的准确率和适应力。 相似文献
13.
朴素Bayes邮件过滤算法由于简单、易于理解,已被人们广泛接受,并应用到一些商用邮件系统当中.但面对目前垃圾邮件问题依然严重的现状,人们逐渐开始认识到采用简单的朴素Bayes邮件过滤算法已不能满足现有邮件过滤的性能要求.Bayes网络一直以来作为知识发现的一个重要分支,是人们研究的热点;邮件过滤问题也可以映射到一个Bayes决策网络模型中.通过构建针对邮件过滤的Bayes决策网络模型,并经过概率学习对关键节点作Bayes参数估计,可以实现邮件的概率分类发现.邮件样本试验结果表明新算法与朴素Bayes邮件过滤算法相比具有更快的收敛速度和更高的稳定性. 相似文献
14.
设计一种基于改进贝叶斯算法的垃圾邮件过滤系统,通过朴素贝叶斯过滤算法以及该算法在反垃圾邮件中的八个处理步骤,分别建立三个哈希表,设置阈值来判别邮件是否为垃圾邮件. 相似文献
15.
基于覆盖算法的垃圾邮件过滤 总被引:2,自引:0,他引:2
电子邮件系统分类的正确性与风险性是评价邮件系统好坏的关键因素,邮件过滤是文本分类问题的一种特殊应用.将神经网络中的覆盖算法引入到邮件过滤中,结合多种特征降维方法进行邮件分类实验,并与SVM方法进行了比较.给出一个结合覆盖算法、合适的特征选择与降维方法的分类器,可以实现较好的效果.另外,根据垃圾邮件过滤在实际使用中的最小风险性的要求,从风险角度分析了覆盖算法对测试样本进行分类时的过程.根据分析结果提出对其拒识样本的处理过程进行改进,通过改变非垃圾邮件所属覆盖的影响范围降低了垃圾邮件过滤时的风险. 相似文献
16.
朴素贝叶斯算法在垃圾邮件过滤领域得到了广泛应用,该算法中,特征提取是一个必不可少的环节。过去针对中文的垃圾邮件过滤方法都以词作为文本的特征项单位进行提取,面对大规模的邮件训练样本,这种算法的时间效率会成为邮件过滤技术中的一个瓶颈。对此,提出一种基于短语的贝叶斯中文垃圾邮件过滤方法,在特征项提取阶段结合文本分类领域提出的新的短语分析方法,按照基本名词短语、基本动词短语、基本语义分析规则,以短语为单位进行提取。通过分别以词和短语为单位进行垃圾邮件过滤的对比测试实验证实了所提出方法的有效性。 相似文献
17.
粗糙集是处理不精确、不确定性问题的基本方法之一。采用粗糙集理论与方法进行数据分析具有不必具备数据集的先验知识、不需人为设定参数等优点,因而它被广泛应用于模式识别与数据挖掘领域。针对粗糙集训练过程中从未遇到过的样本的分类问题进行了探讨,根据条件属性的重要性确定加权系数,采用加权KNN的方法来解决无法与决策规则精确匹配的样本分类问题,并与加权最小距离方法进行了对比实验;同时对其他一些现有的粗糙集值约简算法进行了分析与研究,提出了不同的观点。对UCI多个数据集的大量数据进行了实验,并与近期文献中的多种算法进行了性能对比,实验结果表明,提出的算法的总体效果优于其他算法。 相似文献
18.
19.
20.
分析当前使用最广泛的粗糙贝叶斯算法,指出其在实际应用中的不足,并采用2-gram理论对该算法进行了改进.经过实验证明,改进后的粗糙贝叶斯算法,邮件分类效果明显改善,垃圾邮件误判率、合法邮件误判率和平均误判率都有大幅度下降. 相似文献