首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 108 毫秒
1.
基于多Bayes网的垃圾邮件智能过滤研究   总被引:2,自引:0,他引:2  
在分析朴素Bayes方法用于垃圾邮件自动过滤中存在的一些问题基础上,提出了一种新的基于多Bayes网的垃圾邮件自动过滤方法。该方法利用多个Bayes网构成的多个分类器同时对邮件进行分类,当前邮件被认定是垃圾邮件当且仅当全部分类器都判断它为垃圾邮件。这种多个分类器同时工作及分类临界值的使用在一定程度上减少了将有用邮件误判为垃圾邮件的可能性。该方法还引入动态学习机制,在邮件分类过程中能够补充训练样本,满足不同用户的邮件分类标准。  相似文献   

2.
目前实际应用的垃圾邮件过滤技术效果不太理想,尤其是对垃圾邮件的误判率和漏判率问题较为突出.其中,基于概率统计的简单贝叶斯分类算法相对而言效果较好.为提高垃圾邮件过滤系统的分类准确率和效率,利用网格技术资源高度共享的优势,并对Bayes分类算法的应用模式进行改进,提出了一种基于网格的垃圾邮件过滤系统方案.  相似文献   

3.
惠孛  吴跃  陈佳 《计算机科学》2006,33(5):110-112
使用朴素的贝叶斯(NB)分类模型对邮件进行分类,是目前基于内容的垃圾邮件过滤方法的研究热点。朴素的贝叶斯在参数之间联系不强的时候分类效果简单而有效。但是朴素的贝叶斯分类模型中对特征参数的条件独立假设无法表达参数之间在语义上的关系,影响分类性能。在朴素的贝叶斯分类模型的基础上,我们提出了一种双级贝叶斯分类模型(DLB,Double Level Bayes),既考虑到了参数之间的影响又保留了朴素的贝叶斯分类模型的优点。同时时DLB模型与朴素的贝叶斯分类模型的性能进行比较。仿真实验表明,DLB分类模型在垃圾邮件过滤应用中的效果在大部分条件下优于朴素的贝叶斯分类模型。  相似文献   

4.
基于改进Na(i)ve Bayes的垃圾邮件过滤模型研究   总被引:2,自引:0,他引:2  
分析了目前在垃圾邮件过滤中广泛应用的Na(i)ve Bayes过滤模型(NBF),指出了期望交叉熵(ECE)特征词选取方法的不足.提出了改进的Na(i)ve Bayes垃圾邮件过滤模型(A-NBF),用改进的期望交叉熵(AECE)选取垃圾邮件特征词,并在邮件分类过程中对特征词进行加权,从而提高对垃圾邮件过滤的精度.实验结果可以看出A-NBF比NBF在过滤精度方面有明显的提高.  相似文献   

5.
基于内容的垃圾邮件过滤技术综述   总被引:67,自引:3,他引:67  
垃圾邮件问题日益严重,受到研究人员的广泛关注。基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。目前基于内容的垃圾邮件过滤主要包括基于规则的方法和基于概率统计的方法。本文综述了目前用于垃圾邮件过滤研究的各种语料和评价方法,并总结了目前使用的垃圾邮件过滤技术以及它们之间的对比实验,包括Ripper、决策树、Rough Set 、Rocchio 、Boosting、Bayes、kNN、SVM、Winnow 等等。实验结果表明,Boosting、Flexible Bayes、SVM、Winnow 方法是目前较好的垃圾邮件过滤方法,它们在评测语料上的结果已经达到很高水平,但是,要走向真正实用化,还有很多的工作要做。  相似文献   

6.
垃圾邮件过滤的贝叶斯方法综述   总被引:14,自引:2,他引:12  
目前,基于内容的垃圾邮件过滤问题是Internet安全技术研究的一个重点问题,将机器学习的相关方法应用于垃圾邮件的搜索和判定是进行大量垃圾邮件处理的有效方法。由于贝叶斯分类方法在垃圾邮件处理上表现出了很高的准确度,因此基于贝叶斯分类的垃圾邮件分类方法受到了广泛的关注。主要介绍了贝叶斯方法的理论依据和实现方法,总结了近几年的贝叶斯分类方法的研究情况和贝叶斯方法在垃圾邮件处理中应用的优点和局限性,并提出了下一步可能的研究方向。  相似文献   

7.
目前的图像垃圾邮件过滤技术,大都采用国际上通用的垃圾图像数据集作为训练集,与中国国内图像垃圾邮件的图像特点不一致,图像数据缺乏实时更新,且分类器单一,过滤效果难以保证。针对该问题,在建立国内垃圾邮件图像数据库的基础上,首先提取图像的颜色、纹理和形状特征,再经K-NN分类算法优选出HSV颜色直方图特征对不同分类器进行训练、测试和性能比较,提出将基于粗糙集的K-NN算法、Naive Bayes算法和SVM算法构成的3种基分类器相结合,并基于串行迭代提升的方法形成集成学习的强分类器。该方法可以实现对国内图像垃圾邮件的有效过滤,使图像垃圾邮件过滤的准确率和召回率同时得到提升,分别为97.3%和96.1%,误判率降低到了2.7%。  相似文献   

8.
针对朴素贝叶斯算法在垃圾邮件上的“独立性假设”条件这一不足,可以利用神经模糊技术来修正朴素贝叶斯分类算法。通过摒除模糊系统和神经网络各自的缺点,结合各自的优点组成了神经模糊系统。对贝叶斯分类算法及Naive Bayes算法在垃圾邮件处理上的最新应用进行了介绍,在此基础上,展望了该算法进一步的研究工作。  相似文献   

9.
基于改进Naïve Bayes的垃圾邮件过滤模型研究   总被引:1,自引:0,他引:1  
分析了目前在垃圾邮件过滤中广泛应用的Naïve Bayes过滤模型(NBF),指出了期望交叉熵(ECE)特征词选取方法的不足。提出了改进的Naïve Bayes垃圾邮件过滤模型(A-NBF),用改进的期望交叉熵(AECE)选取垃圾邮件特征词,并在邮件分类过程中对特征词进行加权,从而提高对垃圾邮件过滤的精度。实验结果可以看出A-NBF比NBF在过滤精度方面有明显的提高。  相似文献   

10.
Bayes文本分类器的改进方法研究   总被引:4,自引:2,他引:4  
鲁明羽 《计算机工程》2006,32(17):63-65
在文本分类领域,Bayes分类器是一种常用且效果较好的、基于概率的分类器,具有较严密的理论基础。该文对朴素Bayes文本分类器进行了分析,提出了利用权值调整机制改善其分类性能的方法,以及在缺乏大量训练文本的情况下,利用EM算法进行非监督Bayes分类的方法,并讨论了如何运用启发式方法确定Bayes网络结构,在更贴近真实环境的情况下进行文本分类。  相似文献   

11.
基于改进贝叶斯模型的中文邮件分类算法   总被引:4,自引:0,他引:4  
通过分析常见的贝叶斯分类方法和实现模型,提出了一种适用于中文邮件的分类算法——基于混合模型的最小风险贝叶斯方法。混合模型将二项独立模型和多项式模型相结合,提高邮件分类的查全率,同时,在此基础上应用最小风险贝叶斯方法,进一步提高准确率。实验表明,应用改进的方法可以得到更准确的邮件分类效果。  相似文献   

12.
研究了改进的基于SVM-EM算法融合的朴素贝叶斯文本分类算法以及在垃圾邮件过滤中的应用。针对朴素贝叶斯算法无法处理基于特征组合产生的变化结果,以及过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加。为了解决上述问题,提出了一种改进的基于SVM-EM算法的朴素贝叶斯算法,提出的方法充分结合了朴素贝叶斯算法简单高效、EM算法对缺失属性的填补、支持向量机三种算法的优点,首先利用非线性变换和结构风险最小化原则将流量分类转换为二次寻优问题,然后要求EM算法对朴素贝叶斯算法要求条件独立性假设进行填补,最后利用朴素贝叶斯算法过滤邮件,提高分类准确性和稳定性。仿真实验结果表明,与传统的邮件过滤算法相比,该方法能够快速得到最优分类特征子集,大大提高了垃圾邮件过滤的准确率和稳定性。  相似文献   

13.
文本分类是Internet文本信息处理的基础,该文通过对传统文本分类方法的研究,如支持向量机理论、多组判别分析、贝叶斯方法和中心向量法等分类方法,观察到分类器对于不同类别的文本其区分程度有所不同,因此提出了一种基于综合评价方法的多分类器决策机制。在参数训练过程中,引入了最优化理论中的直接搜索方法,形成一个容纳多个分类器的容器,它是各个分类器的最优化的组合,旨在获得最佳的分类精度。通过实验验证,得到了比较理想的分类效果。  相似文献   

14.
王丽侠 《微机发展》2005,15(9):42-44,47
研究了邮件过滤的主要方法,提出了将Agent技术、粗糙集和最小风险的Bayes分类方法结合的邮件过滤及个性化分类模型。该模型首先利用粗糙集方法对邮件样本向量空间进行约简,然后利用已知样本对最小风险的Bayes分类器进行训练,得到具有智能分类功能的邮件分类器,利用该分类器过滤掉用户不感兴趣的邮件,并利用Agent学习用户的个性化知识,最后利用学习的知识将用户感兴趣邮件进行再分类。  相似文献   

15.
龚伟 《微计算机信息》2007,23(3):104-106
文章首先分析了垃圾邮件的产生机理,介绍了目前比较常见的几种垃圾邮件过滤技术,然后从朴素贝叶斯的理论依据出发,针对当前应用于重要商业领域的垃圾邮件过滤系统的不足,设计了一种应用多级邮件策略的新模型,并通过实验比较证明新模型的应用在一定程度上提高了垃圾邮件过滤系统的查全率和查准率。  相似文献   

16.
基于条件信息熵的自主式朴素贝叶斯分类算法   总被引:9,自引:0,他引:9  
朴素贝叶斯是一种简单而高效的分类算法,但其条件独立性和属性重要性相等的假设并不符合客观实际,这在某种程度上影响了它的分类性能。如何去除这种先验假设,根据数据本身的特点实现知识自主学习是机器学习中的一个难题。根据Rough Set的相关理论,提出了基于条件信息熵的自主式朴素贝叶斯分类方法,该方法结合了选择朴素贝叶斯和加权朴素贝叶斯的优点。通过在UCI数据集上的仿真实验,验证了该方法的有效性。  相似文献   

17.
针对隐写分析中检测隐秘信息存在的问题,综合现有的检测算法,利用贝叶斯的独立二值分类模型,提出一种隐写分析算法。对其进行分类效果分析和参数控制,并将其应用到图像空域最低有效位隐写的检测中,结果表明,该方法较大程度地降低了虚警率和漏报率,并可以通过调整参数改善分类效果。  相似文献   

18.
朴素贝叶斯分类中的隐私保护方法研究   总被引:3,自引:0,他引:3  
张鹏  唐世渭 《计算机学报》2007,30(8):1267-1276
数据挖掘中的隐私保护方法,试图在不精确访问原始数据详细信息的条件下,挖掘出准确的模式与规则.围绕着分类挖掘中的隐私保护问题展开研究,给出了一种基于数据处理和特征重构的朴素贝叶斯分类中的隐私保护方法.分别提出了一种针对枚举类型的隐私数据处理与特征重构方法--扩展的部分隐藏随机化回答(Extended Randomized Response with Partial Hiding,ERRPH)方法和一种针对数值类型的隐私数据处理与特征重构方法--转换的随机化回答(Transforming Randomized Response,TRR)方法,并在此基础上实现了一个完整的隐私保护的朴素贝叶斯分类算法.理论分析和实验结果均表明:朴素贝叶斯分类中基于ERRPH和TRR的隐私保护方法具有很好的隐私性、准确性、高效性和适用性.  相似文献   

19.
Due to being fast, easy to implement and relatively effective, some state-of-the-art naive Bayes text classifiers with the strong assumption of conditional independence among attributes, such as multinomial naive Bayes, complement naive Bayes and the one-versus-all-but-one model, have received a great deal of attention from researchers in the domain of text classification. In this article, we revisit these naive Bayes text classifiers and empirically compare their classification performance on a large number of widely used text classification benchmark datasets. Then, we propose a locally weighted learning approach to these naive Bayes text classifiers. We call our new approach locally weighted naive Bayes text classifiers (LWNBTC). LWNBTC weakens the attribute conditional independence assumption made by these naive Bayes text classifiers by applying the locally weighted learning approach. The experimental results show that our locally weighted versions significantly outperform these state-of-the-art naive Bayes text classifiers in terms of classification accuracy.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号