首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
基于改进Na(i)ve Bayes的垃圾邮件过滤模型研究   总被引:2,自引:0,他引:2       下载免费PDF全文
分析了目前在垃圾邮件过滤中广泛应用的Na(i)ve Bayes过滤模型(NBF),指出了期望交叉熵(ECE)特征词选取方法的不足.提出了改进的Na(i)ve Bayes垃圾邮件过滤模型(A-NBF),用改进的期望交叉熵(AECE)选取垃圾邮件特征词,并在邮件分类过程中对特征词进行加权,从而提高对垃圾邮件过滤的精度.实验结果可以看出A-NBF比NBF在过滤精度方面有明显的提高.  相似文献   

2.
分析了目前在垃圾邮件过滤中广泛应用的NaveBayes过滤模型(NBF),指出了期望交叉熵(ECE)特征词选取方法的不足。提出了改进的NaveBayes垃圾邮件过滤模型(A-NBF),用改进的期望交叉熵(AECE)选取垃圾邮件特征词,并在邮件分类过程中对特征词进行加权,从而提高对垃圾邮件过滤的精度。实验结果可以看出A-NBF比NBF在过滤精度方面有明显的提高。  相似文献   

3.
基于结构特征的nBayes双层过滤模型   总被引:7,自引:0,他引:7  
王斌  许洪波  王申 《计算机应用》2006,26(1):191-0194
由于算法的简单和效果的出色,Nave Bayes被广泛地应用到了垃圾邮件过滤当中。通过理论与实验分析发现,结构差异较大的邮件集特征分布差异也较大,这种特征分布差异影响到了Nave Bayes算法的效果。在此基础上,论文提出了一种基于结构特征的双层过滤模型,对不同结构的邮件使用不同的Nave Bayes分类器分开训练和学习。实验分析表明,Nave Bayes使用该模型之后效果有明显的提高,已经与SVM非常接近。  相似文献   

4.
翟军昌  秦玉平  车伟伟 《计算机科学》2014,41(6):214-216,224
针对垃圾邮件过滤中的特征项选择问题,提出了一种改进的信息增益方法。首先利用特征词的先验概率定义增益比,然后利用增益比对特征词为整个分类所提供的信息量进行放大或弱化,从而对特征词的类别条件熵计算作了改进,采用极大后验假设朴素贝叶斯决策方法在英文语料库上进行实验,通过召回率、正确率、精确率和错误率对算法进行评价分析。实验结果表明,改进后的算法提高了过滤器的分类精度,降低了过滤器对合法邮件的误判给用户带来的损失。  相似文献   

5.
随着信息的迅猛增长,垃圾邮件问题日益严重。如何有效地过滤垃圾邮件成为研究的热点问题。介绍了目前比较常见的几种垃圾邮件过滤技术,分析了垃圾邮件制造者采用的各种新型手段,如简繁体混编、汉字拆分、词间加入特殊字符等,试图绕过基于内容的关键词检查。针对其中几种典型的新型垃圾邮件编写手段,提出改进的中文分词策略,结合基于内容的关键词检查,提出基于特征词扩展的内容检查过滤机制。实验验证改进后的过滤模型可在一定程度上提高对新型垃圾邮件的识别率。最后,对基于特征词扩展思想在网络内容安全和健康过滤上的应用做了展望。  相似文献   

6.
基于字符语言模型的垃圾邮件过滤   总被引:1,自引:1,他引:1  
基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。该文先简单综述了当前基于内容的垃圾邮件过滤中采用的各种技术,在此基础上提出将基于字符的语言模型应用于垃圾邮件过滤任务中,并通过实验对比了该方法与Nave Bayes、SVM和基于词的语言模型方法的性能差异,以及不同n值、不同特征选择方式对过滤结果的影响。实验结果表明,基于字符的语言模型实现简单且具有很高的性能,能较好地满足大规模在线邮件系统的需要,具有很高的实用价值。  相似文献   

7.
基于中文变形词匹配的贝叶斯邮件过滤模型   总被引:1,自引:1,他引:0  
汪霞  郑宁  徐明  陈默 《计算机应用与软件》2010,27(1):105-107,130
针对特征词变异的中文垃圾邮件问题,提出了一种基于变形特征词匹配还原的新贝叶斯邮件过滤算法。改进的模型能自动发现邮件中的变异特征词,并根据对应的变异类型还原算法将其还原,避免了变异特征词的匹配逃脱。算法提高了对于含有拼音替换、同音字替换、符号插入等变形特征词样本的分类准确率。实验表明,改进的过滤算法比普通贝叶斯算法有更好的性能。  相似文献   

8.
王祖辉  姜维 《计算机工程》2009,35(13):188-189,207
针对中英文混合垃圾邮件过滤问题,提出一种基于支持向量机(SVM)的过滤方法和融合多种分类特征的框架.通过改进SVM中线性核的表示方式,解决存储空间和计算最问题.通过领域术语自动抽取技术,增强垃圾邮件过滤的语义单元识别能力,提高垃圾邮件分类性能.在跨语言大规模语料库上的实验表明,采用SVM比采用Good-Turing算法平滑的朴素贝叶斯模型泛化性能提高了6.13%,分类精度比最大熵模型提高了8.18%.  相似文献   

9.
为了提高垃圾邮件分类精确,提出一种基于关联规则的垃圾邮件分类模型。首先通过改进的FP-grow算法挖掘垃圾邮件关联规则集,以关联规则集为基础构建垃圾邮件分类器模型,然后考虑垃圾邮件特征词权重对邮件进行分类,最后采用仿真实验测试模型的性能。结果表明,该方法提高了垃圾邮件分类精度,可以较好地对垃圾邮件进行分类。  相似文献   

10.
基于人工免疫系统的反垃圾邮件过滤机制   总被引:6,自引:0,他引:6  
胡可  张家树 《计算机应用》2005,25(11):2559-2561
提出了一种基于人工免疫系统(AIS)的垃圾邮件过滤机制。将邮件文本向量空间化并结合免疫识别算法进行过滤。对机制进行了建模与算法描述,对检测器的性能和系统的学习更新进行了向量空间上r 模拟仿真并与Nave Bayes方法进行比较。研究结果说明将人工免疫系统应用于垃圾邮件处理有动态性和自适应强的优点,同时为特定领域的信息分类问题提供了一种参考机制。  相似文献   

11.
As the importance of email increases, the amount of malicious email is also increasing, so the need for malicious email filtering is growing. Since it is more economical to combine commodity hardware consisting of a medium server or PC with a virtual environment to use as a single server resource and filter malicious email using machine learning techniques, we used a Hadoop MapReduce framework and Naïve Bayes among machine learning methods for malicious email filtering. Naïve Bayes was selected because it is one of the top machine learning methods(Support Vector Machine (SVM), Naïve Bayes, K-Nearest Neighbor(KNN), and Decision Tree) in terms of execution time and accuracy. Malicious email was filtered with MapReduce programming using the Naïve Bayes technique, which is a supervised machine learning method, in a Hadoop framework with optimized performance and also with the Python program technique with the Naïve Bayes technique applied in a bare metal server environment with the Hadoop environment not applied. According to the results of a comparison of the accuracy and predictive error rates of the two methods, the Hadoop MapReduce Naïve Bayes method improved the accuracy of spam and ham email identification 1.11 times and the prediction error rate 14.13 times compared to the non-Hadoop Python Naïve Bayes method.  相似文献   

12.
基于属性加权的朴素贝叶斯分类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
朴素贝叶斯分类是一种简单而高效的方法,但是它的属性独立性假设,影响了它的分类性能。通过放松朴素贝叶斯假设可以增强其分类效果,但通常会导致计算代价大幅提高。提出了属性加权朴素贝叶斯算法,该算法通过属性加权来提高朴素贝叶斯分类器性能,加权参数直接从训练数据中学习得到。权值可以看作是计算某个类的后验概率时,某属性取值对该类别的影响程度。实验结果表明,该算法可行而且有效。  相似文献   

13.
增量学习利用增量数据中的有用信息通过修正分类参数来更新分类模型,而朴素贝叶斯算法具有利用先验信息以及增量信息的特性,因此朴素贝叶斯算法是增量学习算法设计的最佳选择。三支决策是一种符合人类认知模式的决策理论,具有主观的特性。将三支决策思想融入朴素贝叶斯增量学习中,提出一种基于三支决策的朴素贝叶斯增量学习算法。基于朴素贝叶斯算法构造了一个称为分类确信度的概念,结合代价函数,用以确定三支决策理论中的正域、负域和边界域。利用三个域中的有用信息构造基于三支决策的朴素贝叶斯增量学习算法。实验结果显示,在阈值[α]和[β]选择合适的情况下,基于该方法的分类准确性和召回率均有明显的提高。  相似文献   

14.
贝叶斯文本分类器的研究与改进   总被引:1,自引:0,他引:1       下载免费PDF全文
朴素贝叶斯文本分类是目前公认的一种简单有效的概率分类方法,但该方法的数据稀疏问题以及所采用的Laplace平滑方法还不是最优,存在一定的缺陷。因此,用一元统计语言模型的平滑方法来改进数据稀疏状况,提高了分类效果。  相似文献   

15.
基于高光谱吸收特征参数的分类研究   总被引:2,自引:1,他引:2  
在Weka平台上,采用决策树C4.5、朴素贝叶斯、朴素贝叶斯树三种算法进行了带缺失属性值的高光谱分类研究。针对高光谱波段数众多、信息冗余量大的特点,首先对光谱曲线进行光谱特征参数提取,然后再选择合适的吸收峰波段作为输入向量来进行分类。实验表明,由NBTree建立的铀黑-沥青铀矿分类模型的分类误差最小,分类精度最高,其次是Na?觙veBayes和J4.8,但从训练时间来看,NBTree则高于NB和J4.8。最后,对三种分类算法的分类结果进行了分析。  相似文献   

16.
改进的朴素贝叶斯垃圾邮件过滤算法   总被引:1,自引:1,他引:0       下载免费PDF全文
介绍了朴素贝叶斯垃圾邮件过滤算法,对于朴素贝叶斯算法中条件概率的计算,选用了多变量贝努里事件模型的计算方法,在多变量贝努里事件模型的基础上进行了改进,并在Ling-Spam语料库上进行实验,实验结果表明改进后的算法有效地提高了过滤器的召回率和精确率,并且降低了过滤器的错误率。  相似文献   

17.
Numerous models have been proposed to reduce the classification error of Na¨ ve Bayes by weakening its attribute independence assumption and some have demonstrated remarkable error performance. Considering that ensemble learning is an effective method of reducing the classification error of the classifier, this paper proposes a double-layer Bayesian classifier ensembles (DLBCE) algorithm based on frequent itemsets. DLBCE constructs a double-layer Bayesian classifier (DLBC) for each frequent itemset the new instance contained and finally ensembles all the classifiers by assigning different weight to different classifier according to the conditional mutual information. The experimental results show that the proposed algorithm outperforms other outstanding algorithms.  相似文献   

18.
提出了一个基于35维特征向量的恶意程序检测方法。特征向量的每一维用于表示一种恶意行为事件,每一事件由相应的Win32 API调用及其参数表示。实现了一个自动化行为追踪系统(Argus)用于行为特征的提取。实验数据集从8223个恶意可执行程序和2821个正常可执行程序中获取,并依据程序发生事件数的不同设立事件阈值,建立不同的训练集,分别用于训练贝叶斯分类器。实验表明,当事件阈值为3时,分类器达到最佳检测效果。  相似文献   

19.
This paper presents a review of the ensemble learning models proposed for web services classification, selection, and composition. Web service is an evolutionary research area, and ensemble learning has become a hot spot to assess web services’ earlier mentioned aspects. The proposed research aims to review the state of art approaches performed on the interesting web services area. The literature on the research topic is examined using the preferred reporting items for systematic reviews and meta-analyses (PRISMA) as a research method. The study reveals an increasing trend of using ensemble learning in the chosen papers within the last ten years. Naïve Bayes (NB), Support Vector Machine’ (SVM), and other classifiers were identified as widely explored in selected studies. Core analysis of web services classification suggests that web services’ performance aspects can be investigated in future works. This paper also identified performance measuring metrics, including accuracy, precision, recall, and f-measure, widely used in the literature.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号