首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
在进行文本信息的分类中,通过朴素贝叶斯算法对邮件进行分类是一种简单有效的方法,朴素贝叶斯在分类时假设属性之间条件独立,降低了复杂度。该文结合应用实例,给出了朴素贝叶斯算法在反垃圾邮件中的分类原理,达到了智能动态过滤垃圾邮件的效果。  相似文献   

2.
针对垃圾邮件过滤过程中分类模型难以个性化、难以适应用户兴趣动态变化的问题,提出了一种基于用户行为的邮件分类算法。通过分析朴素贝叶(NB)斯分类算法的原理,改造朴素贝叶斯算法,使其具有动态调整能力。邮件服务器接收到新邮件后自动进行分类判别,用户浏览邮件的过程中对邮件进行操作,根据用户对错分邮件的处理自动将该邮件加入训练数据集,并动态更新相应特征的统计概率,使邮件分类算法能够依据用户对不同邮件的操作行为动态调整分类模型,以达到有效过滤垃圾邮件的目的。与常用的贝叶斯分类算法的实验比较表明在给定小样本集合进行训练的情况下,新算法对于垃圾邮件的识别率比传统的朴素贝叶斯方法、基于风险敏感的朴素贝叶斯方法等提高了10%,获得了较好的分类性能。  相似文献   

3.
朴素贝叶斯算法是一种常见的基于内容的垃圾邮件过滤算法,但是,传统朴素贝叶斯过滤存在判断内容的不确定性和邮件表示不完整性等问题。分析邮件信头各域在正常邮件和垃圾邮件中表现出的不同属性,提取非特征信息,结合特征信息和非特征信息改进朴素贝叶斯算法。实验结果表明,改进的朴素贝叶斯分类方法与单纯使用特征信息的方法相比,垃圾邮件的召回率和准确率更高,凸显了该方法涵盖邮件信息、克服内容判断缺陷的优势。  相似文献   

4.
研究了改进的基于SVM-EM算法融合的朴素贝叶斯文本分类算法以及在垃圾邮件过滤中的应用。针对朴素贝叶斯算法无法处理基于特征组合产生的变化结果,以及过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加。为了解决上述问题,提出了一种改进的基于SVM-EM算法的朴素贝叶斯算法,提出的方法充分结合了朴素贝叶斯算法简单高效、EM算法对缺失属性的填补、支持向量机三种算法的优点,首先利用非线性变换和结构风险最小化原则将流量分类转换为二次寻优问题,然后要求EM算法对朴素贝叶斯算法要求条件独立性假设进行填补,最后利用朴素贝叶斯算法过滤邮件,提高分类准确性和稳定性。仿真实验结果表明,与传统的邮件过滤算法相比,该方法能够快速得到最优分类特征子集,大大提高了垃圾邮件过滤的准确率和稳定性。  相似文献   

5.
基于内容的垃圾邮件过滤问题是Internet安全技术研究的一个重点问题,而基于贝叶斯的分类方法在垃圾邮件处理上表现出了很高的准确度,因此受到了广泛的关注。在朴素贝叶斯算法的基础上,提出了一种基于最小风险贝叶斯方法同Boosting算法相结合的邮件过滤改进算法,提高了分类的精确度。实验证明,算法在邮件过滤中有更好的表现。  相似文献   

6.
在垃圾邮件分类和朴素贝叶斯算法研究的基础上,提出了基于用户知识的贝叶斯分类算法.通过在分类过程中引入用户知识,克服了电子邮件内容是非结构化、解读依赖于用户的问题.实验证明,面向用户知识的贝叶斯分类算法在商业邮件分类中比普通贝叶斯算法有更好的性能.  相似文献   

7.
本文分析了目前在垃圾邮件过滤中广泛应用的朴素贝叶斯过滤算法及其优缺点,并且根据模式匹配和模糊匹配算法提出改进型的贝叶斯邮件过滤模型。首先在邮件预处理过程中进行特征项的提取——模式匹配,从训练集合中识别出正常邮件和垃圾邮件的模式集合,然后用模式集合识别垃圾邮件,再对提取出的特征项进行模糊匹配并根据匹配结果判断邮件是否为垃圾邮件。实验结果表明:应用改进后的算法有效地提高了垃圾邮件过滤的准确率。  相似文献   

8.
惠孛  吴跃 《计算机应用》2009,29(3):903-904
由于朴素贝叶斯分类模型的简单高效,在垃圾邮件分类时可以达到较好的效果;但朴素贝叶斯的条件独立假设割裂了属性之间的关系,影响了分类的准确性。放松朴素贝叶斯分类模型关于属性之间条件独立假设,介绍一种新的基于不完全朴素贝叶斯分类模型的垃圾邮件分类模型,N平均1 依赖邮件过滤模型。使用N个1 依赖分类模型的平均概率作为分类的预测概率。实验证明,该模型在简单、高效的同时降低了对垃圾邮件分类的错误率。  相似文献   

9.
分类问题,尤其是文本自动分类一直是机器学习与数据挖掘研究中的研究热点与核心技术,其中如朴素贝叶斯、KNN等近年来得到了广泛的关注和快速的发展。文中在统计学理论的基础上给出了一种基于支持向量机方法的文本分类算法,并设计出了相应的垃圾邮件过滤系统。实验证明与朴素贝叶斯方法相比,该算法极大地提高了分类准确率和查全率,具有应用推广的价值。  相似文献   

10.
分类问题,尤其是文本自动分类一直是机器学习与数据挖掘研究中的研究热点与核心技术,其中如朴素贝叶斯、KNN等近年来得到了广泛的关注和快速的发展.文中在统计学理论的基础上给出了一种基于支持向量机方法的文本分类算法,并设计出了相应的垃圾邮件过滤系统.实验证明与朴素贝叶斯方法相比,该算法极大地提高了分类准确率和查全率,具有应用推广的价值.  相似文献   

11.
基于结构特征的nBayes双层过滤模型   总被引:7,自引:0,他引:7  
王斌  许洪波  王申 《计算机应用》2006,26(1):191-0194
由于算法的简单和效果的出色,Nave Bayes被广泛地应用到了垃圾邮件过滤当中。通过理论与实验分析发现,结构差异较大的邮件集特征分布差异也较大,这种特征分布差异影响到了Nave Bayes算法的效果。在此基础上,论文提出了一种基于结构特征的双层过滤模型,对不同结构的邮件使用不同的Nave Bayes分类器分开训练和学习。实验分析表明,Nave Bayes使用该模型之后效果有明显的提高,已经与SVM非常接近。  相似文献   

12.
局部加权朴素贝叶斯(LWNB)是朴素贝叶斯(NB)的一种较好的改进,判别频率估计(DFE)可以极大地提高NB的泛化正确率。受LWNB和DFE启发,提出逐渐缩小空间(GCS)算法用来学习NB参数:对于一个测试实例,寻找包含全体训练实例的全局空间的一系列逐渐缩小的子空间。这些子空间具有两种性质:1)它们都包含测试实例;2)一个空间一定包含在任何一个比它大的空间中。在逐渐缩小的空间上使用修改的DFE(MDFE)算法渐进地学习NB的参数,然后使用NB分类测试实例。与LWNB的根本不同是:GCS使用全体训练实例学习NB并且GCS可以实现为非懒惰版本。实现了GCS的决策树版本(GCS-T),实验结果显示,与C4.5以及贝叶斯分类算法(如Naive Bayes、BaysianNet、NBTree、LWNB、隐朴素贝叶斯)相比,GCS-T具有较高的泛化正确率,并且GCS-T的分类速度明显快于LWNB。  相似文献   

13.
树增强朴素贝叶斯模型通过放松条件属性独立来改进贝叶斯模型,结构学习效率较高且简单。然而在一些实际试验测试中,树增强朴素贝叶斯分类模型的分类精确性和失误率的效果却不好。因此在本文中,设计了平均的树增强朴素贝叶斯分类算法来改进分类的效果,并且利用条件对数似然来测试分类估计的效果,最后利用Weka平台公布的大量的UCI数据集进行试验,结果表明平均树增强朴素贝叶斯分类模型明显优于树增强的朴素贝叶斯分类模型。  相似文献   

14.
一种限定性的双层贝叶斯分类模型   总被引:28,自引:1,他引:28  
朴素贝叶斯分类模型是一种简单而有效的分类方法,但它的属性独立性假设使其无法表达属性变量间存在的依赖关系,影响了它的分类性能.通过分析贝叶斯分类模型的分类原则以及贝叶斯定理的变异形式,提出了一种基于贝叶斯定理的新的分类模型DLBAN(double-level Bayesian network augmented naive Bayes).该模型通过选择关键属性建立属性之间的依赖关系.将该分类方法与朴素贝叶斯分类器和TAN(tree augmented naive Bayes)分类器进行实验比较.实验结果表明,在大多数数据集上,DLBAN分类方法具有较高的分类正确率.  相似文献   

15.
Naive Bayes is one of the most widely used algorithms in classification problems because of its simplicity, effectiveness, and robustness. It is suitable for many learning scenarios, such as image classification, fraud detection, web mining, and text classification. Naive Bayes is a probabilistic approach based on assumptions that features are independent of each other and that their weights are equally important. However, in practice, features may be interrelated. In that case, such assumptions may cause a dramatic decrease in performance. In this study, by following preprocessing steps, a Feature Dependent Naive Bayes (FDNB) classification method is proposed. Features are included for calculation as pairs to create dependence between one another. This method was applied to the software defect prediction problem and experiments were carried out using widely recognized NASA PROMISE data sets. The obtained results show that this new method is more successful than the standard Naive Bayes approach and that it has a competitive performance with other feature-weighting techniques. A further aim of this study is to demonstrate that to be reliable, a learning model must be constructed by using only training data, as otherwise misleading results arise from the use of the entire data set.  相似文献   

16.
分类算法一直以来都是数据挖掘领域的研究重点,朴素贝叶斯分类算法是众多优秀分类算法之一,但由于其条件属性必需独立,使得该算法也存在着一定的局限性。为了从另外一种角度来改进该算法,提高分类性能,提出了一种基于K-近邻法的局部加权朴素贝叶斯分类算法。使用K-近邻法对属性加权,找到最合适的加权值,运用加权后的朴素贝叶斯分类算法去分类,实验表明该算法提高了分类的可靠性与准确率。  相似文献   

17.
多种策略改进朴素贝叶斯分类器   总被引:7,自引:1,他引:7  
张璠 《微机发展》2005,15(4):35-36,39
朴素贝叶斯分类器是一种简单而高效的分类器,但是它的属性独立性假设使其无法表示现实世界属性之间的依赖关系,影响了它的分类性能。通过广泛深入的研究,对改进朴素贝叶斯分类器的多种策略进行了系统的分析和归类整理,为进一步的研究打下坚实的基础。  相似文献   

18.
The Naive Bayes classifier is a popular classification technique for data mining and machine learning. It has been shown to be very effective on a variety of data classification problems. However, the strong assumption that all attributes are conditionally independent given the class is often violated in real-world applications. Numerous methods have been proposed in order to improve the performance of the Naive Bayes classifier by alleviating the attribute independence assumption. However, violation of the independence assumption can increase the expected error. Another alternative is assigning the weights for attributes. In this paper, we propose a novel attribute weighted Naive Bayes classifier by considering weights to the conditional probabilities. An objective function is modeled and taken into account, which is based on the structure of the Naive Bayes classifier and the attribute weights. The optimal weights are determined by a local optimization method using the quasisecant method. In the proposed approach, the Naive Bayes classifier is taken as a starting point. We report the results of numerical experiments on several real-world data sets in binary classification, which show the efficiency of the proposed method.  相似文献   

19.
文本分类是信息检索和文本挖掘的重要基础,朴素贝叶斯是一种简单而高效的分类算法,可以应用于文本分类.但是其属性独立性和属性重要性相等的假设并不符合客观实际,这也影响了它的分类效果.如何克服这种假设,进一步提高其分类效果是朴素贝叶斯文本分类算法的一个难题.根据文本分类的特点,基于文本互信息的相关理论,提出了基于互信息的特征项加权朴素贝叶斯文本分类方法,该方法使用互信息对不同类别中的特征项进行分别赋权,部分消除了假设对分类效果的影响.通过在UCIKDD数据集上的仿真实验,验证了该方法的有效性.  相似文献   

20.
针对传统时间序列分类方法需要较为繁琐的特征抽取工作以及在只有少量标记数据时分类效果不佳的问题,通过分析BP神经网络和朴素贝叶斯分类器的特点,提出一种基于BP和朴素贝叶斯的时间序列分类模型。利用了BP神经网络非线性映射能力和朴素贝叶斯分类器在少量标记数据下的分类能力,将BP神经网络抽取到的特征输入到朴素贝叶斯分类器中,可以较为有效的解决传统时间序列分类算法的问题。实验结果表明,该模型在标记数据较少的情况下的时间序列分类中具有较高的分类准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号