首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 111 毫秒
1.
朴素贝叶斯算法是分类算法中最经典、最有影响的算法之一,但仍然存在一些不足之处.针对该算法中下溢问题,对算法基本公式进行了优化改进.针对NB算法中准确率问题,结合类别核心词思想和改进后的TFIDF算法,提出了一种基于类别核心词和改进型TFIDF的朴素贝叶斯CIT-NB算法.将改进后的算法应用于新闻数据集文本分类,实验结果表明,CIT-NB算法的分类性能明显优于原始朴素贝叶斯算法和基于TFIDF的分类算法.  相似文献   

2.
朴素贝叶斯算法是一种常见的基于内容的垃圾邮件过滤算法,但是,传统朴素贝叶斯过滤存在判断内容的不确定性和邮件表示不完整性等问题。分析邮件信头各域在正常邮件和垃圾邮件中表现出的不同属性,提取非特征信息,结合特征信息和非特征信息改进朴素贝叶斯算法。实验结果表明,改进的朴素贝叶斯分类方法与单纯使用特征信息的方法相比,垃圾邮件的召回率和准确率更高,凸显了该方法涵盖邮件信息、克服内容判断缺陷的优势。  相似文献   

3.
针对传统朴素贝叶斯分类模型应用过程中存在的特征项冗余问题,使用遗传禁忌算法对特征项集进行优化,并在此优化结果的基础上,提出了一种改进的朴素贝叶斯分类方法来解决用户模板中存在的单类别词汇问题。经实验证明,该方法比传统的朴素贝叶斯分类模型具有更好的鲁棒性和分类性能。  相似文献   

4.
分类算法一直以来都是数据挖掘领域的研究重点,朴素贝叶斯分类算法是众多优秀分类算法之一,但由于其条件属性必需独立,使得该算法也存在着一定的局限性。为了从另外一种角度来改进该算法,提高分类性能,提出了一种基于K-近邻法的局部加权朴素贝叶斯分类算法。使用K-近邻法对属性加权,找到最合适的加权值,运用加权后的朴素贝叶斯分类算法去分类,实验表明该算法提高了分类的可靠性与准确率。  相似文献   

5.
针对传统贝叶斯分类算法在处理海量数据时存在的运行时间长和分类准确率低等问题,在对传统的贝叶斯分类算法和云计算进行了深入研究后,提出了面向云计算环境的基于MapReduce模型的朴素贝叶斯分类算法。该算法实现了朴素贝叶斯分类算法的并行化,实现了大规模数据在云计算环境下的集群中进行贝叶斯分类处理。实验结果证明,该算法具有较高的分类准确率,在运行时间和加速比方面也有很好的效果。  相似文献   

6.
针对朴素贝叶斯分类算法中缺失数据填补问题,提出一种基于改进EM(Expectation Maximization)算法的朴素贝叶斯分类算法。该算法首先根据灰色相关度对缺失数据一个估计,估计值作为执行EM算法的初始值,迭代执行E步M步后完成缺失数据的填补,然后用朴素贝叶斯分类算法对样本进行分类。实验结果表明,改进算法具有较高的分类准确度。并将改进的算法应用于高校教师岗位等级的评定。  相似文献   

7.
郑芸芸  王萍  游强华 《福建电脑》2013,(11):106-107,124
朴素贝叶斯分类器是建立在条件独立性假设上的,但在实际运用过程中这种假设通常是不存在的。针对这个问题,结合k-均值聚类算法构造出了一个改进的朴素贝叶斯分类器。算法用k-均值算法将其中相关系数较大的属性合并成一个综合属性,使随后进行贝叶斯分类的各个属性间能尽可能达到属性独立,达到朴素贝叶斯分类器的要求。实验证明这种方法改善了朴素贝叶斯分类器并扩大了朴素贝叶斯分类器的应用范围。  相似文献   

8.
研究了基于SVM算法的改进朴素贝叶斯文本分类算法及在垃圾短信过滤中的应用。针对朴素贝叶斯算法条件独立性假设、过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加,提出了改进的基于SVM算法的朴素贝叶斯算法垃圾短信过滤的解决方案,充分结合了朴素贝叶斯算法高效分类和SVM算法增量学习及不依赖样本空间的特点;首先利用结构风险最小化原理和非线性变换将分类问题转化为二次寻优问题,最后利用朴素贝叶斯算法过滤短信,提高分类的准确度和稳定性;仿真实验结果表明,该算法能够快速得到最优分类特征子集,有效提高了垃圾短信过滤的准确率和分类速度。  相似文献   

9.
朴素贝叶斯分类算法简单且高效, 但其基于属性间强独立性的假设限制了其应用范围. 针对这一问题, 提出一种基于属性选择的改进加权朴素贝叶斯分类算法(ASWNBC). 该算法将基于相关的属性选择算法(CFS)和加权朴素贝叶斯分类算法(WNBC)相结合, 首先使用CFS算法获得属性子集使简化后的属性集尽量满足条件独立性, 同时根据不同属性取值对分类结果影响的不同设计新权重作为算法的加权系数, 最后使用ASWNBC算法进行分类. 实验结果表明, 该算法在降低分类消耗时间的同时提高了分类准确率, 有效地提高了朴素贝叶斯分类算法的性能.  相似文献   

10.
基于局部加权朴素贝叶斯算法和处理混合型属性距离度量方法的研究,针对局部加权算法中存在的一些问题,将两种相似性距离度量方法运用于局部加权朴素贝叶斯方法,构造出VDMLWL和IVDMLWL两种算法。通过在WEKA中的实验将这两种算法的分类结果进行分析与比较,发现改进的局部加权朴素贝叶斯的距离函数,能更精确地对不同类型属性数据进行分类,有效提高了局部加权朴素贝叶斯算法分类的效率和可靠性。  相似文献   

11.
一种改进的特征权重算法   总被引:1,自引:0,他引:1       下载免费PDF全文
张瑜  张德贤 《计算机工程》2011,37(5):210-212
特征权重算法对文本分类系统的精确度有很大影响,传统的TFIDF算法未能考虑特征项在类间和类内的分布情况。为此,在对传统算法和相关改进算法进行分析的基础上,引入类间偏斜度、类内离散度和权重调整因子的改进思路,提出一种基于WA-DI-SI的特征权重改进算法,分别采用支持向量机和朴素贝叶斯2种分类算法进行测试。测试结果表明,与其他改进算法相比,该算法能够获得更好的分类效果。  相似文献   

12.
对大量复杂数据的分类是处理大数据必须要解决的问题,SVM算法和朴素贝叶斯分类算法是其中性能优秀的算法。然而它们的缺点使得分类效果受到了影响,而且传统的数据挖掘分类算法也无法满足对于海量数据的处理。针对这些问题,这里对传统的朴素贝叶斯算法进行了分析和改进,提出了SVM_WNB分类算法,并且在Hadoop云平台上对算法实现并行化处理,使其能够对大数据进行处理。最后利用实验验证,改进后的算法在准确性和效率等方面有明显地提升。可以得出结论,在对大数据的分类上可以应用该算法,并且将会起到显著的效果。  相似文献   

13.
描述了平面最接近点对问题,针对这一问题给出了3种算法,循环遍历算法、分治算法和平面扫描算法,并详细分析了3种算法的时间复杂度.  相似文献   

14.
陶建斌  舒宁  沈照庆 《遥感信息》2010,(2):18-24,29
提出了一种新的嵌入高斯混合模型(GMM,Gaussian Mixture Model)遥感影像朴素贝叶斯网络模型GMM-NBC(GMMbased Na ve Bayesian Classifier)。针对连续型朴素贝叶斯网络分类器中假设地物服从单一高斯分布的缺点,该方法将地物在特征空间的分布用高斯混合模型来模拟,用改进EM算法自动获取高斯混合模型的参数;高斯混合模型整体作为一个子节点嵌入朴素贝叶斯网络中,将其输出作为节点(特征)的中间类后验概率,在朴素贝叶斯网络的框架下进行融合获得最终的类后验概率。对多光谱和高光谱数据的分类实验结果表明,该方法较传统贝叶斯分类器分类效果要好,且有较强的鲁棒性。  相似文献   

15.
为提高分布式多媒体服务组合系统中路径的健壮性和可靠性,提出一种基于Markov链和加权朴素贝叶斯分类器(WNBC)的异常预测算法。该算法利用Markov模型预测系统节点的资源状态信息,使用WNBC对预测的节点状态进行分类,以判断节点是否可能发生异常。实验结果表明,该算法能根据节点的状态信息预测系统节点的不同异常状态,性能较同类算法有较大的改善。  相似文献   

16.
随着信息网络技术的飞速发展,如何对规模庞大的网络数据准确高效聚类并合理应用显得尤为重要。虽然模糊C均值聚类算法(FCM)已具有良好的聚类效果,但其对初始化敏感,在处理高维大规模网络数据时易陷入局部极值问题还未被完全克服。为了解决这两个问题,提出一种分布熵和平均位距改进的自适应蝙蝠算法,利用该算法对模糊C均值的参数进行优化。在此之上,将自适应蝙蝠算法优化的模糊聚类应用于异常检测领域,提出了一种自适应蝙蝠算法优化的模糊聚类异常检测算法。理论分析和仿真实验表明,与前沿的粒子群优化FCM异常检测算法和FCM异常检测算法相比,该算法具有更好的聚类效果和检测性能。  相似文献   

17.
K-means是经典的聚类算法,为了适应大规模数据,很多研究利用分布式计算提高其扩展性。但传统基于磁盘的分布式系统仍然存在大量I/O消耗,在基于内存的Spark系统上实现,在继承Spark平台低读写消耗和良好容错性等优点的基础上,扩展了Spark的机器学习MLlib库,在此之上增加一个索引层,引入包含多种策略的基于RDD的双级索引机制,采用新的数据划分方式,对空间距离相近的点的信息进行预处理,利用索引存储其对应的点集的概括信息,以便在K-means算法中对搜索空间剪枝,从而达到对K-means算法的优化。实验结果表明,索引层能够剪枝搜索空间达40%以上,相对无优化的分布式K-means,提升效率达21%,具有较好的可扩展性。  相似文献   

18.
基于觅食-返巢机制连续域蚁群算法   总被引:3,自引:0,他引:3  
蚁群算法求解函数问题,人工蚂蚁的搜索范围和信息素浓度更新速度直接影响到是否能够获得全域最优解。为了获得更加稳定且准确的全域最优解,受自然蚂蚁觅食后返巢行为的启发,提出了具有觅食-返巢机制的蚁群算法。该算法主要通过增大人工蚂蚁的搜索范围以及加快信息素浓度的更新速度进行改进。通过函数测试,结果表明:觅食-返巢连续域蚁群算法相比于以往的遗传算法和连续域蚁群算法,能够得到更好的计算结果和运行时间。因此觅食-返巢机制使得蚁群算法求解全域最优解的能力获得了提高。  相似文献   

19.
朴素贝叶斯分类器增量学习序列算法研究   总被引:6,自引:0,他引:6  
首先介绍了一种朴素贝叶斯增量分类模型,然后提出了一种新的序列学习算法以弥补其学习序列中存在的不足训练实例的先验知识得不到充分利用,测试实例的完备性对分类的影响在学习过程中得不到体现等。该算法引入一个分类损失权重系数λ,用于计算分类损失大小。引入该系数的作用在于充分利用先验知识对分类器进行了优化;通过选择合理的学习序列强化了较完备数据对分类的积极影响,弱化了噪音数据的消极影响,从而提高分类精度;弥补了独立性假设在实际问题中的不足等。  相似文献   

20.
增量学习利用增量数据中的有用信息通过修正分类参数来更新分类模型,而朴素贝叶斯算法具有利用先验信息以及增量信息的特性,因此朴素贝叶斯算法是增量学习算法设计的最佳选择。三支决策是一种符合人类认知模式的决策理论,具有主观的特性。将三支决策思想融入朴素贝叶斯增量学习中,提出一种基于三支决策的朴素贝叶斯增量学习算法。基于朴素贝叶斯算法构造了一个称为分类确信度的概念,结合代价函数,用以确定三支决策理论中的正域、负域和边界域。利用三个域中的有用信息构造基于三支决策的朴素贝叶斯增量学习算法。实验结果显示,在阈值[α]和[β]选择合适的情况下,基于该方法的分类准确性和召回率均有明显的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号