首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
一种朴素贝叶斯分类增量学习算法   总被引:1,自引:0,他引:1  
朴素贝叶斯(Nave Bayes,NB)分类方法是一种简单而有效的概率分类方法,但是贝叶斯算法存在训练集数据不完备这个缺陷。传统的贝叶斯分类方法在有新的训练样本加入时,需要重新学习已经学习过的样本,耗费大量时间。为此引入增量学习算法,算法在已有的分类器的基础上,自主选择学习新的文本来修正分类器。本文给出词频加权朴素贝叶斯分类增量学习算法思想及其具体算法,并对算法给予证明。通过算法分析可知,相比无增量学习的贝叶斯分类,本算法额外的空间复杂度与时间复杂度都在可接受范围。  相似文献   

2.
一种新型朴素贝叶斯文本分类算法   总被引:1,自引:0,他引:1  
针对在文本分类中先验概率的计算比较费时而且对分类效果影响不大、后验概率的精度损失影响分类准确率的现象,对经典朴素贝叶斯分类算法进行了改进,提出了一种“先抑后扬”(抑制先验概率的作用,扩大后验概率的影响)的文本分类算法。算法中去掉了对先验概率的计算,并在后验概率的计算中引入了一个放大系数。实验结果表明,分类时不计算先验概率对分类精度影响甚微但可以明显加快分类的速度,在后验概率的计算中引入放大系数减少了误差传播的影响,提高了分类精度。  相似文献   

3.
一种增量贝叶斯分类模型   总被引:40,自引:0,他引:40  
分类一直是机器学习,模型识别和数据挖掘研究的核心问题,从海量数据中学习分类知识,尤其是当获得大量的带有类别标注的样本代价较高时,增量学习是解决该问题的有效途径,该文将简单贝叶期方法应用于增量分类中,提出了一种增量贝叶斯学习模型,给出了增量贝叶斯推理过程,包括增量地修正分类器参数和增量地分类测试样本,实验结果表明,该算法是可行的和有效。  相似文献   

4.
《计算机工程与科学》2017,(10):1966-1970
基于支持度-置信度的关联分类是一项重要的分类算法,这种关联分类算法先构建频繁项集,然后通过置信度的阈值来选取规则,容易产生质量不高的规则。针对这个问题,提出了一种改进关联分类算法:首先,选取大量的属性值对建立起条件小训练集;其次,每条规则主体通过选取条件小训练集中最好属性值对连接生成;最后,采用实例覆盖技术覆盖小训练集的每个实例,构建具有较高质量的分类器。在25个UCI数据集上的实验结果表明,所提出的改进关联分类算法的准确率得到了显著提高。  相似文献   

5.
提出了一种改进的支持向量机增量学习算法。分析了新样本加入后,原样本和新样本中哪些样本可能转化为新支持向量。基于分析结论提出了一种改进的学习算法。该算法舍弃了对最终分类无用的样本,并保留了有用的样本。对标准数据集的实验结果表明,该算法在保证分类准确度的同时大大减少了训练时间。  相似文献   

6.
一种改进的KNN网页分类算法   总被引:1,自引:0,他引:1  
针对KNN算法懒惰分类和效率不高的特点,将训练数据集进行优化,提取有代表性的训练样本作为代表样本,用其代替整个训练集进行相似度比较。实验结果表明,使用代表样本集的分类性能与传统KNN算法的性能相当,缩短了分类时间,提高了分类效率,并且不需要估计K值,减少了人工估计值的偏差。  相似文献   

7.
针对当前朴素贝叶斯文本分类算法在处理文本分类时存在的数据稀疏、分类不准及效率低的问题,提出一种基于Map Reduce的Dirichlet朴素贝叶斯文本分类算法。算法首先根据体征词语义因素以及类内分布情况对权重进行加权调整,以此对的计算公式进行修正;引入统计语言建模技术中的Dirichlet数据平滑方法来降低数据稀疏对分类性能的影响,并在Hadoop云计算平台采用Map Reduce编程模型实现本文算法的并行化。通过测试实验对比分析可知,该算法显著提高了传统朴素贝叶斯文本分类算法的准确率、召回率,并具有优良的可扩展性和数据处理能力。  相似文献   

8.
朴素贝叶斯算法的主要特征是分类速度快而分类精度较低,算法的目标是在传统贝叶斯文本分类算法的前提下达到令人满意的分类精度,并进一步提高分类速度.算法的技术手段包括在原有多项式贝叶斯模型的基础上建立简化的贝叶斯实现模型,建立仅包含单词在类别中信息的类别特征信息数据库和优化lidstone修正因子等.算法实验在Reuters-21578测试语料集上进行.结果表明,与相关文献相比,分类速度明显高于对比算法,且精度优于或近于相关文献的改进贝叶斯算法.  相似文献   

9.
针对支持向量机分类方法在处理不平衡样本数据时出现的问题,通过对类间样本距离、类内样本分布及该类所占区域3个方面的改进,提出了一种处理不平衡样本数据的计算方法。将该方法与偏二叉树支持向量机结合,提出了一种改进球结构偏二叉树支持向量机多分类方法。选取UCI数据库中的数据,将该方法与球结构偏二叉树支持向量机、欧氏距离偏二叉树支持向量机、加权欧氏距离偏二叉树支持向量机方法进行比较,实例验证了该方法的有效性。  相似文献   

10.
一种基于类支持度的增量贝叶斯学习算法   总被引:1,自引:0,他引:1       下载免费PDF全文
丁厉华  张小刚 《计算机工程》2008,34(22):218-219
介绍增量贝叶斯分类器的原理,提出一种基于类支持度的优化增量贝叶斯分类器学习算法。在增量学习过程的样本选择问题上,算法引入一个类支持度因子λ,根据λ的大小逐次从测试样本集中选择样本加入分类器。实验表明,在训练数据集较小的情况下,该算法比原增量贝叶斯分类算法具有更高的精度,能大幅度减少增量学习样本优选的计算时间。  相似文献   

11.
传统分类算法的研究主要关注批量学习任务。实际中,带标注样本很难一次性获得。且存储空间开销较大的特点,也使批量学习显现出一定的局限性。因此,需要增量学习来解决该问题。朴素贝叶斯分类器简单、高效、鲁棒性强,且贝叶斯估计理论为其应用于增量任务提供了基础。但现有的增量贝叶斯模型没有对适应新类别作出描述。同时,实验表明类别之间样本数量的不平衡,会严重影响该模型的分类性能。故基于这两个问题,提出对增量贝叶斯模型的改进,增加参数修正公式,使其可适应新出现的类别,并引入最小风险决策思想减轻数据不平衡造成的影响。取UCI数据集进行仿真测试,结果表明改进后的模型可以渐进提高分类性能,并具有适应新类别的能力。  相似文献   

12.
一种改进的Bayesian网络结构学习算法   总被引:6,自引:2,他引:6  
  相似文献   

13.
传统的等距特征映射算法在降维时未考虑数据的类别标签,降维后不能够产生从高维到低维的映射矩阵,且不适用于多个类簇的情况,不能直接用于分类。针对这几个问题利用近邻元分析方法取代多维尺度分析法,并且引入特征向量作为输入矩阵,提出一种以分类为目的的等距特征映射算法(NC-ISOMAP)。降维时获取理想的低维投影矩阵,使降维后类间数据更加分开,类内数据更加紧凑。实验结果表明NC-ISOMAP算法能够取得很好的降维效果和分类性能,并在不同的数据集中有着较好的鲁棒性。  相似文献   

14.
一种改进的增量数据挖掘算法   总被引:1,自引:0,他引:1  
针对现行增量挖掘算法都不能解决最小支持度和最小置信度发生变化的同时数据库也发生变化的增量更新问题,分析现有算法的不足,提出一种改进算法。该算法充分利用以前挖掘的结果,将链表插入、删除以及hash定位高效率的特性结合起来,摆脱了传统算法多次迭代的不足,可实现最小支持度与最小置信度发生变化的同时,数据库也相应的发生变化的增量更新。并通过实验对该算法进行验证,同时将测试结果与Aprior算法的测试结果进行比较,证明其高效性。  相似文献   

15.
一种基于Bayesian的图像分类算法   总被引:1,自引:0,他引:1  
提出了一种基于Bayesian的图像分类算法,该算法首先从原始数字图像出发,通过分析图像的特征分布特点,对图像的局部区域扫描分析,然后抽取目标图像的特征元素,得到其颜色、纹理、形状等特征,最后利用Bayesian分类器来实现图像的快速自动分类.实验结果表明,该算法能够有效提取图像的局部特征,从而快速、准确地实现图像分类.  相似文献   

16.
针对现有支持向量机多类分类算法在分类精度上的不足,提出一种改进的支持向量机决策树多类分类算法。为了最大限度地减少误差积累的影响,该算法利用投影向量的思想作为衡量类分离性的标准,由此构建非平衡决策树,并且在决策树节点处对正负样本选取不同的惩罚因子来处理不平衡数据集的影响,最后引入KNN算法与SVM共同识别数据集。通过在手写体数字识别数据集上的仿真实验,分析比较各种方法,表明该方法能有效提高分类精度。  相似文献   

17.
一种改进的关联规则的增量式更新算法   总被引:1,自引:0,他引:1  
增量关联规则挖掘的主要思想是在原有规则的基础上,去除那些不满足条件的旧规则,发现满足条件的新规则,目的是尽量减少计算量.增量规则算法主要解决两类问题,即最小支持度的更新和数据库的更新.目前大多数算法对上述两个条件只更新其中一个,另一个保持不变,而实际应用中往往需要两者都更新.通过对数据挖掘中的IUA算法和FUP算法的分析和研究,提出IFU算法,用于解决数据库和最小支持度均发生改变时关联规则的增量式更新问题.相对于IUA算法和FUP算法以及基于他们改进的算法,该算法不仅扩展了更新条件,而且减少了对事务数据库和新增数据库的扫描次数.模拟实验表明IFU算法提高了更新效率.  相似文献   

18.
文本分类是数据挖掘与信息检索领域的热点话题,近年来迅速发展。基于质心的方法是一种建模迅速且效果较好的文本分类方法,许多学者对该方法进行了深入研究并提出改进策略,不断提高算法效果。提出一种新的动态调整质心位置算法,该算法根据训练集中的每个样本文本动态的调整质心位置。并且针对海量数据处理瓶颈,运用当前两种并行计算框架MapReduce和BSP,提出了算法的并行策略。通过与其它算法在5种不同数据集中的对比实验,证明该方法确有较准确的分类效果。  相似文献   

19.
改进型关联规则增量式更新算法与实现   总被引:9,自引:0,他引:9  
关联规则是数据挖掘中的重要研究内容之一。目前,已经提出了许多算法用于高效的发现大规模数据库中的关联规则,但是对关联规则的维护问题的研究工作却很少。本文对在事务数据库不变,只对最小支持度和最小可信度进行改变的情况下,如何进行关联规则的维护问题进行了探讨,并提出了一种高效的增量式更新算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号