首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
一种朴素贝叶斯分类增量学习算法   总被引:1,自引:0,他引:1  
朴素贝叶斯(Nave Bayes,NB)分类方法是一种简单而有效的概率分类方法,但是贝叶斯算法存在训练集数据不完备这个缺陷。传统的贝叶斯分类方法在有新的训练样本加入时,需要重新学习已经学习过的样本,耗费大量时间。为此引入增量学习算法,算法在已有的分类器的基础上,自主选择学习新的文本来修正分类器。本文给出词频加权朴素贝叶斯分类增量学习算法思想及其具体算法,并对算法给予证明。通过算法分析可知,相比无增量学习的贝叶斯分类,本算法额外的空间复杂度与时间复杂度都在可接受范围。  相似文献   

2.
一种增量贝叶斯分类模型   总被引:40,自引:0,他引:40  
分类一直是机器学习,模型识别和数据挖掘研究的核心问题,从海量数据中学习分类知识,尤其是当获得大量的带有类别标注的样本代价较高时,增量学习是解决该问题的有效途径,该文将简单贝叶期方法应用于增量分类中,提出了一种增量贝叶斯学习模型,给出了增量贝叶斯推理过程,包括增量地修正分类器参数和增量地分类测试样本,实验结果表明,该算法是可行的和有效。  相似文献   

3.
朴素贝叶斯分类器难以获得大量有类标签的训练集,而且传统的贝叶斯分类方法在有新的训练样本加入时,需要重新学习已学习过的样本,耗费大量时间。为此引入增量学习方法,在此基础上提出了属性加权朴素贝叶斯算法,该算法通过属性加权来提高朴素贝叶斯分类器的性能,加权参数直接从训练数据中学习得到。通过由Weka推荐的UCI数据集的实验结果表明,该算法是可行的和有效的。  相似文献   

4.
朴素贝叶斯分类器增量学习序列算法研究   总被引:6,自引:0,他引:6  
首先介绍了一种朴素贝叶斯增量分类模型,然后提出了一种新的序列学习算法以弥补其学习序列中存在的不足训练实例的先验知识得不到充分利用,测试实例的完备性对分类的影响在学习过程中得不到体现等。该算法引入一个分类损失权重系数λ,用于计算分类损失大小。引入该系数的作用在于充分利用先验知识对分类器进行了优化;通过选择合理的学习序列强化了较完备数据对分类的积极影响,弱化了噪音数据的消极影响,从而提高分类精度;弥补了独立性假设在实际问题中的不足等。  相似文献   

5.
史达  谭少华 《控制与决策》2010,25(6):925-928
提出一种混合式贝叶斯网络结构增量学习算法.首先提出多项式时间的限制性学习技术,为每个变量建立候选父节点集合;然后,依据候选父节点集合,利用搜索技术对当前网络进行增量学习.该算法的复杂度显著低于目前最优的贝叶斯网络增量学习算法.理论与实验均表明,所处理的问题越复杂,该算法在计算复杂度方面的优势越明显.  相似文献   

6.
针对支持向量机类增量学习过程中参与训练的两类样本数量不平衡而导致的错分问题,给出了一种加权类增量学习算法,将新增类作为正类,原有类作为负类,利用一对多方法训练子分类器,训练时根据训练样本所占的比例对类加权值,提高了小类别样本的分类精度。实验证明了该方法的有效性。  相似文献   

7.
提出了一种改进的支持向量机增量学习算法。分析了新样本加入后,原样本和新样本中哪些样本可能转化为新支持向量。基于分析结论提出了一种改进的学习算法。该算法舍弃了对最终分类无用的样本,并保留了有用的样本。对标准数据集的实验结果表明,该算法在保证分类准确度的同时大大减少了训练时间。  相似文献   

8.
古平  朱庆生 《计算机科学》2006,33(4):159-161
无论是Boosting还是Bagging算法,在使用连续样本集进行分类器集合学习时,均需缓存大量数据,这对大容量样本集的应用不可行。本文提出一种基于贝叶斯集合的在线学习算法BEPOL,在保持Boosting算法加权采样思想的前提下,只需对样本集进行一次扫描,就可实现对贝叶斯集合的在线更新学习。算法针对串行训练时间长、成员相关性差的缺点,采用了并行学习的思想,通过将各贝叶斯分量映射到并行计算结构上,提高集合学习的效率。通过UCI数据集的实验表明,算法BEPOL具有与批量学习算法相近的分类性能和更小的时间开销,这使得算法对某些具有时间和空间限制的应用,如大型数据集或连续型数据集应用尤其有效。  相似文献   

9.
提出一种在数据缺失下增量学习贝叶斯网络的有效算法IBN—M。IBN—M用结构化的EM算法来补全数据集中缺失的数据,并且能在并行和启发式搜索策略提供的较大的搜索空间里搜索,有效地避免了采用结构化EM算法而导致的局部极值。同时采用增量学习的方法,解决了大规模数据学习存在的内存空间不足的问题。实验结果表明IBN-M算法在数据缺失下贝叶斯网络的增量学习中确实能够学出相对精确的网络模型。  相似文献   

10.
增量学习利用增量数据中的有用信息通过修正分类参数来更新分类模型,而朴素贝叶斯算法具有利用先验信息以及增量信息的特性,因此朴素贝叶斯算法是增量学习算法设计的最佳选择。三支决策是一种符合人类认知模式的决策理论,具有主观的特性。将三支决策思想融入朴素贝叶斯增量学习中,提出一种基于三支决策的朴素贝叶斯增量学习算法。基于朴素贝叶斯算法构造了一个称为分类确信度的概念,结合代价函数,用以确定三支决策理论中的正域、负域和边界域。利用三个域中的有用信息构造基于三支决策的朴素贝叶斯增量学习算法。实验结果显示,在阈值[α]和[β]选择合适的情况下,基于该方法的分类准确性和召回率均有明显的提高。  相似文献   

11.
基于超球支持向量机的类增量学习算法研究   总被引:2,自引:1,他引:2  
提出了一种超球支持向量机类增量学习算法.对每一类样本,利用超球支持向量机在特征空间中求得包围该类尽可能多样本的最小超球,使各类样本之间通过超球隔开.类增量学习过程中,只对新增类样本进行训练,使得该算法在很小的样本集、很小的空间代价下实现了类增量学习,大大降低了训练时间,同时保留了历史训练结果.分类过程中,通过计算待分类样本到各超球球心的距离判定其所属类别,分类简单快捷.实验结果证明,该算法不仅具有较高的训练速度,而且具有较高的分类速度和分类精度.  相似文献   

12.
13.
在增量学习过程中,随着训练集规模的增大,支持向量机的学习过程需要占用大量内存,寻优速度非常缓慢。在现有的一种支持向量机增量学习算法的基础上,结合并行学习思想,提出了一种分层并行筛选训练样本的支持向量机增量学习算法。理论分析和实验结果表明:与原有的算法相比,新算法能在保证支持向量机的分类能力的前提下显著提高训练速度。  相似文献   

14.
姜雪  陶亮  王华彬  武杰 《微机发展》2007,17(11):92-95
在增量学习过程中,随着训练集规模的增大,支持向量机的学习过程需要占用大量内存,寻优速度非常缓慢。在现有的一种支持向量机增量学习算法的基础上,结合并行学习思想,提出了一种分层并行筛选训练样本的支持向量机增量学习算法。理论分析和实验结果表明:与原有的算法相比,新算法能在保证支持向量机的分类能力的前提下显著提高训练速度。  相似文献   

15.
Isomap算法嵌入向量求解依赖于所有的初始样本,在增加新数据时需要较长时间重新计算所有数据样本间的测地距离.为了提高运算速度,提出一种基于核函数的增量学习Isomap算法,将测地距离矩阵当作一个核矩阵,并通过常数增加的方法保证测地距离矩阵满足Mercer条件,算法只需要计算新增点与原有数据点间的测地距离.与核主成分算法一样,新增点的投影值计算变为核矩阵上的特征分解.在Swiss,Helix和多姿态人脸数据中的实验结果表明,算法大大降低了计算复杂度,有利于快速发现隐藏在高维空间的低维流形分布.  相似文献   

16.
An incremental categorization algorithm is described which, at each step, assigns the next instance to the most probable category. Probabilities are estimated by a Bayesian inference scheme which assumes that instances are partitioned into categories and that within categories features are displayed independently and probabilistically. This algorithm can be shown to be an optimization of an ideal Bayesian algorithm in which predictive accuracy is traded for computational efficiency. The algorithm can deliver predictions about any dimension of a category and does not treat specially the prediction of category labels. The algorithm has successfully modeled much of the empirical literature on human categorization. This paper describes its application to a number of data sets from the machine learning literature. The algorithm performs reasonably well, having its only serious difficulty because the assumption of independent features is not always satisfied. Bayesian extensions to deal with nonindependent features are described and evaluated.  相似文献   

17.
摘 要: 多维分类根据数据实例的特征向量将数据实例在多个维度上进行分类,具有广泛的应用前景。在多维分类算法的模型学习过程中,海量的训练数据使得准确的分类算法需要很长的模型训练时间。为了提高多维分类的执行效率,同时保持高的预测准确性,本文提出了一种基于贝叶斯网络的多维分类学习方法。首先,将多维分类问题描述为条件概率分布问题。其次,根据类别向量之间的依赖关系建立了条件树贝叶斯网络模型。最后,根据训练数据集对条件树贝叶斯网络模型的结构和参数进行学习,并提出了一种多维分类预测算法。大量的真实数据集实验表明,本文提出的方法与当前最好的多维分类算法MMOC相比,在保持高准确性的同时将模型的训练时间降低了两个数量级。因此,本文提出的方法更适用于海量数据的多维分类应用中。  相似文献   

18.
从数据结构与算法效率的优化方面考虑,采用面向对象的方法对数据挖掘C4.5算法进行编程设计;针对C4.5算法存在的不具备增量学习能力的缺陷,提出一种改进的增量学习方法,与现有方法相比较,运算量更小,速度更快。  相似文献   

19.
支持向量机已经成为处理大规模高维数据的一种有效方法。然而处理大规模数据需要的时间和空间代价很高,增量学习可以解决这个问题。该文分析了支持向量的性质和增量学习的过程,提出了一种新的增量学习算法,舍弃了对最终分类无用的样本,在保证测试精度的同时减少了训练时间。最后的数值实验和应用实例说明:算法是可行的、有效的。  相似文献   

20.
贝叶斯网络分类器的精确构造是NP难问题,使用K2算法可以有效地缩减搜索空间,提高学习效率。然而K2算法需要初始的节点次序作为输入,这在缺少先验信息的情况下很难确定;另一方面,K2算法采用贪婪的搜索策略,容易陷入局部最优解。提出了一种基于条件互信息和概率突跳机制的贝叶斯网络结构学习算法(CMI-PK2算法),该算法首先利用条件互信息生成有效的节点次序作为K2算法的输入,然后利用概率突跳机制改进K2算法的搜索过程来提高算法的全局寻优能力,学习较为理想的网络结构。在两个基准网络Asia和Alarm上进行了实验验证,结果表明CMI-PK2算法具有更高的分类精度和数据拟合程度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号