首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 419 毫秒
1.
Boosting算法是目前流行的一种机器学习算法。采用Boosting家族的Adaboost.MH算法作为分类算法,设计了一个中文文本自动分类器,并给出了评估方法和结果。评价表明,该分类器和SVM的分类精度相当,而较基于其他分类算法的分类器有更好的分类精度。  相似文献   

2.
基于Boosting的TAN组合分类器   总被引:8,自引:1,他引:8  
Boosting是一种有效的分类器组合方法,它能够提高不稳定学习算法的分类性能,但对稳定的学习算法效果不明显,TAN(tree-augmented naive Bayes)是一种树状结构的贝叶斯网络,标准的TAN学习算法生成的TAN分类器是稳定的,用Boosting难以提高其分类性能,提出一种构造TAN的新算法GTAN,并将由GTAN生成的多个TAN分类器用组合方法Boosting-MultiTAN组合,最后实验比较了TAN组合分类器与标准的TAN分类器.实验结果表明,在大多数实验数据上,Boosting-MultiTAN分类器显示出较高的分类正确率。  相似文献   

3.
万宝吉  张涛  侯晓丹  朱振涪 《计算机工程》2013,(12):148-151,156
现有盲检测技术在实际检测中,由于嵌入算法未知导致检测困难。为此,提出一种基于Boosting算法融合的图像隐写分析方法。通过训练分类器建立不同隐写算法下的分类器模型,利用Boosting算法计算各分类器的分类性能,对各分类器的概率输出进行融合,得到最终检测结果。基于典型空间域隐写算法和JPEG隐写算法的实验结果表明,该方法实现了对多种隐写算法的有效检测,应用Boosting算法融合后整体检测性能提升了约2%。  相似文献   

4.
樊康新 《计算机工程》2009,35(24):191-193
针对朴素贝叶斯(NB)分类器在分类过程中存在诸如分类模型对样本具有敏感性、分类精度难以提高等缺陷,提出一种基于多种特征选择方法的NB组合文本分类器方法。依据Boosting分类算法,采用多种不同的特征选择方法建立文本的特征词集,训练NB分类器作为Boosting迭代过程的基分类器,通过对基分类器的加权投票生成最终的NB组合文本分类器。实验结果表明,该组合分类器较单NB文本分类器具有更好的分类性能。  相似文献   

5.
中文文本分类器的设计   总被引:6,自引:0,他引:6  
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类型的过程。文章应用球形的k-均值算法确定每个文本的类标签,并通过Boosting算法构建分类器。构建的分类器具有以下特点:分类器的设计针对未知类标签的语料库,实用性好;分类器能随着语料库中文本的变化而增加新的类,具有很好的可扩展性;分类器基于Boosting算法,具有很好的分类精度。  相似文献   

6.
李秋洁  茅耀斌 《自动化学报》2013,39(9):1467-1475
接收者操作特性(Receiver operating characteristics, ROC)曲线下面积(Area under the ROC curve, AUC)常被用于度量分类器在整个类先验分布上的总体分类性能. 原始Boosting算法优化分类精度,但在AUC度量下并非最优. 提出了一种AUC优化Boosting改进算法,通过在原始Boosting迭代中引入数据重平衡操作,实现弱学习算法优化目标从精度向AUC的迁移. 实验结果表明,较之原始Boosting算法,新算法在AUC度量下能获得更好性能.  相似文献   

7.
罗军  况夯 《计算机应用》2008,28(9):2386-2388
提出一种新颖的基于Boosting模糊分类的文本分类方法。首先采用潜在语义索引(LSI)对文本特征进行选择;然后提出Boosting算法集成模糊分类器学习,在每轮迭代训练过程中,算法通过调整训练样本的分布,利用遗传算法产生分类规则。减少分类规则能够正确分类样本的权值,使得新产生的分类规则重点考虑难于分类的样本。实验结果表明,该文本分类算法具有良好分类的性能。  相似文献   

8.
基于Boosting算法和RBF神经网络的交通事件检测   总被引:1,自引:0,他引:1  
党长青  张景辉  沈志远 《计算机应用》2007,27(12):3105-3107
提出一种新颖的基于Boosting RBF神经网络的交通事件检测方法。对Boosting算法进行改进,采用更有效的参数求解方法,即弱分类器的加权参数不但与错误率有关,还与其对正样本的识别能力有关。以上下游的流量和占有率作为特征,将RBF神经网络作为分类器进行交通事件的自动分类与检测。为了进一步提高神经网络的泛化能力,采用Boosting方法进行网络集成。最后运用Matlab进行了仿真分析,结果表明提出的交通事件检测算法利用较少样本数据即可快速实现交通事件检测。  相似文献   

9.
AdaBoost算法研究进展与展望   总被引:21,自引:0,他引:21  
AdaBoost是最优秀的Boosting算法之一, 有着坚实的理论基础, 在实践中得到了很好的推广和应用. 算法能够将比随机猜测略好的弱分类器提升为分类精度高的强分类器, 为学习算法的设计提供了新的思想和新的方法. 本文首先介绍Boosting猜想提出以及被证实的过程, 在此基础上, 引出AdaBoost算法的起源与最初设计思想;接着, 介绍AdaBoost算法训练误差与泛化误差分析方法, 解释了算法能够提高学习精度的原因;然后, 分析了AdaBoost算法的不同理论分析模型, 以及从这些模型衍生出的变种算法;之后, 介绍AdaBoost算法从二分类到多分类的推广. 同时, 介绍了AdaBoost及其变种算法在实际问题中的应用情况. 本文围绕AdaBoost及其变种算法来介绍在集成学习中有着重要地位的Boosting理论, 探讨Boosting理论研究的发展过程以及未来的研究方向, 为相关研究人员提供一些有用的线索. 最后,对今后研究进行了展望, 对于推导更紧致的泛化误差界、多分类问题中的弱分类器条件、更适合多分类问题的损失函数、 更精确的迭代停止条件、提高算法抗噪声能力以及从子分类器的多样性角度优化AdaBoost算法等问题值得进一步深入与完善.  相似文献   

10.
显露模式(EP)是支持度从一个数据集到另一个数据集显著提高的项集. EP具有很强的区分能力,可以建立很好的分类器.提出了一种通过Boosting改进基于EP的分类器的算法BoostEP. BoostEP使用Boosting技术建立多个基于EP的基分类器形成组合分类器,并对每个基分类器预测加权投票得到未知样本的类标号.在UCI机器学习数据库的21个基准数据集上的实验表明,BoostEP的分类准确率足以与NB,C4.5,CBA和CAEP等优秀分类法相媲美.  相似文献   

11.
针对集成分类器由于基分类器过弱,需要牺牲大量训练时间才能取得高精度的问题,提出一种基于实例的强分类器快速集成方法——FSE。首先通过基分类器评价方法剔除不合格分类器,再对分类器进行精确度和差异性排序,从而得到一组精度最高、差异性最大的分类器;然后通过FSE集成算法打破已有的样本分布,重新采样使分类器更多地关注难学习的样本,并以此决定各分类器的权重并集成。实验通过与集成分类器Boosting在UCI数据库和真实数据集上进行比对,Boosting构造的集成分类器的识别精度最高分别能达到90.2%和90.4%,而使用FSE方法的集成分类器精度分别能达到95.6%和93.9%;而且两者在达到相同精度时,使用FSE方法的集成分类器分别缩短了75%和80%的训练时间。实验结果表明,FSE集成模型能有效提高识别精度、缩短训练时间。  相似文献   

12.
Naive Bayesian分类器是一种有效的文本分类方法,但由于具有较强的稳定性,很难通过Boosting机制提高其性能。因此用Naive Bayesian分类器作为Boosting的基分类器需要解决的最大问题,就是如何破坏Naive Bayesian分类器的稳定性。提出了3种破坏Naive Bayesian学习器稳定性的方法。第一种方法改变训练集样本,第二种方法采用随机属性选择社团,第三种方法是在Boosting的每次迭代中利用不同的文本特征提取方法建立不同的特征词集。实验表明,这几种方法各有其优缺点,但都比原有方法准确、高效。  相似文献   

13.
《Information Fusion》2002,3(4):245-258
In classifier combination, it is believed that diverse ensembles have a better potential for improvement on the accuracy than non-diverse ensembles. We put this hypothesis to a test for two methods for building the ensembles: Bagging and Boosting, with two linear classifier models: the nearest mean classifier and the pseudo-Fisher linear discriminant classifier. To estimate diversity, we apply nine measures proposed in the recent literature on combining classifiers. Eight combination methods were used: minimum, maximum, product, average, simple majority, weighted majority, Naive Bayes and decision templates. We carried out experiments on seven data sets for different sample sizes, different number of classifiers in the ensembles, and the two linear classifiers. Altogether, we created 1364 ensembles by the Bagging method and the same number by the Boosting method. On each of these, we calculated the nine measures of diversity and the accuracy of the eight different combination methods, averaged over 50 runs. The results confirmed in a quantitative way the intuitive explanation behind the success of Boosting for linear classifiers for increasing training sizes, and the poor performance of Bagging in this case. Diversity measures indicated that Boosting succeeds in inducing diversity even for stable classifiers whereas Bagging does not.  相似文献   

14.
李子龙  周勇  鲍蓉  王洪栋 《计算机应用》2021,41(12):3480-3484
针对基于三元组损失的单一深度距离度量在多样化数据集环境下适应性差,且容易造成过拟合的问题,提出了一种优化三元组损失的深度距离度量学习方法。首先,对经过神经网络映射的三元组训练样本的相对距离进行阈值化处理,并使用线性分段函数作为相对距离的评价函数;然后,将评价函数作为一个弱分类器加入到Boosting算法中生成一个强分类器;最后,采用交替优化的方法来学习弱分类器和神经网络的参数。通过在图像检索任务中对各种深度距离度量学习方法进行评估,可以看到所提方法在CUB-200-2011、Cars-196和SOP数据集上的Recall@1值比之前最好的成绩分别提高了4.2、3.2和0.6。实验结果表明,所提方法的性能优于对比方法,同时在一定程度上避免了过拟合。  相似文献   

15.
: Cardiotocography (CTG) represents the fetus’s health inside the womb during labor. However, assessment of its readings can be a highly subjective process depending on the expertise of the obstetrician. Digital signals from fetal monitors acquire parameters (i.e., fetal heart rate, contractions, acceleration). Objective:: This paper aims to classify the CTG readings containing imbalanced healthy, suspected, and pathological fetus readings. Method:: We perform two sets of experiments. Firstly, we employ five classifiers: Random Forest (RF), Adaptive Boosting (AdaBoost), Categorical Boosting (CatBoost), Extreme Gradient Boosting (XGBoost), and Light Gradient Boosting Machine (LGBM) without over-sampling to classify CTG readings into three categories: healthy, suspected, and pathological. Secondly, we employ an ensemble of the above-described classifiers with the over-sampling method. We use a random over-sampling technique to balance CTG records to train the ensemble models. We use 3602 CTG readings to train the ensemble classifiers and 1201 records to evaluate them. The outcomes of these classifiers are then fed into the soft voting classifier to obtain the most accurate results. Results:: Each classifier evaluates accuracy, Precision, Recall, F1-scores, and Area Under the Receiver Operating Curve (AUROC) values. Results reveal that the XGBoost, LGBM, and CatBoost classifiers yielded 99% accuracy. Conclusion:: Using ensemble classifiers over a balanced CTG dataset improves the detection accuracy compared to the previous studies and our first experiment. A soft voting classifier then eliminates the weakness of one individual classifier to yield superior performance of the overall model.  相似文献   

16.
增强型朴素贝叶斯产   总被引:8,自引:0,他引:8  
王实  高文 《计算机科学》2000,27(4):46-49
朴素贝叶斯是一种分类监督学习方法。在理论上,应用其前提为例子的属性值独立于例子的分类属性。这个前提在实际应用中过于严格,常常得不到满足,即使是这样,在违反该前提的情况下,朴素贝叶斯学习方法仍然取得了很大的成功。近来,一种改进的朴素贝叶斯方法,增强(Boost-ing),受到广泛的关注,AdaBoost方法是其主要方法。当AdaBoost方法被用于联合几个朴素贝叶斯分类器时,其在数学上等价于一个具有稀疏编码输入,单隐层节点,sigmoid激活函数的反馈型神经网络。  相似文献   

17.
18.
基于样本权重更新的不平衡数据集成学习方法   总被引:1,自引:0,他引:1  
不平衡数据的问题普遍存在于大数据、机器学习的各个应用领域,如医疗诊断、异常检测等。研究者提出或采用了多种方法来进行不平衡数据的学习,比如数据采样(如SMOTE)或者集成学习(如EasyEnsemble)的方法。数据采样中的过采样方法可能存在过拟合或边界样本分类准确率较低等问题,而欠采样方法则可能导致欠拟合。文中将SMOTE,Bagging,Boosting等算法的基本思想进行融合,提出了Rotation SMOTE算法。该算法通过在Boosting过程中根据基分类器的预测结果对少数类样本进行SMOTE来间接地增大少数类样本的权重,并借鉴Focal Loss的基本思想提出了根据基分类器预测结果直接优化AdaBoost权重更新策略的FocalBoost算法。对不同应用领域共11个不平衡数据集的多个评价指标进行实验测试,结果表明,相比于其他不平衡数据算法(包括SMOTEBoost算法和EasyEnsemble算法),Rotation SMOTE算法在所有数据集上具有最高的召回率,并且在大多数数据集上具有最佳或者次佳的G-mean以及F1Score;而相比于原始的AdaBoost,FocalBoost则在其中9个不平衡数据集上都获得了更优的性能指标。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号