首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
在文本分类研究中,集成学习是一种提高分类器性能的有效方法.Bagging算法是目前流行的一种集成学习算法.针对Bagging算法弱分类器具有相同权重问题,提出一种改进的Bagging算法.该方法通过对弱分类器分类结果进行可信度计算得到投票权重,应用于Attribute Bagging算法设计了一个中文文本自动分类器.采用kNN作为弱分类器基本模型对Sogou实验室提供的新闻集进行分类.实验表明该算法比Attribute Bagging有更好的分类精度.  相似文献   

2.
Bagging算法在中文文本分类中的应用   总被引:2,自引:1,他引:2       下载免费PDF全文
Bagging算法是目前一种流行的集成学习算法,采用一种改进的Bagging算法Attribute Bagging作为分类算法,通过属性重取样获取多个训练集,以kNN为弱分类器设计一种中文文本分类器。实验结果表明Attribute Bagging算法较Bagging算法有更好的分类精度。  相似文献   

3.
N-gram字符序列能有效捕捉文本中作者的个体风格信息,但其特征空间稀疏度高,且存在较多噪音特征。针对该问题,提出一种基于半随机特征采样的中文书写纹识别算法。该算法首先采用一种离散度准则为每个作者选取一定粒度的个体特征集,然后将个体特征集以一种半随机选择机制划分成多个等维度的特征子空间,并基于每个子空间训练相应的基分类器,最后采取多数投票法的融合策略构造集成分类模型。在中文真实数据集上与基于随机子空间和Bagging算法的集成分类器进行了对比试验,结果表明,该算法在正确率和差异度方面优于随机子空间和Baggrog算法,并且取得了比单分类模型更好的识别性能。  相似文献   

4.
传统的数据分类算法多是基于平衡的数据集创建,对不平衡数据分类时性能下降,而实践表明组合选择能有效提高算法在不平衡数据集上的分类性能。为此,从组合选择的角度考虑不平衡类学习问题,提出一种新的组合剪枝方法,用于提升组合分类器在不平衡数据上的分类性能。使用Bagging建立分类器库,直接用正类(少数类)实例作为剪枝集,并通过MBM指标和剪枝集,从分类器库中选择一个最优或次优子组合分类器作为目标分类器,用于预测待分类实例。在12个UCI数据集上的实验结果表明,与EasyEnsemble、Bagging和C4.5算法相比,该方法不但能大幅提升组合分类器在正类上的召回率,而且还能提升总体准确率。  相似文献   

5.
基于BP神经网络和Bagging算法的入侵检测   总被引:1,自引:0,他引:1       下载免费PDF全文
提出基于Bagging算法集成BP神经网络的入侵检测方法。采用BP神经网络为分类器,以用户的网络连接行为为特征进行检测,为进一步提高BP神经网络的分类性能,采用Bagging算法对BP神经网络分类器进行加权投票。实验表明,提出的方法具有良好的检测性能。  相似文献   

6.
提出一种基于特征词句子环境的文本分类方法,介绍了创建分类规则的文本句子信息模型,比较详细地给出训练算法和语句聚集算法.该算法依据训练文本集的特征词句子环境,获取识别文本主题类别的特征词集合.最后给出了分类器性能的测试结果.  相似文献   

7.
丁要军 《计算机应用》2015,35(12):3348-3351
针对不平衡网络流量分类精度不高的问题,在旋转森林算法的基础上结合Bagging算法的Bootstrap抽样和基于分类精度排序的基分类器选择算法,提出一种改进的旋转森林算法。首先,对原始训练集按特征进行子集划分并分别使用Bagging进行样本抽样,通过主成分分析(PCA)生成主成分系数矩阵;然后,在原始训练集和主成分系数矩阵的基础上进行特征转换,生成新的训练子集,再次使用Bagging对子集进行抽样,提升训练集的差异性,并使用训练子集训练C4.5基分类器;最后,使用测试集评价基分类器,依据总体分类精度进行排序筛选,保留分类精度较高的分类器并生成一致分类结果。在不平衡网络流量数据集上进行测试实验,依据准确率和召回率两个标准对C4.5、Bagging、旋转森林和改进的旋转森林四种算法评价,依据模型训练时间和测试时间评价四种算法的时间效率。实验结果表明改进的旋转森林算法对万维网(WWW)协议、Mail协议、Attack协议、对等网(P2P)协议的分类准确度达到99.5%以上,召回率也高于旋转森林、Bagging、C4.5三种算法,可用于网络入侵取证、维护网络安全、提升网络服务质量。  相似文献   

8.
铁路安全问题是铁路运输保证的核心问题,铁路安全问题非结构化文本数据量大,文本内容无特定规律,对于综合分析解决安全故障问题造成很高的难度.针对铁路安全问题数据智能分类,提出进化集成分类器模型.运用TF-IDF算法,通过分析接触网安全问题的数据特点提取文本特征.采用决策树作为基分类器的Bagging集成分类器将文本数据分类...  相似文献   

9.
为了提高遥感影像分类精度,从抽象级和测量级的两个层次出发,提出混合多分类器结合算法。该算法利用不同子分类器的分类结果及对各类别的分类精度,设定单个类别精度的阈值,选择最优子分类器,得到部分类别的最终分类结果;然后使用基于抽象级Bagging算法和测量级上的最大置信度进行多分类器结合。该算法应用于北京1号遥感影像的分类研究,结果表明该算法的总体精度和单个类别的分类精度比选用的子分类器都有明显的提高,是一种新的有效算法。  相似文献   

10.
基于混合多分类器结合算法的遥感分类?   总被引:1,自引:0,他引:1       下载免费PDF全文
杨海波  王宗敏  张涛 《计算机工程》2010,36(11):173-175
为改善遥感影像分类精度,提出混合多分类器结合算法。考虑抽象级和测量级2个层次的特点,综合最优子分类器、Bagging算法和最大置信度区间法。应用到不同分辨率的遥感影像分类进行验证,结果表明,与选用的子分类器相比,该算法的总体精度和单个类别分类精度有明显提高,是有效的高中精度遥感影像分类算法。  相似文献   

11.
基于主动学习的文档分类   总被引:3,自引:0,他引:3  
In the field of text categorization,the number of unlabeled documents is generally much gretaer than that of labeled documents. Text categorization is the problem of categorization in high-dimension vector space, and more training samples will generally improve the accuracy of text classifier. How to add the unlabeled documents of training set so as to expand training set is a valuable problem. The theory of active learning is introducted and applied to the field of text categorization in this paper ,exploring the method of using unlabeled documents to improve the accuracy oftext classifier. It is expected that such technology will improve text classifier's accuracy through adopting relativelylarge number of unlabelled documents samples. We brought forward an active learning based algorithm for text categorization,and the experiments on Reuters news corpus showed that when enough training samples available,it′s effective for the algorithm to promote text classifier's accuracy through adopting unlabelled document samples.  相似文献   

12.
独立于语种的文本分类方法   总被引:44,自引:4,他引:40  
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻语料上得到实现,并获得了较好的分类性能。  相似文献   

13.
文本分类作为机器学习和信息检索之间的交叉学科,涉及到多个领域的技术。它的完善有赖于各个相关领域的技术发展和提高,该文介绍了文本分类过程中的各个关键技术和存在的问题,讨论了文本表示模型、分类算法、分类器性能评价原理和方法,最后并对今后的发展进行了展望。  相似文献   

14.
为提高信用评估的预测精度,提出一种基于装袋的基因表达式编程(GEP)多分类器集成算法。该算法采用Bagging方法将GEP产生的多个差异基分类器进行集成。在德国信用数据库真实数据集上的实验及性能分析表明,该算法较SVM算法的预测精度提高约2.7%;较KNN(K=17)算法的预测精度提高约7.93%;较单GEP分类算法的预测精度提高约1.1%。  相似文献   

15.
基于Boosting算法的文本自动分类器设计   总被引:2,自引:0,他引:2  
Boosting算法是目前流行的一种机器学习算法。采用一种改进的Boosting算法Adaboost.MHKR作为分类算法,设计了一个文本自动分类器,并给出了评估方法和结果。评价表明,该分类器有很好的分类精度。  相似文献   

16.
针对分类器的构建,在保证基分类器准确率和差异度的基础上,提出了采用差异性度量特征选择的多分类器融合算法(multi-classifier fusion algorithm based on diversity measure for feature selection,MFA-DMFS)。该算法的基本思想是在原始特征集中采用Relief特征评估结果按权值大小选择特征,构造特征子集,通过精调使各特征子集间满足一定的差异性,从而构建最优的基分类器。MFA-DMFS不但能提高基分类器的准确率,而且保持基分类器间的差异,克服差异性和平均准确率之间存在的相互制约,并实现这两方面的平衡。在UCI数据集上与基于Bagging、Boosting算法的多分类器融合系统进行了对比实验,实验结果表明,该算法在准确率和运行速度方面优于Bagging和Boosting算法,此外在图像数据集上的检索实验也取得了较好的分类效果。  相似文献   

17.
基于集成分类算法的自动图像标注   总被引:2,自引:0,他引:2  
蒋黎星  侯进 《自动化学报》2012,38(8):1257-1262
基于语义的图像检索技术中,按照图像的语义进行自动标注是一个具有挑战性的工作. 本文把图像的自动标注过程转化为图像分类的过程,通过有监督学习对每个图像区域分类并得到相应关键字,实现标注. 采用一种快速随机森林(Fast random forest, FRF)集成分类算法,它可以对大量的训练数据进行有效的分类和标注. 在基于Corel数据集的实验中,相比经典算法, FRF改善了运算速度,并且分类精度保持稳定. 在图像标注方面有很好的应用.  相似文献   

18.
Rotation Forest, an effective ensemble classifier generation technique, works by using principal component analysis (PCA) to rotate the original feature axes so that different training sets for learning base classifiers can be formed. This paper presents a variant of Rotation Forest, which can be viewed as a combination of Bagging and Rotation Forest. Bagging is used here to inject more randomness into Rotation Forest in order to increase the diversity among the ensemble membership. The experiments conducted with 33 benchmark classification data sets available from the UCI repository, among which a classification tree is adopted as the base learning algorithm, demonstrate that the proposed method generally produces ensemble classifiers with lower error than Bagging, AdaBoost and Rotation Forest. The bias–variance analysis of error performance shows that the proposed method improves the prediction error of a single classifier by reducing much more variance term than the other considered ensemble procedures. Furthermore, the results computed on the data sets with artificial classification noise indicate that the new method is more robust to noise and kappa-error diagrams are employed to investigate the diversity–accuracy patterns of the ensemble classifiers.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号