首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
陈松峰  范明 《计算机科学》2010,37(8):236-239256
提出了一种使用基于贝叶斯的基分类器建立组合分类器的新方法PCABoost.本方法在创建训练样本时,随机地将特征集划分成K个子集,使用PCA得到每个子集的主成分,形成新的特征空间,并将全部的训练数据映射到新的特征空间作为新的训练集.通过不同的变换生成不同的特征空间,从而产生若干个有差异的训练集.在每一个新的训练集上利用AdaBoost建立一组基于贝叶斯的逐渐提升的分类器(即一个分类器组),这样就建立了若干个有差异的分类器组,然后在每个分类器组内部通过加权投票产生一个预测,再把每个组的预测通过投票来产生组合分类器的分类结果,最终建立一个具有两层组合的组合分类器.从UCI标准数据集中随机选取30个数据集进行实验.结果表明,本算法不仅能够显著提高基于贝叶斯的分类器的分类性能,而且与Rotation Forest和AdaBoost等组合方法相比,在大部分数据集上都具有更高的分类准确率.  相似文献   

2.
为改进SVM对不均衡数据的分类性能,提出一种基于拆分集成的不均衡数据分类算法,该算法对多数类样本依据类别之间的比例通过聚类划分为多个子集,各子集分别与少数类合并成多个训练子集,通过对各训练子集进行学习获得多个分类器,利用WE集成分类器方法对多个分类器进行集成,获得最终分类器,以此改进在不均衡数据下的分类性能.在UCI数据集上的实验结果表明,该算法的有效性,特别是对少数类样本的分类性能.  相似文献   

3.
提出了一种使用基于规则的基分类器建立组合分类器的新方法PCARules。尽管新方法也采用基分类器预测的加权投票来决定待分类样本的类,但是为基分类器创建训练数据集的方法与bagging和boosting完全不同。该方法不是通过抽样为基分类器创建数据集,而是随机地将特征划分成K个子集,使用PCA得到每个子集的主成分,形成新的特征空间,并将所有训练数据映射到新的特征空间作为基分类器的训练集。在UCI机器学习库的30个随机选取的数据集上的实验表明:算法不仅能够显著提高基于规则的分类方法的分类性能,而且与bagging和boosting等传统组合方法相比,在大部分数据集上都具有更高的分类准确率。  相似文献   

4.
液压缸的工况错综复杂,为了确保液压缸的正常运行,寿命预测系统采集了大量数据以获悉液压缸的寿命状况。针对液压缸监测信号噪声大、单一分类器分类性能不佳的问题,提出了一种基于深度学习的液压缸寿命预测方法。利用DAE算法对噪声数据进行重构,以完成数据的特征提取;利用BP神经网络对数据中各特征子集进行分别训练构成弱分类器,然后采用Adaboost算法对弱分类器进行加权合并成强分类器以实现数据的特征选择。通过实验验证,提出方法可有效提高液压缸的寿命预测精度。  相似文献   

5.
一种核心子集选择训练的大规模中文网页分类方法   总被引:1,自引:0,他引:1  
针对Web页面分类方法一般只能处理小规模数据的问题,提出一种核心子集选择训练的大规模中文网页分类方法.该方法通过将支持向量机的最优化求解问题转化为等价的近似最小闭包球求解问题,使得只需选择数据集的核心子集参与分类器训练;并且,在特征选择阶段采用改进的基于词性的互信息特征选择模型,有效提高Web页面分类的大规模数据处理能力.在搜狗实验室提供的大规模Web页面数据集上进行了实验,实验结果表明不仅准确率可达到支持向量机同等的效果,且训练时间大大减少;而对不均衡类别数据的测试结果表明,该方法在处理不均衡类别数的Web网页分类上也能获得很好的效果.  相似文献   

6.
从多个弱分类器重构出强分类器的集成学习方法是机器学习领域的重要研究方向之一。尽管已有多种多样性基本分类器的生成方法被提出,但这些方法的鲁棒性仍有待提高。递减样本集成学习算法综合了目前最为流行的boosting与bagging算法的学习思想,通过不断移除训练集中置信度较高的样本,使训练集空间依次递减,使得某些被低估的样本在后续的分类器中得到充分训练。该策略形成一系列递减的训练子集,因而也生成一系列多样性的基本分类器。类似于boosting与bagging算法,递减样本集成学习方法采用投票策略对基本分类器进行整合。通过严格的十折叠交叉检验,在8个UCI数据集与7种基本分类器上的测试表明,递减样本集成学习算法总体上要优于boosting与bagging算法。  相似文献   

7.
《计算机科学与探索》2019,(11):1935-1944
针对现有常用分类器性能不能满足头部姿态估计对准确率的要求,以及光照变化影响头部姿态估计准确率的问题,提出了一种基于Bagging-SVM集成分类器的头部姿态估计方法。首先,通过图片预处理和Adaboost检测人脸区域算法减少背景、光照等干扰因素对于头部姿态特征提取的影响。其次,采用融合方向梯度直方图(HOG)特征和局部二值模式(LBP)特征分别对人脸的轮廓特征和纹理特征进行提取。然后,通过主成分分析(PCA)对融合的头部姿态特征进行特征选择,抽取其主元特征分量供分类器进行训练。最后,通过Bagging方法构建多个训练数据集,并采用支持向量机(SVM)对每个数据集进行训练,产生多个弱分类器,多个弱分类器投票决定测试样本所属类别。将该算法在Pointing’04数据集、CAS-PEAL-R1数据集和自建数据集上进行验证实验,实验结果表明提出的算法相比线性判别分类器(LDA)、朴素贝叶斯分类器(NB)等常用分类算法具有更高的分类准确率,对光照的变化具有较好的鲁棒性。  相似文献   

8.
组合分类器通过在输入空间中依据一定的规则生成数据集来训练成员分类器。提出一种新的基于核函数的模糊隶属度方法用来分隔数据集,并依据数据集中样本的模糊隶属度将它们分为相对难分和相对易分的数据子集,根据两个数据子集的难易程度训练不同的分类器。并用得到的两类分类器作为成员分类器生成组合分类器。将该组合分类器应用到UCI的标准数据集,实验表明该方法比Bagging和AdaBoost算法具有更好的性能。  相似文献   

9.
Web spam是指通过内容作弊和网页间链接作弊来欺骗搜索引擎,从而提升自身搜索排名的作弊网页,它干扰了搜索结果的准确性和相关性。提出基于Co-Training模型的Web spam检测方法,使用了网页的两组相互独立的特征——基于内容的统计特征和基于网络图的链接特征,分别建立两个独立的基本分类器;使用Co-Training半监督式学习算法,借助大量未标记数据来改善分类器质量。在WEB SPAM-UK2007数据集上的实验证明:算法改善了SVM分类器的效果。  相似文献   

10.
基于多阈值弱学习的Adaboost检测器   总被引:1,自引:1,他引:0       下载免费PDF全文
近年来基于Adaboost的人脸检测算法因其快速和可接受的检测率得到了成功的应用。但采用单阈值作弱分类器显得太弱难于适应复杂的统计分布,且训练过程较慢收敛。为克服这些困难,采用分类树作弱学习器,该学习器以贪婪的的方法用误差测度减少最大化的划分准则划分节点,并由此生成弱分类器,然后采用RAB或GAB方法在给定数据和标签的训练集上将这些弱分类器提升为强分类器。实践结果表明采用多阈值作弱分类器能显著提高分类器性能。  相似文献   

11.
为解决垃圾网页检测过程中的不平衡分类和"维数灾难"问题,提出一种基于随机森林(RF)和欠采样集成的二元分类器算法。首先使用欠采样技术将训练样本集大类抽样成多个子样本集,再将其分别与小类样本集合并构成多个平衡的子训练样本集;然后基于各个子训练样本集训练出多个随机森林分类器;最后用多个随机森林分类器对测试样本集进行分类,采用投票法确定测试样本的最终所属类别。在WEBSPAM UK-2006数据集上的实验表明,该集成分类器算法应用于垃圾网页检测比随机森林算法及其Bagging和Adaboost集成分类器算法效果更好,准确率、F1测度、ROC曲线下面积(AUC)等指标提高至少14%,13%和11%。与Web spam challenge 2007 优胜团队的竞赛结果相比,该集成分类器算法在F1测度上提高至少1%,在AUC上达到最优结果。  相似文献   

12.
为解决垃圾网页检测过程中的“维数灾难”和不平衡分类问题,提出一种基于免疫克隆特征选择和欠采样(US)集成的二元分类器算法。首先,使用欠采样技术将训练样本集大类抽样成多个与小类样本数相近的样本集,再将其分别与小类样本合并构成多个平衡的子训练样本集;然后,设计一种免疫克隆算法遴选出多个最优的特征子集;基于最优特征子集对平衡的子样本集进行投影操作,生成平衡数据集的多个视图;最后,用随机森林(RF)分类器对测试样本进行分类,采用简单投票法确定测试样本的最终类别。在WEBSPAM UK-2006数据集上的实验结果表明,该集成分类器算法应用于垃圾网页检测:与随机森林算法及其Bagging和AdaBoost集成分类器算法相比,准确率、F1测度、AUC等指标均提高11%以上;与其他最优的研究结果相比,该集成分类器算法在F1测度上提高2%,在AUC上达到最优。  相似文献   

13.
针对传统的分类器集成的每次迭代通常是将单个最优个体分类器集成到强分类器中,而其它可能有辅助作用的个体分类器被简单抛弃的问题,提出了一种基于Boosting框架的非稀疏多核学习方法MKL-Boost,利用了分类器集成学习的思想,每次迭代时,首先从训练集中选取一个训练子集,然后利用正则化非稀疏多核学习方法训练最优个体分类器,求得的个体分类器考虑了M个基本核的最优非稀疏线性凸组合,通过对核组合系数施加LP范数约束,一些好的核得以保留,从而保留了更多的有用特征信息,差的核将会被去掉,保证了有选择性的核融合,然后将基于核组合的最优个体分类器集成到强分类器中。提出的算法既具有Boosting集成学习的优点,同时具有正则化非稀疏多核学习的优点,实验表明,相对于其它Boosting算法,MKL-Boost可以在较少的迭代次数内获得较高的分类精度。  相似文献   

14.
Currently, web spamming is a serious problem for search engines. It not only degrades the quality of search results by intentionally boosting undesirable web pages to users, but also causes the search engine to waste a significant amount of computational and storage resources in manipulating useless information. In this paper, we present a novel ensemble classifier for web spam detection which combines the clonal selection algorithm for feature selection and under-sampling for data balancing. This web spam detection system is called USCS. The USCS ensemble classifiers can automatically sample and select sub-classifiers. First, the system will convert the imbalanced training dataset into several balanced datasets using the under-sampling method. Second, the system will automatically select several optimal feature subsets for each sub-classifier using a customized clonal selection algorithm. Third, the system will build several C4.5 decision tree sub-classifiers from these balanced datasets based on its specified features. Finally, these sub-classifiers will be used to construct an ensemble decision tree classifier which will be applied to classify the examples in the testing data. Experiments on WEBSPAM-UK2006 dataset on the web spam problem show that our proposed approach, the USCS ensemble web spam classifier, contributes significant classification performance compared to several baseline systems and state-of-the-art approaches.  相似文献   

15.
赵澄  陈君新  姚明海 《计算机科学》2018,45(Z11):356-360
Web应用高速发展的同时产生了大量安全漏洞,跨站脚本攻击(XSS)就是危害最为严重的Web漏洞之一,而基于规则的传统XSS检测工具难以检测未知的和变形的XSS。为了应对未知的和变形的XSS,文中提出了一种基于支持向量机(SVM)分类器的XSS攻击检测方案。该方案在大量分析XSS攻击样本及其变形样本和正常样本的基础上,提取最具代表性的五维特征并将这些特征向量化,然后进行SVM算法的训练和测试。通过准确率、召回率和误报率3个指标来对分类器的检测效果进行评价,并优化特征提取方式。改进后的SVM分类器与传统工具和普通SVM相比性能均有所提升。  相似文献   

16.
黄铃  李学明 《计算机应用》2013,33(12):3563-3566
针对微博上存在的大量垃圾评论,提出一种基于AdaBoost的微博垃圾评论识别方法。该方法首先提取表示微博评论的特征值向量,由8个特征值组成,然后通过AdaBoost算法在这些特征上训练出若干个比随机预测好的弱分类器,最后将得到的弱分类器加权集合成高精度的强分类器。从实际的热门新浪微博中提取评论数据集进行实验,结果表明所选取的8个特征是有效的,该方法对于微博垃圾评论的识别拥有较高的识别率。  相似文献   

17.
Bo Yu  Zong-ben Xu   《Knowledge》2008,21(4):355-362
The growth of email users has resulted in the dramatic increasing of the spam emails during the past few years. In this paper, four machine learning algorithms, which are Naïve Bayesian (NB), neural network (NN), support vector machine (SVM) and relevance vector machine (RVM), are proposed for spam classification. An empirical evaluation for them on the benchmark spam filtering corpora is presented. The experiments are performed based on different training set size and extracted feature size. Experimental results show that NN classifier is unsuitable for using alone as a spam rejection tool. Generally, the performances of SVM and RVM classifiers are obviously superior to NB classifier. Compared with SVM, RVM is shown to provide the similar classification result with less relevance vectors and much faster testing time. Despite the slower learning procedure, RVM is more suitable than SVM for spam classification in terms of the applications that require low complexity.  相似文献   

18.
基于结构优化的DDAG-SVM上肢康复训练动作识别方法   总被引:1,自引:0,他引:1  
针对上肢康复训练系统中训练评估方法核心的动作识别问题,提出一种面向Brunnstrom 4~5期患者上肢康复训练动作的SODDAG-SVM(Structure-optimized decision directed acyclic graph-support vector machine)多分类识别方法.首先将多分类问题分解成一组二分类问题,并使用支持向量机构建各二分类器,分别采用遗传算法和特征子集区分度准则对各二分类器的核函数参数及特征子集进行优化.然后使用类对的SVM二分类器泛化误差来衡量每个类对的易被分离程度,并由其建立类对泛化误差上三角矩阵.最后由根节点开始,依次根据各节点的泛化误差矩阵,通过选择其中最易被分离类对的SVM分类器构成该节点的方式,来构建SODDAG-SVM多分类器结构.当待预测的实例较少时,直接构建实例经过的SODDAG-SVM部分结构并对实例进行预测;当待预测的实例较多时,先构建完整的SODDAG-SVM结构,再代入所有实例进行预测.通过人体传感技术获得Brunnstrom 4~5阶段上肢康复训练的常用动作样本集,进行SODDAG-SVM动作识别实验,准确率达到了95.49%,结果均优于常规的决策有向无环图(Decision directed acyceic graph,DDAG)和MaxWins方法,实验表明本文方法能有效地提高上肢康复训练动作识别的准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号