首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
采用模式识别方法,从切削过程的动态切削力和振动信号中抽取特征,对刀具的磨损状态进行了判别。通过时间序列分析建立反映切削状态的数学模型,从动态数据中凝聚信息,构成用于判别的特征向量。在分类器的设计方面,采用了在近邻分类法基础上的三种改进算法:编辑技术、边界抽取和边界补缀。采用上述方法处理的浓缩样本集,其识别率接近大样本集的 1-NNR 的结果,分类速度约提高了6倍。可望用子对刀具磨损的在线监控。  相似文献   

2.
王莉莉  付忠良  陶攀  胡鑫 《计算机应用》2017,37(7):1994-1998
针对不平衡分类中小类样本识别率低问题,提出一种基于主动学习不平衡多分类AdaBoost改进算法。首先,利用主动学习方法通过多次迭代抽样,选取少量的、对分类器最有价值的样本作为训练集;然后,基于不确定性动态间隔的样本选择策略,降低训练集的不平衡性;最后,利用代价敏感方法对多分类AdaBoost算法进行改进,对不同的类别给予不同的错分代价,调整样本权重更新速度,强迫弱分类器"关注"小类样本。在临床经胸超声心动图(TTE)测量数据集上的实验分析表明:与多分类支持向量机(SVM)相比,心脏病总体识别率提升了5.9%,G-mean指标提升了18.2%,瓣膜病(VHD)识别率提升了0.8%,感染性心内膜炎(IE)(小类)识别率提升了12.7%,冠心病(CAD)(小类)识别率提升了79.73%;与SMOTE-Boost相比,总体识别率提升了6.11%,G-mean指标提升了0.64%,VHD识别率提升了11.07%,先心病(CHD)识别率提升了3.69%。在TTE数据集和4个UCI数据集上的实验结果表明,该算法在不平稳多分类时能有效提高小类样本识别率,并且保证其他类别识别率不会大幅度降低,综合提升分类器性能。  相似文献   

3.
SVM在处理不平衡数据分类问题(class imbalance problem)时,其分类结果常倾向于多数类。为此,综合考虑类间不平衡和类内不平衡,提出一种基于聚类权重的分阶段支持向量机(WSVM)。预处理时,采用K均值算法得到多数类中各样本的权重。分类时,第一阶段根据权重选出多数类内各簇边界区域的与少数类数目相等的样本;第二阶段对选取的样本和少数类样本进行初始分类;第三阶段用多数类中未选取的样本对初始分类器进行优化调整,当满足停止条件时,得到最终分类器。通过对UCI数据集的大量实验表明,WSVM在少数类样本的识别率和分类器的整体性能上都优于传统分类算法。  相似文献   

4.
处理不平衡数据分类时,传统支持向量机技术(SVM)对少数类样本识别率较低。鉴于SVM+技术能利用样本间隐藏信息的启发,提出了多任务学习的不平衡SVM+算法(MTL-IC-SVM+)。MTL-IC-SVM+基于SVM+将不平衡数据的分类表示为一个多任务的学习问题,并从纠正分类面的偏移出发,分别赋予多数类和少数类样本不同的错分惩罚因子,且设置少数类样本到分类面的距离大于多数类样本到分类面的距离。UCI数据集上的实验结果表明,MTL-IC-SVM+在不平衡数据分类问题上具有较高的分类精度。  相似文献   

5.
快速Foley—Sammon鉴别变换及脸象鉴别   总被引:7,自引:0,他引:7       下载免费PDF全文
为了解决小样本情况下,类内散布矩阵不可逆时,Foley-Sammon最优鉴别矢量集的求解问题,给出了一种快速近似算法,首先从理论上说明了当类内散布矩阵不可逆时,将在原始特征空间内求解最佳鉴别矢量集的问题映射到等于或小于c-1(c为样本类别数)维的欧氏空间内进行是可行的,由于样本类别数远远小于原始特征空间的维数,故该算法不仅大大减少了特征抽取的时间,也提高了分类识别的速度,在ORL标准人脸库上的试验结果表明,该算法不仅在识别率和识别时间上优于传统的扰动法和补空间法,而且比经典的特征脸方法和Fisher脸方法更为有效。  相似文献   

6.
针对风机数据集的不平衡问题,提出了一种BSMOTE-Sequence采样算法,在合成新样本时综合考虑空间和时间特征,并对新样本进行清洗,从而有效减少噪声点的生成。首先,根据每个少数类样本的近邻样本的类别比例,将少数类样本划分为安全类样本、边界类样本和噪声类样本。然后,对每个边界类样本都遴选出空间距离、时间跨度最接近的少数类样本集,利用线性插值法合成新样本,并过滤掉噪声类样本以及类间重叠样本。最后,以支持向量机(SVM)、卷积神经网络(CNN)、长短期记忆(LSTM)人工神经网络作为风机齿轮箱故障检测模型,F1-Score、曲线下面积(AUC)和G-mean作为模型性能评价指标,在真实风机数据集上把所提算法与常用的多种采样算法进行对比,实验结果表明:相比已有算法,BSMOTE-Sequence算法所生成样本的分类效果更好,使得检测模型的F1-Score、AUC和G-mean平均提高了3%,该算法能有效地适用于数据具有时序规律且不平衡的风机故障检测领域。  相似文献   

7.
学习样本的质量和数量对于智能数据分类系统至关重要,但在数据分类系统中没有一个通用的良好方法用于发现有意义的样本。以此为动机,提出数据集合凸边界的概念,给出了快速发现有意义样本集合的方法。首先,利用箱型函数对学习样本集合中的异常和特征不全样本进行清洗;接着,提出数据锥的概念,对归一化的学习样本进行锥形分割;最后,对每个锥形样本子集进行中心化,以凸边界为基础提取距离凸边界差异极小的样本构成凸边界样本集合。实验在12个UCI数据集上进行,并与高斯朴素贝叶斯(GNB)、决策树(CART)、线性判别分析(LDA)、提升算法(AdaBoost)、随机森林(RF)和逻辑回归(LR)这六种经典的数据分类算法进行对比。结果表明,各个算法在凸边界样本集合的训练时间显著缩短,同时保持了分类性能。特别地,对包含噪声数据较多的数据集,如剖腹产、电网稳定性、汽车评估等数据集,凸边界样本集合能使分类性能得到提升。为了更好地评价凸边界样本集合的效率,以样本变化率和分类性能变化率的比值定义了样本清洗效率,并用该指标来客观评价凸边界样本的意义。清洗效率大于1时说明方法有效,且数值越高效果越好。在脉冲星数据集合上,所提方法对GNB算法的清洗效率超过68,说明所提方法性能优越。  相似文献   

8.
王林  郭娜娜 《计算机应用》2017,37(4):1032-1037
针对传统分类技术对不均衡电信客户数据集中流失客户识别能力不足的问题,提出一种基于差异度的改进型不均衡数据分类(IDBC)算法。该算法在基于差异度分类(DBC)算法的基础上改进了原型选择策略。在原型选择阶段,利用改进型的样本子集优化方法从整体数据集中选择最具参考价值的原型集,从而避免了随机选择所带来的不确定性;在分类阶段,分别利用训练集和原型集、测试集和原型集样本之间的差异性构建相应的特征空间,进而采用传统的分类预测算法对映射到相应特征空间内的差异度数据集进行学习。最后选用了UCI数据库中的电信客户数据集和另外6个普通的不均衡数据集对该算法进行验证,相对于传统基于特征的不均衡数据分类算法,DBC算法对稀有类的识别率平均提高了8.3%,IDBC算法对稀有类的识别率平均提高了11.3%。实验结果表明,所提IDBC算法不受类别分布的影响,而且对不均衡数据集中稀有类的识别能力优于已有的先进分类技术。  相似文献   

9.
采样技术与ELM分类算法进行结合可提高少数类样本的分类精度,但现有的大多数结合ELM的采样方法并未考虑到样本的不平衡程度及样本内部的分布情况,采样技术过于单一,导致分类模型的效率低下,少数类样本的识别率不高。针对此问题,提出了一种基于DPC聚类的重采样技术结合ELM的不平衡数据分类算法,首先根据数据集的不平衡程度分2种情况构建一个混合采样模型来平衡数据集;然后在此模型上运用DPC聚类算法分别对多数类样本和少数类样本进行分析处理,解决数据中存在的类内不平衡和噪声问题,使得2类样本相对均衡;最后使用ELM分类算法对得到的数据集进行分类。实验结果表明,与同类型分类算法进行比较,所提算法的2个分类性能指标在实验数据集上都有明显提升。  相似文献   

10.
针对分类识别算法在行为识别中存在识别率低和实时性差的问题,提出了一种线性近似稀疏表示分类的正交鉴别投影(LASRC-ODP)算法用于行为识别。LASRC-ODP算法将高维数据投影到低维空间时,最小化类内残差和最大化类间残差,同时利用投影矩阵的正交约束,增强鉴别结果。然后与LASRC分类相结合,将训练样本构成过完备字典,利用L2 范数求解稀疏系数,优化了求解复杂度,加快了计算速度,得到特征更易区分的样本,最后根据L1范数和残差找出对应类别,保证了强鲁棒性。采用KTH行为数据库进行实验,可使LASRC分类时识别率为97.1%,实验结果表明本文算法识别率高,且抗噪和鲁棒性强,为行为识别的研究提供了一种新思路。  相似文献   

11.
过采样和欠采样方法是处理非平衡数据集分类的常用方法,但使用单一的采样算法可能造成少数类样本过拟合或者丢失含有重要信息的样本。提出了基于分类超平面的混合采样算法SVM_HS(hybrid sampling algorithm based on support vector machine),旨在克服SVM算法在处理非平衡数据时分类超平面容易偏向少数类样本的问题。该算法首先利用SVM算法得到分类超平面。然后迭代进行混合采样,主要包括:(1)删除离分类超平面较远的一些多数类样本;(2)对靠近真实类边界的少数类样本用SMOTE(synthetic minority oversampling technique)过采样,使分类超平面向着真实类边界方向偏移。实验结果表明相比其他相关算法,该算法的F-value值和G-mean值均有较大提高。  相似文献   

12.
王庆人 《自动化学报》1988,14(2):106-111
本文提出一种浓缩近邻分类器BDPATCH.其浓缩集从编辑过的训练集经显露和补缀边 界模式产生,具有Bayes渐近最优性.对BDPATCH和其它已有的CNN算法进行了比较, 结果表明这种新的分类器具有高识别率,同时又是快速的.  相似文献   

13.
针对SVM方法在大样本情况下学习和分类速度慢的问题,提出了大样本情况下的一种新的SVM迭代训练算法。该算法利用K均值聚类算法对训练样本集进行压缩,将聚类中心作为初始训练样本集,减少了样本间的冗余,提高了学习速度。同时为了保证学习的精度,采用往初始训练样本集中加入边界样本和错分样本的策略来更新训练样本集,迭代训练直到错分样本数目不变为止。该文提出的基于K均值聚类的SVM迭代算法能在保持学习精度的同时,减小训练样本集及决策函数的支持向量集的规模,从而提高学习和分类的速度。  相似文献   

14.
基于乘性规则的支持向量域分类器   总被引:18,自引:0,他引:18  
该文提出了一种基于支持向量域描述(SVDD)的学习分类器.在两类样本分类中,该算法在训练时通过对1类样本的描述求取包含1类样本的球形边界.然后通过该边界对两类样本数据进行分类,并且在求取边界的优化问题中,采用乘性规则来直接求取Lagrange乘子,而不是用传统的二次优化方法.该文所获得的学习算法和支持向量机(SVM)与序列最小优化(SMO)算法相比,不仅降低了样本的采集代价,而且在优化速度上有了很大提高.通过CBCL人脸库的仿真实验.将该算法和SVM、SOM算法的实验结果进行对比,说明了该学习算法的有效性.  相似文献   

15.
KNN及其改进算法进行分类时,如样本集中、样本过少或各类样本的密度差异较大,都将会影响最后的分类精度。提出一种基于聚类技术的小样本集KNN分类算法。通过聚类和剪理,形成各类的样本密度接近的新的样本集,并利用该新样本集对类标号未知数据对象进行类别标识。通过使用标准数据集的测试,发现该算法能够提高KNN的分类精度,取得了较满意的结果。  相似文献   

16.
一种非平衡分布数据的支持向量机新算法   总被引:1,自引:0,他引:1  
支持向量机是近几年发展起来的机器学习方法,它是利用接近边界的少数向量来构造一个最优分类面。然而当两类中的样本数量差别悬殊时,支持向量机的分类能力会下降。为了解决此问题,文中提出了一种改进的支持向量机算法——DFP-SVM算法。实验表明,此方法在解决两类样本数量十分不均衡问题时有着很强的分类能力。  相似文献   

17.
针对少数类合成过采样技术(Synthetic Minority Oversampling Technique,SMOTE)及其改进算法在不平衡数据分类问题中分类效果不佳,提出了基于K最邻近算法(K-NearestNeighbor,KNN)和自适应的过采样方法(Oversampling Method Based on KNN and Adaptive,KAO)。首先,利用KNN去除噪声样本;其次,根据少数类样本K近邻样本中多数类样本数,自适应给少数类样本分配过采样权重;最后,利用新的插值方式生成新样本平衡数据集。在KEEL公开的数据集上进行实验,将提出的KAO算法与SMOTE及其改进算法进行对比,在F1值和g-mean上都有所提升。  相似文献   

18.
针对数据识别分类在传统的支持向量机(SVM)个体分类器上正确识别率不理想的问题,提出一种基于代价敏感思想(cost-sensitive)和自适应增强(AdaBoost)的SVM集成数据分类算法(CAB-SVM)。在自适应增强算法每次迭代训练SVM弱分类器之前,根据样本总数设置初始样本权值,并抽取样本组成临时训练集训练SVM弱分类器。其中在权重迭代更新阶段,赋予被分错样本更高的误分代价,使得被分错样本权重增加更快,有效地减少了算法迭代次数。同时,算法迭代过程极大地优化了个体分类器的识别鲁棒性能,使得提出的CAB-SVM算法获得了更优越的数据分类性能。利用UCI数据样本集的实验结果表明CAB-SVM分类算法的正确识别率高于SVM和SVME算法。  相似文献   

19.
目的 在基于图像集的分类任务中,用SPD (symmetric positive definite)矩阵描述图像集,并考虑所得到的黎曼流形,已被证明对许多分类任务有较好的效果。但是,已有的经典分类算法大多应用于欧氏空间,无法直接应用于黎曼空间。为了将欧氏空间的分类方法应用于解决图像集的分类,综合考虑SPD流形的LEM (Log-Euclidean metric)度量和欧氏空间分类算法的特性,实现基于图像集的分类任务。方法 通过矩阵的对数映射将SPD流形上的样本点映射到切空间中,切空间中的样本点与图像集是一一对应的关系,此时,再将切空间中的样本点作为欧氏空间中稀疏表示分类算法的输入以实现图像集的分类任务。但是切空间样本的形式为对称矩阵,且维度较大,包含一定冗余信息,为了提高算法的性能和运行效率,使用NYSTRÖM METHOD和(2D)2PCA (two-directional two-dimensional PCA)两种方法来获得包含图像集的主要信息且维度更低的数据表示形式。结果 在实验中,对人脸、物体和病毒细胞3种不同的对象进行分类,并且与一些用于图像集分类的经典算法进行对比。实现结果表明,本文算法不仅具有较高的识别率,而且标准差也相对较小。在人脸数据集上,本文算法的识别率可以达到78.26%,比其他算法高出10%左右,同时,具有最小的标准差2.71。在病毒数细胞据集上,本文算法的识别率可以达到58.67%,在所有的方法中识别率最高。在物体识别的任务中,本文算法的识别率可以达到96.25%,标准差为2.12。结论 实验结果表明,与一些经典的基于图像集的分类算法对比,本文算法的识别率有较大的提高且具有较小的标准差,对多种数据集有较强的泛化能力,这充分说明了本文算法可以广泛应用于解决基于图像集的分类任务。但是,本文是通过(2D)2PCA和NYSTRÖM METHOD对切空间中样本进行降维来获得更低维度的样本,以提高算法的运行速度和性能。如何直接构建维度更低,且具有判别性的SPD流形将是下一步的研究重点。  相似文献   

20.
用于不平衡数据分类的0阶TSK型模糊系统   总被引:3,自引:0,他引:3  
顾晓清  蒋亦樟  王士同 《自动化学报》2017,43(10):1773-1788
处理不平衡数据分类时,传统模糊系统对少数类样本识别率较低.针对这一问题,首先,在前件参数学习上,提出了竞争贝叶斯模糊聚类(Bayesian fuzzy clustering based on competitive learning,BFCCL)算法,BFCCL算法考虑不同类别样本聚类中心间的排斥作用,采用交替迭代的执行方式并通过马尔科夫蒙特卡洛方法获得模型参数最优解.其次,在后件参数学习上,基于大间隔的策略并通过参数调节使得少数类到分类面的距离大于多数类到分类面的距离,该方法能有效纠正分类面的偏移.基于上述思想以0阶TSK型模糊系统为具体研究对象构造了适用于不平衡数据分类问题的0阶TSK型模糊系统(0-TSK-IDC).人工和真实医学数据集实验结果表明,0-TSK-IDC在不平衡数据分类问题中对少数类和多数类均具有较高的识别率,且具有良好的鲁棒性和可解释性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号