首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
曹路 《计算机科学》2016,43(12):97-100
传统的支持向量机在处理不平衡数据时效果不佳。为了提高少类样本的识别精度,提出了一种基于支持向量的上采样方法。首先根据K近邻的思想清除原始数据集中的噪声;然后用支持向量机对训练集进行学习以获得支持向量,进一步对少类样本的每一个支持向量添加服从一定规律的噪声,增加少数类样本的数目以获得相对平衡的数据集;最后将获得的新数据集用支持向量机学习。实验结果显示,该方法在人工数据集和UCI标准数据集上均是有效的。  相似文献   

2.
基于最小二乘支持向量机的非平衡分布数据分类   总被引:1,自引:1,他引:0       下载免费PDF全文
支持向量机是在统计学习理论基础上发展起来的一种十分有效的分类方法。然而当两类样本数量相差悬殊时,会引起支持向量机分类能力的下降。为了提高支持向量机的非平衡数据分类能力,文章分析了最小二乘支持向量机的本质特征,提出了一种非平衡数据分类算法。在UCI标准数据集上进行的实验表明,该算法能够有效提高支持向量机对非均衡分布数据的正确性,尤其对于大规模训练集的情况,该算法在保证不损失训练精度的前提下,使训练速度有较大提高。  相似文献   

3.
在机器学习及其分类问题时经常会遇到非平衡数据集,为了提高非平衡数据集分类的有效性,提出了基于商空间理论的过采样分类算法,即QMSVM算法。对训练集中多数类样本进行聚类结构划分,所得划分结果和少数类样本合并进行线性支持向量机(SVM)学习,从而获取多数类样本的支持向量和错分的样本粒;另一方面,获取少数类样本的支持向量和错分的样本,进行SMOTE采样,最后把上述得到的两类样本合并进行SVM学习,这样来实现学习数据集的再平衡处理,从而得到更加合理的分类超平面。实验结果表明,和其他几种算法相比,所提算法虽在正确分类率上有所降低,但较大改善了g_means值和acc+值,且对非平衡率较大的数据集效果会更好。  相似文献   

4.
郭虎升  王文剑 《软件学报》2013,24(11):2535-2547
粒度支持向量机(granular support vector machine,简称GSVM)可以有效提高支持向量机(support vectormachine,简称SVM)的学习效率,但由于经典GSVM 通常将粒用个别样本替代,且粒划和学习在不同空间进行,因而不可避免地改变了原始数据分布,从而可能导致泛化能力降低.针对这一问题,通过引入动态层次粒划的方法,设计了动态粒度支持向量回归(dynamical granular support vector regression,简称DGSVR)模型.该方法首先将训练样本映射到高维空间,使得在低维样本空间无法直接得到的分布信息显示出来,并在该特征空间中进行初始粒划.然后,通过衡量样本粒与当前回归超平面的距离,找到含有较多回归信息的粒,并通过计算其半径和密度进行深层次的动态粒划.如此循环迭代,直到没有信息粒需要进行深层粒划时为止.最后,通过动态粒划过程得到的不同层次的粒进行回归训练,在有效压缩训练集的同时,尽可能地使含有重要信息的样本在最终训练集中保留下来.在基准函数数据集及UCI 上的回归数据集上的实验结果表明,DGSVR 方法能够以较快的速度完成动态粒划的过程并收敛,在保持较高训练效率的同时可有效提高传统粒度支持向量回归机(granular support vector regression machine,简称GSVR)的泛化性能.  相似文献   

5.
通过多维关联规则挖掘,将粒度计算(Granular Computing,GrC)和支持向量机(Support Vector Machine,SVM)有效融合,提出一种粒度支持向量机(Granular SVM,GSVM)学习方法,称为AR-GSVM。该方法用于非平衡数据处理时,不仅可以有效降低分类器的复杂性,而且本质上可以进行并行计算以提高学习效率,同时提高分类器的泛化能力。考虑到保持数据在原始空间和特征空间的分布一致性,在AR-GSVM的基础上又提出核空间上的粒度支持向量机学习方法,称为AR-KGSVM,该方法具有更好的泛化性能。通过在UCI数据集上的实验表明:AR-GSVM和AR-KGSVM的泛化能力优于一些常用非平衡数据处理的方法。  相似文献   

6.
黄华娟  韦修喜  周永权   《智能系统学报》2019,14(6):1271-1277
针对传统的粒度支持向量机(granular support vector machine, GSVM)将训练样本在原空间粒化后再映射到核空间,导致数据与原空间的分布不一致,从而降低GSVM的泛化能力的问题,本文提出了一种基于模糊核聚类粒化的粒度支持向量机学习算法(fuzzy kernel cluster granular support vector machine, FKC-GSVM)。FKC-GSVM通过利用模糊核聚类直接在核空间对数据进行粒的划分和支持向量粒的选取,在相同的核空间中进行支持向量粒的GSVM训练。在UCI数据集和NDC大数据上的实验表明:与其他几个算法相比,FKC-GSVM在更短的时间内获得了精度更高的解。  相似文献   

7.
局部支持向量机的研究进展   总被引:1,自引:0,他引:1  
支持向量机是一种用途广泛的分类器,标准的支持向量机在预测每个样本点的类别时使用了训练集中所有的样本信息(即全局信息),然而这种全局化的方法并不蕴含一致性。局部支持向量机的提出符合"一致性蕴含局部性"的思路。首先回顾局部支持向量机的主要思想,然后阐述各种关于局部支持向量机的改进,并提出基于协同聚类的局部支持向量机用于大规模数据集,最后对局部支持向量机进行总结。  相似文献   

8.
粒度支持向量机(GSVM)在处理分布均匀的数据集时较有效,但现实生活中数据集的分布往往是不可预测的,且分布不均匀.文中提出一种动态粒度支持向量机(DGSVM)学习算法,根据粒的不同分布自动粒划分,使SVM可在不同层次的粒上训练.标准数据集上的实验表明,与GSVM相比,DGSVM具有更好的分类性能.  相似文献   

9.
电信流失客户数据精确预测是挽留客户的有效手段.电信业的管理中对收费、投诉、业务受理等问题,显然是一种典型的非平衡样本,传统用标准的支持向量机没有考虑样本分布不平衡问题,虽然在样本数据平衡前提下具有较好的预测精度,但对于不平衡电信客户数据,预测精度大大下降.为提高预测精度,针对支持向量机处理不平衡样本时的缺陷,提出了基于代价敏感学习的支持向量机模型.模型利用代价敏感学习对不平衡样本集分别采用不同惩罚系数,然后建立电信客户流失预测模型,最后对实际电信客户流失数据进行测试.通过与标准支持向量机、神经网络对比,结果表示模型提高了预测精度,有效地解决了数据集非平衡性问题,是一种有效的电信客户流失预测方法.  相似文献   

10.
针对现有支持向量机多类分类算法在分类精度上的不足,提出一种改进的支持向量机决策树多类分类算法。为了最大限度地减少误差积累的影响,该算法利用投影向量的思想作为衡量类分离性的标准,由此构建非平衡决策树,并且在决策树节点处对正负样本选取不同的惩罚因子来处理不平衡数据集的影响,最后引入KNN算法与SVM共同识别数据集。通过在手写体数字识别数据集上的仿真实验,分析比较各种方法,表明该方法能有效提高分类精度。  相似文献   

11.
赵帅群  郭虎升    王文剑 《智能系统学报》2019,14(6):1243-1254
粒度支持向量机(granular support vector machine,GSVM)引入粒计算的方式对原始数据集进行粒度划分以提高支持向量机(support vector machine, SVM)的学习效率。传统GSVM采用静态粒划分机制,即通过提取划分后数据簇中的代表信息进行模型训练,有效地提升了SVM的学习效率,但由于GSVM对信息无差别的粒度划分导致对距离超平面较近的强信息粒提取不足,距离超平面较远的弱信息粒被过多保留,影响了SVM的学习性能。针对这一问题,本文提出了采用划分融合双向控制的粒度支持向量机方法(division-fusion support vector machine,DFSVM)。该方法通过动态数据划分融合的方式,选取超平面附近的强信息粒进行深层次的划分,同时将距离超平面较远的弱信息粒进行选择性融合,以动态地保持训练样本规模的稳定性。通过实验表明,采用划分融合的方法能够在保证模型训练精度的条件下显著提升SVM的学习效率。  相似文献   

12.
A new support vector machine, SVM, is introduced, called GSVM, which is specially designed for bi-classification problems where balanced accuracy between classes is the objective. Starting from a standard SVM, the GSVM is obtained from a low-cost post-processing strategy by modifying the initial bias. Thus, the bias for GSVM is calculated by moving the original bias in the SVM to improve the geometric mean between the true positive rate and the true negative rate. The proposed solution neither modifies the original optimization problem for SVM training, nor introduces new hyper-parameters. Experimentation carried out on a high number of databases (23) shows GSVM obtaining the desired balanced accuracy between classes. Furthermore, its performance improves well-known cost-sensitive schemes for SVM, without adding complexity or computational cost.  相似文献   

13.
In this study, an intelligent system based on genetic-support vector machines (GSVM) approach is presented for classification of the Doppler signals of the heart valve diseases. This intelligent system deals with combination of the feature extraction and classification from measured Doppler signal waveforms at the heart valve using the Doppler ultrasound. GSVM is used in this study for diagnosis of the heart valve diseases. The GSVM selects of most appropriate wavelet filter type for problem, wavelet entropy parameter, the optimal kernel function type, kernel function parameter, and soft margin constant C penalty parameter of support vector machines (SVM) classifier. The performance of the GSVM system proposed in this study is evaluated in 215 samples. The test results show that this GSVM system is effective to detect Doppler heart sounds. The averaged rate of correct classification rate was about 95%.  相似文献   

14.
Granular support vector machine (GSVM) is a new learning model based on Granular Computing and Statistical Learning Theory. Compared with the traditional SVM, GSVM improves the generalization ability and learning efficiency to a large extent. This paper mainly reviews the research progress of GSVM. Firstly, it analyzes the basic theory and the algorithm thought of GSVM, then tracking describes the research progress of GSVM including the learning model and specific applications in recent years, finally points out the research and development prospects.  相似文献   

15.
章少平  梁雪春 《计算机应用》2015,35(5):1306-1309
传统的分类算法大都建立在平衡数据集的基础上,当样本数据不平衡时,这些学习算法的性能往往会明显下降.对于非平衡数据分类问题,提出了一种优化的支持向量机(SVM)集成分类器模型,采用KSMOTE和Bootstrap对非平衡数据进行预处理,生成相应的SVM模型并用复合形算法优化模型参数,最后利用优化的参数并行生成SVM集成分类器模型,采用投票机制得到分类结果.对5组UCI标准数据集进行实验,结果表明采用优化的SVM集成分类器模型较SVM模型、优化的SVM模型等分类精度有了明显的提升,同时验证了不同的bootNum取值对分类器性能效果的影响.  相似文献   

16.
处理不平衡数据分类时,传统支持向量机技术(SVM)对少数类样本识别率较低。鉴于SVM+技术能利用样本间隐藏信息的启发,提出了多任务学习的不平衡SVM+算法(MTL-IC-SVM+)。MTL-IC-SVM+基于SVM+将不平衡数据的分类表示为一个多任务的学习问题,并从纠正分类面的偏移出发,分别赋予多数类和少数类样本不同的错分惩罚因子,且设置少数类样本到分类面的距离大于多数类样本到分类面的距离。UCI数据集上的实验结果表明,MTL-IC-SVM+在不平衡数据分类问题上具有较高的分类精度。  相似文献   

17.
Support vector machine (SVM) is an effective tool for financial distress identification (FDI). However, a potential issue that keeps SVM from being efficiently applied in identifying financial distress is how to select features in SVM-based FDI. Although filters are commonly employed, yet this type of approach does not consider predictive capability of SVM itself when selecting features. This research devotes to constructing a statistics-based wrapper for SVM-based FDI by using statistical indices of ranking-order information from predictive performances on various parameters. This wrapper consists of four levels, i.e., data level, model level based on SVM, feature ranking-order level, and the index level of feature selection. When data is ready, predictive accuracies of a type of SVM model, i.e., linear SVM (LSVM), polynomial SVM (PSVM), Gaussian SVM (GSVM), or sigmoid SVM (SSVM), on various pairs of parameters are firstly calculated. Then, performances of SVM models on each candidate feature are transferred to be ranking-order indices. After this step, the two statistical indices of mean and standard deviation values are calculated from ranking-order information on each feature. Finally, the feature selection indices of SVM are produced by a combination of statistical indices. Each feature with its feature selection index being smaller than half of the average index is selected to compose the optimal feature set. With a dataset collected for Chinese FDI prior to 3 years, we statistically verified the performance of this statistics-based wrapper against a non-statistics-based wrapper, two filters, and non-feature selection for SVM-based FDI. Results from unseen dataset indicate that GSVM with the statistics-based wrapper significantly outperformed the other SVM models on the other feature selection methods and two wrapper-based classical statistical models.  相似文献   

18.
史岩  李小民  齐晓慧 《计算机测量与控制》2012,20(5):1203-1204,1235
支持向量机对于非平衡数据的分类效果不是十分理想;某些新型装备的故障数据较少且难于采集,正常数据则能够较为容易获得足够数量;这就使得支持向量机的诊断效果受到较大影响,如诊断精度降低,漏报、虚警概率的提高;文章借鉴距离最大熵样本欠采样原理,并引入条件熵的概念,提出了距离条件最大熵欠采样策略,用以改善支持向量机对于非平衡样本的诊断性能,实验表明该方法可行有效。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号