首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
为了解决传统分类方法对不平衡数据集中少数类的识别率较低的问题,提出一种基于模糊c-均值与核Fisher判别分析相结合的分类方法.该方法首先采用模糊c-均值算法对样本数据进行聚类,将聚类后的样本数据映射到特征空间中,再对映射后的样本数据采用核Fisher判别分析算法对数据进行分类.在UCI上选取8个不平衡数据进行仿真实验,就分类性能上与其他5种算法作了比较和分析.实验结果表明采用模糊c-均值与核Fisher判别相结合的方法可以获得较高的识别率,能有效地处理不平衡数据集的分类.  相似文献   

2.
根据统计学习理论,间隔大小是反映泛化能力的一个很重要的方面. 受一类支持向量机(SVM)的启发,提出的双边界SVM能分别用2个边界对2类问题分类. 它能在保证分类正确的同时保证分类间隔的最大化,理论上分别从推广性能和不平衡类分布2方面证明了其优越性. 标准数据集上的实验表明,双边界SVM得到的分类间隔要大于SVM, 泛化性有了显著提高;另外,不平衡数据集上分析得到它对少数类识别率有明显提升. 真实入侵数据测试结果表明,双边界SVM算法比边界样本选择算法的检测率高出2%以上.  相似文献   

3.
随着海量数据不断涌入,SVM隐私泄露问题日益严重。在分析已有隐私保护支持向量机基础上,提出一种面向大规模数据的隐私保护学习机(PPLM)。该方法首先通过核心向量机对大规模样本进行采样,然后在核心集上选取两个样本点并将两点连线的法平面作为最优分类面。通过对标准数据集和人工数据集的实验表明,PPLM可有效地解决大规模样本分类问题,且分类效果良好。  相似文献   

4.
将K近邻分类法和支持向量机分类法结合起来,给出一种电信客户流失预测方法,即对边界样本采用加权K近邻分类,而对非边界样本采用改进的支持向量机分类。在公开不平衡数据集和电信数据集上的实验可验证所给方法有效,且能提高少数类的检测精度和总体评价指标。  相似文献   

5.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出基于近邻密度改进的SVM(NDSVM)不平衡数据集分类算法.该算法先计算多数类内每个样本的近邻密度值,然后依据该密度值选出多数类中位于边界区域、靠近边界区域的与少数类数目相等的样本分别与少数类完成SVM初始分类,最后用所得的支持向量机和剩余的多数类样本完成初始分类器迭代优化.人工数据集和UCI数据集的实验结果表明,与WSVM、ALSMOTE -SVM和基本SVM算法相比,本文算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能.  相似文献   

6.
基于PCA改进SMOTE算法,能实现不平衡数据集的均衡化,并以随机森林作为分类器,应用于地质数据进行分类与预测。因原始数据集中的噪声数据可能会引起插值后的数据分布形态的改变,故提出结合PCA算法与SMOTE算法,先进行除噪降维再进行数据插值,改善不平衡数据集的分类性能,并对东天山化探样本数据进行实验,结果表明,新算法能较好地提高分类精度,为地质不平衡数据的分类与预测提供新的思路。  相似文献   

7.
基于分类问题的特点,设计了适用于分类问题的类电磁机制算法,然后设计了基于改造后的类电磁机制算法的最优决策树生成算法,用以解决支持向量机多分类问题.以最大分类间隔为准则,利用类电磁机制算法进行优化,从而生成最优或次优的决策树.在每个决策结点利用传统的支持向量机二分类方法进行分类,最终实现支持向量机多分类.仿真结果表明:这种方法比传统的1-a-1,1-a-r,DAG-SVM,DT-SVM以及GADT-SVM方法有更优的性能.  相似文献   

8.
针对传统半监督支持向量机的高斯核函数无法恰当描述流形数据特性,从而导致流形数据分类精度下降的问题,提出一种基于谱聚类的聚类核半监督支持向量机.利用谱聚类方法在特征向量空间中对原始样本数据进行重新表述,使得在新表述中同一聚类中的样本能够更好地积聚在一起,构建聚类核函数,并进而构造聚类核半监督支持向量机,使样本更好地满足半监督学习必须遵循的聚类假设.研究结果表明:聚类核半监督支持向量机对未标记样本的分类精度高且算法性能稳定,对控制参数的设置不敏感,适于解决流形数据的分类问题.  相似文献   

9.
对于平衡数据集支持向量机(support vector machine,SVM)通常具有很好的分类性能和泛化能力,然而对于不平衡数据集,SVM只能得到次优结果,针对该问题提出了一种基于SVM的AS-Ada Boost SVM分类算法.首先,通过使用ADASYN采样,提高少类样本在边界区域的密度;然后,使用基于径向基核支持向量机(radial basis function kernel mapping support vector machine,RBFSVM)模型弱分类器的Ada Boost SVM算法训练得到决策分类器.通过将该算法在各种不平衡数据集上的测试结果与单纯运用ADASYN技术、Ada Boost SVM、SMOTEBoost等其他分类器进行比较,验证了该算法的有效性和鲁棒性.  相似文献   

10.
针对文本分类问题,从分片线性学习的角度出发,提出了一种文本分类的组合凸线性感知器模型.首先,对文本样本集进行预处理,包括特征选择、特征项赋权等;然后,分别利用生长支持组合凸线性感知器算法(growing support multiconlitron algorithm,GSMA)和支持组合凸线性感知器算法(support multiconlitron algorithm,SMA)构造组合凸线性感知器,对样本集进行分类.该模型基于支持向量机的最大间隔思想,通过集成线性分类器,实现了对2类数据的划分,具有计算简单、适应能力强的优点.在标准文本数据集上的实验结果表明:该模型所构造的分类器具有良好的文本分类性能,与其他典型文本分类方法的对比也说明了该方法的有效性.  相似文献   

11.
为了扩展支持向量机在大规模数据集和成批出现数据领域的应用,提出了一种基于支持向量机的增量式学习算法.利用标准的支持向量机算法训练得到初始的目标概念,通过增量式步骤不断更新初始的目标概念.更新模型是求解一个与标准支持向量机具有类似的数学形式的凸二次规划问题.证明了在可分情况下,如果新增加的样本不是位于边界区,那么增量式过程既不会改变分类平面也不会改变分类平面的表达.与现有的增量式支持向量机算法相比,该算法无需额外计算就可实现增量式的逆过程并且训练时间与增量式步骤数成反比.实验结果表明,该算法满足稳定性、能够不断改进性能以及性能回复三个准则.  相似文献   

12.
稀疏最小二乘支持向量机   总被引:4,自引:0,他引:4  
针对大规模数据集的回归和分类问题,改进了最小二乘支持向量机.以再生核希尔伯特空间中的线性分析为基础,把样本集映射到再生空间中,然后张成再生空间的一个线性子空间,并求出这个子空间的基.利用基线性表示子空间中的其他元素,减小了求解矩阵的维数,通过求解规模相对较小的线性方程组完成对支持向量机的训练.采用该方法对较大规模的数据样本进行了回归和分类仿真试验,并与普通的最小二乘支持向量机进行比较.结果表明,采用该方法解决复杂非线性函数的回归和分类问题,不但可以得到稀疏解,而且计算速度比普通最小二乘支持向量机提高了约20%.  相似文献   

13.
面向不平衡问题的集成特征选择   总被引:3,自引:1,他引:2  
传统的特征选择方法基本上是以精度为优化目标,没有充分考虑数据样本类别分布倾斜性,在数据分布不平衡的数据集上性能表现不理想。在不平衡数据集上通过有放回的抽样方法独立地从数据集大类样本集中随机抽取多个样本子集,使每次随机抽取的样本数量与小类样本数量一致,然后将各抽取的样本子集分别与小类样本集组合成多个新的训练样本集。对多个新样本集的特征子集以集成学习的方式采用投票机制进行投票,数据集的最终特征子集以得票数目超过半数的特征共同组合而成。在UCI不平衡数据集上的实验结果显示,提出的方法表现出了较好的性能,是一种能够处理不平衡问题的有效特征选择方法。  相似文献   

14.
The paper proposes a new fuzzy SVM, called CI-FSVM(Class Imbalance Fuzzy Support Vector Machine) short for which is based on imbalanced datasets classification. By improving penalty functions, we reduce the sensitivity of the model for imbalanced datasets with “overlap”. In addition, the parameters in SVM models are optimized by the grid-parameter-search algorithm. The results show that the CI-FSVM has a better effect in imbalanced datasets classification compared with other models. It not only has a higher overall accuracy, but also improves are judgment accuracy when dealing with the minority classifications.  相似文献   

15.
局部密度嵌入的结构单类支持向量机   总被引:1,自引:1,他引:0  
针对现有单类分类器对目标数据先验信息考虑的不足,在结构单类支持向量机(structured one-class support vector machine,SOCSVM)中嵌入局部密度信息,提出局部密度嵌入的结构单类支持向量机(SOCSVM with local density embedding ldSOCSVM)。借助K近邻(K-nearest neighbor, KNN)揭示目标数据局部密度,并进一步诱导出权重因子作用于样本点。该算法充分利用目标数据的全局信息及局部密度信息,从而提高分类器的泛化能力。UCI数据集上的实验结果验证了ldSOCSVM的有效性。  相似文献   

16.
支持向量分类器的模糊积分集成方法   总被引:3,自引:0,他引:3  
针对常规的基于投票方法的支持向量分类器影响集成分类器的泛化能力的问题,提出一种基于模糊积分的支持向量分类器集成方法,不仅考虑各子支持向量分类器输出的客观信息,同时还考虑各子分类器输出对于最终决策的重要性,提高了集成分类器的泛化能力.仿真试验表明,该方法的分类准确率明显优于单一支持向量分类器和传统基于投票方法的支持向量分类器集成策略.  相似文献   

17.
基于SVM及电流牵扯效应的金属缺陷分类识别方法   总被引:1,自引:1,他引:0  
金属在服役期间经常存在一些由应力、腐蚀和疲劳造成的缺陷,在众多的缺陷检测技术中,交流电位法作为一种无损检测技术在检测腐蚀坑和裂纹方面得到了广泛应用。用交流电位法检测不同缺陷时,由于几何形态的差异,缺陷深度的计算方法也不相同。因此需要在计算缺陷深度之前对所检测区域的缺陷类型做出识别。本文目的在于寻找一种高精度的缺陷分类识别方法。并且针对腐蚀坑和裂纹这两种最常见的金属缺陷,根据其对电流的牵扯效应不同,提出利用邻近检测区域的4个牵扯因子作为缺陷区域的特征向量建立分类模型。在大量仿真计算的基础上,分别建立坑蚀和裂纹的特征向量集,并由这些数据集训练得到基于遗传算法(GA)优化的支持向量机(SVM)分类模型。仿真测试结果中数据测试集分类精度较高,平板实验也得到了较高的识别精度。实验结果表明文中提出的缺陷分类识别方法对腐蚀坑和裂纹的分类识别具有很高的精度。  相似文献   

18.
支持向量机学习器往往是通过求解原二次优化问题的对偶问题获得的。诸多研究表明,支持向量机原始问题同样可以适当地处理约束项,同时,突破以前原二次优化问题不能利用核函数的认识误区,通过引入核函数建立一个无约束优化问题,利用传统优化方法进行求解。理论分析和实验表明,支持向量机原始问题也能实现对数据的高效学习,而且在大规模数据学习问题上,较之求解对应的对偶问题获得的近似解更可靠,参数选择也更好进行。  相似文献   

19.
为了解决大规模数据中的异常检测问题,提出了基于支持向量数据描述(SVDD)的高效离群数据检测算法。该算法的核心思想为:首先利用SVDD获得包含单类数据的最小球形边界,然后通过该边界对未知样本数据进行分类,并利用最小闭包球算法对SVDD分类器进行优化求解。在UCI机器学习数据集和入侵检测数据集上将该算法与其他离群数据检测算法进行了实验比较,结果表明,该算法不仅获得了更高的检测准确率,而且具有较低的运行时间。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号