共查询到10条相似文献,搜索用时 15 毫秒
1.
针对标准的近似支持向量机(PSVM)没有考虑样本分布不平衡的问题,提出一种改进的PSVM算法(MPSVM).根据训练样本数量的不平衡对正负样本集分别分配不同的惩罚因子,并将原始优化问题中的惩罚因子由数值变更为一个对角阵.最后推导出线性和非线性MPSVM的决策函数,并将其与PSVM、非平衡的SVM的运算机理和性能进行比较.实验结果表明,MPSVM的性能优于PSVM,与非平衡SVM方法相比效率更高. 相似文献
2.
3.
密度加权近似支持向量机 总被引:3,自引:3,他引:0
标准的近似支持向量机(PSVM)用求解正则化最小二乘问题代替了求解二次规划问题,它可以得到一个解析解,从而减少训练时间。但是标准的PSVM没有考虑数据集中正、负样本的分布情况,对所有的样本都赋予了相同的惩罚因子。而在实际问题中,数据集中样本的分布是不平衡的。针对此问题,在PSVM的基础上提出了一种基于密度加权的近似支持向量机(DPSVM),其先计算样本的密度指标,不同的样例有不同的密度信息,因此对不同的样例给予不同的惩罚因子,并将原始优化问题中的惩罚因子由数值变为一个对角矩阵。在UCI数据集上用这种方法进行了实验,并与SVM和PSVM方法进行了比较,结果表明,DPSVM在正负类样本分布不平衡的数据集上有较好的分类性能。 相似文献
4.
不平衡支持向量机的惩罚因子选择方法 总被引:1,自引:0,他引:1
支持向量机在处理不平衡数据集时常常不能取得良好的效果,而基于不同惩罚因子的不平衡支持向量机能够较好地处理这个问题。阐述了支持向量机在不平衡数据集上失效的原因,讨论了不平衡支持向量机的求解算法,提出了一种根据数据集分布的平均密度直接选取惩罚因子的方法,以减少传统交叉验证方法选取参数所需的时间。实验表明,与其他方法相比,这种平均密度方法能够有效提高不平衡支持向量机在不平衡数据集上的识别效果。 相似文献
5.
6.
Web文本分类是数据挖掘领域的研究热点。针对Web文本数据集高维和不平衡的特点,将模糊隶属度和平衡因子引入近似支持向量机,提出模糊加权近似支持向量机。首先计算样本的平均密度,并结合样本数量求得平衡因子,克服传统加权算法仅以样本数为依据设置权值的缺陷,缓解数据不平衡造成的分类超平面偏移;再计算样本的模糊隶属度,消除噪声和奇异点造成的分类误差;近似支持向量机相比标准支持向量机具有明显的速度优势,更加适用于高维数据分类。实验表明,算法能有效提高不平衡数据的分类精度,在Web文本的训练速度和分类质量上有一定提高。 相似文献
7.
8.
不平衡支持向量机的平衡方法 总被引:2,自引:0,他引:2
针对支持向量机中两类不平衡数据的分离超平面提出一种调整算法.首先用标准的支持向量机对原始数据进行初步训练,产生一个分离超平面的法向量.然后把高维样本投影到该法向量上得到一维数据.最后由投影数据的标准差以及样本容量所提供的信息,给出两类数据惩罚因子比例,再用标准的支持向量机进行第2次训练,从而得到一个新的分离超平面.实验显示该方法的有效性,即在一般情况下能平衡错分率,甚至还能减少错分率. 相似文献
9.
支持向量机在分类平衡样本集时的分类效果非常好,但是对不平衡样本集的分类效果并不理想。仔细分析样本集不平衡的原因,一是数量上的不平衡,二是样本点的空间重合。本文综合考虑数量和空间重合度这两点提出了改良式欠采样算法,降低样本集空间重合度和数量上的不平衡。通过仿真结果可以看出,本文的算法对不平衡样本集的分类效果较好。 相似文献
10.
基于样本特性欠取样的不均衡支持向量机 总被引:2,自引:0,他引:2
针对传统支持向量机在数据失衡的情况下分类效果很不理想的问题,提出一种基于样本特性欠取样的不均衡SVM分类算法。该算法首先在核空间中依据样本信息量选择一定比例的靠近不均衡分类界面的多数类样本;然后根据样本密度信息选择最具有代表性的均衡多数类样本点,在减少多数类样本的同时使分类界面向多数类方向偏移。实验结果表明,所提出的算法与其他不均衡数据预处理方法相比,能有效提高SVM算法在失衡数据中少数类的分类性能、总体分类性能和鲁棒性。 相似文献