首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 193 毫秒
1.
为了在标记样本数目有限时尽可能地提高支持向量机的分类精度,提出了一种基于聚类核的半监督支持向量机分类方法。该算法依据聚类假设,即属于同一类的样本点在聚类中被分为同一类的可能性较大的原则去对核函数进行构造。采用K-均值聚类算法对已有的标记样本和所有的无标记样本进行多次聚类,根据最终的聚类结果去构造聚类核函数,从而更好地反映样本间的相似程度,然后将其用于支持向量机的训练和分类。理论分析和计算机仿真结果表明,该方法充分利用了无标记样本信息,提高了支持向量机的分类精度。  相似文献   

2.
半监督聚类就是利用样本的监督信息来帮助提升无监督学习的性能。在半监督聚类中,成对约束(must-link约束和cannot-link约束)作为样本的先验知识被广泛地使用。凝聚层次聚类(AHC)也叫合成聚类,是层次聚类法的一种。提出了一种基于成对约束的半监督凝聚层次聚类算法(PS-AHC),该算法利用成对约束来改变聚类簇之间的距离,使聚类簇之间的距离更真实。在UCI数据集上的实验表明,PS-AHC能有效地提高聚类的准确率,是一种有前景的半监督聚类算法。  相似文献   

3.
徐菲菲  魏莱  杜海洲  王文欢 《计算机科学》2013,40(7):216-221,235
目前,支持向量机技术(SVM)在遥感信息获取中普遍受到参数选择不准确和小样本问题的制约。针对这些问题, 提出一种新的半监督集成SVM(EPS3VM)分类模型。模型一方面利用自适应变异粒子群优化算法对SVM参数寻优以提高基分类器精度(PSVM);另一方面采用自训练算法(Self-training),充分利用大量廉价的未标记样本产生性能差异的半监督分类器个体(PS3VM),其中,在未标记样本标注过程中,引入模糊聚类算法(Gustafson-kessel)来控制错误类别的输入,最后对个体分类器采用加权集成策略,以进一步提高分类模型的泛化能力。为了测试其性能,应用该模型进行多光谱遥感影像的土地覆盖分类实验,并与PSVM、PS3VM进行对比,分类精度从PSVM的88.48%提高到96.88%,Kappa系数由0.8546提高到0.9606。结果表明,EPS3VM在克服传统SVM参数选择不准确的同时,有效地应对了小样本问题,分类性能更优。  相似文献   

4.
监督学习需要利用大量的标记样本训练模型,但实际应用中,标记样本的采集费时费力。无监督学习不使用先验信息,但模型准确性难以保证。半监督学习突破了传统方法只考虑一种样本类型的局限,能够挖掘大量无标签数据隐藏的信息,辅助少量的标记样本进行训练,成为机器学习的研究热点。通过对半监督学习研究的总趋势以及具体研究内容进行详细的梳理与总结,分别从半监督聚类、分类、回归与降维以及非平衡数据分类和减少噪声数据共六个方面进行综述,发现半监督方法众多,但存在以下不足:(1)部分新提出的方法虽然有效,但仅通过特定数据集进行了实证,缺少一定的理论证明;(2)复杂数据下构建的半监督模型参数较多,结果不稳定且缺乏参数选取的指导经验;(3)监督信息多采用样本标签或成对约束形式,对混合约束的半监督学习需要进一步研究;(4)对半监督回归的研究匮乏,对如何利用连续变量的监督信息研究甚少。  相似文献   

5.
成对约束作为半监督学习的一个重要分支,它以无监督的聚类算法为基础,通过利用少量的监督信息来提高聚类的性能。提出了一种基于成对约束的半监督聚类方法,在FCM-NMF聚类算法框架下,采用非负矩阵分解提取样本的本质特征,并且加入成对约束条件指导聚类过程进行模糊聚类。构造出的新的目标函数采用梯度下降法和交替迭代公式来找局部最优解,并在UCI数据集上讨论了成对约束的数量对聚类的影响、价值系数的设置对聚类的影响,并与常见的半监督聚类性能进行了比较,证明了其正确性、有效性、稳定性。  相似文献   

6.
针对支持向量机(Support Vector Machine,SVM)处理大规模数据集的学习时间长、泛化能力下降等问题,提出基于边界样本选择的支持向量机加速算法。首先,进行无监督的K均值聚类;然后,在各个聚簇内依照簇的混合度、支持度因素应用K近邻算法剔除非边界样本,获得最终的类别边界区域样本,参与SVM模型训练。在标准数据集上的实验结果表明,算法在保持传统支持向量机的分类泛化能力的同时,显著降低了模型训练时间。  相似文献   

7.
王亮  王士同 《计算机工程》2012,38(1):148-150
针对样本间的不均衡性,提出一种基于成对约束的动态加权半监督模糊核聚类算法。在传统模糊聚类算法中加入半监督学习机制,通过Mercer核将原数据空间映射到特征空间,为特征空间中的每个向量分配一个动态权值,由此得到新的目标函数,并结合一种简单的核参数选择方法实现数据分类。理论分析和实验结果表明,与模糊核聚类算法及成对约束的竞争群算法相比,该算法具有更好的聚类效果。  相似文献   

8.
为解决监督学习过程中难以获得大量带有类标记样本且样本数据标记代价较高的问题,结合主动学习和半监督学习方法,提出基于Tri-training半监督学习和凸壳向量的SVM主动学习算法.通过计算样本集的壳向量,选择最有可能成为支持向量的壳向量进行标记.为解决以往主动学习算法在选择最富有信息量的样本标记后,不再进一步利用未标记样本的问题,将Tri-training半监督学习方法引入SVM主动学习过程,选择类标记置信度高的未标记样本加入训练样本集,利用未标记样本集中有利于学习器的信息.在UCI数据集上的实验表明,文中算法在标记样本较少时获得分类准确率较高和泛化性能较好的SVM分类器,降低SVM训练学习的样本标记代价.  相似文献   

9.
极大熵聚类(MEC)目标函数中缺乏成对约束的有效信息表达,在拥有少量成对约束的情况下,可能导致有效监督信息的浪费.在MEC的基础上,文中提出基于成对约束的交叉熵半监督聚类算法.利用样本交叉熵表达成对约束信息,并作为惩罚项引入至MEC的目标函数中,通过拉格朗日最优化处理目标函数,得出聚类中心与隶属度的迭代公式.实验表明,文中算法能有效利用少量的成对约束监督信息提高聚类性能,在实际数据应用中性能较好  相似文献   

10.
针对半监督聚类学习算法中缺乏主动学习的缺陷,提出一种纠错式主动学习成对约束方法.算法通过寻找一般聚类算法自身难以发现的成对约束信息,同时避免这部分约束信息之间本身的关系,将其引入谱聚类算法,利用该监督信息调整谱聚类中点与点之间的距离矩阵对两点间距离进行排序,采用双向寻找的方法,使得学习器即使接收到没有标记的数据也能进行主动学习.实验分析表明,所提出算法能够获得较为满意的聚类效果.  相似文献   

11.
Semi-supervised classification methods can perform even worse than the supervised counterparts in some cases. It undoubtedly reduces their confidence in real applications, and it is desired to improve the safety of semi-supervised classification such that it never performs worse than the supervised counterpart. Considering that the cluster assumption may not well reflect the real data distribution, which can be one possible cause of unsafe learning, we develop a safe semi-supervised support vector machine method in this paper by adjusting the cluster assumption (ACA-S3VM for short). Specifically, when samples from different classes are seriously overlapped, the real boundary actually lies not in the low density region, which will not be found by the cluster assumption. However, an unsupervised clustering method is able to detect the real boundary in this case. As a result, we design ACA-S3VM by adjusting the cluster assumption with the help of clustering, which considers the distances of individual unlabeled instances to the distribution boundary in learning. Empirical results show the competition of ACA-S3VM compared with the off-the-shelf safe semi-supervised classification methods.  相似文献   

12.
在机器学习及其分类问题时经常会遇到非平衡数据集,为了提高非平衡数据集分类的有效性,提出了基于商空间理论的过采样分类算法,即QMSVM算法。对训练集中多数类样本进行聚类结构划分,所得划分结果和少数类样本合并进行线性支持向量机(SVM)学习,从而获取多数类样本的支持向量和错分的样本粒;另一方面,获取少数类样本的支持向量和错分的样本,进行SMOTE采样,最后把上述得到的两类样本合并进行SVM学习,这样来实现学习数据集的再平衡处理,从而得到更加合理的分类超平面。实验结果表明,和其他几种算法相比,所提算法虽在正确分类率上有所降低,但较大改善了g_means值和acc+值,且对非平衡率较大的数据集效果会更好。  相似文献   

13.
SVM在处理不平衡数据分类问题(class imbalance problem)时,其分类结果常倾向于多数类。为此,综合考虑类间不平衡和类内不平衡,提出一种基于聚类权重的分阶段支持向量机(WSVM)。预处理时,采用K均值算法得到多数类中各样本的权重。分类时,第一阶段根据权重选出多数类内各簇边界区域的与少数类数目相等的样本;第二阶段对选取的样本和少数类样本进行初始分类;第三阶段用多数类中未选取的样本对初始分类器进行优化调整,当满足停止条件时,得到最终分类器。通过对UCI数据集的大量实验表明,WSVM在少数类样本的识别率和分类器的整体性能上都优于传统分类算法。  相似文献   

14.
王朔琛  汪西莉 《计算机应用》2015,35(10):2974-2979
半监督复合核支持向量机在构造聚类核时,普遍存在复杂度高、不适于大规模图像分类的问题;且K均值(K-means)图像聚类的参数难以估计。针对上述问题,提出基于均值漂移(Mean-Shift)参数自适应的半监督复合核支持向量机图像分类方法。结合Mean-Shift对像素点进行聚类分析以避免K-means图像聚类的局限性;利用图像的结构特征自适应算法参数以避免算法的波动性;由Mean-Shift结果构造Mean Map聚类核以增强同一聚类中的样本属于同一类别的可能性,使复合核更好地指导支持向量机对图像分类。实验验证了改进的聚类算法和参数取值方法可以更好地获取图像的聚类信息,使算法对普通图像和加噪图像的分类正确率较对比的半监督算法一般情况下提高1~7个百分点,且对于较大规模图像也有一定适用性,能够更高效、更稳定地进行图像分类。  相似文献   

15.
为了在聚类假设的基础上,进一步提高支持向量机的分类精度,文中通过引入线性分段转换函数,将加权无向图上的相似矩阵重新表示,改变该图上的距离度量,使得在同一群集中两点间的距离更小,从而建立基于图的聚类核,与多项式核函数线性组合后,构造出基于图的组合半监督聚类核,并将其用于支持向量机的训练和分类。实验表明,与标准SVM算法相比,该算法分类精度较高,且高于组合前的单个核函数。随着标记样本比例的增加,该算法的分类精度也在增加,有效利用了未标记样本蕴含的信息。  相似文献   

16.
半监督分类算法试图根据已知样本对特定的未知样本建立一套进行识别的方法和准则。渐进直推式分类学习算法是一种基于SVM的半监督分类学习方法,在基于渐进直推式分类学习算法的基础上,利用Fisher准则中的样本离散度作为度量标准,采用Fisher准则函数作为评价函数,提出了一种基于离散度量和SVM相结合的半监督分类算法,在时间复杂度和样本测试精度上较PTSVM算法都取得了良好的学习效果。  相似文献   

17.
张永  浮盼盼  张玉婷 《计算机应用》2013,33(10):2801-2803
针对大规模数据的分类问题,将监督学习与无监督学习结合起来,提出了一种基于分层聚类和重采样技术的支持向量机(SVM)分类方法。该方法首先利用无监督学习算法中的k-means聚类分析技术将数据集划分成不同的子集,然后对各个子集进行逐类聚类,分别选出各类中心邻域内的样本点,构成最终的训练集,最后利用支持向量机对所选择的最具代表样本点进行训练建模。实验表明,所提方法可以大幅度降低支持向量机的学习代价,其分类精度比随机欠采样更优,而且可以达到采用完整数据集训练所得的结果  相似文献   

18.
标签传递算法是一种半监督分类方法,由于该算法存在要求数据分类结果符合流行假设、数据维数较高时计算复杂度高等问题,在文本分类中效果较差。针对这些问题,经过对LDA主题模型和标签传递算法原理及复杂度的分析,将两者结合,提出一种基于LDA主题模型的标签传递算法LPLDA。该算法用LDA主题模型中的主题表示文本数据,一方面使用LDA主题模型表示文本保证分类结果符合流行假设,另一方面有效减少标签传递算法相似度计算时间。经过实验证明,该算法在标记数据少于待测样本时,分类效果优于传统的有监督分类方法。  相似文献   

19.
提出了一种改进的支持向量机增量学习算法。分析了新样本加入后,原样本和新样本中哪些样本可能转化为新支持向量。基于分析结论提出了一种改进的学习算法。该算法舍弃了对最终分类无用的样本,并保留了有用的样本。对标准数据集的实验结果表明,该算法在保证分类准确度的同时大大减少了训练时间。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号