首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
自动分类是数据挖掘和机器学习中非常重要的研究领域.针对难以获得大量有类标签的训练集问题,提出了基于小规模训练集的增量式贝叶斯分类,给出增量式贝叶斯分类机理参数计算及其算法.对算法分两种情况处理:第一种情况是新增样本有类别标签,则利用现有分类器检验其类标签,如果匹配则保留当前分类器,否则利用新样本修正分类器;第二种情况是新增样本无类别标签,则利用现有分类器为其训练类标签,然后利用新样本来修正分类器.实验结果表明,该算法是可行有效的,比简单贝叶斯分类算法有更高的精度.增量式贝叶斯分类算法的提出为分类器的更新提供了一条新途径.  相似文献   

2.
高光谱数据维数高,有标签的样本数量少,给高光谱图像分类带来困难。本文针对传统三重训练(tri-training)算法在初始有标签样本数量较少的情况下分类器间差异性不足的问题提出了一种基于改进三重训练算法的半监督分类框架。该方法首先通过边缘采样策略(margin Sampling,MS)选取最富含信息量的无标签样本,然后在训练每个分类器之前通过差分进化算法(differential evolution,DE)利用所选取的无标签样本产生新的样本。这些新产生的样本将被标记并且加入训练样本集来帮助初始化分类器。实验结果表明,该方法不仅能够有效地利用无标签样本,而且在有标签数据很少的情况下能够有效地提高分类精度。  相似文献   

3.
改进的球结构SVM多分类增量学习算法   总被引:1,自引:0,他引:1  
针对球结构支持向量机(support vector machine,SVM)增量学习算法在训练时间和分类精度上的不足,提出了一种改进的球结构SVM多分类增量学习算法.该算法首先构造一个完全二叉树用于多类分类;分析新增样本的加入对原支持向量集的影响,将新增样本集中部分样本和原始训练集中的支持向量以及分布在球体一定范围内的样本合并做为新的训练集,完成分类器的重构.实现通过减少训练样本缩短训练时间和完善分类器提高分类精度的目的.通过UCI标准数据集实验,结果表明,该算法在所需训练的样本数、训练时间以及准确率3方面都优于球结构SVM增量学习算法,尤其当样本分布不平衡时,该算法有更高的分类准确率.  相似文献   

4.
在多标签分类问题中,标签之间往往是相关的,为了提高分类性能,利用标签之间的相关性,提出AdaBoost.MLR算法和标签相关性分析方法。AdaBoost.MLR算法采用余弦相似度来计算标签相关性矩阵,利用标签相关性矩阵对原始标签矩阵进行补全转换为模糊标签矩阵,将标签空间划分为标签集、标签相关集和标签无关集,结合标签之间的相关性和弱分类器的分类情况,对样本权重进行调整。AdaBoost.MLR算法也能解决多类别分类问题,在其标签相关性的计算中,根据已经训练的弱分类器得到的临时强分类器的分类结果,构造标签相似性矩阵。实验结果表明,文中提出的算法在实验数据集上优于现有的算法,尤其在标签相关性复杂的数据集上分类性能有显著提升。  相似文献   

5.
为提高半监督分类的性能,提出一种安全的基于分歧的半监督分类算法Safe Co-SSC。通过有标记样本训练3个有监督分类器,利用无标记样本的信息增加分类器的差异性,采取3个分类器加权投票的策略实现对无标记样本的伪标记;对伪标记样本进行二次验证,选用能使分类器误差减小的新增标记样本扩充标记样本集。保证新样本的添加既减小了分类器的分类误差,又提高了分类器的分歧性。对UCI数据集进行分类实验的结果表明,该算法具有较高的分类率和样本标记率。    相似文献   

6.
基于多支持向量机分类器的增量学习算法研究   总被引:1,自引:0,他引:1  
为了将一般增量学习算法扩展到并行计算环境中,提出一种基于多支持向量机分类器的增量学习算法.该算法根据多分类器对新增样本集的分类结果,以样本到分类超平面的平均距离为条件重新构造支持向量集更新分类器,直到所有分类器的分类精度满足指定阈值.实验结果表明了该算法的可行性和正确性.  相似文献   

7.
为了提高卷积神经网络训练的分类器分类准确率,往往需要大量的已标记数据,但有时已标记数据并不容易获得。针对少标记样本图像分类问题,提出基于集成GMM聚类与标签传递思想的解决方案,通过一定的规则给未标记数据赋予标签,将未标记数据转换成已标记数据用于模型的训练。在手写数字识别数据集上进行实验,结果表明新算法在少标记样本的情况下,结合集成GMM聚类的方法比只采用有标记样本训练得到的模型分类准确率有着较大提高,验证了该算法的有效性。  相似文献   

8.
基于LS-SVM的多标签分类算法   总被引:2,自引:0,他引:2  
多标签分类是指部分样本同时归属多个类别.基于数据分解的算法因训练速度快、性能良好而得到广泛的应用.本文采用一对一分解策略,将k标签数据集分解为k(k-1)/2个两类单标签和两类双标签的数据子集.对每一训练子集统一用LS-SVM模型建立子分类器,当出现双标签样本时将其函数值设为0,并确定适当的分类阈值.对情感、景象和酵母数据集的实验结果表明,本文算法的某些性能指标优于现有一些常用的多标签分类方法.  相似文献   

9.
针对高光谱数据维数高、有标签样本少等特点,采用半监督分类利用未标记样本信息提高高光谱图像分类精度。主动学习研究训练样本的选择方法,以少量的标记样本得到尽可能好的泛化能力。本文提出了一种结合主动学习算法的半监督分类算法。该方法使用支持向量机作为基本的学习模型,通过主动学习方法选取训练样本,以伪标记的形式加入到分类器的训练中,结合验证分类器迭代选出置信度较高的伪标记样本,通过差分进化算法交叉变异伪标记样本扩充标记样本群。在两个数据集上进行仿真实验,与传统分类算法相比,所提算法的总体分类精度分别提高了1.97%、0.49%,表明该算法能够有效地提升主动学习样本选择的效率,在有限带标记样本情况下提高了分类器精度。  相似文献   

10.
为了解决高光谱数据有标签样本数量有限的分类问题,提出将M-training算法应用于高光谱图像分类。采用两个SVM、一个K近邻(KNN)以及一个随机森林(RF)进行分类器组合,对传统M-training算法进行改进,增强分类器的多样性和差异性。为了充分考虑大量无标签样本的影响,采用有标签样本与无标签样本错误率加权作为有标签样本集更新的限制条件,从而有效地扩大了有标签样本集。实验结果表明:改进算法和传统的M-training算法相比较,在总体分类精度与Kappa系数上分别提高1. 85%~12. 10%与0. 021 5~0. 141 3,从而验证了该算法的有效性。  相似文献   

11.
针对已标记数据与未标记数据分布不一致可能导致半监督分类器性能降低的不足,提出了一种基于特征映射的半监督文本分类算法.首先通过不同的特征选择方法,分别在训练集的已标记数据、未标记数据以及测试集数据中选取各自的特征集,并初始化特征的权值;在此基础之上,分别建立已标记数据与未标记数据、已标记数据与测试集数据、未标记数据与测试集数据之间的映射函数,并利用这3个特征映射函数重新计算特征的权重;最后利用期望最大比(expectation maximization,EM)算法进行半监督文本分类.在标准数据集上的实验结果表明:提出的算法是有效的.  相似文献   

12.
In text classification, labeling documents is a tedious and costly task, as it would consume a lot of expert time. On the other hand, it usually is easier to obtain a lot of unlabeled documents, with the help of some tools like Digital Library, Crawler Programs, and Searching Engine. To learn text classifier from labeled and unlabeled examples, a novel fuzzy method is proposed. Firstly, a Seeded Fuzzy c-means Clustering algorithm is proposed to learn fuzzy clusters from a set of labeled and unlabeled examples. Secondly, based on the resulting fuzzy clusters, some examples with high confidence are selected to construct training data set. Finally,the constructed training data set is used to train Fuzzy Support Vector Machine, and get text classifier. Empirical results on two benchmark datasets indicate that, by incorporating unlabeled examples into learning process,the method performs significantly better than FSVM trained with a small number of labeled examples only. Also, the method proposed performs at least as well as the related method-EM with Naieve Bayes. One advantage of the method proposed is that it does not rely on any parametric assumptions about the data as it is usually the case with generative methods widely used in semi-supervised learning.  相似文献   

13.
为提高半监督分类的性能,提出一种基于SOM神经网络的半监督分类算法SSC-SOM。结合SOM的聚类特性,基于先聚类后标记的思想,充分利用有标记样本和未标记样本训练SOM分类器;将聚类的形成和有标记样本分配到各个聚类中同时进行,并根据有标记样本计算各个聚类的聚类中心;在整个未标记样本的范围内,根据聚类中心,使用K近邻算法对未标记样本进行标记,挖掘未标记样本的隐含信息。在UCI数据集中进行分类实验,其结果表明,SSC-SOM的分类率比SSOM提高2.22%,且收敛性较好。  相似文献   

14.
为了避免倾向于高频词的信息增益(information gain,IG)方法忽略各类别间的相似性特点,提出了一种基于特征分布的选择方法对IG进行修正,使真正拥有高类别区分信息的特征项被保留.同时,对最大期望值(expectation maximization,EM)算法的效率低下问题加以改进,将拥有较高后验类别概率的未标注文档逐步从未标注文档集转至已标注文档集,有效减少算法迭代次数.测试结果表明,基于特征分布的半监督学习方法在Reuter-21578和Epinion.com两个不同特点的数据集上都取得了较好的分类效果和性能.  相似文献   

15.
针对因特网流量分类面临的流量类别标记瓶颈和类别样本数分布不平衡,提出基于Bootstrapping的流量分类方法,使用少量有标记样本训练初始分类器,迭代利用无标记样本扩展样本集并更新分类器. 在构建扩展样本集过程中,将无标记样本在某后验概率分布下的正确分类行为视为一个概率事件,建立新的置信度计算方法,以减少扩展样本集中的噪声样本;基于概率近似正确学习理论建立启发式规则,注重选择小类样本加入扩展样本集,缓解类别样本数分布的不平衡. 实验结果表明,与初始分类器相比,基于Bootstrapping的流量分类器总体分类准确率可提高9.46%;与现有半监督学习方法相比,小类分类准确率提高2.22%.  相似文献   

16.
为了更好的对残缺文档进行分类,本文以基于支持向量机的文本分类方法(SVM)和卡方统计量(Chi-Square)的文本特征提取方法为背景,提出了有监督学习模式下的两种文本特征恢复算法以及在此基础上进行残缺文本分类的新方案。与传统的直接分类方案相较,该方案在分类前通过预先对文本中残缺词恢复,实现了残缺文本的部分特征恢复。实验表明,相较于传统方法,该方案在低残缺率下,对文本分类的影响不大;在高残缺率下,该方案能得到较好的分类效果。  相似文献   

17.
特征选择和分类算法是文本分类中的两个关键技术,提出了基于主成分分析和KNN相结合的文本分类方法。该方法利用主成分分析对文本向量的高维空间进行特征选择,为克服因类别特征选择不当带来的不利影响,使用KNN算法进行分类可以最大程度地减少分类过程中的误差。为了验证方法的有效性,针对UCI标准数据集进行仿真实验。实验结果显示,PCA-KNN方法优于主成分分析和随机森林相结合的方法,能在一定程度上提高文本分类的精度。  相似文献   

18.
基于改进的kNN算法的中文网页自动分类方法研究   总被引:6,自引:0,他引:6  
概述了中文网页分类的一般过程,重点论述了在分类过程中特征词提取、训练库建立和文本分类算法等关键问题,针对向量空间模型的文本特征表示方法中特征词数量的多少与分类算法的效率有着密切关系的特点,提出了基于词性的特征词提取方法,并且在文本相似度计算时,融入传统的特征向量的比较方法来对kNN算法进行改进,提出了基于特征词减少的改进kNN算法,提高了分类算法的效率和性能.  相似文献   

19.
针对文本分类问题,从分片线性学习的角度出发,提出了一种文本分类的组合凸线性感知器模型.首先,对文本样本集进行预处理,包括特征选择、特征项赋权等;然后,分别利用生长支持组合凸线性感知器算法(growing support multiconlitron algorithm,GSMA)和支持组合凸线性感知器算法(support multiconlitron algorithm,SMA)构造组合凸线性感知器,对样本集进行分类.该模型基于支持向量机的最大间隔思想,通过集成线性分类器,实现了对2类数据的划分,具有计算简单、适应能力强的优点.在标准文本数据集上的实验结果表明:该模型所构造的分类器具有良好的文本分类性能,与其他典型文本分类方法的对比也说明了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号