首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 656 毫秒
1.
数据流分类是数据挖掘领域的重要研究任务之一,已有的数据流分类算法大多是在有标记数据集上进行训练,而实际应用领域数据流中有标记的数据数量极少。为解决这一问题,可通过人工标注的方式获取标记数据,但人工标注昂贵且耗时。考虑到未标记数据的数量极大且隐含大量信息,因此在保证精度的前提下,为利用这些未标记数据的信息,本文提出了一种基于Tri-training的数据流集成分类算法。该算法采用滑动窗口机制将数据流分块,在前k块含有未标记数据和标记数据的数据集上使用Tri-training训练基分类器,通过迭代的加权投票方式不断更新分类器直到所有未标记数据都被打上标记,并利用k个Tri-training集成模型对第k+1块数据进行预测,丢弃分类错误率高的分类器并在当前数据块上重建新分类器从而更新当前模型。在10个UCI数据集上的实验结果表明:与经典算法相比,本文提出的算法在含80%未标记数据的数据流上的分类精度有显著提高。  相似文献   

2.
张雁  吕丹桔  吴保国 《微机发展》2013,(7):77-79,83
在实际应用中,容易获取大量的未标记样本数据,而样本数据是有限的,因此,半监督分类算法成为研究者关注的热点。文中在协同训练Tri-Training算法的基础上,提出了采用两个不同的训练分类器的Simple-Tri-Training方法和对标记数据进行编辑的Edit-Tri-Training方法,给出了这三种分类方法与监督分类SVM的分类实验结果的比较和分析。实验表明,无标记数据的引入,在一定程度上提高了分类的性能;初始训练集和分类器的选取以及标记过程中数据编辑技术,都是影响半监督分类稳定性和性能的关键点。  相似文献   

3.
在实际应用中,容易获取大量的未标记样本数据,而样本数据是有限的,因此,半监督分类算法成为研究者关注的热点.文中在协同训练Tri-Training算法的基础上,提出了采用两个不同的训练分类器的Simple-Tri-Training方法和对标记数据进行编辑的Edit-Tri-Training方法,给出了这三种分类方法与监督分类SVM的分类实验结果的比较和分析.实验表明,无标记数据的引入,在一定程度上提高了分类的性能;初始训练集和分类器的选取以及标记过程中数据编辑技术,都是影响半监督分类稳定性和性能的关键点.  相似文献   

4.
针对极限学习机(ELM)未充分利用未标注样本、训练精度受网络权值初值影响的问题,提出一种基于协同训练与差分进化的改进ELM算法(Tri-DE-ELM)。考虑到传统的ELM模式分类技术只利用了少量标注样本而忽视大量未标注样本的问题,首先应用基于Tri-Training算法的协同训练机制构建Tri-ELM半监督分类算法,利用少量的标记样本训练三个基分类器实现对未标记样本的标注。进一步针对基分类器训练中ELM网络输入层权值随机初始化影响分类效果的问题,采用差分进化(DE)算法对网络初值进行优化,优化目标及过程同时包括网络权值和分类误差两方面的因素,以避免网络的过拟合现象。在标准数据集上的实验结果表明,Tri-DE-ELM算法能有效地利用未标注数据,具有比传统ELM更高的分类精度。  相似文献   

5.
陈文  张恩阳  赵勇 《计算机科学》2016,43(9):223-226, 237
卷积神经网络(CNN)是一类重要的深度神经网络,然而其训练过程需要大量的已标记样本,从而限制了其实际应用。针对这一问题,分析了CNN分类器的协同学习过程,给出了基于迭代进化的分类器协同训练算法CAMC。该算法结合了CNN和多分类器协同训练的优势,首先采用不同的卷积核提取出多种样本特征以产生不同的CNN分类器;然后利用少量的已标记样本和大量的未标记样本对多个分类器进行协同训练,以持续提高分类性能。在人脸表情标准数据集上的实验结果表明,相对于传统的表情特征识别法LBP和Gabor,CAMC能够在分类过程中利用未标记样本持续实现性能提升,从而具有更高的分类准确率。  相似文献   

6.
基于Tri-training的半监督SVM   总被引:1,自引:1,他引:0       下载免费PDF全文
当前机器学习面临的主要问题之一是如何有效地处理海量数据,而标记训练数据是十分有限且不易获得的。提出了一种新的半监督SVM算法,该算法在对SVM训练中,只要求少量的标记数据,并能利用大量的未标记数据对分类器反复的修正。在实验中发现,Tri-training的应用确实能够提高SVM算法的分类精度,并且通过增大分类器间的差异性能够获得更好的分类效果,所以Tri-training对分类器的要求十分宽松,通过SVM的不同核函数来体现分类器之间的差异性,进一步改善了协同训练的性能。理论分析与实验表明,该算法具有较好的学习效果。  相似文献   

7.
在传统的人工免疫网络基础上,将多智能体技术的典型策略融入到免疫网络的进化过程中。算法引入了邻域克隆选择,操作过程从局部到整体,能够更加全面地模拟免疫网络的自然进化模型;同时在免疫网络进化过程中增加了抗体间的竞争和协作操作,提高了网络的动态分析能力。后续实验中,分别采用常用的3组UCI数据和一幅红树林多光谱TM遥感图像对算法加以验证,实验结果表明算法对遥感图像有较高的分类效率,对UCI数据也有较好的分类效果,表明该算法一种有效的数据分类方法。  相似文献   

8.
针对传统图转导(GT)算法计算量大并且准确率不高的问题,提出一个基于C均值聚类和图转导的半监督分类算法。首先,采用模糊C均值(FCM)聚类算法先对未标记样本预选取,缩小图转导算法构图数据集的范围;然后,构建k近邻稀疏图,减少相似度矩阵的虚假连接,进而缩减了构图的时间,通过标记传播的方式得出初选未标记样本的标记信息;最后,结合半监督流形假设模型利用扩充的标记数据集以及剩余未标记数据集进行分类器的训练,进而得出最终的分类结果。在Weizmann Horse数据集下,所提算法分类准确率均达到96%以上,和传统仅使用图转导的分类方法相比,解决了对初始标记集的依赖性问题,将准确率至少提高了10%;将所提算法直接运用到兵马俑数据集,分类准确度也达到95%以上,明显高于传统的图转导算法。实验结果表明,基于C均值聚类和图转导的半监督分类算法,在图像分类方面有较好的分类效果,对图像的精准分类具有研究意义。  相似文献   

9.
并行化的半监督朴素贝叶斯分类算法   总被引:1,自引:0,他引:1  
针对当前需要对海量的文本数据进行分类和用于训练的带标记的文本数据非常匮乏这两个问题,结合半监督的朴素贝叶斯分类算法和Map-Reduce编程模型,提出了一种新型的并行化的半监督朴素贝叶斯分类(parallelized semi-supervised Nave Bayes,PSNB)算法。通过实验可以看出,PSNB算法不仅可以高效地处理海量的文本数据,还可以有效地利用无标记的文本数据来提高分类器准确率。  相似文献   

10.
张雁  吴保国  吕丹桔  林英 《计算机工程》2014,(6):215-218,229
半监督学习和主动学习都是利用未标记数据,在少量标记数据代价下同时提高监督学习识别性能的有效方法。为此,结合主动学习方法与半监督学习的Tri-training算法,提出一种新的分类算法,通过熵优先采样算法选择主动学习的样本。针对UCI数据集和遥感数据,在不同标记训练样本比例下进行实验,结果表明,该算法在标记样本数较少的情况下能取得较好的效果。将主动学习与Tri-training算法相结合,是提高分类性能和泛化性的有效途径。  相似文献   

11.
一种进化半监督式模糊聚类的入侵检测算法   总被引:3,自引:0,他引:3       下载免费PDF全文
在入侵检测系统中,未知标签数据容易获得,标签数据较难获得,对此提出了一种基于进化半监督式模糊聚类入侵检测算法。算法利用标签数据信息担任染色体的角色,引导非标签数据每个模糊分类的进化过程,能够使用少量的标签数据和大量未知标签数据生成入侵检测系统分类器,可处理模糊类标签,不易陷入局部最优,适合并行结构的实现。实验结果表明,算法有较高的检测率。  相似文献   

12.
沈海龙  盛晓辉 《计算机应用研究》2023,40(4):1019-1023+1051
为了减少对有标记数据的依赖,充分利用大量无标记数据,提出了一个基于数据增强和相似伪标签的半监督文本分类算法(semi-supervised text classification algorithm with data augmentation and similar pseudo-labels, STAP)。该算法利用EPiDA(easy plug-in data augmentation)框架和自训练对少量有标记数据进行扩充,采用一致性训练和相似伪标签考虑无标记数据及其增强样本之间的关系和高置信度的相似无标记数据之间的关系,在有监督交叉熵损失、无监督一致性损失和无监督配对损失的约束下,提高无标记数据的质量。在四个文本分类数据集上进行实验,与其他经典的文本分类算法相比,STAP算法有明显的改进效果。  相似文献   

13.
吕佳  黎隽男 《计算机应用》2018,38(1):110-115
针对自训练方法在迭代中选出的置信度高的无标记样本所含信息量不大和自训练方法容易误标记无标记样本的问题,提出了一种结合半监督聚类和数据剪辑的Naive Bayes自训练方法。该自训练方法在每次迭代的时候,首先利用少量的有标记样本和大量的无标记样本进行半监督聚类,从而选出聚类隶属度高的无标记样本作Naive Bayes分类;然后利用数据剪辑技术来过滤掉聚类隶属度高而被Naive Bayes误分类的无标记样本。该数据剪辑技术能够同时利用有标记样本和无标记样本信息进行噪声过滤,解决了传统数据剪辑技术的性能可能因有标记样本数量匮乏而下降的问题。通过在UCI数据集上的对比实验,证明了所提算法的有效性。  相似文献   

14.
针对seeded-K-means和constrained-K-means算法要求标签数据类别完备的限制,本文提出了基于不完备标签数据的半监督K-means聚类算法,重点讨论了未标签类别初始聚类中心的选取问题.首先给出了未标签类别聚类中心最优候选集的定义,然后提出了一种新的朱标签类别初始聚类中心选取方法,即采用K-mea...  相似文献   

15.
属性约简是粗糙集理论中重要的研究内容之一,是数据挖掘中知识获取的关键步骤。Pawlak粗糙集约简的对象一般是有标记的决策表或者是无标记的信息表。而在很多现实问题中有标记数据很有限,更多的是无标记数据,即半监督数据。为此,结合半监督协同学习理论,提出了处理半监督数据的属性约简算法。该算法首先在有标记数据上构造两个差异性较大的约简来构造基分类器;然后在无标记数据上交互协同学习,扩大有标记数据集,获得质量更好的约简,构造性能更好的分类器,该过程迭代进行,从而实现利用无标记数据提高有标记数据的约简质量,最终获得质量较好的属性约简。UCI数据集上的实验分析表明,该算法是有效且可行的。  相似文献   

16.
有约束的半监督聚类方法   总被引:1,自引:1,他引:0       下载免费PDF全文
在数据挖掘领域的很多实际应用中,获取大量的无标签样本非常容易,而获取有标签的样本通常需要付出较大的代价,并且有时不可能得到所有的数据的标签,半监督聚类就是使用一小部分的标签数据对无标签数据的聚类过程进行指导。提出了一种新的半监督聚类算法,它利用标签数据提供的信息来初步确定数据的相似性和不相似性标准,并在聚类过程中对其进行自动调整,利用它们对聚类过程进行约束和指导。通过在标准数据集高斯数据集上的测试,该算法相对于无指导聚类来说有更高的精度和更快的速度。  相似文献   

17.
李南 《计算机系统应用》2016,25(12):187-192
现有数据流分类算法大多使用有监督学习,而标记高速数据流上的样本需要很大的代价,因此缺乏实用性.针对以上问题,提出了一种低代价的数据流分类算法2SDC.新算法利用少量已标记类别的样本和大量未标记样本来训练和更新分类模型,并且动态监测数据流上可能发生的概念漂移.真实数据流上的实验表明,2SDC算法不仅具有和当前有监督学习分类算法相当的分类精度,并且能够自适应数据流上的概念漂移.  相似文献   

18.
基于一致性的半监督学习方法通常使用简单的数据增强方法来实现对原始输入和扰动输入的一致性预测.在有标签数据的比例较低的情况下,该方法的效果难以得到保证.将监督学习中一些先进的数据增强方法扩展到半监督学习环境中,是解决该问题的思路之一.基于一致性的半监督学习方法MixMatch,提出了基于混合样本自动数据增强技术的半监督学...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号