首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 187 毫秒
1.
吕佳  鲜焱 《计算机应用》2021,41(3):686-693
针对协同训练算法在迭代过程中加入的无标记样本的有用信息不足和多分类器对样本标记不一致导致的分类错误累积问题,提出结合改进密度峰值聚类和共享子空间的协同训练算法。该算法先采取属性集合互补的方式得到两个基分类器,然后基于虹吸平衡法则进行改进密度峰值聚类,并从簇中心出发来推进式选择相互邻近度高的无标记样本交由两个基分类器进行分类,最后利用多视图非负矩阵分解算法得到的共享子空间来确定标记不一致样本的最终类别。该算法利用改进密度峰值聚类和相互邻近度选择出更具空间结构代表性的无标记样本,并采用共享子空间来修订标记不一致的样本,解决了因样本误分类造成的分类精度低的问题。在9个UCI数据集上的多组对比实验证明了该算法的有效性,实验结果表明所提算法相较于对比算法在7个数据集上取得最高的分类正确率,在另2个数据集取得次高的分类正确率。  相似文献   

2.
针对不完备弱标记数据的学习问题,提出基于粗糙集理论的半监督协同学习模型.首先定义不完备弱标记数据的半监督差别矩阵,提出充分、具有差异性的约简子空间获取算法.然后在有标记数据集上利用各约简子空间训练两个基分类器.在无标记数据上,各分类器基于协同学习的思想标注信度较大的无标记样本给另一分类器学习,迭代更新直至无可利用的无标记数据.UCI数据集实验对比分析表明,文中模型可以获得更好的不完备弱标记数据的分类学习性能,具有有效性.  相似文献   

3.
主动协同半监督粗糙集分类模型   总被引:1,自引:0,他引:1  
粗糙集理论是一种有监督学习模型,一般需要适量有标记的数据来训练分类器。但现实一些问题往往存在大量无标记的数据,而有标记数据由于标记代价过大较为稀少。文中结合主动学习和协同训练理论,提出一种可有效利用无标记数据提升分类性能的半监督粗糙集模型。该模型利用半监督属性约简算法提取两个差异性较大的约简构造基分类器,然后基于主动学习思想在无标记数据中选择两分类器分歧较大的样本进行人工标注,并将更新后的分类器交互协同学习。UCI数据集实验对比分析表明,该模型能明显提高分类学习性能,甚至能达到数据集的最优值。  相似文献   

4.
入侵检测数据具有信息冗余量大、标记数据难以获得等特点。传统入侵检测方法难以消除冗余信息并且需要大量已标记样本做训练集,导致检测效率降低,实用性下降。为了解决上述问题,提出一种结合属性约简与半监督协同训练的算法。该算法充分发挥了大量未标记样本的监督作用。首先将入侵数据进行属性约简,利用约简结果建立一个支持向量机(SVM)基分类器,然后将其与另外两个SVM辅助分类器做协同训练。如此,分类器界面得到反复修正,分类器的性能逐步得到改善,最终分类精度得到明显提高。在入侵检测数据集KDDCUP99上的仿真实验结果表明,该算法不仅可以提高检测精度,同时还具有良好的可行性、稳定性。  相似文献   

5.
龚彦鹭  吕佳 《计算机应用》2019,39(8):2297-2301
针对协同训练算法对模糊度高的样本容易标记错误导致分类器精度降低和协同训练在迭代时选择加入的无标记样本隐含有用信息不够的问题,提出了一种结合主动学习和密度峰值聚类的协同训练算法。在每次迭代之前,先选择模糊度高的无标记样本主动标记后加入有标记样本集,然后利用密度峰值聚类对无标记样本聚类得到每个无标记样本的密度和相对距离。迭代时选择具有较高密度和相对距离较远的无标记样本交由朴素贝叶斯(NB)分类,反复上述过程直到满足终止条件。利用主动学习标记模糊度高的样本能够改善分类器误标记识别问题,利用密度峰值聚类能够选择出较好表现数据空间结构的样本。在UCI的8个数据集和Kaggle的pima数据集上的实验表明,与SSLNBCA算法相比,所提算法的准确率最高提升6.7个百分点,平均提升1.46个百分点。  相似文献   

6.
郭涛  李贵洋  兰霞 《计算机工程与设计》2012,33(9):3584-3587,3621
针对协同训练算法对无标记数据挑选效率较低,导致噪声数据引入问题,提出了基于图的置信度估计半监督协同训练算法(CESL).利用样本数据自身的结构信息,显式计算无标记样本所属类别概率.同时,采用了多分类器隐式对无标记数据进行置信度估计,以提高无标记数据挑选标准.将显示计算和隐式估计结合对无标记数据进行选择,减低噪音数据的引入,更新分类器.在UCI数据集上的对比实验表明了该算法的有效性.  相似文献   

7.
利用构造性学习(CML)算法训练分类器需要大量已标记样本,然而获取大量已标记的样本较为困难。为此,提出了一种协同半监督的构造性学习算法。将已标记样本等分为三个训练集,分别使用构造性学习算法训练三个单分类器,以共同投票的方式对未标记样本进行标记,从而依次扩充三个单分类器训练集直到不能再扩充为止。将三个训练集合并训练出最终的分类器。选取UCI数据集进行实验,结果表明,与CML算法、Tri-CML算法、NB算法及Tri-NB相比,该方法的分类更为有效。  相似文献   

8.
陈文  张恩阳  赵勇 《计算机科学》2016,43(9):223-226, 237
卷积神经网络(CNN)是一类重要的深度神经网络,然而其训练过程需要大量的已标记样本,从而限制了其实际应用。针对这一问题,分析了CNN分类器的协同学习过程,给出了基于迭代进化的分类器协同训练算法CAMC。该算法结合了CNN和多分类器协同训练的优势,首先采用不同的卷积核提取出多种样本特征以产生不同的CNN分类器;然后利用少量的已标记样本和大量的未标记样本对多个分类器进行协同训练,以持续提高分类性能。在人脸表情标准数据集上的实验结果表明,相对于传统的表情特征识别法LBP和Gabor,CAMC能够在分类过程中利用未标记样本持续实现性能提升,从而具有更高的分类准确率。  相似文献   

9.
郭涛  李贵洋  兰霞 《计算机工程》2012,38(13):163-165,168
在分类器训练过程中,无标记数据的引入容易产生噪音,从而降低分类精度。为此,提出一种基于图的置信度估计半监督协同训练算法。利用样本数据自身的结构信息,计算无标记样本所属类别概率。采用多分类器对无标记数据进行置信度估计,以提高无标记数据挑选标准,减少噪音数据的引入。在UCI数据集上的对比实验验证了该算法的有效性。  相似文献   

10.
针对支持向量机要求输入向量为已标记样本,而实际应用中已标记样本很难获取的问题,提出将半监督学习和支持向量机结合的煤与瓦斯突出预测方法;介绍了采用SVM预测煤与瓦斯突出的流程及其输入向量的选择;对半监督学习中的协同训练算法进行了改进:在同一属性集上训练2个不同分类器SVM和KNN,将2个分类器标记一致的样本加入训练集,从而充分利用未标记样本不断补充信息,更新训练集标记样本,达到强化训练集的目的。测试结果表明,改进后的算法比单独的支持向量机预测方法准确率更高。  相似文献   

11.
属性约简是粗糙集理论中重要的研究内容之一,是数据挖掘中知识获取的关键步骤。Pawlak粗糙集约简的对象一般是有标记的决策表或者是无标记的信息表。而在很多现实问题中有标记数据很有限,更多的是无标记数据,即半监督数据。为此,结合半监督协同学习理论,提出了处理半监督数据的属性约简算法。该算法首先在有标记数据上构造两个差异性较大的约简来构造基分类器;然后在无标记数据上交互协同学习,扩大有标记数据集,获得质量更好的约简,构造性能更好的分类器,该过程迭代进行,从而实现利用无标记数据提高有标记数据的约简质量,最终获得质量较好的属性约简。UCI数据集上的实验分析表明,该算法是有效且可行的。  相似文献   

12.
Tri-training: exploiting unlabeled data using three classifiers   总被引:24,自引:0,他引:24  
In many practical data mining applications, such as Web page classification, unlabeled training examples are readily available, but labeled ones are fairly expensive to obtain. Therefore, semi-supervised learning algorithms such as co-training have attracted much attention. In this paper, a new co-training style semi-supervised learning algorithm, named tri-training, is proposed. This algorithm generates three classifiers from the original labeled example set. These classifiers are then refined using unlabeled examples in the tri-training process. In detail, in each round of tri-training, an unlabeled example is labeled for a classifier if the other two classifiers agree on the labeling, under certain conditions. Since tri-training neither requires the instance space to be described with sufficient and redundant views nor does it put any constraints on the supervised learning algorithm, its applicability is broader than that of previous co-training style algorithms. Experiments on UCI data sets and application to the Web page classification task indicate that tri-training can effectively exploit unlabeled data to enhance the learning performance.  相似文献   

13.
检测恶意URL对防御网络攻击有着重要意义. 针对有监督学习需要大量有标签样本这一问题, 本文采用半监督学习方式训练恶意URL检测模型, 减少了为数据打标签带来的成本开销. 在传统半监督学习协同训练(co-training)的基础上进行了算法改进, 利用专家知识与Doc2Vec两种方法预处理的数据训练两个分类器, 筛选两个分类器预测结果相同且置信度高的数据打上伪标签(pseudo-labeled)后用于分类器继续学习. 实验结果表明, 本文方法只用0.67%的有标签数据即可训练出检测精确度(precision)分别达到99.42%和95.23%的两个不同类型分类器, 与有监督学习性能相近, 比自训练与协同训练表现更优异.  相似文献   

14.
属性约简能有效地去除不必要属性,提高分类器的性能。模糊粗糙集是处理不确定信息的重要范式,能有效地应用于属性约简。在模糊粗糙集中,样本分布的不确定性会影响对象的近似集,进而影响有效属性约简的获取。为有效地定义近似集,文中提出了基于距离比值尺度的模糊粗糙集,该模型引入了基于距离比值尺度的样本集的定义,通过对距离比值尺度的控制,避免了样本分布不确定性对近似集的影响;给出了该模型的基本性质,定义了新的依赖度函数,进而设计了属性约简算法;以SVM,NaiveBayes和J48作为测试分类器,在UCI数据集上评测所提算法的性能。实验结果表明,所提出的属性约简算法能够有效获取约简并提高分类的精度。  相似文献   

15.
目前的决策粗糙集研究主要集中在完备离散型信息系统,很少有对不完备连续型数据进行研究,考虑这一问题,提出一种不完备邻域决策粗糙集模型。首先在不完备连续型数据中引入了不完备邻域关系,然后利用该二元关系对传统的决策粗糙集进行重构,一种称之为不完备邻域决策粗糙集的模型被提出,同时基于决策代价原则,进一步地提出了最小化决策代价的属性约简算法。最后通过实验表明了所提出的算法具有更高的属性约简性能。  相似文献   

16.
基于多学习器协同训练模型的人体行为识别方法   总被引:1,自引:0,他引:1  
唐超  王文剑  李伟  李国斌  曹峰 《软件学报》2015,26(11):2939-2950
人体行为识别是计算机视觉研究的热点问题,现有的行为识别方法都是基于监督学习框架.为了取得较好的识别效果,通常需要大量的有标记样本来建模.然而,获取有标记样本是一个费时又费力的工作.为了解决这个问题,对半监督学习中的协同训练算法进行改进,提出了一种基于多学习器协同训练模型的人体行为识别方法.这是一种基于半监督学习框架的识别算法.该方法首先通过基于Q统计量的学习器差异性度量选择算法来挑取出协同训练中基学习器集,在协同训练过程中,这些基学习器集对未标记样本进行标记;然后,采用了基于分类器成员委员会的标记近邻置信度计算公式来评估未标记样本的置信度,选取一定比例置信度较高的未标记样本加入到已标记的训练样本集并更新学习器来提升模型的泛化能力.为了评估算法的有效性,采用混合特征来表征人体行为,从而可以快速完成识别过程.实验结果表明,所提出的基于半监督学习的行为识别系统可以有效地辨识视频中的人体动作.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号