首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
李燕萍  唐振民  丁辉  张燕 《计算机工程》2009,35(14):221-223
针对说话人辨认中训练语音有限时系统泛化能力差的问题,提出一种基于半监督学习的复合高斯混合模型算法。通过复合高斯混合模型对所有说话人的特征分布统一建模,基于半监督学习机制下的EM算法对学习样本进行学习。实验证明,该算法能够充分利用未标记样本对系统进行有效的自适应更新,改善系统的性能,获得比传统高斯混合模型更高的识别率,提高系统的泛化能力。  相似文献   

2.
双重高斯混合模型的EM算法的聚类问题研究   总被引:2,自引:0,他引:2  
岳佳  王士同 《计算机仿真》2007,24(11):110-113
EM算法是参数估计的重要方法,其算法核心是根据已有的数据来迭代计算似然函数,使之收敛于某个最优值.半监督聚类是利用少部分标签的数据辅助大量未标签的数据进行的聚类分析.文章介绍了一种基于双重高斯混合模型的EM算法,在无监督学习中增加一些已标记的样本,利用已标记的样本得到初始参数,研究了半监督条件下的双重高斯混合模型的EM聚类算法.实验表明,该算法较无监督学习而言,提升了样本的识别率,有良好的聚类性能.这种算法模型也可以作为一种基础模型,具有一定的应用领域.  相似文献   

3.
提出了一种基于高斯混合模型核的半监督支持向量机(SVM)分类算法.通过构造高斯混合模型核SVM分类器提供未标示样本信息,使得SVM算法在学习标示样本信息的同时,能够兼顾整个训练样本集合的聚类假设.实验部分将该算法同传统SVM算法、直推式支持向量机(TSVM)以及随机游走(RW)半监督算法进行分类性能比较,结果证明该算法在拥有较少标示样本训练的情况下分类性能也有所提高且具有较高的鲁棒性.  相似文献   

4.
王旭  鞠颖 《数字社区&智能家居》2014,(4):2363-2366,2377
结核病是严重危害人类健康的一类疾病。通过计算机图像处理手段进行自动检测结核菌计数可以大幅提高医生诊断效率。高斯混合模型是单一高斯分布的延伸,是使用多个高斯分布加权来拟合给定的数据样本,通过确定拟合参数确定每个样本的分类概率。该文首先通过向量量化算法对图像预处理,降低所需处理数据量,然后从HSV、CIEL*a*b*、YCbCr颜色空间提取特征分量并送入高斯混合模型进行训练。根据实验结果,高斯混合模型比其他无监督分类算法(如K-means算法)准确度更高,与有监督的分类算法(如朴素贝叶斯分类算法)相比可以简化训练样本的制作,具有一定优势。  相似文献   

5.
结核病是严重危害人类健康的一类疾病。通过计算机图像处理手段进行自动检测结核菌计数可以大幅提高医生诊断效率。高斯混合模型是单一高斯分布的延伸,是使用多个高斯分布加权来拟合给定的数据样本,通过确定拟合参数确定每个样本的分类概率。该文首先通过向量量化算法对图像预处理,降低所需处理数据量,然后从HSV、CIEL*a*b*、YCbCr颜色空间提取特征分量并送入高斯混合模型进行训练。根据实验结果,高斯混合模型比其他无监督分类算法(如K-means算法)准确度更高,与有监督的分类算法(如朴素贝叶斯分类算法)相比可以简化训练样本的制作,具有一定优势。  相似文献   

6.
异常边界网关协议(BGP)事件会影响网络的稳定性和可靠性,而网络环境下未标记样本较有标记样本容易获得,对此提出了基于半监督分类的异常检测框架.主要研究了高斯混合模型和直推式支持向量机,使用Slammer蠕虫相关BGP数据进行了实验,并对算法性能作了比较.实验证明半监督分类算法在BGP异常检测中切实可行.  相似文献   

7.
当前已有的数据流分类模型都需要大量已标记样本来进行训练,但在实际应用中,对大量样本标记的成本相对较高。针对此问题,提出了一种基于半监督学习的数据流混合集成分类算法SMEClass,选用混合模式来组织基础分类器,用K个决策树分类器投票表决为未标记数据添加标记,以提高数据类标的置信度,增强集成分类器的准确度,同时加入一个贝叶斯分类器来有效减少标记过程中产生的噪音数据。实验结果显示,SMEClass算法与最新基于半监督学习的集成分类算法相比,其准确率有所提高,在运行时间和抗噪能力方面有明显优势。  相似文献   

8.
结合半监督核的高斯过程分类   总被引:1,自引:0,他引:1  
提出了一种半监督算法用于学习高斯过程分类器, 其通过结合非参数的半监督核向分类器提供未标记数据信息. 该算法主要包括以下几个方面: 1)通过图拉普拉斯的谱分解获得核矩阵, 其联合了标记数据和未标记数据信息; 2)采用凸最优化方法学习核矩阵特征向量的最优权值, 构建非参数的半监督核; 3)把半监督核整合到高斯过程模型中, 构建所提出的半监督学习算法. 该算法的主要特点是: 把基于整个数据集的非参数半监督核应用于高斯过程模型, 该模型有着明确的概率描述, 可以方便地对数据之间的不确定性进行建模, 并能够解决复杂的推论问题. 通过实验结果表明, 该算法与其他方法相比具有更高的可靠性.  相似文献   

9.
混合模型成份数估计是医学图像聚类分析和密度估计的关键。针对基于信息准则的佑计方法存在过拟合问题,提出了一种新的基于高斯混合模型特征函数的估计方法。首先定义医学图像高斯混合模型的特征函数,然后构造了一个基于特征函数的混合模型成份佑计准则,最后设计了该准则的实现算法。新的估计方法通过选择合适的参数调控对数特征函数,让惩罚函数起到平衡作用。模拟数据和真实数据实验表明,此方法确定的混合模型的成份数K比其他经典的信息准则方法确定的更合理,避免了医学图像的过拟合问题。  相似文献   

10.
针对传统鲁棒高斯混合模型EM算法存在模型成分参数难以精确获取最优解以及收敛速度随样本数量的增加而快速降低等问题,提出了一种基于鲁棒高斯混合模型的加速EM算法。该算法采用隐含参量信息熵原理对高斯模型分量个数进行挑选以及使用Aitken加速方法减少算法的迭代次数,当接近最优解时,EM步长的变化极为缓慢,这时使用Broyden对称秩1校正公式进行校正,使算法快速收敛,从而能够在很少的迭代次数内精确获取高斯混合模型的模型成分数。文中算法通过与传统鲁棒EM算法和无监督的EM算法的聚类结果进行比较,实验证明该算法对初始值的设定并不敏感(成分数c无需预先设定),并且能够降低算法运算时间,提高聚类模型成分数(类簇)的正确率。  相似文献   

11.
提出一种选择最富信息数据并予以标记的基于主动学习策略的半监督聚类算法。首先, 采用传统K-均值聚类算法对数据集进行粗聚类; 其次, 根据粗聚类结果计算出每个数据隶属于每个类簇的隶属度, 筛选出满足最大与次大隶属度差值小于阈值的候选数据, 并从中选择差值较小的数据作为最富信息的数据进行标记; 最后, 将候选数据集合中未标记数据分组到与每类已被标记数据平均距离最小的类簇中。实验表明, 提出的主动学习策略能够很好地学习到最富信息数据, 基于该学习策略的半监督聚类算法在测试不同数据集时均获得了较高的准确率。  相似文献   

12.
李志恒 《计算机应用研究》2021,38(2):591-594,599
针对机器学习中训练样本和测试样本概率分布不一致的问题,提出了一种基于dropout正则化的半监督域自适应方法来实现将神经网络的特征表示从标签丰富的源域转移到无标签的目标域。此方法从半监督学习的角度出发,在源域数据中添加少量带标签的目标域数据,使得神经网络在学习到源域数据特征分布的同时也能学习到目标域数据的特征分布。由于有了先验知识的指导,即使没有丰富的标签信息,神经网络依然可以很好地拟合目标域数据。实验结果表明,此算法在几种典型的数字数据集SVHN、MNIST和USPS的域自适应任务上的性能优于现有的其他算法,并且在涵盖广泛自然类别的真实数据集CIFAR-10和STL-10的域自适应任务上有较好的鲁棒性。  相似文献   

13.
多标记学习主要用于解决因单个样本对应多个概念标记而带来的歧义性问题,而半监督多标记学习是近年来多标记学习任务中的一个新的研究方向,它试图综合利用少量的已标记样本和大量的未标记样本来提高学习性能。为了进一步挖掘未标记样本的信息和价值并将其应用于文档多标记分类问题,该文提出了一种基于Tri-training的半监督多标记学习算法(MKSMLT),该算法首先利用k近邻算法扩充已标记样本集,结合Tri-training算法训练分类器,将多标记学习问题转化为标记排序问题。实验表明,该算法能够有效提高文档分类性能。  相似文献   

14.
肺结节的良恶性分类对于肺癌的早期发现及诊断具有重要意义。然而实际应用中,标记的图像数量较少,且获取标记将耗费大量的人力,在这种情况下,使用半监督学习算法是有效提高分类性能的一个思路。作为一种经典的半监督学习算法,传统的半监督FCM在未标记样本与标记样本分布不平衡情况下不能充分利用标记信息。针对此问题,本文提出了一种基于分布先验的半监督FCM算法。首先计算样本的先验分布概率,基于获得的先验概率,给样本赋予权重,并将其融入到半监督FCM聚类中,从而强化少量的标记样本在聚类过程中的指导作用。文中在LIDC数据库上进行了相应的实验,实验结果证明,相比较传统的半监督FCM算法,提出的算法能够取得更好的肺结节分类性能。  相似文献   

15.
Human action recognition is a challenging task due to significant intra-class variations, occlusion, and background clutter. Most of the existing work use the action models based on statistic learning algorithms for classification. To achieve good performance on recognition, a large amount of the labeled samples are therefore required to train the sophisticated action models. However, collecting labeled samples is labor-intensive. To tackle this problem, we propose a boosted multi-class semi-supervised learning algorithm in which the co-EM algorithm is adopted to leverage the information from unlabeled data. Three key issues are addressed in this paper. Firstly, we formulate the action recognition in a multi-class semi-supervised learning problem to deal with the insufficient labeled data and high computational expense. Secondly, boosted co-EM is employed for the semi-supervised model construction. To overcome the high dimensional feature space, weighted multiple discriminant analysis (WMDA) is used to project the features into low dimensional subspaces in which the Gaussian mixture models (GMM) are trained and boosting scheme is used to integrate the subspace models. Thirdly, we present the upper bound of the training error in multi-class framework, which is able to guide the novel classifier construction. In theory, the proposed solution is proved to minimize this upper error bound. Experimental results have shown good performance on public datasets.  相似文献   

16.
In this paper, we propose a novel semi-supervised learning approach based on nearest neighbor rule and cut edges. In the first step of our approach, a relative neighborhood graph based on all training samples is constructed for each unlabeled sample, and the unlabeled samples whose edges are all connected to training samples from the same class are labeled. These newly labeled samples are then added into the training samples. In the second step, standard self-training algorithm using nearest neighbor rule is applied for classification until a predetermined stopping criterion is met. In the third step, a statistical test is applied for label modification, and in the last step, the remaining unlabeled samples are classified using standard nearest neighbor rule. The main advantages of the proposed method are: (1) it reduces the error reinforcement by using relative neighborhood graph for classification in the initial stages of semi-supervised learning; (2) it introduces a label modification mechanism for better classification performance. Experimental results show the effectiveness of the proposed approach.  相似文献   

17.
吕佳  黎隽男 《计算机应用》2018,38(1):110-115
针对自训练方法在迭代中选出的置信度高的无标记样本所含信息量不大和自训练方法容易误标记无标记样本的问题,提出了一种结合半监督聚类和数据剪辑的Naive Bayes自训练方法。该自训练方法在每次迭代的时候,首先利用少量的有标记样本和大量的无标记样本进行半监督聚类,从而选出聚类隶属度高的无标记样本作Naive Bayes分类;然后利用数据剪辑技术来过滤掉聚类隶属度高而被Naive Bayes误分类的无标记样本。该数据剪辑技术能够同时利用有标记样本和无标记样本信息进行噪声过滤,解决了传统数据剪辑技术的性能可能因有标记样本数量匮乏而下降的问题。通过在UCI数据集上的对比实验,证明了所提算法的有效性。  相似文献   

18.
基于多学习器协同训练模型的人体行为识别方法   总被引:1,自引:0,他引:1  
唐超  王文剑  李伟  李国斌  曹峰 《软件学报》2015,26(11):2939-2950
人体行为识别是计算机视觉研究的热点问题,现有的行为识别方法都是基于监督学习框架.为了取得较好的识别效果,通常需要大量的有标记样本来建模.然而,获取有标记样本是一个费时又费力的工作.为了解决这个问题,对半监督学习中的协同训练算法进行改进,提出了一种基于多学习器协同训练模型的人体行为识别方法.这是一种基于半监督学习框架的识别算法.该方法首先通过基于Q统计量的学习器差异性度量选择算法来挑取出协同训练中基学习器集,在协同训练过程中,这些基学习器集对未标记样本进行标记;然后,采用了基于分类器成员委员会的标记近邻置信度计算公式来评估未标记样本的置信度,选取一定比例置信度较高的未标记样本加入到已标记的训练样本集并更新学习器来提升模型的泛化能力.为了评估算法的有效性,采用混合特征来表征人体行为,从而可以快速完成识别过程.实验结果表明,所提出的基于半监督学习的行为识别系统可以有效地辨识视频中的人体动作.  相似文献   

19.
主动协同半监督粗糙集分类模型   总被引:1,自引:0,他引:1  
粗糙集理论是一种有监督学习模型,一般需要适量有标记的数据来训练分类器。但现实一些问题往往存在大量无标记的数据,而有标记数据由于标记代价过大较为稀少。文中结合主动学习和协同训练理论,提出一种可有效利用无标记数据提升分类性能的半监督粗糙集模型。该模型利用半监督属性约简算法提取两个差异性较大的约简构造基分类器,然后基于主动学习思想在无标记数据中选择两分类器分歧较大的样本进行人工标注,并将更新后的分类器交互协同学习。UCI数据集实验对比分析表明,该模型能明显提高分类学习性能,甚至能达到数据集的最优值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号