首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
张雁  吴保国  吕丹桔  林英 《计算机工程》2014,(6):215-218,229
半监督学习和主动学习都是利用未标记数据,在少量标记数据代价下同时提高监督学习识别性能的有效方法。为此,结合主动学习方法与半监督学习的Tri-training算法,提出一种新的分类算法,通过熵优先采样算法选择主动学习的样本。针对UCI数据集和遥感数据,在不同标记训练样本比例下进行实验,结果表明,该算法在标记样本数较少的情况下能取得较好的效果。将主动学习与Tri-training算法相结合,是提高分类性能和泛化性的有效途径。  相似文献   

2.
刘杨磊    梁吉业    高嘉伟    杨静   《智能系统学报》2013,8(5):439-445
传统的多标记学习是监督意义下的学习,它要求获得完整的类别标记.但是当数据规模较大且类别数目较多时,获得完整类别标记的训练样本集是非常困难的.因而,在半监督协同训练思想的框架下,提出了基于Tri-training的半监督多标记学习算法(SMLT).在学习阶段,SMLT引入一个虚拟类标记,然后针对每一对类别标记,利用协同训练机制Tri-training算法训练得到对应的分类器;在预测阶段,给定一个新的样本,将其代入上述所得的分类器中,根据类别标记得票数的多少将多标记学习问题转化为标记排序问题,并将虚拟类标记的得票数作为阈值对标记排序结果进行划分.在UCI中4个常用的多标记数据集上的对比实验表明,SMLT算法在4个评价指标上的性能大多优于其他对比算法,验证了该算法的有效性.  相似文献   

3.
构造性机器学习(CML)算法在训练分类器时需要大量有标记样本,而获取这些有标记样本十分困难。为此,提出一种基于Tri- training算法的构造性学习方法。根据已标记的样本,采用不同策略构造3个差异较大的初始覆盖分类网络,用于对未标记数据进行标记,再将已标记数据加入到训练样本中,调整各分类网络参数,反复进行上述过程,直至获得稳定的分类器。实验结果证明,与CML算法和基于NB分类器的半监督学习算法相比,该方法的分类准确率更高。  相似文献   

4.
基于自适应数据剪辑策略的Tri-training算法   总被引:1,自引:0,他引:1  
邓超  郭茂祖 《计算机学报》2007,30(8):1213-1226
Tri-training能有效利用无标记样例提高泛化能力.针对Tri-training迭代中无标记样例常被错误标记而形成训练集噪声,导致性能不稳定的缺点,文中提出ADE-Tri-training(Tri-training with Adaptive Data Editing)新算法.它不仅利用RemoveOnly剪辑操作对每次迭代可能产生的误标记样例识别并移除,更重要的是采用自适应策略来确定RemoveOnly触发与抑制的恰当时机.文中证明,PAC理论下自适应策略中一系列判别充分条件可同时确保新训练集规模迭代增大和新假设分类错误率迭代降低更多.UCI数据集上实验结果表明:ADE-Tri-training具有更好的分类泛化性能和健壮性.  相似文献   

5.
针对Tri-training算法利用无标记样例时会引入噪声且限制无标记样例的利用率而导致分类性能下降的缺点,提出了AR-Tri-training(Tri-training with assistant and rich strategy)算法.提出辅助学习策略,结合富信息策略设计辅助学习器,并将辅助学习器应用在Tri-training训练以及说话声识别中.实验结果表明,辅助学习器在Tri-training训练的基础上不仅降低每次迭代可能产生的误标记样例数,而且能够充分地利用无标记样例以及在验证集上的错分样例信息.从实验结果可以得出,该算法能够弥补Tri-training算法的缺点,进一步提高测试率.  相似文献   

6.
为解决监督学习过程中难以获得大量带有类标记样本且样本数据标记代价较高的问题,结合主动学习和半监督学习方法,提出基于Tri-training半监督学习和凸壳向量的SVM主动学习算法.通过计算样本集的壳向量,选择最有可能成为支持向量的壳向量进行标记.为解决以往主动学习算法在选择最富有信息量的样本标记后,不再进一步利用未标记样本的问题,将Tri-training半监督学习方法引入SVM主动学习过程,选择类标记置信度高的未标记样本加入训练样本集,利用未标记样本集中有利于学习器的信息.在UCI数据集上的实验表明,文中算法在标记样本较少时获得分类准确率较高和泛化性能较好的SVM分类器,降低SVM训练学习的样本标记代价.  相似文献   

7.
基于交叉熵算法的PID 控制器设计   总被引:2,自引:0,他引:2  
交叉熵优化方法是一种新型高效的随机优化算法,算法控制参数简单,鲁棒性强.将交叉熵优化算法用于PID控制器的参数设计,并与基于遗传算法的PID控制器设计进行对比,结果表明,交叉熵优化算法不仅所获结果较优,而且计算复杂度也明显小于遗传算法.  相似文献   

8.
蒋润  顾春华  阮彤 《计算机应用》2014,34(4):1099-1104
评价单元的识别是情感倾向性分析中重要的一步,但由于标注语料匮乏,大多数研究集中在用人工构建规则、模板来识别评价单元的方法上。为了减轻标注训练语料的工作,同时进一步挖掘未标记样本的信息,提出一种基于协同训练机制的评价单元识别算法,以利用少量的已标记样本和大量的未标记样本来提高识别性能。该算法利用Tri-training的思想,将支持向量机(SVM)、最大熵(MaxEnt)以及条件随机场(CRF)三个不同分类器组合成一个分类体系,对生成的评价单元候选集进行分类。将Tri-training的算法思想应用于实验来对比采用单一分类器的方法,结果表明,该算法能够有效地识别主观句中的评价单元。  相似文献   

9.
提出一种建构在同伦方程基础上的交叉熵BP算法,在原有的交叉熵函数基础上,通过同伦方程的参数逐步调节权值,使收敛达到最佳效果.同时其激活函数采用广泛意义的函数,有利于拓展函数使用空间,并结合动量项使收敛效果更佳.实验结果表明,改进后的算法与原始的加动量项算法相比有较好的收敛速度,陷入极小点的几率也大为降低.  相似文献   

10.
张嵩  汪元美 《计算机学报》2000,23(11):1151-1155
描述了一种正电子放射的成像技术,这种方法以下列问题的解作为待估放射浓度参数的估计值:极小化实测光子计数数据与待估浓度图像矢量的投影间的交叉熵,并同时满足近似光子总数恒定及非负性约束。作者形式地推导出一种不动点迭代算法用来解上述优化问题。基于模拟及实际数据对此算法进行了测试并与一些标准算法做了对比,实验结果显示了新算法的有效性。  相似文献   

11.
半监督的双协同训练要求划分出的2个数据向量相互独立,不符合真实的网络入侵检测数据特征。为此,提出一种基于三协同训练(Tri-training)的入侵检测算法。使用大量未标记数据,通过3个分类器对检测结果进行循环迭代训练,避免交叉验证。仿真实验表明,在少量样本情况下,该算法的检测准确度比SVM Co-training算法提高了2.1%,并且随着循环次数的增加,其性能优势更加明显。  相似文献   

12.
交叉熵算法是目前逐步优化而形成的的一种计算方法,在解决多种优化组合的问题上具有较好的性能。在基于信道均方误差的准则下,本文基于交叉熵算法,提出一种适用于非连续正交频分复用(Non-contiguous Orthogonal Frequency Division, NC-OFDM)系统上的导频设计方法。该方法先按照伯努利分布生成导频位置的随机样本,得出信道估计的最小均方误差(Minimum Mean Square Error, MSE)的样本值,然后通过更新规则对分布参数进行更新,经过几次迭代得到较优的导频位置。仿真结果表明,使用该方法得到的信道具有更好的MSE性能及误比特率(Bit Error Rate,BER)性能。  相似文献   

13.
提出一种改进的BP算法,并对改进算法中的参数选择进行了讨论。改进后的算法用于XOR问题的学习及函数逼近问题。结果表明,改进后的BP算法可显著地提高网络的学习速度和逼近精度。  相似文献   

14.
该文提出一种新的图像分割算法,从目标和背景区域的差异性出发,利用信息论中的交叉熵作为衡量标准,构造能量函数,通过最小化能量即可得到分割结果。在最小化能量函数时,运用最陡梯度下降法导出曲线进化方程,然后考虑噪声的影响提出了改进模型,并用水平集方法来表示此曲线进化方程,利用快速水平集方法来进行数值求解。最后的仿真结果证明了本文算法的有效性。  相似文献   

15.
数据流分类是数据挖掘领域的重要研究任务之一,已有的数据流分类算法大多是在有标记数据集上进行训练,而实际应用领域数据流中有标记的数据数量极少。为解决这一问题,可通过人工标注的方式获取标记数据,但人工标注昂贵且耗时。考虑到未标记数据的数量极大且隐含大量信息,因此在保证精度的前提下,为利用这些未标记数据的信息,本文提出了一种基于Tri-training的数据流集成分类算法。该算法采用滑动窗口机制将数据流分块,在前k块含有未标记数据和标记数据的数据集上使用Tri-training训练基分类器,通过迭代的加权投票方式不断更新分类器直到所有未标记数据都被打上标记,并利用k个Tri-training集成模型对第k+1块数据进行预测,丢弃分类错误率高的分类器并在当前数据块上重建新分类器从而更新当前模型。在10个UCI数据集上的实验结果表明:与经典算法相比,本文提出的算法在含80%未标记数据的数据流上的分类精度有显著提高。  相似文献   

16.
目前二维最小交叉Tsallis熵阈值分割法有较好的分割性能,但由于计算复杂度高,使得分割速度慢。针对此问题,提出了一种基于二维最小交叉Tsallis熵的快速图像分割方法。首先对二维最小交叉Tsallis熵法公式进行推导找出需要递推的几个量,然后对二维直方图投影进行分析得到二维直方图的特性;最后利用此特性导出新型的快速递推算法来减少计算时间。实验结果表明:相对于当前二维最小交叉Tsallis熵阈值法,提出的方法在保持分割效果的情况下,其速度提高了20倍以上,其运行时间小于0.2 s。  相似文献   

17.
尹春勇  朱宇航 《计算机应用》2020,40(8):2194-2201
针对虚假评论会误导用户的偏向并使其利益遭受损失以及大规模人工标注评论的代价过高等问题,通过利用以往迭代过程中生成的分类模型来提高检测的准确性,提出一种基于垂直集成的Tri-training(VETT)的虚假评论检测模型。该模型在评论文本特征的基础上结合用户行为特征作为特征进行提取。在VETT算法中,迭代过程被分成组内垂直集成和组间水平集成两部分:组内集成是利用分类器以往的迭代模型集成为一个原始分类器,而组间集成是利用3个原始分类器通过传统过程训练得到这一轮迭代后的二代分类器,以此来提高标签标记的准确率。对比Co-training、Tri-training、基于AUC优化的PU学习(PU-AUC)和基于垂直集成的Co-training(VECT)等算法,VETT算法的F1值分别最大提高了6.5、5.08、4.27和4.23个百分点。实验结果表明VETT算法有较好的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号