共查询到17条相似文献,搜索用时 46 毫秒
1.
2.
传统的多标记学习是监督意义下的学习,它要求获得完整的类别标记.但是当数据规模较大且类别数目较多时,获得完整类别标记的训练样本集是非常困难的.因而,在半监督协同训练思想的框架下,提出了基于Tri-training的半监督多标记学习算法(SMLT).在学习阶段,SMLT引入一个虚拟类标记,然后针对每一对类别标记,利用协同训练机制Tri-training算法训练得到对应的分类器;在预测阶段,给定一个新的样本,将其代入上述所得的分类器中,根据类别标记得票数的多少将多标记学习问题转化为标记排序问题,并将虚拟类标记的得票数作为阈值对标记排序结果进行划分.在UCI中4个常用的多标记数据集上的对比实验表明,SMLT算法在4个评价指标上的性能大多优于其他对比算法,验证了该算法的有效性. 相似文献
3.
4.
基于自适应数据剪辑策略的Tri-training算法 总被引:1,自引:0,他引:1
Tri-training能有效利用无标记样例提高泛化能力.针对Tri-training迭代中无标记样例常被错误标记而形成训练集噪声,导致性能不稳定的缺点,文中提出ADE-Tri-training(Tri-training with Adaptive Data Editing)新算法.它不仅利用RemoveOnly剪辑操作对每次迭代可能产生的误标记样例识别并移除,更重要的是采用自适应策略来确定RemoveOnly触发与抑制的恰当时机.文中证明,PAC理论下自适应策略中一系列判别充分条件可同时确保新训练集规模迭代增大和新假设分类错误率迭代降低更多.UCI数据集上实验结果表明:ADE-Tri-training具有更好的分类泛化性能和健壮性. 相似文献
5.
针对Tri-training算法利用无标记样例时会引入噪声且限制无标记样例的利用率而导致分类性能下降的缺点,提出了AR-Tri-training(Tri-training with assistant and rich strategy)算法.提出辅助学习策略,结合富信息策略设计辅助学习器,并将辅助学习器应用在Tri-training训练以及说话声识别中.实验结果表明,辅助学习器在Tri-training训练的基础上不仅降低每次迭代可能产生的误标记样例数,而且能够充分地利用无标记样例以及在验证集上的错分样例信息.从实验结果可以得出,该算法能够弥补Tri-training算法的缺点,进一步提高测试率. 相似文献
6.
为解决监督学习过程中难以获得大量带有类标记样本且样本数据标记代价较高的问题,结合主动学习和半监督学习方法,提出基于Tri-training半监督学习和凸壳向量的SVM主动学习算法.通过计算样本集的壳向量,选择最有可能成为支持向量的壳向量进行标记.为解决以往主动学习算法在选择最富有信息量的样本标记后,不再进一步利用未标记样本的问题,将Tri-training半监督学习方法引入SVM主动学习过程,选择类标记置信度高的未标记样本加入训练样本集,利用未标记样本集中有利于学习器的信息.在UCI数据集上的实验表明,文中算法在标记样本较少时获得分类准确率较高和泛化性能较好的SVM分类器,降低SVM训练学习的样本标记代价. 相似文献
7.
8.
评价单元的识别是情感倾向性分析中重要的一步,但由于标注语料匮乏,大多数研究集中在用人工构建规则、模板来识别评价单元的方法上。为了减轻标注训练语料的工作,同时进一步挖掘未标记样本的信息,提出一种基于协同训练机制的评价单元识别算法,以利用少量的已标记样本和大量的未标记样本来提高识别性能。该算法利用Tri-training的思想,将支持向量机(SVM)、最大熵(MaxEnt)以及条件随机场(CRF)三个不同分类器组合成一个分类体系,对生成的评价单元候选集进行分类。将Tri-training的算法思想应用于实验来对比采用单一分类器的方法,结果表明,该算法能够有效地识别主观句中的评价单元。 相似文献
9.
刘广祎 《计算机应用与软件》2012,29(4):272-274,300
提出一种建构在同伦方程基础上的交叉熵BP算法,在原有的交叉熵函数基础上,通过同伦方程的参数逐步调节权值,使收敛达到最佳效果.同时其激活函数采用广泛意义的函数,有利于拓展函数使用空间,并结合动量项使收敛效果更佳.实验结果表明,改进后的算法与原始的加动量项算法相比有较好的收敛速度,陷入极小点的几率也大为降低. 相似文献
10.
描述了一种正电子放射的成像技术,这种方法以下列问题的解作为待估放射浓度参数的估计值:极小化实测光子计数数据与待估浓度图像矢量的投影间的交叉熵,并同时满足近似光子总数恒定及非负性约束。作者形式地推导出一种不动点迭代算法用来解上述优化问题。基于模拟及实际数据对此算法进行了测试并与一些标准算法做了对比,实验结果显示了新算法的有效性。 相似文献
11.
12.
交叉熵算法是目前逐步优化而形成的的一种计算方法,在解决多种优化组合的问题上具有较好的性能。在基于信道均方误差的准则下,本文基于交叉熵算法,提出一种适用于非连续正交频分复用(Non-contiguous Orthogonal Frequency Division, NC-OFDM)系统上的导频设计方法。该方法先按照伯努利分布生成导频位置的随机样本,得出信道估计的最小均方误差(Minimum Mean Square Error, MSE)的样本值,然后通过更新规则对分布参数进行更新,经过几次迭代得到较优的导频位置。仿真结果表明,使用该方法得到的信道具有更好的MSE性能及误比特率(Bit Error Rate,BER)性能。 相似文献
13.
14.
该文提出一种新的图像分割算法,从目标和背景区域的差异性出发,利用信息论中的交叉熵作为衡量标准,构造能量函数,通过最小化能量即可得到分割结果。在最小化能量函数时,运用最陡梯度下降法导出曲线进化方程,然后考虑噪声的影响提出了改进模型,并用水平集方法来表示此曲线进化方程,利用快速水平集方法来进行数值求解。最后的仿真结果证明了本文算法的有效性。 相似文献
15.
目前二维最小交叉Tsallis熵阈值分割法有较好的分割性能,但由于计算复杂度高,使得分割速度慢。针对此问题,提出了一种基于二维最小交叉Tsallis熵的快速图像分割方法。首先对二维最小交叉Tsallis熵法公式进行推导找出需要递推的几个量,然后对二维直方图投影进行分析得到二维直方图的特性;最后利用此特性导出新型的快速递推算法来减少计算时间。实验结果表明:相对于当前二维最小交叉Tsallis熵阈值法,提出的方法在保持分割效果的情况下,其速度提高了20倍以上,其运行时间小于0.2 s。 相似文献
16.
数据流分类是数据挖掘领域的重要研究任务之一,已有的数据流分类算法大多是在有标记数据集上进行训练,而实际应用领域数据流中有标记的数据数量极少。为解决这一问题,可通过人工标注的方式获取标记数据,但人工标注昂贵且耗时。考虑到未标记数据的数量极大且隐含大量信息,因此在保证精度的前提下,为利用这些未标记数据的信息,本文提出了一种基于Tri-training的数据流集成分类算法。该算法采用滑动窗口机制将数据流分块,在前k块含有未标记数据和标记数据的数据集上使用Tri-training训练基分类器,通过迭代的加权投票方式不断更新分类器直到所有未标记数据都被打上标记,并利用k个Tri-training集成模型对第k+1块数据进行预测,丢弃分类错误率高的分类器并在当前数据块上重建新分类器从而更新当前模型。在10个UCI数据集上的实验结果表明:与经典算法相比,本文提出的算法在含80%未标记数据的数据流上的分类精度有显著提高。 相似文献
17.
针对虚假评论会误导用户的偏向并使其利益遭受损失以及大规模人工标注评论的代价过高等问题,通过利用以往迭代过程中生成的分类模型来提高检测的准确性,提出一种基于垂直集成的Tri-training(VETT)的虚假评论检测模型。该模型在评论文本特征的基础上结合用户行为特征作为特征进行提取。在VETT算法中,迭代过程被分成组内垂直集成和组间水平集成两部分:组内集成是利用分类器以往的迭代模型集成为一个原始分类器,而组间集成是利用3个原始分类器通过传统过程训练得到这一轮迭代后的二代分类器,以此来提高标签标记的准确率。对比Co-training、Tri-training、基于AUC优化的PU学习(PU-AUC)和基于垂直集成的Co-training(VECT)等算法,VETT算法的F1值分别最大提高了6.5、5.08、4.27和4.23个百分点。实验结果表明VETT算法有较好的分类性能。 相似文献