首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
提出了基于SVM的主动学习算法,用来解决蛋白质相互作用的预测问题。细胞中的生物过程是通过蛋白质相互作用实现的。但是通过实验验证蛋白质之间是否具有相互作用的代价非常大,而且数据很难获取。为了在有限的阳性样本情况下更加快速准确地预测蛋白质之间是否具有相互作用,引入了主动学习方法。主动学习算法可以用来构造有效训练集,其目标是通过迭代抽样,每次寻找最富有信息量的数据点,找到最有利于提升分类效果的样本,进而减小分类训练集的大小。比较了5种不同的主动学习算法,以寻找在有限资源前提下提高分类算法效率的最佳途径。实验表明,主动学习方法与SVM算法相结合,能够在保证SVM分类性能的前提下,有效减少学习所需的样本数量。  相似文献   

2.
基于流形主动学习的遥感图像分类算法   总被引:1,自引:0,他引:1  
刘康  钱旭  王自强 《计算机应用》2013,33(2):326-328
为了高效地解决遥感图像分类问题,提出一种基于流形学习和支持向量机(SVM)的图像分类算法。在初始阶段,该算法首先利用初始训练集训练SVM,并且使用SVM找出离分类界面最近的样本;然后在所选样本中利用拉普拉斯图构建样本空间的流形结构,选出最具有代表性的样本加入训练集;最后利用高光谱图像进行实验进行验证。通过与现有的主动学习算法进行比较,结果表明该算法获得了更高的分类准确率。  相似文献   

3.
在如何从海量的数据中提取有用的信息上提出了一种新的SVM的增量学习算法.该算法基于KKT条件,通过研究支持向量分布特点,分析了新样本加入训练集后,支持向量集的变化情况,提出等势训练集的观点.能对训练数据进行有效的遗忘淘汰,使得学习对象的知识得到了积累.在理论分析和对旅游信息分类的应用结果表明,该算法能在保持分类精度的同时,有效得提高训练速度.  相似文献   

4.
汪敏  武禹伯  闵帆 《计算机应用》2020,40(12):3437-3444
针对传统岩性识别方法识别精度低,难以和地质经验有机结合的问题,提出了一种基于多种聚类算法和多元线性回归的多分类主动学习算法(ALCL)。首先,通过多种异构聚类算法聚类得到对应每种算法的类别矩阵,并通过查询公共点对类别矩阵进行标记和预分类;其次,提出优先级最大搜寻策略和最混乱查询策略选取用于训练聚类算法权重系数模型的关键实例;然后,定义目标求解函数,通过训练关键实例求解得到每种聚类算法的权重系数;最后,结合权重系数进行分类计算,从而对结果置信度高的样本进行分类。应用大庆油田油井的6个公开岩性数据集进行实验,实验结果表明,ALCL的分类精度最高时,比传统监督学习算法和其他主动学习算法提高了2.07%~14.01%。假设检验和显著性分析的结果验证了ALCL在岩性识别问题上具有更好的分类效果。  相似文献   

5.
王莉莉  付忠良  陶攀  朱锴 《计算机应用》2017,37(8):2253-2257
针对超声图像样本冗余、不同标准切面因疾病导致的高度相似性、感兴趣区域定位不准确问题,提出一种结合特征袋(BOF)特征、主动学习方法和多分类AdaBoost改进算法的经食管超声心动图(TEE)标准切面分类方法。首先采用BOF方法对超声图像进行描述;然后采用主动学习方法选择对分类器最有价值的样本作为训练集;最后,在AdaBoost算法对弱分类器的迭代训练中,根据临时强分类器的分类情况调整样本更新规则,实现对多分类AdaBoost算法的改进和TEE标准切面的分类。在TEE数据集和三个UCI数据集上的实验表明,相比AdaBoost.SAMME算法、多分类支持向量机(SVM)算法、BP神经网络和AdaBoost.M2算法,所提算法在各个数据集上的G-mean指标、整体分类准确率和大多数类别分类准确率都有不同程度的提升,且比较难分的类别分类准确率提升最为显著。实验结果表明,在包含类间相似样本的数据集上,分类器的性能有显著提升。  相似文献   

6.
为了解决文本分类任务中未标注数据无法即时标注及成本过高的问题,提出一种面向文本分类的不确定性主动学习方法。提出MSDL(Measure sample density by LDA)算法对未标注样本密集度进行计算,引入新的度量样本聚集情况的密集度计算方式,在密集度高的样本区域选取初始训练集样本,从而使初始训练集更具代表性;从未标注样本中选取更具不确定性的样本加入到训练集中,并基于信息熵对样本进行加权训练,迭代更新分类器模型,直至达到预期终止条件。实验结果表明,在文本分类任务中,该方法相较于其他传统主动学习算法性能更优。  相似文献   

7.
基于集成的非均衡数据分类主动学习算法   总被引:1,自引:0,他引:1  
当前,处理类别非均衡数据采用的主要方法之一就是预处理,将数据均衡化之后采取传统的方法加以训练.预处理的方法主要有过取样和欠取样,然而过取样和欠取样都有自己的不足,提出拆分提升主动学习算法SBAL( Split-Boost Active Learning),该算法将大类样本集根据非均衡比例分成多个子集,子集与小类样本集合并,对其采用AdaBoost算法训练子分类器,然后集成一个总分类器,并基于QBC( Query-by-committee)主动学习算法主动选取有效样本进行训练,基本避免了由于增加样本或者减少样本所带来的不足.实验表明,提出的算法对于非均衡数据具有更高的分类精度.  相似文献   

8.
汪敏  武禹伯  闵帆 《计算机应用》2005,40(12):3437-3444
针对传统岩性识别方法识别精度低,难以和地质经验有机结合的问题,提出了一种基于多种聚类算法和多元线性回归的多分类主动学习算法(ALCL)。首先,通过多种异构聚类算法聚类得到对应每种算法的类别矩阵,并通过查询公共点对类别矩阵进行标记和预分类;其次,提出优先级最大搜寻策略和最混乱查询策略选取用于训练聚类算法权重系数模型的关键实例;然后,定义目标求解函数,通过训练关键实例求解得到每种聚类算法的权重系数;最后,结合权重系数进行分类计算,从而对结果置信度高的样本进行分类。应用大庆油田油井的6个公开岩性数据集进行实验,实验结果表明,ALCL的分类精度最高时,比传统监督学习算法和其他主动学习算法提高了2.07%~14.01%。假设检验和显著性分析的结果验证了ALCL在岩性识别问题上具有更好的分类效果。  相似文献   

9.
基于深度贝叶斯主动学习的高光谱图像分类   总被引:1,自引:0,他引:1       下载免费PDF全文
针对高光谱图像分类中标记样本获取费时费力,无标记数据难以得到有效利用以及主动学习与深度学习结合难等问题,结合贝叶斯深度学习与主动学习的最新进展,提出一种基于深度贝叶斯的主动学习高光谱图像分类算法。利用少量标记样本训练一个卷积神经网络模型,根据与贝叶斯方法结合的主动学习采样策略从无标记样本中选择模型分类最不确定性的样本,选取的样本经人工标记后加入到训练集重新训练模型,减小模型不确定性,提高模型分类精度。通过PaviaU高光谱图像分类的实验结果表明,在少量的标记样本下,提出的方法比传统的方法分类效果更好。  相似文献   

10.
在许多分类任务中,存在大量未标记的样本,并且获取样本标签耗时且昂贵。利用主动学习算法确定最应被标记的关键样本,来构建高精度分类器,可以最大限度地减少标记成本。本文提出一种基于PageRank的主动学习算法(PAL),充分利用数据分布信息进行有效的样本选择。利用PageRank根据样本间的相似度关系依次计算邻域、分值矩阵和排名向量;选择代表样本,并根据其相似度关系构建二叉树,利用该二叉树对代表样本进行聚类,标记和预测;将代表样本作为训练集,对其他样本进行分类。实验采用8个公开数据集,与5种传统的分类算法和3种流行的主动学习算法比较,结果表明PAL算法能取得更好的分类效果。  相似文献   

11.
命名实体识别的目的是识别文本中的实体指称的边界和类别。在进行命名实体识别模型训练的过程中,通常需要大量的标注样本。本文通过实现有效的选择算法,从大量样本中选择适合模型更新的样本,减少对样本的标注工作。通过5组对比实验,验证使用有效的选择算法能够获得更好的样本集,实现具有针对性的标注样本。通过设计在微博网络数据集上的实验,验证本文提出的基于流的主动学习算法可以针对大量互联网文本数据选择出更合适的样本集,能够有效减少人工标注的成本。本文通过2个模型分别实现实体的边界提取和类别区分。序列标注模型提取出实体在序列中的位置,实体分类模型实现对标注结果的分类,并利用主动学习的方法实现在无标注数据集上的训练。使用本文的训练方法在2个数据集上进行实验。在Weibo数据集上的实验展示算法能从无标签数据集中学习到文本特征。在MSRA数据集上的实验结果显示,在预训练数据集的比例达到40%以上时,模型在测试数据集上的F1值稳定在90%左右,与使用全部数据集的结果接近,说明模型在无标签数据集上具有一定的特征提取能力。  相似文献   

12.
一种SVM增量学习淘汰算法   总被引:1,自引:1,他引:1  
基于SVM寻优问题的KKT条件和样本之间的关系,分析了样本增加后支持向量集的变化情况,支持向量在增量学习中的活动规律,提出了一种新的支持向量机增量学习遗忘机制--计数器淘汰算法.该算法只需设定一个参数,即可对训练数据进行有效的遗忘淘汰.通过对标准数据集的实验结果表明,使用该方法进行增量学习在保证训练精度的同时,能有效地提高训练速度并降低存储空间的占用.  相似文献   

13.
跨镜行人追踪是计算机视觉和视频监控公共安全体系构建等领域的重要课题。伴随大规模数据集的发展和深度学习网络的广泛研究,深度学习在跨镜行人追踪问题中取得了良好效果。然而在应用中,除了监控视频自身的不同摄像头、不同视角引起的不同视觉表象变化外,面向跨镜行人追踪的整体数据集偏小,具有标记的训练数据样本量更小,从而制约了基于深度学习的跨镜行人追踪效果。提出了改进型深度迁移学习的跨镜行人追踪算法,将在大数据集上训练好的成熟模型进行微调并迁移到目标数据集上,结合目标数据进行优化,使其能更好地针对新数据集做特征提取。在模型训练过程中,通过改进三元组损失函数,拉近相同样本之间的距离,加大不同样本之间的距离,同时设定正样本之间的最大距离阈值,从而保证特征空间生成的簇不会太大,利于模型的优化。该算法减少了深度学习训练模型的时间,避免了小数据集上数据量不足等缺点,提高了跨镜行人追踪的准确度。在五个基准数据集上的跨镜行人追踪对比实验显示,改进算法取得了良好效果。  相似文献   

14.
张良  罗祎敏  马洪超  张帆  胡川 《计算机应用》2017,37(6):1768-1771
针对高光谱遥感影像分类中,传统的主动学习算法仅利用已标签数据训练样本,大量未标签数据被忽视的问题,提出一种结合未标签信息的主动学习算法。首先,通过K近邻一致性原则、前后预测一致性原则和主动学习算法信息量评估3重筛选得到预测标签可信度高并具备一定信息量的未标签样本;然后,将其预测标签当作真实标签加入到标签样本集中;最后,训练得到更优质的分类模型。实验结果表明,与被动学习算法和传统的主动学习算法相比,所提算法能够在同等标记的代价下获得更高的分类精度,同时具有更好的参数敏感性。  相似文献   

15.
本文提出一种基于半监督主动学习的算法,用于解决在建立动态贝叶斯网络(DBN)分类模型时遇到的难以获得大量带有类标注的样本数据集的问题.半监督学习可以有效利用未标注样本数据来学习DBN分类模型,但是在迭代过程中易于加入错误的样本分类信息,并因而影响模型的准确性.在半监督学习中借鉴主动学习,可以自主选择有用的未标注样本来请求用户标注.把这些样本加入训练集之后,能够最大程度提高半监督学习对未标注样本分类的准确性.实验结果表明,该算法能够显著提高DBN学习器的效率和性能,并快速收敛于预定的分类精度.  相似文献   

16.
P2P流的识别对于网络的维护与运营都具有重要意义,基于机器学习的流识别技术是目前研究的热点和难点内容,但目前仍然存在着建立分类模型需要大量适用的训练数据、训练数据的标记需要依赖领域专家以及因此而导致的工作量及难度过大和实用性不强等问题,而当前的研究工作很少涉及到这些问题的解决办法。针对这一问题,采用主动学习技术提取少量高质量的训练样本进行建模,并结合SVM分类算法提出了一种基于锦标赛选择的样本筛选方法。实验结果表明,其相对于已有的流识别方法,能够在仅依赖少量高质量训练样本的前提下,保证较高召回率及较低误报率,更适用于现实网络环境。  相似文献   

17.
针对在试油气井控专业领域的命名实体识别任务中,由于没有足够的特征标注数据,使得传统通用领域模型无法高效地进行专业的试油气井控专业领域的命名实体识别的问题,提出了一个基于主动学习方法的试油气井控专业领域命名实体识别模型。该模型首先采用对BERT模型进行的条件预训练,在获取名词向量特性信息后进入双向长短期记忆网络(BiLSTM)中,然后再将输出的特征信息经过条件随机场(CRF)对序列标签的相关性进行约束,最后采用主动学习的方法,筛选出合格的样本进行自动标注后放入已标注数据集中,增加训练样本。实验结果表明在多次迭代训练后,该模型可以在少量标注数据的基础上获得较好的命名实体识别效果并获得较高的命名实体识别准确率。  相似文献   

18.
One of the most widely used approaches to the class-imbalanced issue is ensemble learning. The base classifier is trained using an unbalanced training set in the conventional ensemble learning approach. We are unable to select the best suitable resampling method or base classifier for the training set, despite the fact that researchers have examined employing resampling strategies to balance the training set. A multi-armed bandit heterogeneous ensemble framework was developed as a solution to these issues. This framework employs the multi-armed bandit technique to pick the best base classifier and resampling techniques to build a heterogeneous ensemble model. To obtain training sets, we first employ the bagging technique. Then, we use the instances from the out-of-bag set as the validation set. In general, we consider the basic classifier combination with the highest validation set score to be the best model on the bagging subset and add it to the pool of model. The classification performance of the multi-armed bandit heterogeneous ensemble model is then assessed using 30 real-world imbalanced data sets that were gathered from UCI, KEEL, and HDDT. The experimental results demonstrate that, under the two assessment metrics of AUC and Kappa, the proposed heterogeneous ensemble model performs competitively with other nine state-of-the-art ensemble learning methods. At the same time, the findings of the experiment are confirmed by the statistical findings of the Friedman test and Holm's post-hoc test.  相似文献   

19.
对于建立动态贝叶斯网络(DBN)分类模型时,带有类标注样本数据集获得困难的问题,提出一种基于EM和分类损失的半监督主动DBN学习算法.半监督学习中的EM算法可以有效利用未标注样本数据来学习DBN分类模型,但是由于迭代过程中易于加入错误的样本分类信息而影响模型的准确性.基于分类损失的主动学习借鉴到EM学习中,可以自主选择有用的未标注样本来请求用户标注,当把这些样本加入训练集后能够最大程度减少模型对未标注样本分类的不确定性.实验表明,该算法能够显著提高DBN学习器的效率和性能,并快速收敛于预定的分类精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号