期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

成鹏汪西莉《计算机工程》2011,37(12):166-169

提出一种基于相似度融合的主动支持向量机算法,利用未标记样本和标记样本,结合支持向量机的方法实现主动学习.实验结果表明,该算法与普通主动学习的支持向量机相比,在保证分类器性能的情况下,可以减少标记样本的数目,抑制孤立样本对分类器的影响;在相同标记样本数目的情况下,该算法具有较高的分类精度. 相似文献

2.

结合主动学习和密度峰值聚类的协同训练算法

龚彦鹭吕佳《计算机应用》2019,39(8):2297-2301

针对协同训练算法对模糊度高的样本容易标记错误导致分类器精度降低和协同训练在迭代时选择加入的无标记样本隐含有用信息不够的问题，提出了一种结合主动学习和密度峰值聚类的协同训练算法。在每次迭代之前，先选择模糊度高的无标记样本主动标记后加入有标记样本集，然后利用密度峰值聚类对无标记样本聚类得到每个无标记样本的密度和相对距离。迭代时选择具有较高密度和相对距离较远的无标记样本交由朴素贝叶斯（NB）分类，反复上述过程直到满足终止条件。利用主动学习标记模糊度高的样本能够改善分类器误标记识别问题，利用密度峰值聚类能够选择出较好表现数据空间结构的样本。在UCI的8个数据集和Kaggle的pima数据集上的实验表明，与SSLNBCA算法相比，所提算法的准确率最高提升6.7个百分点，平均提升1.46个百分点。相似文献

3.

结合Tri-training半监督学习和凸壳向量的SVM主动学习算法^*

徐海龙龙光正别晓峰吴天爱郭蓬松《模式识别与人工智能》2016,29(1):39-46

为解决监督学习过程中难以获得大量带有类标记样本且样本数据标记代价较高的问题,结合主动学习和半监督学习方法,提出基于Tri-training半监督学习和凸壳向量的SVM主动学习算法.通过计算样本集的壳向量,选择最有可能成为支持向量的壳向量进行标记.为解决以往主动学习算法在选择最富有信息量的样本标记后,不再进一步利用未标记样本的问题,将Tri-training半监督学习方法引入SVM主动学习过程,选择类标记置信度高的未标记样本加入训练样本集,利用未标记样本集中有利于学习器的信息.在UCI数据集上的实验表明,文中算法在标记样本较少时获得分类准确率较高和泛化性能较好的SVM分类器,降低SVM训练学习的样本标记代价. 相似文献

4.

基于深度贝叶斯主动学习的高光谱图像分类 总被引：1，自引：0，他引：1

下载免费PDF全文

杨承文李吉明杨东勇《计算机工程与应用》2019,55(18):166-172

针对高光谱图像分类中标记样本获取费时费力,无标记数据难以得到有效利用以及主动学习与深度学习结合难等问题,结合贝叶斯深度学习与主动学习的最新进展,提出一种基于深度贝叶斯的主动学习高光谱图像分类算法。利用少量标记样本训练一个卷积神经网络模型,根据与贝叶斯方法结合的主动学习采样策略从无标记样本中选择模型分类最不确定性的样本,选取的样本经人工标记后加入到训练集重新训练模型,减小模型不确定性,提高模型分类精度。通过PaviaU高光谱图像分类的实验结果表明,在少量的标记样本下,提出的方法比传统的方法分类效果更好。相似文献

5.

基于AUC 优化的非线性主动学习算法及其在障碍物检测中的应用

韩光赵春霞胡雪蕾《机器人》2010,32(3):1

针对障碍物检测中因样本量过大而造成的标记困难以及样本分布不均衡等问题,提出了一种基于AUC 优化的非线性主动学习算法．该算法的计算处理过程是：首先利用基于AUC 优化的算法在训练集上对非线性分类器进行训练;然后利用已训练好的分类器对所有未标记样本进行分类;接着利用基于AUC 优化的样本选择函数计算分类后的样本的得分;最后算法根据分值大小选出最有信息量样本,并且专家根据该样本所在的图像及在图像中位置对其进行标记并放入训练集中．重复上述过程,直到AUC 收敛为止．在户外环境图像库上进行了实验,结果表明：该算法能显著减小数据标记的工作量,并能解决因样本分布不平衡而引起的次优解问题,与已有主动学习算法相比性能更优．相似文献

6.

基于改进FCM聚类的BT-SVM多类分类算法

权文王晓丹《微计算机信息》2009,25(6)

针对二叉树支持向量机在多类分类问题上存在的不足,利用粒子群算法对模糊C均值聚类算法进行了改进,在此基础上,结合二又树支持向量机,构建了偏二叉树多类分类算法.该方法在二叉树各节点处根据聚类中心所对应的样本构造学习样本集和最优分类超平面,保障了聚类精度,有效地提高了测试正确率.实验表明,本文提出BT-SVM多类分类算法的测试正确率要高于同类多类分类算法. 相似文献

7.

基于主动学习的微博数据分类

刘东江黎建辉《计算机应用研究》2018,35(3)

在基于微博数据训练分类模型的过程当中,我们可以通过主动学习有效的减少需标注数据的数据量,SVM主动学习算法是主动学习中相当著名的算法,但是该算法还存在缺陷,就是没有对微博数据内容多样的特点进行充分考虑,因此在本文中作者提出了一种新的基于支持向量机(SVM)的主动学习算法,该算法通过未标注样本点与所有已标注样本点之间的余弦相似度之和来度量未标注样本与所有已标注样本点之间的相似性,通过选择与已选择的所有样本不相似的样本点进行标注就可以实现对于数据多样性的充分考虑;另外,为了避免太大的余弦相似度值对于余弦相似度之和的影响,该算法通过一种设置阈值的方法来使得被选择样本的最小余弦相似度尽可能大;除此之外,为了选择最佳的样本进行标注,在算法中我们在考虑数据多样性的同时也对样本点和分类超平面之间的距离进行了考虑。相似文献

8.

球结构支持向量机的主动自适应方法

蒋华戚玉顺曾梅梅《计算机工程与设计》2012,33(11):4116-4120

为了解决大样本集标记工作问题和分类器对新样本分类适应能力差的问题,结合球结构支持向量机,提出了一种主动学习自适应性分类方法。该方法根据主动学习思想,以边界近邻策略迭代选取最有价值的样本,初始训练分类器,再依据增量学习方法选取包含新信息的样本,以阶段跟新方式重新训练分类器,并根据余弦相似度对内存中支持向量进行控制。实验结果表明,该方法既减少了标记开销,又保持了分类器分类性能的稳定性和延续性。相似文献

9.

应用遗传算法优化子空间的SVM分类算法

蒋华荣郁雪《计算机科学》2013,40(11):255-260,275

提出了一种应用遗传算法优化子空间的SVM分类算法GS-SVM。该算法首先改进样本选择策略,采用基于置信度和凸包的样本选择方法,考虑类间距离和样本分布等因素,选择典型代表样本作为SVM的新训练集;然后采用矩阵式混合编码方式,利用遗传算法一并优化代表样本的特征子空间和SVM分类参数,并根据特征优化后的代表样本,构建SVM分类模型。在UCI的11个数据集上进行的仿真实验结果表明,该算法在大部分数据集上均可获得较小的样本规模和特征维数,以及较高的分类精度。相似文献

10.

基于拉普拉斯评分的多标记特征选择算法

胡敏杰林耀进王晨曦唐莉郑荔平《计算机应用》2018,38(11):3167-3174

针对传统的拉普拉斯评分特征选择算法只适应单标记学习,无法直接应用于多标记学习的问题,提出一种应用于多标记任务的拉普拉斯评分特征选择算法。首先,考虑样本在整体标记空间中共同关联和共同不关联的相关性,重新构建样本相似度矩阵;然后,将特征之间的相关性及冗余性判定引入拉普拉斯评分算法中,采用前向贪心搜索策略依次评价候选特征与已选特征的联合作用能力,用于评价特征的重要性;最后,在5个不同评价指标和6个多标记数据集上实验。实验结果表明：相比基于最大依赖的多标记维数约简方法（MDDM）、基于贝叶斯分类器的多标记特征选择算法（MLNB）及基于多元互信息的多标记分类特征选择算法（PMU）,所提算法不仅分类性能最优,且存在显著性优异达65%。相似文献

11.

基于未标签信息主动学习算法的高光谱影像分类

张良罗祎敏马洪超张帆胡川《计算机应用》2017,37(6):1768-1771

针对高光谱遥感影像分类中,传统的主动学习算法仅利用已标签数据训练样本,大量未标签数据被忽视的问题,提出一种结合未标签信息的主动学习算法。首先,通过K近邻一致性原则、前后预测一致性原则和主动学习算法信息量评估3重筛选得到预测标签可信度高并具备一定信息量的未标签样本;然后,将其预测标签当作真实标签加入到标签样本集中;最后,训练得到更优质的分类模型。实验结果表明,与被动学习算法和传统的主动学习算法相比,所提算法能够在同等标记的代价下获得更高的分类精度,同时具有更好的参数敏感性。相似文献

12.

结合谱聚类的标记分布学习

下载免费PDF全文

王一宾李田力程玉胜《智能系统学报》2019,14(5):966-973

标记分布是一种新的学习范式,现有算法大多数直接使用条件概率建立参数模型,未充分考虑样本之间的相关性,导致计算复杂度增大。基于此,引入谱聚类算法,通过样本之间相似性关系将聚类问题转化为图的全局最优划分问题,进而提出一种结合谱聚类的标记分布学习算法（label distribution learning with spectral clustering,SC-LDL）。首先,计算样本相似度矩阵;然后,对矩阵进行拉普拉斯变换,构造特征向量空间;最后,通过K-means算法对数据进行聚类建立参数模型,预测未知样本的标记分布。与现有算法在多个数据集上的实验表明,本算法优于多个对比算法,统计假设检验进一步说明算法的有效性和优越性。相似文献

13.

基于非负矩阵分解与稀疏表示的多标签分类算法

包永春张建臣杜守信张军军《计算机应用》2022,42(5):1375-1382

传统的多标签分类算法是以二值标签预测为基础的,而二值标签由于仅能指示数据是否具有相关类别,所含语义信息较少,无法充分表示标签语义信息。为充分挖掘标签空间的语义信息,提出了一种基于非负矩阵分解和稀疏表示的多标签分类算法（MLNS）。该算法结合非负矩阵分解与稀疏表示技术,将数据的二值标签转化为实值标签,从而丰富标签语义信息并提升分类效果。首先,对标签空间进行非负矩阵分解以获得标签潜在语义空间,并将标签潜在语义空间与原始特征空间结合以形成新的特征空间;然后,对此特征空间进行稀疏编码来获得样本间的全局相似关系;最后,利用该相似关系重构二值标签向量,从而实现二值标签与实值标签的转化。在5个标准多标签数据集和5个评价指标上将所提算法与MLBGM、ML²、LIFT和MLRWKNN等算法进行对比。实验结果表明,所提MLNS在多标签分类中优于对比的多标签分类算法,在50%的案例中排名第一,在76%的案例中排名前二,在全部的案例中排名前三。相似文献

14.

基于加权模糊隶属度的二叉树多分类算法

沈洋《计算机应用研究》2020,37(11):3281-3286

针对二叉树支持向量机多分类算法准确率与分类效率较低的问题,提出了一种基于加权模糊隶属度的二叉树支持向量机多分类算法（binary tree support vector machines multi-classification algorithm based on weighted fuzzy membership,PF-BTSVM）。该算法依据最大最小样本距离与质心距离构造出一个近似完全二叉树,提高了整体结构的分类效率;利用模糊隶属度函数以及正负辅助惩罚因子对训练集进行筛选,剔除掉对分类无用的样本与噪声值,实现了训练集的提纯并且削弱了不平衡分类时超平面的偏移。在数据集上的实验结果表明,与其他二叉树多分类算法相比,该算法在提高了分类准确率以及稳定性的的同时还加快了训练与分类的速度,而且这种优势当分类的不平衡度越大时越明显。相似文献

15.

Active learning through density clustering

《Expert systems with applications》2017

Active learning is used for classification when labeling data are costly, while the main challenge is to identify the critical instances that should be labeled. Clustering-based approaches take advantage of the structure of the data to select representative instances. In this paper, we developed the active learning through density peak clustering (ALEC) algorithm with three new features. First, a master tree was built to express the relationships among the nodes and assist the growth of the cluster tree. Second, a deterministic instance selection strategy was designed using a new importance measure. Third, tri-partitioning was employed to determine the action to be taken on each instance during iterative clustering, labeling, and classifying. Experiments were performed with 14 datasets to compare against state-of-the-art active learning algorithms. Results demonstrated that the new algorithm had higher classification accuracy using the same number of labeled data. 相似文献

16.

新的基于代价敏感集成学习的非平衡数据集分类方法NIBoost

王莉陈红梅王生武《计算机应用》2019,39(3):629-633

现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题。针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学习的非平衡数据分类算法--NIBoost（New Imbalanced Boost）。首先,在每次迭代过程中利用过采样算法新增一定数目的少数类样本来对数据集进行平衡,在该新数据集上训练分类器;其次,使用该分类器对数据集进行分类,并得到各样本的预测类标及该分类器的分类错误率;最后,根据分类错误率和预测的类标计算该分类器的权重系数及各样本新的权重。实验采用决策树、朴素贝叶斯作为弱分类器算法,在UCI数据集上的实验结果表明,当以决策树作为基分类器时,与RareBoost算法相比,F-value最高提高了5.91个百分点、G-mean最高提高了7.44个百分点、AUC最高提高了4.38个百分点;故该新算法在处理非平衡数据分类问题上具有一定的优势。相似文献

17.

结合局部标记序关系的弱监督标记分布学习

下载免费PDF全文

秦天滕齐发贾修一《智能系统学报》2023,18(1):47-55

标记分布学习（label distribution learning,LDL）是一种用于解决标记多义性的新颖学习范式。现有的LDL方法大多基于完整数据信息进行设计,然而由于高昂的标注成本以及标注人员水平的局限性,很难获取到完整标注数据信息,且会导致传统LDL算法性能的下降。为此,本文提出了一种新型的结合局部序标记关系的弱监督标记分布学习算法,通过维持尚未缺失标记之间的相对关系,并利用标记相关性来恢复缺失的标记,在数据标注不完整的情况下提升算法性能。在14个数据集上进行了大量的实验来验证算法的有效性。相似文献

18.

对抗样本三元组约束的度量学习算法

下载免费PDF全文

王鑫郭鑫垚魏巍梁吉业《智能系统学报》2021,16(1):30-37

针对已有三元组约束的度量学习算法大多利用先验知识构建约束,一定程度上制约了度量学习算法性能的问题,本文借鉴对抗训练中样本扰动的思想,在原始样本附近学习对抗样本以构造对抗三元组约束,基于对抗三元组和原始三元组约束构建了度量学习模型,提出了对抗样本三元组约束的度量学习算法(metric learning algorithm with adversarial sample triples constraints,ASTCML)。实验结果表明,提出的算法既克服了已有固定约束方法受先验知识影响大的问题,也提高了分类精度,说明区分更加难以区分的三元组约束能够提升算法的性能。相似文献

19.

基于局部正、负标记相关性的k近邻多标记分类新算法

蒋芸肖潇侯金泉陈莉《计算机工程与科学》2019,41(10):1854-1860

在多标记学习中,每个样本都由一个实例表示,并与多个类标记相关联。现有的多标记学习算法大多是在全局利用标记相关性,即假设所有的样本共享不同类别标记之间的正相关性。然而,在实际应用中,不同的样本共享不同的标记相关性,标记间不仅存在正相关性,而且存在相互排斥的现象,即负相关性。针对这一问题,提出了基于局部正、负成对标记相关性的k近邻多标记分类算法PNLC。首先,对多标记数据的特征向量进行预处理,分别为每类标记构造对该类标记最具有判别能力的属性特征;然后,在训练阶段,PNLC算法通过所有训练样本中各样本的每个k近邻的真实标记构建标记之间的正、负局部成对相关性矩阵;最后,在测试阶段,首先得到每个测试样例的k近邻及其对应的正、负成对标记关系,利用该标记关系计算最大后验概率对测试样例进行预测。实验结果表明,PNLC算法在yeast和image数据集上的分类准确率明显优于其他常用的多标记分类算法。相似文献

20.

Two-Dimensional Multilabel Active Learning with an Efficient Online Adaptation Model for Image Classification

Qi Guo-Jun Hua Xian-Sheng Rui Yong Tang Jinhui Zhang Hong-Jiang 《IEEE transactions on pattern analysis and machine intelligence》2009,31(10):1880-1897

Conventional active learning dynamically constructs the training set only along the sample dimension. While this is the right strategy in binary classification, it is suboptimal for multilabel image classification. We argue that for each selected sample, only some effective labels need to be annotated while others can be inferred by exploring the label correlations. The reason is that the contributions of different labels to minimizing the classification error are different due to the inherent label correlations. To this end, we propose to select sample-label pairs, rather than only samples, to minimize a multilabel Bayesian classification error bound. We call it two-dimensional active learning because it considers both the sample dimension and the label dimension. Furthermore, as the number of training samples increases rapidly over time due to active learning, it becomes intractable for the offline learner to retrain a new model on the whole training set. So we develop an efficient online learner to adapt the existing model with the new one by minimizing their model distance under a set of multilabel constraints. The effectiveness and efficiency of the proposed method are evaluated on two benchmark data sets and a realistic image collection from a real-world image sharing Web site—Corbis. 相似文献