共查询到19条相似文献,搜索用时 46 毫秒
1.
潘强 《自动化与信息工程》2013,(5):1-6
以往半监督多示例学习算法常把未标记包分解为示例集合,使用传统的半监督单示例学习算法确定这些示例的潜在标记以对它们进行利用。但该类方法认为多示例样本的分类与其概率密度分布紧密相关,且并未考虑包结构对包分类标记的影响。提出一种基于包层次的半监督多示例核学习方法,直接利用未标记包进行半监督学习器的训练。首先通过对示例空间聚类把包转换为概念向量表示形式,然后计算概念向量之间的海明距离,在此基础上计算描述包光滑性的图拉普拉斯矩阵,进而计算包层次的半监督核,最后在多示例学习标准数据集和图像数据集上测试本算法。测试表明本算法有明显的改进效果。 相似文献
2.
多示例多标记是一种新的机器学习框架,在该框架下一个对象用多个示例来表示,同时与多个类别标记相关联。MIMLSVM+算法将多示例多标记问题转化为一系列独立的二类分类问题,但是在退化过程中标记之间的联系信息会丢失,而E-MIMLSVM+算法则通过引入多任务学习技术对MIMLSVM+算法进行了改进。为了充分利用未标记样本来提高分类准确率,使用半监督支持向量机TSVM对E-MIMLSVM+算法进行了改进。通过实验将该算法与其他多示例多标记算法进行了比较,实验结果显示,改进算法取得了良好的分类效果。 相似文献
3.
多示例多标签学习框架是一种针对解决多义性问题而提出的新型机器学习框架,在多示例多标签学习框架中,一个对象是用一组示例集合来表示,并且和一组类别标签相关联。E-MIMLSVM~+算法是多示例多标签学习框架中利用退化思想的经典分类算法,针对其无法利用无标签样本进行学习从而造成泛化能力差等问题,使用半监督支持向量机对该算法进行改进。改进后的算法可以利用少量有标签样本和大量没有标签的样本进行学习,有助于发现样本集内部隐藏的结构信息,了解样本集的真实分布情况。通过对比实验可以看出,改进后的算法有效提高了分类器的泛化性能。 相似文献
4.
基于半监督多示例学习的对象图像检索 总被引:2,自引:0,他引:2
针对基于对象的图像检索问题,提出一种新的半监督多示例学习(MIL)算法.该算法将图像当作包,分割区域的视觉特征当作包中的示例,按"点密度"最大原则,提取"视觉语义"构造投影空间;然后利用定义的非线性函数将包映射成投影空间中的一个点,以获得图像的"投影特征",并采用粗糙集(RS)方法对其进行属性约简;最后利用直推式支持向量机(TSVM)进行半监督的学习,得到分类器.实验结果表明,该方法有效且性能优于其他方法. 相似文献
5.
一个好的核函数能提升机器学习模型的有效性,但核函数的选择并不容易,其与问题背景密切相关,且依赖于领域知识和经验。核学习是一种通过训练数据集寻找最优核函数的机器学习方法,能通过有监督学习的方式寻找到一组基核函数的最优加权组合。考虑到训练数据集获取标签的代价,提出一种基于标签传播的半监督核学习方法,该方法能够同时利用有标签数据和无标签数据进行核学习,通过半监督学习中被广泛使用的标签传播方法结合和谐函数获得数据集统一的标签分布。在UCI数据集上对提出的算法进行性能评估,结果表明该方法是有效的。 相似文献
6.
传统的机器学习主要解决单标记学习,即一个样本仅有一个标记.在生物信息学中,一个基因通常至少具有一个功能,即至少具有一个标记,与传统学习方法相比,多标记学习能更有效地识别生物相关基因组的功能.目前的研究主要集中在监督多标记学习算法.然而,研究半监督多标记学习算法,从已标记和未标记的基因表达数据中学习,仍然是未解决问题.提出一种有效的基因功能分析的半监督多标记学习算法SML_SVM.首先,SML_SVM根据PT4方法,将半监督多标记学习问题转化为半监督单标记学习问题,然后根据最大后验概率原则(MAP)和K近邻方法估计未标记样本的标记,最后,用SVM求解单标记学习问题.在yeast基因数据和genbase蛋白质数据上的实验表明,SML_SVM性能比基于PT4方法的MLSVM和自训练MLSVM更优. 相似文献
7.
为了在聚类假设的基础上,进一步提高支持向量机的分类精度,文中通过引入线性分段转换函数,将加权无向图上的相似矩阵重新表示,改变该图上的距离度量,使得在同一群集中两点间的距离更小,从而建立基于图的聚类核,与多项式核函数线性组合后,构造出基于图的组合半监督聚类核,并将其用于支持向量机的训练和分类。实验表明,与标准SVM算法相比,该算法分类精度较高,且高于组合前的单个核函数。随着标记样本比例的增加,该算法的分类精度也在增加,有效利用了未标记样本蕴含的信息。 相似文献
8.
多示例多标记学习(Multi-Instance Multi-Label,MIML)是一种新的机器学习框架,基于该框架上的样本由多个示例组成并且与多个类别相关联,该框架因其对多义性对象具有出色的表达能力,已成为机器学习界研究的热点.解决MIML分类问题的最直接的思路是采用退化策略,通过向多示例学习或多标记学习的退化,将MIML框架下的分类问题简化为一系列的二类分类问题进行求解.但是在退化过程中会丢失标记之间的关联信息,降低分类的准确率.针对此问题,本文提出了MIMLSVM-LOC算法,该算法将改进的MIMLSVM算法与一种局部标记相关性的方法ML-LOC相结合,在训练过程中结合标记之间的关联信息进行分类.算法首先对MIMLSVM算法中的K-medoids聚类算法进行改进,采用的混合Hausdorff距离,将每一个示例包转化为一个示例,将MIML问题进行了退化.然后采用单示例多标记的算法ML-LOC算法继续以后的分类工作.在实验中,通过与其他多示例多标记算法对比,得出本文提出的算法取得了比其他分类算法更优的分类效果. 相似文献
9.
半监督复合核支持向量机在构造聚类核时,普遍存在复杂度高、不适于大规模图像分类的问题;且K均值(K-means)图像聚类的参数难以估计。针对上述问题,提出基于均值漂移(Mean-Shift)参数自适应的半监督复合核支持向量机图像分类方法。结合Mean-Shift对像素点进行聚类分析以避免K-means图像聚类的局限性;利用图像的结构特征自适应算法参数以避免算法的波动性;由Mean-Shift结果构造Mean Map聚类核以增强同一聚类中的样本属于同一类别的可能性,使复合核更好地指导支持向量机对图像分类。实验验证了改进的聚类算法和参数取值方法可以更好地获取图像的聚类信息,使算法对普通图像和加噪图像的分类正确率较对比的半监督算法一般情况下提高1~7个百分点,且对于较大规模图像也有一定适用性,能够更高效、更稳定地进行图像分类。 相似文献
10.
多示例学习以示例组成的包作为训练样本,学习的目的是预测新包的类型。从分类角度上,处理问题的策略类似于以均质对象为基本处理单元的面向对象影像分类。针对两者之间理论和方法相似性,将多样性密度多示例学习算法与面向对象方法相结合用于高分辨率遥感图像分类。以图像分割方法获取均值对象作为示例,利用多样性密度算法对样本包进行学习获取最大多样性密度示例,最后根据相似性最大准则对单示例包或是经聚类算法得到的新包进行类别标记,以获取最终分类结果。通过与SVM分类器的比较,发现多样性密度算法的平均分类精度都在70%以上,最高可达96%左右,且对小样本问题学习能力更强,结果表明多示例学习在遥感图像分类中有着广泛应用前景。 相似文献
11.
多示例多标签学习是一种新型的机器学习框架。在多示例多标签学习中,样本以包的形式存在,一个包由多个示例组成,并被标记多个标签。以往的多示例多标签学习研究中,通常认为包中的示例是独立同分布的,但这个假设在实际应用中是很难保证的。为了利用包中示例的相关性特征,提出了一种基于示例非独立同分布的多示例多标签分类算法。该算法首先通过建立相关性矩阵表示出包内示例的相关关系,每个多示例包由一个相关性矩阵表示;然后建立基于不同尺度的相关性矩阵的核函数;最后考虑到不同标签的预测对应不同的核函数,引入多核学习构造并训练针对不同标签预测的多核SVM分类器。图像和文本数据集上的实验结果表明,该算法大大提高了多标签分类的准确性。 相似文献
12.
弹性多核学习 总被引:1,自引:0,他引:1
多核学习 (MKL) 的提出是为了解决多个核矩阵的融合问题, 多核学习求解关于多个核矩阵的最优的线性组合并同时解出对应于这个组合矩阵的支持向量机(SVM)问题. 现有的多核学习的框架倾向于寻找稀疏的组合系数, 但是当有信息的核的比例较高的时候, 对稀疏性的倾向会使得只有少量的核被选中而损失相当的分类信息. 在本文中, 我们提出了弹性多核学习的框架来实现自适应的多核学习. 弹性多核学习的框架利用了一个混合正则化函数来均衡稀疏性和非稀疏性, 多核学习和支持向量机问题都可以视作弹性多核学习的特殊情形. 基于针对多核学习的梯度下降法, 我们导出了针对弹性多核学习的梯度下降法. 仿真数据的结果显示了弹性多核学习方法相对多核学习和支持向量机的优势; 我们还进一步将弹性多核学习应用于基因集合分析问题并取得了有意义的结果; 最后, 我们比较研究了弹性多核学习与另一种利用了非稀疏思想的多核学习. 相似文献
13.
在交互式图像检索中,基于支持向量机((Support Vector Machines,SVM)理论的主动反馈技术扮演着重要角色。然而,现有的SVM主动反馈方法普遍受到小样本问题、不对称分布问题以及样本冗余性等问题的制约。提出两种新颖策略以应对上述问题:(1)针对相关反馈的技术特点,提出了非对称半监督学习框架,该框架采用不同的学习方法为语义相关类和无关类挑选未标记图像,以有效增强SVM的泛化能力;(2)设计了基于代表性度量的主动采样方法,该方法不仅能够从未标记数据中鉴别出富有信息(most informative)图像,而且确保了待标记图像之间具有较大的差异性。实验结果及对比分析表明,所提方案明显优于其它同类算法。 相似文献
14.
15.
In the setting of multi-instance learning, each object is represented by a bag composed of multiple instances instead of by a single instance in a traditional learning setting. Previous works in this
area only concern multi-instance prediction problems where each bag is associated with a binary (classification) or real-valued (regression) label. However, unsupervised multi-instance learning where bags are without labels has not been studied. In this paper, the problem of unsupervised multi-instance
learning is addressed where a multi-instance clustering algorithm named Bamic is proposed. Briefly, by regarding bags as atomic data items and using some form of distance metric to measure distances
between bags, Bamic adapts the popular k
-Medoids algorithm to partition the unlabeled training bags into k disjoint groups of bags. Furthermore, based on the clustering results, a novel multi-instance prediction algorithm named Bartmip is developed. Firstly, each bag is re-represented by a k-dimensional feature vector, where the value of the i-th feature is set to be the distance between the bag and the medoid of the i-th group. After that, bags are transformed into feature vectors so that common supervised learners are used to learn from
the transformed feature vectors each associated with the original bag’s label. Extensive experiments show that Bamic could effectively discover the underlying structure of the data set and Bartmip works quite well on various kinds of multi-instance prediction problems. 相似文献
16.
17.
18.
为了有效地解决多示例图像分类问题,基于稀疏表示提出了一种新的多示例图像分类方法.该方法将图像看作多示例包,图像中的区域作为包中示例,利用示例嵌入策略计算包特征;然后将待分类图像包特征表示为训练图像包特征集上的稀疏线性组合,利用Z1优化方法求得稀疏解;最后根据稀疏系数提出一个为待分类图像预测标记的方法.在Corel数据集上的实验结果表明,与其他方法相比,所提方法具有更高的分类精度. 相似文献
19.
核选择是支撑向量机(Support Vector Machine,SVM)研究中的核心问题之一。提出了一种基于数据分布特征的SVM核函数选择的方法。分析了几种常用核函数的性能,提出了判断数据呈球状分布的方法,探讨了SVM核函数及其参数选择与数据分布的相关性。数值实验说明了该方法的可行性与有效性。 相似文献