首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
以往半监督多示例学习算法常把未标记包分解为示例集合,使用传统的半监督单示例学习算法确定这些示例的潜在标记以对它们进行利用。但该类方法认为多示例样本的分类与其概率密度分布紧密相关,且并未考虑包结构对包分类标记的影响。提出一种基于包层次的半监督多示例核学习方法,直接利用未标记包进行半监督学习器的训练。首先通过对示例空间聚类把包转换为概念向量表示形式,然后计算概念向量之间的海明距离,在此基础上计算描述包光滑性的图拉普拉斯矩阵,进而计算包层次的半监督核,最后在多示例学习标准数据集和图像数据集上测试本算法。测试表明本算法有明显的改进效果。  相似文献   

2.
基于多示例的K-means聚类学习算法   总被引:1,自引:1,他引:0       下载免费PDF全文
谢红薇  李晓亮 《计算机工程》2009,35(22):179-181
多示例学习是继监督学习、非监督学习、强化学习后的又一机器学习框架。将多示例学习和非监督学习结合起来,在传统非监督聚类算法K-means的基础上提出MIK-means算法,该算法利用混合Hausdorff距离作为相似测度来实现数据聚类。实验表明,该方法能够有效揭示多示例数据集的内在结构,与K-means算法相比具有更好的聚类效果。  相似文献   

3.
针对许多多示例算法都对正包中的示例情况做出假设的问题,提出了结合模糊聚类的多示例集成算法(ISFC).结合模糊聚类和多示例学习中负包的特点,提出了"正得分"的概念,用于衡量示例标签为正的可能性,降低了多示例学习中示例标签的歧义性;考虑到多示例学习中将负示例分类错误的代价更大,设计了一种包的代表示例选择策略,选出的代表示...  相似文献   

4.
甘睿  印鉴 《计算机科学》2012,39(7):144-147
在多示例学习问题中,训练数据集里面的每一个带标记的样本都是由多个示例组成的包,其最终目的是利用这一数据集去训练一个分类器,使得可以利用该分类器去预测还没有被标记的包。在以往的关于多示例学习问题的研究中,有的是通过修改现有的单示例学习算法来迎合多示例的需要,有的则是通过提出新的方法来挖掘示例与包之间的关系并利用挖掘的结果来解决问题。以改变包的表现形式为出发点,提出了一个解决多示例学习问题的算法——概念评估算法。该算法首先利用聚类算法将所有示例聚成d簇,每一个簇可以看作是包含在示例中的概念;然后利用原本用于文本检索的TF-IDF(Term Frequency-Inverse Document Frequency)算法来评估出每一个概念在每个包中的重要性;最后将包表示成一个d维向量——概念评估向量,其第i个位置表示第i个簇所代表的概念在某个包中的重要程度。经重新表示后,原有的多示例数据集已不再是"多示例",以至于一些现有的单示例学习算法能够用来高效地解决多示例学习问题。  相似文献   

5.
在多示例学习(Multi-instance learning,MIL)中,核心示例对于包类别的预测具有重要作用。若两个示例周围分布不同数量的同类示例,则这两个示例的代表程度不同。为了从包中选出最具有代表性的示例组成核心示例集,提高分类精度,本文提出多示例学习的示例层次覆盖算法(Multi-instance learning with instance_level covering algorithm,MILICA)。该算法首先利用最大Hausdorff距离和覆盖算法构建初始核心示例集,然后通过覆盖算法和反验证获得最终的核心示例集和各覆盖包含的示例数,最后使用相似函数将包转为单示例。在两类数据集和多类图像数据集上的实验证明,MILICA算法具有较好的分类性能。  相似文献   

6.
在多示例学习中引入利用未标记示例的机制,能降低训练的成本并提高学习器的泛化能力。当前半监督多示例学习算法大部分是基于对包中的每一个示例进行标记,把多示例学习转化为一个单示例半监督学习问题。考虑到包的类标记由包中示例及包的结构决定,提出一种直接在包层次上进行半监督学习的多示例学习算法。通过定义多示例核,利用所有包(有标记和未标记)计算包层次的图拉普拉斯矩阵,作为优化目标中的光滑性惩罚项。在多示例核所张成的RKHS空间中寻找最优解被归结为确定一个经过未标记数据修改的多示例核函数,它能直接用在经典的核学习方法上。在实验数据集上对算法进行了测试,并和已有的算法进行了比较。实验结果表明,基于半监督多示例核的算法能够使用更少量的训练数据而达到与监督学习算法同样的精度,在有标记数据集相同的情况下利用未标记数据能有效地提高学习器的泛化能力。  相似文献   

7.
环天  郝宁  牛强 《计算机科学》2017,44(12):48-51, 63
针对多示例多标记学习算法MIMLSVM只从包层面构造聚类,而忽略了包内示例分布对分类造成影响这一不足,提出一种基于概念权重向量的MIMLSVM改进算法——I-MIMLSVM算法。首先从示例层面构造聚类,挖掘出示例中的潜在概念簇,运用R-PATTERN算法计算每个概念簇的概念权重;然后利用TF-IDF算法计算每个概念簇在各个示例包中的重要度;最后将示例包表示为概念权重向量,向量的每一维即为概念簇的概念权重与其在该包中的重要度的乘积。将该算法在包含2000幅图像的自然数据集上进行实验验证,结果表明改进的算法在分类性能上整体优于原算法,尤其在Hamming loss,Coverage和Average precision这3个测评指标上较为明显。  相似文献   

8.
针对抽油机工况数据可从位移、载荷、电流等多个方面进行描述,若仅仅使用一个特征向量来描述抽油机工况数据会使其信息过于简化,丢失一部分有效信息的问题,以及工况数据具有多义性的特征,提出基于多示例多标记的抽油机故障诊断.该学习方法中,用抽油机的位移、载荷、电流数据作为抽油机工况样本包的多个示例,使用k-medoids聚类算法对样本包进行聚类,将多个样本包转换为若干示例,新示例的每一维表示样本包到样本各聚类中心的距离,再利用MLSVM算法对转换后的多标记问题进行求解.实验结果表明,多示例多标记学习能够及时、准确地诊断出抽油机故障问题.  相似文献   

9.
郝宁  夏士雄  牛强  赵志军 《计算机应用》2015,35(11):3122-3125
针对多示例多标记学习算法MIMLBoost中退化过程造成的类别不平衡问题,运用人工降采样思想,引入类别重要度,提出一种改进的基于类别标记评估的退化方法.该方法通过对示例空间中的示例包进行聚类,把标记空间中的标记量化到聚类簇上,再以聚类簇为单位,利用TF-IDF算法对每个类别标记进行重要度评估和筛选,去除重要度低的标记,并将簇中的示例包与其余的类别标记拼接起来,以此来减少大类样本的出现,完成多示例多标记样本向多示例单标记样本的转化.在自然数据集上进行了实验,实验结果发现,改进算法的性能整体上优于原算法,尤其在Hamming loss、coverage、ranking loss三个评测指标上尤为明显,说明所提算法能够有效降低分类的出错率,提高算法的精度和分类效率.  相似文献   

10.
集成模糊LSA与MIL的图像分类算法   总被引:1,自引:0,他引:1  
针对自然图像的分类问题,提出一种基于模糊潜在语义分析(LSA)与直推式支持向量机(TSVM)相结合的半监督多示例学习(MIL)算法.该算法将图像当作多示例包,分割区域的底层视觉特征当作包中的示例.为了将MIL问题转化成单示例问题进行求解,首先利用K-Means方法对训练包中所有的示例进行聚类,建立"视觉词汇表";然后根据"视觉字"与示例之间的距离定义模糊隶属度函数,建立模糊"词-文档"矩阵,再采用LSA方法获得多示例包(图像)的模糊潜在语义模型,并通过该模型将每个多示例包转化成单个样本;采用半监督的TSVM训练分类器,以利用未标注图像来提高分类精度.基于Corel图像库的对比实验结果表明,与传统的LSA方法相比,模糊LSA的分类准确率提高了5.6%,且性能优于其他分类方法.  相似文献   

11.
Multi-instance clustering with applications to multi-instance prediction   总被引:2,自引:0,他引:2  
In the setting of multi-instance learning, each object is represented by a bag composed of multiple instances instead of by a single instance in a traditional learning setting. Previous works in this area only concern multi-instance prediction problems where each bag is associated with a binary (classification) or real-valued (regression) label. However, unsupervised multi-instance learning where bags are without labels has not been studied. In this paper, the problem of unsupervised multi-instance learning is addressed where a multi-instance clustering algorithm named Bamic is proposed. Briefly, by regarding bags as atomic data items and using some form of distance metric to measure distances between bags, Bamic adapts the popular k -Medoids algorithm to partition the unlabeled training bags into k disjoint groups of bags. Furthermore, based on the clustering results, a novel multi-instance prediction algorithm named Bartmip is developed. Firstly, each bag is re-represented by a k-dimensional feature vector, where the value of the i-th feature is set to be the distance between the bag and the medoid of the i-th group. After that, bags are transformed into feature vectors so that common supervised learners are used to learn from the transformed feature vectors each associated with the original bag’s label. Extensive experiments show that Bamic could effectively discover the underlying structure of the data set and Bartmip works quite well on various kinds of multi-instance prediction problems.  相似文献   

12.
This paper describes a novel feature selection algorithm for unsupervised clustering, that combines the clustering ensembles method and the population based incremental learning algorithm. The main idea of the proposed unsupervised feature selection algorithm is to search for a subset of all features such that the clustering algorithm trained on this feature subset can achieve the most similar clustering solution to the one obtained by an ensemble learning algorithm. In particular, a clustering solution is firstly achieved by a clustering ensembles method, then the population based incremental learning algorithm is adopted to find the feature subset that best fits the obtained clustering solution. One advantage of the proposed unsupervised feature selection algorithm is that it is dimensionality-unbiased. In addition, the proposed unsupervised feature selection algorithm leverages the consensus across multiple clustering solutions. Experimental results on several real data sets demonstrate that the proposed unsupervised feature selection algorithm is often able to obtain a better feature subset when compared with other existing unsupervised feature selection algorithms.  相似文献   

13.
基于流形学习的多示例回归算法   总被引:2,自引:0,他引:2  
詹德川  周志华 《计算机学报》2006,29(11):1948-1955
多示例学习是一种新型机器学习框架,以往的研究主要集中在多示例分类上,最近多示例回归受到了国际机器学习界的关注.流形学习旨在获得非线性分布数据的内在结构,可以用于非线性降维.文中基于流形学习技术,提出了用于解决多示例同归问题的Mani MIL算法.该算法首先对训练包中的示例降维,利用降维结果出现坍缩的特性对多示例包进行预测.实验表明,Mani MIL算法比现有的多示例算法例如Citation-kNN等有更好的性能.  相似文献   

14.
An unsupervised competitive learning algorithm based on the classical k-means clustering algorithm is proposed. The proposed learning algorithm called the centroid neural network (CNN) estimates centroids of the related cluster groups in training date. This paper also explains algorithmic relationships among the CNN and some of the conventional unsupervised competitive learning algorithms including Kohonen's self-organizing map and Kosko's differential competitive learning algorithm. The CNN algorithm requires neither a predetermined schedule for learning coefficient nor a total number of iterations for clustering. The simulation results on clustering problems and image compression problems show that CNN converges much faster than conventional algorithms with compatible clustering quality while other algorithms may give unstable results depending on the initial values of the learning coefficient and the total number of iterations.  相似文献   

15.
Customer churn has emerged as a critical issue for Customer Relationship Management and customer retention in the telecommunications industry, thus churn prediction is necessary and valuable to retain the customers and reduce the losses. Moreover, high predictive accuracy and good interpretability of the results are two key measures of a classification model. More studies have shown that single model-based classification methods may not be good enough to achieve a satisfactory result. To obtain more accurate predictive results, we present a novel hybrid model-based learning system, which integrates the supervised and unsupervised techniques for predicting customer behaviour. The system combines a modified k-means clustering algorithm and a classic rule inductive technique (FOIL).Three sets of experiments were carried out on telecom datasets. One set of the experiments is for verifying that the weighted k-means clustering can lead to a better data partitioning results; the second set of experiments is for evaluating the classification results, and comparing it to other well-known modelling techniques; the last set of experiment compares the proposed hybrid-model system with several other recently proposed hybrid classification approaches. We also performed a comparative study on a set of benchmarks obtained from the UCI repository. All the results show that the hybrid model-based learning system is very promising and outperform the existing models.  相似文献   

16.
提高故障诊断能力对于确保水下机器人AUV系统的稳定运行具有重要意义。针对水下机器人推进器系统,提出一种基于离群点检测的AUV故障检测方法。首先,将传感器采集的数据进行灰色预测处理;然后,提出了一种结合K-mean和DBSCAN的改进迭代聚类(Iterative K-mean DBSCAN,IKD)算法进行离群点检测;最后,与K-mean和DBSCAN算法相比,仿真实验结果表明基于灰色预测和KID离群点检测算法的故障检测准确率高,能够有效地实现水下机器人AUV的无监督故障诊断。  相似文献   

17.
精准的光伏功率预测对优化光伏电站的运行和管理以及提高光伏发电的效率具有重要的作用。本文提出了一种基于聚类算法和转换网络的光伏短期功率预测方法。该方法首先基于自编码器的无监督聚类算法对光伏短期功率数据进行了预处理,以降低光伏出力数据本身的不稳定性对功率预测的影响。之后,该方法使用具有自注意力机制和多头注意力机制的转换网络进行光伏短期功率的预测。转换网络由编码器和解码器组成。转换网络相比传统的循环神经网络(RNN)更善于挖掘时序之间的关系。注意力机制使得转换网络具有并行计算的能力,可以加快网络训练的速度。最后,在澳大利亚光伏功率与气象数据中心 (DKASC)的光伏数据集上验证了本文提出的光伏短期功率预测方法。实验结果表明,本文提出的方法具有令人满意的预测精度。  相似文献   

18.
为了能有效应对数据流中的概念漂移现象,提出结合无监督学习的数据流分类算法.该算法以集成式分类技术为基础,在分类过程中引入属性约简,利用聚类算法对数据进行聚类,通过对比分类和聚类结果的准确率,判断是否发生概念漂移.实验表明,文中算法在综合时间花销和准确率上取得较好效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号