首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
林梦雷  刘景华  王晨曦  林耀进 《计算机科学》2017,44(10):289-295, 317
在多标记学习中,特征选择是解决多标记数据高维性的有效手段。每个标记对样本的可分性程度不同,这可能会为多标记学习提供一定的信息。基于这一假设,提出了一种基于标记权重的多标记特征选择算法。该算法首先利用样本在整个特征空间的分类间隔对标记进行加权,然后将特征在整个标记集合下对样本的可区分性作为特征权重,以此衡量特征对标记集合的重要性。最后,根据特征权重对特征进行降序排列,从而得到一组新的特征排序。在6个多标记数据集和4个评价指标上的实验结果表明,所提算法优于一些当前流行的多标记特征选择算法。  相似文献   

2.
针对K中心点算法的初始聚类中心可能过于临近、代表性不足、稳定性差等问题,提出一种改进的K中心点算法。将样本集间的平均距离与样本间的平均距离的比值作为样本的密度参数,精简了高密度点集合中候选代表点的数量,采用最大距离乘积法选择密度较大且距离较远的K个样本作为初始聚类中心,兼顾聚类中心的代表性和分散性。在UCI数据集上的实验结果表明,与传统K中心点算法和其他2种改进聚类算法相比,新提出的算法不仅聚类结果更加准确,同时也具有更快的收敛速度和更高的稳定性。  相似文献   

3.
特征选择旨在从原始特征空间中选择一组规模较小的特征子集,在分类学习任务中提供与原集合近似或更好的性能.文中提出基于信息粒化的多标记特征选择算法,融合标记权重与样本平均间隔,将改进的邻域信息熵应用到特征选择过程中.在6组数据集以及5个评价指标上的实验表明文中算法在分类上的有效性.  相似文献   

4.
针对传统的拉普拉斯评分特征选择算法只适应单标记学习,无法直接应用于多标记学习的问题,提出一种应用于多标记任务的拉普拉斯评分特征选择算法。首先,考虑样本在整体标记空间中共同关联和共同不关联的相关性,重新构建样本相似度矩阵;然后,将特征之间的相关性及冗余性判定引入拉普拉斯评分算法中,采用前向贪心搜索策略依次评价候选特征与已选特征的联合作用能力,用于评价特征的重要性;最后,在5个不同评价指标和6个多标记数据集上实验。实验结果表明:相比基于最大依赖的多标记维数约简方法(MDDM)、基于贝叶斯分类器的多标记特征选择算法(MLNB)及基于多元互信息的多标记分类特征选择算法(PMU),所提算法不仅分类性能最优,且存在显著性优异达65%。  相似文献   

5.
针对K‐means算法随机选择初始聚类中心所出现的样本聚类结果随机性强、稳定性低、容易陷入局部最优和得不到全局最优解等问题,提出一种基于均值与最大距离乘积的初始聚类中心优化K‐means算法。该算法首先选择距离样本集均值最远的数据对象加入聚类中心集合,再依次将与样本集均值和当前聚类中心乘积最大的数据对象加入聚类中心集合。标准数据集上的实验结果表明,与原始K‐means的算法以及另一种改进算法相比,新提出的聚类算法具有更高的准确率。  相似文献   

6.
在已有的特征选择算法中,常用策略是通过相关准则选择与标记集合相关性较强的特征,然而该策略不一定是最优选择,因为与标记集合相关性较弱的特征可能是决定某些类别标记的关键特征.基于这一假设,文中提出基于局部子空间的多标记特征选择算法.该算法首先利用特征与标记集合之间的互信息得到一个重要度由高到低的特征序列,然后将新的特征排序空间划分为几个局部子空间,并在每个子空间设置采样比例以选择冗余性较小的特征,最后融合各子空间的特征子集,得到一组合理的特征子集.在6个数据集和4个评价指标上的实验表明,文中算法优于一些通用的多标记特征选择算法.  相似文献   

7.
特征选择在传统的单标记问题中已经得到深入的研究,但是大多数传统的特征选择算法却无法用于多标记问题。这是因为多标记问题中的每一个数据样本都同时与多个类标相关联,此时需要设计新的指标来评价特征。并且由于多个类标之间通常存在一定的关联性,在设计特征选择算法时还需要对类标的结构进行建模以利用类标的关联信息。采用谱特征选择(spectral feature selection,SPEC)框架解决上述问题。SPEC所需的相似性矩阵和图结构由样本类标的Jaccard相似性来构建,它能反映类标间的关联性。此外,所提出的方法属于过滤器模型,它独立于分类算法且不需要将多标记问题转化为单标记问题来处理。在现实世界数据集上的实验验证了所提出算法的正确性和较好的性能。  相似文献   

8.
林荣强  李鸥  李青  李林林 《计算机应用》2014,34(11):3206-3209
针对网络流量特征选择过程中存在的样本标记瓶颈问题,以及现有半监督方法无法选择强相关的特征的不足,提出一种基于类标记扩展的多类半监督特征选择(SFSEL)算法。该算法首先从少量的标记样本出发,通过K-means算法对未标记样本进行类标记扩展;然后结合基于双重正则的支持向量机(MDrSVM)算法实现多类数据的特征选择。与半监督特征选择算法Spectral、PCFRSC和SEFR在Moore数据集进行了对比实验,SFSEL得到的分类准确率和召回率明显都要高于其他算法,而且SFSEL算法选择的特征个数明显少于其他算法。实验结果表明: SFSEL算法能够有效地提高所选特征的相关性,获取更好的网络流量分类性能。  相似文献   

9.
吕佳  鲜焱 《计算机应用》2021,41(3):686-693
针对协同训练算法在迭代过程中加入的无标记样本的有用信息不足和多分类器对样本标记不一致导致的分类错误累积问题,提出结合改进密度峰值聚类和共享子空间的协同训练算法。该算法先采取属性集合互补的方式得到两个基分类器,然后基于虹吸平衡法则进行改进密度峰值聚类,并从簇中心出发来推进式选择相互邻近度高的无标记样本交由两个基分类器进行分类,最后利用多视图非负矩阵分解算法得到的共享子空间来确定标记不一致样本的最终类别。该算法利用改进密度峰值聚类和相互邻近度选择出更具空间结构代表性的无标记样本,并采用共享子空间来修订标记不一致的样本,解决了因样本误分类造成的分类精度低的问题。在9个UCI数据集上的多组对比实验证明了该算法的有效性,实验结果表明所提算法相较于对比算法在7个数据集上取得最高的分类正确率,在另2个数据集取得次高的分类正确率。  相似文献   

10.
在多标记学习框架中,特征选择是解决维数灾难,提高多标记分类器的有效手段。提出了一种融合特征排序的多标记特征选择算法。该算法首先在各标记下进行自适应的粒化样本,以此来构造特征与类别标记之间的邻域互信息。其次,对得到邻域互信息进行排序,使得每个类别标记下均能得到一组特征排序。最后,多个独立的特征排序经过聚类融合成一组新的特征排序。在4个多标记数据集和4个评价指标上的实验结果表明,所提算法优于一些当前流行的多标记降维方法。  相似文献   

11.
在多标记学习系统中,每个样本同时与多个类别标记相关,却均由一个属性特征向量描述。大部分已有的多标记分类算法采用的共同策略是使用相同的属性特征集合预测所有的类别标记,但它并非最佳选择,原因在于每个标记可能与其自身独有的属性特征相关性最大。针对这一问题,提出了融合标记独有属性特征的k近邻多标记分类算法—IML-kNN。首先对多标记数据的特征向量进行预处理,分别为每类标记构造对该类标记最具有判别能力的属性特征;然后基于得到的属性特征使用改进后的ML-kNN算法进行分类。实验结果表明,IML-kNN算法在yeast和image数据集上的性能明显优于ML-kNN算法以及其他3种常用的多标记分类算法。  相似文献   

12.
在多标记分类问题中,每个样本可以同时与多个标记类别相关,其中一些标记之间可能具有相关性,充分利用这些标记相关性,可优化分类性能.因此,文中利用标记的频繁项集对标记相关性进行挖掘,提出针对基于邻域粗糙集的多标记属性约简算法进行改进的特征选择算法,并进一步将训练样本根据特征之间的相似性进行聚类,结合局部样本上的标记相关性,进行属性约简及分类.在5个多标记分类数据集上的实验验证文中算法的有效性.  相似文献   

13.
多标签数据广泛存在于现实世界中,多标签特征选择是多标签学习中重要的预处理步骤.基于模糊粗糙集模型,研究人员已经提出了一些多标签特征选择算法,但是这些算法大多没有关注标签之间的共现特性.为了解决这一问题,基于样本标签间的共现关系评价样本在标签集下的相似关系,利用这种关系定义了特征与标签之间的模糊互信息,并结合最大相关与最小冗余原则设计了一种多标签特征选择算法LC-FS.在5个公开数据集上进行了实验,实验结果表明了所提算法的有效性.  相似文献   

14.
在多标记学习中,每个样本都由一个实例表示,并与多个类标记相关联。现有的多标记学习算法大多是在全局利用标记相关性,即假设所有的样本共享不同类别标记之间的正相关性。然而,在实际应用中,不同的样本共享不同的标记相关性,标记间不仅存在正相关性,而且存在相互排斥的现象,即负相关性。针对这一问题,提出了基于局部正、负成对标记相关性的k近邻多标记分类算法PNLC。首先,对多标记数据的特征向量进行预处理,分别为每类标记构造对该类标记最具有判别能力的属性特征;然后,在训练阶段,PNLC算法通过所有训练样本中各样本的每个k近邻的真实标记构建标记之间的正、负局部成对相关性矩阵;最后,在测试阶段,首先得到每个测试样例的k近邻及其对应的正、负成对标记关系,利用该标记关系计算最大后验概率对测试样例进行预测。实验结果表明,PNLC算法在yeast和image数据集上的分类准确率明显优于其他常用的多标记分类算法。  相似文献   

15.
张要  马盈仓  朱恒东  李恒  陈程 《计算机工程》2022,48(3):90-99+106
对于多标签特征选择算法,通常假设数据与标签间呈现某种关系,以该关系为基础并通过正则项的约束可解决多标签特征选择问题,但该关系也可能是两种或多种关系的结合。为准确描述数据与标签间的关系并去除不相关的特征和冗余特征,基于logistic回归模型与标签流形结构提出多标签特征选择算法FSML。使用logistic回归模型的损失函数学习回归系数矩阵,利用标签流形结构学习数据特征的权重矩阵,通过L2,1-范数将系数矩阵和权重矩阵进行柔性结合,约束系数矩阵与权重矩阵的稀疏性并实现多标签特征选择。在经典多标签数据集上的实验结果表明,与CMLS、SCLS等特征选择算法相比,FSML算法在汉明损失、排名损失、1-错误率、覆盖率、平均精度等5个性能评价指标上表现良好,能更准确地描述数据与标签间的关系。  相似文献   

16.
目前大部分已经存在的多标记学习算法在模型训练过程中所采用的共同策略是基于相同的标记属性特征集合预测所有标记类别.但这种思路并未对每个标记所独有的标记特征进行考虑.在标记空间中,这种标记特定的属性特征对于区分其它类别标记和描述自身特性是非常有帮助的信息.针对这一问题,本文提出了基于标记特定特征和相关性的ML-KNN改进算法MLF-KNN.不同于之前的多标记算法直接在原始训练数据集上进行操作,而是首先对训练数据集进行预处理,为每一种标记类别构造其特征属性,在得到的标记属性空间上进一步构造L1-范数并进行优化从而引入标记之间的相关性,最后使用改进后的ML-KNN算法进行预测分类.实验结果表明,在公开数据集image和yeast上,本文提出的算法MLF-KNN分类性能优于ML-KNN,同时与其它另外3种多标记学习算法相比也表现出一定的优越性.  相似文献   

17.
传统单标签挖掘技术研究中,每个样本只属于一个标签且标签之间两两互斥。而在多标签学习问题中,一个样本可能对应多个标签,并且各标签之间往往具有关联性。目前,标签间关联性研究逐渐成为多标签学习研究的热门问题。首先为适应大数据环境,对传统关联规则挖掘算法Apriori进行并行化改进,提出基于Hadoop的并行化算法Apriori_ING,实现各节点独立完成候选项集的生成、剪枝与支持数统计,充分发挥并行化的优势;通过Apriori_ING算法得到的频繁项集和关联规则生成标签集合,提出基于推理机的标签集合生成算法IETG。然后,将标签集合应用到多标签学习中,提出多标签学习算法FreLP。FreLP利用关联规则生成标签集合,将原始标签集分解为多个子集,再使用LP算法训练分类器。通过实验将FreLP与现有的多标签学习算法进行对比,结果表明在不同评价指标下所提算法可以取得更好的结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号