首页 | 本学科首页   官方微博 | 高级检索  
     

面向开放世界的半监督特征选择算法
作者姓名:王锋  武文强  梁吉业
作者单位:山西大学计算机与信息技术学院
基金项目:国家自然科学基金面上项目(62276158,62376141)资助;
摘    要:现有的半监督学习方法大多遵循封闭世界假设,即在模型训练过程中类别信息保持不变,标记数据可以覆盖所有类别。然而,在实际应用中,这一假设往往难以满足,未标记数据中通常会包含大量的未知类数据样本。为此,近年来研究人员提出了一个极具挑战性的研究方向:将半监督学习推广到不仅能够有效识别已知类的未标记数据样本,还能对未知的新类样本进行学习,从而构建面向开放世界的半监督学习机制。为应对这一挑战,本文基于符号型数据,提出了一种面向开放世界的半监督特征选择算法(OpenSSFS)。该算法将耦合学习引入到了符号型样本相似性度量以及类别关联性分析中,构建了新的样本相似性和类别相关性度量,并据此依次构建了三个核心模块:面向未标记已知类数据的自适应伪标签生成算法,面向未标记未知类数据的粒化和新类发现算法,以及基于类别相关性的特征选择算法。对给定的开放世界数据集,首先计算已知类数据样本的特征选择结果,并通过伪标签生成算法为未标记的已知类样本分配伪标签,进而基于所有已知类样本更新特征选择结果;其次,识别未知类未标记样本中的新类,并计算新类上的特征选择结果;最后,融合已知类样本和未知类样本的有效特征子集,确定最终的特征选择结果。为了有效验证所提新算法的有效性,本文在模拟的开放世界数据环境中进行了实验分析,分别测试了该算法在不同比例的已知类和未知类,以及不同比例的标记样本和未标记样本上的性能。实验结果表明,OpenSSFS算法在多种场景下均展现了较好的分类性能:首先,在包含50%已知类和50%未知类,且拥有50%标记样本的数据集上,新算法的分类精度最高提升了近70%,显著优于其他对比算法;其次,随着标记样本比例从90%降至10%,新算法的性能依然优于其他算法,且未出现明显下降,显示出较强的鲁棒性;最后,即使在已知类比例较低的情况下,OpenSSFS算法仍能保持良好的性能,适用于开放性更高的任务场景。此外,实验分析中还对算法中的参数阈值进行了详细分析和讨论。

关 键 词:半监督学习  开放世界学习  特征选择  耦合学习  成对相似性  
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号