首页 | 本学科首页   官方微博 | 高级检索  
     

基于“聚类-过采样”方法的肿瘤免疫亚型分类研究
引用本文:田夫蓉,白新宇.基于“聚类-过采样”方法的肿瘤免疫亚型分类研究[J].现代计算机,2022(1):32-37.
作者姓名:田夫蓉  白新宇
作者单位:贵州师范大学大数据与计算机科学学院
摘    要:分类学习方法有一个基本假设,即不同类别的样本数量相当。样本数量分布不均衡,会影响分类的准确率。针对样本分布不平衡的肿瘤亚型分类问题,提出聚类-过采样(clustering minority oversampling technique,CMOT),避免了算法“对少数类不友好”的情况。具体来说,首先在少数类的内部进行聚类,目的在于寻找少数类数据的分布结构。其次,使用改进的过采样方法,对少数类数据进行数据增强,最终实现不同类别的样本数量均衡。对比四种过采样方法,使用CMOT方法,肿瘤免疫亚型的分类准确率达到98.79%,明显高于其他方法。CMOT方法能够捕获少数类样本的真实特征,产生的伪样本足以平衡数据集,进而提升分类模型的精度。

关 键 词:肿瘤免疫亚型  聚类-过采样法  聚类  样本不平衡  分类
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号