基于“聚类-过采样”方法的肿瘤免疫亚型分类研究 |
| |
引用本文: | 田夫蓉,白新宇.基于“聚类-过采样”方法的肿瘤免疫亚型分类研究[J].现代计算机,2022(1):32-37. |
| |
作者姓名: | 田夫蓉 白新宇 |
| |
作者单位: | 贵州师范大学大数据与计算机科学学院 |
| |
摘 要: | 分类学习方法有一个基本假设,即不同类别的样本数量相当。样本数量分布不均衡,会影响分类的准确率。针对样本分布不平衡的肿瘤亚型分类问题,提出聚类-过采样(clustering minority oversampling technique,CMOT),避免了算法“对少数类不友好”的情况。具体来说,首先在少数类的内部进行聚类,目的在于寻找少数类数据的分布结构。其次,使用改进的过采样方法,对少数类数据进行数据增强,最终实现不同类别的样本数量均衡。对比四种过采样方法,使用CMOT方法,肿瘤免疫亚型的分类准确率达到98.79%,明显高于其他方法。CMOT方法能够捕获少数类样本的真实特征,产生的伪样本足以平衡数据集,进而提升分类模型的精度。
|
关 键 词: | 肿瘤免疫亚型 聚类-过采样法 聚类 样本不平衡 分类 |
|
|