摘 要: | k-mer频率是进行宏基因组分类时的一种重要的数字特征,然而该特征的维数随参数k的增加呈指数增长,利用该特征进行宏基因组分类易陷入"维数灾难"。为解决此问题,本文提出了一种基于优化k-mer频率的宏基因组DNA序列聚类方法。首先,提取DNA序列的kmer频率特征;其次,使用非负矩阵分解算法对DNA序列的k-mer频率特征进行优化;最后,利用模糊C均值算法进行聚类。将本文方法在包含有不同物种个数的模拟宏基因组数据上运行的结果表明,其能有效地克服现有宏基因组数据分类方法计算量大的缺点,且分类性能优于同类算法。
|