排序方式: 共有29条查询结果,搜索用时 156 毫秒
1.
2.
为了解决基因数据集的基因选择难题,提出一种基于K-S检验与最小冗余最大相关(Minimum Redundancy-Maximum Relevance,mRMR)原则的基因选择算法。该算法先采用K-S检验选择出具有一定区分能力的基因,然后对选择到的基因进行mRMR判断,保留与类别高度相关而其间相关性较小的基因构成最终被选基因子集。以SVM为分类器,以F1_measure、分类准确率和AUC为评价指标对本文算法选择的基因子集进行评估,并将本文算法与K-S检验、mRMR,以及经典的RELIEF和FAST算法进行比较。5个经典基因数据集上的平均实验结果揭示:本文算法的运行时间远低于mRMR算法,且其各项评价指标值优于其他比较算法。因此,本文提出的K-S检验与mRMR结合的基因选择算法能选择到非常有效的基因子集。 相似文献
3.
蝴蝶种类成千上万,每种蝴蝶都与一定植物密切相关,研究蝴蝶种类自动识别有重要意义.野外环境下的蝴蝶物种识别研究受制于现有数据集蝴蝶种类较少,每类样本(图像)数量较少,使基于机器学习的蝴蝶种类识别面临泛化推广难的挑战.另外,野外环境下的蝴蝶翅膀遮挡使分类特征学习面临挑战.因此,提出基于元学习的蝴蝶物种自动识别新模型DL-MAML(deep learning advanced model-agnostic meta-learning),实现野外环境下的任意蝴蝶种类识别.首先,DL-MAML模型采用L2正则改进经典元学习算法MAML(model-agnostic meta-learning)的目标函数和模型参数更新方法,并对MAML增加了2层特征学习模块,避免模型陷入过拟合风险,解决现有野外环境下蝴蝶物种识别面临的泛化推广困难;其次,采用ResNet34深度学习模型提取蝴蝶分类特征,对图像进行表征预处理,作为DL-MAML模型元学习模块的输入,克服其特征提取不足的缺陷,以及野外环境下蝴蝶翅膀遮挡带来的分类特征学习困难.大量消融实验以及与同类模型的实验比较表明,DL-MAML算法学习获得的初始模... 相似文献
4.
针对基于信息增益与皮尔森相关系数的特征选择算法FSIP(feature selection based on information gain and Pearson correlation coefficient)存在的特征子集选取需要人工参与的问题,提出基于可辨识矩阵的完全自适应2D特征选择算法DFSIP(disc... 相似文献
5.
针对遗传算法所存在的早熟和收敛速度慢等问题,基于低等生物的分裂生殖现象,提出了分裂算子的概念,并将该算子引入到传统遗传算法和自适应遗传算法中,对这两种遗传算法进行了改进。通过一系列多峰函数测试实验,将改进算法分别与基本遗传算法和自适应遗传算法进行比较,证明引入分裂算子后的遗传算法和自适应遗传算法不仅有效地收敛到全局最优解,而且提高了收敛速度。 相似文献
6.
基于粒计算的K-medoids聚类算法 总被引:1,自引:0,他引:1
传统K-medoids聚类算法的聚类结果随初始中心点不同而波动,且计算复杂度较高不适于处理大规模数据集;快速K-medoids聚类算法通过选择合适的初始聚类中心改进了传统K-medoids聚类算法,但是快速K-medoids聚类算法的初始聚类中心有可能位于同一类簇。为克服传统K-medoids聚类算法和快速K-medoids聚类算法的缺陷,提出一种基于粒计算的K-medoids聚类算法。算法引入粒度概念,定义新的样本相似度函数,基于等价关系产生粒子,根据粒子包含样本多少定义粒子密度,选择密度较大的前K个粒子的中心样本点作为K-medoids聚类算法的初始聚类中心,实现K-medoids聚类。UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明了基于粒计算的K-medoids聚类算法能得到更好的初始聚类中心,聚类准确率和聚类误差平方和优于传统K-medoids和快速K-medoids聚类算法,具有更稳定的聚类结果,且适用于大规模数据集。 相似文献
7.
为了得到具有强分类信息的极少结肠癌特征基因,实现对结肠癌患者的准确识别,文中提出结肠癌患者诊断的基因标志物识别算法.首先提出基因密度和基因距离的概念,构造以基因密度和基因距离分别为横纵坐标的基因2D空间散列图,选择处于密度峰值点的基因构成优选基因子集,然后采用密度峰值K中心点(DP_K-medoids)算法对降维后的结肠数据集样本进行聚类分析.基因距离和样本距离分别采用欧氏距离、曼哈顿距离、切比雪夫距离和夹角余弦距离度量.实验表明,在夹角余弦距离下,文中算法可以选择到具有高准确率、高灵敏度、高特异度和高马修斯相关系数的规模较小的结肠癌基因子集. 相似文献
8.
F-score作为特征评价准则时,没有考虑不同特征的不同测量量纲对特征重要性的影响。为此,提出一种新的特征评价准则D-score,该准则不仅可以衡量样本特征在两类或多类之间的辨别能力,而且不受特征测量量纲对特征重要性的影响。以D-score为特征重要性评价准则,结合前向顺序搜索、前向顺序浮动搜索以及后向浮动搜索三种特征搜索策略,以支持向量机分类正确率评价特征子集的分类性能得到三种混合的特征选择方法。这些特征选择方法结合了Filter方法和Wrapper方法的各自优势实现特征选择。对UCI机器学习数据库中9个标准数据集的实验测试,以及与基于改进F-score与支持向量机的混合特征选择方法的实验比较,表明D-score特征评价准则是一种有效的样本特征重要性,也即特征辨别能力衡量准则。基于该准则与支持向量机的混合特征选择方法实现了有效的特征选择,在保持数据集辨识能力不变情况下实现了维数压缩。 相似文献
9.
基因表达数据具有高维小样本特点,包含了大量与疾病无关的基因,对该类数据进行分析的首要步骤是特征选择.常见的特征选择方法需要有类标的数据,但样本类标获取往往比较困难.针对基因表达数据的特征选择问题,提出基于谱聚类的无监督特征选择思想FSSC(feature selection by spectral clustering).FSSC对所有特征进行谱聚类,将相似性较高的特征聚成一类,定义特征的区分度与特征独立性,以二者之积度量特征重要性,从各特征簇选取代表性特征,构造特征子集.根据使用的不同谱聚类算法,得到FSSC-SD(FSSC based on standard deviation) FSSCMD(FSSC based on mean distance)和FSSC-ST(FSSC based on self-tuning)这3种无监督特征选择算法.以SVMs(support vector machines)和KNN(K-nearest neighbours)为分类器,在10个基因表达数据集上进行实验测试.结果表明,FSSC-SD、FSSC-MD和FSSC-ST算法均能选择到具有强分类能力的特征子集. 相似文献
10.
免费师范生政策从实施到现在已有将近四年时间,但社会上对于免费师范生的评价褒贬不一,有人认为该政策的实施为很多贫困家庭的孩子解决了上学难的问题,但也有人认为该政策的实施使免费师范生在大学期间的学习积极性受到了影响。那么,影响师范大学免费师范生和非免费师范生做出选择的因素有哪些呢?通过对免费师范生以及非师范生进行问卷调查,获取生源因素相关数据,应用粒计算对是否选择报考免费师范生的影响因素进行了分析。分析结果显示报考免费师范生的前三个影响因素分别为:政策中规定的违约将带来不诚信记录,不能报考脱产研究生和跨省就业问题。文中结论将对免费师范生教育政策的进一步完善有一定指导作用。 相似文献