首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
样本类型无关的多类特征基因选择方法   总被引:1,自引:0,他引:1       下载免费PDF全文
分类特征基因是基因表达谱数据分析中的重点,目前的特征基因选择方法均没有考虑到基因在不同类别中分布失衡给特征基因选择算法带来的影响。提出一种样本无关的特征基因选择方法,该方法利用改进地类间差异函数和类内波动函数,根据两个函数的一致性选择每个类别的鉴别基因。该方法不仅适用于多类样本,对于各类样本数量不均衡以及基因在各类中分布失调的样本同样有效。实验结果表明,该方法确保了特征矢量的均衡性,提高了分类器的分类性能。  相似文献   

2.
提出一种线性特征提取方法--类别非局保留投影.并进行核扩张,称为基于核的类别非局保留投影.基于非局保留投影特征提取方法,类别非局保留投影采用类间信息指导特征提取,同时考虑样本的关系信息和类别信息,并通过核技巧实现原输入空间的非线性判别.通过对yeast和NCI基因表达数据进行特征提取,对文中方法进行测试和评价.实验结果表明,该方法能获得较高的识别率.  相似文献   

3.
高通量微阵列技术与手工表型标定方式间的矛盾导致了基因表达数据的获取与表型确定间的不平衡.然而,已有的表型区分方法大多是有监督的,并且通常忽略了基因间广泛存在的相互作用,根据单个基因的独立区分能力划分样本表型,选择相关基因.从新的视角,基于投影聚类的思想,提出一种考虑基因间相互关系的无监督表型区分算法USPD.通过将基因表达数据转化为具有负间隔约束的序列数据,强化了基因间的相互关系.利用设计的质量函数,采用深度优先方式遍历样本穷举树,无监督地生成样本表型划分.同时采用高效的削减策略,大大提高了算法的效率.通过将算法与现有的以基因表达数据分析为目的的代表性投影聚类算法HARP相比较,证明提出算法的高效性和有效性.  相似文献   

4.
基因选择是基因表达数据分析中的重点问题.然而现有的方法没有综合考虑样本不平衡和基因间的相互作用。借鉴聚类的验证技术提出了基因选择的0-1规划模型,同时考虑了样本不平衡和基因间的相互作用。进一步根据0-1规划模型的特点,给出了基于贪心思想的启发式算法来求解所提出的优化问题。在3个真实的基因表达数据上对提出的方法进行测试并与两个对照的方法比较,结果表明所提出模型和算法是有效的且稳健的。  相似文献   

5.
肿瘤特征基因的选择是肿瘤基因表达数据分类的研究热点之一。针对传统的肿瘤特征基因选择方法无法很好地剔除冗余基因,提出一种混合型的特征选择方法。在所提出的方法中,首先将标签相同的样本划分到同一个矩阵,在所有矩阵中,当且仅当特征间的相关系数均大于特定阈值时,即判定这几个特征是相关特征,并对这些相关的特征进行聚类。然后在每个聚类中选择Fisher比最大的特征,对这些特征根据评价函数筛选得到最优特征子集。最后采用SVM分类器对这些最优特征子集进行类别预测。在四个标准的肿瘤DNA微阵列数据集的测试结果证明所提出的肿瘤基因特征选择方法的稳定性和高效性。  相似文献   

6.
针对基于图嵌入的鉴别投影方法对近邻参数的敏感以及实际应用中样本类别信息不足对图嵌入方法鉴别性能的影响,提出一种基于自适应近邻选择和低秩表示的半监督鉴别分析方法.该方法利用所有类内样本点构造类内图来描述类内样本的紧致性,借助最远类内样本的邻域自适应地选取该邻域内不同类样本点构造类间图,以描述类间样本的可分性;此外,利用低秩表示方法挖掘不带类别信息样本的潜在低秩结构,以保留样本的全局相似关系.在ORL和FERET人脸数据库上的实验结果,验证了文中方法的有效性及对噪声的鲁棒性.  相似文献   

7.
众多基因生物标志物选择方法常因研究样本较少而不能直接用于临床诊断.于是有学者提出整合不同基因表达数据同时保留生物信息完整性的方法.然而,由于存在批量效应,导致直接整合不同基因表达数据可能会增加新的系统误差.针对上述问题,提出一个融合自主学习与SCAD-Net正则化的分析框架.一方面,自主学习方法能够先从低噪声样本中学习出基础模型,然后再通过高噪声样本学习使得模型更加稳健,从而避免批量效应;另一方面,SCAD-Net正则化融合了基因表达数据与基因间的交互信息,可以实现更好的特征选择效果.不同情形下的模拟数据以及在乳腺癌细胞系数据集上的结果表明,基于自主学习与SCAD-Net正则化的回归模型在处理高维复杂网络数据集时具有更好的预测效果.  相似文献   

8.
基于最小二乘模糊支持向量机的基因分类研究*   总被引:2,自引:0,他引:2  
随着大量基因表达数据的涌现,把海量的数据划分成数量相对较少的组,有助于提取对生理学和医药学等有价值的生物信息。基因分类技术能够很好地处理和分析这些基因数据。提出了一种应用于基因分类的模糊最小二乘支持向量机方法,通过设置模糊隶属度改变分类中样本的贡献属性。该方法不仅考虑了样本与类中心点的距离关系,还充分考虑样本与样本之间的关系,减弱噪声或野值样本对分类的影响。采用美国威斯康星乳腺癌数据和皮马印第安人糖尿病数据进行实验检测,均取得了很好的效果。  相似文献   

9.
目前应用于基因表达数据上的双聚类算法大多是基于真实数据提出的, 因此易受噪声干扰, 且这些算法很少考虑样本间的时序性。提出了一种有效的时间点连续的双聚类挖掘算法DTCB, 从离散的时序基因表达数据中挖掘出时间点连续的最大共表达双聚类。该算法使用了一种新的数据离散化方法, 同时提出了三种在离散数据集下基因间的共表达关系; 为了提高挖掘效率, DTCB使用了有效的剪枝和输出策略, 可以在不产生候选集的情况下一次性挖掘出所有的最大共表达双聚类。通过实验分析, 证明DTCB具有高效的性能和良好的鲁棒性, 且结果具有较好的统计和生物意义。  相似文献   

10.
沈宁敏  李静  周培云  庄毅 《计算机科学》2015,42(Z6):453-458
聚类已成为基因表达数据的一种前沿分析方法,通过基因类别的划分可以较快速地发现病变细胞,以实现对疾病的诊断。然而,高维、小样本的数据特点使得原始采集的基因表达数据具有大量的冗余与干扰信息,直接聚类会使得算法运行时间长,分析结果精度低。主成分分析是一种经典的数据降维方法,在保持方差最大的情况下,将高维数据映射到低维空间。但负载因子的非零特性使得主成分不具有强解释能力。提出基于截断幂的稀疏主成分分析方法对基因表达数据进行特征提取,并结合K-means方法对稀疏提取的特征基因数据进行聚类分析。最后,利用3个公开的基因数据集进行实验分析,验证了所提出的特征提取方法可提高基因表达数据聚类的精确性与高效性。  相似文献   

11.
高娟  王国胤  胡峰 《计算机科学》2012,39(10):193-197
从信息学角度出发寻找肿瘤相关基因、发现肿瘤基因表达特征对肿瘤的诊断和治疗具有重要的生物学意义,而肿瘤与正常组织的分类是其中一个重要应用。根据多类别肿瘤基因表达谱,提出了一种自动特征选择方法。首先,结合非参数方法和filter思想,利用决策序列的随机性度量基因的权值并排序;然后,采用相关信息熵进行冗余性排除,自动地选择出具有高分辨能力、低冗余度的特征基因子集。实验结果表明,提出的方法能从多类别肿瘤基因表达谱数据中自动选出30个具有良好分类能力的特征基因,且具有较高的正确识别率。  相似文献   

12.
鉴于传统的基因选择方法会选出大量冗余基因从而导致较低的样本预测准确率,提出一种基于聚类和微粒群优化的基因选择算法。首先采用聚类算法将基因分成固定数目的簇;然后,采用极限学习机作为分类器进行簇中的特征基因分类性能评价,得到一个备选基因库;最后,采用基于微粒群优化和极限学习机的缠绕法从备选基因库中选择具有最大分类率、最小数目的基因子集。所选出的基因具有良好的分类性能。在两个公开的微阵列数据集上的实验结果表明,相对于一些经典的方法,新方法能够以较少的基因获得更高的分类性能。  相似文献   

13.
BackgroundThe application of microarray data for cancer classification is important. Researchers have tried to analyze gene expression data using various computational intelligence methods.PurposeWe propose a novel method for gene selection utilizing particle swarm optimization combined with a decision tree as the classifier to select a small number of informative genes from the thousands of genes in the data that can contribute in identifying cancers.ConclusionStatistical analysis reveals that our proposed method outperforms other popular classifiers, i.e., support vector machine, self-organizing map, back propagation neural network, and C4.5 decision tree, by conducting experiments on 11 gene expression cancer datasets.  相似文献   

14.
The ability to provide thousands of gene expression values simultaneously makes microarray data very useful for phenotype classification. A major constraint in phenotype classification is that the number of genes greatly exceeds the number of samples. We overcame this constraint in two ways; we increased the number of samples by integrating independently generated microarrays that had been designed with the same biological objectives, and reduced the number of genes involved in the classification by selecting a small set of informative genes. We were able to maximally use the abundant microarray data that is being stockpiled by thousands of different research groups while improving classification accuracy. Our goal is to implement a feature (gene) selection method that can be applicable to integrated microarrays as well as to build a highly accurate classifier that permits straightforward biological interpretation. In this paper, we propose a two-stage approach. Firstly, we performed a direct integration of individual microarrays by transforming an expression value into a rank value within a sample and identified informative genes by calculating the number of swaps to reach a perfectly split sequence. Secondly, we built a classifier which is a parameter-free ensemble method using only the pre-selected informative genes. By using our classifier that was derived from large, integrated microarray sample datasets, we achieved high accuracy, sensitivity, and specificity in the classification of an independent test dataset.  相似文献   

15.
随着DNA微阵列技术的出现,大量关于不同肿瘤的基因表达谱数据集被发布到网络上,从而使得对肿瘤特征基因选择和亚型分类的研究成为生物信息学领域的热点。基于Lasso(least absolute shrinkage and selection operator)方法提出了K-split Lasso特征选择方法,其基本思想是将数据集平均划分为K份,分别使用Lasso方法对每份进行特征选择,而后将选择出来的每份特征子集合并,重新进行特征选择,得到最终的特征基因。实验采用支持向量机作为分类器,结果表明K-split Lasso方法减少了冗余特征,提高了分类精度,具有良好的稳定性。由于每次计算的维数降低,K-split Lasso方法解决了计算开销过大的问题,并在一定程度上解决了"过拟合"问题。因此K-split Lasso方法是一种有效的肿瘤特征基因选择方法。  相似文献   

16.
肿瘤信息基因启发式宽度优先搜索算法研究   总被引:6,自引:0,他引:6  
基于基因表达谱的肿瘤检测方法有望成为临床医学上一种快速而有效的肿瘤分子诊断方法,但由于基因表达谱数据存在维数过高、样本量很小以及噪音很大等特点,使得肿瘤信息基因选择成为一件有挑战性的工作.根据肿瘤基因表达谱样本集的特点,提出了一种以支持向量机分类性能为评估准则的寻找信息基因的启发式宽度优先搜索算法,其优点是能够同时搜索到基因数量尽可能少而分类能力尽可能强的多个信息基因子集.实验采用了3种肿瘤样本集以验证新算法的可行性和有效性,对于急性白血病、难以分类的结肠癌和多肿瘤亚型的小圆蓝细胞瘤样本集,分别只需2,4和4个信息基因就能获得100%的4-折交叉验证识别准确率.与其它优秀的肿瘤分类方法相比,实验结果在信息基因数量及其分类性能方面具有明显的优越性.为避免样本集的不同划分对分类性能的影响,提出了一种能够更加客观地反映信息基因子集分类性能的全折交叉验证评估方法.  相似文献   

17.
杨昆  李建中  徐德昌  戴国骏 《软件学报》2010,21(9):2148-2160
提出集成分析来自相同研究问题的不同数据集来识别表达不稳定的基因.把这一问题形式化为一个非线性整数规划问题,三个启发式的算法被提出来求解这一优化问题;进一步地设计了一个统计量来度量基因的不稳定表达程度.提出的方法应用于两个真实数据,实验结果显示:所识别的不稳定基因在两个数据中的表达不一致;利用表达不稳定基因可以提高差异表达基因的筛选结果,而去除表达不稳定基因可以有效地提高微阵列数据分类.实验结果表明,提出的方法是有效的,并且表达不稳定基因可以为微阵列数据分析提供有价值的信息.  相似文献   

18.
肿瘤基因表达谱分类特征基因选取问题及分析方法研究   总被引:18,自引:1,他引:18  
对肿瘤分类特征基因选取问题的研究是发现肿瘤特异表达基因、研究肿瘤基因表达模式的重要手段,文中基于多类别肿瘤基因表达谱数据集,从研究肿瘤与正常组织的分类入手,对肿瘤分类特征基因选取问题进行分析和研究,首先对基于Relief算法的特征选取策略加以改进生成候选特征集合;然后以支持向量机作为分类器对其分类性能进行检验以选取分类特征基因;最后结合分类模型。利用灵敏度分析方法进行特征基因的精确搜索以滤除冗余,基于该方法文中选出了52个具有良好分类性能的特征基因作为肿瘤的基因特征,并对其表达行为进行了简要分析。  相似文献   

19.
薛寺中  谈锐  陈秀宏 《计算机应用》2012,32(8):2235-2244
为能有效捕捉数据的非线性特征,特提出一种新的非线性数据降维算法——核半监督局部保留投影(KSSLPP)。该方法利用标记样本的标记信息及所有训练样本的结构重新定义了类间相似度和类内相似度,然后将原始数据映射到高维核空间,在核空间中最大化类间分离度,最小化类内分离度。该方法在核空间保持了数据的局部结构和全局结构,以及数据的标签信息。在Olivetti人脸库和UCI数据库中的对比实验验证了该算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号