首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
基于GA/SVM的微阵列数据特征的选择与分类   总被引:2,自引:0,他引:2       下载免费PDF全文
微阵列数据样本小、维度高的特点给数据分析造成了困难,而主基因的挑选又十分的重要。该文采用遗传算法挑选主基因,其中,用k最邻居距离作为模式识别方法,用支持向量机构造了诊断系统,用不同核函数进行预测分类性能测试。在经典的白血病数据集上,对34个样本的测试集的分类准确率为100%。  相似文献   

2.
基于相关性分析的微阵列数据集成分类研究   总被引:1,自引:0,他引:1  
基于微阵列数据的肿瘤诊断方法有望在不久的将来成为临床医学上一种快速且有效的分子层肿瘤诊断方法,但由于微阵列数据存在高维小样本的特点,因而对传统的分类方法提出了挑战,为此研究人员开始关注于性能更好的集成分类算法.针对现有的微阵列数据集成分类算法分类精度不高、计算量过大等问题,提出了一种基于相关性分析的微阵列数据集成分类算法.该算法可以通过计算训练子集间的相关性挑选出差异度最大的一组子集来进行训练,有效地增强了集成中的多样性.应用支持向量机作为基分类器,在急性白血病与结肠癌数据集上的实验结果表明了所提算法的有效性和可行性.同时,测试了算法在不同参数设置下的性能,测试结果为合理的参数设置提供了参考依据.  相似文献   

3.
常用的排列方法从DNA微数据中选择的基因集合往往会包含相关性较高的基因,而且使用单个基因评价方法也不能真正反映由此得到的特征集合分类能力的优劣。另外,基因数量远多于样本数量是进行疾病诊断面临的又一挑战。为此,提出一种DNA微阵列数据特征提取方法用于组织分类。该方法运用K-means方法对基因进行聚类分析,获取各子类DNA微阵列数据中心,用排列法去除对分类无关的子类,然后利用ICA方法提取剩余子类集合的特征,用SVMs方法构造分类器对组织进行分类。真实的生物学数据实验表明,该方法通过提取一种复合基因,能综合评价基因分类能力,减少特征数,提高分类器的分类准确性。  相似文献   

4.
基因芯片是微阵列技术的典型代表,它具有高通量的特性和同时检测全部基因组基因表达水平的能力。应用微阵列芯片的一个主要目的是基因表达模式的发现,即在基因组水平发现功能相似,生物学过程相关的基因簇;或者将样本分类,发现样本的各种亚型。例如根据基因表达水平对癌症样本进行分类,发现疾病的分子亚型。非负矩阵分解NMF方法是一种非监督的、非正交的、基于局部表示的矩阵分解方法。近年来这种方法被越来越多地应用在微阵列数据的分类分析和聚类发现中。系统地介绍了非负矩阵分解的原理、算法和应用,分解结果的生物学解释,分类结果的质量评估和基于NMF算法的分类软件。总结并评估了NMF方法在微阵列数据分类和聚类发现应用中的表现。  相似文献   

5.
段旭 《计算机工程与设计》2011,32(11):3836-3839
一个微阵列数据集包含了成千上万的基因、相对少量的样本,而在这成千上万的基因中,只有一少部分基因对肿瘤分类是有贡献的,因此,对于肿瘤分类来说,最重要的一个问题就是识别选择出对肿瘤分类最有贡献的基因。为了能有效地进行微阵列基因选择,提出用一个边缘分布模型(marginal distribution model,MDM)来描述微阵列数据。该模型不仅能区分基因是否在两样本中差异表达,而且能区分出基因在哪一类样本中表达,从而选择出的基因更具有生物学意义。模拟数据及真实微阵列数据集上的实验结果表明,该方法能有效地进行微阵列基因选择。  相似文献   

6.
一种基于微阵列数据的集成分类方法*   总被引:1,自引:0,他引:1  
针对现有的微阵列数据集成分类方法分类精度不高这一问题,提出了一种Bagging-PCA-SVM方法。该方法首先采用Bootstrap技术对训练样本集重复取样,构成大量训练样本子集,然后在每个子集上进行特征选择和主成分分析以消除噪声基因与冗余基因;最后利用支持向量机作为分类器,采用多数投票的方法预测样本的类属。通过三个数据集进行了测试,测试结果表明了该方法的有效性和可行性。  相似文献   

7.
针对微阵列基因表达数据高维小样本、高冗余且高噪声的问题,提出一种基于FCBF特征选择和集成优化学习的分类算法FICS-EKELM。首先使用快速关联过滤方法FCBF滤除部分不相关特征和噪声,找出与类别相关性较高的特征集合;其次,运用抽样技术生成多个样本子集,在每个训练子集上利用改进乌鸦搜索算法同步实现最优特征子集选择和核极限学习机KELM分类器参数优化;然后基于基分类器构建集成分类模型对目标数据进行分类识别;此外运用多核平台多线程并行方式进一步提高算法计算效率。在六组基因数据集上的实验结果表明,本文算法不仅能用较少特征基因达到较优的分类效果,并且分类结果显著高于已有和相似方法,是一种有效的高维数据分类方法。  相似文献   

8.
基于支持向量机的微阵列基因表达数据分析方法   总被引:5,自引:0,他引:5  
DNA微阵列技术,使人们可以同时观测成千上万个基因的表达水平,对其数据的分析已成为生物信息学研究的焦点.针对微阵列基因表达数据维数高、样本小、非线性的特点,设计了一种基于支持向量机的基因表达数据分类识别方法,该方法采用信噪比进行基因特征提取,运用支持向量机的不同核函数进行性能测试,针对几个典型数据集的实验表明其识别效果良好.  相似文献   

9.
于化龙  高尚  赵靖  秦斌 《计算机科学》2012,39(5):190-194
近年来,应用DNA微阵列技术对疾病,尤其是癌症进行诊断,已逐渐成为生物信息学领域的研究热点之一。对比其它的数据载体,微阵列数据通常具有一些独有的特点。针对微阵列数据样本分布不平衡这一特点,提出了一种基于概率分布的过采样技术,通过该技术可以为少数类建立一些合理的伪样本,从而使各类的样本数达到均衡,然后使用随机森林分类器对其进行分类。该方法的有效性和可行性已经在两个标准的微阵列数据集上得到了验证。实验结果显示,与传统的方法相比,该方法可以获得更好的分类性能。  相似文献   

10.
基于高斯过程的DNA微阵列分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
基于高斯过程对分类过程进行建模,给出了一种基于高斯过程的DNA微阵列分类算法。作为一种贝叶斯分类方法,该方法能够给出分类的概率,并能将过往的正确诊断信息,纳入到分类模型中,实现分类模型的不断优化。该方法能够基于主样本进行训练空间的维度消减,较好地解决了由于样本的加入造成的维度不断增加的问题。通过和几种常用分类算法的实验对比分析,证明了该方法具有较高的分类准确性。  相似文献   

11.
广泛应用的第一主成分是对数据集的一维线性最优描述,主曲线是第一主成分的非线性推广。线性主成分分析是一种线性分析方法,而数据通常是非线性的。用线性方法分析非线性数据在分析能力上常常是受限的。为此在对线性主成分分析非线性数据研究的基础上,提出了一种新的非线性成分分析方法,即主曲线成分分析。该方法从数据本身出发进行非线性分析,强调非参数特性,能有效地建模非线性数据。实现主曲线成分分析时,采用了改进的神经网络建模方法,该建模方法以其较强的近似性能很好地表达了非线性关系。仿真实验结果表明,主曲线成分分析能很好地解决非线性主成分问题,应用前景广阔。  相似文献   

12.
传统的主曲线算法已被广泛应用到很多领域,但在复杂数据的主曲线提取上效果不佳,而有效的融合粒计算与主曲线学习算法是解决该类问题最有效的途径之一。为此,本文提出了基于粒计算的复杂数据多粒度主曲线提取算法。首先,利用基于t最近邻(T-nearest-neighbors, TNN)的谱聚类算法对数据进行粒化,提出拐点估计方法来自动确定粒的个数;然后调用软K段主曲线算法对每个粒进行局部主曲线提取,并提出通过消除假边来优化每个粒的主曲线提取过程;最后采用局部到全局的策略进行多粒度主曲线提取,并对过拟合线段进行优化,最终形成一条能较好描述数据原始分布形态的主曲线。实验结果表明该算法是一种行之有效的多粒度主曲线提取算法。  相似文献   

13.
Learning and design of principal curves   总被引:21,自引:0,他引:21  
Principal curves have been defined as “self-consistent” smooth curves which pass through the “middle” of a d-dimensional probability distribution or data cloud. They give a summary of the data and also serve as an efficient feature extraction tool. We take a new approach by defining principal curves as continuous curves of a given length which minimize the expected squared distance between the curve and points of the space randomly chosen according to a given distribution. The new definition makes it possible to theoretically analyze principal curve learning from training data and it also leads to a new practical construction. Our theoretical learning scheme chooses a curve from a class of polygonal lines with k segments and with a given total length to minimize the average squared distance over n training points drawn independently. Convergence properties of this learning scheme are analyzed and a practical version of this theoretical algorithm is implemented. In each iteration of the algorithm, a new vertex is added to the polygonal line and the positions of the vertices are updated so that they minimize a penalized squared distance criterion. Simulation results demonstrate that the new algorithm compares favorably with previous methods, both in terms of performance and computational complexity, and is more robust to varying data models  相似文献   

14.
基于主曲线的指纹细节特征提取方法   总被引:3,自引:2,他引:1  
要提高指纹识别的识别率,关键是指纹特征的提取。主曲线是主成份分析的非线性推广,它是通过数据分布“中间’’并满足“自相合”的光滑曲线,较好地反映了数据分布的结构特征。本文尝试使用主曲线这种新的方法来提取指纹的细节特征。实验结果表明利用主曲线来提取指纹的结构特征是可行的,它为指纹特征提取的研究提供了一条新途径。  相似文献   

15.
主曲线研究综述   总被引:42,自引:0,他引:42  
张军平  王珏 《计算机学报》2003,26(2):129-146
主曲线(principal curves)是第一主成分的非线性推广,第一主成分是对数据集的一维线性最优描述,主轴线强调寻找通过数据分布的“中间(middle)并满足“自耦合”的光滑一维曲线,其理论基础是寻找嵌入高维空间的非欧氏低维流形,该文着重介绍了主曲线发展的动机,理论基础,典型的主曲线方法和算法实现及其不同领域的应用,并对存在的问题进行了分析。  相似文献   

16.
We propose a novel means of classifying vector-valued curves using functional principal components. This uses cross-validation to select curve components, the degree of smoothing and scores associated with the best classification performance. Our approach is well suited to data generated by sensors of different modalities and time varying sampling frequencies. Experimental comparisons show this approach has significant advantages over conventional techniques using non-uniformly sampled data. Our approach also generates novel forms of derivative analysis, a widely used technique for classifying spectral functions from contaminated data.  相似文献   

17.
Principal Component Analysis (PCA) is an important tool in multivariate analysis, in particular when faced with high dimensional data. There has been much done with regard to sensitivity analysis and the development of influence diagnostics for the eigenvector estimators that define the sample principal components. However, little, if any, has been done in this setting with regard to the sample principal components themselves. In this paper we develop a sensitivity measure for principal components associated with the covariance matrix that is very much related to the influence function (Hampel, 1974). This influence measure is based on the average squared canonical correlation and differs from the existing measures in that it assesses the influence of certain observational types on the sample principal components. We use this measure to derive an influence diagnostic that satisfies two key criteria being (i) it detects influential observations with respect to subsets of sample principal components and (ii) is efficient to calculate even in high dimensions. We use several microarray datasets to show that our measure satisfies both criteria.  相似文献   

18.
罗志增  赵鹏飞 《传感技术学报》2007,20(10):2164-2168
针对表面肌电信号的特点,提出了一种应用非线性主分量分析(PCA)提取表面肌电信号特征的新方法.该方法在表面肌电信号滤波的基础上,采用非线性PCA方法完成数据压缩,将多路表面肌电信号转换为一维的特征数据主元,并以主元曲线的形式输出特征提取结果.本文采用基于自组织神经网络的非线性PCA对手臂尺侧腕伸肌和尺侧腕屈肌的两路表面肌电信号进行主元提取,试验结果表明,四种手部运动模式(握拳、展拳、腕外旋、腕内旋)对应的表面肌电信号利用该方法处理后,得到的主元曲线具有很好的类区分性,依据所得主元曲线的形状特征可以有效地进行手部动作类别的识别.  相似文献   

19.
The ability to provide thousands of gene expression values simultaneously makes microarray data very useful for phenotype classification. A major constraint in phenotype classification is that the number of genes greatly exceeds the number of samples. We overcame this constraint in two ways; we increased the number of samples by integrating independently generated microarrays that had been designed with the same biological objectives, and reduced the number of genes involved in the classification by selecting a small set of informative genes. We were able to maximally use the abundant microarray data that is being stockpiled by thousands of different research groups while improving classification accuracy. Our goal is to implement a feature (gene) selection method that can be applicable to integrated microarrays as well as to build a highly accurate classifier that permits straightforward biological interpretation. In this paper, we propose a two-stage approach. Firstly, we performed a direct integration of individual microarrays by transforming an expression value into a rank value within a sample and identified informative genes by calculating the number of swaps to reach a perfectly split sequence. Secondly, we built a classifier which is a parameter-free ensemble method using only the pre-selected informative genes. By using our classifier that was derived from large, integrated microarray sample datasets, we achieved high accuracy, sensitivity, and specificity in the classification of an independent test dataset.  相似文献   

20.
HS主曲线的数学特性   总被引:2,自引:0,他引:2  
主曲线被定义作穿过多维数据分布“中间”的满足“自相合”的光滑曲线,它是第一主成分的非线性推广,第一主成分是对数据集的一维线性最优描递。HS主曲线强调非参数模型,对其参数无关性本文给出了具体证明。同时为了全面理解主曲线,本文以空间主曲线为例,分析了它的横截性质。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号