首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 98 毫秒
1.
赵宇海  王国仁  印莹 《计算机应用》2005,25(6):1388-1391
提出了一种用于基因表达数据的无参数聚类算法。该算法把多维数据的模糊聚类方法与CTWC相结合,并引入基于范数的方法进一步对该方法加以改进和论证。将该算法应用于真实的结肠癌基因表达数据集,确定了含8个基因的特征基因组合,该特征基因组合不仅达到了90%左右的结肠癌样本识别率,还能鉴别结肠癌样本的亚型。实验结果充分验证了这种算法的可行性。  相似文献   

2.
基因表达数据聚类有效性分析的EFOM法   总被引:1,自引:0,他引:1  
论文讨论了用于评估基因表达数据聚类有效性的FOM方法,并结合基因表达数据聚类本身的特点,对已有的FOM方法进行了分析。提出了扩展的FOM方法——EFOM方法。通过分析人工数据和基因表达数据的EFOM值与调整Rand索引值的关系,充分说明了EFOM方法更加适合评估基因表达数据聚类结果的有效性。  相似文献   

3.
为了解决传统聚类方法在多维数据集中聚类效果不佳的问题,提出了将网络社团划分的方法,并应用到多维数据聚类分析中。对于一个多维数据集,首先对分析对象进行特征提取,构建出每个对象的特征向量,通过计算皮尔森相关系数来度量不同特征向量之间的相似性,从而构建出一个相似性网络,采用Blondel算法对该网络进行社团划分达到聚类的效果。实验结果表明该方法可以在多维数据聚类中得到较好的聚类结果,准确率达到92.5%,优于K-means算法的75%。  相似文献   

4.
基因表达数据聚类是发现基因功能和确立基因调控网络的重要方法,计算智能在该领域的应用为分析 大量基因数据提供了新途径.本文根据基因表达数据的特点,提出了基因表达数据聚类领域的关键问题,探讨了基 于计算智能的基因表达数据聚类基本框架,综述了计算智能在基因数据聚类领域的应用现状,最后指出了在基因数 据聚类领域计算智能方法未来的发展方向.  相似文献   

5.
本文提出了一种双层结构的基因表达数据聚类算法,该算法针对基因表达数据量庞大且已知功能的基因较少的特点,将聚类过程分为两个层次,快速分析层和精确聚类层。聚类结果采用信息熵方法进行评价。实验结果表明该聚类方法对于聚类基因表达数据非常有效。  相似文献   

6.
聚类方法在基因表达数据分析中发挥着非常重要的作用,但基因表达数据相对其他领域的数据具有自身的特性,因此传统的数据距离定义和聚类方法已不能完全满足研究者对生物数据的分析要求。提出一种基于泊松分布的数据距离度量方式TransChisq,它以一种全新的视角定义了基因数据之间的距离,鉴于模糊聚类算法能够更加深刻地描述复杂的基因作用关系,将TransChisq距离与模糊聚类方法相结合对模糊C均值算法进行改进,并应用于真实基因表达数据分析。实验结果表明,该方法能够按照生物学的真实分类将基因表达数据聚类,并且可以发现更多的共调控基因,更加满足了基因表达数据分析的需要。  相似文献   

7.
提出了一种简单高效的多维离散时间序列符号化方法,该方法用模糊自适应共振理论(Fuzzy ART)对多维时间序列数据进行聚类,实现多维时间序列数据的符号化问题。同时,通过属性相关性预处理分析,过滤掉聚类中不相关或弱相关的属性,保证了聚类算法的准确性,将提出的算法应用于多维交通流数据的符号化,效果很好。  相似文献   

8.
基因表达数据是由DNA微阵列实验产生的大规模矩阵,能有效地提取生物学信息,由于受到实验条件限制,基因表达数据往往存在缺失值,需要进行缺失数据的填补。传统的缺失数据填补方法是基于基因表达数据的单一特征,未充分考虑数据矩阵间的相关性。针对双聚类均方残值越小基因表达数据相关性越高这一特性进行研究,提出一种基于模拟退火优化双聚类的缺失数据填补方法(bi-SA),采用模拟退火法确定最优双聚类,从而实现缺失数据的最有效填补。四组真实基因表达数据实验表明,bi-SA方法能够获得较高的填补准确性。  相似文献   

9.
基于投影寻踪和聚类分析的多维数据可视化   总被引:1,自引:0,他引:1  
将投影寻踪的方法引入到多维数据处理中,先对多维数据降维,再用聚类法来分析降维的数据,进而得到直观的结果,开辟了一条新的处理多维数据的途径。  相似文献   

10.
针对基因表达数据中存在的噪声对聚类分析结果准确度的影响问题,提出了一种基于小波包分解的基因表达数据模糊聚类分析方案,介绍了理论根据和算法,给出了Matlab仿真结果,并与其他方法聚类的结果进行了比较。结果表明提出的方法能够减少传统聚类方法受到噪声影响的程度,能够挖掘出基因表达数据在时间上的行为特征,对与细胞周期调控有关的基因表达数据的聚类结果划分更为准确和细致。  相似文献   

11.
随着大规模基因表达谱技术的发展,基于基因表达谱的癌症诊断方法正在成为临床医学上一种快速有效的诊断方法,但是由于基因表达数据维数过高、样本量小、噪声大,使得正确提取有关癌症的特征基因成为关键。以结肠癌肿瘤的基因表达谱数据为例,提出了结合Fisher权函数、离散傅里叶变换和主成分分析的混合特征基因提取方法,以多元Logistic回归分析和贝叶斯决策作为分类器进行肿瘤分类检测。实验结果表明,该方法对于结肠癌数据集CV识别准确率高达96.80%。  相似文献   

12.
基于支持向量机的微阵列基因表达数据分析方法   总被引:5,自引:0,他引:5  
DNA微阵列技术,使人们可以同时观测成千上万个基因的表达水平,对其数据的分析已成为生物信息学研究的焦点.针对微阵列基因表达数据维数高、样本小、非线性的特点,设计了一种基于支持向量机的基因表达数据分类识别方法,该方法采用信噪比进行基因特征提取,运用支持向量机的不同核函数进行性能测试,针对几个典型数据集的实验表明其识别效果良好.  相似文献   

13.
Recently, biology has been confronted with large multidimensional gene expression data sets where the expression of thousands of genes is measured over dozens of conditions. The patterns in gene expression are frequently explained retrospectively by underlying biological principles. Here we present a method that uses text analysis to help find meaningful gene expression patterns that correlate with the underlying biology described in scientific literature. The main challenge is that the literature about an individual gene is not homogenous and may addresses many unrelated aspects of the gene. In the first part of the paper we present and evaluate the neighbor divergence per gene (NDPG) method that assigns a score to a given subgroup of genes indicating the likelihood that the genes share a biological property or function. To do this, it uses only a reference index that connects genes to documents, and a corpus including those documents. In the second part of the paper we present an approach, optimizing separating projections (OSP), to search for linear projections in gene expression data that separate functionally related groups of genes from the rest of the genes; the objective function in our search is the NDPG score of the positively projected genes. A successful search, therefore, should identify patterns in gene expression data that correlate with meaningful biology. We apply OSP to a published gene expression data set; it discovers many biologically relevant projections. Since the method requires only numerical measurements (in this case expression) about entities (genes) with textual documentation (literature), we conjecture that this method could be transferred easily to other domains. The method should be able to identify relevant patterns even if the documentation for each entity pertains to many disparate subjects that are unrelated to each other.  相似文献   

14.
基于主成份分析的肿瘤分类检测算法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
基于基因表达谱的肿瘤诊断方法有望成为临床医学上一种快速而有效的诊断方法,但由于基因表达数据存在维数过高、样本量很小以及噪音大等特点,使得提取与肿瘤有关的信息基因成为一件有挑战性的工作。因此,在分析了目前肿瘤分类检测所采用方法的基础上,本文提出了一种结合基因特征记分和主成份分析的混合特征抽取方法。实验表明明,这种方法能够有效地提取分类特征信息,并在保持较高的肿瘤识别准确率的前提下大幅度地降低基因表达数据的维数,使得分类器性能得到很大提高。实验采用了两种与肿瘤有关的基因表达数据集来验证这种混合特征抽取方法的有效性,采用支持向量机的分类实验结果表明,所提出的混合方法不仅交叉验证识别准确率高而且分类结果能够可
可视化。对于结肠癌组织样本集,其交叉验证识别准确率高这95.16%;而对于急性白血病组织样本集,其交叉验证识别准确率高这100%。  相似文献   

15.
肿瘤诊断中的特征基因提取   总被引:1,自引:0,他引:1       下载免费PDF全文
基于基因表达谱的特征基因提取方法已经成为当今研究肿瘤分子诊断的热点,但由于基因表达谱数据存在维数过高、样本量很小以及噪音很大等特点,使得肿瘤特征基因选择成为一件有挑战性的工作。提出了一种新的寻找特征基因的方法。首先基于区间间隔或覆盖比的方法来初步选出一些特征基因,而后删掉其中的冗余基因,达到以最少的基因数得到更高的分类准确率的目的。实验采用了3种肿瘤样本集来验证新算法的有效性。针对这3个样本集,只要2或3个特征基因就能得到100%的5-折交叉验证识别准确率。与其他肿瘤分类方法相比,显示了它的优越性。  相似文献   

16.
詹超  胡江洪 《微机发展》2006,16(3):107-109
介绍了一种使用基因芯片实验产生的基因表达数据对功能基因进行分类的方法,该方法是以支持向量机(SVM)理论为基础的。文中描述了径向基函数SVM,与其它SVM相比,径向基函数SVM在基因分类中有更好的性能。SVM的理论基础是统计学习理论,它不仅结构简单,而且技术性能高,泛化能力强,在基因表达式分类中表现出有很多优点,成为热点研究方向。  相似文献   

17.
Identification of differentially expressed genes (DEGs) in time course studies is very useful for understanding gene function, and can help determine key genes during specific stages of plant development. A few existing methods focus on the detection of DEGs within a single biological group, enabling to study temporal changes in gene expression. To utilize a rapidly increasing amount of single-group time-series expression data, we propose a two-step method that integrates the temporal characteristics of time-series data to obtain a B-spline curve fit. Firstly, a flat gene filter based on the Ljung–Box test is used to filter out flat genes. Then, a B-spline model is used to identify DEGs. For use in biological experiments, these DEGs should be screened, to determine their biological importance. To identify high-confidence promising DEGs for specific biological processes, we propose a novel gene prioritization approach based on the partner evaluation principle. This novel gene prioritization approach utilizes existing co-expression information to rank DEGs that are likely to be involved in a specific biological process/condition. The proposed method is validated on the Arabidopsis thaliana seed germination dataset and on the rice anther development expression dataset.  相似文献   

18.
基因表达数据的聚类分析研究进展   总被引:4,自引:1,他引:3  
基因表达数据的爆炸性增长迫切需求自动、有效的数据分析工具. 目前聚类分析已成为分析基因表达数据获取生物学信息的有力工具. 为了更好地挖掘基因表达数据, 近年来提出了许多改进的传统聚类算法和新聚类算法. 本文首先简单介绍了基因表达数据的获取和表示, 之后系统地介绍了近年来应用在基因表达数据分析中的聚类算法. 根据聚类目标的不同将算法分为基于基因的聚类、基于样本的聚类和两路聚类, 并对每类算法介绍了其生物学的含义及其难点, 详细讨论了各种算法的基本原理及优缺点. 最后总结了当前的基因表达数据的聚类分析方法,并对发展趋势作了进一步的展望.  相似文献   

19.
考虑样本不平衡的模型无关的基因选择方法   总被引:9,自引:0,他引:9  
李建中  杨昆  高宏  骆吉洲  郭政 《软件学报》2006,17(7):1485-1493
在基因表达数据分析中,鉴别基因是后续研究中非常重要的信息基因.有很多研究致力于从基因表达数据中选出信息基因这一挑战性工作,并提出了一些基因选择方法.然而,这些方法(特别是非参数选择方法)都没有考虑不同样本类别中样本大小的不平衡性问题.考虑样本不平衡性和基因选择方法的稳定性,给出一个全新的与数据分布模型无关的基因选择方法.在类内变化小和类间差别大的策略下,选择敏感的度量函数提高方法的鉴别能力,同时,利用类内变化和类间差别的一致性来增加方法的稳定性和适用性.这一方法不但可以应用于两个类别的情况,也可以应用于多个类别的情况.最后,使用两组真实的基因表达数据对所提出的方法进行了验证.实验结果表明,这一方法比其他方法具有更高的有效性和稳健性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号