首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
阿尔茨海默症(Alzheimer’s disease,AD)基因表达谱数据具有高维性、高噪声、高冗余性等特点,使得AD特异性基因的搜索空间巨大,搜索算法时间长,降低了算法的挖掘性能及其生物学分析。因此对其基因表达谱数据进行去噪和降维预处理是十分必要的。文中首先利用小波包变换-SAM方法对数据进行降维去噪,实验结果证明了小波包方法能较好地提取基因表达谱有用信息;然后应用快速独立成分分析(FastICA)算法对预处理后的数据进行矩阵分解分析,并根据独立分量选取特异性基因。在此基础上的样本分类实验表明,FastICA提取的特异性基因具有较高的显著性,能够提高样本的分类结果。同时,通过所提取特异性基因的富集性分析,文中给出了这些基因在阿尔茨海默症数据集中聚类情况及其基因表达情况,为AD的生物学及医学病理分析提供有利的依据。  相似文献   

2.
近年来,随着肿瘤医院就诊人数的不断增多,特征基因提取已成为中内外学者研究的热门,研究成果也为临床癌症的分析诊断及预测提供了极大的便利。然而,由于基因表达谱数据具有维度高、样本少、复杂多样的特点,准确地挖掘基因数据中所蕴含的肿瘤信息基因成为当前的首要挑战。文章阐述了在Matlab2010b编程环境下开发的肿瘤基因数据选择系统,介绍了改进后信噪比与支持向量机回归特征消去(SVM-RFE)的基因选择方法相结合对于基因选择的优异性,对于筛选出对分类有益的特征基因具有良好的效果。  相似文献   

3.
一种肿瘤基因表达数据的知识提取方法   总被引:7,自引:2,他引:7       下载免费PDF全文
李颖新  刘全金  阮晓钢 《电子学报》2004,32(9):1479-1482
本文以多发性骨髓瘤的基因表达数据为例,利用数据挖掘技术,提出了一种针对基因表达数据进行知识发现的方法.该方法通过计算基因的信息增益,结合神经网络,找出了特征基因集合,最后利用决策树进行特征规则的提取,给出了基于多发性骨髓瘤数据样本的产生式规则,为生物医学研究提供了一种分析和研究基因表达数据的参考方法.实验结果表明了该方法的有效性.  相似文献   

4.
基于目前肿瘤基因表达谱数据在医学相关结合行业的广泛普及,运用特征选择算法对其处理成了如今大量学者们的重点研究方向.基于此,提出了一种FCBF-Lasso结合算法.首先,采用FCBF算法对各基因数据集进行特征选择,通过删除冗余的和不相关的特征,得到特征子集;然后,再利用Lasso方法对得到特征子集进行特征选择,进一步地删...  相似文献   

5.
基于MST的基因数据社团挖掘算法   总被引:1,自引:0,他引:1  
使用机器学习方法来分析生物信息学中一些复杂的基因表达数据是目前重要的研究领域之一.使用社团挖掘的方法对基因表达数据进行分类,社团内由类似的基因数据组成,研究和分析每个社团的结构和功能以及社团之间的关系,这对深刻认识诸多生物过程的本质有重要意义.将最小生成树的概念引入生物信息学中基因表达数据的社团挖掘分析中,设计了最小生成树来表示基因表达数据和基于此的社团挖掘算法,针对该算法提出一些目标函数,来判别基因表达数据社团挖掘算法的性能.最后,通过实验验证了该算法对于一些目标函数能够产生最优的社团划分,并且社团挖掘算法的性能良好.  相似文献   

6.
初妍  戚书豪  张薇  王瀚麟  李松 《电子学报》2023,(10):2866-2873
研究影响癌症性状的hub基因时存在如下问题:仅关注强相关性基因进行基因信息处理,缺少对弱相关性基因和不同基因模块间共表达性的研究;仅采用度中心性判断hub基因进行分析基因网络,对蕴含数据挖掘不够全面.本文提出基因模块标签信息游走的图嵌入算法Gene2vec.选取合适软阈值,保留更多弱相关性的基因信息.联合不同种类但与性状高度正相关性的基因模块,构成基因模块共表达网络.针对传统加权基因共表达网络分析方法与图嵌入方法挖掘基因模块网络信息存在的问题,利用标签参数与其他参数调节基因模块网络中的随机游走过程,分析游走生成的节点序列以挖掘基因网络的信息.实验表明,Gene2vec在hub基因的检出率上优于其他算法,得到的hub基因在癌症性状中的基因表达量高于常用生物学方法得到的hub基因.  相似文献   

7.
人类基因组计划的顺利完成标志着生命科学的研究进入了后基因组时代。近期的研究重点转向了从大规模生物数据中发掘蕴含的结构和功能信息。海量的数据成为了不可逾越的鸿沟。然而基因表达系列分析(SAGE)微阵列和基因芯片等技术的运用使得大数据基因在某个生命过程中的表达情况有规律可循。本文基于数据挖掘的方法研究从海量基因表达数据中筛选出对了解生命过程有指导意义信息的克星方法。结合计算机软件,应用改进模糊聚类方法对基因芯片进行基因表达分析。采取T检验分类,再聚类最后应用挖掘技术分析。旨在研究探索出一套精准可行的分析方案。从而为确定癌症致病机理和开发抑癌药物提供可靠的基因组学支持,为人类最终攻克癌症提供有力武器。  相似文献   

8.
基因表达数据通常具有维数高、样本少、类别分布不均等特点,如何提取基因表达数据的有效特征是基因分类研究的关键问题。该文借助相关分析理论,构建鉴别敏感的视角内相似度顺序保持散布并且约束鉴别敏感的视角间相似度相关,从而形成了一种新的基因特征提取方法,即相似度顺序保持跨视角相关分析(SOPACA)。该文方法在保持不同视角间特征类内聚集性和相似度顺序的同时具有较大的类间离散性。在癌症基因表达数据集上的良好实验结果显示了该文方法的有效性。  相似文献   

9.
马春霞 《电子技术》2014,(6):20-21,19
稀疏方法有一个重要的优点就是能减少基因表达数据的复杂度,故它具有很好的可解释性。在这篇文章中,我们利用稀疏控制的非负矩阵分解(NMFSC)来提取特征基因,因为稀疏控制的非负矩阵比其他稀疏方法更具有可解释性。在实验部分,将NMFSC应用在植物基因表达数据集上,并将其与传统的稀疏方法(SPCA)进行对比。实验证明我们的方法要比其他方法能提出更多的基因。  相似文献   

10.
基因表达调控与选择性剪接机制研究   总被引:5,自引:2,他引:3       下载免费PDF全文
闻芳  李衍达 《电子学报》2001,29(Z1):1735-1739
随着人类基因组计划(HGP)的完成,生物信息学的研究进入了后基因组时代,用计算方法对基因表达调控和基因功能进行研究成为生物信息学研究的核心内容.由于在真核基因表达调控中的特殊地位,选择性剪接成为研究真核基因表达调控的重要内容之一.本文从收集选择性剪接基因的数据出发,尽可能的收集已知的选择性剪接的基因和它们的各种转录产物,并进行了适当的筛选以保证数据的质量和统计分析的可靠性.对挑选出的371个人类基因,提取各种转录产物的编码区(coding regions,或简称cds),应用一种新的针对选择性剪接的多序列比对程序ASALIGN进行多序列比对来揭示不同cds间的剪接关系,提出其中的可变区域与不可变区域,并对可变区域与不可变区域的长度分布,可变区域在cds中出现的位置,由于选择性剪接引起的同一段序列读码框相位的变化以及可变区域与不可变区域及二者边界上的密码子使用频率进行了统计分析,得到了一些很有意思的结果.这些统计结果对于选择性剪接机制的进一步研究以及选择性剪接基因的预测提供了良好的线索.  相似文献   

11.
目的:基于基因表达的时空特性,寻求一种新的描述基因表达调控网络的方法.方法:用信息熵确定属性权重,对各时间点进行加权聚类:根据信息熵相关系数,得到信息熵相关系数,用于基因之间的调控关系的描述.结果:得到各基因之间的调控矩阵,并用图像可视化.结论:用信息熵确定属性权重,对各时间点进行加权聚类,这种方法根据客观数据计算权重,消除了人为主观因素的影响.  相似文献   

12.
cDNA生物芯片表达数据广泛用于生物医学研究,利用计算机对其进行处理还有很多挑战性课题。该文提出了一种新的基于不变基因的多类生物芯片监督型集合cDNA表达数据标准化方法。在达到标准化的同时,该方法也可直接用于基因表达数据的特征选择,实验证明效果较好。  相似文献   

13.
魏莎莎  陆慧娟  金伟  李超 《电信科学》2013,29(10):38-42
随着大规模基因芯片的应用,针对高维度的基因表达数据存在大量无关和冗余特征可能降低分类器性能的问题,提出了一种基于云平台的互信息最大化特征提取(CMI-Selection)方法。Hadoop云计算平台对基因表达数据划分后进行并行计算,同时结合互信息最大化方法对特征进行提取,实现了云计算平台上的特征过滤模型。实验结果表明,基于云平台的互信息最大化特征提取方法能够在保证较高分类精度的情况下,快速提取特征,节省大量时间资源,是一种高效的基因特征提取系统。  相似文献   

14.
对于视频信息当中所包含的内容,通过视频的语义分析,能够对其进行逻辑表示和描述,其中与很多信息处理领域都存在着很大的关联。文章认为,在数据存储、数据运算等方面,大数据技术具有较为明显的优势,而在数据描述、数据特征分类等方面,粒计算理论则具有更为良好的效果。因此,在视频语义分析系统当中,对粒计算理论和大数据技术进行应用,能够取得十分良好的效果,同时也拥有非常广阔的发展和应用前景。  相似文献   

15.
李辉  王金莲 《电子学报》2008,36(5):989-992
 本文从肿瘤基因表达谱分析入手,研究并选取胃癌相关标志基因集合,以此集合为基础抽取甄别肿瘤与正常组织的基因分类规则集,进而建立起肿瘤预测模型.首先,以支持向量机为分类器用特征基因集合的样本识别率为适应度函数,采用遗传算法对特征基因进行筛选.然后用决策树抽取特征基因的规则集,结合肿瘤分子生物学文献和生物实验建立肿瘤预测模型.最后通过对胃癌基因表达谱数据的分析,建立了胃癌预测模型,结果表明该模型对胃癌分子生物学实验和临床诊断具有一定的指导意义和参考价值.  相似文献   

16.
最近涌现出大量基因调控网络重构的模型和方法,但是都没有涉及到基因数据尺寸大小对算法精度的影响问题。文中研究了基因数据尺寸大小对信息论方法构建基因调控网络精度的影响,实验表明基因调控网络构建的精度会在一定数据尺寸规模下达到一个稳态。为了克服互信息的一些缺点,引入文中多时延互信息值来计算两个基因之间的调控关系,所构建的基因调控网络取得了很好的查全率和查准率。并应用它对两个真实的生物分子网络进行重构,结果表明基于多时延的策略下,所构建的基因调控网络取得了很高的特异度和精确度。  相似文献   

17.
研究表明,基因大都不是独立存在的。一个基因表达,会促进或抑制另一个基因的表达;当因为一个基因的表达而改变了细胞的生化环境后,又会影响一系列基因的表达。同时,基因的表达还存在许许多多的反馈。为了研究基因之间的相互关系,科学家建立了基因调控网络。网络的建立有很多方法,如向图法、布尔网络法、贝叶斯网络法和微分方程法。但由于基因网络是个复杂的非线性网络,数学描述方法将会非常复杂,而且满足同一功能的基因系统可能存在不同的网络结构。随着信息技术的发展,香农在20世纪提出了信息论,利用互信息量来描述数据与数据之间的联系,为研究大量数据提供了新的理论。文章从信息论出发,利用互信息建立基因之间的联系。  相似文献   

18.
云计算设备中的大数据分类挖掘是现实模式识别和智能控制的基础,传统方法中对云计算设备中的大数据挖掘采用拓扑结构网格分区挖掘算法,不能有效提取大数据的细节特征,分类的准确性不好。提出一种基于分数阶Fourier变换特征匹配和K-L分类的云计算设备中的大数据特征高效分类挖掘算法。进行云计算设备中大数据存储机制体系分析,采用分数阶Fourier变换进行云计算设备中大数据特征提取和大数据特征匹配,基于K-L变换,选择最优的路径进行分类空间导引,构建了K-L大数据特征分类器,进行云计算设备中的大数据特征分类挖掘。仿真结果表明,采用该算法进行云计算设备中的大数据特征分类挖掘,特征分类挖掘的准确度较高,能量开销较少,效率较高。  相似文献   

19.
利用基因表达谱对肿瘤进行分子水平的检测和预测已经成为生物信息学的一个研究热点.如何从超高维基因序列中剔除噪声基因是该类问题的关键之一.本文提出一种基于欧氏中心距和标准差(SDEC)的可分性准则来衡量基因的相似性对噪声基因进行滤波和有效基因的选择,并结合K-L变换进行二次特征提取,进而利用机器支持向量机(SVM)进行分类检测.利用文中的方法对白血病基因表达谱进行测试,实验结果表明,利用从7129个基因中选出的105个基因进行分类可获得者100%的分类精度.  相似文献   

20.
葛菲  马尽文 《信号处理》2005,21(3):312-315
大规模基因表达谱为肿瘤诊断提供了更为可靠和细致的生物数据,但相关基因的选取是对这些数据进行分析的关键。本文从Kullback-Leiber判别信息的角度对于肿瘤相关基因的选取进行了研究。根据肿瘤相关基因和无关基因的表达水平值分布的特性,我们提出了一种基于信息准则的基因选取方法。进一步,我们将这种方法应用到肿瘤诊断上,并根据支持向量机(SVM)对相关基因表达谱数据进行训练建立肿瘤诊断模型。实验结果表明这种方法是有效的,依此所建立的诊断模型可使得在结肠癌数据集和白血病数据集上的诊断(预测)正确率分别高达94.4%和100%石。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号