共查询到20条相似文献,搜索用时 15 毫秒
1.
阿尔茨海默症(Alzheimer’s disease,AD)基因表达谱数据具有高维性、高噪声、高冗余性等特点,使得AD特异性基因的搜索空间巨大,搜索算法时间长,降低了算法的挖掘性能及其生物学分析。因此对其基因表达谱数据进行去噪和降维预处理是十分必要的。文中首先利用小波包变换-SAM方法对数据进行降维去噪,实验结果证明了小波包方法能较好地提取基因表达谱有用信息;然后应用快速独立成分分析(FastICA)算法对预处理后的数据进行矩阵分解分析,并根据独立分量选取特异性基因。在此基础上的样本分类实验表明,FastICA提取的特异性基因具有较高的显著性,能够提高样本的分类结果。同时,通过所提取特异性基因的富集性分析,文中给出了这些基因在阿尔茨海默症数据集中聚类情况及其基因表达情况,为AD的生物学及医学病理分析提供有利的依据。 相似文献
2.
3.
4.
基于目前肿瘤基因表达谱数据在医学相关结合行业的广泛普及,运用特征选择算法对其处理成了如今大量学者们的重点研究方向.基于此,提出了一种FCBF-Lasso结合算法.首先,采用FCBF算法对各基因数据集进行特征选择,通过删除冗余的和不相关的特征,得到特征子集;然后,再利用Lasso方法对得到特征子集进行特征选择,进一步地删... 相似文献
5.
基于MST的基因数据社团挖掘算法 总被引:1,自引:0,他引:1
使用机器学习方法来分析生物信息学中一些复杂的基因表达数据是目前重要的研究领域之一.使用社团挖掘的方法对基因表达数据进行分类,社团内由类似的基因数据组成,研究和分析每个社团的结构和功能以及社团之间的关系,这对深刻认识诸多生物过程的本质有重要意义.将最小生成树的概念引入生物信息学中基因表达数据的社团挖掘分析中,设计了最小生成树来表示基因表达数据和基于此的社团挖掘算法,针对该算法提出一些目标函数,来判别基因表达数据社团挖掘算法的性能.最后,通过实验验证了该算法对于一些目标函数能够产生最优的社团划分,并且社团挖掘算法的性能良好. 相似文献
6.
研究影响癌症性状的hub基因时存在如下问题:仅关注强相关性基因进行基因信息处理,缺少对弱相关性基因和不同基因模块间共表达性的研究;仅采用度中心性判断hub基因进行分析基因网络,对蕴含数据挖掘不够全面.本文提出基因模块标签信息游走的图嵌入算法Gene2vec.选取合适软阈值,保留更多弱相关性的基因信息.联合不同种类但与性状高度正相关性的基因模块,构成基因模块共表达网络.针对传统加权基因共表达网络分析方法与图嵌入方法挖掘基因模块网络信息存在的问题,利用标签参数与其他参数调节基因模块网络中的随机游走过程,分析游走生成的节点序列以挖掘基因网络的信息.实验表明,Gene2vec在hub基因的检出率上优于其他算法,得到的hub基因在癌症性状中的基因表达量高于常用生物学方法得到的hub基因. 相似文献
7.
《科技展望》2015,(17)
人类基因组计划的顺利完成标志着生命科学的研究进入了后基因组时代。近期的研究重点转向了从大规模生物数据中发掘蕴含的结构和功能信息。海量的数据成为了不可逾越的鸿沟。然而基因表达系列分析(SAGE)微阵列和基因芯片等技术的运用使得大数据基因在某个生命过程中的表达情况有规律可循。本文基于数据挖掘的方法研究从海量基因表达数据中筛选出对了解生命过程有指导意义信息的克星方法。结合计算机软件,应用改进模糊聚类方法对基因芯片进行基因表达分析。采取T检验分类,再聚类最后应用挖掘技术分析。旨在研究探索出一套精准可行的分析方案。从而为确定癌症致病机理和开发抑癌药物提供可靠的基因组学支持,为人类最终攻克癌症提供有力武器。 相似文献
8.
9.
稀疏方法有一个重要的优点就是能减少基因表达数据的复杂度,故它具有很好的可解释性。在这篇文章中,我们利用稀疏控制的非负矩阵分解(NMFSC)来提取特征基因,因为稀疏控制的非负矩阵比其他稀疏方法更具有可解释性。在实验部分,将NMFSC应用在植物基因表达数据集上,并将其与传统的稀疏方法(SPCA)进行对比。实验证明我们的方法要比其他方法能提出更多的基因。 相似文献
10.
随着人类基因组计划(HGP)的完成,生物信息学的研究进入了后基因组时代,用计算方法对基因表达调控和基因功能进行研究成为生物信息学研究的核心内容.由于在真核基因表达调控中的特殊地位,选择性剪接成为研究真核基因表达调控的重要内容之一.本文从收集选择性剪接基因的数据出发,尽可能的收集已知的选择性剪接的基因和它们的各种转录产物,并进行了适当的筛选以保证数据的质量和统计分析的可靠性.对挑选出的371个人类基因,提取各种转录产物的编码区(coding regions,或简称cds),应用一种新的针对选择性剪接的多序列比对程序ASALIGN进行多序列比对来揭示不同cds间的剪接关系,提出其中的可变区域与不可变区域,并对可变区域与不可变区域的长度分布,可变区域在cds中出现的位置,由于选择性剪接引起的同一段序列读码框相位的变化以及可变区域与不可变区域及二者边界上的密码子使用频率进行了统计分析,得到了一些很有意思的结果.这些统计结果对于选择性剪接机制的进一步研究以及选择性剪接基因的预测提供了良好的线索. 相似文献
11.
12.
cDNA生物芯片表达数据广泛用于生物医学研究,利用计算机对其进行处理还有很多挑战性课题。该文提出了一种新的基于不变基因的多类生物芯片监督型集合cDNA表达数据标准化方法。在达到标准化的同时,该方法也可直接用于基因表达数据的特征选择,实验证明效果较好。 相似文献
13.
14.
15.
16.
最近涌现出大量基因调控网络重构的模型和方法,但是都没有涉及到基因数据尺寸大小对算法精度的影响问题。文中研究了基因数据尺寸大小对信息论方法构建基因调控网络精度的影响,实验表明基因调控网络构建的精度会在一定数据尺寸规模下达到一个稳态。为了克服互信息的一些缺点,引入文中多时延互信息值来计算两个基因之间的调控关系,所构建的基因调控网络取得了很好的查全率和查准率。并应用它对两个真实的生物分子网络进行重构,结果表明基于多时延的策略下,所构建的基因调控网络取得了很高的特异度和精确度。 相似文献
17.
研究表明,基因大都不是独立存在的。一个基因表达,会促进或抑制另一个基因的表达;当因为一个基因的表达而改变了细胞的生化环境后,又会影响一系列基因的表达。同时,基因的表达还存在许许多多的反馈。为了研究基因之间的相互关系,科学家建立了基因调控网络。网络的建立有很多方法,如向图法、布尔网络法、贝叶斯网络法和微分方程法。但由于基因网络是个复杂的非线性网络,数学描述方法将会非常复杂,而且满足同一功能的基因系统可能存在不同的网络结构。随着信息技术的发展,香农在20世纪提出了信息论,利用互信息量来描述数据与数据之间的联系,为研究大量数据提供了新的理论。文章从信息论出发,利用互信息建立基因之间的联系。 相似文献
18.
《现代电子技术》2015,(22)
云计算设备中的大数据分类挖掘是现实模式识别和智能控制的基础,传统方法中对云计算设备中的大数据挖掘采用拓扑结构网格分区挖掘算法,不能有效提取大数据的细节特征,分类的准确性不好。提出一种基于分数阶Fourier变换特征匹配和K-L分类的云计算设备中的大数据特征高效分类挖掘算法。进行云计算设备中大数据存储机制体系分析,采用分数阶Fourier变换进行云计算设备中大数据特征提取和大数据特征匹配,基于K-L变换,选择最优的路径进行分类空间导引,构建了K-L大数据特征分类器,进行云计算设备中的大数据特征分类挖掘。仿真结果表明,采用该算法进行云计算设备中的大数据特征分类挖掘,特征分类挖掘的准确度较高,能量开销较少,效率较高。 相似文献
19.
20.
大规模基因表达谱为肿瘤诊断提供了更为可靠和细致的生物数据,但相关基因的选取是对这些数据进行分析的关键。本文从Kullback-Leiber判别信息的角度对于肿瘤相关基因的选取进行了研究。根据肿瘤相关基因和无关基因的表达水平值分布的特性,我们提出了一种基于信息准则的基因选取方法。进一步,我们将这种方法应用到肿瘤诊断上,并根据支持向量机(SVM)对相关基因表达谱数据进行训练建立肿瘤诊断模型。实验结果表明这种方法是有效的,依此所建立的诊断模型可使得在结肠癌数据集和白血病数据集上的诊断(预测)正确率分别高达94.4%和100%石。 相似文献