首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
RNA-Seq是目前转录组研究的一种重要技术,针对RNA-Seq数据分析中读段的多源映射,参考序列分布的不均匀性,一些转录本中外显子分布稀疏以及跨结合区读段处理问题,提出了一个新的转录组表达研究模型sLDASeqQ该模型根据基因中转录本注释信息对模型参数进行约束,对跨结合区的读段按长度分配处理,解决了读段非均匀分布和跨结合区问题;在模型中增加一个超参数,从而解决了外显子的稀疏问题。将该模型应用到3个真实的数据集上,并与其他主流方法进行比较,结果表明该模型获得了较为准确的基因以及转录本表达水平计算结果。  相似文献   

2.
近年来,基于单分子测序技术的ISO-seq数据以其超长读段长度被越来越多地应用于转录组新型异构体预测研究,但目前大多数研究工作只用到全长读段数据,丢失了非全长读段数据中较多有用信息,因而数据没有得到充分利用。针对这一问题,本文在保留非全长读段的基础上提出了两个能同时预测异构体结构和计算其表达比例的模型基于狄利克雷采样的异构体探测与预测(Dirichlet sampling for isoform detection and prediction, DSIDP)和基于马尔科夫链的异构体探测与预测(Markov chain for isoform detection and predition, MCIDP)。两个模型均从全长读段中建立异构体预测集,并采用全长读段和非全长读段计算异构体表达比例。DSIDP将所有读段比对至异构体预测集,并使用Dirichlet采样解决多源映射问题,MCIDP使用马尔科夫链模拟基因外显子之间的选择性剪切,该模型还能预测出数据中没有全长读段的异构体。本文采用模拟数据和真实数据验证了两个模型的有效性。  相似文献   

3.
武思文  李静  张少强 《计算机科学》2018,45(12):308-312
转录组拼接是基因组测序与功能注解问题的一个重要组成部分。为了提高转录组拼接的精度和效率,文中提出了一种新的转录组从头拼接算法StepLink。该算法的主要创新点是提出了最左k-mer(长度为k的短序)和右k-mer的概念,并运用双重哈希表来存储相邻的每对k-mer,使得拼接更加迅速、准确。应用该算法对SRA数据库中人、狗和老鼠的测序数据分别进行拼接,结果表明该算法比其他已有算法更高效。  相似文献   

4.
5.
张礼  马越  吴东洋 《智能系统学报》2021,16(6):1126-1135
当处理多条件多样本RNA-Seq测序数据时,现有方法忽略了读段分布样本之间存在高度相似性的特点。本文提出了一个基于多条件多样本RNA-Seq测序数据剪切异构体表达水平估计方法MCMS-Seq。该方法建立了一个联合偏差估计模型来提取读段分布在样本之间的相似性特征,同时考虑读段分布受全局偏差和局部偏差的影响。此外,增加了 ${{{L_2}} / {{L_1}}}$ 组稀疏约束和 ${L_1}$ 稀疏约束两个正则化项,用来体现基因和剪切异构体之间存在稀疏特性,以及消除技术性误差和数据噪声的影响。通过多个真实数据集的验证,MCMS-Seq方法能获得更为准确的剪切异构体表达水平,同时也能提供更有意义的生物性解释。  相似文献   

6.
随着下一代高通量DNA测序的快速发展,RNA-Seq测序已成为转录组学分析的标准技术。在处理多样本RNA-Seq数据时,现有表达水平估计方法通常基于单个样本逐个处理,忽略了基因读段分布在样本间高度相似的特点。因此,提出了一个基于多样本RNA-Seq数据的表达水平估计方法,称为MRSeq。其关键是通过建立偏差曲线估计模型获得基因读段分布在样本之间的共享特征,通过偏差权重将共享特征嵌入到模型中,用来修正读段数据,同时通过增加稀疏约束来表现基因和异构体表达水平之间的稀疏性。进而将该模型应用到多个真实数据集进行评测,与目前主流方法的比较结果表明:MRSeq不仅能得到准确的基因和异构体表达水平,同时也获得了更有意义的生物解释。  相似文献   

7.
盯紧市场动态,盯紧客户需求。分析营销状况是每个企业的生存所需。作为市场部主管收集统计数据,写市场状况分析报告就是家常便饭,这个工作看起来很简单但真要想做好,还是有很多需要解决的问题可以优化的环节。  相似文献   

8.
随着组学新测序技术的不断涌现和推广,产生了大量的组学数据,这些数据对人们深入研究和揭示生命奥秘有着极重要的意义。利用多组学数据整合技术分析生命科学问题可获得更丰富更全面的生命系统相关信息,已成为研究者探索生命机制的新方向。介绍了多组学数据整合分析的研究背景和研究意义,综述了近年来多组学数据整合分析的方法和相关领域的应用研究,探讨了多组学数据整合分析方法当前所存在的问题以及未来展望。  相似文献   

9.
【目的】作物组学研究是农业作物科学发展的未来研究趋势,在数据密集型科学研究背景下,作物组学数据存在数据量大、来源多、结构复杂的特点,对多源异构作物组学数据的融合有利于优质作物种质资源的挖掘,助力农业科技发展。【方法】运用文献调查和网络数据收集法,对当前作物组学数据的分布和数据组织结构进行了分析,得出了多组学数据资源的主要特征;以高粱为例通过语义分析和文献查询方法,优化设计得到新的高粱多组学数据标准元数据,并开发脚本实现了不同数据库元数据到标准元数据的映射和转换,基于元数据实现了对多源数据的融合;通过整合mapping、变异分析、DEG计算等多种生物信息学方法,实现了对异构组学数据的融合。【结果】形成了高粱多源异构组学数据融合方法,能够实现对NCBI、EMBL、PlantGDB、国家农业科学数据中心等数据库中基因组、转录组、代谢组、表型组数据的融合。【局限】需进行数据源、标准元数据的针对性开发,以满足在其它作物中推广的实际需求。【结论】本文基于元数据和生物信息学方法,开发得到了作物多源异构组学数据的融合方法,具有普适性,可在其它作物品种中推广应用。  相似文献   

10.
通过介绍改进的多代理系统在分析基因表达数据中的应用,揭示了运用普通分类器找出有效的分类基因,而且这些普通分类器在研究基因表达数据库时可被代理使用.这样就可得到一个具有大量基因特征的小子集,并且用它可以帮助辨认病人的临床状况和特征.实验表明代理通过改进和相互协作可改进其性能,并通过两个著名的基因表达问题来展示项目的研究成果,而且使得量度的准确性在维数增加时变得不很敏感.  相似文献   

11.
人类基因组计划的研究已进入后基因组时代,后基因组时代研究的焦点已经从测序转向功能研究,主要采用无监督和有监督技术来分析基因表达谱和识别基因功能,通过基因转录调控网络分析细胞内基因之间的相互作用关系的整体表示,说明生命功能在基因表达层面的展现,对目前基因表达谱数据分析技术及它们的发展,进行了综述性的研究,分析了它们的优缺点,提出了解决问题的思路和方法,为基因表达谱的进一步研究提供了新的途径。  相似文献   

12.
近年来,RNA-seq技术被广泛应用于差异表达基因和异构体的检测,但目前大多数方法都是识别单个异构体的差异表达,无法同时检测同一个基因中所包含异构体表达比例的差异,因此提出一个差异异构体比例检测方法。该方法基于先前设计的sLDASeq模型,运用该模型中隐含变量的概率分布,采用KL散度进行差异异构体比例的分析。首先使用最新的SEQC数据集评估sLDASeq模型表达水平的性能,结果表明该方法能准确地估计基因中异构体的比例。接着通过模拟数据集进行差异异构体比例的检测,与其他方法相比,实验结果表明该方法在差异异构体比例检测方面具有较高的准确性。  相似文献   

13.
马煜  陈莉  方鹤鹤 《微机发展》2006,16(2):117-119
微阵列技术是后基因时代功能基因组研究的主要工具。由于采用了高效的并行杂交技术,每次实验可以得到大量丰富的数据,因此其结果分析成为一项很有挑战性而且具有重要意义的工作。聚类分析是微阵列数据分析中使用最为广泛的一类方法。微阵列实验得到的大量数据通过聚类分析,可以得到很多有用的信息,其成功应用已广泛涉及到基因功能研究和生物医学研究中的各个领域。文中介绍了基因微阵列数据的聚类分析方法及其重要应用。  相似文献   

14.
选择性剪切与许多人类疾病有关,基因以及基因异构体水平的表达分析是揭示选择性剪切变化情况的常用研究方法,Affymetrix外显子芯片为测量基因以及基因异构体表达水平提供了一种重要方法.由于外显子芯片基于杂交技术进行设计,实验数据中存在大量噪声,并且选择性剪切导致一个探针往往对应多个剪切异构体,这些给剪切异构体表达水平的计算带来了挑战.为此在先前提出的基于伽玛分布的概率模型(Gamma model for exon array data,GME)基础上,提出了iGME模型,进行基因以及异构体表达水平的计算.该模型利用已知的基因剪切异构体与探针的对应关系,模拟了条件独立的探针特性.通过采用真实实验数据进行验证,并与传统方法进行比较,结果表明iGME模型获得了较高的计算精度和更快的计算速度.  相似文献   

15.
微阵列技术是后基因组时代功能基因组研究的主要工具。基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。针对聚类算法要求事先确定簇的个数、对噪声敏感和可伸缩性差的问题,基于密度聚类算法DBSCAN和共享近邻SharedNearestNeighbors(SNN)的不同的特点,提出了一种新的最近邻先吸收的聚类算法,将其应用于一个公开的酵母细胞同期数据集,并用评价方法FOM将聚类结果与K-means聚类方法的结果进行了比较。结果表明,该文的聚类算法优于其他聚类算法,聚类结果具有明显的生物学意义,并能对数据的类别数作出较好的预测和评估。  相似文献   

16.
基因表达数据的聚类分析研究进展   总被引:3,自引:1,他引:3  
基因表达数据的爆炸性增长迫切需求自动、有效的数据分析工具. 目前聚类分析已成为分析基因表达数据获取生物学信息的有力工具. 为了更好地挖掘基因表达数据, 近年来提出了许多改进的传统聚类算法和新聚类算法. 本文首先简单介绍了基因表达数据的获取和表示, 之后系统地介绍了近年来应用在基因表达数据分析中的聚类算法. 根据聚类目标的不同将算法分为基于基因的聚类、基于样本的聚类和两路聚类, 并对每类算法介绍了其生物学的含义及其难点, 详细讨论了各种算法的基本原理及优缺点. 最后总结了当前的基因表达数据的聚类分析方法,并对发展趋势作了进一步的展望.  相似文献   

17.
18.
基因表达数据聚类是发现基因功能和确立基因调控网络的重要方法,计算智能在该领域的应用为分析 大量基因数据提供了新途径.本文根据基因表达数据的特点,提出了基因表达数据聚类领域的关键问题,探讨了基 于计算智能的基因表达数据聚类基本框架,综述了计算智能在基因数据聚类领域的应用现状,最后指出了在基因数 据聚类领域计算智能方法未来的发展方向.  相似文献   

19.
基因表达数据聚类有效性分析的EFOM法   总被引:1,自引:0,他引:1  
论文讨论了用于评估基因表达数据聚类有效性的FOM方法,并结合基因表达数据聚类本身的特点,对已有的FOM方法进行了分析。提出了扩展的FOM方法——EFOM方法。通过分析人工数据和基因表达数据的EFOM值与调整Rand索引值的关系,充分说明了EFOM方法更加适合评估基因表达数据聚类结果的有效性。  相似文献   

20.
存在不完整的、不一致的和含噪声的数据是现实世界大型的数据库或数据仓库的共同特点.基因表达数据也存在这种情况。因此,在数据挖掘之前对基因表达数据进行预处理非常必要。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号