首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
为解决基因测序数据量大、数据分析时间长,搭建FPGA、GPU计算平台成本高昂且计算软件兼容不足的问题,运用分布式计算思想设计高通量测序数据分析架构Sequence Grid(SeqGrid)。该架构安装centos开源操作系统,利用网格引擎Sun Grid Engine(SGE)、普通CPU、机械硬盘和SSD硬盘,通过并发调度生物信息软件bwa、GATK等实现数据分析。结果表明:单人全外显子组30 GB数据分析时间从15 h缩短至1 h,计算速度达到串行流程的15倍,有效提高了数据分析效率。  相似文献   

2.
RNA-Seq是目前转录组研究的一种重要技术,针对RNA-Seq数据分析中读段的多源映射,参考序列分布的不均匀性,一些转录本中外显子分布稀疏以及跨结合区读段处理问题,提出了一个新的转录组表达研究模型sLDASeqQ该模型根据基因中转录本注释信息对模型参数进行约束,对跨结合区的读段按长度分配处理,解决了读段非均匀分布和跨结合区问题;在模型中增加一个超参数,从而解决了外显子的稀疏问题。将该模型应用到3个真实的数据集上,并与其他主流方法进行比较,结果表明该模型获得了较为准确的基因以及转录本表达水平计算结果。  相似文献   

3.
针对基因组新测序物种缺乏高质量的基因结构用于从头预测软件训练的现状,本文提出了一种以新测序物种自身RNA-seq组装为基础的可靠基因训练集构建方法(Building reliable training gene set,BRTGS)。该方法利用RNA-seq组装获得大量初始基因结构,然后根据蛋白同源证据筛选具有正确且编码区相对完整的基因结构,最后综合利用RNA-seq组装结构和蛋白同源证据统计信息确定的基因起始密码子和终止密码子位置,从而获得基因完整的编码结构。实验结果表明,该方法不仅可为各种组装水平的基因组构建高质量的基因训练集,而且从头预测软件在这些基因集上训练后能够获得很好的预测性能。  相似文献   

4.
武思文  李静  张少强 《计算机科学》2018,45(12):308-312
转录组拼接是基因组测序与功能注解问题的一个重要组成部分。为了提高转录组拼接的精度和效率,文中提出了一种新的转录组从头拼接算法StepLink。该算法的主要创新点是提出了最左k-mer(长度为k的短序)和右k-mer的概念,并运用双重哈希表来存储相邻的每对k-mer,使得拼接更加迅速、准确。应用该算法对SRA数据库中人、狗和老鼠的测序数据分别进行拼接,结果表明该算法比其他已有算法更高效。  相似文献   

5.
随着新一代基因测序技术的不断发展,越来越多的物种通过全基因组鸟枪法拼接算法获得全序列。针对新一代DNA测序数据存在reads长度短,高覆盖度且存在错误数据等特点,研发满足实际应用的拼接软件,是序列拼接领域迫切的研究课题。本文探讨了全基因组序列拼接面临的挑战,研究了主流的几类拼接算法的拼接原理、操作流程,分析各种算法的优缺点和适用范围,其中包括:基于贪心图算法、基于OLC图算法,基于DeBruijn图算法等,并根据不同的标准列举了几类拼接算法之间的差异性,最后对基因拼接算法在未来的研究给出了建议。  相似文献   

6.
基于RNA-Seq的转录组测序数据特征维度较高,使用传统生信方法寻找表型相关基因需要大量计算资源,且差异分析所得候选基因范围较大,进一步筛选依赖已有的先验知识.针对这一问题,本文提出了融合遗传算法和XGBoost的转录组分析方法—GA-XGBoost,通过融入机器学习算法缩小了后续分析的候选基因范围.在一组高质量玉米数...  相似文献   

7.
伴随生物测序技术的不断发展,大量基因组片段的后续处理问题亟待解决.基因组片段填充是有效解决方法之一,受到广泛关注.基于普通序列的单面基因组片段填充问题是将缺失的基因序列填充到一个不完整基因组片段B中,得到B′,与完整的参考基因组A对比,使得A和B′之间的邻接数最大化.基于片段重叠群的该问题区别在于基因组片段通常由一组连续的片段重叠群(contig)构成,缺失基因只能在contig两端进行插入.针对这两个领域的相关问题进行深入研究,对已有算法及算法复杂性进行详细的分析与比较,为未来基因组片段填充问题的研究及生物测序技术的发展提供有价值的参考.  相似文献   

8.
新一代测序技术的发展给DNA及RNA序列的分析带来了机遇和挑战,新一代测序技术产生的数据不同于传统测序技术产生的数据,高通量、低成本、信息量巨大的特点使得RNA序列的分析进入了一个全新的时代,以往的外显子芯片无法得到全基因组的完整信息,也无法观测到基因融合的问题,新一代测序技术使得对RNA序列的分析有了更深入的了解.文中简单介绍了DNA序列方法,以及当前主要的RNA序列比对工具的基本原理,分析了各种方法的优缺点.  相似文献   

9.
随着高通量生物实验技术的快速发展,特别是基因芯片和新一代测序技术的发展,全基因组范围内的基因表达数据呈爆炸式增长。利用网络生物学的方法对高通量基因表达数据进行分析和挖掘已经成为生物信息学重要的研究方向。对基因共表达网络的研究与分析从系统层面上加深了研究人员对生物系统的认识。本文综述了基因共表达网络的构建和分析的常用方法,主要包括基因相似性度量方法、阈值选择方法、拓扑分析方法、基因模块识别及其功能注释方法,并对一些常用的分析工具进行了分析总结。  相似文献   

10.
张勇  徐云 《计算机系统应用》2016,25(12):138-142
高通量转录组测序技术已经发展成为分析不同细胞中选择性剪接事件的最有效方法,其测序数据处理的第一步是将数以百万的测序片段准确地比对到参考序列上,称之为转录组序列比对.现有的比对工具基本上都是依赖于经典的剪接位点信号,一定程度上限制了转录组测序技术发现全新剪接位点的能力.为此,我们设计了一种不依赖于剪接位点信号的转录组序列比对方法RNAMap,该方法按照重叠种子方式划分测序片段,使用带有左右锚点的窗口扫描参考序列,找出种子中含有的剪接位点.计算实验表明,RNAMap精确度高达95%,召回率也明显优于其他算法.  相似文献   

11.
序列分析是高性能计算应用的一个重要方向。随着高通量测序技术的发展,基因数据呈现爆炸性增长,对高性能计算的需求也更加迫切。介绍了高性能计算在序列分析中的应用和序列分析算法的并行实现,包括序列比对、检索、重测序、拼接等。  相似文献   

12.
导向定位测序(GPS)是一种全基因组DNA甲基化检测的新测序技术,产生的测序数据具有成本低、没有序列偏好等优势.目前,甲基化分析中最重要的一步是将其测序产生的序列比对到参考基因组上.但是,现有导向定位测序的方法使用Smith-Waterman进行局部序列比对,时间消耗过大且容易对序列比对位置产生误判.因此,提出一种导向定位测序数据的改进比对算法,该算法利用其双端测序的优势,先用甲基化序列端数据进行序列比对,对多位置匹配的序列再利用常规数据端数据进行比对位置确定.实验结果表明:本文方法和现有方法的准确率相当,而具有更高的唯一比对比率,时间性能有3倍以上的提升.  相似文献   

13.
As the cost of genome sequencing continues to drop, comparison of large sequences becomes tantamount to our understanding of evolution and gene function. Rapid genome alignment stands to play a fundamental role in furthering biological understanding. In 2002, a fast algorithm based on statistical estimation called super pairwise alignment (SPA) was developed by Shen et al. The method was proved to be much faster than traditional dynamic programming algorithms, while it suffered small drop in accuracy. In this paper, we propose a new method based on SPA that target analysis of large-scale genomes. The new method, named super genome alignment (SGA), applies Yang-Keiffer coding theory to alignment and results in a grammar-based algorithm. SGA has the same computational complexity as its predecessor SPA, and it can process large-scale genomes. SGA is tested by using numerous pairs of microbial and eukaryotic genomes, which serve as the benchmark to compare it with the competing BLASTZ method. When compared with BLASTZ, the result shows that SGA is significantly faster by at least an order of magnitude (for some genome pairs the differences is as large at two orders of magnitude), and suffers on average only about 1% loss of the similarity of alignment.  相似文献   

14.
在人类基因组上存在着涉及到不同序列长度的结构变异,这些结构变异对癌症的发生和发展产生了显著的影响。随着新一代测序技术的发展以及测序成本的降低使得在全基因组水平研究结构变异变得可能,基于聚类算法对千人基因组三个不同地区的样本以及CGHub数据库中结直肠癌样本进行了结构变异识别,并基于间断点处的序列同源性对结构变异的形成机制进行了分析;利用方差分析及非参数检验分析了结构变异和癌症的关系以及结构变异与地域之间的关系。最后,探讨了该领域未来的发展趋势。  相似文献   

15.
In the past few decades,the dangers of mycosis have caused widespread concern.With the development of the sequencing technology,the effective analysis of fungal sequencing data has become a hotspot.With the gradual increase of fungal sequencing data,there is now a lack of sufficient approaches for the identification and functional annotation of fungal chromosomal genomes.To overcome this challenge,this paper firstly deals with the approaches of the identification and annotation of fungal genomes based on short and long reads sequenced by using multiple platforms such as Illumina and Pacbio.Then this paper develops an automated bioinformatics pipeline called PFGI for the identification and annotation task.The experimental evaluation on a real-world dataset ENA (European Nucleotide Archive) shows that PFGI provides a user-friendly way to perform fungal identification and annotation based on the sequencing data analysis,and could provide accurate analyzing results,accurate to the species level (97% sequence identity).  相似文献   

16.
一种衡量基因语义相似度的新方法*   总被引:1,自引:1,他引:0  
利用GO (Gene Ontoloty) 来衡量基因之间的相似度是近年来研究的热点。传统的方法在准确性上有一定的弊端,本文提出了一种新的方法来衡量基因之间的语义相似度。该方法的主要原则是同时依赖于GO拓扑结构图中基因注释项之间的路径长度和基因注释项的公共祖先节点在GO拓扑结构图中的深度。本文用人工数据和取自酵母基因数据库的基因数据进行了实验,结果表明本文的方法比传统方法更有效。  相似文献   

17.
基因和异构体差异表达分析是获取基因和异构体功能的重要途径,现已成为生物信息学的一个重要领域。RNA-seq是一种高通量测序技术,近年来广泛用于转录组研究。RNA-seq 数据的读段多源映射现象给差异异构体检测带来挑战。针对该问题,本文采用先计算基因和异构体的表达水平,再进行差异分析的方法,以计算表达水平的PGseq模型为基础,采用贝叶斯因子方法进行模型选择,提出一个新的差异检测方法PG_bayes,解决了基因和异构体两方面的差异检测问题。将PG_bayes应用于人类和小鼠共4个真实数据集中,并与目前流行的 差异检测方法进行对比。实验结果表明,PG_bayes方法在差异基因和差异异构体检测中具有较高的准确度和灵敏度,并且在差异异构体检测方面表现出优势。  相似文献   

18.
Genes in an organism's DNA (genome) have embedded in them information about proteins, which are the molecules that do most of a cell's work. A typical bacterial genome contains on the order of 5,000 genes. Mammalian genomes can contain tens of thousands of genes. For each genome sequenced, the challenge is to identify protein components (proteome) being actively used for a given set of conditions. Fundamentally, sequence alignment is a sequence matching problem focused on unlocking protein information embedded in the genetic code, making it possible to assemble a "tree of life” by comparing new sequences against all sequences from known organisms. But, the memory footprint of sequence data is growing more rapidly than per-node core memory. Despite years of research and development, high-performance sequence alignment applications either do not scale well, cannot accommodate very large databases in core, or require special hardware. We have developed a high-performance sequence alignment application, ScalaBLAST, which accommodates very large databases and which scales linearly to as many as thousands of processors on both distributed memory and shared memory architectures, representing a substantial improvement over the current state-of-the-art in high-performance sequence alignment with scaling and portability. ScalaBLAST relies on a collection of techniques—distributing the target database over available memory, multilevel parallelism to exploit concurrency, parallel I/O, and latency hiding through data prefetching—to achieve high-performance and scalability. This demonstrated approach of database sharing combined with effective task scheduling should have broad ranging applications to other informatics-driven sciences.  相似文献   

19.
刘海  吴振强  彭长根  雷秀娟 《软件学报》2019,30(4):1094-1105
人类基因测序技术的快速发展,测序成本大幅降低,使基因数据得到广泛的应用,在全基因组的单核苷酸多态性与疾病关联研究中,单核苷酸多态性与患者的身份、表型和血缘关系等敏感信息相关联,单核苷酸多态性连锁不平衡容易导致患者的隐私信息泄露.为此,基于单核苷酸多态性连锁不平衡相关系数,提出矩阵差分隐私保护模型以实现基因数据和单核苷酸多态性连锁不平衡的隐私保护,同时确保基因数据具有一定的效用.该模型可以实现单核苷酸多态性连锁不平衡下全基因组关联研究中基因数据隐私与效用的权衡,并对单核苷酸多态性连锁不平衡下的基因隐私保护具有促进作用.  相似文献   

20.
A graphical tool to facilitate rapid primary annotation of genomic sequence has been developed. Within a single interface the user can import sequences or database entries, run feature prediction programs and similarity searches, filter results, add additional manually found features and notes, and finally export annotations for database submission. Integrated rule-based feature corroboration and a novel decision support heuristic using ORF orientation, length and base-composition further enhances the efficiency of the annotation process without compromising flexibility. The program has been explicitly tailored to use in protozoan parasite genome projects, but can constitute a useful tool for prokaryote annotation as well. It is successfully being used by our lab in the Trypanosoma cruzi genome project, and can be obtained from the authors upon request.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号