首页 | 本学科首页   官方微博 | 高级检索  
 共查询到19条相似文献,搜索用时 78 毫秒
谢民主  陈建二  王建新 《软件学报》2007,18(9):2070-2082
个体单体型MSR(minimum SNP removal)问题是指如何利用个体的基因测序片断数据去掉最少的SNP(single-nucleotide polymorphisms)位点,以确定该个体单体型的计算问题.对此问题,Bafna等人提出了时间复杂度为O(2kn2m)的算法,其中,m为DNA片断总数,n为SNP位点总数,k为片断中洞(片断中的空值位点)的个数.由于一个Mate-Pair片段中洞的个数可以达到100,因此,在片段数据中有Mate-Pair的情况下,Bafna的算法通常是不可行的.根据片段数据的特点提出了一个时间复杂度为O((n-1)(k1-1)k222h+(k1+1)2h+nk2+mk1)的新算法,其中,k1为一个片断覆盖的最大SNP位点数(不大于n),k2为覆盖同一SNP位点的片段的最大数(通常不大于19),h为覆盖同一SNP位点且在该位点取空值的片断的最大数(不大于k2).该算法的时间复杂度与片断中洞的个数的最大值k没有直接的关系,在有Mate-Pair片断数据的情况下仍然能够有效地进行计算,具有良好的可扩展性和较高的实用价值.  相似文献   

在最少错误更正模型的基础上,提出一种重建单体型的启发式算法 H-MEC。按照单体型的单核苷酸多态性(SNP)位点顺序依次构建算法步骤,根据某SNP位点取值将覆盖该SNP位点的片段划分为2个集合,利用包含片段数较多集合中的片段进行重建。使用HapMap计划发布的CEPH样本中的60个个体,在1号染色体的单体型上进行实验。结果表明,H-MEC算法在各种参数设置下,能获得较Fast Hare算法和DGS算法更高的单体型重建率。此外,该算法在重建长单体型时也具有较高的执行效率。  相似文献   

近年来,单体型检测问题已经得到了广泛的研究,成为计算生物学最热门的领域之一.本文对个体单体型重建问题进行研究,提出一种基于带权最少字符修改模型重建单体型的启发式算法HAW.HAW算法首先生成一对初始单体型,然后通过对初始单体型的不断扩充完成重建.实验结果表明HAW算法能有效求解模型,得到较以往算法更高的重建率,且算法运行速度较快,具有很高的实用价值.  相似文献   

单体型组装问题就是根据个体基因组测序获得的DNA序列数据重构出该个体的一对单体型。目前单体型组装问题的各种优化计算模型已有相关的启发式算法和参数化精确算法,但是这些算法只能得出一个最优解,即一对单体型。可是生物问题的最优解往往不是唯一的,或者真实解可能只是接近最优的。该文设计了一个新的能枚举出最优的多个解的遗传算法。实验结果表明该算法具有较高的单体型重建精度,并为生物学家根据领域知识在算法获得的多个解的基础进一步选择提供了可能。  相似文献   

单体型组装MEC问题指如何利用个体的DNA测序片断数据,翻转最少的SNP位点值以确定该个体单体型的计算问题。根据片段数据的特点提出了一个时间复杂度为 O(nk22k2+mlogm+mk1)的参数化算法,其中m为片段数,n为单体型的SNP位点数,k1为一个片断覆盖的最大SNP位点数(通常小于10),k2为覆盖同一SNP位点的片段的最大数(通常不大于10)。对于实际DNA测序中的片段数据,即使mn都相当大,该算法也可以在较短的时间得到MEC问题的精确解,具有良好的可扩展性和较高的实用价值。  相似文献   

张倩  吴璟莉 《计算机科学》2017,44(1):75-79, 112
求解三倍体个体单体型对于探索三倍体物种的遗传特性和表型差异等方面的研究具有重要的推动作用。针对带基因型信息的最少错误更正(MEC/GI)模型,提出了一种基于枚举策略的三倍体个体单体型重建算法EHTR。该算法依次重建3条单体型上的每一个单核苷酸多态性位点取值,对于给定位点,首先根据其基因型取值枚举该位点的3种单体型取值情况,然后选择片段支持度最高的取值作为该位点的重建值,算法的总时间复杂度为O(mn+mlogm+cnl)。采用CELSIM和MetaSim两种测序片段模拟生成器生成实验测试数据,在片段覆盖率、错误率、单片段长度、单体型长度和单体型海明距离等参数的不同设置下,对算法EHTR,GTIHR,W-GA和Q-PSO的重建率和运行时间进行对比分析。实验结果显示,算法EHTR在不同的参数设置下均能以更短的运行时间获得更高的重建率。  相似文献   

结合单体型装配问题的计算模型—最少错误纠正模型(MEC)的特定知识,提出了一种求解单体型装配问题的改进粒子群算法。应用改进粒子群算法对真实数据和模拟数据进行数值计算,并且与基础粒子群算法和遗传算法进行比较,数值结果表明所设计的改进粒子群算法在单体型重构率上优于基础粒子群算法和遗传算法。  相似文献   

SNP(单核苷酸多态性)是发生在DNA序列上单个核苷酸碱基之间的变异,是生物可遗传变异中最常见的一种变异。ED算法和SNP-index算法是计算SNP位点的2种常用算法。由高通量测序获得拟南芥F2代全基因组测序数据,基于Linux平台对测序数据进行过滤、筛选和比对,通过算法实现结果,比较不同算法检测得到的SNP位点数量和SNP基因型比例。实验结果表明,通过ED算法得到的SNP位点数量更多,分布更广,相对分布密度大于SNP-index算法的,但是2种算法得到的SNP位点数量和SNP基因型比例相近。  相似文献   

单体型检测在遗传病基因的定位、药理反应的研究、个体识别等方面有极其广阔的应用前景。单体型组装问题指如何利用个体的基因测序片断数据,根据不同的优化准则确定该个体单体型的计算问题。对MSR,MFR,MEC,WMLF,MEC/GI等单体型组装模型做了详细的分析比较,得出了如下结论:在没有引入测序误差情况下,上述模型的重构精度基本一致。随着测序误差的增加,MEC/GI模型的容错性最好,重构精度最高;MSR模型受测序误差的影响最大,只适用于测序误差极小的情形。  相似文献   

The Individual Haplotyping MFR problem is a computational problem that, given a set of DNA sequence fragment data of an individual, induces the corresponding haplotypes by dropping the minimum number of fragments. Bafna, Istrail, Lancia, and Rizzi proposed an algorithm of time O(22k m 2 n+23k m 3) for the problem, where m is the number of fragments, n is the number of SNP sites, and k is the maximum number of holes in a fragment. When there are mate-pairs in the input data, the parameter k can be as large as 100, which would make the Bafna-Istrail-Lancia-Rizzi algorithm impracticable. The current paper introduces a new algorithm PM-MFR of running time , where k 1 is the maximum number of SNP sites that a fragment covers (k 1 is smaller than n), and k 2 is the maximum number of fragments that cover a SNP site (k 2 is usually about 10). Since the time complexity of the algorithm PM-MFR is not directly related to the parameter k, the algorithm solves the Individual Haplotyping MFR problem with mate-pairs more efficiently and is more practical in real biological applications. This research was supported in part by the National Natural Science Foundation of China under Grant Nos. 60433020 and 60773111, the Program for New Century Excellent Talents in University No. NCET-05-0683, the Program for Changjiang Scholars and Innovative Research Team in University No. IRT0661, and the Scientific Research Fund of Hunan Provincial Education Department under Grant No. 06C526.  相似文献   

We present several new results pertaining to haplotyping. These results concern the combinatorial problem of reconstructing haplotypes from incomplete and/or imperfectly sequenced haplotype fragments. We consider the complexity of the problems Minimum Error Correction (MEC) and Longest Haplotype Reconstruction (LHR) for different restrictions on the input data. Specifically, we look at the gapless case, where every row of the input corresponds to a gapless haplotype-fragment, and the 1-gap case, where at most one gap per fragment is allowed. We prove that MEC is APX-hard in the 1-gap case and still NP-hard in the gapless case. In addition, we question earlier claims that MEC is NP-hard even when the input matrix is restricted to being completely binary. Concerning LHR, we show that this problem is NP-hard and APX-hard in the 1-gap case (and thus also in the general case), but is polynomial time solvable in the gapless case.  相似文献   

Haplotypes play an important role in genetic association studies of complex diseases. Recently, computational techniques helping to determine human haplotypes were studied extensively. Given the genotype and the aligned single nucleotide polymorphism (SNP) fragments of an individual, Minimum Error Correction with Genotype Information (MEC/GI) is an important computational model to infer a pair of haplotypes compatible with the genotype by correcting minimum number of SNPs in the given SNP fragments. The MEC/GI problem has been proven NP-hard, for which there is no practical exact algorithm. Despite the rapid advances in molecular biological techniques, modern high-throughput sequencers cannot sequence directly a DNA fragment that contains more than 1200 nucleotide bases. With low SNP density, current available data reveal that the number k of SNP sites that a DNA fragment covers is usually smaller than 10. Based on the above fact, we develop a new dynamic programming algorithm with running time O(mk2 k +mlog m+mk), where m is the number of fragments. Since k is small in real biological applications, the algorithm is practical and efficient.  相似文献   

Parameterized Complexity and Approximation Algorithms   总被引:3,自引:0,他引:3  
Marx  Daniel 《Computer Journal》2008,51(1):60-78

完全p-支配集是一个著名的NP-难问题,在无线传感网络中被用于构建无线传感节点的自我保护网络.该文主要研究完全p-支配集在DG(Disk Graph)模型及其特殊模型上的参数复杂性及参数算法设计.首先证明完全p-支配集在顶点度受限的UDG(Unit Disk Graph)上仍是NP-难的.为了深入理解完全p-支配集在UDG模型上的难解性根源,利用参数化规约进一步研究了完全p支配集在UDG上的参数复杂性.基于难解性根源的分析,最后利用树分解技术和动态规划技术,针对平面图(一种特殊DG模型)上的完全p-支配集,设计了一个时间为O((2p+2)19.1·√kk3n+n3)的精确算法,其中n为给定实例中的顶点个数,k为问题解的大小.  相似文献   

分析了目前高校排课存在的问题,研究如何利用遗传算法解决排课问题以及冲突,并设计应该考虑的各种约束条件。把传统的排课问题分为时间排课和教室排课两个方面来研究,在时间排课方面又分为单目标排课和多目标排课两个步骤来考虑。通过计算机化管理的排课问题,能够有效地提高工作效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号