首页 | 本学科首页   官方微博 | 高级检索  
     

有Mate-Pairs的个体单体型MSR问题的参数化算法
引用本文:谢民主,陈建二,王建新. 有Mate-Pairs的个体单体型MSR问题的参数化算法[J]. 软件学报, 2007, 18(9): 2070-2082
作者姓名:谢民主  陈建二  王建新
作者单位:中南大学,信息科学与工程学院,湖南,长沙,410083;湖南师范大学,物理与信息科学学院,湖南,长沙,410081;中南大学,信息科学与工程学院,湖南,长沙,410083
基金项目:国家自然科学基金;教育部跨世纪优秀人才培养计划;国家教育部创新团队资助项目;湖南省社会科学基金
摘    要:个体单体型MSR(minimum SNP removal)问题是指如何利用个体的基因测序片断数据去掉最少的SNP(single-nucleotide polymorphisms)位点,以确定该个体单体型的计算问题.对此问题,Bafna等人提出了时间复杂度为O(2kn2m)的算法,其中,m为DNA片断总数,n为SNP位点总数,k为片断中洞(片断中的空值位点)的个数.由于一个Mate-Pair片段中洞的个数可以达到100,因此,在片段数据中有Mate-Pair的情况下,Bafna的算法通常是不可行的.根据片段数据的特点提出了一个时间复杂度为O((n-1)(k1-1)k222h+(k1+1)2h+nk2+mk1)的新算法,其中,k1为一个片断覆盖的最大SNP位点数(不大于n),k2为覆盖同一SNP位点的片段的最大数(通常不大于19),h为覆盖同一SNP位点且在该位点取空值的片断的最大数(不大于k2).该算法的时间复杂度与片断中洞的个数的最大值k没有直接的关系,在有Mate-Pair片断数据的情况下仍然能够有效地进行计算,具有良好的可扩展性和较高的实用价值.

关 键 词:单核苷酸多态性  基因型  单体型  参数化算法  计算复杂度
收稿时间:2006-09-23
修稿时间:2006-09-232006-12-19

Parameterized Algorithm of the Individual Haplotyping MSR Problem with Mate-Pairs
XIE Min-Zhu,CHEN Jian-Er and WANG Jian-Xin. Parameterized Algorithm of the Individual Haplotyping MSR Problem with Mate-Pairs[J]. Journal of Software, 2007, 18(9): 2070-2082
Authors:XIE Min-Zhu  CHEN Jian-Er  WANG Jian-Xin
Abstract:The individual haplotyping MSR(minimum SNP removal)problem is the computational problem of inducing an individual's haplotypes from one's DNA fragments sequencing data by dropping minimum SNPs (single-nucleotide polymorphisms).To solve the problem,Bafna,et al.had provided an algorithm of time complexity O(2kn2m)with the number of fragments m,the SNP sites n,the maximum number of holes k in a fragment.In the case that there are some Mate-Pairs,since the number of holes in a Mate-Pair can reach 100, Bafna's algorithm is impracticable.Based on the characters of DNA fragments,this paper presents a new algorithm of time complexity O((n-1)(k1-1)k222h+(k1+1)2h+nk2+mk1)with the maximum number of SNP sites that a fragment covers k1(no more than n),the maximum number of the fragments covering a SNP site k2(usually no more than 19) and the maximum number of fragments covering a SNP site whose value is unknown at the SNP site h(no more than k2).Since the time complexity is not directly related with k,the algorithm can deal with the MSR problem with Mate-Pairs efficiently,and is more scalable and applicable in practice.
Keywords:SNPs  genotype  haplotype  parameterized algorithm  computational complexity
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《软件学报》浏览原始摘要信息
点击此处可从《软件学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号