首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
经典序列拼接算法--Needleman-Wunsch算法随着基因组序列的剧增其内存需求量已严重受到了制约。为了有效的解决大尺度基因组序列的比对分析,本文在贪心算法的基础上提出一种启发式的最大权通路寻找策略,其实现过程是选择两个长度较长且交叠罚分很低的结点作种子,求得两种子的最大权路径,在计算路径的权值时就判断路径长度是否小于目标序列的大致长度,若大于则停止前进,反之则选择新的不属于已有序列的片段作为新的种子进行延伸,直至长度达到目标序列的长度。实验结果显示,原始序列的样本数并不是越多越好,该启发算法在相似的条件下具有优于贪心算法的性质,并且它在占用少量内存的情况下可以获得近似于Needleman-Wunsch算法结果的最优解。  相似文献   

2.
序列比对算法在许多不同的领域得到应用。当前,一个重要的应用就是比对大分子,例如DNA和蛋白质序列比对。许多情况,有必要比对三序列。DavidR.Powell就提出过一种使用线性空位罚分的优化的三序列比对算法。这个算法最早是由Ukkonen提出的,该算法基于简单打分的两序列比对。该文通过引入“检查点法”对其进行改进,并充分利用近期蓬勃发展的高性能计算技术,对算法并行化,且在cluster机上实现。  相似文献   

3.
子序列查询技术在金融、商业、医疗等领域均有重要应用,但因DTW(dynamic time warping)等相似性比对算法的时间复杂度较高,子序列长度对检索时间影响很大,限制了数据集上长子序列检索的效率。针对这一问题提出一种子序列快速查询算法。首先对数据集中特定长度下所有子序列进行分组并标记出代表性子序列;然后在查询时将查询序列切分成定长的小段序列,并用DTW算法确定与小段序列相似的代表子序列候选集;最后对候选集进行序列拼接,获取到查询结果序列。实验表明新算法效率较典型算法提高约10倍。  相似文献   

4.
从有限自动机中生成简短、可读性强的正则表达式是计算机理论研究中的一个重大课题.在经典的正则表达式生成算法中,状态序列是影响正则表达式质量的关键因素.为了能够快速高效地找到较优的状态序列,本文以食肉植物算法的理论为核心,并结合其他启发式算法的思想进行设计与优化,提出了一种基于食肉植物算法的状态序列搜索方法.通过实验将此方法与已有的一些使用启发式规则的搜索算法进行了对比,实验结果表明,基于食肉植物算法的状态序列搜索方法优于其他启发式算法,生成的正则表达式长度比起其他启发式算法明显缩短,如跟DM算法相比,长度的缩短幅度可以随着自动机阶数的增加达到20%以上,跟随机序列算法相比,可以把长度缩短多个数量级.  相似文献   

5.
串联重复序列是基因组构建的困难片段,由于其重复单元之间的相似性与其拷贝数的不确定性,在序列比对时容易定位到多个候选位置,如何快速而准确地筛选出正确的比对位置是一项挑战。现有方法使用种子(从测序片段中选取的短序列)来定位并扩展候选比对位置,但挑选种子时未考虑串联重复序列特性。因此,提出了一种串联重复序列比对的位置筛选方法,其通过计算稀有kmer(长度为k的子序列)序列的相似性来筛选比对结果。此外,采用合并稀有kmer的策略加速计算,并利用基于编辑距离的模糊查找以提高过滤信息密度。实验结果表明,在模拟数据集上提高比对结果的召回率与准确率的同时,该方法比现有方法快约2倍,且具有良好的并行加速性能。  相似文献   

6.
在所有多重序列比对算法中,渐进比对方法由于简单的算法和高效的计算在生物信息学中得到了广泛的应用。但是渐进方法最大的缺点是在早期阶段形成的错误不能在后期的计算中纠正过来。针对这个问题,我们设计了ProAnt比对算法,即渐进方法和蚁群算法相结合来求解多重序列比对问题。首先,对输入的多个序列进行预处理,用蚁群算法和概率一致性更新计算出所有字符对在最终比对中出现的概率,称为“后验概率”,计算后验概率是为了预防早期错误的发生。然后我们将后验概率作为字符对之间的匹配得分,用渐进方法得到最终的比对结果。用BAliBASE数据库对算法进行测试,实验结果显示,该算法能够在保持合理的运算时间的前提下显著改善渐进比对方法的正确性。  相似文献   

7.
DTW(Dynamic Time Warping)算法被广泛应用于序列数据比对,以度量序列间距离,但算法较高的时间复杂度限制了其在长序列比对上的应用。提出基于自适应搜索窗口的序列相似比对算法(ADTW),算法利用分段聚集平均(Piecewise Aggregate Approximation,PAA)策略进行序列抽样得到低精度序列,然后计算低精度序列下的比对路径,并根据低精度距离矩阵上的梯度变化预测路径偏差,限制路径搜索窗口的拓展范围;随后算法逐步提高序列精度,并在搜索窗口内修正路径、计算新的搜索窗口,最终,实现DTW距离和相似比对路径的快速求解。对比FastDTW,ADTW算法在同等度量准确率下提高计算效率约20%,其时间复杂度为[O(n)]。  相似文献   

8.
随着二代测序平台的发展,二代测序技术可短时间产生数以千万计长度在100位点左右的测序片段数据(read),如何快速、准确地将这些read比对到参考基因组上成为测序序列比对算法的严峻挑战。传统测序比对算法大多是使用种子进行细粒度过滤的方法,种子候选位置较多,造成算法验证时间过大。提出一种基于区域的粗粒度过滤方法,与细粒度过滤方法相结合来提高过滤效果,以提升测序序列比对算法处理速度,并将此过滤方法应用到找全比对Bit Mapper算法中。在线虫基因组和人类基因组上的实验结果表明,融合了区域过滤方法后的算法时间和过滤效果均有明显提升。  相似文献   

9.
基于最大权值路径算法的DNA多序列比对方法   总被引:1,自引:0,他引:1  
霍红卫  肖智伟 《软件学报》2007,18(2):185-195
针对生物序列分析中的多序列比对问题,当输入数据量比较大时,人们提出了很多启发式的算法来改善计算速度和比对结果.提出了用于进行全局DNA多序列比对的一种方法:MWPAlign(maximum weighted path alignment).该算法把序列信息用de Bruijn图的形式表示,并将输入序列的信息记录在图的边上,这样,就将求调和序列的问题转化为求图的最大权值路径问题,使多序列比对问题的时间复杂度降低到几乎线性.实验结果显示:MWPAlign是可行的多序列比对算法,尤其对于变异率低于5.2%的大量序列数据,相对于CLUSTALW(cluster alignments weight),T-Coffee和HMMT(hidden Markov model training)有较好的比对结果和运算性能.  相似文献   

10.
马敏耀  徐艺  刘卓 《计算机应用》2019,39(9):2636-2640
DNA序列承载着人体重要的生物学信息,如何在保护隐私的情况下正确地对不同的DNA序列进行比对,成为亟待研究的科学问题。汉明距离在一定程度上刻画了两个DNA序列的相似程度,在保护隐私的情况下,研究DNA序列的汉明距离计算问题。首先定义了DNA序列的0-1编码规则,该规则将长度为n的DNA序列编码成长度为4n的0-1串,证明了两个DNA序列的汉明距离等于它们的0-1编码串的汉明距离的一半。以此结论为基础,以GM加密算法为主要密码学工具,构造了计算DNA序列汉明距离的一个安全两方计算协议。在半诚实攻击者模型下,证明了协议的正确性,给出了基于模拟器的安全性证明,并对协议的效率进行了分析。  相似文献   

11.
生物信息学是以计算机为工具对生物信息进行储存、检索和分析的科学。序列比对是生物信息学中的一个基本问题,设计快速而有效的序列比对算法是生物信息学研究的一个重要内容,通过序列比较可以发现生物序列中的功能、结构和进化的信息,序列比较的基本操作是比对。本文介绍了序列比对算法的发展现状,描述了常用的各类序列比对算法,并分析了它们的优劣。  相似文献   

12.
生物信息学双序列比对算法加速器设计与实现   总被引:2,自引:0,他引:2       下载免费PDF全文
双序列比对算法是进行生物信息学研究的基础算法。在FPGA上实现大规模脉动式阵列对双序列比对算法进行加速能够大幅度提高比对的效率。然而现有的设计方法在比对序列长度较短的情况下,处理单元利用率很低;在序列的长度较大时,需要占用大量的片内存储资源。通过将两条序列同时送入阵列进行比对减少比对时间。将比对数据送入外部存储器,优化比对过程中的数据存储调度,有效降低了对片内存储器的需求。以Smith-Waterman算法为例进行了实现验证,结果表明本设计在性能上优于传统设计。与Pentium42.60GHz通用微处理器计算机相比,使用加速器对长度为65536的序列进行比对可获得1555倍的加速比。  相似文献   

13.
序列分析是高性能计算应用的一个重要方向。随着高通量测序技术的发展,基因数据呈现爆炸性增长,对高性能计算的需求也更加迫切。介绍了高性能计算在序列分析中的应用和序列分析算法的并行实现,包括序列比对、检索、重测序、拼接等。  相似文献   

14.
阳名钢  陈梦烦  杨双远  张德富 《软件学报》2021,32(12):3684-3697
二维带形装箱问题是一个经典的NP-hard的组合优化问题,该问题在实际的生活和工业生产中有着广泛的应用.研究该问题,对企业节约成本、节约资源以及提高生产效率有着重要的意义.提出了一个强化学习求解算法.新颖地使用强化学习为启发式算法提供一个初始的装箱序列,有效地改善启发式冷启动的问题.该强化学习模型能进行自我驱动学习,仅使用启发式计算的解决方案的目标值作为奖励信号来优化网络,使网络能学习到更好的装箱序列.使用简化版的指针网络来解码输出装箱序列,该模型由嵌入层、解码器和注意力机制组成.使用Actor-Critic算法对模型进行训练,提高了模型的效率.在714个标准问题实例和随机生成的400个问题实例上测试提出的算法,实验结果显示:提出的算法能有效地改善启发式冷启动的问题,性能超过当前最优秀的启发式求解算法.  相似文献   

15.
董改芳  付学良  李宏慧 《计算机科学》2017,44(10):55-58, 84
多序列星比对算法在确定中心序列时需要计算任意两个输入序列的距离及分数,其较高的时间复杂度 耗费了大量时间,因此提出了通过综合计算每个序列产生的k-mers及各个k-mer在各序列中出现的次数来确定k-mers的拼接选择,由k-mers进行拼接从而 得到中心序列。进而,在双序列比对过程中采用搜索两个序列最大相似子串的思想,改进的星比对算法的精度在一定程度上得到了明显提升。接着, 将改进的星比对算法在Spark中进行并行化设计与实现。采用Spark的Yarn-Client运行模式,对正常人线粒体的多组数据进行实验,分析了算法性能上的不足及改进方向。  相似文献   

16.
王欣 《计算机应用研究》2011,28(7):2466-2469
提出了一个两阶段的多元时间序列异常检测算法。该算法通过有界坐标系统 (BCS)技术计算多元时间序列样本之间的相似性,采用基于距离的方法实现异常检测。算法第一阶段采用K-means算法对数据进行聚类,并按照一个启发式规则对其进行排序;第二阶段在聚类结果上采用循环嵌套算法进行异常检测,并通过两个剪枝规则进行高效剪枝,提高了算法的效率。在两个实际数据集上进行实验,实验结果验证了算法的有效性。  相似文献   

17.
多序列比对是生物信息学研究中最基本的一项内容,多序列比对的精确算法是一个NP-hard问题,一般研究者都侧重于设计多序列比对近似算法,最有代表性的近似算法是ClustalW;分而治之是一种重要的算法设计思想,它将复杂问题分割成更简单的子问题来解决,能有效提高算法效率。本文设计了一个DCA-ClustalW算法,对多序列比对问题,同时考虑从纵向和横向两个方面将复杂问题分割成简单易解的子问题,在BaliBase基准数据集上测试表明,该算法是可行的。  相似文献   

18.
云环境下超启发式能耗感知调度算法   总被引:1,自引:0,他引:1  
能耗感知调度的研究对云计算数据中心的可持续发展有着重要意义。能耗感知调度是一个NP难的多目标优化问题,目前云环境下的任务调度算法较少考虑能耗问题,且不能实现对能耗的灵活管理,随机搜索算法是一种解决该问题的有效途径,但其计算开销大,收敛速度慢。将异构云环境下的能耗感知调度问题定义为一个带约束的问题,即在一定的完成时间下优化系统能耗,以实现对能耗的灵活管理。此外,提出了基于在线学习的超启发式算法(OLHH),该算法结合电压调节技术,在设计了简单高效的启发式策略集的基础上,引进超启发式算法,并采用在线学习的方式跟踪启发式策略的表现,实现对启发式策略的合理管理,从而达到提高算法的收敛性能的目的。模拟实验表明,该算法能够实现系统能耗的灵活管理,且比传统的随机搜索算法有着更好的收敛性能。  相似文献   

19.
生物序列比对是生物信息领域的重要课题,比对结果的合理性和正确性关系到基于比对结果研究的正确性。在保证正确性的前提下利用并行计算充分挖掘计算潜力对提高比对效率有重要意义。针对双序列的全局比对问题,提出了基于蚁群算法的双序列比对并行化方案。对耗时最多的搜索比对路径和信息素更新两个步骤给出了基于共享内存模型的并行化方法。"天河二号"上OpenMP实验结果表明,8线程并行情况下,加速比可达5.03,且序列越长性能越高。  相似文献   

20.
陈光  郑影 《福建电脑》2003,(12):17-18
随着生物信息学数据的大量积累,通过对核酸序列或蛋白质序列进行比对,可以有效地分析和预测一些新发现基因的功能。序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,可以推测二者有共同的进化祖先;二个具有同源性的生物,其序列具有一定的相似性。如果一个新测定的DNA序列与一已知的基因序列很相似,那么,该基因序列含有与已知基因序列相似的结构和功能。因此,序列比对方法的应用对于基因结构和功能的研究具有较大的实际意义。双序列比对是序列分析的常用方法之一,是多序列比对和数据库搜索的基础。传统的双序列比对算法时间和空间复杂度均为O(m*n)。我们在介绍传统的动态规划算法后,将就时间和空间方面提出建议,并加以具体描述。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号