共查询到18条相似文献,搜索用时 93 毫秒
1.
目前基因拼接软件中应用最广泛的技术是基于De Bruijn图的基因拼接算法,需要对长达数十亿BP长度的基因组测序数据进行处理.针对海量的基因测序数据,快速、高效和可扩展的基因拼接算法非常重要.虽然已出现一些并行拼接算法(如YAGA)开始研究这些问题,但是拼接过程中时间、空间消耗较大的构图和单链化简这两大步骤在海量数据的挑战下仍然是最主要的计算瓶颈.这是因为现有工作在处理这几个步骤时通常使用了并行的表排序(list ranking),而该方法需要多次对De Bruijn图的海量顶点信息进行分布式的排序,产生了大量的计算节点间的通信.单链化简可由1次De Bruijn 图深度优先遍历完成而不再需要表排序,于是提出一种基于分布式海量图遍历方法对单链化简进行优化,极大地减少了处理器间的通信和计算节点之间的数据移动,因而取得较好的扩展性,其算法复杂度为O(g/p),通信复杂度为O(g),这里g为参考序列的长度,p为处理器的核数.当对E.coli和Yeast数据集进行测试,处理器的核数从8个增加到512个时,算法可以得到13倍和10倍的加速比;当对C.elegans和人类1号染色体(chr1)数据集进行测试,处理器的核数从32个增加到512个时,算法可以得到7倍和10倍的加速比. 相似文献
2.
基因组测序是生物信息学中最基本的研究方向之一,然而大多数生物的基因组都不可能一次性获得,需要利用序列拼接技术对实验中获得的DNA片段进行拼接操作.目前,测序过程中获得的DNA片段越来越短,基于Euler路径的拼接算法在处理这种短片段拼按时具有优势.在Euler路径算法中,一个关键的步骤是de Bruijn图的构建,一直以来,构建de Bruijn图的方式总是让后一个k-mer与前一个k-mer 之间有k-1个碱基的交叠,相邻的两个k-mer之间相互错开一位.但文中的研究发现,如果有边连接的两个k-mer之间有k-2个或者更少的碱基相交叠,会对de Bruijn图结构复杂性产生重要影响.针对这些影响进行详细分析,并设计实验进行验证,实验结果表明,k-mer之间的错位数变化对de Bruijn图结构复杂性有显著影响. 相似文献
3.
4.
王雯雯 《电脑编程技巧与维护》2017,(20)
针对软件性能测试的难点一直是快速、准确地得到有效信息,并使性能评价贯穿整个开发周期.利用UML多图组合的方式来进行系统描述,以期充分利用UML的扩展来携带所需的性能信息,避免单一UML图描述系统的片面性;以消息走向为主线,采用多图组合的方式提供完整的系统架构.给出了不同角度下的UML图组合规则,主要研究了根据工作流程进行划分组合或者根据对象的状态来进行图组合两种方式,并给出了各个图例在组合中的作用以及各个图例之间的信息交互. 相似文献
5.
6.
基于Web软件的性能测试 总被引:6,自引:0,他引:6
基于Wed的软件相对于传统的应用程序具有很多新的特点,这对软件测试提出了新的要求。文章对软件的性能测试进行了研究,分析了软件性能的内涵、性能评测等。这些对于提高和改善基于Wed软件的性能具有很好的指导意义。 相似文献
7.
8.
9.
HPCC(High Performance Computing Challenge)基准较Linpack能够更全面反映高性能系统性能。但是HPCC测试结果是若干个指标项,缺少一个整体的,直观而统一的评价结果,一直未能被广泛地接受。使用HPCC测试集对两个高性能平台进行了性能评测,并在此基础上提出了一种简单易行的HPCC测试数据分析处理方案对HPCC测试结果进行分析,得到一个直观而统一的HPCC的测试结果。该结果清晰地反映出每个系统的优势和不足,并且依据该分析结果对两个高性能计算平台的性能进行了比较。 相似文献
10.
随着网路技术的发展,软件Agent、Web Service、CCM、云计算等技术非常流行。用户在不断追求在Internet环境下的新体验,相对传统的软件运行平台逐渐由静态封闭走向开放、动态和多变。本文针对网构软件这一概念的提出,对相应的新的软件开发方法进行具体详细分析,全面分析了软件发展的全新模式。基于构件的可复用操作组装技术的开发应用,较好的适应这种模式的转变。面向构件的网构软件组装技术是目前软件研究的热点,通过对于这种技术的深刻分析,将对网构软件的开发具有重要意义。 相似文献
11.
基因组测序的目的是获取一个生物体完整的DNA序列信息,而DNA信息是进行遗传学研究和疾病诊断的基础。通常而言,完整的基因组测序分为两个步骤:第一步通过实验手段测定DNA序列片段,第二步通过计算方法把DNA片段拼接为完整的基因组。尽管桑格测序技术成功解析了包括人类在内的多个基因组,但其由于成本过高,目前逐渐被新一代测序技术所取代。新一代测序技术的特点为高通量、高覆盖率、低成本,随之而来的缺点体现为短读长、更多类型的错误。这些特点也给基因拼接算法带来了更大的挑战。鉴于目前的数十种基因拼接算法中并没有一种算法显著优于其它算法,且一些分析表明不同算法的拼接结果具有互补性,提出了CGDNA算法框架,它把不同算法的拼接结果整合到一起,使得整合的结果超越任何单个算法的结果。提出了一种基于簇图的基因组序列集成拼接算法,它通过构建索引、读长映射、重叠群聚簇、构建簇图等步骤将重叠群拼接成更长的序列。实验结果表明,相对于目前最优的算法Velvet、ABySS、SOAPdenovo,CGDNA在N50与最长拼接序列这两项指标上的增长比例高达50%以上,并且达到了较高的覆盖度。当更多的基本算法集成到本算法时,性能可进一步提高。提出的方法大幅提高了基因拼接的长度,为下一步的遗传分析降低了难度,并加快了生物基因组研究的步伐。 相似文献
12.
13.
14.
15.
随着科技数据量的不断增长,各科技部门积累了大量科技项目的科技管理数据.对于大量结构化数据,需要针对分散数据进行整理、分析,最终按需求提供数据查询与抽取服务.由于在关系数据库中关联关系的分析效果不佳,为了提高分析效率,文中引入了关系图谱进行数据处理.首先,提出了一种基于词频的实体搜索与定位算法来提取实体和关系,并构建关系... 相似文献
16.
郑跃斌 《计算机工程与应用》2003,39(26):215-217
企业流程是指为完成企业战略目标而进行的一系列逻辑相关的活动的有序集合,是企业经营活动的表现形式,也是现代信息系统建立的基础。然而传统的需求分析技术并没有体现出企业流程这一概念。论文在分析企业流程特点的基础上,建立了基于企业流程的需求分析方法的图形描述机制,重点叙述了企业流程建模的方法。 相似文献
17.
18.
基于项重写的安全风险分析的抽象规约模型在代数签名的基础上直接得到结果,没有提供相关攻击步骤明确描述,没有提供决策和攻击之间关系的统一视图,容易导致威胁的传播。为此,本文首先将图重写方案引入模型中,证明了引入图重写规则以后的风险分析系统仍然是终止的。然后利用图重写规则,提出了一种可以获得更优决策集合的方法,在改进的求带权二分图最小覆盖的方法的基础上,获得了一种具有相同时间复杂度和更高代价利益比的方法。整个模型高效、易于管理。 相似文献