首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
随着基因测序技术的持续发展,基因组框架填充问题受到广泛关注。该文针对基于contig的单面含重复基因的基因组框架填充问题开展研究。通过设计有效的近似算法,完成根据参照基因组,将缺失基因填充至基因测序获得的不完整框架中,提高基因组框架的完整性。前期研究的基因组框架填充问题,缺失基因可以插入到不完整序列的任意两个基因之间,而基于片段重叠群(contig)的基因组框架填充,缺失基因的插入位置被限制在两个contig之间,更具一般性,该问题已被证明是NP完全问题。现有的近似算法中,2-近似算法处理的实例具有特殊性,2.57-近似算法针对一般实例,但近似性能比不够理想。该文以缺失基因、基因位点和断点三者之间的对应关系为基础,采用贪婪策略和最大匹配相结合的方式避免在填充过程中出现冗余公共邻接,并通过生成新的contig增加外邻接的数量,将针对一般实例的算法近似性能比提高到2,完成了基于Python的可视化程序开发,进一步验证了算法的有效性。  相似文献   

2.
徐魁  陈科  徐君  田佳林  刘浩  王宇凡 《计算机科学》2015,42(9):235-239, 245
基因组测序的目的是获取一个生物体完整的DNA序列信息,而DNA信息是进行遗传学研究和疾病诊断的基础。通常而言,完整的基因组测序分为两个步骤:第一步通过实验手段测定DNA序列片段,第二步通过计算方法把DNA片段拼接为完整的基因组。尽管桑格测序技术成功解析了包括人类在内的多个基因组,但其由于成本过高,目前逐渐被新一代测序技术所取代。新一代测序技术的特点为高通量、高覆盖率、低成本,随之而来的缺点体现为短读长、更多类型的错误。这些特点也给基因拼接算法带来了更大的挑战。鉴于目前的数十种基因拼接算法中并没有一种算法显著优于其它算法,且一些分析表明不同算法的拼接结果具有互补性,提出了CGDNA算法框架,它把不同算法的拼接结果整合到一起,使得整合的结果超越任何单个算法的结果。提出了一种基于簇图的基因组序列集成拼接算法,它通过构建索引、读长映射、重叠群聚簇、构建簇图等步骤将重叠群拼接成更长的序列。实验结果表明,相对于目前最优的算法Velvet、ABySS、SOAPdenovo,CGDNA在N50与最长拼接序列这两项指标上的增长比例高达50%以上,并且达到了较高的覆盖度。当更多的基本算法集成到本算法时,性能可进一步提高。提出的方法大幅提高了基因拼接的长度,为下一步的遗传分析降低了难度,并加快了生物基因组研究的步伐。  相似文献   

3.
随着二代测序平台的发展,二代测序技术可短时间产生数以千万计长度在100位点左右的测序片段数据(read),如何快速、准确地将这些read比对到参考基因组上成为测序序列比对算法的严峻挑战。传统测序比对算法大多是使用种子进行细粒度过滤的方法,种子候选位置较多,造成算法验证时间过大。提出一种基于区域的粗粒度过滤方法,与细粒度过滤方法相结合来提高过滤效果,以提升测序序列比对算法处理速度,并将此过滤方法应用到找全比对Bit Mapper算法中。在线虫基因组和人类基因组上的实验结果表明,融合了区域过滤方法后的算法时间和过滤效果均有明显提升。  相似文献   

4.
不完整大数据的分布式聚类填充算法   总被引:2,自引:0,他引:2  
传统大数据填充算法是根据整个数据集对缺失数据进行填充,使得填充值容易受到不同类别数据的干扰,导致填充结果不精确。针对该问题,给出不完整数据的相似度度量方法,使用近邻传播( AP )算法对不完整数据进行聚类。采用云计算技术优化AP聚类算法,实现一种基于MapReduce的分布式聚类算法,根据算法聚类结果将同一类数据对象划分到相同簇中,并利用同一类对象的属性值对缺失值进行填充。实验结果表明,该算法能实现不完整大数据的聚类,同时加快聚类速度,提高缺失数据的填充精度。  相似文献   

5.
数据缺失对聚类算法提出了挑战,传统方法往往采用均值或回归方法将不完整数据进行填充,再对填充后的数据进行聚类.为解决均值填充和回归填充等方法在数据缺失比率增大时填充精度以及聚类效果变差的问题,提出一种新的不完整数据相似度计算方法.以期望互信息为依据对数据集中的属性排序,充分考虑了数据集中与位置相关的属性值特征,以数据集本身元素作为缺失值填充的来源,对排序后的不完整数据集进行相似度填充计算,最后采用基于局部密度的聚类算法进行聚类.利用UCI机器学习库中的数据集验证本文填充聚类算法,实验结果表明,当数据集中缺失值增多时,算法对缺失值的容忍性较好,对缺失元素的恢复能力较强,填充精度以及最终聚类结果方面均表现良好.本文填充计算相似度的方法考虑数据集的每个属性值来对缺失值逐个填充,因而耗时较多.  相似文献   

6.
当前的不完整数据处理算法填充缺失值时,精度低下。针对这个问题,提出一种基于CFS聚类和改进的自动编码模型的不完整数据填充算法。利用CFS聚类算法对不完整数据集进行聚类,对降噪自动编码模型进行改进,根据聚类结果,利用改进的自动编码模型对缺失数据进行填充。为了使得CFS聚类算法能够对不完整数据集进行聚类,提出一种部分距离策略,用于度量不完整数据对象之间的距离。实验结果表明提出的算法能够有效填充缺失数据。  相似文献   

7.
随着测序技术的发展,现在的高通量测序技术已经能在短时间内产生大量的数据.一个人类基因组的数据大约在3GB,而测序的数据集则往往是人类基因组的30倍以上(100GB).如此庞大的数据量,就为生物学家带来相对较大的挑战.基于新一代测序数据的比对通常是开展诸多分析工作的第一步,对于生物信息工作者深入研究极为重要,但是该类软件往往偏向计算机方向,其对比原理及使用方法对于生物信息工作者显得颇为晦涩.因此,就比对现有的主要算法进行了总结分析.  相似文献   

8.
基于信息增益的数据库缺失值填充算法   总被引:1,自引:1,他引:1  
覃泽 《微计算机信息》2007,23(12):180-181
在数据挖掘以及机器学习等领域,都需要涉及一个数据预处理过程。其中,缺失值的填充是一个非常具有挑战性的任务,因为填充效果的好坏会极大的影响学习算法及挖掘算法的后续处理过程.目前已有的一些填充算法在一定程度上能够处理缺失值问题.与已有的方法不同,提出了一种扩展的基于信息增益的缺失值填充算法,它充分利用数据集中各属性之间隐含的关系对缺失的数据进行填充。大量的实验表明,提出的扩展的基于信息增益的缺失值填充算法是有效的.  相似文献   

9.
张安珍  李建中  高宏 《软件学报》2020,31(2):406-420
本文研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,本文给出不完整数据聚集查询结果的区间估计.本文在符号语义中扩展传统关系数据库模型,提出一种通用不完整数据库模型,该模型可以处理可填充的和不可填充的两种类型缺失值.在该模型下,提出一种新的不完整数据聚集查询结果语义:可靠结果.可靠结果是真实查询结果的区间估计,可以保证真实查询结果很大概率在该估计区间范围内.本文给出线性时间求解SUM、COUNT和AVG查询可靠结果的方法.真实数据集和合成数据集上的扩展实验验证了本文所提方法的有效性.  相似文献   

10.
针对K最近邻填充算法(K-nearest neighbor imputation,KNNI)的参数K值固定问题进行了研究,发现对缺失值填充时,参数K值固定很大程度上影响了填充效果.为此,提出了基于稀疏编码的最近邻填充算法来解决这一问题.该算法是用训练样本重构每一缺失样本,在重构过程中充分考虑了样本之间的相关性;并用e1范数来学习确保每个缺失样本用不同数目的训练样本填充,以此解决KNNI算法参数K值选取问题.基于数据性能分析指标RMSE和相关系数的实验比较结果表明,该算法比KNNI算法的效果要好.该算法能很好地避免了KNNI算法存在的缺陷,适用于数据预处理环节需要对缺失值进行填充的应用领域.  相似文献   

11.
12.
开放环境下信息的安全与保护有着重要的研究价值。对待隐藏文件无需专门分配存储空间,而是将其转移存储到系统文件的内部碎片中。隐藏文件的文件名、带路径的宿主文件名及二者对应关系加密后分别存放在两个普通文件中。实验及研究表明此种方式能够对数据做到深度隐藏。  相似文献   

13.
景象提取的目的是将数字图像中的景物从背景中分离出来,为了更好地实现这一目的,微软亚洲研究院Jian Sun等人于2004年提出Poisson Matting方法.该方法将透明度(α值)作为图像的一种内在属性,变分地寻求其最优解,来达到目标提取的目的.主要介绍Poisson算法,针对Poisson算法中程序运行时间比较长的问题,对算法中耗用时间多的两个步骤:图像初始α值的计算以及前景图像F、背景图像B的计算进行了改进,在VC6.0中进行了实现,并取得了较好效果.  相似文献   

14.
CSCW系统中协同感知的研究   总被引:1,自引:0,他引:1  
协同感知理论的研究与应用是计算机支持的协同工作的重要研究内容之一.在研究分析了传统的协同感知所依赖的CSCW体系结构的基础上,提出了一种基于P2P的三层结构的协同感知框架,该架构很适合于CSCW中项目可以划分为若干个相对独立的模块的情形.最后对该框架的具体感知模块进行了分析,并讨论了下一步研究将要解决的问题.  相似文献   

15.
基于XQuery查询优化的研究   总被引:3,自引:0,他引:3  
XML已经成为网络上信息描述和信息交换的标准,随着XML应用得越来越广泛,人们提出了多种XML 数据的查询方法.但是,很多查询方法都有各自的局限性.利用有意义的最小公共实体结构EntityInMLCAS(Entity In Meaning Lowest Common Ancestor Structure)原理,提出一种优化查询方法.同时采用堆栈技术的方法对XML文档结点树进行自顶向下的遍历,该方法大大提高了优化查询的速度.  相似文献   

16.
基于RBAC的WEB环境下OA系统权限控制的研究   总被引:2,自引:0,他引:2  
WEB环境下OA(Office Automation)系统的权限控制是一个热点问题.针对此问题详细介绍了一种实用的解决方法--基于角色访问控制模型的方法,并在此基础上根据实际项目重点阐述了RBAC数据库的设计方法,以及基于RBAC数据库的权限控制的设计方法,最后给出权限子系统的具体配置步骤,并给出实际运行结果.  相似文献   

17.
针对MapReduce的默认调度策略先进先出(FIFO)在执行任务时考虑本地性调度带来的任务等待时间长、资源利用率不高和没有考虑任务的优先级等问题,提出一种基于集群拓扑结构的工作流实时调度算法。MapReduce在对工作流进行Map处理时,首先根据taskTracker的计算能力和数据大小对map阶段工作流的完成时间进行估计,得到一个完成时间隶属函数,然后再利用集群的拓扑结构,得到taskTracker在集群中的距离隶属函数,根据这两个隶属函数来对集群中的taskTracker在工作流处理时间和数据传输时间进行综合性能评估,这样可以有效地缩短任务的等待时间并提高资源的利用率。同时该算法采用对作业进行优先级划分的方式,满足不同类型作业的需求。大量的实验结果表明:该优化策略在平均完成时间和平均等待时间方面要优于FIFO算法,可以有效提高工作流处理的实时性。  相似文献   

18.
对MapReduce工作流的优化主要是通过对MapReduce栈的优化实现的。针对MapReduce工作流的优化问题,首先,提出相关概念;其次,介绍MapReduce工作流基于成本的优化过程;然后,通过实例阐述MapReduce工作流中的数据流依赖和资源依赖关系。基于此,提出3种MapReduce工作流优化器,并对其进行端对端的评估。最后,通过实验评估工作流优化器的优化开销并对比分析了这3种工作流优化器。  相似文献   

19.
基于MDA的构件开发方法的研究   总被引:1,自引:0,他引:1  
在对目前构件技术研究的现状进行分析的基础上,详细讨论了MDA(Model-Driven Architecture)方法产生的背景及其涉及的核心技术,论述了MDA对软件开发产生的深远意义,提出了一种基于MDA的构件开发方法MDAC,并从不同的层次分析了MDAC方法的体系结构,主要包括模型分类、构件建模框架、模型转换实现、构件开发过程、建模工具等内容。  相似文献   

20.
介绍基于Google Earth应用系统开发的基础知识和模式,分析了Google Earth增值业务架构,提出了基于J2EE的KMLServer增值服务器框架,并给出了一个KML Server应用范例。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号