首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
在基因选择性剪接调控过程中,有各种剪接信号参与其中,如剪接位点、剪接调控元件等。如何识别这些剪接信号、研究其在基因组中的分布规律是一个有趣的问题。设计了一个基于序列特征的剪接信号打分算法,该算法可赋予每个信号一个分值,表示其信号强度。基于该打分算法所构建的分类器可用于预测识别新的剪接信号。应用该打分算法研究剪接位点和剪接调控元件在基因组中的分布,发现这两类信号具有互补特性。该研究提供了一种可用于分析生物序列数据的新方法,给出了一个从生物信息学角度来研究基因调控问题的新途径。  相似文献   

2.
精确预测剪接位点是真核基因系统研究的第一步。为了取得更加精确的预测结果,本文采用了一个新的标识序列识别方法HM-SVM对剪接位点进行识别。依据剪接位点附近存在的序列保守性,将联合核函数学习融入最大边缘分类器,结合HM-SVM工作集最优化算法,构建并生成了健壮分类器。实验结果表明,该方法在对于剪接位点的识别中,较目前常用的机器学习方法,获得了更高识别率。  相似文献   

3.
左敏  王虹  颜文婧  张青川 《计算机应用》2023,(10):3309-3314
随着高通量测序技术的发展,海量的基因组序列数据为了解基因组的结构提供了数据基础。剪接位点识别是基因组学研究的重要环节,在基因发现和确定基因结构方面发挥着重要作用,且有利于理解基因性状的表达。针对现有模型对脱氧核糖核酸(DNA)序列高维特征提取能力不足的问题,构建了由BERT(Bidirectional Encoder Representations from Transformer)和平行的卷积神经网络(CNN)组合而成的剪接位点预测模型——BERT-splice。首先,采用BERT预训练方法训练DNA语言模型,从而提取DNA序列的上下文动态关联特征,并且使用高维矩阵映射DNA序列特征;其次,采用人类参考基因组序列hg19数据,使用DNA语言模型将该数据映射为高维矩阵后作为平行CNN分类器的输入进行再训练;最后,在上述基础上构建了剪接位点预测模型。实验结果表明,BERT-splice模型在DNA剪接位点供体集上的预测准确率为96.55%,在受体集上的准确率为95.80%,相较于BERT与循环卷积神经网络(RCNN)构建的预测模型BERT-RCNN分别提高了1.55%和1.72%;同时,...  相似文献   

4.
为使得隐马尔可夫模型(HMM)能够处理非相邻可见符号之间的依赖关系,将延时机制引入标准的HMM中。该技术仅仅改变了高阶状态发射概率的计算。所有适用于HMM的算法基本保持不变。该文设计了一个一阶延时隐马尔可夫模型和一个一阶标准隐马尔可夫模型,将两者分别应用于水稻基因剪接供体位点的识别。识别结果显示,延时模型的判别能力在一定程度上优于标准模型。对那些特征很不符合的位点,延时模型给出了相对低得多的得分。  相似文献   

5.
张勇  徐云 《计算机系统应用》2016,25(12):138-142
高通量转录组测序技术已经发展成为分析不同细胞中选择性剪接事件的最有效方法,其测序数据处理的第一步是将数以百万的测序片段准确地比对到参考序列上,称之为转录组序列比对.现有的比对工具基本上都是依赖于经典的剪接位点信号,一定程度上限制了转录组测序技术发现全新剪接位点的能力.为此,我们设计了一种不依赖于剪接位点信号的转录组序列比对方法RNAMap,该方法按照重叠种子方式划分测序片段,使用带有左右锚点的窗口扫描参考序列,找出种子中含有的剪接位点.计算实验表明,RNAMap精确度高达95%,召回率也明显优于其他算法.  相似文献   

6.
基于序列模式特征和SVM的剪切位点预测   总被引:1,自引:1,他引:0       下载免费PDF全文
通过对HS3D数据集供点序列碱基的统计分析,利用供体位点邻域碱基出现规律构造模式(motif)作为DNA序列的属性。设置序列属性值将字符序列映射成数字向量,应用支撑向量机进行实验,实现对供体位点的预测分类。实验结果表明,与改进的motif得分模型方法相比,该文方法可有效去除数据中异常数据对分类的影响,将DNA字符序列变换到motif属性数字序列空间具有有效性和实用性。  相似文献   

7.
孙波  李小霞  李铖果 《计算机应用》2011,31(4):1117-1120
为了提高模糊支持向量机(FSVM)对剪接位点的识别精度,提出一种计算样本隶属度的新方法。将样本到两聚类中心的距离比值作为样本的初始隶属度,采用K近邻(KNN)方法计算样本的紧密度,最后将初始隶属度与紧密度的乘积作为样本的最终隶属度,这样既提高了支持向量的隶属度,又降低了噪声样本的隶属度。将此方法应用到剪接位点的识别中,对组成性5′和3′剪接位点的识别精度分别达到了94.65%和 88.79%,与经典支持向量机相比,3′剪接位点的识别精度提高了7.94%。  相似文献   

8.
提出一种基于最大频繁模式、模式相似与属性描述相结合的多维序列模式挖掘算法MSP,该算法包括3个步骤:挖掘数据集中的最大频繁模式,每个频繁模式成为一个模式类;比较数据中各序列项序列与各模式类的包含与相似关系;按照一定的规则抽取与各模式类相关的属性,给出以属性为前件、模式类为后件的多维序列规则为形式的多维序列模式挖掘结果....  相似文献   

9.
对现有最大序列模式挖掘算法候选序列模式过多以及可扩展性差的缺点,提出了一种基于序列匹配的最大序列模式挖掘算法CSMS(compare sequence finding maximal sequential pattern).算法首先为所有频繁1序列构建位置信息表;然后利用纵向、横向结合搜索位置信息表的序列扩展匹配方法找到潜在最大序列模式;在进行序列匹配扩展的同时,把每个找到的潜在最大序列模式存储在改进的前缀树PStree(prefix sequential pattern tree)中,树中每个结点链接到索引Hash表,Hash表中保存了结点的位置信息,对于那些重复的序列可以直接从Hash表中找到其位置信息;最后通过对前缀树PStree进行剪枝,得到由最大序列模式组成的前缀树MPStree(maximal sequential pattern tree).实验结果表明算法CSMS具有较好的时间效率和扩展性.  相似文献   

10.
依据剪接位点附近存在的序列保守性出现了多种机器学习识别方法,如基于统计概率的方法、基于隐马尔可夫模型(Hidden Markov Model,HMM)的方法和基于支持向量机(Support Vector Machines,SVM)的方法等,这些方法识别精度较高,但算法过程复杂。基于剪接位点附近碱基之间的相关性和统计特征,构造了一种固定位点上碱基间的网络结构图,并在此网络结构图的基础上提出了基于概率统计特征的剪接位点识别计算公式,利用N269数据库对识别方法和其他传统方法的性能进行了比较。实验结果表明,基于概率统计特征的方法预测人类的剪接位点,有较好的预测效果,与其他的一些算法相比,表现出参数少,精度高等优点。  相似文献   

11.
提出了一种基于H-tree的多维序列模式挖掘算法,首先在序列信息中挖掘序列模式,然后针对每个序列模式,根据包含此模式的所有元组中的多维信息构造H-tree树,挖掘出相应的多维模式,从而得到了多维序列模式。该算法将多维分析方法与序列模式挖掘算法有效地结合在一起,当维度较高时具有较高的性能。  相似文献   

12.
提出一种新的闭合序列模式挖掘算法,该算法利用位置数据保存数据项的序列信息,并提出两种修剪方法:逆向超模式和相同位置数据。为了确保格存储的正确性和简洁性,另外还针对一些特殊情况做处理。试验结果表明,在中大型数据库和小支持度的情况下,该算法比CloSpan算法[8]更有效。  相似文献   

13.
现有的序列模式算法大都需要频繁访问数据库,效率低.本文提出了一种只需访问数据库一次的基于概念的序列模式算法SPC(Sequential Pattern Algorithm Based on Concept).它利用概念来保存信息,通过划分搜索空间得到概念,并在保证数据挖掘结果正确的前提下采用项有序,合并等价子空间和舍弃无效子空间等手段减少搜索空间数量,提高了效率.  相似文献   

14.
林颖 《计算机工程》2011,37(22):64-66
针对数据库减量时不断重复挖掘的问题,在已有闭合序列模式算法PosD*的基础上,提出一种减量挖掘算法 DePosD*。通过移动频繁和非频繁闭合序列集合之间的数据,在原有挖掘结果上直接进行更新,减少挖掘的时间。实验结果证明,在减量过程中该算法的时间效率与PosD*相比有所提高。  相似文献   

15.
由于数据规模的快速增长,高效用序列模式挖掘算法效率严重下降.针对这种情况,提出基于MapReduce的高效用序列模式挖掘算法HusMaR.算法基于MapReduce框架,使用效用矩阵高效地生成候选项;使用随机映射策略均衡计算资源;使用基于领域的剪枝策略来防止组合爆炸.实验结果表明,在大规模数据集下,算法取得了较高的并行效率.  相似文献   

16.
目前,不少审计系统引入数据挖掘技术以增强系统功能。其中,大多数都是基于关联规则技术。关联规则技术无法挖掘出具有时序特征的规则,而序列模式挖掘刚好能解决这方面的问题。该文讲述一种基于序列模式挖掘技术的审计系统的设计与实现。该审计系统审计的数据源自身份验证、入侵检测、访问控制等模块产生的事件记录,并通过序列模式挖掘技术来分析这些记录,从中提取规则实现审计,并介绍了如何解决选取数据、预处理数据、选取挖掘算法等实际问题的方法。  相似文献   

17.
WebLog访问序列模式挖掘将数据挖掘中的序列模式技术应用于Web服务器上的日志文件,以此来改善Web的信息服务,而在对海量的数据挖掘时,系统资源开销很大。该文结合SPAM、PrefixSpan的思想,提出一个新的算法——SPAM-FPT,该算法通过建立First_Positon_Table,避免了SPAM中的“与操作”、“连接操作”以及PrefixSpan中大量的“投影数据库”的建立,可以快捷地挖掘数据库中所有“频繁子序列”。  相似文献   

18.
传统数据挖掘算法在处理海量数据集时计算能力有限。为解决该问题,提出一种基于Map Reduce的分布式序列模式挖掘算法MR-PrefixSpan。在PrefixSpan算法的基础上,对模式挖掘任务进行分割,利用Map函数处理由不同前缀得到的序列模式,并行构造投影数据库,从而提高挖掘效率及简化搜索空间。采用Reduce函数对中间结果进行规约,得到全局序列模式。在Hadoop集群上的实验结果表明,MR-PrefixSpan能减少数据库扫描时间,具有较高的并行加速比和较好的可扩展性。  相似文献   

19.
基于PrefixSpan的序列模式挖掘改进算法   总被引:1,自引:0,他引:1       下载免费PDF全文
汪林林  范军 《计算机工程》2009,35(23):56-58,6
针对序列模式挖掘算法PrefixSpan在挖掘过程中需要构造大量投影数据库的不足,提出IPMSP算法,在递归挖掘过程中,通过检查序列数据库关于前缀的前缀,避免对同一频繁前缀模式构造重复投影数据库,同时舍弃对非频繁项的存储并在投影序列数小于最小支持度时停止扫描投影数据库,从而提高PrefixSpan算法的时空性能。实验结果证明,IPMSP算法在时间和空间性能上优于PrefixSpan算法。  相似文献   

20.
一种基于大项集重用的序列模式挖掘算法   总被引:5,自引:0,他引:5  
在重新定义序列模式的长度、增加了序列模式的挖掘粒度的基础上,提出一种基于大项集重用的序列模式挖掘算法HVSM.该算法采用垂直位图法表示数据库,先横向扩展项集,将挖掘出的所有大项集组成一大序列项集,再纵向扩展序列,将每个一大序列项集作为“集成块”,在挖掘k大序列时重用大项集.并以兄弟节点为种子生成候选大序列,利用1st—TID对支持度进行计数.实验表明,对于大规模事务数据库,该算法有效地提高了挖掘效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号