首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
蛋白质功能的准确预测有利于推进生物医学发展,高通量测序技术的快速发展加快了蛋白质序列的提取速度,从而产生了大量未注释的蛋白质,并且新测序序列缺乏结构等生物信息,针对该问题提出了基于序列和组合图卷积网络的蛋白质功能预测模型(Protein Function Prediction using Sequences and Combined Graph Convolutional Networks, PFP-SCGCN).首先通过深度学习方法捕获蛋白质序列的多维特征信息,再通过多序列比对从蛋白质序列中提取进化耦合信息和氨基酸残基群落,然后利用进化耦合信息和氨基酸残基群落生成序列氨基酸之间两种不同连接程度的邻接矩阵,将这两种邻接矩阵与序列特征信息一起输入给组合图卷积网络进行信息融合,最后通过多个全连接层获得蛋白质功能类别信息.本文还通过分析PFP-SCGCN的特定网络层识别蛋白质功能位点,可帮助人们推测出新序列中的重要氨基酸.模型结果表明,PFP-SCGCN模型的功能预测准确率远高于对比方法,具有较好的鲁棒性,并且可以较准确的识别功能位点.  相似文献   

2.
曹汉童  陈璟 《智能系统学报》2012,(收录汇总):1165-1172
多类型蛋白质−蛋白质相互作用(protein-protein interaction,PPI)的研究是从系统角度理解生物过程和揭示疾病机制的基础。现有的GNN-PPI、PIPR等针对多类型PPI预测方法在采用广度和深度优先搜索对数据集进行划分时,测试准确率会显著下降,因此本文基于Doc2vec方法思想和图卷积神经网络(graph convolutional network,GCN)技术,提出了一种新的多类型PPI预测方法GDP(GCN Doc2vec PPI)。该方法无需依赖蛋白质的物理和生物学特性,仅用序列信息对蛋白质进行编码,并结合网络结构信息对蛋白质进行特征聚合形成PPI信息,从而对其进行多类型预测。实验结果表明,该方法在不同规模的真实数据中可以有效地提高多类型PPI预测准确率,尤其是在训练集中未曾见过的新蛋白质之间的PPI。  相似文献   

3.
由DeepMind开发的AlphaFold在蛋白质结构预测领域取得了前所未有的巨大突破,对生命科学的研究产生了革命性的影响。基于大规模的结构预测,AlphaFold结构预测数据库得以建立,它包含2亿多种蛋白,并覆盖了数十种物种的完整蛋白质组。该综述介绍了在“后AlphaFold时代”利用统计物理方法研究蛋白质进化问题的一些最新进展。传统的蛋白质进化研究往往关注同一个家族的蛋白质序列或者结构(微观视角),而随着AlphaFold预测的海量蛋白质结构的出现,研究者可以把视角扩展到大量蛋白质的集合,甚至是直接对比不同物种体内的全部蛋白质,从中挖掘统计趋势(宏观视角)。基于AlphaFold数据库,通过对比40多种模式生物体内相似链长的蛋白质,研究者发现了蛋白质分子进化中的统计规律。随着物种复杂性的提高,蛋白质结构将趋向于更高的柔性和模块化程度,蛋白质序列将趋向于出现更显著的亲疏水片段分隔,蛋白质的功能专一性也不断提高。这些基于AlphaFold的统计研究在分子进化和物种进化之间建立了联系,有助于理解生物复杂性的演化。  相似文献   

4.
蛋白质亚细胞位置预测研究是目前蛋白质组学和生物信息学研究的重点问题之一。蛋白质的亚细胞定位决定了它的生物学功能,故研究亚细胞定位对了解蛋白质功能非常重要。由于蛋白质结构的序列性,考虑使用序列模型来进行亚细胞定位研究。尝试使用卷积神经网络(convolutional neural network,CNN)、长短期记忆神经网络(long short-term memory,LSTM)两种模型挖掘氨基酸序列所包含的信息,从而进行亚细胞定位的预测。随后构建了基于卷积的长短期记忆网络(Convolutional-LSTM)的集成模型进行亚细胞定位。首先通过卷积神经网络对蛋白质数据进行特征抽取,随后进行特征组合,并将其送入长短期记忆神经网络进行特征表征学习,得到亚细胞定位结果。使用该模型能达到0.816 5的分类准确率,比传统方法有明显提升。  相似文献   

5.
鉴于不同类型氨基酸的相互作用对蛋白质结构预测的影响不同,文中融合卷积神经网络和长短时记忆神经网络模型,提出卷积长短时记忆神经网络,并应用到蛋白质8类二级结构的预测中.首先基于氨基酸序列的类别信息和氨基酸结构的进化信息表示蛋白质序列,并采用卷积提取氨基酸残基之间的局部相关特征,然后利用双向长短时记忆神经网络提取蛋白质序列内部残基之间的远程相互作用,最后将提取的蛋白质的局部相关特征和远程相互作用用于蛋白质8类二级结构的预测.实验表明,相比基准方法,文中模型提高8类二级结构预测的精度,并具有良好的可扩展性.  相似文献   

6.
蛋白质相互作用位点预测为蛋白质功能和药物设计的理解提供重要线索。而蛋白质的各种特征为蛋白质相互作用位点预测提供了大量有用信息,特别是进化信息、残基序列邻近和空间邻近性。不同的蛋白质特征对蛋白质间的相互作用的贡献也不一样。通过提取蛋白质序列谱、保守性和残基熵,提出了特征融合技术对蛋白质相互作用位点进行研究,采用SVM构建三种预测器,分别对各种不同的特征加以验证,实验结果表明了基于特征融合方法的有效性和正确性。  相似文献   

7.
胡赛  熊慧军  赵碧海  李学勇  王晶 《自动化学报》2015,41(11):1893-1900
一个蛋白质可能在不同条件或不同时刻与不同的蛋白质发生相互作用,这称为蛋白质的动态特性.蛋白质在分子处理的不同阶段参与到不同的模块,与其他的蛋白质共同完成某项功能.因此, 动态蛋白质相互作用的研究有助于提高蛋白质功能预测的准确率.结合蛋白质相互作用网络和时间序列基因表达数据,构建动态蛋白质相互作用网络.为降低PPI网络中假阴性对功能预测产生的负面影响,结合结构域信息和复合物信息,预测和产生新的相互作用,并对相互作用加权.基于构建的动态加权网络,提出一种功能预测方法D-PIN (Dynamic protein interaction networks). 基于三个不同的酵母相互作用网络实验结果表明, D-PIN 方法的综合性能比现有方法提高了14%以上.结果验证了构建的动态加权蛋白质相互网络的有效性.  相似文献   

8.
为了从蛋白质结构数据库中提取经验知识,进行蛋白质作用位点预测,提出了以蛋白质序列谱作为特征向量,采用支持向量机算法进行训练和预测蛋白质相互作用位点的方法。从蛋白质一级序列出发,以序列上邻近残基的序列谱为输入特征向量,采用支持向量机方法构建预测器,来预测蛋白质相互作用位点,预测精度达到70.47%,相关系数CC=0.1919。实验结果表明,利用蛋白质序列谱,结合支持向量机算法进行蛋白质相互作用位点预测的方法是有效的。  相似文献   

9.
杜秀全  程家兴  宋杰 《计算机工程》2010,36(18):203-204
蛋白质相互作用位点的预测是当前生物信息学的一个研究热点。针对蛋白质序列中对界面残基有影响的各种因素,提出将蛋白质的进化信息和保守性作为特征函数,此类信息体现了蛋白质序列中氨基酸之间短程和长程相互作用的影响。采用最大熵模型作为蛋白质作用位点识别的分类器,将多源信息融合成一个概率模型。实验结果表明该方法与其他传统机器学习方法相比,在特异度和精度上分别提高了2%~8%、3%~11%,且获得了较高的相关系数。  相似文献   

10.
随着后基因组时代的来临,蛋白质序列数量增长迅速,利用实验手段分析蛋白质亚细胞定位不易大规模进行.近年来,通过提取蛋白质的各种特征信息(序列编码技术),自动预测蛋白质的亚细胞定位的算法得到了较快的发展.综述了当前已有的序列编码技术成果,并指出了存在的问题及可能的发展方向.  相似文献   

11.
孟军  张信 《计算机应用》2015,35(6):1637-1642
针对单一数据源预测蛋白质功能效果不佳以及蛋白质相互作用网络信息不完全等问题,提出一种多数据源融合和基于双重索引矩阵的随机游走的蛋白质功能预测(MSI-RWDIM)算法。该算法使用了蛋白质序列、基因表达和蛋白质相互作用数据预测蛋白质功能,并根据这些数据源特性构建相应的相互作用加权网络;然后融合各数据源加权网络并结合功能相关性网络构建双重索引矩阵,使用随机游走算法计算得分进而预测蛋白质功能。在酵母数据集的五折交叉验证中,MSI-RWDIM算法具有较高的准确率和较低的覆盖率,还可降低功能标签损失率。研究结果表明,MSI-RWDIM算法的总体性能优于常用的k-近邻、直推式多标签集成分类和快速同步加权方法。  相似文献   

12.
序列标注是自然语言处理领域的基本任务。目前大多数序列标注方法采用循环神经网络及其变体直接提取序列中的上下文语义信息,尽管有效地捕捉到了词之间的连续依赖关系并取得了不错的性能,但捕获序列中离散依赖关系的能力不足,同时也忽略了词与标签之间的联系。因此,提出了一种多级语义信息融合编码方式,首先,通过双向长短期记忆网络提取序列上下文语义信息;然后,利用注意力机制将标签语义信息添加到上下文语义信息中,得到融合标签语义信息的上下文语义信息;接着,引入自注意力机制捕捉序列中的离散依赖关系,得到含有离散依赖关系的上下文语义信息;最后,使用融合机制将3种语义信息融合,得到一种全新的语义信息。实验结果表明,相比于采用循环神经网络或其变体对序列直接编码的方式,多级语义信息融合编码方式能明显提升模型性能。  相似文献   

13.
针对现有事件因果关系抽取方法关系边界识别能力弱和文本语义表征不足的问题,提出一种基于双层CNN-BiGRU-CRF深度学习模型的事件因果关系抽取方法。将因果关系抽取任务转换为两次序列标注任务分别由两层CNN-BiGRU-CRF模型完成,上层模型用于识别事件因果关系语义角色词,其标注结果作为特征输入下层模型划分因果关系边界。在每层模型中,采用突发事件样本数据对BERT模型进行微调,形成文本表示模型以获取语义特征向量矩阵,利用卷积神经网络和双向门控循环单元分别提取局部和全局深层特征,并将上述特征在每个时间序列步进行线性加权融合以增强语义表征能力,最终基于残差思想将高区分度特征输入CRF模型解码完成序列标注任务。在中文突发事件语料集上的实验结果表明,与BiLSTM-Att-规则特征、GAN-BiGRU-CRF等因果关系抽取方法相比,该方法的事件因果关系抽取效果更好,F值达到91.81%,能有效实现事件因果关系的准确抽取。  相似文献   

14.
The goal of image annotation is to automatically assign a set of textual labels to an image to describe the visual contents thereof. Recently, with the rapid increase in the number of web images, nearest neighbor (NN) based methods have become more attractive and have shown exciting results for image annotation. One of the key challenges of these methods is to define an appropriate similarity measure between images for neighbor selection. Several distance metric learning (DML) algorithms derived from traditional image classification problems have been applied to annotation tasks. However, a fundamental limitation of applying DML to image annotation is that it learns a single global distance metric over the entire image collection and measures the distance between image pairs in the image-level. For multi-label annotation problems, it may be more reasonable to measure similarity of image pairs in the label-level. In this paper, we develop a novel label prediction scheme utilizing multiple label-specific local metrics for label-level similarity measure, and propose two different local metric learning methods in a multi-task learning (MTL) framework. Extensive experimental results on two challenging annotation datasets demonstrate that 1) utilizing multiple local distance metrics to learn label-level distances is superior to using a single global metric in label prediction, and 2) the proposed methods using the MTL framework to learn multiple local metrics simultaneously can model the commonalities of labels, thereby facilitating label prediction results to achieve state-of-the-art annotation performance.  相似文献   

15.
Machine learning is being implemented in bioinformatics and computational biology to solve challenging problems emerged in the analysis and modeling of biological data such as DNA, RNA, and protein. The major problems in classifying protein sequences into existing families/superfamilies are the following: the selection of a suitable sequence encoding method, the extraction of an optimized subset of features that possesses significant discriminatory information, and the adaptation of an appropriate learning algorithm that classifies protein sequences with higher classification accuracy. The accurate classification of protein sequence would be helpful in determining the structure and function of novel protein sequences. In this article, we have proposed a distance‐based sequence encoding algorithm that captures the sequence's statistical characteristics along with amino acids sequence order information. A statistical metric‐based feature selection algorithm is then adopted to identify the reduced set of features to represent the original feature space. The performance of the proposed technique is validated using some of the best performing classifiers implemented previously for protein sequence classification. An average classification accuracy of 92% was achieved on the yeast protein sequence data set downloaded from the benchmark UniProtKB database.  相似文献   

16.
视频编码存储器接口是H.264高清视频编码系统的关键模块,用于快速高效地存储和读取编码过程中产生的大量中间数据(其中主要包括运动估计、宏块信息、去块滤波和码流数据等)。目前普遍采用的片外SRAM或SDRAM进行数据缓存的方案工作频率低,大数据量和编码实时性需求难以满足,这使得高清存储接口的性能成为系统设计的瓶颈。文中提出了基于DDR2控制器的存储接口方案设计和电路实现,还系统地描述了存储器接口的时序。通过后仿真验证和流片测试,证明文中提出的设计方案,划分存储器接口的子模块结构合理;实现的电路能有效地完成高清视频实时编码。  相似文献   

17.
Coevolution is a promising approach to evolve teams of agents which must cooperate to achieve some system objective. However, in many coevolutionary approaches, credit assignment is often subjective and context dependent, as the fitness of an individual agent strongly depends on the actions of the agents with which it collaborates. In order to alleviate this problem, we introduce a cooperative coevolutionary algorithm which biases the evolutionary search as well as shapes agent fitness functions to promote behavior that benefits the system-level performance. More specifically, we bias the search using a hall of fame approximation of optimal collaborators, and shape the agent fitness using the difference evaluation function. Our results show that shaping agent fitness with the difference evaluation improves system performance by up to 50 %, and adding an additional fitness bias improves performance by up to 75 % in our experiments. Finally, an analysis of system performance as a function of computational cost demonstrates that this algorithm makes extremely efficient use of computational resources, having a higher performance as a function of computational cost than any other algorithm tested.  相似文献   

18.
Functional annotation is the process that assigns a biological functionality to a deoxyribonucleic acid (DNA) sequence. It requires searching in huge data sets for candidates, and inferring the most appropriate features based on the information found and expert knowledge. When humans perform most of these tasks, results are of a high quality, but there is a bottleneck in processing; when experts are largely replaced by automated tools, annotation is faster but of poorer quality. Combining the automatic annotation with expert systems (ESs) can enhance the quality of the annotation, while effectively reducing experts’ workload. This paper presents INFAES, a rule-based ES developed for mimicking the human reasoning in the inference stage of the functional annotation. It integrates knowledge on Biology and heuristics about the use of Bioinformatics tools. Its development adopts state-of-the-art methodologies to facilitate the acquisition and integration of new knowledge. INFAES showed a high performance when compared to the systems developed for the first large-scale community-based critical assessment of protein function annotation (CAFA) [1].  相似文献   

19.
路侧感知算法融合车载感知算法实现了超视距感知, 基于深度学习的感知算法性能取决于激光雷达点云标签标注的质量, 而点云标签相对于二维图像更难标注, 需要大量时间人力成本进行标注, 且现行感知算法都是针对于车载激光雷达. 针对这些问题, 本文提出了一种基于路侧激光雷达栅格特征聚类的感知算法, 该算法首先对路侧激光雷达点云栅格化并提取特征, 再构建深度学习方法模型学习栅格的初级感知信息, 最后根据初级感知信息进行聚类完成感知检测. 本文还利用仿真平台模拟路侧激光雷达点云, 并研究混合数据集在感知算法训练上的应用, 基于模拟数据预训模型微调(Fine-tune)在感知算法上的应用. 实验结果表明, 本文提出的路侧感知算法具有较高的实时性与可靠性, 模拟路侧激光雷达点云有助于路侧感知算法训练, 减少路侧感知算法对标注工作的依赖, 提高感知算法性能.  相似文献   

20.
赵婧  魏彬  张瑾 《计算机科学》2016,43(Z6):219-221, 235
作为第三代遗传标记的单核苷酸多态性(SNP)具有数量众多、分布广泛且遗传稳定性等特点,其是疾病-基因相关性以及药物设计等研究的基础所在。这类研究多采用基于计算的方法,因此如何对SNP进行适当的编码进而提升算法的性能是其中十分关键的一个环节,然而目前专门针对SNP编码问题的研究还相对较少。在常用SNP表示方式的基础上,根据疾病易感性研究的特点,并结合SNP之间的关联性,提出了几种新的编码方法。大量实验表明,编码方式对疾病易感性分析算法的性能有着较大的影响,基于分布信息的编码方法能获得更好的结果,即其能更好地对SNP序列进行描述,在最大程度上保留原有生物序列所携带的丰富信息,更适合于疾病易感性研究。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号