首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
氨基酸序列编码问题一直是在蛋白质结构预测中导致算法输入空间较大的主要原因。只有对氨基酸序列进行更好的编码,才能为后续进行计算机分析打下基础。提出并实现了综合考虑了氨基酸序列的划分和长程作用效应,利用氨基酸正交编码区分每个氨基酸个体,利用基本正交矩阵获得氨基酸在物理、化学、生物上的相似性,利用分属概率来获得当前蛋白质序列中氨基酸构成不同二级结构的趋势的新的混合编码方法,从而改进了氨基酸残基序列编码,并利用现有算法比较了不同编码方式对蛋白质二级结构预测的影响,结果证实该编码方式能够提高蛋白质二级结构预测的准确性。  相似文献   

2.
蛋白质的生物功能是由它们的空间折叠结构决定的,理解蛋白质的折叠过程是生物信息学领域中极具挑战性的问题之一。近年来,各种优化方法用于蛋白质空间折叠结构预测。这些方法仍存在着不足,算法在变量数目增大时,难以收敛到全局最优解,并容易产生早熟收敛,从而影响求解精度和效率。针对蛋白质结构预测模型多变量多极值的特点,文章采用机器学习方法对蛋白质进行折叠结构预测。  相似文献   

3.
针对现有的基于蛋白质相互作用(PPI)网络的蛋白质功能预测方法预测精度不高、易受数据噪声影响的问题,提出一种基于机器学习(层次聚类、主成分分析和多层感知器)的蛋白质功能预测方法HPMM。该方法综合考虑蛋白质宏观和微观层面的信息,将蛋白质家族、结构域和重要位点信息作为顶点属性整合到PPI网络中以减轻网络中数据噪声的影响。首先,基于层次聚类和主成分分析进行特征提取,得到功能模块和属性主成分特征,然后训练多层感知器模型,建立多特征与多功能之间的映射关系以用于功能预测。在三个分别被分子功能(MF)、生物过程(BP)和细胞组件(CC)注释的人类PPI网络上进行测试,对HPMM、余弦迭代算法(CIA)和有向PPI网络基因本体术语传播(GoDIN)算法的功能预测效果进行比较分析。实验结果表明,相比CIA和GoDIN这两种完全基于PPI网络的方法,HPMM的精确度与F值更高。  相似文献   

4.
基于机器学习的软件缺陷预测是一种有效的提高软件可靠性的方法。该方法基于软件模块的统计特性预测软件模块可能出现的缺陷数或是否容易出现缺陷。通过对软件模块缺陷状况的预测,软件开发组织可以将有限的资源集中于容易出现缺陷的模块,从而有效地提高软件产品的质量。基于机器学习的软件缺陷预测近年来出现了很多研究成果,文章概述该领域近年来的主要研究成果,并根据各方法的特点进行了分类。  相似文献   

5.
决策树算法在蛋白质二级结构预测问题中的应用研究   总被引:1,自引:0,他引:1  
论文将决策树算法应用于蛋白质二级结构预测中,在蛋白质二级结构预测应用研究中,我们指出了在蛋白质二级结构预测问题中决策树分类属性的选择方法和决策树分类方法和决策树剪枝方法,并且比较了改进后的决策树算法和c45决策树算法在蛋白质二级结构预测问题中的应用效果。  相似文献   

6.
通过使用逻辑回归、决策树、朴素贝叶斯算法、反向传播、随机森林5种典型的机器学习算法对教育大数据进行分析和解读,从中提取隐含的潜在信息,经过数据分析、清洗、建模等步骤,构建多个模型,对比选取最优模型对在线教学学生学习成绩进行全面客观的预测.最终验证,逻辑回归算法是准确率最高的学生成绩预测算法,并且得到了相应的模型拟合表达...  相似文献   

7.
为了能尽早发现软件中存在的缺陷,使用传统的机器学习方法来预测软件模块的缺陷倾向性,选取了NASA公开数据集中的部分数据集,针对软件缺陷预测中类不平衡的问题,分别采取了随机欠采样和随机过采样的方案,再使用逻辑回归算法和随机森林算法分别对数据集进行训练和预测,使用了查准率(Precision)、查全率(Recall)、RO...  相似文献   

8.
蛋白质是由多个氨基酸残基顺序连接而成的长链.在天然状态下,蛋白质并不是无规则的自由状态,而是自发形成特定的空间结构,以执行其特定的生物学功能.驱动蛋白质形成特定空间结构的主要因素是残基间的非共价相互作用,包括疏水作用、静电相互作用、范德华力等.因此,对残基之间远程相互作用的准确预测将有助于对蛋白质空间结构的预测,进而有助于对蛋白质生物学功能的了解.在蛋白质进化过程,有相互作用残基对之间存在一种“共进化”模式,即当一个残基发生变异时,与其有相互作用的残基也要发生相应的变异,以维持相互作用,进而维持整体空间结构以及生物学功能.基于上述生物学观察,研究者开发了多个统计模型和算法以预测残基对之间的相互作用:1)概述残基之间远程相互作用的两大类基本预测算法,包括无监督学习方法和监督学习方法;2)使用蛋白质结构预测CASP比赛结果来客观比较上述各类算法的性能,分析各个算法的特点和优势;3)从生物学观察和统计模型2个角度分析总结了未来的发展趋势.  相似文献   

9.
由于分布式计算系统能为大数据分析提供大规模的计算能力,近年来受到了人们的广泛关注.在分布式计算系统中,存在某些计算节点由于各种因素的影响,计算速度会以某种随机的方式变慢,从而使运行在集群上的机器学习算法执行时间增加,这种节点叫作掉队节点(straggler).介绍了基于编码技术解决这些问题和改进大规模机器学习集群性能的研究进展.首先介绍编码技术和大规模机器学习集群的相关背景;其次将相关研究按照应用场景分成了应用于矩阵乘法、梯度计算、数据洗牌和一些其他应用,并分别进行了介绍分析;最后总结讨论了相关编码技术存在的困难并对未来的研究趋势进行了展望.  相似文献   

10.
基于predictprotein平台,通过整合threader、ROSETTA和ZDOCK等关于大分子建模的免费软件包,构建了蛋白质结构预测虚拟机,并对不能进行同源建模的BmKAP蛋白质序列的二级结构和三维结构分别进行了初步预测。  相似文献   

11.
基于相关向量机的机器学习算法研究与应用   总被引:4,自引:0,他引:4  
介绍一种新的机器学习方法——相关向量机(Relevance Vector Machine)。相关向量机是一种新的基于贝叶斯统计学习理论的学习方法,与支持向量机(Support Vector Machine)的相比,可以有概率型输出、更稀疏和核函数选择更自由等优点。详细论述相关向量机的研究现况、理论基础及算法思想,并通过仿真实验说明该方法曲有效性,最后展望相关向量机的研究发展趋势,且提出相关向量机中仍需解决的关键问题。  相似文献   

12.
Accurate remaining useful life(RUL) prediction is important in industrial systems. It prevents machines from working under failure conditions, and ensures that the industrial system works reliably and efficiently. Recently, many deep learning based methods have been proposed to predict RUL.Among these methods, recurrent neural network(RNN) based approaches show a strong capability of capturing sequential information. This allows RNN based methods to perform better than convolutional neural netwo...  相似文献   

13.
Machine learning is being implemented in bioinformatics and computational biology to solve challenging problems emerged in the analysis and modeling of biological data such as DNA, RNA, and protein. The major problems in classifying protein sequences into existing families/superfamilies are the following: the selection of a suitable sequence encoding method, the extraction of an optimized subset of features that possesses significant discriminatory information, and the adaptation of an appropriate learning algorithm that classifies protein sequences with higher classification accuracy. The accurate classification of protein sequence would be helpful in determining the structure and function of novel protein sequences. In this article, we have proposed a distance‐based sequence encoding algorithm that captures the sequence's statistical characteristics along with amino acids sequence order information. A statistical metric‐based feature selection algorithm is then adopted to identify the reduced set of features to represent the original feature space. The performance of the proposed technique is validated using some of the best performing classifiers implemented previously for protein sequence classification. An average classification accuracy of 92% was achieved on the yeast protein sequence data set downloaded from the benchmark UniProtKB database.  相似文献   

14.
该文主要介绍了袜机数据的整合及对整合的效率进行了分析,有效的减小了数据所占用的位数;根据袜机数据的特点且存在大量的重复性字符,我们应用无损编码技术对袜机数据冗余部分进行压缩,通过比较几种无损编码技术的平均压缩率,得出了最适合袜机数据的压缩方式。  相似文献   

15.
机器阅读理解是自然语言处理中的一项重要而富有挑战性的任务.近年来,以BERT为代表的大规模预训练语言模型在此领域取得了显著的成功.但是,受限于序列模型的结构和规模,基于BERT的阅读理解模型在长距离和全局语义构建的能力有着显著缺陷,影响了其在阅读理解任务上的表现.针对这一问题,该文提出一种融合了序列和图结构的机器阅读理...  相似文献   

16.
在可扩展标记语言(XML)文档的查询过程中,为快速判断任意两节点关系,提出一种基于同心圆切割的编码方案.将一棵n层的XML树看作由n个不同半径的同心圆组成,圆心代表根节点,根据兄弟节点等分切割给定区域的思想,将圆半径、角度与标识相结合进行编码.实验结果表明,与DietZ和StratE编码方法相比,该方案可加快节点间关系判断及任一节点在文档中具体定位的速度,时空效率较高.  相似文献   

17.
余笑岩  何世柱  宋燃  刘康  赵军  周永彬 《软件学报》2023,34(11):5179-5190
选择式阅读理解通常采用证据抽取和答案预测的两阶段流水线框架,答案预测的效果非常依赖于证据句抽取的效果.传统的证据抽取多依赖词段匹配或利用噪声标签监督证据抽取的方法,准确率不理想,这极大地影响了答案预测的性能.针对该问题,提出一种联合学习框架下基于多视角图编码的选择式阅读理解方法,从多视角充分挖掘文档句子之间以及文档句子和问句之间的关联关系,实现证据句及其关系的有效建模;同时通过联合训练证据抽取和答案预测任务,利用证据和答案之间强关联关系提升证据抽取与答案预测的性能.具体来说,所提方法首先基于多视角图编码模块对文档、问题和候选答案联合编码,从统计特性、相对距离和深度语义3个视角捕捉文档、问题和候选答案之间的关系,获得问答对感知的文档编码特征;然后,构建证据抽取和答案预测的联合学习模块,通过协同训练强化证据与答案之间的关系,证据抽取子模块实现证据句的选择,并将其结果和文档编码特征进行选择性融合,并用于答案预测子模块完成答案预测.在选择式阅读理解数据集ReCO和RACE上的实验结果表明,所提方法提升了从文档中选择证据句子的能力,进而提高答案预测的准确率.同时,证据抽取与答案预测联合学习很大程度减缓了传统流水线所导致的误差累积问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号