共查询到19条相似文献,搜索用时 93 毫秒
1.
蛋白质相互作用位点预测为蛋白质功能和药物设计的理解提供重要线索。而蛋白质的各种特征为蛋白质相互作用位点预测提供了大量有用信息,特别是进化信息、残基序列邻近和空间邻近性。不同的蛋白质特征对蛋白质间的相互作用的贡献也不一样。通过提取蛋白质序列谱、保守性和残基熵,提出了特征融合技术对蛋白质相互作用位点进行研究,采用SVM构建三种预测器,分别对各种不同的特征加以验证,实验结果表明了基于特征融合方法的有效性和正确性。 相似文献
2.
蛋白质-蛋白质相互在细胞生命过程扮演重要角色,广泛参与免疫反应,信号传导,基因表达,蛋白质合成等,研究蛋白质-蛋白质作用位点,将有助于揭示生命过程的许多本质,对预防、诊断疾病,以及突变设计、蛋白质相互作用网络构建等方面均具有重要的参考价值.根据蛋白质.蛋白质作用位点残摹倾向性及作用位点与其周围临近残基密切相关的特性,本文提出基于序列谱(或空间谱)构建自相关函数,度量邻近残基之间的相关程度,采用AdaB00st分类器预测蛋白质-蛋白质相互作用位点,精度达到67.6%,表明本文的方法预测蛋白质-蛋白质相互作用位点是有效的,为研究蛋白质-蛋白质相互作用位点研究提供了一种新方法. 相似文献
3.
为了从蛋白质结构数据库中提取经验知识,进行蛋白质作用位点预测,提出了以蛋白质序列谱作为特征向量,采用支持向量机算法进行训练和预测蛋白质相互作用位点的方法。从蛋白质一级序列出发,以序列上邻近残基的序列谱为输入特征向量,采用支持向量机方法构建预测器,来预测蛋白质相互作用位点,预测精度达到70.47%,相关系数CC=0.1919。实验结果表明,利用蛋白质序列谱,结合支持向量机算法进行蛋白质相互作用位点预测的方法是有效的。 相似文献
4.
基于最大熵模型预测蛋白质结构的分类 总被引:1,自引:0,他引:1
基于最大熵模型,构建一种简单的预测蛋白质序列结构分类的算法。不同性质的氨基酸组合,在特定结构的蛋白质二级结构中,出现的频率不同,通过在模体数据库Prosite中查找蛋白质序列匹配的模体,以10种氨基酸组合在序列中出现的频率,表示蛋白质序列的特征,构建相应的结构分类预测模型。最大熵模型用来确定蛋白质结构分类预测模型的参数。以自身一致性和Jackknife测试方法验证分类模型的准确性。结果表明新构建的方法简单、准确,综合性能优于一般的预测方法。 相似文献
5.
6.
蛋白质的功能常体现在生物大分子的相互作用中,识别蛋白质相互作用位点对于研究蛋白质功能发挥着重要作用.蛋白质问主要通过表面残基发生相互作用,蛋白质相互作用形成复合体时,只有部分表面残基参与了该过程.基于序列谱信息,提取序列上相邻残基的序列谱作为输入特征向量,对大小为3和7的残基信息窗(win3,win7),分别采用支持向量机(SVM)分类器对蛋白质相互作用位点进行预测、比较和分析.最终实验结果为:win3的平均正确率为69.31%,win7的平均正确率为69.68%. 相似文献
7.
蛋白质的功能常体现在生物大分子的相互作用中,识别蛋白质相互作用位点对于研究蛋白质功能发挥着重要作用。蛋白质间主要通过表面残基发生相互作用,蛋白质相互作用形成复合体时,只有部分表面残基参与了该过程。基于序列谱信息,提取序列上相邻残基的序列谱作为输入特征向量,对大小为3和7的残基信息窗(win3,win7),分别采用支持向量机(SVM)分类器对蛋白质相互作用位点进行预测、比较和分析。最终实验结果为:win3的平均正确率为69.31%,win7的平均正确率为69.68%。 相似文献
8.
本文针对人名的特点,建立了特征模板,并在此基础上提取了特征集,利用特征选择算法提取了有效特征,并建立了一个基于最大熵的人名识别模型。基于最大熵模型,探索性地构建了一个人名识别的系统,取得了较好的效果。该系统将潜在人名发现和使用最大熵模型进行标注两个阶段的工作有机地结合到一起。较好地解决了人名竞争问题;并对重点模块的算法进行了详细描述。 相似文献
9.
蛋白质界面残基预测是蛋白质相互作用研究中的一项基本工作,在生物制药及蛋白质功能研究方面有着重要的应用.以蛋白质中的氨基酸残基为研究对象,使用残基的溶剂可及表面积及残基的序列谱为特征集,构建了基于贝叶斯方法的蛋白质界面残基预测器.方法有效地结合了蛋白质残基特征集的条件独立性假设及贝叶斯方法在处理不确定性数据方面的优点,通过对含77个蛋白质的数据集进行实验,结果比其它方法获得了6%的准确率的提高,三维可视化的结果也表明分类器预测的有效性. 相似文献
10.
蛋白质相瓦作用位点在细胞进程中有着非常重要的作用.尽管利用高通量方法发现蛋白质相瓦作用位点取得很大的成功,仍需要计算方法辅助预测实验中的相互作用位点.本文提出了基于残基序列谱、进化率和疏水性的预测异源蛋白质复合物作用位点的两种向量表示方法并以支持向量机实现预测.其中,提出新的向量表示法取得更好的预测性能.文中的数据集由66个异源复合物蛋白质链组成. 相似文献
11.
越南与中国一水相依,是重要的政治、军事和经济合作邻国,然而针对越南语新闻事件元素的提取研究非常匮乏。本文针对越南语特点,提出一种基于最大熵模型的越南语新闻事件元素抽取方法。该方法针对越语句子结构和词汇语义的特点,采用最大熵算法,选取上下文、邻近触发词以及邻近实体作为特征,定义特征模版,训练获得越南语新闻事件模型,实现新闻事件元素抽取。抽取实验结果表明本文提出的方法抽取新闻事件元素的准确率达到80%以上。 相似文献
12.
传统机器学习和数据挖掘算法主要基于两个假设:训练数据集和测试数据集具有相同的特征空间和数据分布.然而在实际应用中,这两个假设却难以成立,从而导致传统的算法不再适用.迁移学习作为一种新的学习框架能有效地解决该问题.着眼于迁移学习的一个重要分支——归纳迁移学习,提出了一种基于最大熵模型的加权归纳迁移学习算法WTLME.该算法通过将已训练好的原始领域模型参数迁移到目标领域,并对目标领域实例权重进行调整,从而获得了精度较高的目标领域模型.实验结果表明了该算法的有效性. 相似文献
13.
徐扬 《计算机工程与科学》2007,29(4):95-97
隐喻是我们日程生活中常见的语言现象,利用计算机识别隐喻已经成为自然语言处理、人工智能乃至应用语言学领域中的一个具有重要价值的研究课题。本文根据隐喻特点,基于最大熵原理建立了一个隐喻识别模型,并论证了利用统计手段建立该模型的合理性。实验结果表明,该模型具有较高的准确度和召回率,以及较为理想的f值,是非常有前途的 相似文献
14.
基于最大熵方法的中英文基本名词短语识别 总被引:33,自引:2,他引:33
使用了基于最大熵的方法识别中文基本名词短语。在开放语料Chinese TreeBank上,只使用词性标注,达到了平均87.43%/88.09%的查全率/准确率。由于,关于中文的基本名词短语识别的结果没有很好的可比性,又使用相同的算法,尝试了英文的基本名词短语识别的结果没有很好的可比性,又使用相同的算法,尝试了英文的基本名词短语识别。在英文标准语料TREEBANKⅡ上,开放测试达到了93.31%/93.04%的查全率/准确率,极为接近国际最优水平。这既证明了此算法的行之有效,又表明该方法的语言无关性。 相似文献
15.
16.
17.
现实世界中高维数据无处不在,然而在高维数据中往往存在大量的冗余和噪声信息,这导致很多传统聚类算法在对高维数据聚类时不能获得很好的性能.实践中发现高维数据的类簇结构往往嵌入在较低维的子空间中.因而,降维成为挖掘高维数据类簇结构的关键技术.在众多降维方法中,基于图的降维方法是研究的热点.然而,大部分基于图的降维算法存在以下两个问题:(1)需要计算或者学习邻接图,计算复杂度高;(2)降维的过程中没有考虑降维后的用途.针对这两个问题,提出一种基于极大熵的快速无监督降维算法MEDR. MEDR算法融合线性投影和极大熵聚类模型,通过一种有效的迭代优化算法寻找高维数据嵌入在低维子空间的潜在最优类簇结构. MEDR算法不需事先输入邻接图,具有样本个数的线性时间复杂度.在真实数据集上的实验结果表明,与传统的降维方法相比, MEDR算法能够找到更好地将高维数据投影到低维子空间的投影矩阵,使投影后的数据有利于聚类. 相似文献
18.
19.
支特向量机是一种新的机器学习方法,已成功地应用于模式分类、回归分析和密度估计等问题中.本文依据统计学习理论和最优化理论建立了线性支特向量机的无约束优化模型,并给出了一种有效的近似解法一极大熵方法,为求解支持向量机优化问题提供了一种新途径,本文方法特别易于计算机实现。数值实验结果表明了模型和算法的可行性和有效性. 相似文献