共查询到17条相似文献,搜索用时 109 毫秒
1.
2.
多准则框架下的蛋白质三维结构相似性检索 总被引:1,自引:0,他引:1
蛋白质三维结构与功能的关系问题是当前生命科学领域的一个重大科学问题,蛋白质三维结构相似性比较则是探索蛋白质结构与功能关系的一种重要手段.文中就蛋白质结构在空间分布的特殊性提出了一种多准则框架下的蛋白质三维结构相似性检索模型.在该模型下,通过三种蛋白质空间旋转与平移不变特征的获取,实现了蛋白质骨架空间走向函数的一致性、蛋白质骨架距离直方图的一致性以及蛋白质距离矩阵数据分布一致性的多准则相似性检索策略.作者对实际的27804个蛋白质样本数据库进行实验,结果表明该文所提出的检索模式以及相似性准则的设计是实现大规模蛋白质三维结构相似性检索的一种有效方法. 相似文献
3.
针对目前蛋白质交互关系识别主要以单句为依据、因标注数据缺乏而导致训练集规模小等不足,提出一种以关系相似性分析为框架、基于大规模文本的蛋白质交互关系自动识别方法.首先通过对大规模生物医学文本数据库的自动搜索获取描述蛋白质对的句子集合,然后分别从单词、短语结构、依赖关系3个角度抽取特征,建立向量空间模型来表示一对蛋白质之间的关系,最后根据两个向量之间的相似性对关系作出判断.所需训练数据直接取自现有蛋白质交互网络,无需任何额外的人工标注.实验表明,基于关系相似性的蛋白质交互关系自动识别取得了较高的精度(F-score 74.2%). 相似文献
4.
蛋白质三维结构相似性比较方法综述 总被引:1,自引:0,他引:1
蛋白质空间结构的相似性比较是生物信息学领域的一个研究热点,近年来出现了不少蛋白质三维结构相似性比较方法.文中以蛋白质三维结构的表示为线索,对目前已有的蛋白质三维结构相似性比较的典型方法进行分类,分析并归纳了各种方法的适用性. 相似文献
5.
分子虚拟筛选方法旨在找到一种可以与受体蛋白质进行相互作用并适当修改其生物学行为的活性分子.大多数分子虚拟筛选方法的先决条件是已知蛋白质的结构或小分子结合物.然而对于大多数蛋白质而言,这些信息都是未知的.因此,本文提出了一种名为Screener的基于蛋白质序列比对和活性分子相似性评估的分子虚拟筛选方法.Screener首先从受体蛋白质的序列出发,生成位置特异性频率矩阵特征、二级结构特征以及溶剂可及性特征,利用I-LBR程序对受体蛋白质的潜在结合位点残基进行预测;其次,根据预测的结合位点残基以及相关特征信息构建模板蛋白质库;然后,将所有与任意模板蛋白质相互作用的活性分子收集起来构成潜在的种子分子库;最后,利用分子2D指纹之间的相似性来对待筛选分子集进行排序,完成分子虚拟筛选.在基准测试集DUD40和DUD-E65上,Screener的平均EF1%分别为16.6和25.7,HR1%分别为44.1和67.6.基准测试结果表明Screener的虚拟筛选平均性能优于基于对接的虚拟筛选方法AutoDock Vina及基于结构比对的虚拟筛选方法FINDSIT... 相似文献
6.
针对目前蛋白质提取方法仅以单句信息为依据的不足,文中提出了以相似性为框架基于大规模文本的蛋白质交互关系识别方法。首先通过搜索医学文献数据库建立蛋白质对的签名档,然后提取签名档中的重要特征建立蛋白质对的向量空间模型,最后通过K近邻分类方法判断蛋白质对的交互关系。实验比较了向量空间模型下不同的距离度量策略对分类效果的影响,得出了比较合理的衡量相似性的函数。结果表明基于大规模文本采用基于余弦距离度量相似性的近邻方法识别蛋白质交互关系取得了较高且均衡的精确度和召回率,并且此方法直接利用了已有的交互信息,从而免除了额外的人工标注负担。 相似文献
7.
相似性模型在化学诸多领域的广泛应用激发了许多研究者努力探讨分子相似性更中肯的计算方法。我们根据语义模型定义了一种新的分子相似性指数。这种方法首先将分子结构安某种方式拆分,得到可以表征分子结构特征的结构碎片(子结构),它们构成了描述分子结构相似性的度量空间,再根据这些碎片的语义关系定义了分子相似。通过16个含5个碳的醇之间的分子相似性的计算举例说明这个新方法。 相似文献
8.
基于量子化学的蛋白质分子场计算 总被引:1,自引:1,他引:0
蛋白质结构与功能之间的关系非常密切,蛋白质分子体系中的各种相互作用力在空间叠加形成一个综合性作用(分子场),对揭示蛋白质结构与功能之间的内在关系具有重要意义.提出了基于线性标度量子化学理论的蛋白质分子场快速计算方法,利用分而治之的思想,根据氨基酸残基把一个蛋白质大分子分解成若干片段,然后对每个片段单独计算,最后对各片段的重要区域在空间网格点上进行拼接,获得完整的三维分子场数据;为了提高计算速度,还提出了基于MPICH模型的并行计算方法.实验结果证明,文中方法能实现复杂蛋白质分子的分子场的高效、高精度计算. 相似文献
9.
10.
生物信息学的一个关键的研究课题是理解细胞的分子机制,这依赖于对基因所决定的每一条蛋白质的含义或者功能的理解.一般通过与一条或多条功能已知的蛋白质的相似性比较来推测未知蛋白质的功能,其中,基于支持向量机的一些算法取得了很好的成果.SVM-pairwise算法是当前最好的基于支持向量机的算法中的一个,该方法利用两条序列的相似性来将蛋白质序列转化为固定长度的向量.文中提出了一种新的利用支持向量机算法对蛋白质序列进行分类的方法,这种方法使用位点进化距离代替两条序列的比对得分,该方法比SVM-pairwise有着显著的改善,在蛋白质结构分类数据库(SCOP)上进行的实验表明,该方法具有比SVM-pairwise更好的分类性能. 相似文献
11.
12.
有效分析蛋白质家族是生物信息学的一项重要挑战,聚类成为解决这一问题的主要途径之一.基于传统序列比对方法定义蛋白质序列间相似关系时,假设了同源片断问的邻接保守性,与遗传重组相冲突.为更好地识别蛋白质家族,提出了一种蛋白质序列家族挖掘算法ProFaM.ProFaM首先采用前缀投影策略挖掘表征蛋白质序列的模式,然后基于模式及其权重信息构造相似度度量函数,并采用共享最近邻方法,实现了蛋白质序列家族聚类.解决了以往方法在蛋白质模式挖掘及相似度设计中的不足.在蛋白质家族数据库Pfam上的实验结果证实了ProFaM算法在蛋白质家族分析上有良好的结果. 相似文献
13.
14.
Predicting the fold, or approximate 3D structure, of a protein from its amino acid sequence is an important problem in biology. The homology modeling approach uses a protein database to identify fold-class relationships by sequence similarity. The main limitation of this method is that some proteins with similar structures appear to have very different sequences, which we call the hidden-homology problem. As in other real-world domains for machine learning, this difficulty may be caused by a low-level representation. Learning in such domains can be improved by using domain knowledge to search for representations that better match the inductive bias of a preferred algorithm. In this domain, knowledge of amino acid properties can be used to construct higher-level representations of protein sequences. In one experiment using a 179-protein data set, the accuracy of fold-class prediction was increased from 77.7% to 81.0%. The search results are analyzed to refine the grouping of small residues suggested by Dayhoff. Finally, an extension to the representation incorporates sequential context directly into the representation, which can express finer relationships among the amino acids. The methods developed in this domain are generalized into a framework that suggests several systematic roles for domain knowledge in machine learning. Knowledge may define both a space of alternative representations, as well as a strategy for searching this space. The search results may be summarized to extract feedback for revising the domain knowledge. 相似文献
15.
16.
针对评分数据稀疏和单一评分相似性计算不准确导致推荐质量不高的问题,提出一种面向用户兴趣密度分布的协同过滤推荐算法.在计算项目类别相似度的同时,引入类别的信息熵以确定项目之间距离,在此基础上采用Parzen窗估计方法获取用户在整个项目空间上的兴趣密度分布,最后结合用户属性差异性和兴趣密度之间相对熵以确定目标用户的最近邻居用户集.实验结果表明,该算法在避免数据填充所引入误差的同时,有效提升数据稀疏情况下的推荐质量. 相似文献