首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 109 毫秒
1.
徐占  董洪伟 《计算机工程》2010,36(14):233-234
从蛋白质结构特性出发,利用结构字母表和CGR游走技术将蛋白质三维结构信息转换到二维坐标空间中。通过分析所得图像找出蛋白质分子的主体结构,获得各结构点在CGR图中的坐标,利用Hausdorff距离判定要比较的蛋白质对象相似性。该方法实现了蛋白质相似性比较的结构-序列模式转变,利用Hausdorff距离比较两点集间相似性的优势,为蛋白质相似性比较提供了一种简便有效的方法。  相似文献   

2.
多准则框架下的蛋白质三维结构相似性检索   总被引:1,自引:0,他引:1  
胡敏  彭群生  谢立广  张涛  陈为 《计算机学报》2006,29(12):2208-2217
蛋白质三维结构与功能的关系问题是当前生命科学领域的一个重大科学问题,蛋白质三维结构相似性比较则是探索蛋白质结构与功能关系的一种重要手段.文中就蛋白质结构在空间分布的特殊性提出了一种多准则框架下的蛋白质三维结构相似性检索模型.在该模型下,通过三种蛋白质空间旋转与平移不变特征的获取,实现了蛋白质骨架空间走向函数的一致性、蛋白质骨架距离直方图的一致性以及蛋白质距离矩阵数据分布一致性的多准则相似性检索策略.作者对实际的27804个蛋白质样本数据库进行实验,结果表明该文所提出的检索模式以及相似性准则的设计是实现大规模蛋白质三维结构相似性检索的一种有效方法.  相似文献   

3.
针对目前蛋白质交互关系识别主要以单句为依据、因标注数据缺乏而导致训练集规模小等不足,提出一种以关系相似性分析为框架、基于大规模文本的蛋白质交互关系自动识别方法.首先通过对大规模生物医学文本数据库的自动搜索获取描述蛋白质对的句子集合,然后分别从单词、短语结构、依赖关系3个角度抽取特征,建立向量空间模型来表示一对蛋白质之间的关系,最后根据两个向量之间的相似性对关系作出判断.所需训练数据直接取自现有蛋白质交互网络,无需任何额外的人工标注.实验表明,基于关系相似性的蛋白质交互关系自动识别取得了较高的精度(F-score 74.2%).  相似文献   

4.
蛋白质三维结构相似性比较方法综述   总被引:1,自引:0,他引:1  
蛋白质空间结构的相似性比较是生物信息学领域的一个研究热点,近年来出现了不少蛋白质三维结构相似性比较方法.文中以蛋白质三维结构的表示为线索,对目前已有的蛋白质三维结构相似性比较的典型方法进行分类,分析并归纳了各种方法的适用性.  相似文献   

5.
分子虚拟筛选方法旨在找到一种可以与受体蛋白质进行相互作用并适当修改其生物学行为的活性分子.大多数分子虚拟筛选方法的先决条件是已知蛋白质的结构或小分子结合物.然而对于大多数蛋白质而言,这些信息都是未知的.因此,本文提出了一种名为Screener的基于蛋白质序列比对和活性分子相似性评估的分子虚拟筛选方法.Screener首先从受体蛋白质的序列出发,生成位置特异性频率矩阵特征、二级结构特征以及溶剂可及性特征,利用I-LBR程序对受体蛋白质的潜在结合位点残基进行预测;其次,根据预测的结合位点残基以及相关特征信息构建模板蛋白质库;然后,将所有与任意模板蛋白质相互作用的活性分子收集起来构成潜在的种子分子库;最后,利用分子2D指纹之间的相似性来对待筛选分子集进行排序,完成分子虚拟筛选.在基准测试集DUD40和DUD-E65上,Screener的平均EF1%分别为16.6和25.7,HR1%分别为44.1和67.6.基准测试结果表明Screener的虚拟筛选平均性能优于基于对接的虚拟筛选方法AutoDock Vina及基于结构比对的虚拟筛选方法FINDSIT...  相似文献   

6.
针对目前蛋白质提取方法仅以单句信息为依据的不足,文中提出了以相似性为框架基于大规模文本的蛋白质交互关系识别方法。首先通过搜索医学文献数据库建立蛋白质对的签名档,然后提取签名档中的重要特征建立蛋白质对的向量空间模型,最后通过K近邻分类方法判断蛋白质对的交互关系。实验比较了向量空间模型下不同的距离度量策略对分类效果的影响,得出了比较合理的衡量相似性的函数。结果表明基于大规模文本采用基于余弦距离度量相似性的近邻方法识别蛋白质交互关系取得了较高且均衡的精确度和召回率,并且此方法直接利用了已有的交互信息,从而免除了额外的人工标注负担。  相似文献   

7.
相似性模型在化学诸多领域的广泛应用激发了许多研究者努力探讨分子相似性更中肯的计算方法。我们根据语义模型定义了一种新的分子相似性指数。这种方法首先将分子结构安某种方式拆分,得到可以表征分子结构特征的结构碎片(子结构),它们构成了描述分子结构相似性的度量空间,再根据这些碎片的语义关系定义了分子相似。通过16个含5个碳的醇之间的分子相似性的计算举例说明这个新方法。  相似文献   

8.
基于量子化学的蛋白质分子场计算   总被引:1,自引:1,他引:0  
蛋白质结构与功能之间的关系非常密切,蛋白质分子体系中的各种相互作用力在空间叠加形成一个综合性作用(分子场),对揭示蛋白质结构与功能之间的内在关系具有重要意义.提出了基于线性标度量子化学理论的蛋白质分子场快速计算方法,利用分而治之的思想,根据氨基酸残基把一个蛋白质大分子分解成若干片段,然后对每个片段单独计算,最后对各片段的重要区域在空间网格点上进行拼接,获得完整的三维分子场数据;为了提高计算速度,还提出了基于MPICH模型的并行计算方法.实验结果证明,文中方法能实现复杂蛋白质分子的分子场的高效、高精度计算.  相似文献   

9.
传统特征匹配的相似性度量方法多假定特征为直方图形式,结构单一。结构相似性(SSIM)度量在图像质量评价领域表现良好,但其鲁棒性较差。针对上述问题,提出一种扩展结构相似性度量方法。从空间网格提取特征阵列的三阶张量结构丰富特征信息,以加和形式修改SSIM度量,并引入权值,将张量特征结构用于相似性度量,建立高鲁棒性的相似性度量方法。提供点积形式的显性特征映射,以加快相似性度量速度。对关键点匹配和图像检测任务进行实验,结果表明,与传统相似性度量方法相比,该方法具有鲁棒性更强的匹配效果,并且计算效率有较大提高。  相似文献   

10.
生物信息学的一个关键的研究课题是理解细胞的分子机制,这依赖于对基因所决定的每一条蛋白质的含义或者功能的理解.一般通过与一条或多条功能已知的蛋白质的相似性比较来推测未知蛋白质的功能,其中,基于支持向量机的一些算法取得了很好的成果.SVM-pairwise算法是当前最好的基于支持向量机的算法中的一个,该方法利用两条序列的相似性来将蛋白质序列转化为固定长度的向量.文中提出了一种新的利用支持向量机算法对蛋白质序列进行分类的方法,这种方法使用位点进化距离代替两条序列的比对得分,该方法比SVM-pairwise有着显著的改善,在蛋白质结构分类数据库(SCOP)上进行的实验表明,该方法具有比SVM-pairwise更好的分类性能.  相似文献   

11.
唐东明  朱清新  杨凡  陈科 《软件学报》2011,22(8):1827-1837
提出了一种有效的基于仿射传播聚类算法和后处理方法的蛋白质序列聚类方法.在聚类分析蛋白质序列时,为了优化仿射传播聚类算法的聚类结果,采用后处理的方式来提高聚类结果的质量.为了度量蛋白质序列之间的相似度,给出了一种改进的无比对计算方法.在6个蛋白质序列数据集上进行对比实验,实验结果表明,所给出的方法能够有效地分析蛋白质序列.  相似文献   

12.
有效分析蛋白质家族是生物信息学的一项重要挑战,聚类成为解决这一问题的主要途径之一.基于传统序列比对方法定义蛋白质序列间相似关系时,假设了同源片断问的邻接保守性,与遗传重组相冲突.为更好地识别蛋白质家族,提出了一种蛋白质序列家族挖掘算法ProFaM.ProFaM首先采用前缀投影策略挖掘表征蛋白质序列的模式,然后基于模式及其权重信息构造相似度度量函数,并采用共享最近邻方法,实现了蛋白质序列家族聚类.解决了以往方法在蛋白质模式挖掘及相似度设计中的不足.在蛋白质家族数据库Pfam上的实验结果证实了ProFaM算法在蛋白质家族分析上有良好的结果.  相似文献   

13.
针对传统的空间向量模型在进行文本表示时计算相似度仅采用词频统计来表示文本以及对高维文本数据聚类效果有所下降等问题,提出一种基于优化密度的耦合空间LDA文本聚类算法。该算法利用提出的耦合空间模型和LDA主题模型线性融合计算文本相似度,并对阈值敏感问题进行优化,确定不同密度区域对应的阈值半径。实验结果表明,与改进的DBSCAN文本聚类算法和R-DBSCAN文本聚类算法相比,本文算法的文本聚类精度更高、聚类效果更优。  相似文献   

14.
Predicting the fold, or approximate 3D structure, of a protein from its amino acid sequence is an important problem in biology. The homology modeling approach uses a protein database to identify fold-class relationships by sequence similarity. The main limitation of this method is that some proteins with similar structures appear to have very different sequences, which we call the hidden-homology problem. As in other real-world domains for machine learning, this difficulty may be caused by a low-level representation. Learning in such domains can be improved by using domain knowledge to search for representations that better match the inductive bias of a preferred algorithm. In this domain, knowledge of amino acid properties can be used to construct higher-level representations of protein sequences. In one experiment using a 179-protein data set, the accuracy of fold-class prediction was increased from 77.7% to 81.0%. The search results are analyzed to refine the grouping of small residues suggested by Dayhoff. Finally, an extension to the representation incorporates sequential context directly into the representation, which can express finer relationships among the amino acids. The methods developed in this domain are generalized into a framework that suggests several systematic roles for domain knowledge in machine learning. Knowledge may define both a space of alternative representations, as well as a strategy for searching this space. The search results may be summarized to extract feedback for revising the domain knowledge.  相似文献   

15.
利用相似规则、互补规则和分子识别理论建立一种氨基酸数字编码模型用于研究序列特征、功能预测。给出一种新的基于元胞自动机的蛋白质序列图像生成方法,其优点是考虑了氨基酸前后的相互作用,生成的图像与基因序列一一对应,许多隐藏在蛋白质序列中的重要特性通过元胞自动机图可以表现出来。基于蛋白质元胞自动机图所得到的蛋白质伪氨基酸成分,蛋白质亚细胞定位预测成功率可以达到86.4%。  相似文献   

16.
针对评分数据稀疏和单一评分相似性计算不准确导致推荐质量不高的问题,提出一种面向用户兴趣密度分布的协同过滤推荐算法.在计算项目类别相似度的同时,引入类别的信息熵以确定项目之间距离,在此基础上采用Parzen窗估计方法获取用户在整个项目空间上的兴趣密度分布,最后结合用户属性差异性和兴趣密度之间相对熵以确定目标用户的最近邻居用户集.实验结果表明,该算法在避免数据填充所引入误差的同时,有效提升数据稀疏情况下的推荐质量.  相似文献   

17.
针对现有的空间向量模型在进行文本表示时忽略词条的位置和词条间关系的问题,提出了一种基于相对密度的多耦合文本聚类算法。该算法在基于相对密度的聚类方法基础上,根据相对密度越小本文相似性越小这一事实,将相对密度转化为文本相似度,融入了传统DBSCAN密度算法,并对核心对象的选取进行了优化,。实验结果表明,与改进的K-means文本聚类和改进的DBSCAN文本聚类算法相比,本算法在文本聚类中更高效、聚类质量更优。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号