基于关系相似性的蛋白质交互自动识别 |
| |
作者姓名: | 封二英 牛耘 魏欧 蔡昕烨 |
| |
作者单位: | 南京航空航天大学计算机科学与技术学院 南京210016 |
| |
基金项目: | 本文受教育部高等学校博士学科点专项基金项目(20103218120024),国家自然科学基金项目(61170043),校青年科创基金(NS2012073),国家自然科学基金青年科学基金项目(61202132)资助 |
| |
摘 要: | 针对目前蛋白质交互关系识别主要以单句为依据、因标注数据缺乏而导致训练集规模小等不足,提出一种以关系相似性分析为框架、基于大规模文本的蛋白质交互关系自动识别方法.首先通过对大规模生物医学文本数据库的自动搜索获取描述蛋白质对的句子集合,然后分别从单词、短语结构、依赖关系3个角度抽取特征,建立向量空间模型来表示一对蛋白质之间的关系,最后根据两个向量之间的相似性对关系作出判断.所需训练数据直接取自现有蛋白质交互网络,无需任何额外的人工标注.实验表明,基于关系相似性的蛋白质交互关系自动识别取得了较高的精度(F-score 74.2%).
|
关 键 词: | 蛋白质交互关系 关系相似性 句法分析 空间向量模型 |
收稿时间: | 2012-09-13 |
修稿时间: | 2012-12-25 |
本文献已被 万方数据 等数据库收录! |
|