BioTrHMM:基于迁移学习的生物医学命名实体识别算法 |
| |
引用本文: | 高冰涛,张阳,刘斌.BioTrHMM:基于迁移学习的生物医学命名实体识别算法[J].计算机应用研究,2019,36(1). |
| |
作者姓名: | 高冰涛 张阳 刘斌 |
| |
作者单位: | 西北农林科技大学信息工程学院,陕西杨凌,712100;西北农林科技大学信息工程学院,陕西杨凌,712100;西北农林科技大学信息工程学院,陕西杨凌,712100 |
| |
基金项目: | 国家自然科学基金资助项目(61602388);中央高校基本科研业务费专项资金资助项目(2452015193,2452015194,2452016081) |
| |
摘 要: | 传统的生物医学命名实体识别方法需要大量目标领域的标注数据,但是标注数据代价高昂。为了降低生物医学文本中命名实体识别对目标领域标注数据的需求,将生物医学文本中的命名实体识别问题化为基于迁移学习的隐马尔可夫模型问题。对要进行命名实体识别的目标领域数据集无须进行大量数据标注,通过迁移学习的方法实现对目标领域的识别分类。以相关领域数据为辅助数据集,利用数据引力的方法评估辅助数据集的样本在目标领域学习中的贡献程度,在辅助数据集和目标领域数据集上计算权值进行迁移学习。基于权值学习模型,构建基于迁移学习的隐马尔可夫模型算法BioTrHMM。在GENIA语料库的数据集上的实验表明,BioTrHMM算法比传统的隐马尔可夫模型算法具有更好的性能;仅需要少量的目标领域标注数据,即可具有较好的命名实体识别性能。
|
关 键 词: | 迁移学习 隐马尔可夫模型 命名实体识别 文本挖掘 |
收稿时间: | 2017/7/25 0:00:00 |
修稿时间: | 2018/11/27 0:00:00 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《计算机应用研究》浏览原始摘要信息 |
|
点击此处可从《计算机应用研究》下载全文 |
|