基于MPNet与BiLSTM的COVID-19临床文本命名实体识别方法 |
| |
作者姓名: | 蔡晓琼 郑增亮 苏前敏 郭晶磊 |
| |
作者单位: | 1. 上海工程技术大学电子电气工程学院;2. 上海中医药大学基础医学院 |
| |
基金项目: | “十三五”国家科技重大专项(2018ZX09711001-009-001);;上海市2017年度科技创新行动计划(17401970900); |
| |
摘 要: | 随着生物医学研究与信息化技术的迅速发展,临床医学文献数量呈指数级增长,利用文本挖掘技术自动提取医学知识逐渐成为当前研究热点。针对目前新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)临床文本研究匮乏、语料不足与标注质量不高等问题,本文结合UMLS医学语义网络和专家定义方式,制定医学实体标注规则,建立命名实体识别语料库,明确实体识别任务。其次,提出了一种基于MPNet与BiLSTM的COVID-19临床文本命名实体识别模型。通过预训练语言模型获得文本的向量化表示,解决了一词多义问题;采用双向长短期记忆网络,捕捉文本的长距离依赖;最后引入条件随机场,实现句子级序列注释,输出完整的最优标签序列。实验结果表明,MPNet-BiLSTM-CRF模型在COVID-19临床命名实体识别数据集上取得了较好的表现。
|
关 键 词: | COVID-19 命名实体识别 双向长短期记忆网络 条件随机场 |
|