首页 | 本学科首页   官方微博 | 高级检索  
     

基于MPNet与BiLSTM的COVID-19临床文本命名实体识别方法
作者姓名:蔡晓琼  郑增亮  苏前敏  郭晶磊
作者单位:1. 上海工程技术大学电子电气工程学院;2. 上海中医药大学基础医学院
基金项目:“十三五”国家科技重大专项(2018ZX09711001-009-001);;上海市2017年度科技创新行动计划(17401970900);
摘    要:随着生物医学研究与信息化技术的迅速发展,临床医学文献数量呈指数级增长,利用文本挖掘技术自动提取医学知识逐渐成为当前研究热点。针对目前新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)临床文本研究匮乏、语料不足与标注质量不高等问题,本文结合UMLS医学语义网络和专家定义方式,制定医学实体标注规则,建立命名实体识别语料库,明确实体识别任务。其次,提出了一种基于MPNet与BiLSTM的COVID-19临床文本命名实体识别模型。通过预训练语言模型获得文本的向量化表示,解决了一词多义问题;采用双向长短期记忆网络,捕捉文本的长距离依赖;最后引入条件随机场,实现句子级序列注释,输出完整的最优标签序列。实验结果表明,MPNet-BiLSTM-CRF模型在COVID-19临床命名实体识别数据集上取得了较好的表现。

关 键 词:COVID-19  命名实体识别  双向长短期记忆网络  条件随机场
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号