首页 | 本学科首页   官方微博 | 高级检索  
     

基于多特征嵌入的中文医学命名实体识别
引用本文:黄健格,贾真,张凡,李天瑞.基于多特征嵌入的中文医学命名实体识别[J].计算机科学,2023(6):243-250.
作者姓名:黄健格  贾真  张凡  李天瑞
作者单位:1. 西南交通大学计算机与人工智能学院;2. 四川省制造业产业链协同与信息化支撑技术重点实验室;3. 综合交通大数据应用技术国家工程实验室
基金项目:国家自然科学基金(62176221)~~;
摘    要:针对基于字符表示的中文医学命名实体识别模型嵌入信息单一、缺失词边界和结构信息的问题,文中提出了一种融合多特征嵌入的医学命名实体识别模型。首先,将字符映射为固定长度的嵌入表示;其次,引入外部资源构建词汇特征,该特征能够补充字符的潜在词组信息;然后,根据中文的象形文字特点和文本序列特点,分别引入字符结构特征和序列结构特征,使用卷积神经网络对两种结构特征进行编码,得到radical-level词嵌入和sentence-level词嵌入;最后,将得到的多种特征嵌入进行拼接,输入长短期记忆网络编码,并使用条件随机场输出实体预测结果。将自建中文医疗数据和CHIP_2020任务提供的医疗数据作为数据集进行实验,实验结果表明,与基准模型相比,所提模型同时融合了词汇特征和文本结构特征,能够有效识别医学命名实体。

关 键 词:命名实体识别  中文医学文本  词汇信息  文本结构特征  深度学习
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号