基于多特征嵌入的中文医学命名实体识别 |
| |
引用本文: | 黄健格,贾真,张凡,李天瑞.基于多特征嵌入的中文医学命名实体识别[J].计算机科学,2023(6):243-250. |
| |
作者姓名: | 黄健格 贾真 张凡 李天瑞 |
| |
作者单位: | 1. 西南交通大学计算机与人工智能学院;2. 四川省制造业产业链协同与信息化支撑技术重点实验室;3. 综合交通大数据应用技术国家工程实验室 |
| |
基金项目: | 国家自然科学基金(62176221)~~; |
| |
摘 要: | 针对基于字符表示的中文医学命名实体识别模型嵌入信息单一、缺失词边界和结构信息的问题,文中提出了一种融合多特征嵌入的医学命名实体识别模型。首先,将字符映射为固定长度的嵌入表示;其次,引入外部资源构建词汇特征,该特征能够补充字符的潜在词组信息;然后,根据中文的象形文字特点和文本序列特点,分别引入字符结构特征和序列结构特征,使用卷积神经网络对两种结构特征进行编码,得到radical-level词嵌入和sentence-level词嵌入;最后,将得到的多种特征嵌入进行拼接,输入长短期记忆网络编码,并使用条件随机场输出实体预测结果。将自建中文医疗数据和CHIP_2020任务提供的医疗数据作为数据集进行实验,实验结果表明,与基准模型相比,所提模型同时融合了词汇特征和文本结构特征,能够有效识别医学命名实体。
|
关 键 词: | 命名实体识别 中文医学文本 词汇信息 文本结构特征 深度学习 |
|
|