一种基于多模态特征提取的医学视觉问答方法 |
| |
引用本文: | 吴松泽,刘利军,黄青松,孔凡彦,刘骊,付晓东.一种基于多模态特征提取的医学视觉问答方法[J].小型微型计算机系统,2024(3):676-683. |
| |
作者姓名: | 吴松泽 刘利军 黄青松 孔凡彦 刘骊 付晓东 |
| |
作者单位: | 1. 昆明理工大学信息工程与自动化学院;2. 云南省计算机技术应用重点实验室 |
| |
基金项目: | 国家自然科学基金项目(81860318,61862036,61962030)资助; |
| |
摘 要: | 随着深度学习在医疗领域的快速发展,医学视觉问答(Med-VQA)吸引了研究人员的广泛关注.现有的Med-VQA方法大都使用权重参数共享的同一特征提取网络对多模态医学影像进行特征提取,在一定程度上忽略了不同模态医学影像的差异性特征,导致对特定模态特征提取时引入其它模态的噪声特征,使得模型难以关注到不同模态医学影像中的关键特征.针对上述问题,本文提出一种基于多模态特征提取的医学视觉问答方法.首先,对医学影像进行模态识别,根据模态标签指导输入参数不共享的特征提取网络以获得不同模态影像的差异性特征;然后,设计了一种面向Med-VQA的卷积降噪模块以降低医学影像不同模态特征的噪声信息;最后,采用空间与通道注意力模块进一步增强不同模态差异性特征的关注度.在Med-VQA公共数据集Slake上得到的实验结果表明,本文提出方法能有效提高Med-VQA的准确率.
|
关 键 词: | 医学视觉问答 多模态特征提取 卷积神经网络 注意力机制 |
|
|