首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
2.
随着深度学习在医疗领域的快速发展,医学视觉问答(Med-VQA)吸引了研究人员的广泛关注.现有的Med-VQA方法大都使用权重参数共享的同一特征提取网络对多模态医学影像进行特征提取,在一定程度上忽略了不同模态医学影像的差异性特征,导致对特定模态特征提取时引入其它模态的噪声特征,使得模型难以关注到不同模态医学影像中的关键特征.针对上述问题,本文提出一种基于多模态特征提取的医学视觉问答方法.首先,对医学影像进行模态识别,根据模态标签指导输入参数不共享的特征提取网络以获得不同模态影像的差异性特征;然后,设计了一种面向Med-VQA的卷积降噪模块以降低医学影像不同模态特征的噪声信息;最后,采用空间与通道注意力模块进一步增强不同模态差异性特征的关注度.在Med-VQA公共数据集Slake上得到的实验结果表明,本文提出方法能有效提高Med-VQA的准确率.  相似文献   

3.
视觉问答(visual question answering,VQA)是深度学习领域的一个新挑战,需要模型同时根据问题的语义和图片的内容进行推理并给出正确答案。针对视觉问答图片输入的多样性,设计了一种由两层注意力机制堆叠组成的层次注意力机制,帮助模型定位图片中与问题相关的信息,其中第一层注意力机制使用目标检测网络提取图片中物体的特征,第二层注意力机制引入问题特征。同时改进了现有的特征融合方式,消除对输入特征尺寸的限制。VQA数据集的测试结果显示,层次注意力机制使计数类问题的回答准确率提升了4%~5%,其他类型的问题回答准确率也有小幅提升。  相似文献   

4.
视觉问答是一个具有挑战性的问题,需要结合计算机视觉和自然语言处理的概念。大多数现有的方法使用双流方式,先分别计算图像和问题特征,然后再采取不同的技术和策略进行融合。目前,尚缺乏能够直接捕获问题语义和图像空间关系的更高层次的表示方法。提出一种基于图结构的级联注意力学习模型,该模型结合了图学习模块(学习输入图像问题的特定图表示)、图卷积层和级联注意力层,目的是捕捉不同候选框区域图像的空间信息,以及其与问题之间的更高层次的关系。在大规模数据集VQA v2.0上进行了实验,结果表明,跟主流算法相比较,是/否、计数和其他类型问题的回答准确率均有明显提升,总体准确率达到了68.34%,从而验证了提出模型的有效性。  相似文献   

5.
针对现有基于注意力机制的多模态学习,对文字上下文之间的自我联系和图像目标区域的空间位置关系进行了深入研究。在分析现有注意力网络的基础上,提出使用自注意力模块(self-attention,SA)和空间推理注意力模块(spatial reasoning attention,SRA)对文本信息和图像目标进行映射,最终得到融合特征输出。相较于其他注意力机制,SA和SRA可以更好地将文本信息匹配图像目标区域。模型在VQAv2数据集上进行训练和验证,并在VQAv2数据集上达到了64.01%的准确率。  相似文献   

6.
杨康  宋慧慧  张开华 《计算机应用》2019,39(6):1652-1656
为了解决全卷积孪生网络(SiamFC)跟踪算法在跟踪目标经历剧烈的外观变化时容易发生模型漂移从而导致跟踪失败的问题,提出了一种双重注意力机制孪生网络(DASiam)去调整网络模型并且不需要在线更新。首先,主干网络使用修改后表达能力更强的并适用于目标跟踪任务的VGG网络;然后,在网络的中间层加入一个新的双重注意力机制去动态地提取特征,这种机制由通道注意机制和空间注意机制组成,分别对特征图的通道维度和空间维度进行变换得到双重注意特征图;最后,通过融合两个注意机制的特征图进一步提升模型的表征能力。在三个具有挑战性的跟踪基准库即OTB2013、OTB100和2017年视觉目标跟踪库(VOT2017)实时挑战上进行实验,实验结果表明,以40 frame/s的速度运行时,所提算法在OTB2013和OTB100上的成功率指标比基准SiamFC分别高出3.5个百分点和3个百分点,并且在VOT2017实时挑战上面超过了2017年的冠军SiamFC,验证了所提出算法的有效性。  相似文献   

7.
视频问答是深度学习领域的研究热点之一,广泛应用于安防和广告等系统中.在注意力机制框架下,建立先验MASK注意力机制模型,使用Faster R-CNN模型提取视频关键帧以及视频中的对象标签,将其与问题文本特征进行3种注意力加权,利用MASK屏蔽与问题无关的答案,从而增强模型的可解释性.实验结果表明,该模型在视频问答任务中...  相似文献   

8.
9.
针对当前的分词工具在中文医疗领域无法有效切分出所有医学术语,且特征工程需消耗大量人力成本的问题,提出了一种基于注意力机制和字嵌入的多尺度卷积神经网络建模方法。该方法使用字嵌入结合多尺度卷积神经网络用以提取问题句子和答案句子不同尺度的上下文信息,并引入注意力机制来强调问题和答案句子之间的相互影响,该方法能有效学习问题句子和正确答案句子之间的语义关系。由于中文医疗领域问答匹配任务没有标准的评测数据集,因此使用公开可用的中文医疗问答数据集(cMedQA)进行评测,实验结果表明该方法优于词匹配、字匹配和双向长短时记忆神经网络(BiLSTM)建模方法,并且Top-1准确率为65.43%。  相似文献   

10.
唇语识别是将单个说话人嘴唇运动的无声视频翻译成文字的一种技术.由于嘴唇运动幅度较小,现有唇语识别方法的特征区分能力和泛化能力都较差.针对该问题,文中分别从时间、空间和通道三个维度研究唇语视觉特征的提纯问题,提出基于多重视觉注意力的唇语识别方法(Lipreading Based on Multiple Visual Attention Network, LipMVA).首先利用通道注意力自适应校准通道级别的特征,减轻无意义通道的干扰.然后使用两种粒度不同的时空注意力,抑制不重要的像素或帧的影响.CMLR、GRID数据集上的实验表明LipMVA可降低识别错误率,由此验证方法的有效性.  相似文献   

11.
视觉问答(VQA)是计算机视觉和自然语言处理领域中典型的多模态问题,然而传统VQA模型忽略了双模态中语义信息的动态关系和不同区域间丰富的空间结构。提出一种新的多模块协同注意力模型,对视觉场景中对象间关系的动态交互和文本上下文表示进行充分理解,根据图注意力机制建模不同类型对象间关系,学习问题的自适应关系表示,将问题特征和带关系属性的视觉关系通过协同注意编码,加强问题词与对应图像区域间的依赖性,通过注意力增强模块提升模型的拟合能力。在开放数据集VQA 2.0和VQA-CP v2上的实验结果表明,该模型在“总体”、“是/否”、“计数”和“其他”类别问题上的精确度明显优于DA-NTN、ReGAT和ODA-GCN等对比方法,可有效提升视觉问答的准确率。  相似文献   

12.
环境的日益恶化导致癌症的发病率不断升高,2018年全球乳腺癌的发病率在所有癌症中已经位居首位。乳腺X线摄影价格实惠且易于操作,目前被认作是最好的乳腺癌筛查方法,也是早期发现乳腺癌最有效的方法。针对乳腺X线摄影不容易分辨、特征不明显等特点,提出了基于RNN+CNN的注意力记忆网络对其进行分类。注意力记忆网络包含注意力记忆模块和卷积残差模块。注意力记忆模块中,注意力模块提取乳腺X线摄影的特征,记忆模块在RNN网络加入注意力权重来模拟人对所提取关键信息的重点突出;卷积残差模块使用CNN对图像进行分类。该方法创新之处在于:提出注意力记忆网络用于乳腺X线摄影图像分类;所设计网络在RNN+CNN结构上引入注意力权重,提取图像关键信息以增强特征描述。在乳腺X线摄影INbreast数据集上的实验结果显示,注意力记忆网络的运行时间比预训练的Inceptionv2、ResNet50、VGG16网络少50%以上,同时达到更高的分类准确率。  相似文献   

13.
为分析商业区人群流动情况,或避免人群踩踏等公共事件的发生,通常采用人群计数方法统计监控图像中的人数信息,从而达到提前预警的效果。受目标遮挡、背景干扰、多尺度变化等因素的影响,现有的人群计数方法在统计人数信息的过程中存在误算或漏算的问题,导致准确率降低。提出一种基于注意力机制与上下文密度图融合的人群计数网络CADMFNet。以VGG16的部分卷积层作为前端网络,通过引入上采样融合模块对输入的特征图进行上下文特征融合,将不同膨胀率的膨胀卷积作为后端网络,生成高质量的中间密度图。在此基础上,采用上下文注意力模块融合不同层级的中间密度图,获得精细的人群密度图。实验结果表明,该网络在Mall数据集上的平均绝对误差和均方根误差分别为1.31和1.59,相比CSRNet、MCNN等网络,能够有效提高计数的准确度,并且具有较优的鲁棒性。  相似文献   

14.
王诗言  曾茜  周田  吴华东 《计算机工程》2021,47(3):269-275,283
目前多数利用卷积神经网络进行图像超分辨率重建的方法忽视对自然图像固有属性的捕捉,并且仅在单一尺度下提取特征。针对该问题,提出一种基于注意力机制和多尺度特征融合的网络结构。利用注意力机制融合图像的非局部信息和二阶特征,提高网络的特征表达能力,同时使用不同尺度的卷积核提取图像的不同尺度信息,以保存多尺度完整的信息特征。实验结果表明,该方法重建图像的客观评价指标和视觉效果均优于Bicubic、SRCNN、SCN和LapSRN方法。  相似文献   

15.
现有的统计图问答任务算法大多依赖于大型的预训练深度网络获取图像的特征,但采用预训练的方式不能保障算法在场景任务下的泛化能力,并且大型算法网络会限制算法模型在实际场景下的响应等性能.本文通过研究统计图问答任务下的图像特征获取技术,结合神经网络的稠密连接技术,提出新的轻量型算法获取丰富的图像特征,来提升图像特征在问答推理过...  相似文献   

16.
视频中人体行为识别是近年来计算机视觉中的一个重要研究领域,但是现有的方法对于视频表示方式存在不足,无法聚焦于图像内的显著区域.提出了一种基于视觉注意力的深度卷积神经网络,可以有效地为视频表示特征附加一个权重,对特征中的有益区域进行注意,实现更加准确的行为识别.在自建的Oilfield-7油田数据集和HMDB51数据集上进行了实验,以此来验证适用于油田现场人体行为所提出的网络模型的有效性.实验结果表明,所提的方法与已取得优异表现的双流架构相比具有一定的优越性.  相似文献   

17.
问答系统:核心技术、发展趋势   总被引:7,自引:0,他引:7  
该文首先给出问答系统的定义,并简要回顾了问答系统的历史;然后对现有各类问答系统进行了介绍,并对其核心技术、评测机制进行了分析;最后对问答系统的发展方向进行了展望。  相似文献   

18.
针对基于传统机器学习遥感图像场景分类无法快速有效提取图像特征造成分类结果不准确的问题,提出一种基于注意力残差网络的遥感图像场景分类的方法,以残差网络为基准模型,在通道和空间两个维度上建立注意力模块,实验过程中对参数进行合理有效的设置,调整网络层数优化模型,达到对UC Merced Land-Use数据集的有效分类.实验...  相似文献   

19.
现有单图像超分辨率模型普遍基于卷积神经网络且使用单一尺度的卷积核提取特征信息,容易造成细节信息遗漏并降低网络表征能力。为有效提取高频信息同时提高图像重建性能,提出一种基于整体注意力机制与分形稠密特征增强的图像超分辨率重建模型。在特征增强过程中,级联9个分形稠密特征增强模块,每个模块通过4条分支路径提取和融合多尺度特征,并引入局部稠密跳跃连接传递信息以获取更丰富的细节信息。引入整体注意力机制,从3个维度出发建立特征图之间的关联关系,通过对不同通道、空间和层次的特征进行加权和选择性聚合为特征图分配不同的权重,从而提高模型判别学习能力。在Set5、Set14、BSDS100和Urban100数据集上的实验结果表明,该模型可有效重建纹理细节更丰富的高分辨率图像,重建图像在主观视觉效果与客观评价指标上均优于同类模型,且在图像放大3倍时,峰值信噪比和结构相似性指标最高比MSRN模型提升了0.57 dB和0.007。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号