首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
针对Web图像标注问题,提出一种基于深度半监督跨模态学习的Web图像标注方法。该方法引入了堆栈式自编码网络(SAE)作为整体训练框架中的基分类器,首先,在有标签数据集上分别基于图像和文本训练得到各自的分类器,接着,通过多模态融合方法对图像和文本分类器进行融合得到一个多模态分类器,并利用该分类器预测出无标签的样本数据的类别标签,最后,将预测标签加入到原始数据集中,共同基于图像进行训练,得到一个单模态图像分类器,该分类器能够预测不含任何其它模态信息的单一图片数据的语义。实验结果表明,该方法有效地提高了图像标注效果且优于传统图像标注方法。  相似文献   

2.
针对后囊膜混浊并发症发病周期长、筛查范围广的问题,提出利用多模态机器学习预测后囊膜混浊并发症的计算机辅助诊断方法. 对后照影像进行感兴趣区域(ROI)提取和白色反光区域填充,所构建的异构低秩多模态融合网络(HLMF)能同时输入后照影像和视觉质量参数进行特征提取与融合,HLMF模型基于通道积融合多模态信息;采用卷积核参数低秩分解解决过拟合问题;选用Focal Loss损失函数解决类别不均衡的问题;在训练过程中还采用预训练和模态腐蚀的训练方法,使模型更好地提取单一模态的特征并进行融合. 该算法在后囊膜混浊数据集上的十折交叉验证准确率为95.63%,F1分数为96.72%. 实验结果表明,所提算法能较好地提取单模态特征并进行特征融合,相比于其他多模态融合模型有更好的性能.  相似文献   

3.
基于已有的视觉空间和文本空间上标签相关性建模方法,提出一种多模态子空间学习的语义标签生成方法。通过建立视觉特征相似图,以非线性方式重构“图像-标签”相关性,进而将图像的视觉模态表示和标签的文本模态表示统一到多模态子空间中,并保证空间变换前后具备结构保持。在该空间中,标签的文本模态与图像的视觉内容模态信息彼此互补,语义相关的图像和标签映射到空间中相近的样本点,进而将语义标签生成问题转换为子空间内图像的近邻标签搜索问题。结果表明,该方法在FLICKR-25K数据集上,性能达到36.88%,在NUS-WIDE数据集上,性能达到44.17%,多模态子空间学习的语义标签生成方法可以大幅度提升标签生成的准确性。  相似文献   

4.
为解决现有多模态图像融合方法忽略临床先验知识的利用,且多模态之间的信息交互不充分等问题,提出基于层次化双重注意力网络的乳腺多模态图像分类方法,引入新的先验学习模块,有效挖掘和利用临床先验,提升单模态特征的区分性。设计层次化的双重注意力模块,利用注意力机制同时增强全局模态间通道特征和局部模态内特征的区分性信息,增强模态间的信息交互,进一步提升多模态融合的分类性能。试验结果表明,与其他方法对比,提出的模型能够取得更好的性能,在受试者工作特征曲线下面积、准确性、特异性和灵敏度分别达到为82.5%、83.3%、80.0%和85.0%。结果证明建立层次化双重注意力网络预测乳腺肿瘤良恶性可行。  相似文献   

5.
篇际互文性指文本中不同语类、话语及风格的相互融合。它是单模态文本与多模态文本的重要语篇特性。话语的"规约性"与"变异性"可激活模态文本中的"越界"话语。篇际互文性下"越界"话语的形成离不开话语的"再语境化"过程。文中在阐释单模态篇际互文性文本"再语境化"生成方式的基础上,基于与韩礼德三大元功能相对的视觉图像分析方法,探究多模态文本的意义构建,以揭示文本模态与图像模态在多模态话语中的协作性与互补性及两者协同实现的美学意义。  相似文献   

6.
针对多模态情感分析中存在的标注数据量少、模态间融合不充分以及信息冗余等问题,提出了一种基于对比语言-图片训练(CLIP)和交叉注意力(CA)的多模态情感分析(MSA)模型CLIP-CA-MSA。首先,该模型使用CLIP预训练的BERT模型、PIFT模型来提取视频特征向量与文本特征;其次,使用交叉注意力机制将图像特征向量和文本特征向量进行交互,以加强不同模态之间的信息传递;最后,利用不确定性损失特征融合后计算输出最终的情感分类结果。实验结果表明:该模型比其他多模态模型准确率提高5百分点至14百分点,F1值提高3百分点至12百分点,验证了该模型的优越性,并使用消融实验验证该模型各模块的有效性。该模型能够有效地利用多模态数据的互补性和相关性,同时利用不确定性损失来提高模型的鲁棒性和泛化能力。  相似文献   

7.
提出了一种基于多模态的卷积神经网络对脑部CT血管造影图像(CTA)进行分割,从而实现脑血管的单独提取。该方法首先对原始CTA图像进行高斯和拉普拉斯处理, 并将处理后的图像与原始图像共同构成多模态图像作为输入,然后通过多个并行的卷积神经网络对多模态图像进行分割,最终将所有的分割结果通过线性回归进行融合从而提取出脑血管。该文通过一系列的实验不仅证明了卷积神经网络在脑血管分割上的有效性,而且证明了本文所提出方法的分割效果比现有的脑血管分割算法更加出色。  相似文献   

8.
针对现有方法在文本和图像模态的预训练目标上存在嵌入不对齐,文档图像采用基于卷积神经网络(CNN)的结构进行预处理,流程复杂,模型参数量大的问题,提出基于Transformer的多模态级联文档布局分析网络(MCOD-Net).设计词块对齐嵌入模块(WAEM),实现文本和图像模态预训练目标的对齐嵌入,使用掩码语言建模(MLM)、掩码图像建模(MIM)和词块对齐(WPA)进行预训练,以促进模型在文本和图像模态上的表征学习能力.直接使用文档原始图像,用图像块的线性投影特征来表示文档图像,简化模型结构,减小了模型参数量.实验结果表明,所提模型在PubLayNet公开数据集上的平均精度均值(mAP)达到95.1%.相较于其他模型,整体性能提升了2.5%,泛化能力突出,综合效果最优.  相似文献   

9.
为了提升突发事件中网民情感分析的准确率和稳定性,提出一种基于混合融合的突发事件网民多模态情感分析模型。对于突发事件中的多模态信息,利用双向LSTM和VGG并结合注意力模型,分别提取文本情感特征和图像情感特征,利用中层融合的方式学习不同模态特征之间的交互关系,通过基于逻辑回归的决策层融合模型充分学习不同模态之间的相关性,最后通过全连接层输出情感预测结果。在构建的“新冠疫情”数据集上进行对比验证实验,结果表明,所构建的模型相较于基准模型具有一定的优越性。  相似文献   

10.
针对大多数传统胶质母细胞瘤(GBM)多模态磁共振(MR)图像分割算法未能将整个肿瘤细分为不同子区域的问题,提出基于混合特征和先验知识的GBM多模态MR图像自动分割算法. 配准GBM多模态MR图像,将头部区域方位调整到近似未旋转位置,并利用N4ITK法进行偏置场校正. 在提取GBM多模态MR图像局部位置特征、强度特征、纹理特征、对称特征和上下文特征后,应用随机森林分类器初步分割GBM多模态MR图像. 考虑GBM肿瘤解剖结构先验知识,移除小区域和中值滤波后得到最终分割结果. 以Dice相似性系数作为评价指标,利用所提出的算法对TCGA-GBM和CH-GBM数据库中整个肿瘤进行分割,获得的平均Dice相似性系数分别为0.871、0.882. 结果表明,该算法能以较高的准确率分割GBM多模态MR图像,适用于临床GBM多模态MR图像分割任务.  相似文献   

11.
为了从多参数磁共振(mp-MRI)的前列腺区域中自动提取前列腺癌病灶区域,提出新的深度卷积神经网络模型SE-Mask-RCNN. 在特征图上搜索定位包含病灶的候选区域,基于候选区域实现病灶的精细分割.为了利用mp-MRI中的互补信息,通过2个并行卷积网络分别提取表观扩散系数(ADC)和T2加权(T2W)图像的特征图后进行融合,使用挤压与激励块自动提升融合特征图中的有效特征并抑制无效特征.在收集得到的140例数据上进行实验.结果表明,使用SE-Mask-RCNN得到前列腺癌病灶分割Dice系数为0.654,敏感度为0.695,特异度为0.970,阳性预测值为0.685.与U-net、V-net、Resnet50-U-net和Mask-RCNN等模型相比,SE-Mask-RCNN能够有效提升mp-MRI中前列腺癌病灶区域的分割精度.  相似文献   

12.
该文基于卷积神经网络(CNNs)模型,提出一种模型融合的图像分类方法,将原图像经过图像增强和数据标准化后获得的数据作为原始数据,将原始数据取反后作为映射数据,分别使用原始数据和映射数据训练CNNs模型,通过融合训练后的两组CNNs模型获得改进的CNNs模型。通过假设、验证、理论推导步骤证明了该方法在简单模型上的有效性,进而推广到更复杂的卷积神经网络模型。实验结果表明,改进的CNNs模型与原始CNNs模型分类精度对比,在CIFAR-10和CIFAR-100数据集上分别提升了1%和3%,有效提升了模型的分类精度。  相似文献   

13.
Machine learning can help differentiating benign and malignant lesions seen on mammographic images. Conventional models require handcrafting features for lesion representation. Due to insufficient medical instances, the performance of convolutional neural networks(CNNs) can be further increased. This study makes use of transfer learning for mammographic breast lesion diagnosis and deep neural network(DNN) models pre-trained with large-scale natural images are employed. The diagnosis performance is evaluated with the prediction accuracy(ACC) and the area under the curve(AUC) on average. A histologically verified database is analyzed which contains 406 lesions(230 benign and 176 malignant). Involved models include transferred DNNs(GoogLeNet and AlexNet), shallow CNNs(CNN2 and CNN3) that are fully trained with medical instances and boosted by support vector machine(SVM), and two conventional methods which combine handcrafted features and SVM for lesion diagnosis. Experimental results indicate that GoogLeNet achieves the best performance(ACC=0.81, AUC=0.88), followed by AlexNet(ACC=0.79, AUC=0.83) and CNN3(ACC=0.73, AUC=0.82). Knowledge transfer can improve the mammographic breast cancer diagnosis, while its wide application still requires further verification in medical imaging domain.  相似文献   

14.
Lu  Gang  Wang  YuanBin  Xu  HuXiu  Yang  HuaYong  Zou  Jun 《中国科学:技术科学(英文版)》2022,65(2):324-335

Automated waste sorting can dramatically increase waste sorting efficiency and reduce its regulation cost. Most of the current methods only use a single modality such as image data or acoustic data for waste classification, which makes it difficult to classify mixed and confusable wastes. In these complex situations, using multiple modalities becomes necessary to achieve a high classification accuracy. Traditionally, the fusion of multiple modalities has been limited by fixed handcrafted features. In this study, the deep-learning approach was applied to the multimodal fusion at the feature level for municipal solid-waste sorting. More specifically, the pre-trained VGG16 and one-dimensional convolutional neural networks (1D CNNs) were utilized to extract features from visual data and acoustic data, respectively. These deeply learned features were then fused in the fully connected layers for classification. The results of comparative experiments proved that the proposed method was superior to the single-modality methods. Additionally, the feature-based fusion strategy performed better than the decision-based strategy with deeply learned features.

  相似文献   

15.
由于深度卷积神经网络的卷积层通道规模及卷积核尺寸多样,现有加速器面对这些多样性很难实现高效计算。为此,基于生物脑神经元机制提出了一种深度卷积神经网络加速器。该加速器拥有类脑神经元电路的多种分簇方式及链路组织方式,可以应对不同通道规模。设计了3种卷积计算映射,可以应对不同卷积核大小;实现了局部存储区数据的高效复用,可大量减少数据搬移,提高了计算性能。分别以目标分类和目标检测网络进行测试,该加速器的计算性能分别达498.6×10 9次/秒和571.3×10 9次/秒;能效分别为582.0×10 9次/(秒·瓦)和651.7×10 9次/(秒·瓦)。  相似文献   

16.
针对目前图像编码的研究工作更加重视信息无损性,而没有体现出社交网络图像区分度的问题,本研究提出一种新颖的基于深度卷积神经网络的社交网络图像自编码算法,将深度卷积神经网络提取特征的能力与社交网络中图像的特点相结合,得到性能良好的图像自编码。结合社交网络图片的特性与聚类算法,先将图片进行聚类得到距离信息,再利用深度卷积神经网络学习图片的距离信息,提取深度卷积神经网络中的全连接层作为编码,重复以上步骤,并得到最终的图像编码。试验结果表明,本研究提出的算法在图像搜索中的效果好于其他算法,更利于在社交网络图像搜索中使用。  相似文献   

17.
针对复杂地面背景环境下的武器装备精确探测识别需求,采用Lee增强滤波、对比度自适应直方图均衡化和能量归一化等图像预处理方法,提高SAR图像质量;通过引入两个可学习的参数和采用基于非极大值抑制(NMS)方法构建了优化的YOLO神经网络目标识别方法,对基于轮廓、纹理等特征的地面目标SAR图像自动识别进行了实验.实验结果表明...  相似文献   

18.
针对卷积神经网络中间特征层信息利用不充分,以及不区分尺度和难易样本的学习所导致的文字检测精度难以提高的问题,提出基于多路精细化特征融合的聚焦难样本的区分尺度的自然场景文字检测方法. 构建多路精细化的卷积神经网络融合层提取高分辨率特征图;按照文字标注矩形框的较长边的尺寸,将文字实例划分为3种尺度范围,并分布到不同的候选框提取网络中提取相应的候选框;设计聚焦损失函数对难样本进行重点学习以提高模型的表达能力并得到目标文字框. 实验表明,所提出的多路精细化特征提取方法在COCO-Text数据集上的文字召回率较高,聚焦难样本的区分尺度的文字检测方法在ICDAR2013、ICDAR2015标准数据集上的检测精度分别为0.89、0.83,与CTPN、RRPN等方法相比,在多尺度多方向的自然场景图像中具有更强的鲁棒性.  相似文献   

19.
针对段落式图像描述生成研究中提升描述语句之间的连贯性问题,提出了一种基于全卷积结构的图像段落描述算法.采用基于卷积网络的区域检测器获取图像表示,结合段落在语言学角度的层次性,构建一种层次性的深度卷积解码器对图像表示解码,自动生成段落式文本描述.同时将门控机制嵌入卷积解码器网络中,以提升模型的记忆能力.实验结果表明,相比于基于循环神经网络等传统段落图像的描述方法,新算法能够为图像生成更为连贯的段落式文本描述,在评测指标上取得较好的结果.  相似文献   

20.
在计算机视觉领域,人群异常行为检测技术可以广泛应用于视频监控、智能视频分析、群体行为识别等领域,因此,受到了学者们的广泛关注。由于视频中人群目标具有尺度变化大、透视形变、标注偏置等特点,人群异常行为检测依然是一个具有挑战性的难题。为此,本文提出了一种基于脉线流和卷积神经网络的人群异常行为检测方法(Streak Flow CNN Abnormal Behavior Detection,简称SFCNN-ABD)。SFCNN-ABD通过卷积神经网络获取显著的人群行为空域特征,并通过脉线流结合卷积神经网络获取人群行为时域特征。SFCNN-ABD是一个双流网络,网络结构由两个深度残差网络作为骨干网络,分别为空域网络和时域网络。其中,空间域网络的输入是原始视频帧,提取人群行为的表观特征,而时域网络利用脉线流提取人群行为的运动特征,脉线流能更准确地识别场景中的空域和时域变化,因而能进一步提升人群异常行为检测的准确性。最后将两个网络的输出进行融合,完成人群异常行为的检测。在UMN和VIF两个公开基准数据集进行了测试,实验结果表明本文方法的性能优于当前主流算法,验证了本文方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号