期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

赵亚丽余正涛郭军军高盛祥相艳《计算机工程与科学》2023,(2):338-345

传统的基于机器翻译的跨语言情感分类方法,由于受机器翻译性能影响,导致越南语等低资源语言的情感分类准确率较低。针对源语言和目标语言标记资源不平衡的问题,提出一种基于情感语义对抗的跨语言情感分类模型。首先,将句子和句子中情感词进行拼接,用卷积神经网络对拼接后的句子分别进行特征抽取,分别获得单语语义空间下的情感语义表征;其次,通过对抗网络,在双语情感语义空间将带标签数据与无标签数据的情感语义表征进行对齐;最后,将句子与情感词最显著的表征进行拼接,得到情感分类结果。基于汉英公共数据集和自主构建的汉越数据集的实验结果表明,所提模型相比跨语言情感分类主流模型,实现了双语情感语义对齐,可以有效提升越南语情感分类的准确率,且在差异性不同的语言对上也具有明显优势。相似文献

2.

融合约束学习的图像字幕生成方法

下载免费PDF全文

杜海骏刘学亮《中国图象图形学报》2020,25(2):333-342

目的图像字幕生成是一个涉及计算机视觉和自然语言处理的热门研究领域，其目的是生成可以准确表达图片内容的句子。在已经提出的方法中，生成的句子存在描述不准确、缺乏连贯性的问题。为此，提出一种基于编码器-解码器框架和生成式对抗网络的融合训练新方法。通过对生成字幕整体和局部分别进行优化，提高生成句子的准确性和连贯性。方法使用卷积神经网络作为编码器提取图像特征，并将得到的特征和图像对应的真实描述共同作为解码器的输入。使用长短时记忆网络作为解码器进行图像字幕生成。在字幕生成的每个时刻，分别使用真实描述和前一时刻生成的字幕作为下一时刻的输入，同时生成两组字幕。计算使用真实描述生成的字幕和真实描述本身之间的相似性，以及使用前一时刻的输出生成的字幕通过判别器得到的分数。将二者组合成一个新的融合优化函数指导生成器的训练。结果在CUB-200数据集上，与未使用约束器的方法相比，本文方法在BLEU-4、BLEU-3、BLEI-2、BLEU-1、ROUGE-L和METEOR等6个评价指标上的得分分别提升了0.8%、1.2%、1.6%、0.9%、1.8%和1.0%。在Oxford-102数据集上，与未使用约束器的方法相比，本文方法在CIDEr、BLEU-4、BLEU-3、BLEU-2、BLEU-1、ROUGE-L和METEOR等7个评价指标上的得分分别提升了3.8%、1.5%、1.7%、1.4%、1.5%、0.5%和0.1%。在MSCOCO数据集上，本文方法在BLEU-2和BLEU-3两项评价指标上取得了最优值，分别为50.4%和36.8%。结论本文方法将图像字幕中单词前后的使用关系纳入考虑范围，并使用约束器对字幕局部信息进行优化，有效解决了之前方法生成的字幕准确度和连贯度不高的问题，可以很好地用于图像理解和图像字幕生成。相似文献

3.

基于Se-ResNet50特征编码器的公共环境图像描述生成

唐渔何志琴周宇辉《计算机应用研究》2023,40(6):1864-1869

针对传统公共环境图像描述模型中编码器—解码器结构在编码过程中特征提取能力不足以及解码过程中上下文信息丢失严重的问题,提出了一种基于Se-ResNet50与M-LSTM的公共环境图像描述模型。将SeNet模块添加到ResNet-50的残差路径中得到改进残差网络提取图像特征,SeNet对特征的各个部分赋予权重生成不同的注意力特征图,再融合文本特征向量输入具有额外门控运算的改进长短期记忆网络(M-LSTM)训练。模型训练结束后,输入公共环境图像就能得到描述图像内容的自然语句。该模型在多种数据集上进行了评估,实验结果表明,提出的模型在MSCOCO数据集上相较传统模型,在BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、CIDEr等评价指标上分别提高了3.2%、2.1%、1.7%、1.7%、1.3%、8.2%,证明了提出的方法在评价指标、语义多样性上具有一定的优越性。相似文献

4.

基于局部和全局语义融合的跨语言句子语义相似度计算模型

李霞刘承标章友豪蒋盛益《中文信息学报》2019,33(6):18-26

跨语言句子语义相似度计算旨在计算不同语言句子之间的语义相似程度。近年来,前人提出了基于神经网络的跨语言句子语义相似度模型,这些模型多数使用卷积神经网络来捕获文本的局部语义信息,缺少对句子中远距离单词之间语义相关信息的获取。该文提出一种融合门控卷积神经网络和自注意力机制的神经网络结构,用于获取跨语言文本句子中的局部和全局语义相关关系,从而得到文本的综合语义表示。在SemEval-2017多个数据集上的实验结果表明,该文提出的模型能够从多个方面捕捉句子间的语义相似性,结果优于基准方法中基于纯神经网络的模型方法。相似文献

5.

一个从中间语言生成目标语言的原理和方法 总被引：3，自引：0，他引：3

下载免费PDF全文

卞世力姚天顺金鸿《软件学报》1994,5(9):1-8

本文介绍了我们的汉英机器翻译系统（ＣＥＴＲＡＮ）中一种从中间语言生成英语的生成系统，讨论了从中间语言留到目标语言转换的基本原理．目的在于通过解决汉英之间语法和语义方面的差异，得到高质量的机译结果．文中还介绍了基于语义驱动的由中间语生成英文目标语的计算机实现算法．为了说明清楚，整个叙述都注意列举了一些实例．相似文献

6.

基于语义一致性的细节保持图像生成方法

崔怀磊刘丽张化祥刘冬梅马跃王泽康《计算机辅助设计与图形学学报》2022,(10):1497-1505

生成对抗网络被广泛应用于文本生成图像领域,但在生成过程中容易导致部分图形缺失必要的细节.为了生成包含更多细节特征的细粒度图像,提高文本与图像的语义一致性,提出一种基于语义一致性的细节保持图像生成方法.首先,挖掘文本描述中的潜在语义,引入特征提取模块选择文本中的重要单词和句子,获取单词和句子之间的语义结构信息;其次,构造细节保持模块关联图像与文本信息,结合混合注意力机制,定位特定文本对应的图像区域,将定位区域与文本信息关联,增强和优化生成图像的细节;最后,融合语义损失和感知损失,将句子的图像和单词的子区域映射到共同语义空间.实验结果表明,在CUB数据集上,IS和FID指标分别达到4.77和15.47;在COCO数据集上, IS和FID指标分别达到35.56和27.63. 相似文献

7.

深度语义关联学习的基于图像视觉数据跨域检索

焦世超关日鹏况立群熊风光韩燮《计算机工程》2024,(5):190-199

基于图像的视觉数据跨域检索任务旨在搜索与输入图像在语义上一致或外形上相似的跨域图像和三维模型数据,其面临的主要问题是处理跨域数据之间的模态异质性。现有方法通过构建公共特征空间,采用域适应算法或深度度量学习算法实现跨域特征的域对齐或语义对齐,其有效性仅在单一类型的跨域检索任务中进行了验证。提出一种基于深度语义关联学习的方法,以适用多种类型的基于图像的跨域视觉数据检索任务。首先,使用异构网络提取跨域数据的初始视觉特征;然后,通过构建公共特征空间实现初始特征映射,以便进行后续的域对齐和语义对齐;最后,通过域内鉴别性学习、域间一致性学习和跨域相关性学习,消除跨域数据特征之间的异质性,探索跨域数据特征之间的语义相关性,并为检索任务生成鲁棒且统一的特征表示。实验结果表明,该方法在TU-Berlin、IM2MN和MI3DOR数据集中的平均精度均值(mAP)分别达到0.448、0.689和0.874,明显优于对比方法。相似文献

8.

基于梯度核特征及N-gram模型的商品图像句子标注

张红斌姬东鸿尹兰任亚峰《计算机科学》2016,43(5):269-273, 287

提出为商品图像标注句子,以便更准确地刻画图像内容。首先,执行图像特征学习,选出标注性能最优的梯度核特征完成图像分类和图像检索,该特征能客观描绘商品图像中形状和纹理这两类关键视觉特性。然后,基于语义相关度计算结果从训练图像的文本描述中摘取关键单词,并采用N-gram模型把单词组装为蕴涵丰富语义信息且满足句法模式兼容性的修饰性短语,基于句子模板和修饰性短语生成句子。最后,构建Boosting模型,从若干标注结果中选取BLEU-3评分最优的句子标注商品图像。结果表明,Boosting模型的标注性能优于各基线。相似文献

9.

基于枢轴语言的图像描述生成研究

张凯李军辉周国栋《中文信息学报》2019,33(3):110-117

当前图像描述生成的研究主要仅限于单语言(如英文),这得益于大规模的已人工标注的图像及其英文描述语料。该文探索零标注资源情况下,以英文作为枢轴语言的图像中文描述生成研究。具体地,借助于神经机器翻译技术,该文提出并比较了两种图像中文描述生成的方法: (1)串行法,该方法首先将图像生成英文描述,然后由英文描述翻译成中文描述; (2)构建伪训练语料法,该方法首先将训练集中图像的英文描述翻译为中文描述,得到图像-中文描述的伪标注语料,然后训练一个图像中文描述生成模型。特别地,对于第二种方法,该文还比较了基于词和基于字的中文描述生成模型。实验结果表明,采用构建伪训练语料法优于串行法,同时基于字的中文描述生成模型也要优于基于词的模型,BLEU_4值达到0.341。相似文献

10.

基于改进的多模态神经网络图像描述方法

李柯徵王海涌《计算机应用与软件》2021,38(9):153-159

图像描述是一项融合了自然语言处理和计算机视觉的综合任务,现有方法不仅存在描述性能不佳、缺失语义信息等问题,还存在模型结构与图像特征之间语义信息关联性不足的问题.针对这些问题,提出一种使用门控循环单元和卷积注意力模块进行优化的基于多模态神经网络的图像描述方法.为了验证方法的有效性,在MSCOCO2014数据集上进行实验对比,结果表明,改进方法在各项评价标准下的性能均优于原方法和其他经典算法,并且能够更好地处理图像里的关键信息和生成更加准确的图像描述句子. 相似文献

11.

融合ELMo词嵌入的多模态Transformer的图像描述算法

下载免费PDF全文

杨文瑞沈韬朱艳曾凯刘英莉《计算机工程与应用》2022,58(21):223-231

图像描述任务旨在针对一张给出的图像产生其对应描述。针对现有算法中语义信息理解不够全面的问题,提出了一个针对图像描述领域的多模态Transformer模型。该模型在注意模块中同时捕捉模态内和模态间的相互作用;更进一步使用ELMo获得包含上下文信息的文本特征,使模型获得更加丰富的语义描述输入。该模型可以对复杂的多模态信息进行更好地理解与推断并且生成更为准确的自然语言描述。该模型在Microsoft COCO数据集上进行了广泛的实验,实验结果表明,相比于使用bottom-up注意力机制以及LSTM进行图像描述的基线模型具有较大的效果提升,模型在BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE-L、CIDEr-D上分别有0.7、0.4、0.9、1.3、0.6、4.9个百分点的提高。相似文献

12.

结合多层级解码器和动态融合机制的图像描述

下载免费PDF全文

姜文晖占锟程一波夏雪方玉明《中国图象图形学报》2022,27(9):2775-2787

目的注意力机制是图像描述模型的常用方法,特点是自动关注图像的不同区域以动态生成描述图像的文本序列,但普遍存在不聚焦问题,即生成描述单词时,有时关注物体不重要区域,有时关注物体上下文,有时忽略图像重要目标,导致描述文本不够准确。针对上述问题,提出一种结合多层级解码器和动态融合机制的图像描述模型,以提高图像描述的准确性。方法对Transformer的结构进行扩展,整体模型由图像特征编码、多层级文本解码和自适应融合等3个模块构成。通过设计多层级文本解码结构,不断精化预测的文本信息,为注意力机制的聚焦提供可靠反馈,从而不断修正注意力机制以生成更加准确的图像描述。同时,设计文本融合模块,自适应地融合由粗到精的图像描述,使低层级解码器的输出直接参与文本预测,不仅可以缓解训练过程产生的梯度消失现象,同时保证输出的文本描述细节信息丰富且语法多样。结果在MS COCO(Microsoft common objects in context)和Flickr30K两个数据集上使用不同评估方法对模型进行验证,并与具有代表性的12种方法进行对比实验。结果表明,本文模型性能优于其他对比方法。其中,在MS C... 相似文献

13.

基于视觉-语义中间综合属性特征的图像中文描述生成算法

肖雨寒江爱文王明文揭安全《中文信息学报》2021,35(4):129-138

图像描述是计算机视觉、自然语言处理与机器学习的交叉领域多模态信息处理任务,需要算法能够有效地处理图像和语言两种不同模态的信息.由于异构语义鸿沟的存在,该任务具有较大的挑战性.目前主流的研究仍集中在基于英文的图像描述任务,对图像中文描述的研究相对较少.图像视觉信息在图像描述算法中没有得到足够的重视,算法模型的性能更多地取... 相似文献

14.

基于注意力融合的图像描述生成方法

下载免费PDF全文

莫宏伟田朋《智能系统学报》2020,15(4):740-749

空间注意力机制和高层语义注意力机制都能够提升图像描述的效果,但是通过直接划分卷积神经网络提取图像空间注意力的方式不能准确地提取图像中目标对应的特征。为了提高基于注意力的图像描述效果,提出了一种基于注意力融合的图像描述模型,使用Faster R-CNN（faster region with convolutional neural network）作为编码器在提取图像特征的同时可以检测出目标的准确位置和名称属性特征,再将这些特征分别作为高层语义注意力和空间注意力来指导单词序列的生成。在COCO数据集上的实验结果表明,基于注意力融合的图像描述模型的性能优于基于空间注意力的图像描述模型和多数主流的图像描述模型。在使用交叉熵训练方法的基础上,使用强化学习方法直接优化图像描述评价指标对模型进行训练,提升了基于注意力融合的图像描述模型的准确率。相似文献

15.

M-FFN: multi-scale feature fusion network for image captioning

Prudviraj Jeripothula Vishnu Chalavadi Mohan Chalavadi Krishna 《Applied Intelligence》2022,52(13):14711-14723

In this work, we present a novel multi-scale feature fusion network (M-FFN) for image captioning task to incorporate discriminative features and scene contextual information of an image. We construct multi-scale feature fusion network by leveraging spatial transformation and multi-scale feature pyramid networks via feature fusion block to enrich spatial and global semantic information. In particular, we take advantage of multi-scale feature pyramid network to incorporate global contextual information by employing atrous convolutions on top layers of convolutional neural network (CNN). And, the spatial transformation network is exploited on early layers of CNN to remove intra-class variability caused by spatial transformations. Further, the feature fusion block integrates both global contextual information and spatial features to encode the visual information of an input image. Moreover, spatial-semantic attention module is incorporated to learn attentive contextual features to guide the captioning module. The efficacy of the proposed model is evaluated on the COCO dataset.

相似文献

16.

Visuals to Text: A Comprehensive Review on Automatic Image Captioning

下载免费PDF全文

Yue Ming Nannan Hu Chunxiao Fan Fan Feng Jiangwan Zhou Hui Yu 《IEEE/CAA Journal of Automatica Sinica》2022,9(8):1339-1365

相似文献

17.

基于双路细化注意力机制的图像描述模型

丛璐文《计算机系统应用》2020,29(5):245-251

图像描述是连接计算机视觉与自然语言处理两大人工智能领域内的一项重要任务.近几年来,基于注意力机制的编码器-解码器架构在图像描述领域内取得了显著的进展.然而,许多基于注意力机制的图像描述模型仅使用了单一的注意力机制.本文提出了一种基于双路细化注意力机制的图像描述模型,该模型同时使用了空间注意力机制与通道注意力机制,并且使用了细化图像特征的模块,对图像特征进行进一步细化处理,过滤掉图像中的冗余与不相关的特征.我们在MS COCO数据集上进行实验来验证本文模型的有效性,实验结果表明本文的基于双路细化注意力机制的图像描述模型与传统方法相比有显著的优越性. 相似文献

18.

基于跨模态多维关系增强的多模态模型研究

成曦杨关《计算机应用研究》2023,40(6)

针对当前多模态模型不能充分挖掘图像中非显著区域的空间关系和上下文间的语义关系,导致多模态关系推理效果不佳的问题,提出了一个基于跨模态多维关系增强的多模态模型（multi-dimensional relationship enhancement model,MRE）,用于提取潜层结构下图像各要素之间的空间关系信息,并推理出视觉—语言间的语义相关性。设计了特征多样性模块用于挖掘图像中与显著区域相关的次显著区域特征,从而增强图像空间关系特征表示;并设计了上下文引导注意模块来引导模型学习语言上下文在图像中的关系,实现跨模态关系对齐。在MSCOCO数据集上的实验表明所提模型获得了更好的性能,其中BLEU-4和CIDEr分数分别提升了0.5%和1.3%。将这种方法应用到视觉问答任务中,在VQA 2.0数据集上性能得到了0.62%的提升,证明该方法在多模态任务方面的广泛适用性。相似文献