期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

LSTM逐层多目标优化及多层概率融合的图像描述 总被引：2，自引：0，他引：2

汤鹏杰王瀚漓许恺晟《自动化学报》2018,44(7):1237-1249

使用计算模型对图像进行自动描述属于视觉高层理解，要求模型不仅能够对图像中的目标及场景进行描述，而且能够对目标与目标之间、目标与场景之间的关系进行表达，同时能够生成符合一定语法和结构的自然语言句子.目前基于深度卷积神经网络（Convolutional neural network，CNN）和长短时记忆网络（Long-short term memory，LSTM）的方法已成为解决该问题的主流，虽然已取得巨大进展，但存在LSTM层次不深，难以优化的问题，导致模型性能难以提升，生成的描述句子质量不高.针对这一问题，受深度学习思想的启发，本文设计了基于逐层优化的多目标优化及多层概率融合的LSTM（Multi-objective layer-wise optimization/multi-layer probability fusion LSTM，MLO/MLPF-LSTM）模型.模型中首先使用浅层LSTM进行训练，收敛之后，保留原LSTM模型中的分类层及目标函数，并添加新的LSTM层及目标函数重新对模型进行训练，对模型原有参数进行微调；在测试时，将多个分类层使用Softmax函数进行变换，得到每层对单词的预测概率分值，然后将多层的概率分值进行加权融合，得到单词的最终预测概率.在MSCOCO和Flickr30K两个数据集上实验结果显示，该模型性能显著，在多个统计指标上均超过了同类其他方法. 相似文献

2.

从视频到语言:视频标题生成与描述研究综述

汤鹏杰王瀚漓《自动化学报》2022,(2)

视频标题生成与描述是使用自然语言对视频进行总结与重新表达.由于视频与语言之间存在异构特性,其数据处理过程较为复杂.本文主要对基于“编码?解码”架构的模型做了详细阐述,以视频特征编码与使用方式为依据,将其分为基于视觉特征均值/最大值的方法、基于视频序列记忆建模的方法、基于三维卷积特征的方法及混合方法,并对各类模型进行了归纳与总结.最后,对当前存在的问题及可能趋势进行了总结与展望,指出需要生成融合情感、逻辑等信息的结构化语段,并在模型优化、数据集构建、评价指标等方面进行更为深入的研究. 相似文献

3.

从视频到语言:视频标题生成与描述研究综述

汤鹏杰王瀚漓《自动化学报》2022,(2)

视频标题生成与描述是使用自然语言对视频进行总结与重新表达.由于视频与语言之间存在异构特性,其数据处理过程较为复杂.本文主要对基于“编码?解码”架构的模型做了详细阐述,以视频特征编码与使用方式为依据,将其分为基于视觉特征均值/最大值的方法、基于视频序列记忆建模的方法、基于三维卷积特征的方法及混合方法,并对各类模型进行了归纳与总结.最后,对当前存在的问题及可能趋势进行了总结与展望,指出需要生成融合情感、逻辑等信息的结构化语段,并在模型优化、数据集构建、评价指标等方面进行更为深入的研究. 相似文献

4.

智能卡管理信息系统中数据库技术的应用 总被引：1，自引：0，他引：1

王瀚漓韦巍《计算机工程与应用》2003,39(5):189-192

介绍了数据库技术在智能卡管理信息系统中的应用。以智能卡酒店消费管理信息系统为例,在系统分析的基础上采用实体-联系法对服务器端数据库进行建模;平衡规范化和非规范化规则,采用完整性约束机制构建数据库表结构;存储过程技术与事务机制配合使用,来减少网络数据流量,增强数据访问的完整性和一致性;最后介绍了基于角色和用户的系统访问管理机制。相似文献

5.

并行交叉的深度卷积神经网络模型 总被引：2，自引：1，他引：1

下载免费PDF全文

汤鹏杰王瀚漓左凌轩《中国图象图形学报》2016,21(3):339-347

目的图像分类与识别是计算机视觉领域的经典问题,是图像检索、目标识别及视频分析理解等技术的基础。目前,基于深度卷积神经网络(CNN)的模型已经在该领域取得了重大突破,其效果远远超过了传统的基于手工特征的模型。但很多深度模型神经元和参数规模巨大,训练困难。为此根据深度CNN模型和人眼视觉原理,提出并设计了一种深度并行交叉CNN模型(PCCNN模型)。方法该模型在Alex-Net基础上,通过两条深度CNN数据变换流,提取两组深度CNN特征;在模型顶端,经过两次混合交叉,得到1024维的图像特征向量,最后使用Softmax回归对图像进行分类识别。结果与同类模型相比,该模型所提取的特征更具判别力,具有更好的分类识别性能;在Caltech101上top1识别精度达到63%左右,比VGG16高出近5%,比GoogLeNet高出近10%;在Caltech256上top1识别精度达到46%以上,比VGG16高出近5%,比GoogLeNet高出2.6%。结论 PCCNN模型用于图像分类与识别效果显著,在中等规模的数据集上具有比同类其他模型更好的性能,在大规模数据集上其性能有待于进一步验证;该模型也为其他深度CNN模型的设计提供了一种新的思路,即在控制深度的同时,提取更多的特征信息,提高深度模型性能。相似文献

6.

自然环境视频中基于显著鲁棒轨迹的行为识别

下载免费PDF全文

易云王瀚漓《中国图象图形学报》2015,20(2):245-253

目的人类行为识别是计算机视觉领域的一个重要研究课题。由于背景复杂、摄像机抖动等原因,在自然环境视频中识别人类行为存在困难。针对上述问题,提出一种基于显著鲁棒轨迹的人类行为识别算法。方法该算法使用稠密光流技术在多尺度空间中跟踪显著特征点,并使用梯度直方图(HOG)、光流直方图(HOF)和运动边界直方图(MBH)特征描述显著轨迹。为了有效消除摄像机运动带来的影响,使用基于自适应背景分割的摄像机运动估计技术增强显著轨迹的鲁棒性。然后,对于每一类特征分别使用Fisher Vector模型将一个视频表示为一个Fisher向量,并使用线性支持向量机对视频进行分类。结果在4个公开数据集上,显著轨迹算法比Dense轨迹算法的实验结果平均高1%。增加摄像机运动消除技术后,显著鲁棒轨迹算法比显著轨迹算法的实验结果平均高2%。在4个数据集(即Hollywood2、You Tube、Olympic Sports和UCF50)上,显著鲁棒轨迹算法的实验结果分别是65.8%、91.6%、93.6%和92.1%,比目前最好的实验结果分别高1.5%、2.6%、2.5%和0.9%。结论实验结果表明,该算法能够有效地识别自然环境视频中的人类行为,并且具有较低的时间复杂度。相似文献

7.

开关柜电气磨合微机控制系统中多线程技术的应用 总被引：2，自引：0，他引：2

王瀚漓汪雄海《电气自动化》2001,23(5):59-61

介绍了多线程技术在开关柜电气磨合系统中的应用。在系统功能分析的基础上，应用了以循环队列和采样定理为基础的数据采集策略，并采用了各子线程协同调用技术，实现整个系统的多任务并行处理。相似文献