期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘旖菲胡学敏陈国文刘士豪陈龙《中国图象图形学报》2021,26(1):49-66

视觉感知模块能够利用摄像机等视觉传感器获取丰富的图像和视频信息,进而检测自动驾驶汽车视野中的车辆、行人与交通标识等信息,是自动驾驶最有效、成本最低的感知方式之一。运动规划为自主车辆提供从车辆初始状态到目标状态的一系列运动参数和驾驶动作,而端到端的模型能够直接从感知的数据获取车辆的运动参数,因而受到广泛的关注。为了全面反映视觉感知的端到端自动驾驶运动规划方法的研究进展,本文对国内外公开发表的具有代表性和前沿的论文进行了概述。首先分析端到端方法的应用,以及视觉感知和运动规划在端到端自动驾驶中的作用,然后以自主车辆的学习方式作为分类依据,将视觉感知的端到端自动驾驶运动规划的实现方法分为模仿学习和强化学习两大类,并对各类方法的不同算法进行了归纳和分析;考虑到现阶段端到端模型的研究面临着虚拟到现实的任务,故对基于迁移学习的方法进行了梳理。最后列举与自动驾驶相关的数据集和仿真平台,总结存在的问题和挑战,对未来的发展趋势进行思考和展望。视觉感知的端到端自动驾驶运动规划模型的普适性强且结构简单,这类方法具有广阔的应用前景和研究价值,但是存在不可解释和难以保证绝对安全的问题,未来需要更多的研究改善端到端模型存在的局限性。相似文献

2.

基于端到端深度学习的智能车自动转向研究*

邹斌李超群侯献军王科未《计算机应用研究》2018,35(9)

为解决由图像直接计算出控制量的端到端深度学习算法中感知器和控制器难以区分的问题,对其网络结构进行了改进。通过预训练一个自编码器,得到良好的道路特征编码后,将编码器作为感知器和和转角预测控制器一起进行端到端的训练。训练结果表明,改进后的自动转向网络模型收敛的更快,预测的角度在测试集上能较好的跟随实际角度变化而变化。利用解码器和特征图反向传播法分别还原出道路图片,可视化了该自动转向模型重点关注的道路特征。相似文献

3.

一种端到端的自然场景文本检测与识别模型

陈鹏李鸣张宇王志鹏《测控技术》2022,41(7):17-22

提出了一种结合卷积神经网络和递归神经网络的有效的端到端场景文本识别方法。首先使用特征金字塔(FPN)提取图像的多尺度特征,然后将引入残差网络(ResNet)的深度双向递归网络(Bi-LSTM)对这些特征进行编码,获得文本序列特征,进而引入注意力机制(Attention)对文本序列特征进行解码达到识别效果。在ICDAR2013、ICDAR2015数据集实验验证了该算法的有效性,该方法不仅降低了训练难度,而且提升了网络的收敛速度,提高了文本识别准确率。该方法的有效性在ICDAR2013、ICDAR2015数据集上得到了充分验证。相似文献

4.

基于视觉区域聚合与双向协作的端到端图像描述生成

宋井宽曾鹏鹏顾嘉扬朱晋宽高联丽《软件学报》2023,34(5):2152-2169

近几年,基于Transformer的预训练模型展现了强大的模态表征能力,促使了多模态的下游任务(如图像描述生成任务)正朝着完全端到端范式的趋势所转变,并且能够使得模型获得更好的性能以及更快的推理速度.然而,该技术所提取的网格型视觉特征中缺乏区域型的视觉信息,从而导致模型对对象内容的描述不精确.因此,预训练模型在图像描述生成任务上的适用性在很大程度上仍有待探索.针对这一问题,提出一种基于视觉区域聚合与双向协作学习的端到端图像描述生成方法 (visual region aggregation and dual-level collaboration, VRADC).为了学习到区域型的视觉信息,设计了一种视觉区域聚合模块,将有相似语义的网格特征聚合在一起形成紧凑的视觉区域表征.接着,双向协作模块利用交叉注意力机制从两种视觉特征中学习到更加有代表性的语义信息,进而指导模型生成更加细粒度的图像描述文本.基于MSCOCO和Flickr30k两个数据集的实验结果表明,所提的VRADC方法能够大幅度地提升图像描述生成的质量,实现了最先进的性能. 相似文献

5.

基于深度时空Q网络的定向导航自动驾驶运动规划

胡学敏成煜陈国文张若晗童秀迟《计算机应用》2020,40(7):1919-1925

针对目前基于机器学习的自动驾驶运动规划需要大量样本、没有关联时间信息,以及没有利用全局导航信息等问题,提出一种基于深度时空Q网络的定向导航自动驾驶运动规划算法。首先,为提取自动驾驶的空间图像特征与前后帧的时间信息,基于原始深度Q网络,结合长短期记忆网络,提出一种新的深度时空Q网络;然后,为充分利用自动驾驶的全局导航信息,在提取环境信息的图像中加入指向信号来实现定向导航的目的;最后,基于提出的深度时空Q网络,设计面向自动驾驶运动规划模型的学习策略,实现端到端的运动规划,从输入的序列图像中预测车辆方向盘转角和油门刹车数据。在Carla驾驶模拟器中进行训练和测试的实验结果表明,在四条测试道路中该算法平均偏差均小于0.7 m,且稳定性能优于四种对比算法。该算法具有较好的学习性、稳定性和实时性,能够实现在全局导航路线下的自动驾驶运动规划。相似文献

6.

联合自注意力和循环网络的图像标题生成

王习张凯李军辉孔芳张熠天《计算机科学》2021,48(4):157-163

目前大多数图像标题生成模型都是由一个基于卷积神经网络(Convolutional Neural Network,CNN)的图像编码器和一个基于循环神经网络(Recurrent Neural Network,RNN)的标题解码器组成。其中图像编码器用于提取图像的视觉特征,标题解码器基于视觉特征通过注意力机制来生成标题。然而,使用基于注意力机制的RNN的问题在于,解码端虽然可以对图像特征和标题交互的部分进行注意力建模,但是却忽略了标题内部交互作用的自我注意。因此,针对图像标题生成任务,文中提出了一种能同时结合循环网络和自注意力网络优点的模型。该模型一方面能够通过自注意力模型在统一的注意力区域内同时捕获模态内和模态间的相互作用,另一方面又保持了循环网络固有的优点。在MSCOCO数据集上的实验结果表明,CIDEr值从1.135提高到了1.166,所提方法能够有效提升图像标题生成的性能。相似文献

7.

基于深度级联神经网络的自动驾驶运动规划模型

白丽贇胡学敏宋昇童秀迟张若晗《计算机应用》2019,39(10):2870-2875

针对基于规则的运动规划算法需要预先定义规则和基于深度学习的方法没有利用时间特征的问题，提出一种基于深度级联神经网络的运动规划模型。该模型将卷积神经网络（CNN）和长短期记忆网络（LSTM）这两种经典的深度学习模型进行融合并构成一种新的级联神经网络，分别提取输入图像的空间和时间特征，并用以拟合输入序列图像与输出运动参数之间的非线性关系，从而完成从输入序列图像到运动参数的端到端的规划。实验利用模拟驾驶环境的数据进行训练和测试，结果显示所提模型在乡村路、高速路、隧道和山路四种道路中均方根误差（RMSE）不超过0.017，且预测结果的稳定度优于未使用级联网络的算法一个数量级。结果表明，所提模型能有效地学习人类的驾驶行为，并且能够克服累积误差的影响，适应多种不同场景下的路况，具有较好的鲁棒性。相似文献

8.

基于残差门控循环卷积和注意力机制的端到端光学乐谱识别方法

孙弘扬王尚《计算机与现代化》2022,(7):85-90

光学乐谱识别对推动音乐智能化与数字化有着重大意义。传统的乐谱识别流程冗杂,易导致错误积累,但目前基于序列建模的乐谱识别方法不能从全尺度上获取音符上下文信息,在识别效果上仍有提升空间。为此,提出一种基于残差门控循环卷积和注意力机制的端到端光学乐谱识别方法。以残差门控循环卷积作为骨干网络,丰富模型提取上下文信息能力;结合一个注意力机制解码器,能更好地挖掘乐谱特征信息及其内部相关性,增强模型表征能力并对乐谱图像中的音符及音符序列进行识别。实验结果表明,改进后的网络与原卷积循环神经网络（CRNN）模型相比,符号错误率和序列错误率均显著下降。相似文献

9.

基于文本与视觉信息的细粒度图像分类

下载免费PDF全文

袁建平陈晓龙陈显龙何恩杰张加其高宇豆《图学学报》2019,40(3):503

一般细粒度图像分类只关注图像局部视觉信息,但在一些问题中图像局部的文本信息对图像分类结果有直接帮助,通过提取图像文本语义信息可以进一步提升图像细分类效果。我们综合考虑了图像视觉信息与图像局部文本信息,提出一个端到端的分类模型来解决细粒度图像分类问题。一方面使用深度卷积神经网络获取图像视觉特征,另一方面依据提出的端到端文本识别网络,提取图像的文本信息,再通过相关性计算模块合并视觉特征与文本特征,送入分类网络。最终在公共数据集 Con-Text 上测试该方法在图像细分类中的结果,同时也在 SVT 数据集上验证端到端文本识别网络的能力,均较之前方法获得更好的效果。相似文献

10.

基于非线性堆叠双向网络的端到端声纹识别

王芷悦崔琳《计算机与现代化》2022,(3):13-17

传统声纹识别方法过程繁琐且识别率低,现有的深度学习方法所使用的神经网络对语音信号没有针对性从而导致识别精度不够。针对上述问题,本文提出一种基于非线性堆叠双向LSTM的端到端声纹识别方法。首先,对原始语音文件提取出Fbank特征用于网络模型的输入。然后,针对语音信号连续且前后关联性强的特点,构建双向长短时记忆网络处理语音数据提取深度特征,为进一步增强网络的非线性表达能力,利用堆叠多层双向LSTM层和多层非线性层实现对语音信号更深层次抽象特征的提取。最后,使用SGD优化器优化训练方式。实验结果表明提出的方法能够充分利用语音序列信号特征,具有较强的时序全面性和非线性表达能力,所构造模型整体性强,比GRU和LSTM等模型具有更好的识别效果。相似文献

11.

深度纯追随的拟人化无人驾驶转向控制模型

下载免费PDF全文

单云霄黄润辉何泽龚志豪景民邹雪松《中国图象图形学报》2021,26(1):176-185

目的在无人驾驶系统技术中,控制车辆转向以跟踪特定路径是实现驾驶的关键技术之一,大量基于传统控制的方法可以准确跟踪路径,然而如何在跟踪过程中实现类人的转向行为仍是当前跟踪技术面临的挑战性问题之一。现有传统转向模型并没有参考人类驾驶行为,难以实现过程模拟。此外,现有大多数基于神经网络的转向控制模型仅仅以视频帧作为输入,鲁棒性和可解释性不足。基于此,本文提出了一个融合神经网络与传统控制器的转向模型：深度纯追随模型（deep pure pursuit,deep PP）。方法在deep PP中,首先利用卷积神经网络（convolutional neural network,CNN）提取驾驶环境的视觉特征,同时使用传统的纯追随（pure pursuit,PP）控制器融合车辆运动模型以及自身位置计算跟踪给定的全局规划路径所需的转向控制量。然后,通过拼接PP的转向结果向量和视觉特征向量得到融合特征向量,并构建融合特征向量与人类转向行为之间的映射模型,最终实现预测无人驾驶汽车转向角度。结果实验将在CARLA（Center for Advanced Research on Language Acquisition）仿真数据集和真实场景数据集上进行,并与Udacity挑战赛的CNN模型和传统控制器进行对比。实验结果显示,在仿真数据集的14个复杂天气条件下,deep PP比CNN模型和传统转向控制器更贴近无人驾驶仪的转向指令。在使用均方根误差（root mean square error,RMSE）作为衡量指标时,deep PP相比于CNN模型提升了50.28%,相比于传统控制器提升了35.39%。最后,真实场景实验验证了提出的模型在真实场景上的实用性。结论本文提出的拟人化转向模型,综合了摄像头视觉信息、位置信息和车辆运动模型信息,使得无人驾驶汽车的转向行为更贴近人类驾驶行为,并在各种复杂驾驶条件下保持了高鲁棒性。相似文献

12.

改进U-Net型网络的遥感图像道路提取

下载免费PDF全文

杨佳林郭学俊陈泽华《中国图象图形学报》2021,26(12):3005-3014

目的遥感图像道路提取在城市规划、交通管理、车辆导航和地图更新等领域中发挥了重要作用,但遥感图像受光照、噪声和遮挡等因素以及识别过程中大量相似的非道路目标干扰,导致提取高质量的遥感图像道路有很大难度。为此,提出一种结合上下文信息和注意力机制的U-Net型道路分割网络。方法使用Resnet-34预训练网络作为编码器实现特征提取,通过上下文信息提取模块对图像的上下文信息进行整合,确保对道路的几何拓扑结构特征的提取;使用注意力机制对跳跃连接传递的特征进行权重调整,提升网络对于道路边缘区域的分割效果。结果在公共数据集Deep Globe道路提取数据集上对模型进行测试,召回率和交并比指标分别达到0.847 2和0.691 5。与主流方法U-Net和CE-Net（context encoder network）等进行比较,实验结果表明本文方法在性能上表现良好,能有效提高道路分割的精确度。结论本文针对遥感图像道路提取中道路结构不完整和道路边缘区域不清晰问题,提出一种结合上下文信息和注意力机制的遥感道路提取模型。实验结果表明该网络在遥感图像道路提取上达到良好效果,具有较高的研究和应用价值。相似文献

13.

结合KSW和FCNN的道路场景分割

下载免费PDF全文

王云艳罗冷坤周志刚《中国图象图形学报》2019,24(4):583-591

目的随着自动驾驶技术不断引入生活,机器视觉中道路场景分割算法的研究已至关重要。传统方法中大多数研究者使用机器学习方法对阈值分割,而近年来深度学习的引入,使得卷积神经网络被广泛应用于该领域。方法针对传统阈值分割方法难以有效提取多场景下道路图像阈值的问题和直接用深度神经网络来训练数据导致过分割严重的问题,本文提出了结合KSW（key seat wiper）和全卷积神经网络（FCNN）的道路场景分割方法,该方法结合了KSW熵法及遗传算法,利用深度学习在不同场景下的特征提取,并将其运用到无人驾驶技术的道路分割中。首先对道路场景测试集利用KSW熵法及遗传算法得到训练集,然后导入到全卷积神经网络中进行训练得到有效训练模型,最后通过训练模型实现对任意一幅道路场景图分割。结果实验结果表明,在KITTI数据集中进行测试,天空和树木的分割精度分别达到91.3%和94.3%,道路、车辆、行人的分割精度提高了2%左右。从分割结果中明显看出,道路图像中的积水、泥潭、树木等信息存在的过分割现象有良好的改观。结论相比传统机器学习道路场景分割方法,本文方法在一定程度上提高了分割精度。对比深度学习直接应用于道路场景分割的方法,本文方法在一定程度上避免了过分割现象,提高了模型的鲁棒性。综上所述,本文提出的结合KSW和FCNN的道路场景分割算法有广泛的研究前景,有望应用于医学图像和遥感图像的处理中。相似文献

14.

基于极深卷积神经网络的人脸超分辨率重建算法

孙毅堂宋慧慧张开华严飞《计算机应用》2018,38(4):1141-1145

针对多种放大倍数的人脸超分辨率重建问题,提出一种基于极深卷积神经网络的人脸超分辨率重建方法,并通过实验发现增加网络深度能够有效提升人脸重建的精度。首先,设计一个包含20个卷积层的网络从低分辨率图片和高分辨率图片之间学习一种端到端的映射关系,并通过在网络结构中将多个小的滤波器进行多次串联以扩大提取纹理信息的范围。其次,引入了残差学习的方法来解决随着深度的提升细节信息丢失的问题。另外,将不同放大因子的低分辨率人脸图片融合到一个训练集中训练,使得该卷积网络能够解决不同放大因子的人脸超分辨率重建问题。在CASPEAL测试集上的结果显示,该极深卷积神经网络的方法比基于双三次插值的人脸重建方法在峰值信噪比（PSNR）和结构相似度上有2.7 dB和2%的提升,和SRCNN的方法比较也有较大的提升,在精度和视觉改善方面都有较大提升。这显示了更深的网络结构能够在重建中取得更好的结果。相似文献

15.

Deep representation learning for road detection using Siamese network

Liu Huafeng Han Xiaofeng Li Xiangrui Yao Yazhou Huang Pu Tang Zhenmin 《Multimedia Tools and Applications》2019,78(17):24269-24283

Robust road detection is a key challenge in safe autonomous driving. Recently, with the rapid development of 3D sensors, more and more researchers are trying to fuse information across different sensors to improve the performance of road detection. Although many successful works have been achieved in this field, methods for data fusion under deep learning framework is still an open problem. In this paper, we propose a Siamese deep neural network based on FCN-8s to detect road region. Our method uses data collected from a monocular color camera and a Velodyne-64 LiDAR sensor. We project the LiDAR point clouds onto the image plane to generate LiDAR images and feed them into one of the branches of the network. The RGB images are fed into another branch of our proposed network. The feature maps that these two branches extract in multiple scales are fused before each pooling layer, via padding additional fusion layers. Extensive experimental results on public dataset KITTI ROAD demonstrate the effectiveness of our proposed approach.

相似文献

16.

基于事件的端到端视觉位置识别弱监督网络架构

孔德磊方正李昊佳侯宽旭姜俊杰《机器人》2022,44(5):613-625

传统的视觉位置识别（VPR）方法通常使用基于图像帧的相机,存在剧烈光照变化、快速运动等易导致VPR失败的问题。针对上述问题,本文提出了一种使用事件相机的端到端VPR网络,可以在具有挑战性的环境中实现良好的VPR性能。所提出算法的核心思想是,首先采用事件脉冲张量（EST）体素网格对事件流进行表征,然后利用深度残差网络进行... 相似文献

17.

采用Transformer网络的视频序列表情识别

下载免费PDF全文

陈港张石清赵小明《中国图象图形学报》2022,27(10):3022-3030

目的相比于静态人脸表情图像识别,视频序列中的各帧人脸表情强度差异较大,并且含有中性表情的帧数较多,然而现有模型无法为视频序列中每帧图像分配合适的权重。为了充分利用视频序列中的时空维度信息和不同帧图像对视频表情识别的作用力差异特点,本文提出一种基于Transformer的视频序列表情识别方法。方法首先,将一个视频序列分成含有固定帧数的短视频片段,并采用深度残差网络对视频片段中的每帧图像学习出高层次的人脸表情特征,从而生成一个固定维度的视频片段空间特征。然后,通过设计合适的长短时记忆网络(long short-term memory network,LSTM)和Transformer模型分别从该视频片段空间特征序列中进一步学习出高层次的时间维度特征和注意力特征,并进行级联输入到全连接层,从而输出该视频片段的表情分类分数值。最后,将一个视频所有片段的表情分类分数值进行最大池化,实现该视频的最终表情分类任务。结果在公开的BAUM-1s(Bahcesehir University multimodal)和RML(Ryerson Multimedia Lab)视频情感数据集上的试验结果表明,该... 相似文献

18.

基于生成式对抗网络的道路交通模糊图像增强

下载免费PDF全文

曹锦纲李金华郑顾平《智能系统学报》2020,15(3):491-498

为了提高道路交通模糊图像增强的质量,进一步促进道路交通管理,针对道路交通场景下的运动模糊图像增强问题,提出了一种基于生成式对抗网络的多尺度多路径学习的模型。首先,选用具有多尺度卷积核的神经网络,对输入的图像进行更细致地特征值提取;其次,将局部残差学习和全局残差学习相结合,采用多路径多权重共享的递归学习,并利用判别网络和生成网络间的对抗训练优化网络参数;最后,实现端到端直接生成图像。实验结果表明:提出的模型可以有效地增强道路交通场景下的运动模糊图像,生成的图像细节更加丰富,具有较好的图像视觉效果。相似文献