期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	2篇
免费	0篇
国内免费	1篇

专业分类

无线电	2篇
自动化技术	1篇

出版年

2024年	1篇
2023年	1篇
2022年	1篇

排序方式： 共有3条查询结果，搜索用时 0 毫秒

ConvFormer：基于Transformer的视觉主干网络

胡杰昌敏杰徐博远徐文才《电子学报》2024,(1):46-57

针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvFormer. ConvFormer通过所设计的多尺度混洗自注意力模块（Channel-Shuffle and Multi-Scale attention,CSMS）和动态相对位置编码模块（Dynamic Relative Position Coding,DRPC）来聚合多尺度像素块间的语义信息,并在前馈网络中引入深度卷积提高网络的局部建模能力.在公开数据集ImageNet-1K,COCO 2017和ADE20K上分别进行图像分类、目标检测和语义分割实验,ConvFormer-Tiny与不同视觉任务中同量级最优网络RetNetY-4G,Swin-Tiny和ResNet50对比,精度分别提高0.3%,1.4%和0.5%. 相似文献

基于Transformer的图像分类网络MultiFormer

胡杰昌敏杰《计算机应用研究》2022,39(10)

为解决目前ViT模型无法改变输入补丁大小且输入补丁都是单一尺度信息的缺点,提出了一种基于Transformer的图像分类网络MultiFormer。MultiFormer通过AWS（attention with scale）模块,将每阶段不同尺度输入小补丁嵌入为具有丰富语义信息的大补丁;通过GLA-P（global-local attention with patch）模块交替捕获局部和全局注意力,在嵌入时同时保留了细粒度和粗粒度特征。设计了MultiFormer-tiny、-small和-base三种不同变体的MultiFormer模型网络,在ImageNet图像分类实验中top-1精度分别达到81.1%、82.2%和83.2%,后两个模型对比同体量的卷积神经网络ResNet-50和ResNet-101提升了3.1%和3.4%;对比同样基于Transformer分类模型ViT,MultiFormer-base在参数和计算量远小于ViT-Base/16模型且无须大量数据预训练前提下提升2.1%。相似文献

基于自适应门控的双路激光雷达三维车道线检测

胡杰陈楠徐文才昌敏杰徐博远王占彬郭启翔《中国激光》2023,(22):140-154

局部和全局特征提取在车道线检测任务中扮演着重要的角色。针对现有的基于激光雷达的车道线检测算法局部特征提取层次单一和全局特征利用不充分的问题，提出一种基于自适应门控的双路激光雷达三维车道线检测算法。首先，通过全局特征金字塔结构，使网络提取具有全局相关性的多层次车道线特征；其次，引入双路结构，其中辅助通路将底层高分辨率纹理特征压缩到高级抽象语义特征从而降低计算复杂度，压缩的语义特征用作另一个构建的主通路的先验信息，帮助学习更加精细的底层纹理细节，并借助高效移动卷积模块，在缓解注意力窗口效应的同时产生更好的下采样特征；最后，设计一种自适应多阶门控模块来更好地利用上下文信息，使网络自适应捕捉车道线更具代表性的全局纹理及语义特征。在K-Lane数据集上的实验表明，所提算法F1分数较主流模型提升2.6个百分点，在不良光照、严重遮挡条件下分别提升2.7个百分点和3.5个百分点。将算法部署在实车平台实现在线检测，验证了算法的工程实用价值。相似文献