期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

许睿邵帅曹维佳刘宝弟陶大鹏刘伟锋《模式识别与人工智能》2022,(12):1078-1088

广义零样本图像分类中常使用生成模型重构视觉信息或语义信息用于再进一步学习.然而,基于变分自编码器的方法对重构样本利用不够充分,表示性能欠缺.因此,文中提出基于重构对比的广义零样本图像分类模型.首先,使用两个变分自编码器将视觉信息和语义信息编码为同维度的低维隐向量,再将隐向量分别解码到两种模态.然后,使用投影模块投影视觉信息与语义模态的隐向量重构的视觉模态信息.最后,对投影后的特征进行重构对比学习.在保持变分自编码器重构性能的基础上增强编码器重构的判别性能,提高预训练特征在广义零样本图像分类任务上的应用能力.在4个标准数据集上的实验证实文中模型的有效性. 相似文献

2.

大数据下的基于深度神经网的相似汉字识别 总被引：1，自引：0，他引：1

杨钊陶大鹏张树业金连文《通信学报》2014,35(9):184-189

针对传统相似手写汉字识别系统(SHCCR)受特征提取方法的限制,提出采用深度神经网(DNN)对相似汉字自动学习有效特征并进行识别,介绍相似字符集生成方法和针对相似汉字识别的深度神经网络的具体结构,研究对比不同的训练数据规模对识别性能的影响.实验表明,DNN能有效地进行特征学习,避免了人工设计特征的不足,与传统基于梯度特征的支持向量机(SVM)和最近邻分类器(1-NN)方法相比,识别率有较大的提高;且随着训练样本增加的同时,DNN在提高识别性能上表现得更为优秀,大数据训练对提升深度神经网络的识别率作用明显. 相似文献

3.

面向工业零件分拣系统的低纹理目标检测

下载免费PDF全文

闫明陶大鹏普园媛《中国图象图形学报》2022,27(8):2418-2429

目的随着工业领域智能分拣业务的兴起,目标检测引起越来越多的关注。然而为了适应工业现场快速部署和应用的需求,算法只能在获得少量目标样本的情况下调整参数;另外工控机运算资源有限,工业零件表面光滑、缺乏显著的纹理信息,都不利于基于深度学习的目标检测方法。目前普遍认为Line2D可以很好地用于小样本情况的低纹理目标快速匹配,但Line2D不能正确匹配形状相同而颜色不同的两个零件。对此,提出一种更为鲁棒的低纹理目标快速匹配框架CL2D (color Line2D)。方法首先使用梯度方向特征作为物体形状的描述在输入图像快速匹配,获取粗匹配结果;然后通过非极大值抑制和颜色直方图比对完成精细匹配。最后根据工业分拣的特点,由坐标变换完成对目标的抓取点定位。结果为了对算法性能进行测试,本文根据工业分拣的实际环境,提出了YNU-BBD 2020(YNU-building blocks datasets 2020)数据集。在YNU-BBD 2020数据集上的测试结果表明,CL2D可以在CPU平台上以平均2.15 s/幅的速度处理高分辨率图像,在精度上相比于经典算法和深度学习算法,mAP (mean average precision)分别提升了10%和7%。结论本文针对工业零件分拣系统的特点,提出了一种快速低纹理目标检测方法,能够在CPU平台上高效完成目标检测任务,并且相较于现有方法具有显著优势。相似文献

4.

基于局部自适应核回归的仪表定位方法

杜烨宇陶大鹏梁虹林旭《数据采集与处理》2016,31(3):490-501

计算机视觉技术不断发展,利用巡检机器人对钻井平台、水电工程等复杂工业环境下的各种仪表设备进行定期检查成为可能,然而这些功能的实现依赖仪表的精准定位。本文提出一种基于局部自适应核回归（Locally adaptive regression kernels,LARK）的方法进行仪表的快速定位。LARK算法无需训练,可以快速搜索感兴趣的视觉对象,并且不需要进行过多的预处理,提高了定位的效率。通过提取查询图像的显著特征,在目标图像中寻找所有可能相似的对象,然后用非极大值抑制法保留最强相似点,实现目标对象的定位。实验选用从不同角度拍摄的具有不同放缩比例的仪表图像作为实验所需数据。实验结果表明,该算法定位准确度高,可以很好地满足工业环境下仪表的定位要求。相似文献

5.

基于彩色空间3D广义共发矩阵的视觉信息检索 总被引：1，自引：0，他引：1

李学龙刘政凯俞能海袁媛陶大鹏文勇刚汤晓鸥《电路与系统学报》2002,7(2):10-21

本文针对基于内容的图象检索（CBIR）提出一组基于HSV空间的3D广义共发矩阵的新颖的图象纹理特征，通过在CBIR检索系统iPhoto中（25，000张图象）上测试，利用本文特征地传统灰度共发矩阵。相似文献

6.

融合软注意力掩码嵌入的场景文本识别方法

下载免费PDF全文

陈威达王林飞陶大鹏《中国图象图形学报》2024,29(5):1381-1391

目的基于深度学习的端到端场景文本识别任务已经取得了很大的进展。然而受限于多尺度、任意形状以及背景干扰等问题,大多数端到端文本识别器依然会面临掩码提议不完整的问题,进而影响模型的文本识别结果。为了提高掩码预测的准确率,提出了一种基于软注意力的掩码嵌入模块（soft attention mask embedding,SAME）,方法利用Transformer更好的全局感受野,将高层特征进行编码并计算软注意力,然后将编码特征与预测掩码层级嵌入,生成更贴近文本边界的掩码来抑制背景噪声。基于SAME强大的文本掩码优化及细粒度文本特征提取能力,进一步提出了一个健壮的文本识别框架SAME-Net,开展无需字符级注释的端到端精准文本识别。具体来说,由于软注意力是可微的,所提出的SAME-Net可以将识别损失传播回检测分支,以通过学习注意力的权重来指导文本检测,使检测分支可以由检测和识别目标联合优化。结果在多个文本识别公开数据集上的实验表明了所提方法的有效性。其中,SAME-Net在任意形状文本数据集Total-Text上实现了84.02%的H-mean,相比于2022年的GLASS（global to local attention for scene-text spotting）,在不增加额外训练数据的情况下,全词典的识别准确率提升1.02%。所提方法在多向数据集ICDAR 2015（International Conference on Document Analysis and Recognition）也获得了与同期工作相当的性能,取得83.4%的强词典识别结果。结论提出了一种基于SAME的端到端文本识别方法。该方法利用Transformer的全局感受野生成靠近文本边界的掩码来抑制背景噪声,提出的SAME模块可以将识别损失反向传输到检测模块,并且不需要额外的文本校正模块。通过检测和识别模块的联合优化,可以在没有字符级标注的情况下实现出色的文本定位性能。相似文献