期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

廖联军钟重阳张智恒胡磊张子豪夏时洪《中国图象图形学报》2022,27(12):3608-3621

目的 3维人体姿态估计传统方法通常采用单帧点云作为输入,可能会忽略人体运动平滑度的固有先验知识,导致产生抖动伪影。目前,获取2维人体姿态标注的真实图像数据集相对容易,而采集大规模的具有高质量3维人体姿态标注的真实图像数据集进行完全监督训练有一定难度。对此,本文提出了一种新的点云序列3维人体姿态估计方法。方法首先从深度图像序列估计姿态相关点云,然后利用时序信息构建神经网络,对姿态相关点云序列的时空特征进行编码。选用弱监督深度学习,以利用大量的更容易获得的带2维人体姿态标注的数据集。最后采用多任务网络对人体姿态估计和人体运动预测进行联合训练,提高优化效果。结果在两个数据集上对本文算法进行评估。在ITOP(invariant-top view dataset)数据集上,本文方法的平均精度均值(mean average precision,mAP)比对比方法分别高0.99%、13.18%和17.96%。在NTU-RGBD数据集上,本文方法的mAP值比最先进的WSM(weakly supervised adversarial learning methods)方法高7.03%。同时,在ITOP数据集上对模型进行消融实验,验证了算法各个不同组成部分的有效性。与单任务模型训练相比,多任务网络联合进行人体姿态估计和运动预测的mAP可以提高2%以上。结论本文提出的点云序列3维人体姿态估计方法能充分利用人体运动连续性的先验知识,获得更平滑的人体姿态估计结果,在ITOP和NTU-RGBD数据集上都能获得很好的效果。采用多任务网络联合优化策略,人体姿态估计和运动预测两个任务联合优化求解,有互相促进的作用。相似文献

2.

结合掩码定位和漏斗网络的6D姿态估计

下载免费PDF全文

李冬冬郑河荣刘复昌潘翔《中国图象图形学报》2022,27(2):642-652

目的 6D姿态估计是3D目标识别及重建中的一个重要问题。由于很多物体表面光滑、无纹理,特征难以提取,导致检测难度大。很多算法依赖后处理过程提高姿态估计精度,导致算法速度降低。针对以上问题,本文提出一种基于热力图的6D物体姿态估计算法。方法首先,采用分割掩码避免遮挡造成的热力图污染导致的特征点预测准确率下降问题。其次,基于漏斗网络架构,无需后处理过程,保证算法具有高效性能。在物体检测阶段,采用一个分割网络结构,使用速度较快的YOLOv3（you only look once v3）作为网络骨架,目的在于预测目标物体掩码分割图,从而减少其他不相关物体通过遮挡带来的影响。为了提高掩码的准确度,增加反卷积层提高特征层的分辨率并对它们进行融合。然后,针对关键点采用漏斗网络进行特征点预测,避免残差网络模块由于局部特征丢失导致的关键点检测准确率下降问题。最后,对检测得到的关键点进行位姿计算,通过PnP （perspective-n-point）算法恢复物体的6D姿态。结果在有挑战的Linemod数据集上进行实验。实验结果表明,本文算法的3D误差准确性为82.7%,与热力图方法相比提高了10%;2D投影准确性为98.9%,比主流算法提高了4%;同时达到了15帧/s的检测速度。结论本文提出的基于掩码和关键点检测算法不仅有效提高了6D姿态估计准确性,而且可以维持高效的检测速度。相似文献

3.

YOLOv3剪枝模型的多人姿态估计

下载免费PDF全文

蔡哲栋应娜郭春生郭锐杨鹏《中国图象图形学报》2021,26(4):837-846

目的为了解决复杂环境中多人姿态估计存在的定位和识别等问题,提高多人姿态估计的准确率,减少算法存在的大量冗余参数,提高姿态估计的运行速率,提出了基于批量归一化层（batch normalization,BN）通道剪枝的多人姿态估计算法（YOLOv3 prune pose estimator,YLPPE）。方法以目标检测算法YOLOv3（you only look once v3）和堆叠沙漏网络（stacked hourglass network,SHN）算法为基础,通过重叠度K-means算法修改YOLOv3网络锚框以更适应行人目标检测,并训练得到Trimming-YOLOv3网络;利用批量归一化层的缩放因子对Trimming-YOLOv3网络进行循环迭代式通道剪枝,设置剪枝阈值与缩放因子,实现较为有效的模型剪枝效果,训练得到Trim-Prune-YOLOv3网络;为了结合单人姿态估计网络,重定义图像尺寸为256×256像素（非正方形图像通过补零实现）;再级联4个Hourglass子网络得到堆叠沙漏网络,从而提升整体姿态估计精度。结果利用斯坦福大学的MPⅡ数据集（MPⅡ human pose dataset）进行实验验证,本文算法对姿态估计的准确率达到了83.9%;同时,时间复杂度为O（n²）,模型参数量与未剪枝原始YOLOv3相比下降42.9%。结论结合YOLOv3剪枝算法的多人姿态估计方法可以有效减少复杂环境对人体姿态估计的负面影响,实现复杂环境下的多人姿态估计并提高估计精度,有效减少模型冗余参数,提高算法的整体运行速率,能够实现较为准确的多人姿态估计,并具有较好的鲁棒性和泛化能力。相似文献

4.

跨阶段结构下的人体姿态估计

下载免费PDF全文

杨兴明周亚辉张顺然吴克伟孙永宣《中国图象图形学报》2019,24(10):1692-1702

目的基于图像的人体姿态估计是计算机视觉领域中一个非常重要的研究课题,并广泛应用于人机交互、监控以及图像检索等方面。但是,由于人体视觉外观的多样性、遮挡和混杂背景等因素的影响,导致人体姿态估计问题一直是计算机视觉领域的难点和热点。本文主要关注于初始特征对关节点定位的作用,提出一种跨阶段卷积姿态机（CSCPM）。方法首先,采用VGG （visual geometry group）网络获得初步的图像初始特征,该初始特征既是图像关节点定位的基础,同时,也由于受到自遮挡和混杂背景的干扰难以学习。其次,在初始特征的基础上,构建多层模型学习不同尺度下的结构特征,同时为了解决深度学习中的梯度消失问题,在后续的各层特征中都串联该初始特征。最后,设计了多尺度关节点定位的联合损失,用于学习深度网络参数。结果本文实验在两大人体姿态数据集MPII （MPII human pose dataset）和LSP （leeds sport pose）上分别与近3年的人体姿态估计方法进行了定性与定量比较,在MPII数据集中,模型的总检测率为89.1%,相比于性能第2的模型高出了0.7%;在LSP数据集中,模型的总检测率为91.0%,相比于性能第2的模型高出了0.5%。结论实验结果表明,初始特征学习能够有效判断关节点的自遮挡和混杂背景干扰情况,引入跨阶段结构的CSCPM姿态估计模型能够胜出现有人体姿态估计模型。相似文献

5.

联合模板先验概率和稀疏表示的目标跟踪

下载免费PDF全文

田猛路成周健施汉琴陶亮《中国图象图形学报》2016,21(11):1455-1463

目的虽然基于稀疏表示的目标跟踪方法表现出了良好的跟踪效果,但仍然无法彻底解决噪声、旋转、遮挡、运动模糊、光照和姿态变化等复杂背景下的目标跟踪问题。针对遮挡、旋转、姿态变化和运动模糊问题,提出一种在粒子滤波框架内,基于稀疏表示和先验概率相结合的目标跟踪方法。方法通过先验概率衡量目标模板的重要性,并将其引入到正则化模型中,作为模板更新的主要依据,从而获得一种新的候选目标稀疏表示模型。结果在多个测试视频序列上,与多种流行算法相比,该算法可以达到更好的跟踪性能。在5个经典测试视频下的平均中心误差为6.77像素,平均跟踪成功率为97%,均优于其他算法。结论实验结果表明,在各种含有遮挡、旋转、姿态变化和运动模糊的视频中,该算法可以稳定可靠地跟踪目标,适用于视频监控复杂场景下的目标跟踪。相似文献

6.

融合Kernel PCA形状先验信息的变分图像分割模型 总被引：1，自引：1，他引：0

下载免费PDF全文

杨建功汪西莉李虎《中国图象图形学报》2015,20(8):1035-1041

目的基于能量最小化的变分图像分割方法已经受到研究人员的广泛重视,取得了丰硕成果。但是,针对图像中存在的噪音污染、目标被遮挡等情况,则难以正确分割。引入先验形状信息是解决该问题的一个重要方向,但是随之而带来的姿态变化问题是一个难点。传统的做法是在每步迭代过程中单独计算姿态变换参数,导致计算量大。方法在基于Kernel PCA(KPCA)的形状先验模型基础上,提出一种具有内在的姿态不变性的KPCA形状先验模型,并将之融合到C-V变分图像分割模型中。结果提出模型无须在每步迭代中显式地单独计算姿态变换参数,相对于C-V模型分割正确率能够提高7.47%。同时,针对KPCA模型中计算高斯核函数的参数σ取值问题,也给出一种自适应的计算方法。结论理论分析及实验表明该模型能较好地解决先验形状与目标间存在的仿射变化问题,以及噪音、目标被遮挡等问题。相似文献

7.

融合自编码器和one-class SVM的异常事件检测

下载免费PDF全文

胡海洋张力李忠金《中国图象图形学报》2020,25(12):2614-2629

目的在自动化和智能化的现代生产制造过程中,视频异常事件检测技术扮演着越来越重要的角色,但由于实际生产制造中异常事件的复杂性及无关生产背景的干扰,使其成为一项非常具有挑战性的任务。很多传统方法采用手工设计的低级特征对视频的局部区域进行特征提取,然而此特征很难同时表示运动与外观特征。此外,一些基于深度学习的视频异常事件检测方法直接通过自编码器的重构误差大小来判定测试样本是否为正常或异常事件,然而实际情况往往会出现一些原本为异常的测试样本经过自编码得到的重构误差也小于设定阈值,从而将其错误地判定为正常事件,出现异常事件漏检的情形。针对此不足,本文提出一种融合自编码器和one-class支持向量机（support vector machine,SVM）的异常事件检测模型。方法通过高斯混合模型（Gaussian mixture model,GMM）提取固定大小的时空兴趣块（region of interest,ROI）;通过预训练的3维卷积神经网络（3D convolutional neural network,C3D）对ROI进行高层次的特征提取;利用提取的高维特征训练一个堆叠的降噪自编码器,通过比较重构误差与设定阈值的大小,将测试样本判定为正常、异常和可疑3种情况之一;对自编码器降维后的特征训练一个one-class SVM模型,用于对可疑测试样本进行二次检测,进一步排除异常事件。结果本文对实际生产制造环境下的机器人工作场景进行实验,采用AUC （area under ROC）和等错误率（equal error rate,EER）两个常用指标进行评估。在设定合适的误差阈值时,结果显示受试者工作特征（receiver operating characteristic,ROC）曲线下AUC达到91.7%,EER为13.8%。同时,在公共数据特征集USCD （University of California,San Diego） Ped1和USCD Ped2上进行了模型评估,并与一些常用方法进行了比较,在USCD Ped1数据集中,相比于性能第2的方法,AUC在帧级别和像素级别分别提高了2.6%和22.3%;在USCD Ped2数据集中,相比于性能第2的方法,AUC在帧级别提高了6.7%,从而验证了所提检测方法的有效性与准确性。结论本文提出的视频异常事件检测模型,结合了传统模型与深度学习模型,使视频异常事件检测结果更加准确。相似文献

8.

视频中多特征融合人体姿态跟踪

下载免费PDF全文

马淼李贻斌武宪青高金凤潘海鹏《中国图象图形学报》2020,25(7):1459-1472

目的目前已有的人体姿态跟踪算法的跟踪精度仍有待提高,特别是对灵活运动的手臂部位的跟踪。为提高人体姿态的跟踪精度,本文首次提出一种将视觉时空信息与深度学习网络相结合的人体姿态跟踪方法。方法在人体姿态跟踪过程中,利用视频时间信息计算出人体目标区域的运动信息,使用运动信息对人体部位姿态模型在帧间传递;考虑到基于图像空间特征的方法对形态较为固定的人体部位如躯干和头部能够较好地检测,而对手臂的检测效果较差,构造并训练一种轻量级的深度学习网络,用于生成人体手臂部位的附加候选样本;利用深度学习网络生成手臂特征一致性概率图,与视频空间信息结合计算得到最优部位姿态,并将各部位重组为完整人体姿态跟踪结果。结果使用两个具有挑战性的人体姿态跟踪数据集VideoPose2.0和YouTubePose对本文算法进行验证,得到的手臂关节点平均跟踪精度分别为81.4%和84.5%,与现有方法相比有明显提高;此外,通过在VideoPose2.0数据集上的实验,验证了本文提出的对下臂附加采样的算法和手臂特征一致性计算的算法能够有效提高人体姿态关节点的跟踪精度。结论提出的结合时空信息与深度学习网络的人体姿态跟踪方法能够有效提高人体姿态跟踪的精度,特别是对灵活运动的人体姿态下臂关节点的跟踪精度有显著提高。相似文献

9.

连续图卷积视频烟雾检测模型

下载免费PDF全文

杨龙箴袁非牛杨寿渊雷帮军张相芬《中国图象图形学报》2019,24(10):1658-1669

目的视频烟雾检测在火灾预警中起到重要作用,目前基于视频的烟雾检测方法主要利用结构化模型提取烟雾区域的静态和动态特征,在时间和空间上对烟雾信息作同等或相似处理,忽略了视频数据在时间线上的连续性和特征的非结构化关系。图卷积网络（GCN）与神经常微分方程（ODE）在非欧氏结构与连续模型处理上具有突出优势,因此将二者结合提出了一种基于视频流和连续时间域的图烟雾检测模型。方法目前主流的视频烟雾检测模型仍以离散模型为基础,以规则形式提取数据特征,利用ODE网络构建连续时间模型,捕捉视频帧间的隐藏信息,将原本固定时间跨度的视频帧作为连续时间轴上的样本点,充分利用模型的预测功能,补充帧间丢失信息并对未来帧进行一定程度的模拟预测,生成视频帧的特征并交给图卷积网络对其重新建模,最后使用全监督和弱监督两种方法对特征进行分类。结果分别在2个视频和4个图像数据集上进行训练与测试,并与最新的主流深度方法进行了比较,在KMU （Korea Maritime University）视频数据集中,相比于性能第2的模型,平均正样本正确率（ATPR值）提高了0.6%;在2个图像数据集中,相比于性能第2的模型,正确率分别提高了0.21%和0.06%,检测率分别提升了0.54%和0.28%,在视频单帧图像集上正确率高于第2名0.88%。同时也在Bilkent数据集中进行了对比实验,以验证连续隐态模型在烟雾动态和起烟点预测上的有效性,对比实验结果表明所提连续模型能够有效预测烟雾动态并推测烟雾起烟点位置。结论提出的连续图卷积模型,综合了结构化与非结构化模型的优势,能够获得烟雾动态信息,有效推测烟雾起烟点位置,使烟雾检测结果更加准确。相似文献

10.

3D卷积自编码器高光谱图像分类模型

下载免费PDF全文

石延新何进荣李照奎曾志高《中国图象图形学报》2021,26(8):2021-2036

目的高光谱图像分类是遥感领域的基础问题，高光谱图像同时包含丰富的光谱信息和空间信息，传统模型难以充分利用两种信息之间的关联性，而以卷积神经网络为主的有监督深度学习模型需要大量标注数据，但标注数据难度大且成本高。针对现有模型的不足，本文提出了一种无监督范式下的高光谱图像空谱融合方法，建立了3D卷积自编码器（3D convolutional auto-encoder，3D-CAE）高光谱图像分类模型。方法 3D卷积自编码器由编码器、解码器和分类器构成。将高光谱数据预处理后，输入到编码器中进行无监督特征提取，得到一组特征图。编码器的网络结构为3个卷积块构成的3D卷积神经网络，卷积块中加入批归一化技术防止过拟合。解码器为逆向的编码器，将提取到的特征图重构为原始数据，用均方误差函数作为损失函数判断重构误差并使用Adam算法进行参数优化。分类器由3层全连接层组成，用于判别编码器提取到的特征。以3D-CNN （three dimensional convolutional neural network）为自编码器的主干网络可以充分利用高光谱图像的空间信息和光谱信息，做到空谱融合。以端到端的方式对模型进行训练可以省去复杂的特征工程和数据预处理，模型的鲁棒性和稳定性更强。结果在Indian Pines、Salinas、Pavia University和Botswana等4个数据集上与7种传统单特征方法及深度学习方法进行了比较，本文方法均取得最优结果，总体分类精度分别为0.948 7、0.986 6、0.986 2和0.964 9。对比实验结果表明了空谱融合和无监督学习对于高光谱遥感图像分类的有效性。结论本文模型充分利用了高光谱图像的光谱特征和空间特征，可以做到无监督特征提取，无需大量标注数据的同时分类精度高，是一种有效的高光谱图像分类方法。相似文献

11.

基于深度学习初始位姿估计的机器人摄影测量视点规划

姜涛崔海华程筱胜田威《自动化学报》2023,49(11):2326-2337

针对机器人摄影测量中离线规划受初始位姿标定影响的问题, 提出融合初始位姿估计的机器人摄影测量系统视点规划方法. 首先构建基于YOLO (You only look once) 的深度学习网络估计被测对象3D包围盒, 利用PNP (Perspective-N-point)算法快速求解对象姿态; 然后随机生成机器人无奇异无碰撞的视点, 基于相机成像的2D-3D正逆性映射, 根据深度原则计算每个视角下目标可见性矩阵; 最后, 引入熵权法, 以最小化重建信息熵为目标建立优化模型, 并基于旅行商问题(Travelling saleman problem, TSP)模型规划机器人路径. 结果表明, 利用深度学习估计的平移误差低于5 mm, 角度误差低于2°. 考虑熵权的视点规划方法提高了摄影测量质量, 融合深度学习初始姿态的摄影测量系统提高了重建效率. 利用本算法对典型零件进行摄影测量质量和效率的验证, 均获得优异的位姿估计和重建效果. 提出的算法适用于实际工程应用, 尤其是快速稀疏摄影重建, 促进了工业摄影测量速度与自动化程度提升. 相似文献

12.

紧耦合的移动端实时位姿优化方法

孙晓明宋滢《计算机系统应用》2022,31(2):207-212

位姿估计一直是三维重建领域的关键性问题.为保证移动端有限计算资源下的实时性并提高轨迹计算的准确性,提出一种紧耦合的移动端实时位姿优化方法.首先,获取图像信息与运动传感器信息进行特征提取、预积分等预处理;然后根据对极几何约束,计算重投影误差与惯性传感器误差;最后采用加权误差联合优化计算位姿轨迹.紧耦合策略可以有效利用图像... 相似文献

13.

一种基于 Transformer 的三维人体姿态估计方法

下载免费PDF全文

王玉萍曾毅李胜辉张磊《图学学报》2023,44(1):139-145

三维人体姿态估计是人类行为理解的基础,但是预测出合理的三维人体姿态序列仍然是具有挑战性的问题。为了解决这个问题,提出一种基于 Transformer 的三维人体姿态估计方法,利用多层长短期记忆 (LSTM)单元和多尺度 Transformer 结构增强人体姿态序列预测的准确性。首先,设计基于时间序列的生成器, 通过 ResNet 预训练神经网络提取图像特征;其次,采用多层 LSTM 单元学习时间连续性的图像序列中人体姿态之间的关系,输出合理的 SMPL 人体参数模型序列;最后,构建基于多尺度 Transformer 的判别器,利用多尺度 Transformer 结构对多个分割粒度进行细节特征学习,尤其是 Transformer block 对相对位置进行编码增强局部特征学习能力。实验结果表明,该方法相对于 VIBE 方法具有更好地预测精度,在 3DPW 数据集上比 VIBE 的平均(每)关节位置误差(MPJPE)低了 7.5%;在 MP-INF-3DHP 数据集上比 VIBE 的 MPJPE 降低了 1.8%。相似文献

14.

基于多视角学习策略的手部姿态估计

下载免费PDF全文

徐梓雄郭璠王宗雨唐琎《计算机系统应用》2023,32(10):22-33

手部姿态估计在人机交互、手功能评估、虚拟现实和增强现实等应用中发挥着重要作用, 为此本文提出了一种新的手部姿态估计方法, 以解决手部区域在大多数图像中占比较小和已有单视图关键点检测算法无法应对遮挡情况的问题. 所提方法首先通过引入Bayesian卷积网络的语义分割模型提取手部目标区域, 在此基础上针对手部定位结果, 利用所提基于注意力机制和级联引导策略的新模型以获得较为准确的手部二维关键点检测结果.然后提出了一种利用立体视觉算法计算关键点深度信息的深度网络, 并在深度估计中提供视角自学习的功能. 该方式以三角测量为基础, 利用RANSAC算法对测量结果进行校准. 最后经过多任务学习和重投影训练对手部关键点的3D检测结果进行优化, 最终提取手部关键点的三维姿态信息. 实验结果表明: 相比于已有的一些代表性人手区域检测算法, 本文方法在人手区域检测上的平均检测精度和运算时间上有一定的改善. 此外, 从本文所提姿态估计方法与已有其他方法的平均端点误差(EPE_mean)和PCK曲线下方面积(AUC)这些指标的对比结果来看, 本文方法的关键点检测性能更优, 因而能获得更好的手部姿态估计结果. 相似文献

15.

基于稀疏模型的人脸姿态估计

下载免费PDF全文

邱丽梅吴龙晋芳伟熊昌炯《图学学报》2013,34(4):94

针对现有的人脸姿态估计方法易受“自遮挡”影响,采用改进的ASM 算法提取人脸特征点,并利用人脸形态的几何统计知识来估计人脸特征点的深度值。以人脸主要特征点建立人脸稀疏模型,在利用相关人脸特征点近似估计人脸姿态后,通过最小二乘法精确估计三维人脸空间姿态。实验结果表明,对于“自遮挡”情况,该方法仍有较好的估计结果, 与同类方法比较具有良好的姿态估计精度。相似文献

16.

3D face sparse reconstruction based on local linear fitting

Liu Ding Xiaoqing Ding Chi Fang 《The Visual computer》2014,30(2):189-200

相似文献

17.

Pose Estimation in Conformal Geometric Algebra Part II: Real-Time Pose Estimation Using Extended Feature Concepts

Bodo?Rosenhahn Email author Gerald?Sommer 《Journal of Mathematical Imaging and Vision》2005,22(1):49-70

Part II uses the foundations of Part I [35] to define constraint equations for 2D-3D pose estimation of different corresponding entities. Most articles on pose estimation concentrate on specific types of correspondences, mostly between points, and only rarely use line correspondences. The first aim of this part is to extend pose estimation scenarios to correspondences of an extended set of geometric entities. In this context we are interested to relate the following (2D) image and (3D) model types: 2D point/3D point, 2D line/3D point, 2D line/3D line, 2D conic/3D circle, 2D conic/3D sphere. Furthermore, to handle articulated objects, we describe kinematic chains in this context in a similar manner. We ensure that all constraint equations end up in a distance measure in the Euclidean space, which is well posed in the context of noisy data. We also discuss the numerical estimation of the pose. We propose to use linearized twist transformations which result in well conditioned and fast solvable systems of equations. The key idea is not to search for the representation of the Lie group, describing the rigid body motion, but for the representation of their generating Lie algebra. This leads to real-time capable algorithms.Bodo Rosenhahn gained his diploma degree in Computer Science in 1999. Since then he has been pursuing his Ph.D. at the Cognitive Systems Group, Institute of Computer Science, Christian-Albrechts University Kiel, Germany. He is working on geometric applications of Clifford algebras in computer vision.Prof. Dr. Gerald Sommer received a diploma degree in physics from the Friedrich-Schiller-Universität Jena, Germany, in 1969, a Ph.D. degree in physics from the same university in 1975, and a habilitation degree in engineering from the Technical University Ilmenau, Germany, in 1988. Since 1993 he is leading the research group Cognitive Systems at the Christian-Albrechts-Universität Kiel, Germany. Currently he is also the scientific coordinator of the VISATEC project. 相似文献

18.

基于面部特征点的单幅图像人脸姿态估计方法

傅由甲《计算机工程》2021,47(4):197-203,210

针对目前基于学习的姿态估计方法对训练样本及设备要求较高的问题,提出一种基于面部特征点定位的无需训练即能估计单幅图像中人脸姿态的方法.通过Adrian Bulat人脸特征点定位器和Candide-3构建稀疏通用人脸模型并获得五官特征点,确定模型绕Z轴的旋转范围及搜索步长,在指定Z轴旋转角度下,使用修正牛顿法通过模型的旋转... 相似文献