基于编解码器的电力施工场景可控图像字幕生成 |
| |
引用本文: | 杨润霞,邵洁,罗岩,白万荣.基于编解码器的电力施工场景可控图像字幕生成[J].电网技术,2022(7):2572-2581. |
| |
作者姓名: | 杨润霞 邵洁 罗岩 白万荣 |
| |
作者单位: | 1. 上海电力大学电子与信息工程学院;2. 国网甘肃省电力公司电力科学研究院 |
| |
基金项目: | 国家自然科学基金项目(61802250)~~; |
| |
摘 要: | 电力施工场景图像字幕生成采用基于深度学习的编解码技术理解图像信息,并转换为文字描述输出,从而预警安全隐患,丰富了传统图像分析技术的输出形式。传统图像字幕生成方法缺乏可控性且细节描述不充分,针对电力施工场景图像描述的研究匮乏。为此,该文提出一种基于编解码器的可控图像字幕生成优化方法。引入新的特征提取模型,以FVC R-CNN(faster and visual commonsense region-convolutional neural network)模型作为编码器,提取图像的显著特征和视觉常识特征,并改进激活函数以得到改进的基于M-tanh的长短时记忆(M-tanh long short-term memory,MT-LSTM)神经网络用于特征解码,最后通过多分枝决策策略优化输出。在Ubuntu 16.04和PyTorch深度学习框架下对电力场景描述数据集进行了训练和测试,实验结果表明图像字幕生成准确率不仅得到显著提高,而且增强了场景描述的可控性,可有力提升电力施工现场的安全管理智能化水平。
|
关 键 词: | 电力施工场景 可控图像字幕 FVC R-CNN模型 MT-LSTM神经网络 激活函数 多分枝决策策略 |
|
|