排序方式: 共有11条查询结果,搜索用时 31 毫秒
1.
图像自动语句标注利用计算机自动生成描述图像内容的语句,在服务机器人等领域有广泛应用.许多学者已经提出了一些基于注意力机制的算法,但是注意力分散问题以及由注意力分散引起的生成语句错乱问题还未得到较好解决.在传统注意力机制的基础上引入注意力反馈机制,利用关注信息的图像特征指导文本生成,同时借助生成文本中的关注信息进一步修正图像中的关注区域,该过程不断强化图像和文本中的关键信息匹配、优化生成的语句.针对常用数据集Flickr8k, Flickr30k和MSCOCO的实验结果表明,该模型在一定程度上解决了注意力分散和语句顺序错乱问题,比其他基于注意力机制方法标注的关注区域更加准确,生成语句更加通顺. 相似文献
2.
三维医用电子内窥镜已经广泛应用于各类医学诊断、微创手术以及医学培训。三维内窥镜可视化过程中的立体空间几何畸变将直接影响医护人员对于病灶相对大小和距离的视觉感知精确度,同时也可能成为三维内窥镜使用过程中影响视觉舒适度的重要因素之一。现有研究往往仅关注立体影像获取过程中平面图像的畸变及其矫正,而忽略了可视化过程中显示系统不匹配及人眼对三维影像的感知特性造成的立体空间几何畸变。本文通过对三维医用电子内窥镜影像获取、显示及感知过程的分析,建立了三维医用电子内窥镜可视化模型。理想的三维内窥镜影像感知是真实世界空间在各个维度等比例放大的虚拟空间立体感知,三维内窥镜的参数与可视化过程的参数必须匹配才能达到理想的无畸变各维度等放大率效果,最终实现精确的视觉感知以及良好的使用舒适度。研究内容有望为三维影像获取与可视化在医疗领域更为精确和舒适的应用提供理论参考。 相似文献
3.
图像引擎通过多种特定的算法对图像信号进行优化,在显示系统中具有极其重要的作用和地位。图像引擎中的传统色彩优化算法由多种图像算法组合而成,存在无法进行自适应优化、容易放大图像噪声等问题。为此,提出了一种基于空洞卷积的全卷积神经网络用于构建优化算法,侧重于从人眼主观感知的角度优化图像色彩。同时,有针对性地构建大规模数据集以提高算法的泛化能力,防止过拟合。测试结果表明,所提出的算法可以有效地增强原始图像的色彩,相较于传统方法,平均峰值信噪比提升了4.01 dB,平均结构相似性提升了0.04。主观对比实验结果表明,提出的算法对图像主观感知质量有显著性影响,平均提升了61%。 相似文献
4.
5.
为了更为合理地评价立体显示系统中的串扰现象,对传统灰阶串扰进行了加权并进一步单一数值量化。研究选取了大量涵盖各种类型和场景的立体图像,对每一灰阶转换组合出现的概率进行统计,同时提取立体图像视觉显著性,提出了平均灰阶转换显著性的概念。平均灰阶转换显著性以矩阵形式呈现,应用其对传统灰阶串扰矩阵加权后可获得更为合理的灰阶串扰。加权后的灰阶串扰矩阵求和后即可获得数值范围在0%~100%的单一数值串扰。提出的加权灰阶串扰及其数值单一化方法充分考虑了图像内容和人眼视觉关注机理的影响,得到的评价结果更加客观、合理。同时,研究结果对串扰现象的优化以及视觉舒适度的提高具有指导和推动作用。 相似文献
6.
由于卷积神经网络(CNN)大多侧重于全局特征学习,忽略了包含更多细节的局部特征信息,使得室内场景识别的准确率难以提高。针对这一问题,提出了基于改进全局—局部注意网络(GLANet)的室内场景识别方法。首先,利用GLANet捕捉场景图像的全局特征和局部特征,增加图像特征中的细节信息;然后,在局部网络中引入non-local注意力模块,通过注意力图和特征图的卷积来进一步保留图像的细节特征,最后融合网络不同阶段的多种特征进行分类。通过在MIT Indoor67和SUN397数据集上的训练和验证,所提方法的识别准确率与LGN方法相比分别提高了1.98%和3.07%。实验结果表明,该算法能够有效捕获全局语义信息和精细的局部细节,显著提高了识别准确率。 相似文献
7.
为了更准确、方便地估算闪烁背景光下的LCD液晶响应时间,利用小波变换法对测量得到的LCD亮度响应曲线进行滤波.通过实际测量连续背景光下五级灰度之间的液晶响应以及闪烁背景光的背景光响应,构造了闪烁背景光下的LCD亮度响应,利用小波变换滤波方法,通过小波分解、阈值处理、逆变换重构,还原了液晶响应信号,将估算得到的响应时间与真实值以及移动窗口积分方法的估算值进行比较.根据计算,移动窗口积分法的平均估算误差为7.535 5%,而小波变换滤波法的平均估算误差仅为1.966 5%.结果表明,小波变换滤波法对闪烁背景光技术下LCD液晶响应时间的估计比移动窗口积分法更加准确,而且应用简单,适应面广. 相似文献
8.
夏振平 《激光与光电子学进展》2017,(9):129-136
为了更为精确地研究液晶显示中的运动模糊现象,研究了基于眼动跟踪装置的正弦图像的人眼平滑追踪。实验测试了9种不同空间频率的正弦图像在4种运动速度下的人眼平滑追踪情况。结果表明,人眼的追踪速度往往小于目标图像的运动速度,且运动速度对追踪速度比有显著性影响。建立了基于追踪速度比的人眼实际感知改进模型。模拟结果对比表明,在正弦图像的空间频率与运动速度乘积为整数时,模型之间的差异很明显,而其他情况差别很小。研究结果对液晶显示中运动模糊现象的优化以及视觉舒适度的提高具有指导作用。 相似文献
9.
10.
针对现有超分辨率重建网络具有较高的计算复杂度和存在大量内存消耗的问题,提出了一种基于Transformer-CNN的轻量级图像超分辨率重建网络,使超分辨率重建网络更适合应用于移动平台等嵌入式终端。首先,提出了一个基于Transformer-CNN的混合模块,从而增强网络捕获局部-全局深度特征的能力;其次,提出了一个改进的倒置残差块来特别关注高频区域的特征,以提升特征提取能力和减少推理时间;最后,在探索激活函数的最佳选择后,采用GELU (Gaussian Error Linear Unit)激活函数来进一步提高网络性能。实验结果表明,所提网络可以在图像超分辨率性能和网络复杂度之间取得很好的平衡,而且在基准数据集Urban100上4倍超分辨率的推理速度达到91 frame/s,比优秀网络SwinIR (Image Restoration using Swin transformer)快11倍,表明所提网络能够高效地重建图像的纹理和细节,并减少大量的推理时间。 相似文献