首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
图像描述生成是图像人工智能领域的重要研究方向之一.现有方法大多仅使用单一图像特征,导致无法完全描述图像中多个目标或者无法准确表达目标间的关系.提出方法通过场景特征解码模块和目标显著性特征解码模块分别对图像场景特征和目标显著性特征进行解码,并将解码后的两种特征进行融合,实现图像目标属性与目标间关系的信息互补.在MSCOCO数据集上进行实验,结果相较于基准方法有一定的提升,表明该模型对图像内容的描述更加准确和完善,对图像信息表达更加丰富.  相似文献   

2.
该文提出了一种基于材质特征的视觉跟踪算法.该算法利用背景差分法将需跟踪的样本从静止背景中提取出来,然后在在HIS色彩空间内,以样本像素的H、I、S分量为坐标,得到离散空间曲面∑0,经平滑处理,得到局部连续曲面∑1.对跟踪视频序列每一帧的每一像素计算其S分量到达曲面∑1的最近距离,从而判断该像素是否属于要跟踪的样本材质.根据所有属于该材质的像素点的空间坐标,可计算出样本出现的范围.实验证明该方法简单、有效.解决了视频跟踪中根据材质进行跟踪的问题.  相似文献   

3.
文章对在视觉增强的交互系统中所面临的利用图像校正数据进行定位和映射的问题进行了研究,针对交互系统应用的实时性特征,提出了一种快速高效的双四边形定位和映射算法。该算法克服了采用传统方法所可能引起的耗时低效的缺点,利用一定的近似性原理,较好地满足了交互系统定位过程中的高效性和精确性需求。该算法应用于人机交互系统VIPwin中,实践证明达到了很好的效果。  相似文献   

4.
材质设计是三维场景建模的重要内容,不仅耗时而且费力.为了从图像中获取三维场景的材质风格,提出一种自动从单幅图像获取三维场景材质风格的算法.首先对三维场景采样多个视图,利用反绘制技术从样本图像中自动获取材质风格,并将其转换到三维场景的各个视图中作为场景中物体的候选材质;然后定义候选材质绘制结果与样本图像材质分布差异的目标函数,其中包含两者色度的均值、方差以及直方图分布的差;最后利用禁忌搜索方法优化该目标函数,从候选材质中选取最合适的一组作为最终结果.通过用户调查并与人工交互的结果进行对比,验证了文中算法的可行性.  相似文献   

5.
基于生成对抗网络的雾霾场景图像转换算法   总被引:1,自引:0,他引:1  
本文提出了一种新的基于生成对抗网络的雾霾场景图像转换算法.生成对抗网络GAN作为无监督学习的方法,无法实现图像像素与像素之间映射,即生成图像不可控.因此,基于模型的加雾算法存在参数不确定性和应用场景局限性,本文提出了一种新方法的新应用,利用生成对抗网络实现图像转换.该方法基于生成对抗网络GAN模型,改进了GAN的生成器和判别器,进行有监督学习,以训练雾霾图像生成像素与像素之间的映射关系,实现无雾图像与有雾图像之间的转换.以图像加雾为例,本文分别设计了生成网络和判决网络,生成网络用于合成有雾图像,判决网络用于辨别合成的雾霾图像的真伪.考虑到雾霾场景图像转换的对应效果,设计了一种快捷链接沙漏形生成器网络结构,采用无雾图像作为生成网络输入,并输出合成后的有雾霾图像;具体来看,将生成网络分成编码和解码两部分,并通过相加对应间隔的卷积层来保留图像的底层纹理信息.为了更好地检验合成雾霾图像的真实程度,设计了漏斗形全域卷积判决器网络,将合成图像和目标图像分别通过判决器辨别真伪,采用全域卷积,利用神经网络进行多层下采样,最终实现分类判决,辨别图像风格.此外,本文提出了一种新的网络损失函数,通过计算GAN损失和绝对值损失之和,以训练得到更为优秀的图像转换结果.GAN损失函数的作用是使生成对抗网络GAN模型训练更加准确,而雾霾图像合成算法实际上是一个回归问题而非分类问题,生成器的作用不仅是训练判决器更加灵敏,更重要的是要生成与目标图像相似的图像.因此利用优化回归问题的绝对值损失函数,作用是为了准确学习像素间的映射关系,避免出现偏差和失真.最后本文对多类不同图像进行图像的雾霾场景转换并进行评估,分别测试该算法的图像加雾和去雾效果,并与其他算法进行对比测试.对于加雾效果,在合成场景、虚拟场景下,与软件合成效果进行对比,本文算法效果明显比软件合成效果好,不会出现色彩失真;在真实场景下,本文算法与真实拍摄的雾霾天气进行对比,结果十分相近;并且与其他GAN图像转换算法进行对比,本文算法具有明显的优势.同样本文算法在去雾效果上优势也十分明显.结果表明,本文所提基于生成对抗网络的雾霾场景图像转换算法,在主观效果和客观指标上均具有明显优势.  相似文献   

6.
雾霾常会影响获取图像的质量,单幅图像去雾是一个具有挑战性的不适定问题.针对传统的去雾方法存在去雾结果颜色失真、适用范围局限等问题,提出一种基于深度网络的去雾算法——生成对抗映射网络的多层感知去雾算法.在训练阶段中,利用生成对抗映射网络里判别网络与生成网络间对抗式训练机制,保证生成网络中参数的最优解;在测试还原过程中,先提取有雾图像中雾气相关特征,并利用训练得到的生成网络对提取特征进行多层感知映射,进而得到反映雾气深度信息的透视率,最终运用得到的透视率实现了图像去雾.实验结果表明,与同类算法相比,该算法能较好地还原出场景中目标的真实色彩,并抑制部分噪声,去雾效果明显.  相似文献   

7.
通过生成对抗网络进行段落生成序列图像的任务已经可以生成质量较高的图像.然而当输入的文本涉及多个对象和关系时,文本序列的上下文信息难以提取,生成图像的对象布局容易产生混乱,生成的对象细节不足.针对该问题,文中在Sto-ryGAN的基础上,提出了一种基于场景图的段落生成序列图像方法.首先,通过图卷积将段落转换为多个场景图,...  相似文献   

8.
现有的场景文本识别器容易受到模糊文本图像的困扰, 导致在实际应用中性能较差. 因此近年来研究人员提出了多种场景文本图像超分辨率模型作为场景文本识别的预处理器, 以提高输入图像的质量. 然而, 用于场景文本图像超分辨率任务的真实世界训练样本很难收集; 此外, 现有的场景文本图像超分辨率模型只学习将低分辨率(LR)文本图像转换为高分辨率(HR)文本图像, 而忽略了从HR到LR图像的模糊模式. 本文提出了模糊模式感知模块, 该模块从现有的真实世界HR-LR文本图像对中学习模糊模式, 并将其转移到其他HR图像中, 以生成具有不同退化程度的LR图像. 本文所提出的模糊模式感知模块可以为场景文本图像超分辨率模型生成大量的HR-LR图像对, 以弥补训练数据的不足, 从而显著提高性能. 实验结果表明, 当配备提出的模糊模式感知模块时, 场景文本图像超分辨率方法的性能可以进一步提高, 例如, SOTA方法TG在使用CRNN文本识别器进行评估时, 识别准确率提高了5.8%.  相似文献   

9.
刘宏  普杰信 《计算机工程》2011,37(21):182-184
基于场景全局语义特征描述符gist的自然场景分类方法在特征提取过程中计算量较大、识别精度较低。为此,提出一种改进的特征提取方法,将3尺度的gist特征与梯度方向直方图特征相结合对场景进行描述,并利用支持向量机实现分类。实验结果表明,改进的方法加快了特征提取速度,提高了分类正确率。  相似文献   

10.
陈贵强  何军 《计算机科学》2022,49(2):116-122
在遥感图像超分辨率重建领域,大部分数据集缺少成对的图像用于训练,当前的方法主要是通过双三次插值的方式来获取低分辨率图像,因退化模型过于理想化导致在处理真实低分辨率遥感图像时效果较差,基于此,文中提出了一种自然场景下真实遥感图像的超分辨率重建算法.针对缺少成对图像的数据集的问题,构建了一种更合理的退化模型,将成像过程中的...  相似文献   

11.
基于视觉显著性特征的快速场景配准方法   总被引:4,自引:0,他引:4       下载免费PDF全文
视觉显著性特征是模拟生物视觉注意力选择机制的一种具有较好的鲁棒性与不变性的视觉特征。基于视觉显著性特征提出了一种快速的场景配准方法。该方法采用调幅傅里叶变换构造视觉显著性映射;通过对显著特征局部极值特性以及信息丰度的分析,实现显著点的粗定位、预选择与可信度排序;通过图像形态学操作,实现了显著场景区域的生长与合并。在此基础上,提出了SSIFT(saliency scale invariant feature transform)算法,从而减少了场景分类算法的计算量。利用本文方法对美国南加州大学的场景数据库进行测试,实验结果表明这种方法提取的SSIFT特征对于图像的平移、旋转以及光照等变化具有良好的不变性;与经典SIFT算法相比,该方法在计算速度上具有明显的优势,并在识别率上也略优于SIFT算法。  相似文献   

12.
文字广泛存在于各种文档图像和自然场景图像之中,蕴含着丰富且关键的语义信息。随着深度学习的发展,研究者不再满足于只获得图像中的文字内容,而更加关注图像中文字的理解,故以文字为中心的图像理解技术受到越来越多的关注。该技术旨在利用文字、视觉物体等多模态信息对文字图像进行充分理解,是计算机视觉和自然语言处理领域的一个交叉研究方向,具有十分重要的实际意义。本文主要对具有代表性的以文字为中心的图像理解任务进行综述,并按照理解认知程度,将以文字为中心的图像理解任务划分为两类,第1类仅要求模型具备抽取信息的能力,第2类不仅要求模型具备抽取信息的能力,而且要求模型具备一定的分析和推理能力。本文梳理了以文字为中心的图像理解任务所涉及的数据集、评价指标和经典方法,并进行对比分析,提出了相关工作中存在的问题和未来发展趋势,希望能够为后续相关研究提供参考。  相似文献   

13.
程刚  王春恒 《计算机工程》2011,37(5):227-229
利用整体结构特征和局部纹理特征的优势,采用两级分类器对场景图像进行分类。第1级分类器利用全局结构信息得到候选类别,并通过分类结果判定相似类别对;第2级分类器则利用局部纹理信息区分相似类别,采用分类器的级联综合利用场景图像的整体结构信息和局部纹理信息。实验结果表明,该方法能够做到不同场景类别鲁棒分类,有效区分相似场景类别,提高场景图像的分类准确率。  相似文献   

14.
莫宏伟  田朋 《控制与决策》2021,36(12):2881-2890
视觉场景理解包括检测和识别物体、推理被检测物体之间的视觉关系以及使用语句描述图像区域.为了实现对场景图像更全面、更准确的理解,将物体检测、视觉关系检测和图像描述视为场景理解中3种不同语义层次的视觉任务,提出一种基于多层语义特征的图像理解模型,并将这3种不同语义层进行相互连接以共同解决场景理解任务.该模型通过一个信息传递图将物体、关系短语和图像描述的语义特征同时进行迭代和更新,更新后的语义特征被用于分类物体和视觉关系、生成场景图和描述,并引入融合注意力机制以提升描述的准确性.在视觉基因组和COCO数据集上的实验结果表明,所提出的方法在场景图生成和图像描述任务上拥有比现有方法更好的性能.  相似文献   

15.
史静  朱虹  王栋  杜森 《中国图象图形学报》2017,22(12):1750-1757
目的 目前对于场景分类问题,由于其内部结构的多样性和复杂性,以及光照和拍摄角度的影响,现有算法大多通过单纯提取特征进行建模,并没有考虑场景图像中事物之间的相互关联,因此,仍然不能达到一个理想的分类效果。本文针对场景分类中存在的重点和难点问题,充分考虑人眼的视觉感知特性,利用显著性检测,并结合传统的视觉词袋模型,提出了一种融合视觉感知特性的场景分类算法。方法 首先,对图像进行多尺度分解,并提取各尺度下的图像特征,接着,检测各尺度下图像的视觉显著区域,最后,将显著区域信息与多尺度特征进行有机融合,构成多尺度融合窗选加权SIFT特征(WSSIFT),对场景进行分类。结果 为了验证本文算法的有效性,该算法在3个标准数据集SE、LS以及IS上进行测试,并与不同方法进行比较,分类准确率提高了约3%~17%。结论 本文提出的融合视觉感知特性的场景分类算法,有效地改善了单纯特征描述的局限性,并提高了图像的整体表达。实验结果表明,该算法对于多个数据集都具有较好的分类效果,适用于场景分析、理解、分类等机器视觉领域。  相似文献   

16.
面向特征映射的原象与象特征描述   总被引:1,自引:0,他引:1  
高健  郑德涛  孙健  王先逵 《计算机工程》1998,24(6):47-49,F003
在对零件设计域与制造间特征映有后的原象特征与象特征信息分析基础上,给出了原象特征与象特征的数学描述方式,这一描述为构造原象特征到象特征的映射函数和进一步分析特征映射原理奠定了基础。  相似文献   

17.
王嵘  王志良  马希荣 《机器人》2013,35(3):313-318
在视觉注意模型的基础上提出一种应用于家庭机器人室内场景视频识别技术的模型.此模型在视觉注意模型中的特征图的基础上结合空间信息形成图像特征. 利用此特征进行分类,不仅避免了室内图像过于复杂的细节,还保留了不同场景中的空间信息.利用一款家庭服务机器人作为实验平台进行实验.实验结果表明, 此模型具有很好的识别效果,同时在机器人上进行视频识别具有一定的实时性.  相似文献   

18.
针对高分辨率遥感影像场景的分类,受人类视觉系统从场景中提取汇总统计信息用于场景感知的启发,提出场景汇总统计特征提取方法。该方法提取场景的平均方向信息和视觉杂乱度,利用Gabor滤波器统计场景的平均方向信息,并基于视觉拥堵进行场景的杂乱度度量,然后将两者组合在一起,形成基于汇总统计特征的复杂场景描述。在21类遥感数据集上的实验表明,当训练样本和测试样本各为50幅时,该方法的分类精度比Gist方法高6.5%,比词包模型(BOW)方法高3.22%,且计算简单,同时与Gist相比,不需要人工干预。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号