首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
《计算机科学与探索》2017,(12):2033-2040
针对当前图像语义描述生成模型对图像内目标细节部分描述不充分问题,提出了一种结合图像动态语义指导和自适应注意力机制的图像语义描述模型。该模型根据上一时刻信息预测下一时刻单词,采用自适应注意力机制选择下一时刻模型需要处理的图像区域。此外,该模型构建了图像的密集属性信息作为额外的监督信息,使得模型可以联合图像语义信息和注意力信息进行图像内容描述。在Flickr8K和Flickr30K图像集中进行了训练和测试,并且使用了不同的评估方法对所提模型进行了验证,实验结果表明所提模型性能有较大的提高,尤其与Guiding-Long Short-Term Memory模型相比,得分提高了4.1、1.8、2.4、0.8、3.1,提升幅度达到6.3%、4.0%、7.9%、3.9%、17.3%;与Soft-Attention相比,得分分别提高了1.9、2.4、3.3、1.5、2.74,提升幅度达到2.8%、5.5%、11.1%、7.5%、14.8%。  相似文献   

2.
赵宏  孔东一 《计算机应用》2021,41(9):2496-2503
针对现有基于注意力机制的图像内容中文描述模型无法在关注信息不减弱和无缺失的条件下对重点内容进行注意力加强关注的问题,提出一种图像特征注意力与自适应注意力融合的图像内容中文描述模型。模型使用编解码结构,首先在编码器网络中提取图像特征,并通过图像特征注意力提取图像全部特征区域的注意力信息;然后使用解码器网络将带有注意力权重的图像特征解码生成隐藏信息,以保证关注信息不减弱、无缺失;最后利用自适应注意力的视觉哨兵模块对图像特征中的重点内容进行再次加强关注,从而更加精准地提取图像的主体内容。使用多种评价指标(BLEU、METEOR、ROUGEL和CIDEr)进行模型验证,将所提模型与单一基于自适应注意力和基于图像特征注意力的图像描述模型进行对比实验,该模型的CIDEr评价指标值分别提高了10.1%和7.8%;同时与基线模型NIC(Neural Image Caption )以及基于自底向上和自顶向下(BUTD)注意力的图像描述模型相比,该模型的CIDEr评价指标值分别提高了10.9%和12.1%。实验结果表明,所提模型的图像理解能力得到了有效提升,其各项评价指标得分均优于对比模型。  相似文献   

3.
分析了图像检索系统的研究现状,指出了出现语义鸿沟的原因在于系统中缺乏对于实体相互关系的描述,提出了一个四层的图像语义模型,并在此基础上给出了基于常识库和图像实体库的图像描述和检索模型。以图像的颜色、纹理、形状等特征来构造实体的描述信息,并以常识库信息来分析图像场景中的实体构成和关系,从而获得对图像语义信息的识别和理解。  相似文献   

4.
图像标题生成与描述的任务是通过计算机将图像自动翻译成自然语言的形式重新表达出来,该研究在人类视觉辅助、智能人机环境开发等领域具有广阔的应用前景,同时也为图像检索、高层视觉语义推理和个性化描述等任务的研究提供支撑。图像数据具有高度非线性和繁杂性,而人类自然语言较为抽象且逻辑严谨,因此让计算机自动地对图像内容进行抽象和总结,具有很大的挑战性。本文对图像简单标题生成与描述任务进行了阐述,分析了基于手工特征的图像简单描述生成方法,并对包括基于全局视觉特征、视觉特征选择与优化以及面向优化策略等基于深度特征的图像简单描述生成方法进行了梳理与总结。针对图像的精细化描述任务,分析了当前主要的图像“密集描述”与结构化描述模型与方法。此外,本文还分析了融合情感信息与个性化表达的图像描述方法。在分析与总结的过程中,指出了当前各类图像标题生成与描述方法存在的不足,提出了下一步可能的研究趋势与解决思路。对该领域常用的MS COCO2014(Microsoft common objects in context)、Flickr30K等数据集进行了详细介绍,对图像简单描述、图像密集描述与段落描述和图像情感描述等代表性模型在数据集上的性能进行了对比分析。由于视觉数据的复杂性与自然语言的抽象性,尤其是融合情感与个性化表达的图像描述任务,在相关特征提取与表征、语义词汇的选择与嵌入、数据集构建及描述评价等方面尚存在大量问题亟待解决。  相似文献   

5.
图像描述任务是利用计算机自动为已知图像生成一个完整、通顺、适用于对应场景的描述语句,实现从图像到文本的跨模态转换。随着深度学习技术的广泛应用,图像描述算法的精确度和推理速度都得到了极大提升。本文在广泛文献调研的基础上,将基于深度学习的图像描述算法研究分为两个层面,一是图像描述的基本能力构建,二是图像描述的应用有效性研究。这两个层面又可以细分为传递更加丰富的特征信息、解决暴露偏差问题、生成多样性的图像描述、实现图像描述的可控性和提升图像描述推理速度等核心技术挑战。针对上述层面所对应的挑战,本文从注意力机制、预训练模型和多模态模型的角度分析了传递更加丰富的特征信息的方法,从强化学习、非自回归模型和课程学习与计划采样的角度分析了解决暴露偏差问题的方法,从图卷积神经网络、生成对抗网络和数据增强的角度分析了生成多样性的图像描述的方法,从内容控制和风格控制的角度分析了图像描述可控性的方法,从非自回归模型、基于网格的视觉特征和基于卷积神经网络解码器的角度分析了提升图像描述推理速度的方法。此外,本文还对图像描述领域的通用数据集、评价指标和已有算法性能进行了详细介绍,并对图像描述中待解决的问题与未来研究...  相似文献   

6.
图像描述是一项融合了自然语言处理和计算机视觉的综合任务,现有方法不仅存在描述性能不佳、缺失语义信息等问题,还存在模型结构与图像特征之间语义信息关联性不足的问题.针对这些问题,提出一种使用门控循环单元和卷积注意力模块进行优化的基于多模态神经网络的图像描述方法.为了验证方法的有效性,在MSCOCO2014数据集上进行实验对比,结果表明,改进方法在各项评价标准下的性能均优于原方法和其他经典算法,并且能够更好地处理图像里的关键信息和生成更加准确的图像描述句子.  相似文献   

7.
图像标注的目标是针对每幅图像,利用相对应的文本信息进行描述,从而能够对海量的图像数据进行有效的管理和检索。尽管图像标注已经被研究了若干年,然而它仍然是机器视觉和机器学习领域中一个非常具有挑战性的问题。各种各样的算法被用于图像的标注工作。对目前基于关键词的图像标注的一些常用的算法和模型进行了综述,包括传统的基于分类的方法、相关模型、主题模型、基于随机场的上下文信息的处理以及利用Internet上海量的数据来辅助图像标注等等。讨论了目前图像标注研究中遇到的一些具有挑战性的问题。  相似文献   

8.
基于空间特征的图像检索   总被引:2,自引:1,他引:1  
史婷婷  李岩 《计算机应用》2008,28(9):2292-2296
提出一种新的基于空间特征的图像特征描述子SCH,利用基于颜色向量角和欧几里得距离的MCVAE算法共同检测原始彩色图像边缘,同时利用一种新的“最大最小分量颜色不变量模型”对原始图像量化,对边缘像素建立边缘相关矩阵;对非边缘像素使用颜色直方图描述局部颜色分布信息;然后,利用新的sin相似性度量法则衡量图像特征间的相似度。实验采用VC++6.0开发了基于内容的图像检索原型系统“SttImageRetrieval”,基于Oracle 9i数据库建立了一个综合型图像数据库“IMAGEDB”。实验分析结果证明,利用SCH描述子的检索准确度明显高于仅基于颜色统计特征的检索结果。  相似文献   

9.
图像描述是将图像所包含的全局信息用语句来表示。它要求图像描述生成模型既能提取出图像信息,又能将提取出来的图像信息用语句表达出来。传统的模型是基于卷积神经网络(CNN)和循环神经网络(RNN)搭建的,在一定程度上可以实现图像转语句的功能,但该模型在提取图像关键信息时精度不高且训练速度缓慢。针对这一问题,提出了一种基于CNN和长短期记忆(LSTM)网络改进的注意力机制图像描述生成模型。采用VGG19和ResNet101作为特征提取网络,在注意力机制中引入分组卷积替代传统的全连接操作,从而提高评价值指标。使用了公共数据集Flickr8K、Flickr30K对该模型进行训练,采用多种评价指标(BLEU、ROUGE_L、CIDEr、METEOR)对模型进行验证。实验结果表明,与引入传统的注意力机制模型相比,提出的改进注意力机制图像描述生成模型对图像描述任务的准确性有所提升,并且该模型在5种评价指标上均优于传统的模型。  相似文献   

10.
图像加密处理技术是各种鱼图像相关技术的总称。对于大多数图像技术处理工作者来说,他们在处理图像信息中都是通过数字图像处理技术和和电子辅助设备相互结合运行来完成的。在很多领域都在利用图像处理技术来变换,增强或者表达描述目标的提取和测量。随着计算机科学技术的不断发展,3D场景建模,数据库建立以及相关图像分割技术都在不断的飞速发展,除此之外,图像加密处理技术还可以完成上述的制作和硬件设计。  相似文献   

11.
知识化图象数据库系统近年来引起了人们的研究兴趣,表现出了广泛的应用前景.本文 介绍一种知识化图象数据库管理系统GBASE的模式设计,它将传统的关系模式加以扩充,使 之能容许框架知识表达的抽象数据类型(ADTs),增强了关系数据库系统的语义描述能力,有 助于表达有关图象实体以及它们之间的空间关系等有关知识.利用ADT我们可以进行知识 引导下的数据库查询、图象实体空间关系的推理以及基于应用模型的辅助设计和规划.GBASE 系统是在VAX11/750机上在VMS操作系统下,以C语言完成的.它统一管理着多种类型 的信息,即关系数据、图形、图象数据、知识以及过程等,是一个综合的图象数据库管理系统. 目前正应用于林业资源的管理和规划.  相似文献   

12.
Image representations and feature selection for multimedia database search   总被引:3,自引:0,他引:3  
The success of a multimedia information system depends heavily on the way the data is represented. Although there are "natural" ways to represent numerical data, it is not clear what is a good way to represent multimedia data, such as images, video, or sound. We investigate various image representations where the quality of the representation is judged based on how well a system for searching through an image database can perform-although the same techniques and representations can be used for other types of object detection tasks or multimedia data analysis problems. The system is based on a machine learning method used to develop object detection models from example images that can subsequently be used for examples to detect-search-images of a particular object in an image database. As a base classifier for the detection task, we use support vector machines (SVM), a kernel based learning method. Within the framework of kernel classifiers, we investigate new image representations/kernels derived from probabilistic models of the class of images considered and present a new feature selection method which can be used to reduce the dimensionality of the image representation without significant losses in terms of the performance of the detection-search-system.  相似文献   

13.
杜鹏 《计算机与网络》2008,34(10):63-65
以ASP和Access数据库为例,探讨了以“OLE对象”形式存储在数据库中的图像信息如何读取的问题。通过对存储在“OLE对象”中信息进行分析,找到了控制信息与真实图像信息之间分隔标记,从而在程序中跳过控制信息,从分隔标记处读取真实的图像信息。  相似文献   

14.
张冰  昝程 《计算机科学》2014,41(11):306-308
将物理学中用引力场来描述分子间相互作用的思想应用于图像处理,图像力场的计算过程中将像素看作物理学中的粒子,像素的灰度值作为粒子的质量。分析表明,图像力场能够更直观地表示图像的离散信息且与图像本身是同构的。基于图像力场特性,提出了一个称为时钟算法的图像拷贝检测算法,其用表示时钟的时分秒针的3个线段来描述图像力场的主要特性并以此来表示图像的特征。实验结果表明,时钟算法可以通过较小的开销抵抗多种攻击,对噪声类失真与几何失真都有较好的鲁棒性,且可以通过设定检测策略分析遭受的攻击类型与强度,同时检测算法的查全率与查准率可保持在较高水平。  相似文献   

15.
We propose an automatic garment seam modeling framework to create a garment model with the seam structure from a single image. In order to achieve this, a marked seam image database and parametric seam models have been set up. Given a real seam image, we first identify the type of the seam image based on our marked seam image database and the seam parameters are parsed automatically by our sewing thread estimation method. Second the seam initial model is generated through the pre-defined parametric seam models. A garment model with the seam structure is finally obtained based on the seam position information which users have marked on the garment. Moreover, we verify the effectiveness of our method with numerous experiments.  相似文献   

16.
针对传统有线眼底照相机移动性差、设备复杂而且图像传输受布线、成像物体位姿的局限等缺陷,设计和实现了一种基于WiFi局域网的无线视网膜成像系统.该系统主要由成像系统、PC端软件操作系统和图像传输系统3部分组成.手持式眼底照相机实现图像实时采集,通过无线传输的方式将图像信息显示在PC端,实现眼底图像的实时观察和保存并作为医生眼科疾病诊断、治疗的客观依据.最终将获得的检查结果保存在数据库中,利用关系型数据库SQL Server 2008建立电子病历,实现检查结果的存档、查阅、共享等功能,为视网膜疾病诊断在远程医疗和大数据挖掘方面的应用提供了一种新思路.  相似文献   

17.
按内容检索的图象数据库系统数据模型   总被引:8,自引:0,他引:8  
数据模型的研究是设计按内容检索的图象数据库系统的基础.本文在超语义数据模型的基础上,提出了一种新的图象数据库系统模型.该模型融合了面向对象的数据模型、语义数据模型和知识模型的特点,并根据图象信息的特点,增加了若干对象类型构造子,使得该模型能较好地支持按内容检索的图象数据库系统建模.  相似文献   

18.
基于InterBase和Delphi的牙齿X线图像处理系统的设计与实现   总被引:1,自引:1,他引:1  
黄穗  刘剑 《计算机工程》2002,28(6):180-183
讨论一种基于InterBase和Delphi的牙齿X线图像处理系统。系统采用InterBase的BLOB类型存储BMP和JPEG格式图像,记录相关的病历、治疗和部分数字化的影像特征。通过Delphi的异常处理机制自动区分不同的图像模式,利用导航控件实现图像及机关数据的浏览,完成了交互式的组合条件和带模糊匹配的综合查询,并实现了交经式的图像特征量化分析,能够较为精确地测量牙齿的长度、面积及图像像素值等特征。  相似文献   

19.
Image database indexing is used for efficient retrieval of images in response to a query expressed as an example image. The query image is processed to extract information that is matched against the index to provide pointers to similar images. We present a technique that facilitates content similarity-based retrieval of jpeg-compressed images without first having to uncompress them. The technique is based on an index developed from a subset of jpeg coefficients and a similarity measure to determine the difference between the query image and the images in the database. This method offers substantial efficiency as images are processed in compressed format, information that was derived during the original compression of the images is reused, and extensive early pruning is possible. Initial experiments with the index have provided encouraging results. The system outputs a set of ranked images in the database with respect to the query using the similarity measure, and can be limited to output a specified number of matched images by changing the threshold match.  相似文献   

20.
为了更有效、更准确地进行图像检索,提出了一种利用分形编码这项重要的拓扑特性来处理图像索引的新方法,即将图像经分形编码,首先得到每张图像的迭代函数,然后将其伴随图像存人数据库中,成为该图像的索引文件最后对数据库进行搜索时,则通过对此索引文件的比对来找出与查询图像相似的图像。反观使用其他方法建立的图像索引数据库,则无法证明其建立的索引文件具有上述特质。实验显示,图像经过分形编码所表现出的几何性质以及独特的有效性和鲁棒性,证明该方法是一个更有效率、准确度高的检索方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号