首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
视频数据中的文本能提供重要的语义信息。针对视频中的文本检测问题,提出了用基于边缘信息和LH的方法检测视频帧文本所在的位置,方法简单,能快速地定位文本区域,且不受文本颜色、语种、文本字体大小的限制。检测和分割效果良好。  相似文献   

2.
基于形态学的视频文本自动检测   总被引:2,自引:0,他引:2  
视频数据中的文本可提供重要的语义信息。该方法首先用形态算子提取视频帧的高频分量,再通过区域标记、连通分量分析、形态后处理等一系列步骤对视频帧进行滤波,得到视频文本检测结果,最后再对其进行二值化处理,把文本字符从复杂背景中分离出来。这种算法能快速地定位文本区域,且不受文本颜色、语种、字体大小、排列方向、文本形变的影响。实验表明,该算法对视频文本进行检测定位精度较高,分割效果良好。  相似文献   

3.
针对大多数视频问答(VideoQA)模型将视频和问题嵌入到同一空间进行答案推理所面临的多模态交互困难、视频语义特征保留能力差等问题,提出了一种视频描述机制来获得视频语义特征的文本表示,从而避免了多模态的交互.提出方法将视频特征通过描述机制得到相应的视频描述文本,并将描述文本特征与问题特征进行阅读理解式的交互与分析,最后推理出问题的答案.在MSVD-QA以及MSRVTT-QA数据集上的测试结果显示,提出问答模型的回答准确率较现有模型均有不同程度的提升,说明所提方法能更好地完成视频问答任务.  相似文献   

4.
基于词组学习的视频文本检测方法   总被引:2,自引:1,他引:1       下载免费PDF全文
朱成军  蒲菊华  薛玲  熊璋 《计算机工程》2008,34(13):185-187
提出一种以词组作为模式识别对象的中英文视频文本检测算法,其根据视频中文本的笔画结构特点和聚集特性构造一个18维的特征向量,利用支持向量机将视频帧分为文本和非文本区域,通过多分辨率模型检测不同尺寸的文本,采用扩张-收缩的后处理过程校准文本区域位置。实验结果表明,该算法的检测准确率达93.17%,误检率仅为0.73%。  相似文献   

5.
刘璐    贾彩燕   《智能系统学报》2017,12(6):799-805
随着视频分享网站的兴起和快速发展,互联网上的视频数量呈爆炸式增长,对视频的组织及分类成为视频有效使用的基础。视频聚类技术由于只需要考虑视频数据内在的簇结构、不需要人工干预,越来越受到人们的青睐。现有的视频聚类方法有基于视频关键帧视觉相似性的方法、基于视频标题文本聚类的方法、文本和视觉多模态融合的方法。基于视频标题文本聚类的视频聚类方法由于其简便性与高效性而被企业界广泛使用,但视频标题由于其短文本的语义稀疏特性,聚类效果欠佳。为此,本文面向社会媒体视频,提出了一种社会媒体平台上视频相关多源文本融合的视频聚类方法,以克服由于视频标题的短文本带来的语义稀疏问题。不同文本聚类算法上的实验结果证明了多源文本数据融合方法的有效性。  相似文献   

6.

视频-文本检索作为一项被广泛应用于现实生活中的多模态检索技术受到越来越多的研究者的关注. 近来, 大部分视频文本工作通过利用大规模预训练模型中所学到的视觉与语言之间的匹配关系来提升文本视频间跨模态检索效果. 然而, 这些方法忽略了视频、文本数据都是由一个个事件组合而成. 倘若能捕捉视频事件与文本事件之间的细粒度相似性关系, 将能帮助模型计算出更准确的文本与视频之间的语义相似性关系, 进而提升文本视频间跨模态检索效果. 因此, 提出了一种基于CLIP生成多事件表示的视频文本检索方法(CLIP based multi-event representation generation for video-text retrieval, CLIPMERG). 首先, 通过利用大规模图文预训练模型CLIP的视频编码器(ViT)以及文本编码器(Tansformer)分别将视频、文本数据转换成视频帧token序列以及文本的单词token序列;然后, 通过视频事件生成器(文本事件生成器)将视频帧token序列(单词token序列)转换成k个视频事件表示(k个文本事件表示);最后, 通过挖掘视频事件表示与文本事件表示之间的细粒度关系以定义视频、文本间的语义相似性关系. 在3个常用的公开视频文本检索数据集MSR-VTT, DiDeMo, LSMDC上的实验结果表明所提的CLIPMERG优于现有的视频文本检索方法.

  相似文献   

7.
一种视频文本自动定位、跟踪和识别的方法   总被引:3,自引:0,他引:3       下载免费PDF全文
视频数据中的文本能提供重要的语义信息。本文提出了一种视频文本自动定位、跟踪和识别的方法,首先用基于小波和LH检测视频帧文本所在的位置,然后用运动估计的方法,跟踪后继帧文本的位置,再用多帧平均的方法增强文本区域,最后经过二值化处理和连通分量分析,将文本字符送入OCR软件进行识别。实验结果表明,该方法简单易行,能快速地定位和跟踪文本区域,定位精度和识别效果良好。  相似文献   

8.
视频和图像中的文本通常在基于内容的视频数据库检索、网络视频搜索,图像分割和图像修复等中起到重要作用,为了提高文本检测的效率,给出了一种基于多种特征自适应阈值的视频文本检测方法.方法是在Michael算法的基础上,利用文本边缘的强度,密度,水平竖直边缘比3个特征计算自适应局部阈值,用阈值能较好去除非文本区域,提取文本边缘,检测并定位文本,减少了Michael算法单一特征阈值的不利影响.在文本定位阶段引入了合并机制.减少了不完整区域的出现.实验结果表明有较高的精度和召回率,可用于视频搜索、图像分割和图像修复等.  相似文献   

9.
综合理解视频内容和文本语义在很多领域都有着广泛的研究。早期的研究主要是将文本-视频映射到一个公共向量空间,然而这种方法所面临的一个问题是大规模文本-视频数据集不足。由于视频数据存在较大的信息冗余,直接通过3D网络提取整个视频特征会使网络参数较多且实时性较差,不利于执行视频任务。为了解决上述问题,文中通过良好的聚类网络聚合视频局部特征,并可以同时利用图像和视频数据训练网络模型,有效地解决了视频模态缺失问题,同时对比了人脸模态对召回任务的影响。在聚类网络中加入了注意力机制,使得网络更加关注与文本语义强相关的模态,从而提高了文本-视频的相似度值,更有利于提高模型的准确率。实验数据表明,基于聚类网络的文本-视频特征学习可以很好地将文本-视频映射到一个公共向量空间,使具有相近语义的文本和视频距离较近,而不相近的文本和视频距离较远。在MPII和MSR-VTT数据集上,基于文本-视频召回任务来测评模型的性能,相比其他模型,所提模型在两个数据集上进行精度均有提升。实验数据表明,基于聚类网络的文本-特征学习可以很好地将文本-视频映射到一个公共向量空间,从而用于文本-视频召回任务。  相似文献   

10.
一种基于多帧视频的文本图像质量增强方法   总被引:1,自引:1,他引:0       下载免费PDF全文
视频文本和视频内容高度相关,提供了理解视频内容的有用信息,然而文本往往位于复杂背景之中,从视频帧中定位到文本区域后,如果将其直接送入OCR软件,其识别效果较差。视频文本的时域信息提供了增强文本,消除背景的有用信息。因此,提出了一种利用视频文本的时域信息来消除背景,增强文本的方法。该方法首先利用边缘算子计算文本的轮廓特征,然后采用基于Hausdorff距离度量的匹配方法跟踪本文区域在相邻帧序列中的位置,利用多帧平均或帧间最小搜索法消去背景;其次,利用双线性插值技术调整文本尺寸,最终得到具有干净背景、合理分辨率的文本图像。不同测试视频序列的实验结果表明,该方法可以有效提高视频文本的OCR软件识别率。  相似文献   

11.
为了解决视频检索中文本定位精确度不高的问题,提出一种基于条件笔画密度提取的文本定位方法。根据文本笔画的特征对视频图像中的文本进行初步定位,用基于条件密度的方法滤去一部分非文本区域,再利用动态形态学对提取的文本区域精确定位并对其优化得到最终的文本区域。实验结果表明,该方法能滤去大部分非文本信息,得到相对精确的文本区域,并且定位效果较好。  相似文献   

12.
文本显示和彩色文本视频RAM的联系和特点;提出通过C语言直接访问彩色EGA/VGA的文本视频RAM方法,实现彩色文本显示。  相似文献   

13.
针对现有视频内容文本表述模型存在生成的文本表述单一、准确率不高等问题,提出一种融合帧级图像及音频信息的视频内容文本表述模型。基于自注意力机制设计单模态嵌入层网络结构,并将其嵌入单模态特征中学习单模态特征参数。采用联合表示、协作表示两种方法对单模态嵌入层输出的高维特征向量进行双模态特征融合,使模型能关注视频中不同目标间的交互关系,从而生成更加丰富、准确的视频文本表述。使用大规模数据集对模型进行预训练,并提取视频帧、视频所携带的音频等表征信息,将其送入编解码器实现视频内容的文本表述。在MSR-VTT和LSMDC数据集上的实验结果表明,所提模型的BLEU4、METEOR、ROUGEL和CIDEr指标分别为0.386、0.250、0.609和0.463,相较于MSR-VTT挑战赛中IIT DeIhi发布的模型,分别提升了0.082、0.037、0.115和0.257,能有效提升视频内容文本表述的准确率。  相似文献   

14.
现有的视频去重技术多样,但字幕这一与视频内容能高度匹配的重要信息并未被考虑到其中。提出一种针对含内嵌字幕视频进行去重的方法,并在三大视频网页中得到了该方法的再去重效果。首先将相应网页视频中的字幕经过OTC处理将其文档化,再规范文档,最后设定一个界值,对网页进行去重筛选。类比于网页文本的去重方法,基于文本内容的去重工作可以大大改善去重的效果,考虑到视频中人物对话内容的唯一性,我们可以根据视频字幕内容来进行去重,从而得到更为精准的视频去重结果。  相似文献   

15.
朱成军  李超  熊璋 《计算机工程》2007,33(10):218-219
视频中的文本提供了描述视频内容的有用信息,对于构建基于高级语义的多媒体检索系统具有重要作用。该文从视频文本的特点出发,分析了视频文本检测和识别的各种技术方法及优缺点,以及该领域国内外的发展现状和下一步研究的重点方向。  相似文献   

16.
基于小波形态学的文本自动检测   总被引:1,自引:0,他引:1  
视频数据中的文本能提供重要的语义信息。论文针对视频中的文本分割问题,提出一种分割方法,用具有良好时频局部和变尺度特性的小波分析方法,提取出纹理清晰、具有不同空间分辨率、不同方向的边缘子图象,然后,用数学形态学的方法对提取出的细节图象进行进一步的形态运算,消除无用的信息,得到最终的文本目标区域。实验表明该方法简单有效,适合于背景较复杂的文本分割。  相似文献   

17.
针对视频中文本信息在视频序列和视频索引中的重要性,本文提出了一种基于文字混合特征的文本定位算法.该算法首先对视频序列中每隔25帧的单帧图像进行边缘检测和投影处理来提取文本块,然后用支持向量基进行筛选,排除非文本块的干扰,最后利用视频序列中相邻帧之间的相关性来搜索剩余帧中的文本块.本文的算法在提高检测速度的同时保证了较高的检测准确度.  相似文献   

18.

跨媒体网络视频热点话题检测成为新的研究热点.然而,描述视频的文本信息较少,使得文本语义特征空间稀疏,导致文本语义特征间关联强度较弱,增加了挖掘热点话题的难度.现有方法主要通过视觉信息丰富文本语义特征空间.然而,由于视觉与文本信息间的异构性,导致同一话题下文本与视觉语义特征差异较大,这进一步降低了同一话题下文本语义间的关联强度,也给跨媒体网络视频热点话题检测带来巨大挑战.因此,提出一种新的跨媒体语义关联增强方法.首先,通过双层注意力,从单词和句子2个级别捕捉文本核心语义特征;其次,通过理解视觉内容,生成大量与视频内容高度相关的文本描述,丰富文本语义空间;然后,分别通过文本语义相似性和视觉语义相似性,构建文本语义图和视觉语义图,并构造时间衰减函数,从时间维度建立跨媒体数据间的相关性,以此增强文本与视觉语义间的关联强度,平滑地将2种语义图融合为混合语义图,实现跨媒体语义互补;最后,通过图聚类方法检测出热点话题.大量实验结果表明,提出的模型优于现有方法.

  相似文献   

19.
众所周知 ,文本的摘要是对一篇文章的一个简短的小结 .随着对视频数据处理要求的不断提高 ,出现了类似的概念——视频摘要 ,同时也产生了视频摘要技术 .同文本摘要概念相似 ,视频摘要是对视频的一个简短的小结 .为了使人们对视频摘要有一个概略的了解 ,该文首先阐述了视频摘要的基本概念 ,同时简单介绍了视频摘要的应用 ,并在此基础上对视频摘要进行了分类 ;然后重点介绍了每一类视频摘要的实现技术——关键帧提取技术、多特征融合技术等 ;最后对目前视频摘要技术进行了小结 ,并展望了若干发展途径 .  相似文献   

20.
在分析应用视频数据的过程中,视频分段是分析,组织,应用视频数据的基础。由于视频数据的多样性,传统的分段方法不能给出令人满意的结果,一般需要通过人机交互来进行。文中将较为成熟的文本分析、语音处理、图像处理三种技术进行综合,互为补充,对视频流进行分割。文本分析的对象是语音转换成的文本、标题、注释等。语音处理包括语音识别和语音信号分析。语音识别将视频中的自然语言转换为文字。语音信号分析对视频材料中的语音成分进行基础分析。图像处理主要用来处理视频中的图像部分。文章阐述了视频流的分段层次,文本分析,语音处理算法以及镜头突变,镜头渐变识别算法的思想。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号