共查询到19条相似文献,搜索用时 187 毫秒
1.
视频文本和视频内容高度相关,提供了理解视频内容的有用信息,然而文本往往位于复杂背景之中,从视频帧中定位到文本区域后,如果将其直接送入OCR软件,其识别效果较差。视频文本的时域信息提供了增强文本,消除背景的有用信息。因此,提出了一种利用视频文本的时域信息来消除背景,增强文本的方法。该方法首先利用边缘算子计算文本的轮廓特征,然后采用基于Hausdorff距离度量的匹配方法跟踪本文区域在相邻帧序列中的位置,利用多帧平均或帧间最小搜索法消去背景;其次,利用双线性插值技术调整文本尺寸,最终得到具有干净背景、合理分辨率的文本图像。不同测试视频序列的实验结果表明,该方法可以有效提高视频文本的OCR软件识别率。 相似文献
2.
3.
4.
5.
针对新闻视频帧中文本区域的定位提取问题,提出了一种有效的字幕定位提取方法。通过灰度差分和变异灰度直方图对新闻视频帧字幕区域定位,再经改进的二维最大熵阈值方法对分割出的文字区域进行二值化,得到可识别的文字图片。最后对文本定位和OCR识别情况进行了算法对比。实验表明:与传统的投影法和最大熵方法相比,该方法可有效地提高文本定位的查全率和OCR的识别率。 相似文献
6.
视频字幕检测和提取是视频理解的关键技术之一。文中提出一种两阶段的字幕检测和提取算法,将字幕帧和字幕区域分开检测,从而提高检测效率和准确率。第一阶段进行字幕帧检测:首先,根据帧间差算法进行运动检测,对字幕进行初步判断,得到二值化图像序列;然后,根据普通字幕和滚动字幕的动态特征对该序列进行二次筛选,得到字幕帧。第二阶段对字幕帧进行字幕区域检测和提取:首先,利用Sobel边缘检测算法初检文字区域;然后,利用高度约束等剔除背景,并根据宽高比区分出纵向字幕和横向字幕,从而得到字幕帧中的所有字幕,即静止字幕、普通字幕、滚动字幕。该方法减少了需要检测的帧数,将字幕检测效率提高了约11%。实验对比结果证明, 相比单一使用帧间差和边缘检测的方法,该方法在F值上提升约9%。 相似文献
7.
一种快速新闻视频标题字幕探测与定位方法* 总被引:1,自引:0,他引:1
新闻视频字幕包含有丰富的语义信息,尤其是标题字幕,对新闻视频高层语义内容的分析和理解具有
重要作用。利用标题字幕的时空分布特征,提出了一个新闻视频标题字幕的快速探测与定位方法。首先利用标
题字幕持续多帧出现的特点降低所需处理的帧数,然后基于标题字幕的边缘特征和位置特征,标记帧图像的候
选字幕块,对帧序列中的图像进行统计分析,探测出视频中标题字幕的位置及出现消失时间。实验结果表明所
提方法简单有效,能够快速、鲁棒地探测并定位新闻视频中的标题字幕。 相似文献
8.
视频中滚动字幕通常表达一段完整信息,对其进行检测与跟踪是字幕识别与应用的重要前提.通过分析视频中滚动字幕的特征,在Sobel边缘检测的基础上,提出规则和统计结合的字幕检测方法及垂直边缘特征最小差平方和的字幕跟踪方法.从视频全局角度出发,对相邻帧的边缘图像进行差分,选取水平边缘特征并根据规则检测字幕区域的候选边界,通过统计边界出现频数,定位滚动字幕区域;计算相邻滚动字幕条在不同偏移值下垂直边缘特征差平方和,取其最小值作为相邻字幕的偏移量,从而实现字幕的跟踪.实验结果显示,该文方法从含有多种字幕类型的视频中检测出滚动字幕的准确率可达96.61%、字幕跟踪的准确率达99.43%,充分说明文中方法的有效性. 相似文献
9.
10.
11.
视频字幕检索是视频检索领域的重要部分。随着OCR技术的不断完善,视频字幕检索算法也取得了很多重大突破,然而在检索效果提升的同时,视频包含的大量图像、文字信息使数据处理成为制约字幕提取的性能瓶颈。众核架构高性能协处理器近年发展迅猛,为高性能计算研究打下了良好的硬件基础。将Intel众核MIC应用到视频字幕提取中,选用OpenMP并行语言进行加速。通过在Intel Xeon Phi 7110P进行测试,获得了比较理想的加速比。 相似文献
12.
赵亚琴 《计算机工程与应用》2009,45(33):175-178
提出一种新的有效的新闻视频主题字幕检测方法。利用像素的空间量化亮度值计算局部帧差变化,以便检测新闻视频字幕的出现帧和消失帧,并建立4条规则来进一步区分主题字幕和非主题字幕,然后对同一主题字幕所在帧利用多帧结合的方法生成两个候选的主题字幕文字检测帧,选择其中之一进行文字区域的定位和提取;最后用投影法分割字符,并对投影法产生的错误分割字符的常见情况,提出相应的解决方法。实验结果表明了该方法的有效性。 相似文献
13.
提出了一种将垂直颜色边缘与分块多帧分析的文本定位与增强的方法。根据文本的垂直颜色边缘特征进行粗筛选,获得和跟踪文本候选区;然后通过分块多帧分析对文本进行增强。实验表明,该方法能有效去除复杂背景,提高视频文本的识别率。 相似文献
14.
Toshio Sato Takeo Kanade Ellen K. Hughes Michael A. Smith Shin'ichi Satoh 《Multimedia Systems》1999,7(5):385-395
The automatic extraction and recognition of news captions and annotations can be of great help locating topics of interest
in digital news video libraries. To achieve this goal, we present a technique, called Video OCR (Optical Character Reader),
which detects, extracts, and reads text areas in digital video data. In this paper, we address problems, describe the method
by which Video OCR operates, and suggest applications for its use in digital news archives. To solve two problems of character
recognition for videos, low-resolution characters and extremely complex backgrounds, we apply an interpolation filter, multi-frame
integration and character extraction filters. Character segmentation is performed by a recognition-based segmentation method,
and intermediate character recognition results are used to improve the segmentation. We also include a method for locating
text areas using text-like properties and the use of a language-based postprocessing technique to increase word recognition
rates. The overall recognition results are satisfactory for use in news indexing. Performing Video OCR on news video and combining
its results with other video understanding techniques will improve the overall understanding of the news video content. 相似文献
15.
一种压缩域上的快速标题文字探测算法及其应用 总被引:1,自引:0,他引:1
提出了一种在MPEG压缩流上基于模型的快速标题文字探测算法。对标题文字叠加模型的分析表明,视频流各分量值在标题文字区将属于特定的 范围区间。基于该特征,该文给出了一种利用色度分量统计特征在压缩域上检测标题的快速算法,并对算法的加速以及模型建立方法进行了讨论,该技术被成功地应用到自动创建图片目录,实现了用户通过极少目的图片对一天新闻节目内容的快速浏览。实验结果表明算法不仅具有理想的正确率96.6%与查全率100%,而且具有超实时的探测速度。 相似文献
16.
一种新的利用多帧结合检测视频标题文字的算法 总被引:5,自引:0,他引:5
视频中的标题文字通常在视频信息索引和检索中起到重要作用.提出了一种新的视频标题文字的检测算法.首先采用一种新的多帧结合技术来降低图像背景的复杂度,它基于时间序列对多帧图像进行最小(或最大)像素值搜索,搜索的具体方式由Sobel边缘图来决定.然后以块为单位来进行文字与非文字的分类,即用一扫描窗口对图像进行扫描,以Sobel边缘为特征,判断其是否为文字。一个2级的金字塔被用来检测不同大小的文字.最后,提出一种新的迭代的文字区域分解方法,它能够更精确地定位文字区域的边界.实验结果表明,这种文字检测算法能够取得很高的精度和召回率. 相似文献
17.
18.
字幕信息有助于观众对音视频内容进行理解,在音视频文件中起着不可或缺的作用.针对自动字幕生成系统的要求,提出了一种灵活、高效的语音端点检测算法,可以在复杂背景噪声的情况下,从连续的音频信号中提取语音端点.将短时能量、短时过零率、短时信息熵这3种基本音频参数进行结合,形成新的音频特征参数:短时能零熵(EZE-feature),在结合了音频信号时域特征和频域特征优点的同时,规避了它们各自的不足.在此基础上,还提出了一种环境自适应的语音端点判定算法,在端点检测过程中对背景噪声进行实时分析,并根据背景噪声的变化对短时能零熵参数进行调整.该语音端点检测算法已被成功应用于自动字幕生成系统中. 相似文献
19.
视频数据中的文本能提供重要的语义信息。本文提出了一种视频文本自动定位、跟踪和识别的方法,首先用基于小波和LH检测视频帧文本所在的位置,然后用运动估计的方法,跟踪后继帧文本的位置,再用多帧平均的方法增强文本区域,最后经过二值化处理和连通分量分析,将文本字符送入OCR软件进行识别。实验结果表明,该方法简单易行,能快速地定位和跟踪文本区域,定位精度和识别效果良好。 相似文献