首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
检测并提取视频图像中的文本信息对视频图像和内容的理解意义重大。以现有的文本检测算法为基础,提出一种基于角点与BP神经网络相结合的文本检测算法。该算法首先应用多尺度角点算法提取文本角点信息并初步定位文本行,接着提取文本特征,最后应用BP神经网络精确定位文本。实验结果表明,此算法与经典方法相比具有更高的正确率和鲁棒性,视频中文本的正确检测率达到90.3%。  相似文献   

2.
基于梯度与粗糙度的视频文本检测与定位   总被引:1,自引:0,他引:1       下载免费PDF全文
袁海东  马华东  黄晓冬 《电子学报》2008,36(8):1660-1664
 本文提出一种视频文本检测和定位的新方法.利用差分图像像素行(列)的粗糙度特征和自适应阈值,实现对文本的快速检测.为进一步实现对文本的精确检测与定位,引入彩色梯度的方向信息,仅计算视频画面中少量关键特征点的梯度幅值,能够有效抑制图像复杂背景的干扰,同时显著提高了算法的效率.本方法对不同的视频画面质量、不同复杂程度的背景以及不同外观的文本是鲁棒的.通过对各类视频节目的大量实验验证了本文方法的有效性.  相似文献   

3.
张鑫姝  郭戈  程娟 《电子技术》2010,47(4):22-24
本文提出一种视频文本语义信息分析的新思路,即在文本区域提取后结合文种识别理论来提取新闻视频的来源和身份等高级语义信息,同时文种识别结果可为OCR的选择提供先验知识。主要工作包括:1)针对视频中的字幕,提出一种基于时-空分析的算法来检测视频中的字幕,然后对检测到的字幕通过投影分析进行定位、增强和二值化;2)对提取到的文本区域提出一种基于PCA和小波变换的文种识别算法。  相似文献   

4.
基于模糊同质性映射的文本检测方法   总被引:2,自引:0,他引:2  
视频图像中的文本是从语义层次对视频图像内容进行描述的非常有效信息,文本检测为基于语义的图像检索提供了条件。该文提出了一种基于模糊逻辑和同质映射相结合的文本检测方法,首先利用最大信息熵准则将原始图像模糊化;然后构造基于边缘信息和纹理信息的图像同质性,并利用它将图像映射到模糊同质性空间;最后在模糊同质性空间通过纹理分析检测文本区域。与直接在图像空间域中提取特征的文本检测方法相比,该方法对复杂背景视频图像的文本检测取得了更好的效果,并且适用于多种类型的视频图像中文本的检测。  相似文献   

5.
针对由于自然场景的复杂性,从自然场景图像中提取出文本信息较困难的问题,文中提出了一种基于深度学习卷积神经网络的文本定位算法。通过对场景图像进行预处理得到候选文本区域,在此基础上结合深度学习中的卷积神经网络来自动提取文本特征进行进一步的定位。通过实验验证,定位的准确率可达86%,综合性能较好。  相似文献   

6.
针对多方向排列的文本因其尺度变化大、复杂背景干扰而导致检测效果仍不甚理想的问题,本文提出了一种基于注意力机制的多方向文本检测方法。首先,考虑到自然场景下干扰信息多,构建文本特征提取网络(text feature information ResNet50,TF-ResNet),对图像中的文本特征信息进行提取;其次,在特征融合模型中加入文本注意模块(text attention module, TAM),抑制无关信息的同时突出显示文本信息,以增强文本特征之间的潜在联系;最后,采用渐进扩展模块,逐步融合扩展前部分得到的多个不同尺度的分割结果,以获得精确检测结果。本文方法在数据集CTW1500、ICDAR2015上进行实验验证和分析,其F值分别达到80.4%和83.0%,比次优方法分别提升了2.0%和2.4%,表明该方法在多方向文本检测上与其他方法相比具备一定的竞争力。  相似文献   

7.
王庆文  胡海洋 《电子科技》2021,34(8):14-18,86
在智能制造环境中,基于动作识别的工作流识别方法难以定位出视频中工作流活动的开始和结束时间.为了从视频中对工作流中的活动进行时序定位,文中对R-C3D网络模型进行改进并提出了一种基于时序行为检测的工作流识别方法.在文中所提出的工作流识别方法中,采用一种随机稀疏采样策略来减少相邻视频帧的冗余,并使用Res3D网络来提取视频...  相似文献   

8.
本文提出了一种基于Laplace变换的视频图像水平文本检测算法.首先用Laplace变换对图像滤波,并根据梯度信息用K-均值方法对像素点聚类,得到候选文本区;然后用投影算法对候选文本区进行边缘精确,得到候选文本块;最后分析候选文本块的几何特性,进行文本验证.本文算法在公共数据库上的测试结果表明了算法的可行性和有效性.  相似文献   

9.
为实现对机载雷达视频的识别,正确评估飞行员的机载雷达操纵水平,提出了一种基于连接文本提议网络(CTPN)与Tesseract相结合的对机载雷达视频中关键字符进行识别的方法。通过视频压缩、图像截取、图像拼接、腐蚀与膨胀等操作,对机载雷达视频进行预处理,接着将视频转化为图像。通过CTPN对图像进行文本检测,最后调用Tesseract对检测出的字符进行识别,形成文本输出,实现对机载雷达视频的自动化识别,从而替代现有的人工判读方式,达到提升机载雷达视频分析效率的目的,为借助视频分析快速准确评估飞行员的雷达操纵水平提供依据。  相似文献   

10.
提出了一种基于色彩距离最小化和最大 色彩差(MCD)的场景文本定位方法。首先,使用多次K均值 聚类和色彩距离最小化的方法,从不同复杂程度的场景图像中提取文本 连通区域;考虑到色彩聚类方法容易受光照影响,使用基于MCD最大色彩差的方法,提取 文本连通区域作为补充,由于将 色彩与梯度信息相结合,在一定程度上能克服光照的影响;将得到的连通区域通过设 定的字符合并规则,构建文本行; 候选文本行中通常包含错误检测的非文本行,为了提高文本检测的正确率,最后采用基于特 征提取和机器学习的方法,验证 候选文本行,得到文本定位结果。将本文方法在ICDAR2011和ICDAR2013公共数 据库上实验,对于ICDAR2011数据集,本文 获得的召回率、准确率和F指标分别为0.66、0.77;对于ICDAR2013数据集,本文获得的召回率、准确率和F 指标分别为0.65、0.77。将本文方法与 其它文本检测算法比较,结果表明本文方法的可行性、有效性。  相似文献   

11.
Video text information plays an important role in semantic-based video analysis, indexing and retrieval. Video texts are closely related to the content of a video. Usually, the fundamental steps of text-based video analysis, browsing and retrieval consist of video text detection, localization, tracking, segmentation and recognition. Video sequences are commonly stored in compressed formats where MPEG coding techniques are often adopted. In this paper, a unified framework for text detection, localization, and tracking in compressed videos using the discrete cosines transform (DCT) coefficients is proposed. A coarse to fine text detection method is used to find text blocks in terms of the block DCT texture intensity information. The DCT texture intensity of an 8×8 block of an intra-frame is approximately represented by seven AC coefficients. The candidate text block regions are further verified and refined. The text block region localization and tracking are carried out by virtue of the horizontal and vertical block texture intensity projection profiles. The appearing and disappearing frames of each text line are determined by the text tracking. The final experimental results show the effectiveness of the proposed methods.  相似文献   

12.
在分析了文本中重要事件识别和文本分类方法的基础之上,提出了一种基于重要事件的文本分类方法.重点研究了该方法涉及到的两个关键技术:以重要事件表示文本和获取文本类别的模板.在中文事件语料CEC上,使用本文介绍的文本分类方法得到的平均准确率达到80%,而使用传统的以词为特征的文本分类方法得到的平均准确率为72%.  相似文献   

13.
图像中的文本包含了重要的语义信息。提出了一种基于连通区域分析的彩色图像文本自动定位算法。首先对彩色图像进行多通道分解,得到少量代表颜色下的二值图像。对二值图像进行连通区域标记,并计算连通区域的属性参数。然后根据关于连通区域属性的先验知识限制,去掉连通区域中的非文本区域,其他的作为候选文本区域。最后根据文本行的排列规律从候选文本区域中提取文本行。实验结果表明该方法能较快地定位文本区域,定位精度较高。  相似文献   

14.
基于蚁群算法的文本分类和聚类   总被引:1,自引:1,他引:1  
为了研究并提高文本的分类和聚类算法的性能,笔者根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的分聚类中。在文本聚类中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,最终将相似文本进行聚合。在文本的分类中,将所需要的分类信息装入蚂蚁,蚂蚁根据系统外部所希望的方式将文本分类。实验结果证明,这种新的算法可以使文本分类和聚类的准确度提高,蚁群算法在文本分类聚类中的应用是可行的。  相似文献   

15.
张飞宇 《电子科技》2012,25(10):43-45,48
在线协同学习平台中,为方便用户更加快捷地查找网络中的多媒体文件,完成基于教学视频内容信息检索,视频语音识别是重要环节。教学视频语音识别系统是基于隐马尔可夫模型下语音识别的一个实例,旨在实现教学音/视频文件中文字提取的功能,具有重要的应用价值。文中对语音识别系统的应用软件进行了需求分析,通过其相关功能的性能测试结果表明,该系统实现并展示了将视频中的音频信息文字转换的过程。  相似文献   

16.
马慧芳  刘文  李志欣  蔺想红 《电子学报》2019,47(6):1331-1336
短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法.一方面,在整个短文本语料库中利用两个共现词之间的距离计算词项共现距离相关度,并以此来对词项加权从而捕获词项间内联和外联关系,得到短文本的耦合距离区分度相似度;另一方面,基于少量带类别标签的监督数据提取每类中强类别区分能力的特征项作为强类别特征集合,并利用词项的上下文来对强类别特征语义消歧,然后基于文本间包含相同类别的强类别特征数量来衡量文本间的相似度.最后,本文结合耦合距离区分度和强类别特征来衡量短文本的相似度.经实验证明本文提出的方法能够提高短文本相似度计算的准确率.  相似文献   

17.
为了解决面向话题的搜索问题,提出一种新的面向话题的检索技术。首先分析了面向话题的搜索技术所面临的问题,然后基于数据挖掘技术提出了解决方案。利用数据挖掘技术抽取文本的多层次语义特征,形成对文本的多精度表示,抽取的特征不仅包括单个词特征也包括多词特征。建立了一个示例检索系统,实验表明利用多层次文本特征能够很好地实现面向话题的文本检索。  相似文献   

18.
褚晶辉  董越  吕卫 《电视技术》2014,38(3):188-191
视频中包含的文字信息与视频的语义内容有很强的相关性,将视频中的文字信息提取出来进行分析处理可以有效地理解电视视频语义,从而实现对视频内容的安全监控。针对文字检测提出一种基于小波变换、角点特征图像和统计特征的有效方法,并运用基于彩色空间的文字提取方法获取二值图像,更有利于后面OCR的文字识别。  相似文献   

19.
This article presents a design experiment attempting to create a locative literary system, which allows users in an urban environment to listen to literary texts which talk about the very places they find themselves in, and to write and share their own place-bound texts through the system. The methodological approach is an attempted implementation of the proposed scholarly category of humanist interventions, answering a need to bridge the interdisciplinary gap between humanistic scholarship and digital design. Following an analysis of the potential benefits of providing a system which enables active exploration of the relationship between literary texts and the places they talk about, the practical process of designing a prototype for this system is explained. The outcomes of initial user experiences indicate that the system has a high potential to work as a creative tool for interested users; however, flaws in the system also prevent this potential from having been fully realised so far. These observations point at two challenges for further development: although the wiki format has a history of success in soliciting user contributions, it seems ill fitted for applications, such as this, where individual creativity is central; and flexible ways of managing granularity of content is important for the locative experience of literary texts.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号