首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
对基于电视节目内容的监控系统中关键技术进行了分析,提出了视频、音频、文本分类处理的方法.字幕文本信息利用位置和背景特征来提高识别速度和准确度,增强了实时性,非法频道台标使用大跨度的采样并进行异或求反再相与的方法来识别.  相似文献   

2.
张鑫姝  郭戈  程娟 《电子技术》2010,47(4):22-24
本文提出一种视频文本语义信息分析的新思路,即在文本区域提取后结合文种识别理论来提取新闻视频的来源和身份等高级语义信息,同时文种识别结果可为OCR的选择提供先验知识。主要工作包括:1)针对视频中的字幕,提出一种基于时-空分析的算法来检测视频中的字幕,然后对检测到的字幕通过投影分析进行定位、增强和二值化;2)对提取到的文本区域提出一种基于PCA和小波变换的文种识别算法。  相似文献   

3.
当前,很多场合急需实现从语音翻译为文本的功能,如视频字幕制作、实时语译等。文章介绍了一种ESPnet语音识别框架架构,并基于ESPnet框架,训练得到最优模型,该架构模型能将语音识别过程扩展为网页在线识别,对目前主流语音识别框架进行对比试验并总结其优缺点。  相似文献   

4.
新闻视频数量的不断增加,为准确分割用户感兴趣的新闻视频,本文提出了一种基于多模态相似融合的新闻视频故事分割算法。首先,通过选定视频切割点获取候选新闻故事单元边界,将视频分成音频流和视频流;其次,选择静音区间为音频候选切分点,主持人镜头帧和主题字幕帧作为视频候选切分点,根据候选切分点获得新闻故事基本单元,利用语义相似性分析各单元内容进行合并或独立分离,得到最终新闻故事;最后,采用人脸识别、YOLOv5来进行主题字幕检测、语义相似性合并或独立新闻故事基本单元,使得新闻故事边界划分更为准确。该新闻视频故事分割算法在《新闻联播》视频中查全率和查准率分别达到了97.17%和98.19%,为新闻视频导航、检索等应用提供辅助准备。  相似文献   

5.
一、引言为保证新闻突发事件的快速采集与报道,我台经过论证于2007年9月,启动了数字卫星新闻采集(DSNG)车系统建设,并于2008年8月完成初验投入试运行,至今运行状态良好。该车是视音频采集与卫星上行传输相结合的数字新闻采集车;卫星传输系统采用DVB-S2标准H.264编码传送标准清晰度数字视频与音频信号;天线控制系统采用"一键"模式,实现自动定位、自动寻星、自动对星;视频  相似文献   

6.
未来字幕播出系统的设想   总被引:1,自引:0,他引:1  
近几年来,上海文广新闻传媒集团下属各个频道的字幕播出业务不断增多,字幕已经成为电视播出中除视频和音频以外的第三个独立的播出内容。本文从应用的角度出发,结合SMG实际使用经验探讨了电视播出部门今后可能会面对的各种新的字幕播出应用需求和及其技术实现,对未来字幕播出系统提出了一些设想。  相似文献   

7.
为了更好地从戏剧视频提取关键情节,提出了一种基于音乐情感特征(MEF)融合人脸特征(HFF)的自动提取方法.首先,利用基于音频指纹技术的二级音乐情感识别方法进行音频识别,并利用人脸特征进行视频识别;然后,利用音频和视频识别得到的各元素获取关键情节值,从而提取关键情节;最后,提出了一种量化评估方法评估关键情节提取方法的一致性.在四个戏剧视频上的评估实验验证了该方法的有效性及可靠性,相比其他几种较新的提取模型,该方法提取效果更好.  相似文献   

8.
针对智能机器人语音校准结果不精准的问题,研究基于深度学习的智能机器人语音自动校准系统。设计语音自动校准引擎A/D电路,通过模拟信号发射范围采集与控制电路原始音频信息,利用紧凑型嵌入式音频接收器接收音频信息。整理与识别音频信息内容,获取语句文本样本集。使用深度学习的正弦和余弦函数编码处理方式构建校正模型的输入部分,通过深度学习的前馈神经网络训练输入样本,完成校正模型输出部分的构建。将训练后的样本输入到校正模型中,得到校正后的文本,实现智能机器人语音自动校准。由实验结果可知,该系统两种指令下的振幅波动范围分别为9~22 dB和7~21 dB,与实际振幅波动情况一致,具有精准校准结果。  相似文献   

9.
《现代电子技术》2018,(7):54-57
针对传统的图像自动生成系统存在速度慢、效率低、图像自动生成效果差等问题,提出基于图像边缘识别的动态数字图像自动生成系统设计方法。该系统结合数字图像边缘处理机制,详细阐述了图像边缘识别系统设计中的图像预处理、边缘识别、降噪处理、边缘跟踪、动态数字图像缩放与旋转等步骤与原理,还结合相应的数据结构实现了自动生成系统。实验结果表明,该系统能够直接根据动态数字图像自动产生指令,提高了图像生成效率,且速度较快、耗费时间较短,具有较强的实际意义。  相似文献   

10.
新闻视频中的字幕是新闻视频数据中的固有信息。利用新闻字幕进行视频检索已经成为新闻视频检索的主要方法。文章将C-均值聚类分割算法应用于视频字幕的分割,利用纵向微分和中值滤波实现在尽可能完整保留字幕条垂直边缘信息的同时极大地削弱图像背景和大部分的噪声干扰,为字幕的准确定位创造了良好的前提条件,能提高字幕定位的完整性和准确性,进而提高新闻视频检索的可靠性、有效性。  相似文献   

11.
广播新闻语料识别中的自动分段和分类算法   总被引:1,自引:0,他引:1  
吕萍  颜永红 《电子与信息学报》2006,28(12):2292-2295
该介绍了中文广播新闻语料识别任务中的自动分段和自动分类算法。提出了3阶段自动分段系统。该方法通过粗分段、精细分段和平滑3个阶段,将音频流分割为易于识别的音频段。在精细分段阶段,文中提出两种算法:动态噪声跟踪分段算法和基于单音素解码的分段算法。仿效说话人鉴别中的方法,文中提出了基于混合高斯模型的分类算法。该算法较好地解决了音频段的多类判决问题。在新闻联播测试数据中的实验结果表明,该文提出的自动分段和分类算法性能与手工分段分类性能几乎相当。  相似文献   

12.
This paper describes an indexing system that automatically creates metadata for multimedia broadcast news content by integrating audio, speech, and visual information. The automatic multimedia content indexing system includes acoustic segmentation (AS), automatic speech recognition (ASR), topic segmentation (TS), and video indexing features. The new spectral-based features and smoothing method in the AS module improved the speech detection performance from the audio stream of the input news content. In the speech recognition module, automatic selection of acoustic models achieved both a low WER, as with parallel recognition using multiple acoustic models, and fast recognition, as with the single acoustic model. The TS method using word concept vectors achieved more accurate results than the conventional method using local word frequency vectors. The information integration module provides the functionality of integrating results from the AS module, TS module, and SC module. The story boundary detection accuracy was improved by combining it with the AS results and the SC results compared to the sole TS results  相似文献   

13.
为实现音视频语音识别和同时对音频视频流进行准确的音素切分,该文提出一个新的多流异步三音素动态贝叶斯网络(MM-ADBN-TRI)模型,在词级别上描述了音频视频流的异步性,音频流和视频流都采用了词-三音素-状态-观测向量的层次结构,识别基元是三音素,描述了连续语音中的协同发音现象.实验结果表明:该模型在音视频语音识别和对音频视频流的音素切分方面,以及在确定音视频流的异步关系上,都具备较好的性能.  相似文献   

14.
Audio-based speaker identification degrades severely when there is a mismatch between training and test conditions due either to channel or to noise. In this paper, we explore various techniques to combine video based speaker identification with audio-based speaker identification to improve the performance under mismatched conditions. Specifically, we explore techniques to optimally determine the relative weights of the independent decisions based on audio and video to achieve the best combination. Experiments on video broadcast news data show that significant improvements can be achieved by the fusion in acoustically degraded conditions.  相似文献   

15.
广播节目识别系统主要用于广播发射机房中,该系统能同时对4路输入的广播节目信号进行采集与识别,如果存在一路不同的节目信号,系统将指示该路异常,发出警告并自动禁止该路输出,同时输出具有最佳信噪比的音频广播节目。在提出判别这些音频信号波形相似性的理论基础上,着重论述了在PC机基础上,利用音频数据采集卡,对采集输入的广播节目信号进行判断识别的实现方法。最后给出了带噪声时的相同音频信号的识别结果。  相似文献   

16.
一种新的基于分类的音频流分割方法   总被引:1,自引:1,他引:0  
很多传统的音频流分割方法都是基于小尺度音频分类的,它们普遍存在虚假分割点过多的缺点,严重影响了实际应用的效果.我们的研究表明,大尺度音频片段的分类正确率明显高于小尺度音频片段的分类正确率.基于这个事实和减少虚假分割点的目的,我们提出了一种新的基于分类的音频流分割方法.首先,采用基于大尺度分类的分割方法对音频流进行粗分割,然后采用基于小尺度分类的细分割步骤在边界区域中进一步精确定位分割点.理论分析和实验结果均表明,当处理类别变换频率较低的音频流时,这种分割方法在保持真实分割点检测率的同时能够大幅降低虚假分割率.  相似文献   

17.
18.
Speech and language technologies for audio indexing and retrieval   总被引:6,自引:0,他引:6  
With the advent of essentially unlimited data storage capabilities and with the proliferation of the use of the Internet, it becomes reasonable to imagine a world in which it would be possible to access any of the stored information at will with a few keystrokes or voice commands. Since much of this data will be in the form of speech from various sources, it becomes important to develop the technologies necessary for indexing and browsing such audio data. This paper describes some of the requisite speech and language technologies that would be required and introduces an effort aimed at integrating these technologies into a system, called Rough `n' Ready, which indexes speech data, creates a structural summarization, and provides tools for browsing the stored data. The technologies highlighted in the paper include speaker-independent continuous speech recognition, speaker segmentation and identification, name spotting, topic classification, story segmentation, and information retrieval. The system automatically segments the continuous audio input stream by speaker, clusters audio segments from the same speaker, identifies speakers known to the system, and transcribes the spoken words. It also segments the input stream into stories, based on their topic content, and locates the names of persons, places, and organizations. These structural features are stored in a database and are used to construct highly selective search queries for retrieving specific content from large audio archives  相似文献   

19.
浅谈演播室直播的安全策略   总被引:1,自引:0,他引:1  
随着电视现场直播这种手段在现代电视传媒的应用越来越广泛,保障现场直播的安全显得尤为重要,它在一定程度上体现了电视台的节目制作能力和技术水平,已成为所有电视台永恒的追求目标。结合太原电视台新闻频道用于新闻直播的演播室系统的实际应用情况,分别从系统的设计(包括视频、音频、灯光、电源、计算机等)和使用的角度阐述了有效提高演播室直播安全系数的经验和体会。  相似文献   

20.
不良语音识别技术是在高清音视频业务中监测不良信息的有效手段。本文提出了一个基于声学模型的不良语音识别框架。并针对框架中特征提取、声学模型构建、不良语音判定模型三个重要部分的实现方法进行分析描述。并列举了各种方法的优缺点。对构建高效的不良语音识别系统具有较高的参考价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号