期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

黄河浪《电视技术》2009,33(5)

对基于电视节目内容的监控系统中关键技术进行了分析,提出了视频、音频、文本分类处理的方法.字幕文本信息利用位置和背景特征来提高识别速度和准确度,增强了实时性,非法频道台标使用大跨度的采样并进行异或求反再相与的方法来识别. 相似文献

2.

张鑫姝郭戈程娟《电子技术》2010,47(4):22-24

本文提出一种视频文本语义信息分析的新思路,即在文本区域提取后结合文种识别理论来提取新闻视频的来源和身份等高级语义信息,同时文种识别结果可为OCR的选择提供先验知识。主要工作包括:1)针对视频中的字幕,提出一种基于时-空分析的算法来检测视频中的字幕,然后对检测到的字幕通过投影分析进行定位、增强和二值化;2)对提取到的文本区域提出一种基于PCA和小波变换的文种识别算法。相似文献

3.

基于ESPnet的中文语音翻译实现

赵勇《无线互联科技》2023,(6):55-57

当前,很多场合急需实现从语音翻译为文本的功能,如视频字幕制作、实时语译等。文章介绍了一种ESPnet语音识别框架架构,并基于ESPnet框架,训练得到最优模型,该架构模型能将语音识别过程扩展为网页在线识别,对目前主流语音识别框架进行对比试验并总结其优缺点。相似文献

4.

基于多模态相似融合的新闻视频故事分割算法

吴培周激流《智能计算机与应用》2024,(1):70-75+84

新闻视频数量的不断增加,为准确分割用户感兴趣的新闻视频,本文提出了一种基于多模态相似融合的新闻视频故事分割算法。首先,通过选定视频切割点获取候选新闻故事单元边界,将视频分成音频流和视频流;其次,选择静音区间为音频候选切分点,主持人镜头帧和主题字幕帧作为视频候选切分点,根据候选切分点获得新闻故事基本单元,利用语义相似性分析各单元内容进行合并或独立分离,得到最终新闻故事;最后,采用人脸识别、YOLOv5来进行主题字幕检测、语义相似性合并或独立新闻故事基本单元,使得新闻故事边界划分更为准确。该新闻视频故事分割算法在《新闻联播》视频中查全率和查准率分别达到了97.17%和98.19%,为新闻视频导航、检索等应用提供辅助准备。相似文献

5.

小型卫星电视新闻采集车设计构思与实践

王增盛刘润彭《数字通信世界》2011,(1):70-71

一、引言为保证新闻突发事件的快速采集与报道,我台经过论证于2007年9月,启动了数字卫星新闻采集(DSNG)车系统建设,并于2008年8月完成初验投入试运行,至今运行状态良好。该车是视音频采集与卫星上行传输相结合的数字新闻采集车;卫星传输系统采用DVB-S2标准H.264编码传送标准清晰度数字视频与音频信号;天线控制系统采用"一键"模式,实现自动定位、自动寻星、自动对星;视频相似文献

6.

未来字幕播出系统的设想 总被引：1，自引：0，他引：1

盛轶骏吴剑东《现代电视技术》2008,(1):18-21

近几年来,上海文广新闻传媒集团下属各个频道的字幕播出业务不断增多,字幕已经成为电视播出中除视频和音频以外的第三个独立的播出内容。本文从应用的角度出发,结合SMG实际使用经验探讨了电视播出部门今后可能会面对的各种新的字幕播出应用需求和及其技术实现,对未来字幕播出系统提出了一些设想。相似文献

7.

MEF融合HFF的戏剧视频关键情节自动提取

尚雪莲秦健勇《电视技术》2015,39(8):50-54

为了更好地从戏剧视频提取关键情节,提出了一种基于音乐情感特征(MEF)融合人脸特征(HFF)的自动提取方法.首先,利用基于音频指纹技术的二级音乐情感识别方法进行音频识别,并利用人脸特征进行视频识别;然后,利用音频和视频识别得到的各元素获取关键情节值,从而提取关键情节;最后,提出了一种量化评估方法评估关键情节提取方法的一致性.在四个戏剧视频上的评估实验验证了该方法的有效性及可靠性,相比其他几种较新的提取模型,该方法提取效果更好. 相似文献

8.

基于深度学习的智能机器人语音自动校准系统

金豪圣《电子设计工程》2023,(24):95-99

针对智能机器人语音校准结果不精准的问题,研究基于深度学习的智能机器人语音自动校准系统。设计语音自动校准引擎A/D电路,通过模拟信号发射范围采集与控制电路原始音频信息,利用紧凑型嵌入式音频接收器接收音频信息。整理与识别音频信息内容,获取语句文本样本集。使用深度学习的正弦和余弦函数编码处理方式构建校正模型的输入部分,通过深度学习的前馈神经网络训练输入样本,完成校正模型输出部分的构建。将训练后的样本输入到校正模型中,得到校正后的文本,实现智能机器人语音自动校准。由实验结果可知,该系统两种指令下的振幅波动范围分别为9～22 dB和7～21 dB,与实际振幅波动情况一致,具有精准校准结果。相似文献

9.

大规模动态数字图像的自动生成系统设计

《现代电子技术》2018,(7):54-57

针对传统的图像自动生成系统存在速度慢、效率低、图像自动生成效果差等问题,提出基于图像边缘识别的动态数字图像自动生成系统设计方法。该系统结合数字图像边缘处理机制,详细阐述了图像边缘识别系统设计中的图像预处理、边缘识别、降噪处理、边缘跟踪、动态数字图像缩放与旋转等步骤与原理,还结合相应的数据结构实现了自动生成系统。实验结果表明,该系统能够直接根据动态数字图像自动产生指令,提高了图像生成效率,且速度较快、耗费时间较短,具有较强的实际意义。相似文献

10.

基于字幕的新闻视频检索算法

蓝照华梁永忠《广播与电视技术》2010,37(5):64-66

新闻视频中的字幕是新闻视频数据中的固有信息。利用新闻字幕进行视频检索已经成为新闻视频检索的主要方法。文章将C-均值聚类分割算法应用于视频字幕的分割,利用纵向微分和中值滤波实现在尽可能完整保留字幕条垂直边缘信息的同时极大地削弱图像背景和大部分的噪声干扰,为字幕的准确定位创造了良好的前提条件,能提高字幕定位的完整性和准确性,进而提高新闻视频检索的可靠性、有效性。相似文献

11.

广播新闻语料识别中的自动分段和分类算法 总被引：1，自引：0，他引：1

吕萍颜永红《电子与信息学报》2006,28(12):2292-2295

该介绍了中文广播新闻语料识别任务中的自动分段和自动分类算法。提出了3阶段自动分段系统。该方法通过粗分段、精细分段和平滑3个阶段,将音频流分割为易于识别的音频段。在精细分段阶段,文中提出两种算法:动态噪声跟踪分段算法和基于单音素解码的分段算法。仿效说话人鉴别中的方法,文中提出了基于混合高斯模型的分类算法。该算法较好地解决了音频段的多类判决问题。在新闻联播测试数据中的实验结果表明,该文提出的自动分段和分类算法性能与手工分段分类性能几乎相当。相似文献

12.

Automatic multimedia indexing: combining audio, speech, and visual information to index broadcast news

《Signal Processing Magazine, IEEE》2006,23(2):69-78

This paper describes an indexing system that automatically creates metadata for multimedia broadcast news content by integrating audio, speech, and visual information. The automatic multimedia content indexing system includes acoustic segmentation (AS), automatic speech recognition (ASR), topic segmentation (TS), and video indexing features. The new spectral-based features and smoothing method in the AS module improved the speech detection performance from the audio stream of the input news content. In the speech recognition module, automatic selection of acoustic models achieved both a low WER, as with parallel recognition using multiple acoustic models, and fast recognition, as with the single acoustic model. The TS method using word concept vectors achieved more accurate results than the conventional method using local word frequency vectors. The information integration module provides the functionality of integrating results from the AS module, TS module, and SC module. The story boundary detection accuracy was improved by combining it with the AS results and the SC results compared to the sole TS results 相似文献

13.

基于多流三音素DBN模型的音视频语音识别和音素切分

吕国云蒋冬梅樊养余赵荣椿 H.Sahli W.Verhelst 《电子与信息学报》2009,31(2):297-301

为实现音视频语音识别和同时对音频视频流进行准确的音素切分,该文提出一个新的多流异步三音素动态贝叶斯网络(MM-ADBN-TRI)模型,在词级别上描述了音频视频流的异步性,音频流和视频流都采用了词-三音素-状态-观测向量的层次结构,识别基元是三音素,描述了连续语音中的协同发音现象.实验结果表明:该模型在音视频语音识别和对音频视频流的音素切分方面,以及在确定音视频流的异步关系上,都具备较好的性能. 相似文献

14.

Audio-Visual Speaker Recognition for Video Broadcast News

Benoît Maison Chalapathy Neti Andrew Senior 《The Journal of VLSI Signal Processing》2001,29(1-2):71-79

Audio-based speaker identification degrades severely when there is a mismatch between training and test conditions due either to channel or to noise. In this paper, we explore various techniques to combine video based speaker identification with audio-based speaker identification to improve the performance under mismatched conditions. Specifically, we explore techniques to optimally determine the relative weights of the independent decisions based on audio and video to achieve the best combination. Experiments on video broadcast news data show that significant improvements can be achieved by the fusion in acoustically degraded conditions. 相似文献

15.

基于PC机的广播节目自动识别系统的研究

郑明魁余轮刘杰李恭伟《现代电子技术》2006,29(8):68-70

广播节目识别系统主要用于广播发射机房中,该系统能同时对4路输入的广播节目信号进行采集与识别,如果存在一路不同的节目信号,系统将指示该路异常,发出警告并自动禁止该路输出,同时输出具有最佳信噪比的音频广播节目。在提出判别这些音频信号波形相似性的理论基础上,着重论述了在PC机基础上,利用音频数据采集卡,对采集输入的广播节目信号进行判断识别的实现方法。最后给出了带噪声时的相同音频信号的识别结果。相似文献

16.

一种新的基于分类的音频流分割方法 总被引：1，自引：1，他引：0

张一彬周杰边肇祺张大鹏《电子学报》2006,34(4):612-617

很多传统的音频流分割方法都是基于小尺度音频分类的,它们普遍存在虚假分割点过多的缺点,严重影响了实际应用的效果.我们的研究表明,大尺度音频片段的分类正确率明显高于小尺度音频片段的分类正确率.基于这个事实和减少虚假分割点的目的,我们提出了一种新的基于分类的音频流分割方法.首先,采用基于大尺度分类的分割方法对音频流进行粗分割,然后采用基于小尺度分类的细分割步骤在边界区域中进一步精确定位分割点.理论分析和实验结果均表明,当处理类别变换频率较低的音频流时,这种分割方法在保持真实分割点检测率的同时能够大幅降低虚假分割率. 相似文献

17.

Real-time transcription system for simultaneous subtitling ofJapanese broadcast news programs

Ando A. Imai T. Kobayashi A. Isono H. Nakabayashi K. 《Broadcasting, IEEE Transactions on》2000,46(3):189-196

相似文献

18.

Speech and language technologies for audio indexing and retrieval 总被引：6，自引：0，他引：6

Makhoul J. Kubala F. Leek T. Daben Liu Long Nguyen Schwartz R. Srivastava A. 《Proceedings of the IEEE. Institute of Electrical and Electronics Engineers》2000,88(8):1338-1353

With the advent of essentially unlimited data storage capabilities and with the proliferation of the use of the Internet, it becomes reasonable to imagine a world in which it would be possible to access any of the stored information at will with a few keystrokes or voice commands. Since much of this data will be in the form of speech from various sources, it becomes important to develop the technologies necessary for indexing and browsing such audio data. This paper describes some of the requisite speech and language technologies that would be required and introduces an effort aimed at integrating these technologies into a system, called Rough `n' Ready, which indexes speech data, creates a structural summarization, and provides tools for browsing the stored data. The technologies highlighted in the paper include speaker-independent continuous speech recognition, speaker segmentation and identification, name spotting, topic classification, story segmentation, and information retrieval. The system automatically segments the continuous audio input stream by speaker, clusters audio segments from the same speaker, identifies speakers known to the system, and transcribes the spoken words. It also segments the input stream into stories, based on their topic content, and locates the names of persons, places, and organizations. These structural features are stored in a database and are used to construct highly selective search queries for retrieving specific content from large audio archives 相似文献

19.

浅谈演播室直播的安全策略 总被引：1，自引：0，他引：1

杨丽萍《山西电子技术》2006,(4):90-92

随着电视现场直播这种手段在现代电视传媒的应用越来越广泛，保障现场直播的安全显得尤为重要，它在一定程度上体现了电视台的节目制作能力和技术水平，已成为所有电视台永恒的追求目标。结合太原电视台新闻频道用于新闻直播的演播室系统的实际应用情况，分别从系统的设计（包括视频、音频、灯光、电源、计算机等）和使用的角度阐述了有效提高演播室直播安全系数的经验和体会。相似文献

20.

基于声学模型的不良语音识别技术研究

下载免费PDF全文

杜刚朱艳云张晨杜雪涛《电信工程技术与标准化》2019,32(12)

不良语音识别技术是在高清音视频业务中监测不良信息的有效手段。本文提出了一个基于声学模型的不良语音识别框架。并针对框架中特征提取、声学模型构建、不良语音判定模型三个重要部分的实现方法进行分析描述。并列举了各种方法的优缺点。对构建高效的不良语音识别系统具有较高的参考价值。相似文献