首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 231 毫秒
1.
语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用了词-音素的层次结构.而多流多状态异步DBN(MM-ADBN)模型是MS-ADBN模型的扩展,音视频流都采用了词-音素-状态的层次结构.本质上,MS-ADBN是一个整词模型,而MM-ADBN模型是一个音素模型,适用于大词汇量连续语音识别.实验结果表明:基于连续音视频数据库,在纯净语音环境下,MM-ADBN比MS-ADBN模型和多流HMM识别率分别提高35.91%和9.97%.  相似文献   

2.
肖易明  张海剑  孙洪  丁昊 《信号处理》2019,35(12):1969-1978
在日常生活中视觉事件通常伴随着声音的产生。这表明视频流与音频之间存在某种潜在的联系,本文称之为音视频同步的联合表达。本文将视频流与音频融合并通过训练所设计的神经网络预测视频流和音频是否在时间上同步来学习这种联合表达。与传统音视频信息融合方法不同,本文引入注意力机制,利用视频特征与音频特征的皮尔森相关系数在时间维度和空间维度同时对视频流加权,使视频流与音频关联更加紧密。基于学习到的音视频同步的联合表达,本文进一步利用类激活图方法进行视频声源定位。实验结果表明,所提出的引入注意力机制的音视频同步检测模型可以更好地判定给定视频的音视频是否同步,即更好地学习到音视频同步的联合表达,从而也可以有效地定位视频声源。   相似文献   

3.
徐亮  王晶  杨文镜  罗逸雨 《信号处理》2021,37(10):1799-1805
视听多模态建模已被验证在与语音分离的任务中性能表现优异,本文提出一种语音分离模型,对现有的时域音视频联合语音分离算法进行改进,增强音视频流之间的联系。针对现有音视频分离模型联合度不高的情况,作者提出一种在时域上将语音特征与额外输入的视觉特征进行多次融合,并加入纵向权值共享的端到端的语音分离模型。在GRID数据集上的实验结果表明,该网络与仅使用音频的时域语音卷积分离网络(Conv-TasNet)和音视频联合的Conv-TasNet相比,性能上分别获得了1.2 dB和0.4 dB的改善。   相似文献   

4.
为了解决智能电视播放接口不统一以及平台差异化带来的问题,使电视与其它进程在TV播放器中实现统一调度和资源分配,提出了一种基于Android的能够自适应于不同硬件平台的多媒体播放器设计方案。该方案通过对媒体流进行音视频格式的识别和对音视频信息的解析,对于不支持格式容器的音视频流,能够自动分离音视频得到基本码流,并送入底层硬件进行解码与同步,从而实现了支持TS流并兼容其他媒体格式文件的TV播放器。  相似文献   

5.
谷歌发布的Android操作系统为应用层开发者提供了MediaRecoder对象和MediaPlayer对象用于音视频应用的开发,但它们主要针对音视频的摄录和播放需求,无法满足开发者基于摄像头和麦克等硬件设备的实时音视频流化传输需求.因此,在对Android操作系统进行深入研究的基础上,提出了一种高效灵活的音视频传输策略,然后依据此策略设计了一个第三方音视频流化传输组件libavstream.最后基于libavstream设计了一个音视频直播应用BLife,验证了本文所提出策略的可用性和有效性.  相似文献   

6.
赵晖  唐朝京 《电子与信息学报》2009,31(12):3010-3014
为了合成具有真实感的视频序列,该文提出一种基于汉语视频三音素的可视语音合成方法。根据汉语的发音规律和音素与视素的对应关系,该文提出视频三音素的概念。在此基础上,建立隐马尔可夫(HMM)训练与合成模型,在训练过程中使用了视频音频联合特征,并加入了动态特征。在合成过程中,连接视频三音素HMM模型形成句子HMM,并从中提取特征参数,合成可视语音。从主观和客观评估结果来看,合成视频的真实感强,满意度较高。  相似文献   

7.
递归趋势分析在汉语语音声韵母切分中的应用研究   总被引:1,自引:0,他引:1  
基于隐马尔可夫模型(HMM)的连续语音自动切分方法由于较高的切分精度得到了广泛的应用,然而其切分结果还不能够直接应用于基于脚本的语音拼接合成系统,需要音素边界的再调整。本文分析了不同的汉语语音音素的非线性动力学物理模型在其递归图(RP)上的表现,通过递归趋势(RT)这一衡量系统稳定性程度的量化参数,揭示了语音产生过程中的不稳定性。结合基于HMM的连续语音初始切分结果,从定位语音动力学特性突变点的角度,调整声韵母切分边界,在10、20、30毫秒基准范围内,切分精度分别提高了13.88%、4.19%、3.19%。  相似文献   

8.
不良语音识别技术是在高清音视频业务中监测不良信息的有效手段。本文提出了一个基于声学模型的不良语音识别框架。并针对框架中特征提取、声学模型构建、不良语音判定模型三个重要部分的实现方法进行分析描述。并列举了各种方法的优缺点。对构建高效的不良语音识别系统具有较高的参考价值。  相似文献   

9.
林淑瑞  张晓辉  郭敏  张卫强  王贵锦 《信号处理》2021,37(10):1889-1898
近年来,情感计算逐渐成为人机交互发展突破的关键,而情感识别作为情感计算的重要部分,也受到了广泛的关注。本文实现了基于ResNet18的面部表情识别系统和基于HGFM架构的语音情感识别模型,通过调整参数,训练出了性能较好的模型。在此基础上,通过特征级融合和决策级融合这两种多模态融合策略,实现了包含视频和音频信号的多模态情感识别系统,展现了多模态情感识别系统性能的优越性。两种不同融合策略下的音视频情感识别模型相比视频模态和音频模态,在准确率上都有一定的提升,验证了多模态模型往往比最优的单模态模型的识别性能更好的结论。本文所实现的模型取得了较好的情感识别性能,融合后的音视频双模态模型的准确率达到了76.84%,与现有最优模型相比提升了3.50%,在与现有的音视频情感识别模型的比较中具有性能上的优势。   相似文献   

10.
基于模糊粗神经网络的汉语声韵母切分   总被引:1,自引:1,他引:0  
针对汉语连续语音,提出一种声韵母切分方法.根据扩展的声韵母为识别基元.采用汉语音节的重叠音素分割策略,利用模糊粗神经网络进行声韵母自动切分.实验室实验证明了该方法进行音节分割的有效性和合理性.  相似文献   

11.
This paper describes an indexing system that automatically creates metadata for multimedia broadcast news content by integrating audio, speech, and visual information. The automatic multimedia content indexing system includes acoustic segmentation (AS), automatic speech recognition (ASR), topic segmentation (TS), and video indexing features. The new spectral-based features and smoothing method in the AS module improved the speech detection performance from the audio stream of the input news content. In the speech recognition module, automatic selection of acoustic models achieved both a low WER, as with parallel recognition using multiple acoustic models, and fast recognition, as with the single acoustic model. The TS method using word concept vectors achieved more accurate results than the conventional method using local word frequency vectors. The information integration module provides the functionality of integrating results from the AS module, TS module, and SC module. The story boundary detection accuracy was improved by combining it with the AS results and the SC results compared to the sole TS results  相似文献   

12.
陈雁翔  刘鸣 《电子学报》2010,38(12):2920-2924
 人类对语音的感知是多模态的,会同时受到听觉和视觉的影响.以语音及其视觉特征的融合为研究核心,依据发音机理中揭示的音视频之间非同步关联的深层次成因,采用多个发音特征的非同步关联,去描述表面上观察到的音视频之间的非同步,提出了一个基于动态贝叶斯网络的语音与唇动联合模型,并通过音视频双模态的多层次融合,实现了说话人识别系统鲁棒性的提高.音视频双模态数据库上的实验表明了,在不同语音信噪比的条件下多层次融合均达到了更好的性能.  相似文献   

13.
Speech and language technologies for audio indexing and retrieval   总被引:6,自引:0,他引:6  
With the advent of essentially unlimited data storage capabilities and with the proliferation of the use of the Internet, it becomes reasonable to imagine a world in which it would be possible to access any of the stored information at will with a few keystrokes or voice commands. Since much of this data will be in the form of speech from various sources, it becomes important to develop the technologies necessary for indexing and browsing such audio data. This paper describes some of the requisite speech and language technologies that would be required and introduces an effort aimed at integrating these technologies into a system, called Rough `n' Ready, which indexes speech data, creates a structural summarization, and provides tools for browsing the stored data. The technologies highlighted in the paper include speaker-independent continuous speech recognition, speaker segmentation and identification, name spotting, topic classification, story segmentation, and information retrieval. The system automatically segments the continuous audio input stream by speaker, clusters audio segments from the same speaker, identifies speakers known to the system, and transcribes the spoken words. It also segments the input stream into stories, based on their topic content, and locates the names of persons, places, and organizations. These structural features are stored in a database and are used to construct highly selective search queries for retrieving specific content from large audio archives  相似文献   

14.
Talintyre  J. 《IEE Review》1996,42(4):151-154
Automatic speech-recognition systems can now support applications from the desktop to public telecoms networks. In comparison with the desktop, the telecommunications network is a challenging environment for speech recognition. The system must work for any speaker and any telephone handset, the bandwidth is restricted and the environment tends to be noisier. Also, feedback, which is restricted to audio responses, is slower than the visual feedback available in a desktop system. Inevitably, telephone-based speech recognition is more restricted than recognition in desktop systems, but this does not prevent many useful applications from being just a phone call away. The author descibes the principles of speech recognition and the systems  相似文献   

15.
本文设计与实现了一个全自动中文新闻字幕生成系统,输入为新闻视频,输出为视频对应的字幕文本.以<新闻联播>为语料,实现了音频提取、音频分类与切分、说话人识别、大词汇量连续语音识别、视频文件的播放和文本字幕的自动生成等多项功能.新闻字幕的自动生成,避免了繁重费时的人工字幕添加过程.实验表明,该系统识别率高,能够满足听障等特...  相似文献   

16.
为了解决传统氦语音处理技术存在的处理速度慢、计算复杂、操作困难等问题,提出了一种采用机器学习的氦语音识别方法,通过深层网络学习高维信息、提取多种特征,不但解决了过拟合问题,同时也具备了字错率(Word Error Rate,WER)低、收敛速度快的优点。首先自建氦语音孤立词和连续氦语音数据库,对氦语音数据预处理,提取的语音特征主要包括共振峰特征、基音周期特征和FBank(Filter Bank)特征。之后将语音特征输入到由深度卷积神经网络(Deep Convolutional Neural Network,DCNN)和连接时序分类(Connectionist Temporal Classification,CTC)组成的声学模型进行语音到拼音的建模,最后应用Transformer语言模型得到汉字输出。提取共振峰特征、基音周期特征和FBank特征的氦语音孤立词识别模型相比于仅提取FBank特征的识别模型的WER降低了7.91%,连续氦语音识别模型的WER降低了14.95%。氦语音孤立词识别模型的最优WER为1.53%,连续氦语音识别模型的最优WER为36.89%。结果表明,所提方法可有效识别氦语音。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号