首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
深度语音信号与信息处理:研究进展与展望   总被引:1,自引:0,他引:1  
论文首先对深度学习进行简要的介绍,然后就其在语音信号与信息处理研究领域的主要研究方向,包括语音识别、语音合成、语音增强的研究进展进行了详细的介绍。语音识别方向主要介绍了基于深度神经网络的语音声学建模、大数据下的模型训练和说话人自适应技术;语音合成方向主要介绍了基于深度学习模型的若干语音合成方法;语音增强方向主要介绍了基于深度神经网络的若干典型语音增强方案。论文的最后我们对深度学习在语音信与信息处理领域的未来可能的研究热点进行展望。  相似文献   

2.
语音识别技术研究进展   总被引:4,自引:0,他引:4  
简单介绍了语音识别技术的发展历史和现状,阐述了语音识别系统的基本原理,对语音识别的基本方法和识别过程进行了深入分析,尤其对HMM模型及其改进型作了详细说明,探讨了语音识别技术发展过程中的难点问题,给出了相应对策,并对语音识别技术的发展方向和前景作了展望.  相似文献   

3.
随着近几年语音识别研究的逐渐升温,把握好语音识别领域的正确研究方向显得尤为重要。本文介绍了语音识别技术的原理及系统构成,对2010年以来中国知网(CNKI)收录的中文核心期刊中主题为语音识别的论文进行统计分析,得出国内语音识别领域的研究现状和趋势。通过探讨其中存在的问题,得出大数据背景下的大词汇连续语音识别系统的设计及实现、方言语音识别研究、语音识别系统在现实生活中的应用以及深度学习、深层神经网络的应用将是未来语音识别领域研究的主要方向。  相似文献   

4.
李海峰  陈婧  马琳  薄洪健  徐聪  李洪伟 《软件学报》2020,31(8):2465-2491
情感识别是多学科交叉的研究方向,涉及认知科学、心理学、信号处理、模式识别、人工智能等领域的研究热点,目的是使机器理解人类情感状态,进而实现自然人机交互.本文首先从心理学及认知学角度介绍了语音情感认知研究进展,详细介绍了情感的认知理论、维度理论、脑机制以及基于情感理论的计算模型,旨在为语音情感识别提供科学的情感理论模型.然后,从人工智能角度系统地总结了目前维度情感识别的研究现状和发展,包括语音维度情感数据库、特征提取、识别算法等技术要点.最后,分析了维度情感识别技术目前面临的挑战以及可能的解决思路,对未来研究方向进行了展望.  相似文献   

5.
随着英汉语音识别技术的不断发展,对少数民族语言语音识别技术的研究也紧跟其后并取得了一定的成果.藏族人民是中华民族大家庭中不可或缺的一员,藏语语音识别技术研究是语音识别技术研究中不可缺少的重要部分.文章首先对国内藏语言语音识别的研究历程及研究改进之处进行了梳理,其次从藏语言本身的文字特点以及发音特点和要素出发详细介绍了藏语语音识别研究中使用到的基于模板匹配、统计概率模型以及人工神经网络3种方法,并对3种方法各自的特点和适用范围进行了总结归纳,最后从藏语言语音识别研究进展和各识别方法的自身特点出发探讨了语音识别研究中存在的难点问题,并展望了其未来发展的方向.  相似文献   

6.
介绍了语音识别的发展历史和国内外语音识别研究的现状,讨论了语音识别的几个基本问题和影响语音识别的因素,并分析了目前常用的语音识别的各种方法,指出了其优缺点,最后讨论了评价语音识别系统时应考虑的几个技术指标和将来语音处理的发展方向等。  相似文献   

7.
语音是人机交互方式之一,语音识别技术是人工智能的重要组成部分.近年来神经网络技术在语音识别领域的应用快速发展,已经成为语音识别领域中主流的声学建模技术.然而测试条件中目标说话人语音与训练数据存在差异,导致模型不适配的问题.因此说话人自适应(SA)方法是为了解决说话人差异导致的不匹配问题,研究说话人自适应方法成为语音识别领域的一个热门方向.相比传统语音识别模型中的说话人自适应方法,使用神经网络的语音识别系统中的自适应存在着模型参数庞大,而自适应数据量相对较少等特点,这使得基于神经网络的语音识别系统中的说话人自适应方法成为一个研究难题.首先回顾说话人自适应方法的发展历程和基于神经网络的说话人自适应方法研究遇到的各种问题,其次将说话人自适应方法分为基于特征域和基于模型域的说话人自适应方法并介绍对应原理和改进方法,最后指出说话人自适应方法在语音识别中仍然存在的问题及未来的发展方向.  相似文献   

8.
智能语音技术包含语音识别、自然语言处理、语音合成三个方面的内容,其中语音识别是实现人机交互的关键技术,识别系统通常需要建立声学模型和语言模型。神经网络的兴起使声学模型数量急剧增加,基于神经网络的声学模型与传统识别模型相结合的方式,极大地推动了语音识别的发展。语音识别作为人机交互的前端,具有许多研究方向,文中着重对语音识别任务中的文本识别、说话人识别、情绪识别三个方向的声学模型研究现状进行归纳总结,尽可能对语音识别技术的演化进行细致介绍,为以后的相关研究提供有价值的参考。同时对目前语音识别的主流方法进行概括比较,介绍了端到端的语音识别模型的优势,并对发展趋势进行分析展望,最后提出当前语音识别任务中面临的挑战。  相似文献   

9.
通过对语音识别技术的发展梳理,简单介绍了语音识别的历史和应用现状,并将传统语音识别的技术和当前的研究进展进行描述.传统语音识别采用基于统计的方法,采用声谱特征,在GMM-HMM混合结构上进行训练和匹配.当前的语音识别模型主要基于深度学习的方法,采用CNN、RNN都可以有效的进行特征提取从而建立声学模型.进一步的研究采用了端到端的技术,避免了多个模型间的误差传导.端到端技术主要有CTC技术和attention技术,最新的模型和方法着重研究了attention技术,并在尝试进行与CTC的融合以达到更好的效果.最后结合作者自身的理解,概括了语音识别当前所面临问题和未来发展方向.  相似文献   

10.
语音识别技术评述   总被引:4,自引:0,他引:4  
本文对语音识别技术作了评述,包括语音识别的基本原理,语音识别的发展历史,语音识别的主要方法一特征参数匹配法、隐马尔柯夫法和神经网络法,语音识别的难点及对策,语音识别的发展方向与应用前景.  相似文献   

11.
In this paper we introduce a robust feature extractor, dubbed as robust compressive gammachirp filterbank cepstral coefficients (RCGCC), based on an asymmetric and level-dependent compressive gammachirp filterbank and a sigmoid shape weighting rule for the enhancement of speech spectra in the auditory domain. The goal of this work is to improve the robustness of speech recognition systems in additive noise and real-time reverberant environments. As a post processing scheme we employ a short-time feature normalization technique called short-time cepstral mean and scale normalization (STCMSN), which, by adjusting the scale and mean of cepstral features, reduces the difference of cepstra between the training and test environments. For performance evaluation, in the context of speech recognition, of the proposed feature extractor we use the standard noisy AURORA-2 connected digit corpus, the meeting recorder digits (MRDs) subset of the AURORA-5 corpus, and the AURORA-4 LVCSR corpus, which represent additive noise, reverberant acoustic conditions and additive noise as well as different microphone channel conditions, respectively. The ETSI advanced front-end (ETSI-AFE), the recently proposed power normalized cepstral coefficients (PNCC), conventional MFCC and PLP features are used for comparison purposes. Experimental speech recognition results demonstrate that the proposed method is robust against both additive and reverberant environments. The proposed method provides comparable results to that of the ETSI-AFE and PNCC on the AURORA-2 as well as AURORA-4 corpora and provides considerable improvements with respect to the other feature extractors on the AURORA-5 corpus.  相似文献   

12.
为了解决语音信号中帧与帧之间的重叠,提高语音信号的自适应能力,本文提出基于隐马尔可夫(HMM)与遗传算法神经网络改进的语音识别系统.该改进方法主要利用小波神经网络对Mel频率倒谱系数(MFCC)进行训练,然后利用HMM对语音信号进行时序建模,计算出语音对HMM的输出概率的评分,结果作为遗传神经网络的输入,即得语音的分类识别信息.实验结果表明,改进的语音识别系统比单纯的HMM有更好的噪声鲁棒性,提高了语音识别系统的性能.  相似文献   

13.
Recently, several algorithms have been proposed to enhance noisy speech by estimating a binary mask that can be used to select those time-frequency regions of a noisy speech signal that contain more speech energy than noise energy. This binary mask encodes the uncertainty associated with enhanced speech in the linear spectral domain. The use of the cepstral transformation smears the information from the noise dominant time-frequency regions across all the cepstral features. We propose a supervised approach using regression trees to learn the nonlinear transformation of the uncertainty from the linear spectral domain to the cepstral domain. This uncertainty is used by a decoder that exploits the variance associated with the enhanced cepstral features to improve robust speech recognition. Systematic evaluations on a subset of the Aurora4 task using the estimated uncertainty show substantial improvement over the baseline performance across various noise conditions.  相似文献   

14.
A log-index weighted cepstral distance measure is proposed and tested in speacker-independent and speaker-dependent isolated word recognition systems using statistic techniques.The weights for the cepstral coefficients of this measure equal the logarithm of the corresponding indices.The experimental results show that this kind of measure works better than any other weighted Euclidean cepstral distance measures on three speech databases.The error rate obtained using this measure is about 1.8 percent for three databases on average,which is a 25% reduction from that obtained using other measures,and a 40% reduction from that obtained using Log Likelihood Ratio(LLR)measure.The experimental results also show that this kind of distance measure woks well in both speaker-dependent and speaker-independent speech recognition systems.  相似文献   

15.
机载连接词语音识别系统与传统语音识别系统相比,具有背景噪声大,系统识别率要求高等特点。依据这些特点,提出了一种基于经验模态分解增强和位移差分倒谱特征的EMD-SDC连接词语音识别方法。经验模态分解的调频调幅特性,可以有效提高机载复杂噪声背景下的端点检测准确度,位移差分倒谱特征由语音帧的一阶差分谱连接扩展而成,能够更好地提取依赖于语言结构的时序信息。该方法对机载交通预警避撞系统提示语音库进行测试,实验结果表明,采用EMD-SDC方法的机载连接词语音识别系统,能够很好地克服机舱背景噪声干扰,在低信噪比条件下实现较高的识别率。  相似文献   

16.
目前,自动语音识别系统往往会因为环境中复杂因素的影响,造成训练环境和测试环境存在不匹配现象,使得识别系统性能大幅度下降,极大地限制了语音识别技术的应用范围。近年来,很多鲁棒语音识别技术成功地被提出,这些技术的目标都是相同的,主要是提高系统的鲁棒性,进而提高识别率。其中,基于特征的归一化技术简单而有效,常常被作为鲁棒语音识别的首选方法,它主要是通过对特征向量的统计属性、累积密度函数或功率谱的归一化来补偿环境不匹配产生的影响。该文主要对目前主流的归一化方法进行介绍,其中包括倒谱矩归一化方法、直方图均衡化方法以及调频谱归一化方法等。  相似文献   

17.
语音识别中谱包自相关技术   总被引:1,自引:0,他引:1  
提出了一种语音识别线性预测分析方法:基于谱自相关和频率抽样获得谱包,即由归一化频率估计谱包,此谱包规定在Mel频率级;再由语音信号谱包估计抽样自相关,用IDFT提取抽样自相关估计。从抽样自相关的结果,最终获得谱包倒谱系数。HMM识别试验显示:谱包倒谱系数与其他算法相比较,在低信噪比时,识别率可提高10%以上,识别性能明显提高,在噪声环境下也能达到好的识别效果。  相似文献   

18.
The performance of speech recognition systems depends on consistent quality of the speech features across variable environmental conditions encountered during training and evaluation. This paper presents a kernel-based nonlinear predictive coding procedure that yields speech features which are robust to nonstationary noise contaminating the speech signal. Features maximally insensitive to additive noise are obtained by growth transformation of regression functions that span a reproducing kernel Hilbert space (RKHS). The features are normalized by construction and extract information pertaining to higher-order statistical correlations in the speech signal. Experiments with the TI-DIGIT database demonstrate consistent robustness to noise of varying statistics, yielding significant improvements in digit recognition accuracy over identical models trained using Mel-scale cepstral features and evaluated at noise levels between 0 and 30-dB signal-to-noise ratio.  相似文献   

19.
该文阐述了语音信号的特点,语音识别过程及技术,重点讨论了例谱技术及其在语音信号特征提取中的应用,并将自组织映射神经网络应用到语音识别中,提出了网络模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号