期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

程强崔慧娟唐昆《计算机应用研究》2003,20(9):22-25,28

通过窄带信道将语音信号传输到远端的识别系统，从而实现远距离的人机对话，具有重要的现实意义。在2．4kbps的速率下，语音编码算法依然可以合成出可懂度非常高的语音，但是这样的语音信号与原始语音相比还是有巨大的损失。低速率语音编码算法对于语音识别产生的影响是巨大的，因此必须想办法减轻这种损失对于识别的损害。在此选择了三种不同的低速率语音编码器，分别使用LPC(Linear Pledictive Coding，线性预测)算法、MELP(Mixed Excitation Linear Prediction，混合激励线性预测)算法和IMBE(Improved Multiband Excitation，增强多带激励)算法，都在2．4kbps的速率下工作，将其对语音识别系统的影响进行了比较。对于特定人连续语音识别系统和非特定人连接词识别系统，在使用不同的特征矢量时，不同编码器产生的识别效果有比较大的差异。实验结果表明，语音编码器和语音识别系统的结构有很重要的联系，尽量采用相近的结构有助于获得良好的识别结果。另外，改变提取语音识别特征参数的方式也会有利于提高语音识别系统的性能。相似文献

2.

基于渐进比率掩蔽目标的自适应噪声估计方法

高建清屠彦辉马峰付中华《计算机应用》2023,(4):1303-1308

基于深度学习的语音增强算法的性能通常优于传统的基于噪声抑制的语音增强算法。然而当训练数据和测试数据之间存在不匹配时,基于深度学习的语音增强算法通常无法正常工作。针对上述问题,提出一种新的基于渐进比率掩蔽（PRM）的自适应噪声估计（PRM-ANE）方法,并把它作为语音识别系统的预处理方法。所提方法综合利用了具有帧级别的噪声跟踪能力的改进最小统计量控制递归平均（IMCRA）算法和具有学习噪声和语音之间复杂非线性映射关系的渐进学习算法这两种算法。首先,使用二维卷积神经网络（2D-CNN）学习随信噪比（SNR）增加的PRM;其次,通过传统的帧级语音增强算法组合句子级估计的PRM,进行语音增强;最后,将基于多级别信息融合的增强语音直接作为语音识别系统的输入,从而提高识别系统性能。在CHiME-4真实测试集上的实验结果表明,所提方法可以实现7.42%的相对字识别错误率（WER）,与IMCRA语音增强方法相比下降了51.41%,可见所提方法能够有效提升下游识别任务的性能。相似文献

3.

基于卷积神经网络的面罩语音识别

王霞杜桂明王光艳张艳《传感器与微系统》2017,36(10)

针对带噪面罩语音识别率低的问题,结合语音增强算法,对面罩语音进行噪声抑制处理,提高信噪比,在语音增强中提出了一种改进的维纳滤波法,通过谱熵法检测有话帧和无话帧来更新噪声功率谱,同时引入参数控制增益函数;提取面罩语音信号的Mel频率倒谱系数(MFCC)作为特征参数;通过卷积神经网络(CNN)进行训练和识别,并在每个池化层后经局部响应归一化(LRN)进行优化.实验结果表明:该识别系统能够在很大程度上提高带噪面罩语音的识别率. 相似文献

4.

基于改进DTW的机器人语音指令识别系统研究

胡亚洲王新民曹江涛《微机发展》2013,(7):70-72,76

动态时间规整(Dynamic Time Warping)是语音识别中的一种经典算法,该算法简单有效,在实现孤立词识别系统中得到了广泛的应用。为了提高机器人语音识别系统的识别率和识别速度,文中采用了一种改进的DTW语音识别算法。在MATLAB 7.0环境下,对改进的语音端点检测和改进的DTW算法进行仿真实验,实验证明改进的算法提高了识别率,并且减少了识别所用的时间;将该算法移植到机器人上,在安静的环境下进行试验,结果表明机器人能准确而又快速地识别语音内容。最后,得到了改进的语音识别算法能够有效提高识别率和识别速度的结论。相似文献

5.

基于改进DTW的机器人语音指令识别系统研究

胡亚洲王新民曹江涛《计算机技术与发展》2013,23(7)

动态时间规整(Dynamic Time Warping)是语音识别中的一种经典算法,该算法简单有效,在实现孤立词识别系统中得到了广泛的应用.为了提高机器人语音识别系统的识别率和识别速度,文中采用了一种改进的DTW语音识别算法.在MATLAB 7.0环境下,对改进的语音端点检测和改进的DTW算法进行仿真实验,实验证明改进的算法提高了识别率,并且减少了识别所用的时间;将该算法移植到机器人上,在安静的环境下进行试验,结果表明机器人能准确而又快速地识别语音内容.最后,得到了改进的语音识别算法能够有效提高识别率和识别速度的结论. 相似文献

6.

小波语音增强算法在说话人识别中的应用

王娜郑德忠刘海龙《控制工程》2007,14(5):495-498

干净语音环境下识别率很高的说话人识别系统,在有噪声语音环境下识别性能显著降低。针对这一问题,将小波语音增强算法应用于说话人识别系统,提出一种结点阈值去噪新方法。语音增强主要目的是从带噪语音中尽可能地提取纯净的原始语音。在不同信噪比条件下进行实验,结果表明,提出的方法比传统的阈值法能更好地提高语音质量。相似文献

7.

一种语音特征信息综合快速算法-N-BEST算法

王成友梁甸农《电子技术应用》1999,(2):1989

语音识别技术一直是学术界研究的热点。语音特征信息综合是提高语音识别系统性能的一条有效途径。提出了一种语音特征信息综合快速算法——N-BEST算法。该方法可以较大地减少语音特征信息综合的运算量,提高特征信息综合语音识别系统的运行速度。相似文献

8.

基于DSP的非特定人语音识别系统

罗俊光汤荣江《微计算机信息》2007,23(11):195-196

本文介绍了一种基于TMS320C6711 DSP的非特定人、孤立词语音识别系统。本文首先介绍了语音识别技术的基本原理,然后对不同的识别算法在多种嵌入式系统平台上进行性能分析和比较,可得到本语音识别系统具有较高的识别率、实时性和鲁棒性。相似文献

9.

基于顺序统计滤波的实时语音端点检测算法 总被引：1，自引：0，他引：1

郭丽惠何昕张亚昕吕岳《自动化学报》2008,34(4):419-425

针对嵌入式语音识别系统,提出了一种高效的实时语音端点检测算法. 算法以子带频谱熵为语音/噪声的区分特征, 首先将每帧语音的频谱划分成若干个子带, 计算出每个子带的频谱熵, 然后把相继若干帧的子带频谱熵经过一组顺序统计滤波器获得每帧的频谱熵, 根据频谱熵的值对输入的语音进行分类. 实验结果表明, 该算法能够有效地区分语音和噪声, 可以显著地提高语音识别系统的性能. 在不同的噪声环境和信噪比条件下具有鲁棒性. 此外, 本文提出的算法计算代价小, 简单易实现, 适合实时嵌入式语音识别系统的应用. 相似文献

10.

一种语音特征信息综合快速算法—─N-BEST算法

王成友梁甸农《电子技术应用》1999,(2)

语音识别技术一直是学术界研究的热点。语音特征信息综合是提高语音识别系统性能的一条有效途径。提出了一种语音特征信息综合快速算法———ＮＢＥＳＴ算法。该方法可以较大地减少语音特征信息综合的运算量,提高特征信息综合语音识别系统的运行速度相似文献

11.

嵌入式语音识别系统设计

何燕玲马建国《微计算机信息》2007,23(35):29-30,19

分析嵌入式语音识别系统设计的要点，提出了一种基于凌阳SPCE061A单片机的嵌入式特定人语音识别系统，重点讨论了嵌入式语音识别系统的相关算法及系统组成。该系统识别率高，价格低廉，可移植性好，已成功应用于智能机器人控制平台。相似文献

12.

用于拟人机器人的嵌入式语音交互系统研究 总被引：3，自引：0，他引：3

陈斌郭大勇施克仁《机器人》2003,25(5):452-455

本文介绍了一种用于拟人机器人的嵌入式语音交互系统．系统采用高质量的语音采集模块及语音输出模块，以高性能数字信号处理器（DSP）TMS320VC5402为硬件核心．HMM语音识别引擎以LPC倒谱及其差分分量作为语音特征表达，改进的Baum Welch重估算法完成了多观察值序列下的语音模板训练．同时进行了语音特征不同表达形式对识别结果影响的对比实验．系统外围控制程序完成识别结果提示以及与上位机的通讯．系统在词汇量为200的非特定人、孤立词识别上取得了很好的效果．相似文献

13.

一种新型的嵌入式语音识别机器人系统 总被引：1，自引：1，他引：0

贾晶华晶《电脑编程技巧与维护》2008,(17)

本文探讨和研究了一种新型的基于嵌入式系统以及DSP的语音识别工业机器人系统。系统采用嵌入式 DSP的方案使机器人的性能、成本、可配置性和可扩展性达到一个更佳的平衡点,同时在语音识别方面采用了改进的MFCC方法进行语音特征提取以及采用基于K均值分段的HMM模型进行实时语音学习与识别使算法的实时性和可移植性提高。相似文献

14.

基于非单调共轭梯度算法的声纹识别机器人控制系统设计

下载免费PDF全文

吴俊杰《计算机测量与控制》2020,28(1):116-119

传统声纹识别人控制系统识别准确率低,存在语音识别噪声鲁棒性问题。针对上述问题,基于非单调共轭梯度算法设计了一种新的声纹识别机器人控制系统,采用BioVoice 2.0 标准声纹采集器采集数据,提取声纹特征,根据提取的声纹特征建立模型库,同时引用了两个声纹数据采集终端,型号分别是TMC104-B和TMC104,选用型号为AS-MrobotR的机器人配合采集器和采集终端实现工作。在Windows平台下使用C/C+语言研究了一种专用的程序,在程序内部添加mde-api数据库,完成训练程序和识别程序。实验结果表明,基于非单调共轭梯度算法的声纹识别机器人控制系统能够很好地解决语音识别噪声鲁棒性问题,在有噪声环境下识别准确率提高15.24%,在无噪声环境下识别准确率提高21.55%。相似文献

15.

多通道皮肤听声系统中语音增强算法的应用研究

宫洵李建文王马川《计算机工程与科学》2011,33(4):164

针对提高应用多通道皮肤听声系统进行语音识别的识别率,提出了基于多频带谱减法的语音增强算法。在多通道皮肤听声的实验中,有色噪声会严重降低语音质量,进而降低皮肤听声系统语音识别的识别率,因而首次将基于多带谱减法的语音增强算法引入到皮肤听声系统中以降低有色噪声。多频带谱减法将语音频带划分为多个子频带,分别在每个子频带作不同系数的谱减运算实现语音增强。通过Matlab完成了算法仿真并通过DSP硬件实现了算法并将增强后的语音信号输出给皮肤听声系统,实验证明此设计能够有效抑制有色噪声,增强皮肤听声系统的可靠性和实用性。相似文献

16.

Speech recognition in living rooms: Integrated speech enhancement and recognition system based on spatial,spectral and temporal modeling of sounds

Marc Delcroix Keisuke Kinoshita Tomohiro Nakatani Shoko Araki Atsunori Ogawa Takaaki Hori Shinji Watanabe Masakiyo Fujimoto Takuya Yoshioka Takanobu Oba Yotaro Kubo Mehrez Souden Seong-Jun Hahm Atsushi Nakamura 《Computer Speech and Language》2013,27(3):851-873

Research on noise robust speech recognition has mainly focused on dealing with relatively stationary noise that may differ from the noise conditions in most living environments. In this paper, we introduce a recognition system that can recognize speech in the presence of multiple rapidly time-varying noise sources as found in a typical family living room. To deal with such severe noise conditions, our recognition system exploits all available information about speech and noise; that is spatial (directional), spectral and temporal information. This is realized with a model-based speech enhancement pre-processor, which consists of two complementary elements, a multi-channel speech–noise separation method that exploits spatial and spectral information, followed by a single channel enhancement algorithm that uses the long-term temporal characteristics of speech obtained from clean speech examples. Moreover, to compensate for any mismatch that may remain between the enhanced speech and the acoustic model, our system employs an adaptation technique that combines conventional maximum likelihood linear regression with the dynamic adaptive compensation of the variance of the Gaussians of the acoustic model. Our proposed system approaches human performance levels by greatly improving the audible quality of speech and substantially improving the keyword recognition accuracy. 相似文献

17.

Target Speech Detection and Separation for Communication with Humanoid Robots in Noisy Home Environments

《Advanced Robotics》2013,27(15):2093-2111

People usually talk face to face when they communicate with their partner. Therefore, in robot audition, the recognition of the front talker is critical for smooth interactions. This paper presents an enhanced speech detection method for a humanoid robot that can separate and recognize speech signals originating from the front even in noisy home environments. The robot audition system consists of a new type of voice activity detection (VAD) based on the complex spectrum circle centroid (CSCC) method and a maximum signal-to-noise ratio (SNR) beamformer. This VAD based on CSCC can classify speech signals that are retrieved at the frontal region of two microphones embedded on the robot. The system works in real-time without needing training filter coefficients given in advance even in a noisy environment (SNR > 0 dB). It can cope with speech noise generated from televisions and audio devices that does not originate from the center. Experiments using a humanoid robot, SIG2, with two microphones showed that our system enhanced extracted target speech signals more than 12 dB (SNR) and the success rate of automatic speech recognition for Japanese words was increased by about 17 points. 相似文献

18.

抗噪声语音识别及语音增强算法的应用 总被引：1，自引：0，他引：1

汤玲戴斌《计算机仿真》2006,23(9):80-82,143

提高语音识别系统的鲁棒性是语音识别技术一个重要的研究课题。语音识别系统往往由于训练环境下的数据和识别环境下的数据不匹配造成系统的识别性能下降,为了让语音识别系统在含噪的环境下获得令人满意的工作性能,该文根据人耳听觉特性提出了一种鲁棒语音特征提取方法。在MFCC特征提取之前先对含噪语音特征进行掩蔽特性处理,同时结合语音增强方法对特征进行处理,最后得到鲁棒语音特征。通过4种不同试验结果分析表明,将这种方法用于抗噪声分析可以提高系统的抗噪声能力;同时这种特征的处理方法对不同噪声在不同信噪比有很好的适应性。相似文献

19.

An iterative longest matching segment approach to speech enhancement with additive noise and channel distortion

《Computer Speech and Language》2014,28(6):1269-1286

This paper presents a new approach to speech enhancement from single-channel measurements involving both noise and channel distortion (i.e., convolutional noise), and demonstrates its applications for robust speech recognition and for improving noisy speech quality. The approach is based on finding longest matching segments (LMS) from a corpus of clean, wideband speech. The approach adds three novel developments to our previous LMS research. First, we address the problem of channel distortion as well as additive noise. Second, we present an improved method for modeling noise for speech estimation. Third, we present an iterative algorithm which updates the noise and channel estimates of the corpus data model. In experiments using speech recognition as a test with the Aurora 4 database, the use of our enhancement approach as a preprocessor for feature extraction significantly improved the performance of a baseline recognition system. In another comparison against conventional enhancement algorithms, both the PESQ and the segmental SNR ratings of the LMS algorithm were superior to the other methods for noisy speech enhancement. 相似文献