期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

Speech Structure and Its Application to Robust Speech Processing

Nobuaki Minematsu Satoshi Asakawa Masayuki Suzuki Yu Qiao 《New Generation Computing》2010,28(3):299-319

Speech communication consists of three steps: production, transmission, and hearing. Every step inevitably involves acoustic distortions due to gender differences, age, microphone- and room-related factors, and so on. In spite of these variations, listeners can extract linguistic information from speech as easily as if the communications had not been affected by variations at all. One may hypothesize that listeners modify their internal acoustic models whenever extralinguistic factors change. Another possibility is that the linguistic information in speech can be represented separately from the extralinguistic factors. In this study, being inspired by studies of humans and animals, a novel solution to the problem of intrinsic variations is proposed. Speech structures invariant to these variations are derived as transform-invariant features and their linguistic validity is discussed. Their high robustness is demonstrated by applying the speech structures to automatic speech recognition and pronunciation proficiency estimation. This paper also describes the immaturity of the current implementation and application of speech structures. 相似文献

2.

Neural Network-Based Artificial Bandwidth Expansion of Speech 总被引：1，自引：0，他引：1

Juho Kontio Laura Laaksonen Paavo Alku 《IEEE transactions on audio, speech, and language processing》2007,15(3):873-881

The limited bandwidth of 0.3-3.4 kHz in current telephone systems reduces both the quality and the intelligibility of speech. Artificial bandwidth expansion is a method that expands the bandwidth of the narrowband speech signal in the receiving end of the transmission link by adding new frequency components to the higher frequencies, i.e., up to 8 kHz. In this paper, a new method for artificial bandwidth expansion, termed Neuroevolution Artificial Bandwidth Expansion (NEABE) is proposed. The method uses spectral folding to create the initial spectral components above the telephone band. The spectral envelope is then shaped in the frequency domain, based on a set of parameters given by a neural network. Subjective listening tests were used to evaluate the performance of the proposed algorithm, and the results showed that NEABE speech was preferred over narrowband speech in about 80% of the test cases 相似文献

3.

改进的语音特征提取方法及其应用

王安娜王勤万刘俊芳袁文静《计算机工程》2008,34(5):196-197,200

噪音是降低语音识别系统精度的关键因素,因此,如何从带噪语音信号中提取出有效的语音特征是提高语音识别系统识别率的重要途径.该文在分析语音特征提取方法的基础上提出改进算法.实验表明,采用LDA MLLT CMs算法组合提取出的语音特征具有较好的鲁棒性,在噪音环境下的平均音节识别率为43.79%.该组合在中文大词汇量连续语音识别系统中也有较好的性能,音节识别率达到83.56%. 相似文献

4.

改进的语音特征提取方法及其应用

下载免费PDF全文

王安娜王勤万刘俊芳袁文静《计算机工程》2008,34(5):196-197,

介绍处理器仿真建模技术以及指令集模拟器在其中的应用,讨论处理器ISA,MA模型建立以及指令精确、时钟精确的指令集模拟器实现方法,提出一种基于多线程技术的调试器集成方法,介绍指令集模拟器在一款密码专用微处理器开发过程中的具体应用方法. 相似文献

5.

IEEE Transactions on Audio, Speech, and Language Processing Information for Authors

《IEEE transactions on audio, speech, and language processing》2008,16(2):479-480

相似文献

6.

IEEE Transactions on Audio, Speech, and Language Processing Information for Authors

《IEEE transactions on audio, speech, and language processing》2007,15(5):1735-1736

相似文献

7.

IEEE Transactions on Audio, Speech, and Language Processing Information for Authors

《IEEE transactions on audio, speech, and language processing》2009,17(1):201-202

相似文献

8.

人工免疫系统及其应用 总被引：2，自引：0，他引：2

孙勇智韦巍《计算机工程》2003,29(15):1-2,62

人工免疫系统是基于人类和其它高等动物免疫系统原理而提出的一种新的信息处理系统。简要介绍了生物免疫系统的特点，概述了当前几种主要的人工免疫系统和在计算机安全、优化、故障检测及处理、控制等方面的工程应用，并对其应用前景作了展望。相似文献

9.

自然言语的韵律组织中的不确定性及其在语音合成中的应用

初敏《中文信息学报》2004,18(4):67-72

本文对自然言语的韵律组织中的不确定性及其对合成语音自然度的影响进行了初步探讨,并在此基础上,提出在韵律预测中用最小错误概率准则代替传统的最大生成概率准则,从而在预测结果中保留多种等价的韵律实现。本文还进一步提出一种将基于最小错误准则的韵律预测与单元选择结合的算法,首先根据最小错误准则在所有候选单元中筛选出最不可能造成韵律错误的样本,然后再依据最平滑拼接准则从各种韵律等价的路径中选出一条能达到最平滑拼接的作为最后输出。相似文献

10.

基于神经计算机并行运算的连续语音识别

周旭东赵鹤鸣顾晓东《计算机工程与应用》2002,38(16):83-85

人工神经网络具有强大的模式分类能力,除此之外还有一个优点即其大量的并行神经计算能力,使得以低廉的硬件开销来实现高速并行运算成为可能,这在实时模式识别中是非常重要的。文章介绍了以预言神一号小型神经计算机的并行神经运算为核心的连续语音的实时识别的算法,实验表明该算法有很高的实时性和较好的识别率。相似文献

11.

移动机器人语音定向算法及其实现

靳晓强张汝波刘冠群《计算机仿真》2012,29(11):223-226,255

研究在光线比较差或者有障碍物的复杂环境下对感兴趣的声源进行定位,由于存在外部噪声,引起对目标声源进行跟踪误差大。传统的语音定向方法无法有效减小声源定位的误差,从而定向的精度比较低,且多集中在理论研究。为提高移动机器人语音定向的精度,利用麦克风阵列拾取声源信号,采用PC/104的SEM/ADT800多通道数据采集卡对语音信号进行采集和处理。运用改进的广义互相关时延估计算法计算麦克风阵元间的时间差值,采用四元十字阵形的几何定位方法计算声源信号的目标位置和方向,并对系统的定向效果进行实验,得出实验结果,进行误差分析。经实验证明,相对于传统的语音定向方法,麦克风阵列的移动机器人语音定向系统实际可用,具有较好的性能,能够把系统定向误差控制在要求的范围内。相似文献

12.

基于单边自相关序列的语音特征及其在带噪语音识别中的应用

徐金甫韦岗《计算机工程》2000,26(5):58-59,89

提出了一种抗噪声语音特征。首先计算语音信号单边自相关序列的差分序列,再计算该差分序列的线性预测系数,进一步求出例说系数。实验证明,传统的线性预测例谱系数和边自相关序列的一性预测倒谱数相比,采用单边自相关序列差分序列的线性预测倒谱系数作为语音信号的特征矢量,可以提高语音识别系统对带噪音语音的识别率。相似文献

13.

Evaluation of an Artificial Speech Bandwidth Extension Method in Three Languages

Pulakka H. Laaksonen L. Vainio M. Pohjalainen J. Alku P. 《IEEE transactions on audio, speech, and language processing》2008,16(6):1124-1137

Quality and intelligibility of narrowband telephone speech can be improved by artificial bandwidth extension (ABE), which extends the speech bandwidth using only information available in the narrowband speech signal. This paper reports a three-language evaluation of an ABE method that has recently been launched in several of Nokia's mobile telephone models. The method extends the speech bandwidth to frequencies above the telephone band by first utilizing spectral folding and then modifying the magnitude spectrum of the extension band with spline curves. The performance of the method was evaluated by formal listening tests in American English, Russian, and Mandarin Chinese. The results of the listening tests indicate that ABE processing improved the subjective quality of coded narrowband speech in all these languages. Differences between bandwidth-extended American English test sentences and their original wideband counterparts were also evaluated using both an objective distance measure that simulates the characteristics of human hearing and a conventional spectral distortion measure. The average objective error was calculated for different categories of speech sounds. The error was found to be smallest in nasals and semivowels and largest in fricative sounds. 相似文献

14.

发音属性优化建模及其在偏误检测中的应用

郭铭昊解焱陆《中文信息学报》2022,36(1):163-172

近年来,发音属性常常被用于计算机辅助发音训练系统(CAPT)中.该文针对使用发音属性的一些难点,提出了一种建模细颗粒度发音属性(FSA)的方法,并在跨语言属性识别、发音偏误检测中进行测试.最终,得到了最优平均识别准确率约为95％的属性检测器组;在两个二语测试集上的偏误检测表明,相比基线,基于FSA的方法均获得了超过1... 相似文献

15.

基于深度学习语音分离技术的研究现状与进展 总被引：8，自引：0，他引：8

刘文举聂帅梁山张学良《自动化学报》2016,42(6):819-833

现阶段, 语音交互技术日益在现实生活中得到广泛的应用, 然而, 由于干扰的存在, 现实环境中的语音交互技术远没有达到令人满意的程度. 针对加性噪音的语音分离技术是提高语音交互性能的有效途径, 几十年来, 全世界范围内的许多研究者为此投入了巨大的努力, 提出了很多实用的方法. 特别是近年来, 由于深度学习研究的兴起, 基于深度学习的语音分离技术日益得到了广泛关注和重视, 显露出了相当光明的应用前景, 逐渐成为语音分离中一个新的研究趋势. 目前已有很多基于深度学习的语音分离方法被提出, 但是, 对于深度学习语音分离技术一直以来都缺乏一个系统的分析和总结, 不同方法之间的联系和区分也很少被研究. 针对这个问题, 本文试图对语音分离的主要流程和整体框架进行细致的分析和总结, 从特征、模型以及目标三个方面对现有的前沿研究进展进行全面而深入的综述, 最后对语音分离技术进行展望. 相似文献

16.

一种适用于单片机的语音编码算法及应用

万晓华陈连坤《计算机工程》2005,31(6):184-185

提出了一种采用自适应差分脉冲编码技术的语音压缩编码算法,压缩比为8:3,因其算法非常简单,可用单片机(如51系列)实现.此算法可用于低成本的单片机语音存储系统或语音传输系统.最后还给出了此算法在远距离语音信号传输中的应用实例,在此实例中采用的是C8051 F330单片机,在RS-422传输信道上实现了全双工远距离语音信号传输. 相似文献

17.

McBSP在语音信号处理中的应用与实现 总被引：3，自引：1，他引：3

王剑峰马艳萍刘云《微计算机应用》2006,27(3):349-351

以语音处理中基本的A/D、D/A转换为例,采用TMS320C54x数字信号处理器的外围扩展芯片TLC320AD50作为语音采样信号的输入和处理后的语音信号的输出通道,给出了DSP与TLC320AD50的接口设计.详细介绍了TMS320C54x的多缓冲串口（McBSP）软硬件设计并提出如何用McBSP在语音通信中降低传输带宽,并提出了具体的设计思想和实现方法.通过使TLC320AD50工作在主方式,DSP工作在从方式,可以实现高速实时的A/D、D/A转换和实现处理后的语音信号低带宽传输. 相似文献

18.

遗忘神经网络模型及其BP算法 总被引：2，自引：0，他引：2

叶强卢涛李一军《计算机工程》2003,29(20):135-136,184

为解决跨时间数据训练神经网络时的数据选择问题，提出在神经网络的训练模型中引入遗忘系数，从而建立了一种改进的前馈神经网络模型——遗忘神经网络模型。介绍了该模型的基本原理，并给出了其BP算法。相似文献

19.

人工免疫系统及其模型分析

王珺刘希玉王鑫《微机发展》2006,16(7):105-107

目前,受生物免疫系统启发而产生的人工免疫系统(Artificial Immune System,AIS)作为计算智能研究的新领域正在兴起。文中侧重以AIS的基本原理为线索,对其模型加以系统综述。介绍了人工免疫系统的生物原型及生物免疫系统模型。在此基础上讨论了3种人工免疫系统的网络模型:aiNet、骨髓模型及有限资源人工免疫系统。分别介绍了这3种主要模型的来源,详细描述了各个模型的基本思想,并归纳出各个模型的特征。相似文献

20.

基于功率谱差分的语音特征及其在带噪语音识别中的应用

徐金甫韦岗《计算机工程与应用》2001,37(9):17-19

文章提出了一种抗噪声的语音特征。首先让语音信号的功率谱通过一组带通滤波器,再计算各滤波器输出的差分值。理论分析和实验一致证明,以此作为语音信号的特征,可以大幅度提高语音识别系统在噪声环境中的性能。相似文献