共查询到20条相似文献,搜索用时 0 毫秒
1.
Nobuaki Minematsu Satoshi Asakawa Masayuki Suzuki Yu Qiao 《New Generation Computing》2010,28(3):299-319
Speech communication consists of three steps: production, transmission, and hearing. Every step inevitably involves acoustic
distortions due to gender differences, age, microphone- and room-related factors, and so on. In spite of these variations,
listeners can extract linguistic information from speech as easily as if the communications had not been affected by variations
at all. One may hypothesize that listeners modify their internal acoustic models whenever extralinguistic factors change.
Another possibility is that the linguistic information in speech can be represented separately from the extralinguistic factors.
In this study, being inspired by studies of humans and animals, a novel solution to the problem of intrinsic variations is
proposed. Speech structures invariant to these variations are derived as transform-invariant features and their linguistic
validity is discussed. Their high robustness is demonstrated by applying the speech structures to automatic speech recognition
and pronunciation proficiency estimation. This paper also describes the immaturity of the current implementation and application
of speech structures. 相似文献
2.
Neural Network-Based Artificial Bandwidth Expansion of Speech 总被引:1,自引:0,他引:1
Juho Kontio Laura Laaksonen Paavo Alku 《IEEE transactions on audio, speech, and language processing》2007,15(3):873-881
The limited bandwidth of 0.3-3.4 kHz in current telephone systems reduces both the quality and the intelligibility of speech. Artificial bandwidth expansion is a method that expands the bandwidth of the narrowband speech signal in the receiving end of the transmission link by adding new frequency components to the higher frequencies, i.e., up to 8 kHz. In this paper, a new method for artificial bandwidth expansion, termed Neuroevolution Artificial Bandwidth Expansion (NEABE) is proposed. The method uses spectral folding to create the initial spectral components above the telephone band. The spectral envelope is then shaped in the frequency domain, based on a set of parameters given by a neural network. Subjective listening tests were used to evaluate the performance of the proposed algorithm, and the results showed that NEABE speech was preferred over narrowband speech in about 80% of the test cases 相似文献
3.
4.
5.
6.
7.
8.
人工免疫系统及其应用 总被引:2,自引:0,他引:2
人工免疫系统是基于人类和其它高等动物免疫系统原理而提出的一种新的信息处理系统。简要介绍了生物免疫系统的特点,概述了当前几种主要的人工免疫系统和在计算机安全、优化、故障检测及处理、控制等方面的工程应用,并对其应用前景作了展望。 相似文献
9.
本文对自然言语的韵律组织中的不确定性及其对合成语音自然度的影响进行了初步探讨,并在此基础上,提出在韵律预测中用最小错误概率准则代替传统的最大生成概率准则,从而在预测结果中保留多种等价的韵律实现。本文还进一步提出一种将基于最小错误准则的韵律预测与单元选择结合的算法,首先根据最小错误准则在所有候选单元中筛选出最不可能造成韵律错误的样本,然后再依据最平滑拼接准则从各种韵律等价的路径中选出一条能达到最平滑拼接的作为最后输出。 相似文献
10.
人工神经网络具有强大的模式分类能力,除此之外还有一个优点即其大量的并行神经计算能力,使得以低廉的硬件开销来实现高速并行运算成为可能,这在实时模式识别中是非常重要的。文章介绍了以预言神一号小型神经计算机的并行神经运算为核心的连续语音的实时识别的算法,实验表明该算法有很高的实时性和较好的识别率。 相似文献
11.
研究在光线比较差或者有障碍物的复杂环境下对感兴趣的声源进行定位,由于存在外部噪声,引起对目标声源进行跟踪误差大。传统的语音定向方法无法有效减小声源定位的误差,从而定向的精度比较低,且多集中在理论研究。为提高移动机器人语音定向的精度,利用麦克风阵列拾取声源信号,采用PC/104的SEM/ADT800多通道数据采集卡对语音信号进行采集和处理。运用改进的广义互相关时延估计算法计算麦克风阵元间的时间差值,采用四元十字阵形的几何定位方法计算声源信号的目标位置和方向,并对系统的定向效果进行实验,得出实验结果,进行误差分析。经实验证明,相对于传统的语音定向方法,麦克风阵列的移动机器人语音定向系统实际可用,具有较好的性能,能够把系统定向误差控制在要求的范围内。 相似文献
12.
提出了一种抗噪声语音特征。首先计算语音信号单边自相关序列的差分序列,再计算该差分序列的线性预测系数,进一步求出例说系数。实验证明,传统的线性预测例谱系数和边自相关序列的一性预测倒谱数相比,采用单边自相关序列差分序列的线性预测倒谱系数作为语音信号的特征矢量,可以提高语音识别系统对带噪音语音的识别率。 相似文献
13.
Pulakka H. Laaksonen L. Vainio M. Pohjalainen J. Alku P. 《IEEE transactions on audio, speech, and language processing》2008,16(6):1124-1137
14.
近年来,发音属性常常被用于计算机辅助发音训练系统(CAPT)中.该文针对使用发音属性的一些难点,提出了 一种建模细颗粒度发音属性(FSA)的方法,并在跨语言属性识别、发音偏误检测中进行测试.最终,得到了最优平均识别准确率约为95%的属性检测器组;在两个二语测试集上的偏误检测表明,相比基线,基于FSA的方法均获得了超过1... 相似文献
15.
基于深度学习语音分离技术的研究现状与进展 总被引:8,自引:0,他引:8
现阶段, 语音交互技术日益在现实生活中得到广泛的应用, 然而, 由于干扰的存在, 现实环境中的语音交互技术远没有达到令人满意的程度. 针对加性噪音的语音分离技术是提高语音交互性能的有效途径, 几十年来, 全世界范围内的许多研究者为此投入了巨大的努力, 提出了很多实用的方法. 特别是近年来, 由于深度学习研究的兴起, 基于深度学习的语音分离技术日益得到了广泛关注和重视, 显露出了相当光明的应用前景, 逐渐成为语音分离中一个新的研究趋势. 目前已有很多基于深度学习的语音分离方法被提出, 但是, 对于深度学习语音分离技术一直以来都缺乏一个系统的分析和总结, 不同方法之间的联系和区分也很少被研究. 针对这个问题, 本文试图对语音分离的主要流程和整体框架进行细致的分析和总结, 从特征、模型以及目标三个方面对现有的前沿研究进展进行全面而深入的综述, 最后对语音分离技术进行展望. 相似文献
16.
提出了一种采用自适应差分脉冲编码技术的语音压缩编码算法,压缩比为8:3,因其算法非常简单,可用单片机(如51系列)实现.此算法可用于低成本的单片机语音存储系统或语音传输系统.最后还给出了此算法在远距离语音信号传输中的应用实例,在此实例中采用的是C8051 F330单片机,在RS-422传输信道上实现了全双工远距离语音信号传输. 相似文献
17.
McBSP在语音信号处理中的应用与实现 总被引:3,自引:1,他引:3
以语音处理中基本的A/D、D/A转换为例,采用TMS320C54x数字信号处理器的外围扩展芯片TLC320AD50作为语音采样信号的输入和处理后的语音信号的输出通道,给出了DSP与TLC320AD50的接口设计.详细介绍了TMS320C54x的多缓冲串口(McBSP)软硬件设计并提出如何用McBSP在语音通信中降低传输带宽,并提出了具体的设计思想和实现方法.通过使TLC320AD50工作在主方式,DSP工作在从方式,可以实现高速实时的A/D、D/A转换和实现处理后的语音信号低带宽传输. 相似文献
18.
19.
20.
文章提出了一种抗噪声的语音特征。首先让语音信号的功率谱通过一组带通滤波器,再计算各滤波器输出的差分值。理论分析和实验一致证明,以此作为语音信号的特征,可以大幅度提高语音识别系统在噪声环境中的性能。 相似文献