期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

Mandarin Digits Speech Recognition Using Support Vector Machines 总被引：1，自引：0，他引：1

谢湘匡镜明《北京理工大学学报(英文版)》2005,14(1):9-12

A method of applying support vector machine (SVM) in speech recognition was proposed, and a speech recognition system for mandarin digits was built up by SVMs. In the system, vectors were linearly extracted from speech feature sequence to make up time-aligned input patterns for SVM, and the decisions of several 2-class SVM classifiers were employed for constructing an N-class classifier. Four kinds of SVM kernel functions were compared in the experiments of speaker-independent speech recognition of mandarin digits. And the kernel of radial basis function has the highest accurate rate of 99.33 %, which is better than that of the baseline system based on hidden Markov models (HMM) (97.08%). And the experiments also show that SVM can outperform HMM especially when the samples for learning were very limited. 相似文献

2.

基于VQ的高效汉语语音识别方法的比较性研究

谢湘赵军辉匡镜明《北京理工大学学报(英文版)》2002,11(3):266-270

介绍了一种基于VQ的小词汇量特定人快速语音识别方法,并对该方法中的关键参数进行了比较性研究. 这一方法尤其适用于汉语特定人小词汇量语音识别. 与典型的HMM和NN识别算法相比,该方法复杂度低、系统资源消耗少而识别率高,在对汉语11个数字的大规模识别测试中误识率仅为3.86%. 因此,该方法适合于在手机、PDA等资源有限的系统中实现语音数字拨号、人名拨号及查询等语音控制功能. 相似文献

3.

汉语大词汇量连续语音识别中混淆网络算法的研究

吴斌刘刚郭军《四川大学学报(工程科学版)》2007,(Z1)

在汉语大词汇量连续语音识别中,以往基于最大后验概率准则解码得到的识别结果具有最小的句子错误率,为了得到字错误率最小的识别结果,可以采用最小贝叶斯风险解码策略,通过将识别输出的word lattice转换成为混淆网络以得到最小字错误率的识别结果。在以往混淆网络算法的基础上,根据汉语语言的特点,提出一种改进的构造混淆网络的算法。基于863测试语音库进行的实验表明,与最大后验概率识别结果和以前的两种混淆网络算法的识别结果相比,改进的混淆网络算法有效地降低汉语大词汇量连续语音识别结果的字错误率。相似文献

4.

非特定人语音指令识别系统的研究与实现

邢东洋杨明极《哈尔滨理工大学学报》2008,13(2):75-78

为了研究语音识别技术的实用化问题.采用离散隐马尔可夫模型方法,基于单片微控制器加数字信号处理器(MCU DSP)构架,实现了一个非特定人语音指令识别系统.该系统适应性强,每个指令识别时间在1s内,准确率达到96%. 相似文献

5.

Comparative Study on Channel Compensation for Robust Speech Recognition

赵军辉匡镜明黄石磊《北京理工大学学报(英文版)》2003,12(4):403-406

Some channel compensation techniques integrated into front-end of speech recognizer for improving channel robustness are described. These techniques include cepstral mean normalization, rasta processing and blind equalization. Two standard channel frequency characteristics, G. 712 and MIRS, are introduced as channel distortion references and a mandarin digit string recognition task is performed for evaluating and comparing the performance of these different methods. The recognition results show that in G. 712 case blind equalization can achieve the best recognition performance while cepstral mean normalization outperforms the other methods in MIRS case which is capable of reaching a word error rate of 3.96 %. 相似文献

6.

Study on Unequal Error Protection for Distributed Speech Recognition System

谢湘王思遥刘家康《北京理工大学学报(英文版)》2006,15(2):201-205

At present ,the trend to ever-increasing use ofdata communication is spreading to the mobile wire-less world. The small portable devices will be used toaccess these data and cry out for i mproved user inter-faces using speechinput , whichis very i mportan… 相似文献

7.

一种用于语音识别的神经网络

张立朋李立梅《北京邮电大学学报》1995,18(1):31-37

在研究了现有用于语音识别的一些典型人工神经网模型后,综合了几种典型神经网模型的优点,提出了一种适于语音识别的人工神经网络模型,该模型运算简单,学习速度快、易于大规模集成电路的实现,且具有相当的灵活性,计算机仿真对０－－９十个汉语数字语音进行识别,并把其识别结果与ＨＭＭ模型的识别结果作了比较,证明这两种方式是可比较的,揭示了该神经网络模型的潜在力。相似文献

8.

评价室内汉语清晰度中STI计权方法适用性检验

张红虎谢辉《浙江大学学报(工学版)》2012,46(3):463-469

为检验评价室内汉语（普通话）清晰度中不同语言传输指数（STI）计权方法的适用性,通过在一系列不同听音条件下的主观听音试验与声场测量,研究了4种典型计权方法下的STI与汉语清晰度得分（SI）之间的相关性.回归分析表明这4种计权方法对应的STI与SI间呈现了良好的正相关关系.相比于在计权因子变化时STI与SI间三次多项式回归标准偏差可能达到的最小值与最大值,这4种STI对应的回归标准偏差接近最大值而远离最小值,显示了它们在评价室内汉语清晰度时的良好性质.与其他涉及不同客观参量与语种的同类研究结果的对比也表明,这4种STI评价室内汉语清晰度的精度处于一个较好的范围内. 相似文献

9.

双模型语音识别中的听视觉合成和模型同步异步性实验研究 总被引：3，自引：0，他引：3

谢磊蒋冬梅 Ilse Ravyse 赵荣椿 Hichem Sahli Werner Verhelst Jan Cornelis 《西北工业大学学报》2004,22(2):171-175

研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法；同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下，后合成方法能够带来比较理想的识别效果；考虑听觉和视觉同步异步性的模型可以有效地提高识别率。相似文献

10.

语音识别中深度神经网络目标值优化 总被引：1，自引：0，他引：1

陈梦喆张晴晴潘接林颜永红《四川大学学报(工程科学版)》2016,48(1):166-172

语音识别系统中,由强制对齐得到的用于训练深度神经网络声学模型的目标值,常常无法精准地表示出语音实际的情况,这是因为用于强制对齐的模型可能与处理语句不完全匹配,以及发音连续性导致的过渡边界难以分离等问题。针对这一问题,该文提出了一种利用前后向算法得到非0-1分布目标值的方法。新的目标值可以表示出某一帧以一定概率属于邻近各状态的分布情况,更详细地描述建模单元之间的过渡,进一步还原语音的原貌,提升模型的鲁棒性。同时,为寻求模型鲁棒性和建模单元区分度之间的平衡,对算法得到的目标值进行加窗处理。实验在中文客服问答领域上进行,在小数据量上验证了目标值对于训练的较大影响,并且选取了窗长宽度这一参数。最后将训练数据量提升至60小时,80小时以及100小时,结果显示新的目标值训练得到的模型在识别性能上获得了一致的提升,相对字错误率下降1.10%至3.65%。多组实验验证了新的目标值对模型训练有一定效果,在训练数据量上升的情况下依然具有有效性。相似文献

11.

一种基于TTRNN的汉语拼音全音节识别方法

赵以宝孙圣和《哈尔滨工业大学学报》2001,33(2):213-216

递归神经网络(Recurrent Neural Network,RNN)是一种具有时延反馈能力的神经网络,它可以充分利用上下文的信息来提高分类的程度,因而很适合汉语拼音的识别,但在实践中受网络规模的限制,能利用的上下文有限,所以对汉语拼音的分类效果并不理想,为此提出一种改进的RNN－时间标签递归神经网络（TTRNN）来对汉语拼音的整音节进行直接建模识别的方法;初步的实验结果不仅证明了TTRNN方法对汉语拼音这样的时序模式有很好的分类能力,而且在拼音识别方面有很强的顽健性。相似文献

12.

融合非线性幂函数和谱减法的CFCC特征提取

白静史燕燕薛珮芸郭倩岩《西安电子科技大学学报(自然科学版)》2019,46(1):86-92

为提高噪声环境下的语音识别准确率,提出一种改进的语音特征提取算法。该算法采用模拟人耳听觉特性的非线性幂函数提取一种新的耳蜗滤波倒谱系数,并在特征提取前端引入谱减法对信号进行增强,将提取到的新的特征及其一阶差分组成一种混合特征参数;再联合主成分分析对该混合特征进行降维,将最终得到的特征用于一个非特定人、孤立词、小词汇量的语音识别系统。实验结果表明:采用非线性幂函数提取的耳蜗滤波倒谱系数特征与传统的耳蜗滤波倒谱系数特征相比,明显提高了语音识别准确率;混合特征参数相比单一特征能达到更佳的语音识别性能;结合主成分分析后的特征集在信噪比为0dB时的识别正确率可达到88.10%。相似文献

13.

一种小词汇量快速语音识别系统的实现

刘建辉卢珞先黄涛《武汉理工大学学报(信息与管理工程版)》2006,28(2):10-13

介绍了一种小词汇量的语音识别方法。在传统的DTW语音识别的基础上,通过放宽端点、对路径进行斜率限制和改进局部路径限制等方法,使系统能够实现快速的识别响应,尤其是对于小词汇量和特定人识别,可以有效地提高响应速度和识别率。相似文献

14.

一个基于规则的英语TTS系统

下载免费PDF全文

张连海吴保民《信息工程大学学报》2005,6(4):40-42,46

文章给出了一个基于规则的英语，TTS（Text-To-Speech）系统的设计与实现方法。系统以音素作为合成基元，建立音素字典，使用基于规则的文本分析算法将输入英语句子转换成音素序列，使用基音同步叠接相加（PSOLA）算法合成语音。仿真结果表明，合成语音清晰可懂。相似文献

15.

一种基于分带谱熵和谱能量的语音端点检测算法 总被引：3，自引：0，他引：3

李如玮鲍长春《北京工业大学学报》2007,33(9):920-924

语音端点检测的精确度直接影响语音识别的准确度.在噪声环境下,语音端点检测很困难.信噪比下降,语音端点检测的正确率也随之下降,同时,噪声类型的变化影响端点检测的正确率.为此,提出了一种改进的、适合在电话语音城市名识别系统中应用的端点检测算法,并结合分带谱熵和谱能量形成了一个新的特征参数集,利用该参数集进行端点检测,弥补了分别采用分带谱熵和谱能量进行端点检测的缺陷,提高了检测性能. 相似文献

16.

基于特征值混和提升语音识别鲁棒性技术(英文)

张东谢存禧《陕西科技大学学报》2005,(6)

语音识别技术可以为要求双手同时作业的操作人员和残疾人提供一种便捷的控制方法。作者在文中提出了一种通过结合二阶频率滤波和RASTA技术来增强语音识别鲁棒性的方法,并将这种方法成功应用于机器人化护理床的控制系统中,增强了识别系统在医院、工厂等非稳定噪声环境下语音识别的鲁棒性。通过将HMM/GMM混合模型的传统Mel频率倒谱系数为特征值的识别系统与HMM/GMM混合模型的RASTA-FF2为特征值的识别系统进行比较,并分别在纯语音和带噪语音条件下进行测试,发现经过二阶频率滤波后的FF2特征值再经过RASTA滤波器滤波,特别是在非稳定噪声环境下,以RASTA-FF2为特征值的识别系统比传统的识别系统的识别率更高,这表明FF2特征值与RASTA滤波器技术相结合,一个作用于频域,一个作用于时间域,可以有效地消除语音信号中的不同噪声成份。相似文献

17.

汉语语音识别研究与实践

黄顺珍《深圳大学学报(理工版)》1987,(Z2)

本文介绍了汉语语音识别及其实例—电话声控查号系统,并在该系统中采用了高效压缩信息的“分块四值化法”提取特征,信息压缩率达100:1;利用分级识别,提高识别率;设置辅助功能键,保证报号完全准确。相似文献

18.

混合抗噪语音识别模型的设计与仿真

张丽王福忠张涛《焦作工学院学报》2007,26(6):694-699

为解决语音识别过程中的抗噪声及抗干扰问题,提高系统的识别精度,利用隐马尔可夫模型HMM优异的时序建模能力及小波变换可以对信号进行多尺度分析并有效提取信号的局部信息的特点,建立了混合语音识别模型.考虑到在语音信号识别过程中信号的非平稳性,采用并行的识别方法分别获取分类信息,根据混合模型的识别算法做出识别决策,减小了系统对环境的依赖性,提高了其自适应能力.仿真实验结果表明,混合模型识别结果比单一HMM模型或小波模型识别结果更佳,提高了整体的识别速度和识别率. 相似文献

19.

条件随机场模型在韵律结构预测中的应用

董远周涛董乘宇王海拉《北京邮电大学学报》2009,32(5):36-40

为提高中文语音合成的自然度,对文本的韵律结构体系进行研究,并提出一种基于条件随机场(CRF)的韵律结构预测方法. 从一个大规模人工标注的语料库中,选取由机器生成的分词标注特征和分级的韵律边界信息,利用CRF算法进行机器学习产生韵律词和韵律短语的CRF模型,并用于韵律结构的预测中. 实验结果表明,韵律词和韵律短语的F-score分别达到90.67%和80.05%,相比于基于最大熵(ME)模型的韵律结构预测方法分别提高了3.62%和5.65%,同时准确率和召回率也有较大提高. 相似文献

20.

ARMA倒谱用于语音识别的特征参数

李宛州吕维雪《浙江大学学报(工学版)》1990,24(5):691-701

本文介绍了一种以ARMA倒谱系数为语音识别特证参数的快速递推算法,并给出了实验结果,证明它优于LPC倒谱,是语音识别中一种新的有效方法。相似文献