期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

一种改进的线性区分分析方法及其在汉语数码语音识别上的应用 总被引：1，自引：0，他引：1

史媛媛刘加刘润生《电子学报》2002,30(7):959-963

尽管汉语数码语音识别只涉及十个数字,但由于不同数字的发音存在相同或相似的声母或韵母,造成汉语数码语音之间的混淆性很大.采用通常的隐含马尔科夫模型(HMM)作为汉语数码语音识别模型难以得到很高的识别率.为了解决汉语数码之间的混淆问题,提高汉语数码语音识别性能,本文在隐含马尔科夫模型的状态层次上采用线性区分分析方法,将不同状态之间容易混淆的特征样本构成混淆模式类,针对混淆模式类进行线性区分分析.通过线性区分变换,在变换特征空间中仅保留那些能够有效区分该混淆类别的特征参数.这种基于状态的线性区分分析有效地提高了模型对混淆数码的区分能力.实验表明即使采用状态数很少的粗糙识别模型,也能很大幅度提高模型的识别性能;经过线性区分变换优化后的汉语数码识别模型,孤立汉语数码语音识别率可以达到99.32%. 相似文献

2.

汉语数码语音识别自适应算法 总被引：4，自引：0，他引：4

李虎生杨明杰《电路与系统学报》1999,4(2):1-6

说话人自适应是提高非特定人语音识别性能的有效方法之一。本文将ＭＡＰ算法应用于汉语数码语音识别中,并讨论了几种加快自适应速度的方法以及自适应对非自适应人的影响。实验表明,ＭＡＰ算法可以有效地降低汉语数码识别对被适应人的误识率,而且对非自适应人性能影响很小。相似文献

3.

用反馈式语音识别理解方案进行汉语短语的识别理解

傅秋良袁保宗《电子科学学刊》1998,20(2):194-198

汉语语音理解系统的任务之一是把语音识别系统获得的汉语单单节转换成正确的汉字，词乃至汉语的短语，语句，与误音识别系统一起，完成一个语音到文本（ｓｐｅｅｃｈｔｏｔｅｘｔ）的转换系统，本文利用一个闭环反馈方式汉语语音识别理解方案，在汉语词识别理解的基础上，进一步实现时汉语结构性短的识别理解，获得了预期的结果，最后本文对实验结果和反馈式语音识别理解方案进行了讨论。相似文献

4.

用反馈式语音识别理解方案进行汉语地名的识别理解

傅秋良袁保宗林碧琴《信号处理》1997,(3)

汉语语音理解系统的任务之一是把语音识别系统获得的汉语音节转换成正确的汉字，与汉语语音识别系统一起，完成一个语音-文本（SpeechtoText）的转换系统。本文利用一个有别于语音理解传统方法（1．语言学方法[1]，2．统计学方法[2])的新的反馈式语音理解方案进行汉语地名的识别理解，获得了很好的实验结果。本文最后对实验结果和反馈式语音识别理解方案进行了讨论。相似文献

5.

用反馈式语音识别理解方案进行汉语短语的识别理解

傅秋良袁保宗《电子与信息学报》1998,20(2):194-198

汉语语音理解系统的任务之一是把语音识别系统获得的汉语单音节转换成正确的汉字、词,乃至汉语的短语、语句,与语音识别系统一起,完成一个语音到文本(speech to text)的转换系统。本文利用一个闭环反馈方式汉语语音识别理解方案,在汉语词识别理解的基础上,进一步实现对汉语结构性短语的识别理解,获得了预期的结果。最后本文对实验结果和反馈式语音识别理解方案进行了讨论。相似文献

6.

汉语语音识别研究面临的一些科学问题 总被引：12，自引：0，他引：12

杜利民侯自强《电子学报》1995,23(10):110-116,61

本文简述汉语语音自动识别从实验室技术过渡到实际商用技术所必须解决的一些科学问题，列举了汉语语音编码的结构特点和规则，强调（１）在汉语音节的声母、韵母层面上的语言模型对语音的识别很有帮助，也会提供文字语言和讲话语言的有用知识；（２）使用区别性导引特征和描述性均匀特征有助于加速语音识别的搜索速度，减少失配和改善对音位变体的细分，本文还着重讨论了在语音信号的声学处理环节提高语音识别鲁棒性的重要问题和途径，文中还提出了标注性学习、提示性猜测的逐步过渡的训练和自适应方法，用于汉语大词汇连续语音识别。相似文献

7.

基于数学形态学的复子波语音谱图特征提取与分析

向建军袁晓封益民《电声技术》2002,(2):19-21

从语音信号的复子波谱图着手，采用形态学图像处理方法提取语谱图中的语音形态。仿真实验取得了良好的效果，谱图中的语音形态较稳健地表征了汉语音节的韵音特征。语音形态的提取对于进一步的语音识别提供了一种新的途径。相似文献

8.

一种面向语音识别的新型神经网络 总被引：1，自引：0，他引：1

王晓明郑宝玉《南京邮电学院学报(自然科学版)》1998,18(4):11-13,18

提出了一种新型神经网络模型，描述了该网络的工作原理和训练方法以及识别算法。为克服神经网络对时序信号建模能力差的缺点，引入了非线性分段处理和代表帧特征提取方法。最后介绍了根据这一模型所设计的一个汉语语音识别系统，试验表明该网络在汉语语音识别方面具有较大的潜力。相似文献

9.

全音节连续汉语语音识别的研究 总被引：3，自引：0，他引：3

傅晓林道发杨家沅《信号处理》1994,(3)

在大词汇量连续汉语语音识别的研究中，我们根据汉语语音自身的特点，选用全音节作为识别单元，与音对文法相结合，以期达到实现大词汇量语音识别的目的．实现连续语音识别时，不需预先切分音节，而使用帧同步型网络搜索算法并在搜索中予以音长控制，用180句未训练过的任意词组成的无文本约束的连续语句对系统进行测试评估，获得了40.40％的音节识别率．相似文献

10.

汉语连续语音识别结果评价算法研究

下载免费PDF全文

刘刚陈伟郭军《中国通信》2010,7(2):132-138

在汉语语音识别中,由于汉语构词的特点,使得基于词的汉语语音识别结果评价不准确。论文对于传统连续语音识别结果评价算法进行了改进,提出了一种基于字词混合的汉语连续语音识别结果评价算法,可以有效完成基于词的识别结果评价,同时也将识别结果评价由四种情况(正确、替代、插入、删除)扩展到六种情况(增加了插入式替代和删除式替代),可以为语音识别的后处理提供更多有用的信息。实验表明,本文所提算法可以有效降低传统评价算法带来的虚假错相似文献

11.

基于DDBHMM的数字语音识别

全刚肖熙《电声技术》2010,34(6):45-47

数字语音识别具有很高的识别率,具有较高的实用价值。为实现在真实噪声环境下能达到高识别率的数字语音识别系统,采用基于段长分布的隐马尔可夫模型（DDBHMM）进行了安静环境和带噪环境下,特定人和非特定人的数字语音识别试验。试验结果表明,基于DDBHMM模型的数字语音识别技术对真实非平稳噪声环境下录制的特定人和非特定人语音都具有较高识别率。相似文献

12.

基于语义的汉语普通话电子喉语音转换增强

下载免费PDF全文

钱兆鹏肖克晶刘蝉孙悦《电子学报》2020,48(5):840-845

电子喉语音存在基频单一、发声机械、辐射噪声大等多种缺陷,这严重影响了电子喉语音可懂度和自然度,特别是对汉语普通话之类的声调语言,问题尤其严重.汉语普通话电子喉语音识别存在辅音混淆的问题并且识别结果没有声调,因此本文在识别结果的基础之上设计了拼音拼写修正器和声调标注工具,再结合基于Tacotron-2的TTS实现了电子喉语音向正常语音的转换.客观评价实验结果表明,拼音拼写修正器可以提高拼音准确率,声调标注在有上下文的语义环境中具有较高准确率.主观听力测试结果表明,本文所提方法在不同语言水平上提高了汉语普通话电子喉语音的可懂度和自然度.研究结果表明,本文设计的方法可以将不带声调的电子喉语音转换为正常语音,相比于传统语音转换方法具有更高的性能. 相似文献

13.

汉语普通话的管辖音系学特征及提取方法

刘娇蛟贺前华韦岗《电子学报》2006,34(10):1917-1919

语音识别中多采用音素作为识别单元,因其数量较多,对神经网络训练复杂度的要求高,在多语言语音识别中需要针对不同语言分别建立识别模块.然而,管辖音系学提出了适用于多语言的语音学特征.本文根据英语和汉语发音的相似性,确定汉语普通话声韵母的GP特征表示形式,并应用神经网络实现特征提取.实验表明,GP特征同样可作为汉语语音的语音学特征. 相似文献

14.

Integration of phonetic and prosodic information for robustutterance verification

Wu C.-H. Chen Y.-J. Yan G.-L. 《Vision, Image and Signal Processing, IEE Proceedings -》2000,147(1):55-61

Mandarin speech is known for its tonal characteristic, and prosodic information plays an important role in Mandarin speech recognition. Driven by this property, phonetic and prosodic information are integrated and used for Mandarin telephone speech keyword spotting. A two-stage strategy, with recognition followed by verification, is adopted. For keyword recognition, 132 subsyllable models, two general acoustic filler models and one background/silence model are separately trained and used as the basic recognition units. For utterance verification, 12 anti-subsyllable models, 175 context-dependent prosodic models and five anti-prosodic models are constructed. A keyword verification function combining phonetic-phase and prosodic-phase verification is investigated. Using a test set of 3088 conversational speech utterances from 33 speakers (20 males and 13 females) and a vocabulary of 2583 faculty names, at 8.5% false rejection, the proposed verification method results in an 18.3% false alarm rate. Furthermore, this method is able correctly to reject 90.9% of non-keywords. Comparison with a baseline system without prosodic-phase verification shows that prosodic information can benefit the verification performance 相似文献

15.

汉语语音识别的抗噪性前端算法及性能分析

林建臻孙甲松王作英《电声技术》2004,(3):45-48,52

讨论了欧洲电信标准委员会ETSI提出的分布式语音识别系统的抗噪前端特征提取算法,该算法融合多种抗噪技术。结合汉语语音的特点,进行了汉语语音识别整体框架下的算法实现,并进行了实验和分析,典型噪声环境下的识别结果证明,相对于基线MFCC特征提取算法,稳健性有较大提高。相似文献

16.

Continuous Mandarin speech recognition for Chinese language withlarge vocabulary based on segmental probability model

Shen J.-L. 《Vision, Image and Signal Processing, IEE Proceedings -》1998,145(5):309-315

The author presents a study of large-vocabulary continuous Mandarin speech recognition based on a segmental probability model (SPM) approach. The SPM was found to be very suitable for recognition of isolated Mandarin syllables especially considering the monosyllabic structure of the Chinese language. To extend the application of the model to continuous Mandarin speech recognition, a concatenated syllable matching (CSM) algorithm in place of the conventional Viterbi search algorithm is first introduced. Also, to utilise the available training material efficiently, a training procedure is proposed to re-estimate the SPM parameters using the maximum a posteriori (MAP) algorithm. A few special techniques integrating acoustic and linguistic knowledge are developed further to improve the performance step by step. Preliminary experimental results show that the final achievable rate is as high as 91.62%, which indicates a 18.48% error rate reduction and more than three times faster than the well studied subsyllable-based CHMM 相似文献

17.

Talk to the machine 总被引：2，自引：0，他引：2

《Spectrum, IEEE》2002,39(9):60-64

With better chips and faster algorithms, device makers are putting voice interfaces in PDAs, cellphones, and cars. Philips has streamlined its standard speech recognition engine to run on the Compaq 3600 PDA. This Mandarin language recognizer prototype can distinguish 40 000 words. The basics of today's speech recognizers were first worked out in the early 1970s by researchers at IBM Corp. and Carnegie Mellon University. Since then, assorted companies and university groups have made incremental advances in the science and technology. 相似文献

18.

CMOS current-mode implementation of spatiotemporal probabilistic neural networks for speech recognition

Chung-Yu Wu Ron-Yi Liu 《The Journal of VLSI Signal Processing》1995,10(1):67-84

In this paper, a Spatiotemporal Probabilistic Neural Network (SPNN) is proposed for spatiotemporal pattern recognition. This new model is developed by applying the concept of Gaussian density function to the network structure of the SPR (Spatiotemporal Pattern Recognition). The main advantages of this model include faster training and recalling process for patterns. In addition, the overall architecture is also simple, modular, regular, locally connected, and suitable for VLSI implementation. One set of independent speaker isolated (Mandarin digit) speech database is used as an example to demonstrate the superiority of the neural networks for spatiotemporal pattern recognition. The testing result with a reduced error rate of 7% shows that the SPNN is very attractive and effective for practical applications. p ]The CMOS current-mode IC technology is used to implement the SPNN to achieve the objective of minimum classification error in a more direct manner. In this design, neural computation is performed in analog circuits while template information is stored in digital circuits. The prototyping speech recognition processor for the 12th LPC calculation is designed by 1.2μm CMOS technology. The HSPICE simulation results are also presented, which verifies the function of the designed neural system. 相似文献