期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈锡先蔡长年郭鹏孙颖《北京邮电大学学报》1988,11(1):1

本文提出一种用隐马氏链模型识别汉语声调的新方案。由每一种声调的训练语音求出相应的概率模型参数作为识别模板。识别时,分别用每一种声调的模型参数计算出现输入语声周期序列的概率,概率最大者即为输入语声的声调模型。实验语音选用的是“小学汉语拼音教学录音磁带”,一个男声和一个女声,对于其中的24个韵母和21组拼音音节,正确识别率为98%。相似文献

2.

利用汉语语音音素帧间相关性的唇形特征识别

王蒙军田间王霞李刚《河北工业大学学报》2010,39(3)

为了进一步提高针对汉语语音的唇形特征识别效果,分析实际汉语语音发音过程中声母韵母之间音素的变换规律,以及连读等发音习惯而造成的口形变化,利用唇形特征所对应的音素帧间的相关性,采用二阶隐马尔可夫模型来对唇形特征参数序列进行学习和识别,从而分析汉语唇形识别效果.基于独立汉字发音的实验表明,在针对特定人的识别条件下,在最优的加权因子(m∶n=1.5∶1)特征组合条件下,针对同一组融合得到的特征向量,考虑了音素帧间的相关性后,识别率提高了1.2%.可见汉语音节中音素帧间的相关性与唇形特征的变化规律相对应,有利于提高唇形识别的效果. 相似文献

3.

一种基于RBM的深层神经网络音素识别方法

下载免费PDF全文

陈琦张文林牛铜李弼程《信息工程大学学报》2013,14(5):569-574

为提高连续语音识别中的音素识别准确率,采用深可信网络提取语音音素后验概率进行音素识别.首先利用受限玻尔兹曼机的学习原理,对深可信网络进行逐层的预训练;然后通过增加一个“软最大化（softmax）”输出层,得到用于音素状态后验概率检测的深层神经网络,并采用后向传播算法进行网络权值的精细调整;最后以后验概率为HMM发射概率,使用Viterbi解码器进行音素识别.针对TIMIT语料库的实验结果表明,该系统的音素识别率优于GMM/HMM,MLP/HMM和TANDEM系统性能. 相似文献

4.

汉语声调识别中的基音后处理方法

周韡梁维谦刘润生《桂林电子科技大学学报》2008,28(3)

汉语是一种带有声调的语言,声调信息主要体现在韵母的基音轨迹中,但是由于提取的基音不够稳健,所以必须要对基音进行后处理.通过归纳以帧为单位和以韵母为单位的两类基音后处理方式,并在第一种方式中提出基于韵母平均值进行归一化算法,在第二种方式中提出了帧叠靠前和帧叠靠后的韵母四等分长算法,经实验结果(以标准HTK为平台)得出后者更优的结论.考虑到前后声调的影响,采用声调三音子模型进行声调识别测试,可以比单音子模型识别效果提高10%左右. 相似文献

5.

基于动态贝叶斯网络的大词汇量连续语音识别和音素切分研究 总被引：1，自引：0，他引：1

吕国云蒋冬梅张艳宁赵荣椿 Hichem Sahli 《西北工业大学学报》2008,26(2):173-178

提出一个新颖的单流多状态动态贝叶斯网络(Single stream Multi-states Dynamic Bayesian Network, SM-DBN)模型,以实现大词汇量连续语音识别和音素切分.该模型在Bil m es等人提出的单流动态贝叶斯网络(Single stream Dynamic Bayesian Network, Phone-sh ared,SS-DBN-P)模型(识别基元为词)基础上,增加了一个隐含的状态节点层,每个词由它的对应音素组成,而音素采用固定个数的状态描述,状态和观测向量直接连接.它的识别基元为音素,描述了音素的动态发音变化过程.大词汇量语音识别的实验结果表明:在纯净语音环境下 ,SM-DBN模型的识别率比HMM和SS-DBN-P模型的识别率分别提高了13.01%和35.2%,而音频流的音素切分正确率则分别提高了10%和44%. 相似文献

6.

最大互信息用于语音识别 总被引：3，自引：0，他引：3

张春涛《北京邮电大学学报》1998,21(3):82-85

将最大互信息理论用于语音识别,最大互信息估计作为目标函数。在隐马尔可夫模型参数调整过程中运用了泛化概率下降方法,保证了统计意义上实现目标函数的优化。最大互信息估计用于连接数字语音识别,识别率得到了提高。相似文献

7.

基于区分性特征的音素识别

下载免费PDF全文

李立永张连海《信息工程大学学报》2013,14(6):692-699

针对当前主流的基于统计模型的语音识别系统没有使用语音产生知识的问题,通过模拟人类的语音感知理解过程提出了一种“自下而上”的基于区分性特征的音素识别方法.该方法首先根据不同音素的发音特点检测得到音素的边界信息;然后利用分类器完成语音的区分性特征检测,并根据区分性特征与音素的对应关系建立映射表;最后利用音素的边界信息得到语音段的特征序列,通过对语音段的特征序列模糊搜索匹配实现音素识别.实验结果表明,相比于传统的基于隐马尔科夫模型的音素识别方法,该方法在识别速度、鲁棒性及可扩展性等方面具有明显优势. 相似文献

8.

基于部件HMM级联的联机手写体汉字识别方法 总被引：4，自引：0，他引：4

赵巍刘家锋唐降龙《哈尔滨工业大学学报》2004,36(5):570-573

为了对自由手写汉字进行有效地表征和识别,提出了一种识别自由手写体汉字的级联HMM方法,在部件HMM模型基础上将各模型按照统计概率连接,它扩展了HMM的模式描述方式,允许在级联模型上表征状态的跳跃、转移和驻留等。通过共享手写汉字部件模型来描述级联状态转移概率,可以更可靠地刻画自由手写体的行为特点。采用面向级联的Viterbi算法,无需做部件的分割和标注。通过一定条件下的对比实验训练与识别表明,该方法的第一候选识别率为87.89％,而基于分段HMM识别方法的第一候选识别率为86.17％,降低错误识别率12.4％。相似文献

9.

基于提示方法与知识蒸馏方法的口语语音识别模型构建

郭嘉彭太乐《西华大学学报(自然科学版)》2023,16(6):59-67

提示方法是利用预训练语言模型的一种有效技术,只需要少量的示例就可以使用语言模型进行一个新的自然语言任务。文章提出了一种新的基于提示方法和知识蒸馏方法的语音识别模型（SpokenPrompt-KD模型）。该模型利用Wav2Vec模型将语音转化为预训练语言模型可识别的文本嵌入形式,从而将语言模型的小样本学习能力拓展到语音识别领域,同时通过知识蒸馏方法将教师语言模型中的知识传递给学生语音模型,以提高模型在语音理解任务上的准确性。实验结果表明,在100 h的数据集上进行预训练后,模型在分类任务上的准确率可以达到88.4%,证明了这种小样本学习能力的模型在语音识别领域是可行的、有效的。

相似文献

10.

基于汉语声母韵母发音模型的语音识别

鲍欣张英芳等《西北工业大学学报》1992,10(2):174-180

每个汉字的发音都是由声母、韵母两部分构成的，声母部分发音时音短，信号变化剧烈；而韵母部分发音时间长、信号相对比较平稳。传统的孤立字识别方案是以线性预测系数作为语音模型系数，用动态时间弯折算法进行模式匹配，但它不完全适用于汉语的单音节识别。本文中利用语音信号相邻帧间LPC距离的变化进行声母、韵母分割，并根据声母、韵母的不同特性分别建立模式，提高了声母部分在整个音节模式中的比重，同时大幅度降低了模式的数据量，实验结果表明，汉语单音节的识别速度较传统的PLC/DTW算法提高一倍以上，识别正确率达到95%。相似文献

11.

一种新的激光刻蚀字符的识别方法

《青岛科技大学学报(自然科学版)》2010,(5)

通过对铭牌字符结构特征和字符之间相对关系的分析,提出基于神经网络和隐马尔可夫模型的激光刻蚀字符的识别方法。提取字符图像中的端点、三叉点和四叉点,对传统三叉点的提取方法进行改进,并利用神经网络的方法计算出对应每个字符的概率值,再根据隐马尔可夫模型计算出状态转移的最大似然,从而识别整个字符串。实验表明上述方法适用于激光刻蚀铭牌字符的识别。相似文献

12.

Novel Extended Phonemic Set for Mandarin Continuous Speech Recognition

谢湘匡镜明《北京理工大学学报(英文版)》2003,12(4):399-402

An extended phonemic set of mandarin from the view of speech recognition is proposed. This set absorbs most principles of some other existing phonemic sets for mandarin, like Worldbet and SAMPA-C, and also takes advantage of some practical experiences from speech recognition research for increasing the discriminability between word models. And the experiments in speaker independent continuous speech recognition show that hidden Markov models defined by this phonemic set have a better performance than those based on initial/final units of mandarin and have a very compact size. 相似文献

13.

汉语单字和二字组的声调量化模型

下载免费PDF全文

彭煊王炳锡《信息工程大学学报》2002,3(3):49-53

汉语是有调语言，声调主要表现在FO曲线的变化上，FO曲线特征在单字中变化简单，在连续语音中变化复杂，但连续语音主要由单字，二字组和少量多字组成组成的，因此对连续语音音调的研究可以分解为单字，二字组和多字组的声调研究，本文主要研究单字和二字组声调。对于辨认声调，我们并不关心FO曲线的具体取值，而是对它的变化趋势变化清楚明晰，也便于计算机处理，另外，本文总结了FO曲线中的一些特征点活动规律，这些规律对辨认真调有重要作用。相似文献

14.

不定人语音识别系统 总被引：1，自引：0，他引：1

胡春静吴善培《北京邮电大学学报》1995,18(1):25-30

采用了说话人自适应和大数量人的训练数据两种方法解决不定人语音识别问题,在离散隐马尔可夫模型ＤＨＭＭ孤立字语音识别系统中,采用了３种说话人自适应方法,方法１,方法２为码本自适应,方法３为新人数据自适应,并将新建的１０００人的语音库用于不定人语音识别。实验结果表明,说话人自适应方法均有一定的自适应效果,特别是多码本自适应后,识别率可提高１６％,达到９３％以上;在数据库的采用,使得不定人的数字识别率达到相似文献

15.

大标记集汉语字(词)Markov 语言模型的建立

王轩李巍王晓龙赵淑香《哈尔滨工业大学学报》1997,(5)

给出了一种基于快速排序和归并排序的高阶汉语大标记集Ｍａｒｋｏｖ统计语言模型的统计算法，并对算法的时间复杂性和空间复杂性进行了分析。依据这种统计算法，设计实现了一个汉语字（词）概率统计系统。通过对上千万字的汉语语料的统计，建立起了汉语字（词）一元、二元和三元Ｍａｒｋｏｖ模型，并对统计结果进行了分析。相似文献

16.

Improved hidden Markov model for speech recognition and POS tagging

袁里驰《中南工业大学学报(英文版)》2012,19(2):511-516

In order to overcome defects of the classical hidden Markov model (HMM), Markov family model (MFM), a new statistical model was proposed. Markov family model was applied to speech recognition and natural language processing. The speaker independently continuous speech recognition experiments and the part-of-speech tagging experiments show that Markov family model has higher performance than hidden Markov model. The precision is enhanced from 94.642% to 96.214% in the part-of-speech tagging experiments, and the work rate is reduced by 11.9% in the speech recognition experiments with respect to HMM baseline system. 相似文献

17.

K子空间和时延自相关器的英汉音素识别

罗万伯罗霄岚陈炜彭舰吴端培《电子科技大学学报(自然科学版)》2006,35(1):66-69

提出了用于音素识别的K子空间和时延自相关器神经网络结构,用将时延设计加入线性自相关器,以扩展音素滤波神经网络的方法,产生p维子空间,并采用迭代过程修改划分,以便捕获语音信号中的时间序列信息。这种带不分类训练过程的体系结构提供了一种高识别性能的方法,没有大多数常规语音识别神经网络所常有的网络输出值不表示候选者似然性的缺陷。通过英语音素和汉语音素的初步试验,识别正确率为84.38%,比音素滤波神经网络方法好。相似文献

18.

双模型语音识别中的听视觉合成和模型同步异步性实验研究 总被引：3，自引：0，他引：3

谢磊蒋冬梅 Ilse Ravyse 赵荣椿 Hichem Sahli Werner Verhelst Jan Cornelis 《西北工业大学学报》2004,22(2):171-175

研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法；同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下，后合成方法能够带来比较理想的识别效果；考虑听觉和视觉同步异步性的模型可以有效地提高识别率。相似文献