排序方式: 共有26条查询结果,搜索用时 15 毫秒
12.
基于动态贝叶斯网络的大词汇量连续语音识别和音素切分研究 总被引:1,自引:0,他引:1
提出一个新颖的单流多状态动态贝叶斯网络(Single stream Multi-states Dynamic Bayesian Network, SM-DBN)模型,以实现大词汇量连续语音识别和音素切分.该模型在Bil m es等人提出的单流动态贝叶斯网络(Single stream Dynamic Bayesian Network, Phone-sh ared,SS-DBN-P)模型(识别基元为词)基础上,增加了一个隐含的状态节点层,每个词由它的对 应音素组成,而音素采用固定个数的状态描述,状态和观测向量直接连接.它的识别基元为音 素,描述了音素的动态发音变化过程.大词汇量语音识别的实验结果表明:在纯净语音环境下 ,SM-DBN模型的识别率比HMM和SS-DBN-P模型的识别率分别提高了13.01%和35.2%,而 音频流的音素切分正确率则分别提高了10%和44%. 相似文献
13.
针对传统量子进化算法用于搜索某些适应度函数时稳定性和精确性差的问题,在计算量子旋转角时引入内分泌激素调节规律,使得量子旋转角根据种群进化代数及个体适应度值自适应调整,提出了一种基于内分泌激素调节机制的量子进化算法.并用于Schaffer函数寻优和三维人脑图像分割.仿真实验结果表明,该算法不仅保留了传统量子进化算法收敛速... 相似文献
14.
文中介绍了一种双边PWM调制的数字D类放大器调制模块,使用伪自然采样法消除谐波失真。该伪采样算法是将牛顿-拉夫森迭代法和多项式逼近法相结合而形成的。近年来,虽有较多关于前沿PWM调制(LEPWM)和后沿PWM调制(TEPWM)的数字D类放大器的文献,但基于双边PWM(DEPWM)调制的数字 D类放大器方面的文献较少。因此本文利用现有的噪声整形技术,基于牛顿-拉夫森迭代法的伪采样算法等实现了一种用于数字D类放大器的双边PWM调制模块,并使用FPGA搭建了一个24位立体声数字音频D类放大器调制系统。经测试,该调制系统THD+N@6 kHz性能达到-80.5 dB。 相似文献
15.
构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的识别率比HMM模型平均高12.79%;而纯净语音下,基于DBN模型的音素时间切分结果和三音素HMM模型的切分结果很接近。对基于视频特征的语音识别,DBN模型的识别率比HMM识别率高2.47%。实验最后还分析了音视频数据音素时间切分的异步关系,为基于多流DBN模型的音视频连续语音识别和确定音频和视频的异步关系奠定了基础。 相似文献
16.
17.
引入一种基于贝叶斯切线形状模型(BTSM)的口形轮廓特征提取和基于线性判别分析(LDA)的视觉语音动态特征提取方法,该特征充分体现了口形特征变化的动态性,消除了直接口形轮廓几何特征的冗余.同时采用一种新颖的多流异步动态贝叶斯网络(MS-ADBN)模型来实现音视频的连续语音识别,该模型在词节点级别体现了音视频流的同步异步性.识别实验结果表明:采用LDA视觉语音动态特征的系统性能明显优于静态的口形轮廓几何特征,在语音信噪比为0~30 dB的测试环境下,融合LDA视觉特征的MS-ADBN模型比多流异步HMM的平均识别率提高4.92%,说明MS-ADBN模型更好地表达了音视频流之间的异步关系. 相似文献
18.
19.
20.
考虑连续语音中的协同发音问题,提出基于词内扩展的单流上下文相关三音素动态贝叶斯网络(SS-DBN-TRI)模型和词间扩展的单流上下文相关三音素DBN(SS-DBN-TRI-CON)模型。SS-DBN-TRI模型是Bilmes提出单流DBN(SS-DBN)模型的改进,采用词内上下文相关三音素节点替代单音素节点,每个词由它的对应三音素单元构成,而三音素单元和观测向量相联系;SS-DBN-TRI-CON模型基于SS-DBN模型,通过增加当前音素的前音素节点和后音素节点,构成一个新的词间扩展的三音素变量节点,新的三音素节点和观测向量相联系,采用高斯混合模型来描述,采用数字连续语音数据库的实验结果表明:SS-DBN-TRI-CON具备最好的语音识别性能。 相似文献