首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
2.
利用SAPI5完成中文语音音素的分解   总被引:10,自引:6,他引:4  
宋阳  刘胜兰  张燕宏 《微计算机信息》2005,21(3):230-231,27
本文讲述了在基于网络的人-人交互系统中.如何利用SAPI5来进行中文语音音素的分解,介绍了SAPI5语音识别(SR)引擎所提供的服务,在一个已经实现的MPEG-4兼容的人脸动画系统基础上,阐述了其在网络人-人交互系统应用中的设计思路和具体相关实现技术。  相似文献   

3.
基于三音素动态贝叶斯网络模型的大词汇量连续语音识别   总被引:1,自引:0,他引:1  
考虑连续语音中的协同发音现象,基于词-音素结构的DBN(WP-DBN)模型和词-音素-状态结构的DBN(WPS-DBN)模型,引入上下文相关的三音素单元,提出两个新颖的单流DBN模型:基于词-三音素结构的DBN(WT-DBN)模型和基于词-三音素-状态的DBN(WTS-DBN)模型.WTS-DBN模型是三音素模型,识别基元为三音素,以显式的方式模拟了基于三音素状态捆绑的隐马尔可夫模型(HMM).大词汇量语音识别实验结果表明:在纯净语音环境下,WTS-DBN模型的识别率比HMM,WT-DBN,WP-DBN和WPS-DBN模型的识别率分别提高了20.53%,40.77%,42.72%和7.52%.  相似文献   

4.
文中提出了一种改进的LPC语音编码方法,利用某些语音段声道变化缓慢的特性和基于似然比失真来判断LPC系统相似度,可以把LPC的码率降到1.7Kbps以下,而且仍有较好的合成语音质量。  相似文献   

5.
在过去的7至10年间,国际计算机标准界(主要是国际标准组织ISO)开始关注这样一个问题:如何增强计算机对各种民族文字的处理能力以及增强对不同民族习惯的适应性问题。关注这一问题的原因一方面是计算机市场扩大到如日本、中国等非拉丁文国家及地区,另一原因也是遇到了如汉字这种棘手的大字符集问题。这种关注促进制订了一个包括全世界文字(尚未囊括全部文字)的多文种编码字符集。即包括16位编码的(称为UCS-2,已完成)及32位编码的(称为UCS-4,正在开始)通用编码字符集UCS;同时促进在编程语言标准(如Fortran 90及  相似文献   

6.
本文讨论了改进的多脉冲激励线性预测编码(MPLPC)模型的语音编码方法。用MATLAB进行了仿真,并对重构的语音质量进行了研究。  相似文献   

7.
基于语义的多文种编码方案SemaCode   总被引:1,自引:0,他引:1  
分析了现有的几种常用编码方案的优点和缺陷,并提出了一个基于语义的多文种编码方案SemaCode及其模型。SemaCode模型分为六个层次,分别为交换传输层、字符码位层、词码位层、属性层、语义层和应用接口层。SemaCode是一种面向信息处理、可扩展的多文种编码方案,它在码位层SemaCode以字符为单位编码,并在编码中嵌入文种信息;在词码位层提出了以语义为轴心,以词为单位的编码理念;在属性层引入了一种对编码进行描述的标签机制,使得编码具有良好的可描述性和可扩展性;另外,在语义层以及其他层次提出了基于码位和描述协议的语义表示方法,并使得SemaCode成为一种具有部分可计算特性的编码方案。最后,在与Unicode对比的基础上,分析了SemaCode所具有的优势。  相似文献   

8.
论文在研究基音预测多脉冲激励语音编码的基础上提出了改进型预测多脉冲语音编码方法,子帧长度和一个子帧内的激励脉冲用合成分析法进行联合优化搜索得到,语音的分类也在闭环内进行优化判决。克服了基音预测多脉冲方法中语音分类不准和计算基音周期不精确带来的合成语音质量下降问题,使周期性不强和过渡段语言帧得到适当的处理。  相似文献   

9.
构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的识别率比HMM模型平均高12.79%;而纯净语音下,基于DBN模型的音素时间切分结果和三音素HMM模型的切分结果很接近。对基于视频特征的语音识别,DBN模型的识别率比HMM识别率高2.47%。实验最后还分析了音视频数据音素时间切分的异步关系,为基于多流DBN模型的音视频连续语音识别和确定音频和视频的异步关系奠定了基础。  相似文献   

10.
随着Internet的急速发展,VOIP语音通信业务逐渐取代了传统电话.语音编码技术是VOIP的关键技术之一,是保证语音通话质量的重要手段.在VOIP通信原理的基础上,重点介绍适合VOIP语音通信的三种低速率语音编码,并比较它们的编码速率、实际网络带宽、语音质量、编码复杂度和抗误码性能多项技术指标,为设计VOIP系统时选择适当的语音编码方法提供依据.  相似文献   

11.
介绍了一种降低码书搜索复杂度的方法-直接矢量量化(DVQ)方法,将其应用于LD-CELP语音编码算法中的仿真译码器模块和码书搜索模块,用感觉加权逆滤波器代替仿真译码器模块中的综合滤波器,去除了码书搜索模块中冲激响应hn)的运算。实验结果表明,利用直接矢量量化方法简化了码书搜索算法的复杂度,提高了码书搜索算法的效率,在运算时间方面比原始LD-CELP算法快3 s~5 s,同时保持了原编码算法合成语音的音质。  相似文献   

12.
在保证同等音质的前提下,为降低语音编码器中分数基音估计的复杂度,提出一种基于多项式拟合的分数基音估计算法。以整数点相关度序列为基础,在其最大值点附近进行多项式拟合,解析给出分数基音估计值。与现有的基于采样函数插值的分数基音估计算法相比,不使用常数插值表,无插值、遍历和比较操作,实现运算量与插值因子无关,典型情况下的运算复杂度仅为现有算法的1/25。在实际语音编码器中,所提算法对各类语音的客观及主观测试结果表明,其长时预测增益和编码音质都与现有算法相当。  相似文献   

13.
基于分段线性预测算法估计语音的共振峰频率,运用多通道的滤波器组对语音的频段进行划分,然后选择合适的逆滤波器逼近不同频段的短时频谱,最后依据该逆滤波器估计共振峰频率。实验结果表明,与传统方法相比,该方法提高了语音共振峰频率估计时的分辨率与准确性,受噪声的影响较小。  相似文献   

14.
音节是维吾尔语的最小发音单元,所以大部分维吾尔语语音合成系统以音节作为基本的合成单元,但维吾尔语中音节数量很大,语料库很难保证覆盖所有的音节样本,这会导致合成语音不稳定和不连续。为解决合成语音不稳定的情况,提出了结合单音素和三音素两个不同基元的单元挑选算法。通过在单元挑选模块中加入韵律参数相匹配的方法选出最佳韵律匹配的单元并解决了合成语音不连续的情况。实验结果表明,提出的方法有效地解决了合成语音不稳定和不连续的现象,从而提高了合成语音的自然度。  相似文献   

15.
该文对不同语速下,人工标注的维吾尔语连续语音语料中各音素进行共振峰频率、音长、音强的统计分析,并完成辅-元结构下的塞音、塞擦音的声学特征分析。该文通过美尔频率倒谱系数与共振峰频率等声学特征的融合及模型状态数的修改,对维吾尔语音素识别的声学模型进行了改进,并验证了不同声学特征对音素识别的影响。相比于基线系统,改进后声学模型的识别率取得一定提升。同时,利用语音学知识分析维吾尔语易混淆音素产生原因,为音素识别声学模型的进一步改进提供参考依据。  相似文献   

16.
耳语音是噪声源激励,与正常音相比,其共振峰位置发生了偏移,带宽增宽。故采用传统的线性预测法提取耳语音共振峰时存在虚假峰问题。通过分析功率谱,提出了一种改进算法。根据极点功率不变的原则,利用极点交互因子修正共振峰的带宽,从而准确地提取出耳语音的共振峰。对汉语普通话单元音音素仿真实验的结果证明了该算法的有效性。  相似文献   

17.
针对DIVA模型中存在的“感知能力与语音生成技巧发育不平衡”问题,提出了一种自动获取语音-映射单元的方法.该方法将人耳模拟为一个具有不同带宽的并联带通滤波器组,分别与模型中21维度的听觉存储空间相关联,对不同听觉的不同反应,分别考虑其频带的屏蔽效应、听觉响度与频率的关系.在读取语音输入信号的过程中,模型能较好地获得初始听觉表示,其方式与婴儿咿呀学语的过程基本一致.仿真实验表明,通过边界定义、相似性比较以及搜索更新等步骤,此方法能很好地进行初始输入模式的自组织匹配,并最终使DIVA模型更具语音获取的自然特性.  相似文献   

18.
现有的低延迟语音编码算法(LD-CELP)需要16 kb/s比特率,无疑会妨碍它的应用。提出了一种采用两阶段码书搜索的方法可以在提高低延迟语音编码算法性能的同时降低码率。首先构造了两个子码书:一个后向更新的自适应码书和一个具有代数结构的固定码书;然后设计了两阶段码书搜索方法使滤波后的激励矢量和目标矢量之间的均方误差保持最小。这样就得到了一个在8 kHz采样率下具有2.5 ms延迟的10 kb/s两阶段码书搜索的CELP编码器。用平均分段信噪比(SSNR)和感知语音质量评价(PESQ)测试,本算法具有和16 kb/s的G.728相当的编码质量。  相似文献   

19.
根据低延迟语音编码算法训练码书的尺寸和码字维数的特点,提出了一种改进的自组织特征映射(SOFM)神经网络的码书设计方法。对输入训练矢量以及连接权矢量进行归一化,为降低计算量和提高码书训练质量,采用快速的网络学习决定获胜的神经元并对网络权值分阶段进行自适应调整,最后应用于低延迟语音编码中。实验表明,与传统LBG算法比较,采用SOFM神经网络训练的码书其合成语音的主、客观质量均有较大提高。  相似文献   

20.
高健  宋奥  刘万  陈耀 《计算机应用》2011,31(6):1578-1580
结合前像素预测编码方法和Lempel-Ziv-Welch(LZW)编码思想并针对其对于变化频率较高的信号压缩效率较低的问题,提出了一种通过利用图像像素之间相关性构建静态串表对数字图像进行无损压缩的编码方法。通过对前向预测编码处理后的图像数据进行查表编码来实现图像无损压缩。实验结果表明该方法实现简单,压缩效率高于LZW算法和WinZIP算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号