首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 507 毫秒
1.
维吾尔语双音节词元音格局研究   总被引:1,自引:0,他引:1  
从高自然度语音合成与高精度语音识别技术研究的实际应用需求出发,采用实验语音学的方法研究了维吾尔语双音节词中的元音格局。为此,从"维吾尔语语音声学参数库"中选取了包括维吾尔语元音的双音节词,并分别对词首音节和词尾音节中的元音共振峰频率值进行统计分析,利用Joos方法比较详细地归纳出了维吾尔语词首和词尾音节元音格局以及它们之间的区别,绘制出了维吾尔语双音节词元音的共振峰模式。首次用实际实验数据验证了维吾尔语元音舌位特点符合传统"口耳之学"结论。研究结果对维吾尔语语言乃至整个阿尔泰语系语言的语音研究及应用开发具有较高的参考价值。  相似文献   

2.
由于哈萨克语构词法的特点,九个元音的声频特性在语音识别中具有重要的作用。该文采用实验语音学的基本理论和方法,研究了哈萨克语多音节词中的元音格局。针对从语音库中挑选的1 062个多音节词,分别对其词首、词腹和词尾音节中的元音共振峰频率值进行统计,并采用Joos方法详细地归纳和分析了哈萨克语词首、词腹和词尾音节元音格局以及存在的差异,绘制出了哈萨克语多音节词元音的共振峰模式。该项研究结果对哈萨克语的语音研究及应用具有较高的参考价值。  相似文献   

3.
维吾尔语中清化元音的实验语音学研究   总被引:1,自引:0,他引:1  
该文根据语音合成与识别等语音应用研究的需求,从文本分析模块入手,利用“维吾尔语语音声学参数库”,选择了带高元音/i/,/u/和/ü/的多音节词(双音节、三音节词),分别对其发生清化和保持原来浊特性时的三种高元音的时长,音高和音强进行了统计分析,归纳了其发生清化时的时长、共振峰和音强在开音节和闭音节中的分布模式,从实验语音学的角度出发,进一步探讨了维吾尔语中三个高元音的清化特性,并验证了语言学者凭听力和生理而总结出来的结论与声学上的结论的一致性。其目的是为了提高语音合成的自然度即更好的为自然语言处理服务。该项研究对维吾尔语语言乃至整个阿尔泰语系语言的韵律研究具有较高的参考价值。  相似文献   

4.
该文从提高语音合成自然度的实际需求出发,首次从实验语音学的角度从《维吾尔语语音声学参数库》中统计出了333个三音节词,其中再筛选了93个全和谐词和半和谐词,并对其元音的宽带共振峰模式、共振峰值、音高、时长和音强等韵律参数进行了统计分析,归纳了其共振峰、音高、时长和音强分布特点来考察元音和谐的基本声学特征,总结出了一些重要的规则和结论,为参数式或波形拼接式语音合成系统中调整合成前的元音和谐问题提供了重要的参考依据。  相似文献   

5.
该文根据语音合成与识别等语音应用研究的需求,从文本分析模块入手,利用“维吾尔语语音声学参数库”,选择了包含鼻音m、n和的单音节以及多音节词,提取它们的声学参数并进行统计分析,归纳了其共振峰、音强和时长分布模式,研究了鼻音的两个变体,从实验语音学的角度出发进一步探讨了鼻音的声学特性,并总结出了一系列结论。其目的是为了提高语音合成的自然度即更好的为自然语言处理服务。该项研究结果对维吾尔语语言乃至整个阿尔泰语系语言的韵律研究具有较高的参考价值。  相似文献   

6.
该文对不同语速下,人工标注的维吾尔语连续语音语料中各音素进行共振峰频率、音长、音强的统计分析,并完成辅-元结构下的塞音、塞擦音的声学特征分析。该文通过美尔频率倒谱系数与共振峰频率等声学特征的融合及模型状态数的修改,对维吾尔语音素识别的声学模型进行了改进,并验证了不同声学特征对音素识别的影响。相比于基线系统,改进后声学模型的识别率取得一定提升。同时,利用语音学知识分析维吾尔语易混淆音素产生原因,为音素识别声学模型的进一步改进提供参考依据。  相似文献   

7.
维吾尔语词首音节元音声学分析   总被引:1,自引:0,他引:1  
该文利用“维吾尔语语音声学参数数据库”,统计分析和归纳了维吾尔语词首音节元音的共振峰模式及其分布格局。声学元音图有多种画法,该文采用JOOS型声学元音图。这种元音图的特点是以F1为纵坐标,以F2为横坐标。这样绘制成的声学元音图与元音舌位图有很好的对应性。维语标准音词首音节中有[y, i, e, O, u, o, ;, A]等8个元音。舌位前后的分布特点是[u, o, A]为后元音,[y, i, e, O, ;]为前元音;开口度(舌位高低)分布特点是[y, i, u]为高元音,[e, O, o]为次高元音,[;]为次低元音, [A]为低元音.  相似文献   

8.
反映声道(谐振器)物理特性且不易受环境影响的元音共振峰可以更好地反映说话人的声纹特征,为此提出了说话人共振峰自适应MFCC(梅尔倒谱系数)特征提取SOC(片上系统)设计。首先提取说话人语音元音的三组共振峰来设计Mel三角形滤波器组,并基于传统MFCC与共振峰改进MFCC矩阵参数比值设计自适应融合说话人语音特征以改进MFCC。在MATLAB中完成性能仿真,在QUARTUS II中完成VERILOG-HDL代码设计,在FPGA(现场可编程门阵列)开发板上完成SOC设计、编译、仿真和验证下载。结果表明,在较高信噪比环境下,基于自适应融合和共振峰改进的MFCC得到的特征向量比传统的MFCC具有更强的鲁棒性,此技术在说话人声纹身份识别传感器设计中有较大应用推广价值。  相似文献   

9.
在汉语连续语音识别中,准确检测出音节的始点和终点是很重要的一步,传统的端点检测方法在非连续语音中检测准确度很高,但在连续语音中检测准确度会大幅度降低。利用MFCC0参数和汉语元音的共振峰能量设计了一种新的端点检测方法,可以准确检测出汉语连续语音中的音节端点。实验结果表明:这种端点检测方法在低信噪比下也有很高的检测正确率。  相似文献   

10.
针对信道对元音共振峰特征影响的问题,开展了系统实验。首先,采集了8位志愿者的标准录音;其次,用人工嘴播放标准录音,并采用13种不同信道录制了104段信道录音;最后,提取特征音段,在频谱特征定性分析中使用卡方检验来进行分析,并在声学参数量化分析中使用单样本t检验。统计结果表明,约69%的信道对高阶共振峰的总体形态影响显著,约85%的信道的共振峰相对强度存在显著差异;而单样本t检验结果表明,标准录音与信道录音在共振峰中心频率上不存在明显差异。实验结果表明,在对不同信道语音进行同一认定时,应重点关注共振峰的频率特征。  相似文献   

11.
现代维吾尔语语音识别研究尚处于超始阶段,在此介绍了基于中心距离连续概率模型(CDCPM)的维吾尔语非特定人语音识别。CDCPM用中心距离正态(CDN)分布描述模型特征空间,去掉了HMM的状态转移概率矩阵A,对HMM进行了简化和改进。在维吾尔语综合语音库上进行的实验表明:恰当地估计模型状态数和模型混合密度数,当模型数为525个,模型状态数为16,混合密度数为24,维吾尔语非特定人语音识别首选正识率达到97.90%(集内)和94.76%(集外),取得了较好的识别效果。同时,指出了进一步开展维吾尔语语音识别研究的几个问题。  相似文献   

12.
维吾尔语音节语音识别与识别基元的研究   总被引:1,自引:0,他引:1  
王昆仑 《计算机科学》2003,30(7):182-184
1 引言现代维吾尔语(以下简称维语)是维吾尔族人民的主要交际工具,是我国新疆维吾尔自治区的法定工作用语之一,也是新疆其它少数民族共同的交际用语之一。维语属阿尔泰语系,突厥语族。维语语音有元音8个、辅音24个。由辅音和元音构成维语语音音节,每个音节必须且只能有一个元音,单元音可构成音节。维语句子由词构成。句子中有意群重音和句重音。部分音节在语流中产生语流音变现象,常见的有同化、弱化、脱落以及元音和谐等现象。  相似文献   

13.
在2006年年底中央电视台曾经曝光了浙江工商行政管理局披露的4款不合格笔记本电脑,富士通的一款型号为LBP7120的机型便名列其中,然而就在315来临之际,本刊却收到多名读者爆料,反映这款笔记本目前在广州各大IT卖场并未受到任何管束,仍旧有大量产品在进行销售。对此我们也感到非常纳闷,为何一款被曝质量不合格的笔记本仍能在市场上大量销售,而且如此明目张胆呢?为了了解其中的真实情况,本刊记者特别对此展开了深入调查。[编者按]  相似文献   

14.
毕继武  韩纪庆 《计算机科学》2002,29(12):150-153
1 引言话者在心理紧张和情绪变化时语音会发生变异,如在身体不适(如感冒)时、恐惧、愤怒、环境噪声影响下,以及生理情况受到影响(如加速度变化)时,其语音都会发生改变。发音变异可以引起各语音参数的不同变化,以致常规语音识别系统的识别率大大下降。从八十年代末开始,就有人研究顽健(ro-bust)语音识别问题,针对噪声下的研究工作已经取得了非常显著成效,但针对应力影响下变异语音识别的研究则很有限。应力影响下变异语音识别是一个难度较大的问题,因为应力影响同人的发音过程具有直接的物理关系,其所引起的发音  相似文献   

15.
This paper introduces a nonlinear function into the frequency spectrum that improves the detection of vowels, diphthongs, and semivowels within the speech signal. The lower efficiency of consonant detection was solved by implementing the hangover and hangbefore criteria. This paper presents a procedure for faster definition of those optimal constants used by hangover and hangbefore criteria. A nonlinearly changed frequency spectrum is used in the proposed GMM (Gaussian Mixture Model) based VAD (Voice Activity Detection) algorithm. Comparative tests between the proposed VAD algorithm and seven other VAD algorithms were made on the Aurora 2 database. The experiments were based on frame error detection and on speech recognition performance for two types of acoustic training modes (multi-condition and clean only). The lowest average percentage of frame errors was obtained by the proposed VAD algorithm, which also achieved positive improvement in the speech recognition performance for both types of acoustic training modes.  相似文献   

16.
将标准普通话语音数据训练得到的声学模型应用于新疆维吾尔族说话人非母语汉语语音识别时,由于说话人的普通话发音存在较大偏误,将导致识别率急剧下降。针对这一问题,将多发音字典技术应用于新疆维吾尔族说话人汉语语音识别中,通过统计分析识别器的识别错误,建立音素混淆矩阵,获取音素的发音候选项。利用剪枝策略对发音候选项进行剪枝整合,扩展出符合维吾尔族说话人汉语发音规律的替代字典。对三种剪枝方法产生的发音字典的识别结果进行了对比。实验结果表明,使用相对最大剪枝策略产生的发音字典可以显著提高系统识别率。  相似文献   

17.
This paper presents a new hybrid method for continuous Arabic speech recognition based on triphones modelling. To do this, we apply Support Vectors Machine (SVM) as an estimator of posterior probabilities within the Hidden Markov Models (HMM) standards. In this work, we describe a new approach of categorising Arabic vowels to long and short vowels to be applied on the labeling phase of speech signals. Using this new labeling method, we deduce that SVM/HMM hybrid model is more efficient then HMMs standards and the hybrid system Multi-Layer Perceptron (MLP) with HMM. The obtained results for the Arabic speech recognition system based on triphones are 64.68 % with HMMs, 72.39 % with MLP/HMM and 74.01 % for SVM/HMM hybrid model. The WER obtained for the recognition of continuous speech by the three systems proves the performance of SVM/HMM by obtaining the lowest average for 4 tested speakers 11.42 %.  相似文献   

18.
The article studies age related variations of speech characteristics of two age groups, in the Bengali language. The study considers 60 speakers in the each age groups, 60–80 years and 20–40 years, respectively. We have considered different voice source features like fundamental frequency, formant frequencies, jitter, shimmer and harmonic to noise ratio. Cepstral domain feature, Mel Frequency Cepstral coefficients (MFCC) of different voiced Bengali vowels are also analyzed for younger and older adult groups. MFCC feature and Hidden Markov model parameter of different voiced vowels are used to study phoneme dissimilarities measure between two age groups. Age related changes in elderly speech affect the automatic speech recognition performance as was observed in our study, raising the need for specific acoustic models for elderly persons.  相似文献   

19.
Automatic recognition of the speech of children is a challenging topic in computer-based speech recognition systems. Conventional feature extraction method namely Mel-frequency cepstral coefficient (MFCC) is not efficient for children's speech recognition. This paper proposes a novel fuzzy-based discriminative feature representation to address the recognition of Malay vowels uttered by children. Considering the age-dependent variational acoustical speech parameters, performance of the automatic speech recognition (ASR) systems degrades in recognition of children's speech. To solve this problem, this study addresses representation of relevant and discriminative features for children's speech recognition. The addressed methods include extraction of MFCC with narrower filter bank followed by a fuzzy-based feature selection method. The proposed feature selection provides relevant, discriminative, and complementary features. For this purpose, conflicting objective functions for measuring the goodness of the features have to be fulfilled. To this end, fuzzy formulation of the problem and fuzzy aggregation of the objectives are used to address uncertainties involved with the problem.The proposed method can diminish the dimensionality without compromising the speech recognition rate. To assess the capability of the proposed method, the study analyzed six Malay vowels from the recording of 360 children, ages 7 to 12. Upon extracting the features, two well-known classification methods, namely, MLP and HMM, were employed for the speech recognition task. Optimal parameter adjustment was performed for each classifier to adapt them for the experiments. The experiments were conducted based on a speaker-independent manner. The proposed method performed better than the conventional MFCC and a number of conventional feature selection methods in the children speech recognition task. The fuzzy-based feature selection allowed the flexible selection of the MFCCs with the best discriminative ability to enhance the difference between the vowel classes.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号