共查询到20条相似文献,搜索用时 231 毫秒
1.
计算机辅助汉语教学系统中语音评价体系初探 总被引:3,自引:3,他引:0
本文探讨和研究计算机辅助汉语教学系统中语音评价体系的组成与实现方法。采用标准普通话语音示教数据库和非特定人大词汇量标准普通话汉语语料数据库,建立标准普通话示教语句特征模板库。采用Kohonen自组织神经网络进行学习者语音信号的分类与识别,经过汉语语音教学效果评价系统的处理,获得相应的量化评价结果。初步给出了计算机辅助汉语教学系统中语音评价体系的总体框架及其实现方法。通过实验验证了本语音评价体系的设计方案是合理的、可行的。它基本上能够满足计算机辅助汉语教学系统在线评价学生语音学习效果的需要。 相似文献
2.
为了进行有效的语音信号处理,并降低语音信号的冗余度,通常采用端点检测技术来提取语音信号中的有效部分。本文在传统语音端点检测方法的基础上,提出了一种基于基音周期对语音段末尾进行判别的方法,针对汉语发音都是以浊音结尾的特点,同时利用基音周期对浊音段信号比较敏感这一特性,能够有效地避开汉语语音信号尾部拖音段中所包含的无效信息,既提高了端点检测的准确性,又减少了后续语音识别系统样本训练时间。实验结果证明,该方法对于汉语中孤立词末尾的拖音段,可以得到较好的端点检测效果。 相似文献
3.
4.
针对染有加性噪声的语音信号,提出了一种基于信号子空间和信息复杂度相结合的语音端点检测方法。该方法先利用信号子空间法去除加性噪声,再对增强后的语音利用信息复杂度进行端点检测。实验仿真表明,该方法相对传统的语音端点检测方法,能提高语音端点检测准确率,特别在低信噪比条件下具有较高的端点检测准确率。 相似文献
5.
6.
一种基于能频积实现连续语音端点检测的方法 总被引:5,自引:0,他引:5
端点检测是语音识别中重要的一环。传统的连续语音的端点检测主要是利用短时能量和过零率。本文把传统的方法加以改进,利用短时能量和过零率把连续语音进行第一次提取,然后利用能频积对不是独立的字进行第二次提取。利用两次提取的方法实现了在连续语音中把每个字提取出来。 相似文献
7.
该文通过对噪音和语音频谱特性的分析,针对不同使用环境,采用不同方法对语音信号进行端点检测。利用短时过零率、短时幅度和语音持续时间实现准静音环境下的端点检测,对语音频谱进行增强处理,实现噪音环境下的端点检测。 相似文献
8.
SHI Hai- yan 《数字社区&智能家居》2008,(18)
语音信号端点检测是语音信号的预处理,正确的语音信号端点检测结果直接影响语音识别等后续工作的运算量和准确率。本文介绍了时域方法中基于短时能量的语音信号端点检测方法,并用三种不同的短时能量计算方式和五种短时能量阈值进行了端点检测实验。 相似文献
9.
本文探讨和研究计算机辅助汉语教学系统中语音评价体系的组成与实现方法。即建立标准普通话示教语句特征模板库,采用Kohonen自组织神经网络进行学习者语音信号的分类与识别,经过汉语语音教学效果评价系统的处理,获得相应的量化评价结果。 相似文献
10.
11.
在语音信号的识别、去噪等过程中通常只需对有声段进行处理,并且对语音段和噪声段可能需要采取不同的处理方法。相关函数描述的是随机信号在不同时刻取值的关联程度,由于噪声的随机性,噪声的相关函数和语音的相关函数有很大的不同,利用此不同点可以进行语音的端点检测。基于此提出了自相关函数的语音端点检测方法,并对比了经典的双门限法--基于短时平均能量和短时平均过零率的双门限判决法。实验表明该方法具有较高的准确性,并且在较低信噪比下能取得比短时平均能量和短时平均过零率的判决法更好的效果。 相似文献
12.
重音是语言交流中不可或缺的部分,在语言交流中扮演着非常重要的角色。为了验证基于听觉模型的短时谱特征集在汉语重音检测方法中的应用效果,使用MFCC(Mel frequency cepstrum coefficient)和RASTA-PLP(relative spectra perceptual linear prediction)算法提取每个语音段的短时谱信息,分别构建了基于MFCC算法的短时谱特征集和基于RASTA-PLP算法的短时谱特征集;选用NaiveBayes分类器对这两类特征集进行建模,把具有最大后验概率的类作为该对象所属的类,这种分类方法充分利用了当前语音段的相关语音特性;基于MFCC的短时谱特征集和基于RASTA-PLP的短时谱特征集在ASCCD(annotated speech corpus of Chi-nese discourse)上能够分别得到82.1%和80.8%的汉语重音检测正确率。实验结果证明,基于 MFCC的短时谱特征和基于RASTA-PLP的短时谱特征能用于汉语重音检测研究。 相似文献
13.
14.
语音驱动唇形动画的同步是人脸动画的难点之一。首先以音节为识别单位,通过严格的声韵母建模方法,利用HTK工具包,识别得到语音文件中的音节序列与时间信息;然后利用基本唇形库和音节到唇形映射表,获得与音节序列对应的唇形序列;利用唇形序列的时间信息插值播放唇形序列,实现语音驱动的唇形动画。实验表明,该方法不仅大大减少了模型数目,而且能准确识别音节序列以及时间信息,可有效地实现语音与唇动的同步。 相似文献
15.
在汉语连续语音识别中,准确检测出音节的始点和终点是很重要的一步,传统的端点检测方法在非连续语音中检测准确度很高,但在连续语音中检测准确度会大幅度降低。利用MFCC0参数和汉语元音的共振峰能量设计了一种新的端点检测方法,可以准确检测出汉语连续语音中的音节端点。实验结果表明:这种端点检测方法在低信噪比下也有很高的检测正确率。 相似文献
16.
Lei Xie 《Multimedia Systems》2008,14(4):237-253
This paper investigates speech prosody for automatic story segmentation in Mandarin broadcast news. Prosodic cues effectively
used in English story segmentation deserve a re-investigation since the lexical tones of Mandarin may complicate the expressions
of pitch declination and reset. Our data-oriented study shows that story boundaries cannot be clearly discriminated from utterance
boundaries by speaker normalized pitch features due to their large variations across different Mandarin syllable tones. We
thus propose to use speaker- and tone-normalized pitch features that can provide clear separations between utterance and story
boundaries. Our study also shows that speaker-normalized pause duration is quite effective to separate between story and utterance
boundaries, while speaker-normalized speech energy and syllable duration are not effective. Experiments using decision trees
for story boundary detection reinforce the difference between English and Chinese, i.e., speaker- and tone-normalized pitch
features should be favorably adopted in Mandarin story segmentation. We show that the combination of different prosodic cues
can achieve a very high F-measure of 93.04% due to the complementarity between pause, pitch and energy. Analysis of the decision tree uncovered five
major heuristics that show how speakers jointly utilize pause duration and pitch to separate speech into stories. 相似文献
17.
18.
语音端点检测是语音识别系统的一个重要组成部分,特别是在噪声环境下,其准确性直接影响到语音识别系统的计算复杂度和识别性能。提出了一种在噪声环境下基于短时TEO能量的语音信号端点检测方法,采用了双门限-三态转换判决机制以保证算法在噪声环境下的端点检测准确性和对信号绝对幅度变化的稳健性。实验结果表明,与传统的短时能量法和谱熵法相比,该算法在低信噪比情况下具有更好的端点检测能力,显示了算法的优越性。 相似文献
19.
20.
Fréjus A. A. Laleye Eugène C. Ezin Cina Motamed 《Multimedia Tools and Applications》2017,76(15):16347-16368
In this paper, we study the boundary detection in syllable segmentation field. We describe an algorithm proposed for text-independent syllable segmentation. This algorithm provides a performance comparison between the entropies of Shannon, Tsallis and Renyi in an effective detection of beginning-ending points of syllable in a speech signal. The Shannon generalizations (Tsallis and Renyi) quantify the degree of signal organization and offer the relevant information such as the voicing degree on the first syllable segment that we obtained from the temporal dynamics of singularity exponents. The method we propose is focused on an aggregation measure based on entropies to enhance the syllable boundaries detection. It has been also demonstrated in this paper that the best suited entropy for efficient boundary detection is Renyi entropy. Once evaluated, our algorithm produced better performance with efficient results on two languages, i.e., the Fongbe (an African tonal language spoken especially in Benin, Togo, and Nigeria) and an American English. The overall accuracy of syllable boundaries was obtained on Fongbe dataset and validated subsequently on TIMIT dataset with a margin of error < 5m s. 相似文献