首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
基于分类回归树CART的汉语韵律短语边界识别   总被引:1,自引:0,他引:1       下载免费PDF全文
提出了一种基于分类回归树(Classification And Regression Tree,CART)的汉语韵律短语识别方法。该方法从语音流中提取与韵律短语边界有关的声学特征,从文本中提取短语边界的语言学特征,并将两类特征有机结合构成CART特征集,建立CART决策模型。开放测试结果显示,利用该CART模型在词边界中识别韵律短语边界,其识别准确率平均可达95.91%。  相似文献   

2.
正确标记短语间的停顿,对提高文语转换系统合成语音的自然度起着重要作用。介绍一种采用最大熵模型从真实自然的语音流中自动识别汉语短语间停顿的方法。模型的特征集包含语音和词法两类特征,采用半自动的方式获得。首先由人工根据经验设计候选特征集,然后采用特征选择算法对候选特征进行筛选,选择更有效的特征构成最终特征集,并训练生成用于汉语短语间停顿识别的最大熵模型。3组实验的结果表明,模型能够取得比较满意的短语间停顿识别效果。  相似文献   

3.
韵律特征是语音信号中情感信息的主要表征之一。为了更好地进行情感语音合成的研究,本文通过提取普通话情感语音的韵律特征进行分析,采用广义回归神经网络构建了一个情感语音韵律特征预测模型,并根据所提取的测试集数据文本语境信息进行韵律特征预测,实验获得了相应的结果。实验结果表明,情感语音韵律特征预测效果较好。  相似文献   

4.
提出了一种基于PAD三维情绪模型的情感语音韵律转换方法。选取了11种典型情感,设计了文本语料,录制了语音语料,利用心理学的方法标注了语音语料的PAD值,利用五度字调模型对情感语音音节的基频曲线建模。在此基础上,利用广义回归神经网络(Generalized Regression Neural Network,GRNN)构建了一个情感语音韵律转换模型,根据情感的PAD值和语句的语境参数预测情感语音的韵律特征,并采用STRAIGHT算法实现了情感语音的转换。主观评测结果表明,提出的方法转换得到的11种情感语音,其平均EMOS(Emotional Mean Opinion Score)得分为3.6,能够表现出相应的情感。  相似文献   

5.
建立好的情感韵律模型是合成情感语音的重要环节,而在情感语音的研究过程中,一个必须面对的现实问题就是通常情感数据量相比于中性数据量要少得多.将一个含有高兴、生气、悲伤3种情感语音的小规模数据库和一个较大规模的中性语音数据库相结合,进行情感韵律建模研究.对影响情感的韵律参数进行了分析,建立了基于人工神经网络的情感韵律模型.针对情感数据量相对于中性数据量的不足而导致的过拟合现象,提出了3种解决办法,即混合语料法、最小二乘融合法和级联网络法.这些方法都在不同程度上扩大了情感语料的作用,使得情感预测效果都有所提高.尤其是级联网络法,将中性模型的结果作为级联网络的一个输入,相当于扩大了情感模型的特征空间,更加强化了情感模型各输入特征的作用,在3种情感的各韵律参数生成中效果是最好的.  相似文献   

6.
基于韵律特征和语法信息的韵律边界检测模型   总被引:2,自引:2,他引:2  
韵律短语边界的自动检测,对语音合成中语料库的韵律标注以及语音识别中韵律短语的自动划分都有重要意义。本文通过对影响韵律短语边界的声学、韵律等参量的分析,得到和韵律短语边界关联性较大的一组声学特征参数、韵律环境参数和语法信息;同时引入语音合成中的韵律预测思想,在假定所有音节边界均为非韵律短语边界时,预测每个音节的基频。最后使用决策树模型,将音节边界处的韵律环境信息、语法信息以及预测结果作为决策树的输入,利用决策树综合判定当前音节边界是否为韵律短语的边界。实验表明,这种方法对于基于确定性文本(text-dependent)的语音韵律短语边界的检测,具有较好效果,同时可以显著提高语音合成中语料库的标注效率和标注结果的一致性。  相似文献   

7.
中文语音合成系统中的一种两层韵律结构生成体系   总被引:1,自引:0,他引:1  
董远  周涛  董乘宇  王海拉 《自动化学报》2010,36(11):1569-1574
韵律结构生成是改进一个语音合成系统中的合成语音的完整度和自然度的重要组成部分. 韵律词和韵律短语的自动切分是中文层级韵律结构的两个重要的基本层面, 本文调研了这个基本问题, 并提出了一种两层韵律结构生成体系. 为此, 我们建立了条件随机场模型为韵律词和韵律短语的预测选取不同的前端特征. 除此之外, 我们还引入了基于转换的错误驱动学习模块来修正后端的初始预测. 实验结果显示, 这种结合条件随机场和错误驱动学习的方法使得韵律词和韵律短语的自动分割的F-score值达到了94.66%.  相似文献   

8.
重音是语言交流中不可或缺的部分,在语言交流中扮演着非常重要的角色。为了验证基于听觉模型的短时谱特征集在汉语重音检测方法中的应用效果,使用MFCC(Mel frequency cepstrum coefficient)和RASTA-PLP(relative spectra perceptual linear prediction)算法提取每个语音段的短时谱信息,分别构建了基于MFCC算法的短时谱特征集和基于RASTA-PLP算法的短时谱特征集;选用NaiveBayes分类器对这两类特征集进行建模,把具有最大后验概率的类作为该对象所属的类,这种分类方法充分利用了当前语音段的相关语音特性;基于MFCC的短时谱特征集和基于RASTA-PLP的短时谱特征集在ASCCD(annotated speech corpus of Chi-nese discourse)上能够分别得到82.1%和80.8%的汉语重音检测正确率。实验结果证明,基于 MFCC的短时谱特征和基于RASTA-PLP的短时谱特征能用于汉语重音检测研究。  相似文献   

9.
针对传统的语音识别系统采用数据驱动并利用语言模型来决策最优的解码路径,导致在部分场景下的解码结果存在明显的音对字错的问题,提出一种基于韵律特征辅助的端到端语音识别方法,利用语音中的韵律信息辅助增强正确汉字组合在语言模型中的概率。在基于注意力机制的编码-解码语音识别框架的基础上,首先利用注意力机制的系数分布提取发音间隔、发音能量等韵律特征;然后将韵律特征与解码端结合,从而显著提升了发音相同或相近、语义歧义情况下的语音识别准确率。实验结果表明,该方法在1 000 h及10 000 h级别的语音识别任务上分别较端到端语音识别基线方法在准确率上相对提升了5.2%和5.0%,进一步改善了语音识别结果的可懂度。  相似文献   

10.
本文将影像组学的方法和机器学习算法结合起来,对脑部胶质瘤进行分级预测。利用BraTS2019公开数据集,从多模态MRI图像中分别提取肿瘤的448维影像组学特征:肿瘤形态学特征、一阶灰度特征、纹理特征等;然后通过最小绝对收缩和选择算子(Lasso)算法筛选出15个最佳的影像组学特征;最后根据筛选出的最佳特征集,利用随机森林分类算法构建脑部胶质瘤的分级预测模型。基于机器学习建立的模型在训练组患者中预测胶质瘤级别的准确率达到95.6%,ROC曲线下面积(AUC)达到0.99;在验证组患者中预测胶质瘤级别的准确率达到89.3%,AUC达到0.96。可见,基于机器学习算法,利用影像组学的方法可以对脑部肿瘤的高低级别进行准确的预测和分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号