期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张建明彭锦涛贾洪杰毛启容《信号处理》2023,39(4):678-687

情感语音合成作为语音合成的一个重要分支,在人机交互领域得到了广泛的关注。如何获得更好的情感嵌入并有效地将其引入到语音合成声学模型中是目前主要存在的问题。表达性语音合成往往从参考音频中获得风格嵌入,但只能学习到风格的平均表示,无法合成显著的情感语音。该文提出一种基于条件变分自编码器的端到端情感语音合成方法（Conditional Duration-Tacotron,CD-Tacotron）,该方法在Tacotron2模型的基础上进行改进,引入条件变分自编码器从语音信号中解耦学习情感信息,并将其作为条件因子,然后通过使用情感标签将其编码为向量后与其他风格信息拼接,最终通过声谱预测网络合成情感语音。在ESD数据集上的主观和客观实验表明,与目前主流的方法GST-Tacotron和VAE-Tacotron相比,该文提出的方法可以生成更具表现力的情感语音。相似文献

2.

采用局部相位量化的合成语音检测方法

徐嘉简志华金宏辉杨曼《电信科学》2024,(2):63-71

由于语音合成的便利性,合成伪装语音对说话人认证系统的安全构成了很大的威胁。为了进一步提升说话人认证系统的伪装语音检测能力,提出了一种利用语谱图频域信息的合成语音检测方法,它通过局部相位量化算法对语谱图频域信息进行描述。首先,将语谱图分为若干子块,然后对每个子块进行局部相位量化,经直方图统计分析后获得局部相位量化特征向量并将该特征向量作为随机森林分类器的输入特征,实现合成语音检测。实验结果表明,该方法进一步降低了合成语音检测系统的串联检测代价数值,并且具有更强的泛化能力。相似文献

3.

基于HMM的可训练情感语音合成研究 总被引：1，自引：0，他引：1

陈洁张雪英孙颖《电声技术》2012,36(3):43-46

研究了基于HMM的英语语音合成系统,并通过分析情感语句的语调,得到高兴、生气、悲伤、平静四种不同情感类型的基音频率、能量和时长的变化规律。将基于HMM的可训练语音合成方法应用到英语情感语音合成,对基于HMM所合成的平静语音,叠加相应情感的语调变化规则,通过修改韵律特征参数合成出带有情感的语音。从所合成情感语句的效果来看,合成语音整体稳定流畅、情感特征明显,且合成系统可以快速构成。相似文献

4.

基于音色一致的语音克隆说话人特征提取方法

下载免费PDF全文

李嘉欣张连海李宜亭《信号处理》2023,39(4):719-729

当前基于预训练说话人编码器的语音克隆方法可以为训练过程中见到的说话人合成较高音色相似性的语音,但对于训练中未看到的说话人,语音克隆的语音在音色上仍然与真实说话人音色存在明显差别。针对此问题,本文提出了一种基于音色一致的说话人特征提取方法,该方法使用当前先进的说话人识别模型TitaNet作为说话人编码器的基本架构,并依据说话人音色在语音片段中保持不变的先验知识,引入一种音色一致性约束损失用于说话人编码器训练,以此提取更精确的说话人音色特征,增加说话人表征的鲁棒性和泛化性,最后将提取的特征应用端到端的语音合成模型VITS进行语音克隆。实验结果表明,本文提出的方法在2个公开的语音数据集上取得了相比基线系统更好的性能表现,提高了对未见说话人克隆语音的音色相似度。相似文献

5.

基于CRNN混合神经网络的多语种识别

王瑶龙华邵玉斌杜庆治王延凯《光电子．激光》2022,33(6):620-628

在语种识别过程中,为提取语音信号中的空间特征以及时序特征,从而达到提高多语种识别准确率的目的,提出了一种利用卷积循环神经网络(convolutional recurrent neural network,CRNN)混合神经网络的多语种识别模型。该模型首先提取语音信号的声学特征;然后将特征输入到卷积神经网络(convolutional neural network,CNN) 提取低维度的空间特征;再通过空间金字塔池化层(spatial pyramid pooling layer,SPP layer) 对空间特征进行规整,得到固定长度的一维特征;最后将其输入到循环神经网络(recurrenrt neural network,CNN) 来判别语种信息。为验证模型的鲁棒性,实验分别在3个数据集上进行,结果表明:相比于传统的CNN和RNN,CRNN混合神经网络对不同数据集的语种识别准确率均有提高,其中在8语种数据集中时长为5 s的语音上最为明显,分别提高了 5.3% 和6.1%。相似文献

6.

基于跨语种声学分析的帕金森病检测方法

季薇王传瑜吴迪李云郑慧芬《电子与信息学报》2024,(2):546-554

基于语音的帕金森病检测具有非介入式、成本较低和无创等优点。当前公开的帕金森病语音数据集大多来源于单一语种,存在数据容量不够大、受试者母语发音特点差异小等特点。单一语种数据集上训练的帕金森病检测模型在面对跨语种语音数据时,将出现性能下降。为避免语种差异带来的影响,提升模型在跨语种场景下的检测性能,该文引入对抗迁移学习和特征解耦的思想,提出一种帕金森病跨语种声学分析模型(CLSAM)。首先,将基于多头自注意力机制的Transformer编码块和多层神经网络级联,组成特征提取器模块,用于将从源域和目标域语音中提取的原始Fbank语音特征初步解耦为两个向量,即域不变病理信息表征向量和域信息表征向量;设计了目标任务不一致的双重对抗训练模块,显式地分离域不变病理信息和域信息;最终,提取跨语种语音数据中的域不变病理信息用于帕金森病检测。该文在公开的MaxLittle帕金森病语音数据集以及自采的帕金森病语音数据集上,采用十折交叉验证的方法验证了所提方法的有效性。实验结果表明：与传统机器学习方法以及现有的迁移学习算法相比,所提模型在跨语种场景中的检测准确率、敏感度和F1分数等性能均有明显提升。相似文献

7.

汉语连续语流的重音自动标注研究

陈立江王柯柯《电声技术》2017,(11):88-94

重音是语音合成、语音识别、语音情感识别中表征韵律信息的一个重要参数,对提高语音合成系统的自然度、语音识别系统的准确率、语音情感识别系统的正确率等有着重要的作用.基于汉语双模情感语音数据库(ChineseDual-mode Emotional Speech Database,CDESD),采用改进的双门限判决法对连续语音进行音节分割,将音节的声学相关特征作为输入,数据库中人工标注的重音信息作为监督,建立了基于神经网络以及支持向量机(Support Vector Machine,SVM)的两种重音预测模型.实验表明,基于SVM的重音预测模型具有更好的分类效果,在CDESD能够获得82.89％的识别率. 相似文献

8.

科大讯飞让语音合成技术深入社会生活

吴明《通信世界》2006,(6):15

语音技术是现代信息社会及网络经济的关键驱动技术之一.科大讯飞公司在研究面向网络环境及嵌入式环境下的语音合成技术(Text-to-Speech)的基础上,针对复杂的网络环境及有限资源特征的终端设备,实现了高品质的语音合成效果.在国家863计划、国家自然科学基金、国家973计划、电子工业发展基金等支持下,科大讯飞公司在基于语料库的合成技术、鲁棒性文本分析、听感量化的音库裁减技术、中文语音合成标记语言等关键技术上取得了一系列的重要创新和突破,实现了在复杂的网络环境及嵌入式终端设备上,将文本实时合成自然流畅的语音,整体技术达到了国际领先水平. 相似文献

9.

中文HMM参数化语音合成系统构建 总被引：1，自引：0，他引：1

胡克康世胤郝军《通信技术》2012,45(8):101-103,108

在语音合成领域,大语料库拼接合成方式有一些固有弱点,例如语料库建设成本过高,合成稳定性差等。而基于隐马尔可夫模型(HMM)的语音合成技术在多样化语音合成、多语言支持、系统资源占用方面优势明显。分析了基于HMM的参数化语音合成技术的基本结构和核心算法,研究语料库建设,声学参数提取,建模单元和HMM拓扑结构选择等问题,给出适合于中文语音的参数设置,实现基于HMM的参数化中文语音合成。相似文献

10.

高质量4~8kb/s变速率有限状态ACELP语音编码算法研究 总被引：3，自引：0，他引：3

唐昆崔慧娟刘志勇冯重熙《电子学报》2000,28(1):21-25

4~8kb/s变速率有限状态代数码激励线性预测语音编码(VR-FS-ACEL)是一种具有延时较短、合成语音质量高、算法复杂度较低的语音编码算法.在线性预测(LP)参数量化上,使用预测式分裂式矢量量化,获得很高的量化效率.在自适应码本搜索上,采用了有限状态控制分数延时搜索的算法,有效地降低了运算量.对于随机码本,采用了具有多模结构的代数码本,提高语音合成质量.对于激励码序列的增益,采用了预测式矢量量化,有效地提高了量化精度.经非正式听音测试,其中4kb/s的合成语音质量超过了北美8kb/s VSELP,接近长途质量,而6kb/s和8kb/s合成语音质量达到了长途质量,与G.7298kb/s CS-ACELP相当. 相似文献

11.

On adaptive decision rules and decision parameter adaptation forautomatic speech recognition

Chin-Hui Lee Qiang Huo 《Proceedings of the IEEE. Institute of Electrical and Electronics Engineers》2000,88(8):1241-1269

Recent advances in automatic speech recognition are accomplished by designing a plug-in maximum a posteriori decision rule such that the forms of the acoustic and language model distributions are specified and the parameters of the assumed distributions are estimated from a collection of speech and language training corpora. Maximum-likelihood point estimation is by far the most prevailing training method. However, due to the problems of unknown speech distributions, sparse training data, high spectral and temporal variabilities in speech, and possible mismatch between training and testing conditions, a dynamic training strategy is needed. To cope with the changing speakers and speaking conditions in real operational conditions for high-performance speech recognition, such paradigms incorporate a small amount of speaker and environment specific adaptation data into the training process. Bayesian adaptive learning is an optimal way to combine prior knowledge in an existing collection of general models with a new set of condition-specific adaptation data. In this paper, the mathematical framework for Bayesian adaptation of acoustic and language model parameters is first described. Maximum a posteriori point estimation is then developed for hidden Markov models and a number of useful parameters densities commonly used in automatic speech recognition and natural language processing 相似文献

12.

基于本征音子说话人子空间的说话人自适应算法

屈丹张文林《电子与信息学报》2015,37(6):1350-1356

本征音子说话人自适应算法在自适应数据量充足时可以取得很好的自适应效果,但在自适应数据量不足时会出现严重的过拟合现象。为此该文提出一种基于本征音子说话人子空间的说话人自适应算法来克服这一问题。首先给出基于隐马尔可夫模型-高斯混合模型(HMM-GMM)的语音识别系统中本征音子说话人自适应的基本原理。其次通过引入说话人子空间对不同说话人的本征音子矩阵间的相关性信息进行建模;然后通过估计说话人相关坐标矢量得到一种新的本征音子说话人子空间自适应算法。最后将本征音子说话人子空间自适应算法与传统说话人子空间自适应算法进行了对比。基于微软语料库的汉语连续语音识别实验表明,与本征音子说话人自适应算法相比,该算法在自适应数据量极少时能大幅提升性能,较好地克服过拟合现象。与本征音自适应算法相比,该算法以较小的性能牺牲代价获得了更低的空间复杂度而更具实用性。相似文献

13.

Speaker Adaptation of Hybrid NN/HMM Model for Speech Recognition Based on Singular Value Decomposition

Shaofei Xue Hui Jiang Lirong Dai Qingfeng Liu 《Journal of Signal Processing Systems》2016,82(2):175-185

Recently several speaker adaptation methods have been proposed for deep neural network (DNN) in many large vocabulary continuous speech recognition (LVCSR) tasks. However, only a few methods rely on tuning the connection weights in trained DNNs directly to optimize system performance since it is very prone to over-fitting especially when some class labels are missing in the adaptation data. In this paper, we propose a new speaker adaptation method for the hybrid NN/HMM speech recognition model based on singular value decomposition (SVD). We apply SVD on the weight matrices in trained DNNs and then tune rectangular diagonal matrices with the adaptation data. This alleviates the over-fitting problem via updating the weight matrices slightly by only modifying the singular values. We evaluate the proposed adaptation method in two standard speech recognition tasks, namely TIMIT phone recognition and large vocabulary speech recognition in the Switchboard task. Experimental results have shown that it is effective to adapt large DNN models using only a small amount of adaptation data. For example, recognition results in the Switchboard task have shown that the proposed SVD-based adaptation method may achieve up to 3-6 % relative error reduction using only a few dozens of adaptation utterances per speaker. 相似文献

14.

基于时频注意力机制与U-Net的骨导语音鲁棒增强方法

下载免费PDF全文

张玥张雄伟孙蒙《信号处理》2022,38(10):2134-2143

近年来,基于神经网络的方法大量应用于骨导语音增强中。然而,由于骨导数据集样本较少,骨导语音高频部分缺失,不同说话人高频部分失真程度不同,神经网络难以有效学习骨导语音的频谱特征。因此,现有骨导语音增强模型对于未知说话人骨导语音数据集增强效果不佳、鲁棒性不强。为充分利用骨导语音的时频信息,引导模型关注骨导语音的低频部分特征,提出一种基于时频注意力机制和U-Net的骨导语音增强方法。该方法将时频注意力机制引入U-Net结构中,首先根据骨导语音时间、频率方向特征信息的重要程度自动为其分配权重,而后以加权后的骨导语音谱作为输入,对应的气导语音谱作为目标进入U-Net结构训练,最后利用训练完成的增强模型重构骨导语音全频带的语音。仿真实验与可视化分析结果表明,对比基线U-Net结构与其他注意力机制,该方法对于未知说话人骨导语音数据集能够取得更高的PESQ和STOI客观评价指标,增强语音更加清晰。相似文献

15.

Text‐Independent Speaker Verification Using Variational Gaussian Mixture Model

Mohammad Hossein Moattar Mohammad Mehdi Homayounpour 《ETRI Journal》2011,33(6):914-923

This paper concerns robust and reliable speaker model training for text‐independent speaker verification. The baseline speaker modeling approach is the Gaussian mixture model (GMM). In text‐independent speaker verification, the amount of speech data may be different for speakers. However, we still wish the modeling approach to perform equally well for all speakers. Besides, the modeling technique must be least vulnerable against unseen data. A traditional approach for GMM training is expectation maximization (EM) method, which is known for its overfitting problem and its weakness in handling insufficient training data. To tackle these problems, variational approximation is proposed. Variational approaches are known to be robust against overtraining and data insufficiency. We evaluated the proposed approach on two different databases, namely KING and TFarsdat. The experiments show that the proposed approach improves the performance on TFarsdat and KING databases by 0.56% and 4.81%, respectively. Also, the experiments show that the variationally optimized GMM is more robust against noise and the verification error rate in noisy environments for TFarsdat dataset decreases by 1.52%. 相似文献

16.

基于最大似然可变子空间的快速说话人自适应方法

张文林牛铜张连海李弼程《电子与信息学报》2012,34(3):571-575

该文提出一种基于最大似然可变子空间的说话人自适应方法。在训练阶段,对训练集中的说话人相关模型参数进行主分量分析,得到一组说话人基矢量;在自适应阶段,通过最大似然准则选取与当前说话人相关性最大的基矢量子集,进而将新的说话人相关模型限制在这组基矢量所张成的说话人子空间中,通过求解每一个基矢量对应的系数从而进行说话人自适应。与经典的基于子空间的说话人自适应方法不同,该文中的说话人子空间是在自适应阶段动态选取的,所需要估计的参数更少,在少量自适应数据下可以得到更稳健的自适应结果。在基于微软语料库的连续语音识别自适应实验中,给定极少量自适应数据(小于5 s),在有监督和无监督条件下,该文方法均优于经典的本征音自适应方法和基于最大似然线性回归的方法。相似文献

17.

基于说话人特有特征集的GMM和i-矢量方法的说话人识别

沈思秋吕勇杨芸齐彦云《电子设计工程》2014,(23):184-188

在说话人识别中,当存在两个或多个发声类似的说话人时,会导致错误识别。为了提高在这种情况下的识别准确率,在音素层次上找出说话人特有的特征,将这些特征的子集构成一个该说话人特有的特征集,然后在这些特征集的基础上用GMM和i-矢量的方法对说话人进行识别。在实验室环境下收集了50个说话人的声音,分别在不同信噪比的环境下进行测试。实验结果表明提出的方法能够提高当存在发声类似的说话人时的识别准确率。相似文献

18.

Speech-driven facial animation using a hierarchical model

Cosker D.P. Marshall A.D. Rosin P.L. Hicks Y.A. 《Vision, Image and Signal Processing, IEE Proceedings -》2004,151(4):314-321

A system capable of producing near video-realistic animation of a speaker given only speech inputs is presented. The audio input is a continuous speech signal, requires no phonetic labelling and is speaker-independent. The system requires only a short video training corpus of a subject speaking a list of viseme-targeted words in order to achieve convincing realistic facial synthesis. The system learns the natural mouth and face dynamics of a speaker to allow new facial poses, unseen in the training video, to be synthesised. To achieve this the authors have developed a novel approach which utilises a hierarchical and nonlinear principal components analysis (PCA) model which couples speech and appearance. Animation of different facial areas, defined by the hierarchy, is performed separately and merged in post-processing using an algorithm which combines texture and shape PCA data. It is shown that the model is capable of synthesising videos of a speaker using new audio segments from both previously heard and unheard speakers. 相似文献

19.

基于混合模型状态修正算法的非母语语音识别

张晴晴潘接林颜永红《数字通信》2009,36(1):33-37

非母语语音识别的性能较低,对于刚开始学习目标语言的说话人或者口音很重的说话人而言,性能下降更为明显。本文提出一种新型的双语模型修正算法用于提高非母语语音的识别性能。在该算法中,基线声学模型的每个状态都将被代表说话人母语特点的辅助模型状态所修正。文章给出了状态修正准则以及不同候选修正状态数下的性能比较。相比已用非母语训练数据自适应以后的基线声学模型,通过双语模型修正的声学模型在保证识别实时率的前提下,短语错误率相对下降了11．7％。相似文献