共查询到20条相似文献,搜索用时 187 毫秒
1.
在基于隐Markov模型(Hidden Markov Model,HMM)的统计参数藏语语音合成中引入了DAEM(Deterministic Annealing EM)算法,对没有时间标注的藏语训练语音进行自动时间标注。以声母和韵母为合成基元,在声母和韵母的声学模型的训练过程中,利用DAEM算法确定HMM模型的嵌入式重估的最佳参数。训练好声学模型后,再利用强制对齐自动获得声母和韵母的时间标注。实验结果表明,该方法对声母和韵母的时间标注接近手工标注的结果。对合成的藏语语音进行主观评测表明,该方法合成的藏语语音和手工标注声、韵母时间的方法合成的藏语语音的音质接近。因此,利用该方法可以在不需要声、韵母的时间标注的情况下建立合成基元的声学模型。 相似文献
2.
大规模语料库的手工韵律标注消耗大量的时间和人力。这篇论文的目的在于研究如何充分利用少量的手工标注数据训练得到尽可能精确的语音重音自动标注器。论文列举并对比了四种训练方法的效果。在训练中结合声学分类器和语言学分类器,同时使用了综合分类器做后期优化。在实验中,使用机器数据训练声学分类器,并将有限的手工数据用于后期综合分类器能得到最佳的标注正确率。最终的正确率达到了94.0%,与手工标注的正确率上限97.2%比较接近。 相似文献
3.
现有的情感自动标注方法大多仅从声学层或语言层提取单一识别特征,而彝语受分支方言多、复杂性高等因素的影响,对其使用单层情感特征进行自动标注的正确率较低。利用彝语情感词缀丰富等特点,提出一种双层特征融合方法,分别从声学层和语言层提取情感特征,采用生成序列和按需加入单元的方法完成特征序列对齐,最后通过相应的特征融合和自动标注算法来实现情感自动标注过程。以某扶贫日志数据库中的彝语语音和文本数据为样本,分别采用三种不同分类器进行对比实验。结果表明分类器对自动标注结果影响不明显,而双层特征融合后的自动标注正确率明显提高,正确率从声学层的48.1%和语言层的34.4%提高到双层融合的64.2%。 相似文献
4.
现有的情感自动标注方法大多仅从声学层或语言层提取单一识别特征,而彝语受分支方言多、复杂性高等因素的影响,对其使用单层情感特征进行自动标注的正确率较低。利用彝语情感词缀丰富等特点,提出一种双层特征融合方法,分别从声学层和语言层提取情感特征,采用生成序列和按需加入单元的方法完成特征序列对齐,最后通过相应的特征融合和自动标注算法来实现情感自动标注过程。以某扶贫日志数据库中的彝语语音和文本数据为样本,分别采用三种不同分类器进行对比实验。结果表明分类器对自动标注结果影响不明显,而双层特征融合后的自动标注正确率明显提高,正确率从声学层的48.1%和语言层的34.4%提高到双层融合的64.2%。 相似文献
5.
6.
提出一种基于统计声学模型的单元挑选语音合成算法.在模型训练阶段,首先提取语料库中语音数据的频谱、基频等声学参数,结合语料库中的音段和韵律标注来估计各上下文相关音素对应的统计声学模型,使用的模型结构为隐马尔柯夫模型.在合成阶段,以使目标合成句对应的声学模型具有最大的似然值输出为准则,来进行最佳合成单元的挑选,最后通过平滑连接各备选单元波形来生成合成语音.以此算法为基础,构建一个以声韵母为基本拼接单元的中文语音合成系统,并通过测听实验证明此算法相对传统算法在提高合成语音自然度上的有效性. 相似文献
7.
广播语音的自动识别、标注、检索等是涉及到语音技术、自然语言处理、信息检索等多个领域的综合性课题。在介绍了广播语音的自动标注与检索的研究概况并分析了其中涉及的关键技术基础上,提出了面向普通话广播语音的多层次自动标注框架以及基于多层次标注的语音检索方案,对文档层、句子层和词语层的标注属性进行了探讨,采用了递归标注方法对属性逐层细化,并讨论了对语音自动标注至关重要的语音识别引擎和语音流分割等问题。基于本文提出的方法,对10 小时的普通话广播语音资料进行了标注和检索,得到了比较满意的实验结果。 相似文献
8.
针对传统参数再合成语音增强算法中使用单一声学特征进行预测以及非神经网络声码器进行语音合成系统增强性能较差的问题,提出一种基于多特征融合的参数再合成语音增强算法。通过结合注意力机制进行多种声学特征融合,采用融合后的综合特征代替单一特征预测干净语音声学特征;在此基础上,使用神经网络声码器WaveNet声码器合成高质量干净语音。在TIMIT和NOISEX-92语料库上进行实验,实验结果表明,该算法较对比方法得到了更好的增强效果,语音质量和语音可懂度都有相应提高。 相似文献
9.
10.
11.
12.
13.
差分时延差编码能有效抑制多途信道的干扰,实现信息的可靠传输,因此在水声通信中被广泛应用。本文设计了一种基于差分时延差编码的水声发射系统,针对差分时延差编码的特点和要求,利用波形存储直读方式产生码元,通过以太网将其传输到下位机并存储到存储器;然后对系统进行通信编码参数配置;最后基于下位机存储的码元和通信编码参数配置,将通信信息通过差分时延差编码并经数模转换器和低通滤波器变换后,由换能器发射出去。湖试通信实验表明,水声发射系统在不同参数条件下均能保证编码信息的准确性以及传输信息的可靠性,具有一定的实用性。 相似文献
14.
Mancini M. Bresin R. Pelachaud C. 《IEEE transactions on audio, speech, and language processing》2007,15(6):1833-1841
In this paper, we present a system that visualizes the expressive quality of a music performance using a virtual head. We provide a mapping through several parameter spaces: on the input side, we have elaborated a mapping between values of acoustic cues and emotion as well as expressivity parameters; on the output side, we propose a mapping between these parameters and the behaviors of the virtual head. This mapping ensures a coherency between the acoustic source and the animation of the virtual head. After presenting some background information on behavior expressivity of humans, we introduce our model of expressivity. We explain how we have elaborated the mapping between the acoustic and the behavior cues. Then, we describe the implementation of a working system that controls the behavior of a human-like head that varies depending on the emotional and acoustic characteristics of the musical execution. Finally, we present the tests we conducted to validate our mapping between the emotive content of the music performance and the expressivity parameters. 相似文献
15.
为了准确地仿真分析汽车的NVH特性,通常需要准确获取声腔的声学特性参数.以某内饰车身为研究对象,以车内声学特性机理为基础,为探索开闭件声腔模型对噪声传递函数仿真分析的影响,分别建立了传统车内声腔模型的声固耦合系统和附加开闭件声腔的车内声固耦合系统.采用以声腔模态分析、板件贡献量分析、原点动刚度分析三种CAE仿真分析方法... 相似文献
16.
17.
《IEEE transactions on audio, speech, and language processing》2009,17(6):1171-1185
18.
The authors present a new inverse, interactive approach to acoustic design that applies optimization techniques to an acoustic simulation system. For a new building, the system may suggest optimal configurations that would not otherwise be considered; for a hall with modifiable components or for a renovation project, it may assist in optimizing an existing configuration. Our system allows the designer to constrain changes to the environment and specify acoustic performance goals as a function of time. The constraints include the specification of a range of allowable materials as well as geometric modifications for surfaces in the hall. The designer also specifies goals for acoustic performance in space and time via high-level acoustic qualities such as decay time and sound level. Using this information, the system performs a constrained optimization of surface material and geometric parameters for a subset of elements in the environment. The system operates at varying accuracy levels, offering trade-offs between time and quality. Visualization tools facilitate an intuitive assessment of the complex time-dependent nature of sound, and they provide a means to express desired performance. By using optimization routines within an interactive application, our system reveals complex acoustic properties and steers the design process toward the designer's goals 相似文献
19.
PSO随机数参数设置的多目标定位方法研究 总被引:1,自引:0,他引:1
为了解决林业部门对森林防火安全监测系统中对多个声音目标的跟踪及定位问题,根据声音能量随距离衰减模型,提出了采用粒子群算法(PSO)的多目标定位与优化方法.通过利用极大似然法对声音强度模型的定位算法,采用惯性权重的粒子群算法,着重讨论了随机参数不同的设置方法对定位追踪精度性能的影响.通过仿真实验证明,粒子群算法中设置随机数参数为常数,可以有效提高目标定位精度,并减小搜索复杂度. 相似文献