首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
在基于隐Markov模型(Hidden Markov Model,HMM)的统计参数藏语语音合成中引入了DAEM(Deterministic Annealing EM)算法,对没有时间标注的藏语训练语音进行自动时间标注。以声母和韵母为合成基元,在声母和韵母的声学模型的训练过程中,利用DAEM算法确定HMM模型的嵌入式重估的最佳参数。训练好声学模型后,再利用强制对齐自动获得声母和韵母的时间标注。实验结果表明,该方法对声母和韵母的时间标注接近手工标注的结果。对合成的藏语语音进行主观评测表明,该方法合成的藏语语音和手工标注声、韵母时间的方法合成的藏语语音的音质接近。因此,利用该方法可以在不需要声、韵母的时间标注的情况下建立合成基元的声学模型。  相似文献   

2.
大规模语料库的手工韵律标注消耗大量的时间和人力。这篇论文的目的在于研究如何充分利用少量的手工标注数据训练得到尽可能精确的语音重音自动标注器。论文列举并对比了四种训练方法的效果。在训练中结合声学分类器和语言学分类器,同时使用了综合分类器做后期优化。在实验中,使用机器数据训练声学分类器,并将有限的手工数据用于后期综合分类器能得到最佳的标注正确率。最终的正确率达到了94.0%,与手工标注的正确率上限97.2%比较接近。  相似文献   

3.
现有的情感自动标注方法大多仅从声学层或语言层提取单一识别特征,而彝语受分支方言多、复杂性高等因素的影响,对其使用单层情感特征进行自动标注的正确率较低。利用彝语情感词缀丰富等特点,提出一种双层特征融合方法,分别从声学层和语言层提取情感特征,采用生成序列和按需加入单元的方法完成特征序列对齐,最后通过相应的特征融合和自动标注算法来实现情感自动标注过程。以某扶贫日志数据库中的彝语语音和文本数据为样本,分别采用三种不同分类器进行对比实验。结果表明分类器对自动标注结果影响不明显,而双层特征融合后的自动标注正确率明显提高,正确率从声学层的48.1%和语言层的34.4%提高到双层融合的64.2%。  相似文献   

4.
现有的情感自动标注方法大多仅从声学层或语言层提取单一识别特征,而彝语受分支方言多、复杂性高等因素的影响,对其使用单层情感特征进行自动标注的正确率较低。利用彝语情感词缀丰富等特点,提出一种双层特征融合方法,分别从声学层和语言层提取情感特征,采用生成序列和按需加入单元的方法完成特征序列对齐,最后通过相应的特征融合和自动标注算法来实现情感自动标注过程。以某扶贫日志数据库中的彝语语音和文本数据为样本,分别采用三种不同分类器进行对比实验。结果表明分类器对自动标注结果影响不明显,而双层特征融合后的自动标注正确率明显提高,正确率从声学层的48.1%和语言层的34.4%提高到双层融合的64.2%。  相似文献   

5.
该文对藏语拉萨话单音节的嗓音特征进行了实验研究,实验首先对藏语拉萨话单音节进行语音标注,然后根据语音标注的位置信息,利用对应的程序提取音节结构中的元音和辅音的嗓音声学参数,对基频、开商和速度商分别统计分析,并做了显著性分析。实验结果表明不同元音和辅音的嗓音参数与发声方式以及其在音节中位置有关,元音和音节结构的不同会显著影响开商和速度商的值,但对于基频数据的影响并不显著。同时嗓音参数之间也存在一定的关联性,即基频和开商、速度商之间是反比关系,开商和速度商之间是正比的关系。  相似文献   

6.
提出一种基于统计声学模型的单元挑选语音合成算法.在模型训练阶段,首先提取语料库中语音数据的频谱、基频等声学参数,结合语料库中的音段和韵律标注来估计各上下文相关音素对应的统计声学模型,使用的模型结构为隐马尔柯夫模型.在合成阶段,以使目标合成句对应的声学模型具有最大的似然值输出为准则,来进行最佳合成单元的挑选,最后通过平滑连接各备选单元波形来生成合成语音.以此算法为基础,构建一个以声韵母为基本拼接单元的中文语音合成系统,并通过测听实验证明此算法相对传统算法在提高合成语音自然度上的有效性.  相似文献   

7.
广播语音的自动识别、标注、检索等是涉及到语音技术、自然语言处理、信息检索等多个领域的综合性课题。在介绍了广播语音的自动标注与检索的研究概况并分析了其中涉及的关键技术基础上,提出了面向普通话广播语音的多层次自动标注框架以及基于多层次标注的语音检索方案,对文档层、句子层和词语层的标注属性进行了探讨,采用了递归标注方法对属性逐层细化,并讨论了对语音自动标注至关重要的语音识别引擎和语音流分割等问题。基于本文提出的方法,对10 小时的普通话广播语音资料进行了标注和检索,得到了比较满意的实验结果。  相似文献   

8.
针对传统参数再合成语音增强算法中使用单一声学特征进行预测以及非神经网络声码器进行语音合成系统增强性能较差的问题,提出一种基于多特征融合的参数再合成语音增强算法。通过结合注意力机制进行多种声学特征融合,采用融合后的综合特征代替单一特征预测干净语音声学特征;在此基础上,使用神经网络声码器WaveNet声码器合成高质量干净语音。在TIMIT和NOISEX-92语料库上进行实验,实验结果表明,该算法较对比方法得到了更好的增强效果,语音质量和语音可懂度都有相应提高。  相似文献   

9.
以维吾尔语为例研究自然语料缺乏的民族语言连续语音识别方法。采用HTK通过人工标注的少量语料生成种子模型,引导大语音数据构建声学模型,利用palmkit工具生成统计语言模型,以Julius工具实现连续语音识别。实验用64个维语母语者自由发话的6 400个 短句语音建立单音素声学模型,由100 MB文本、6万词词典生成基于词类的3-gram语言模型,测试结果表明,该方法的识别率为 72.5%,比单用HTK提高4.2个百分点。  相似文献   

10.
根据语音合成与识别等语音应用研究的需求,从实验语音学的角度出发,研究维吾尔语固有音节结构中最常见的CVC音节类型的声学特征,从“维吾尔语语音声学参数库”中选择1 255个CVC型音节的各种韵律参数,包括音节时长、音强和音高,进行统计分析并归纳其时长、音高和音强分布模式。  相似文献   

11.
为了研究运动声阵列跟踪系统的非线性及坐标模型之间的耦合问题,设计了三维运动声阵列的结构模型,分析了声阵列跟踪系统的状态参数;建立了运动声阵列系统的坐标模型,讨论了坐标模型之间的转换关系,确定了输出声阵列观测信息的坐标模型;以目标在匀加速及匀速转弯状态下,建立了运动声阵列笛卡尔坐标模型,分析了模型的非线性因素;基于状态空间的变换方法,建立了运动声阵列的修正极坐标模型,为进一步研究运动声阵列跟踪系统的跟踪算法奠定了理论基础。  相似文献   

12.
水声对抗仿真环境设计   总被引:2,自引:1,他引:2  
该文以现代海战为背景,分析了水声对抗参与单元的技术性能参数及详细作战过程。利用系统仿真的方法,为各参与单元及水声环境建立了数学模型和仿真模型,利用结构化的设计思想,提出了建立水声对抗仿真系统的方法,给出了仿真系统的原理结构及实现过程。该系统利用VC 语言进行开发,具有良好的实用性、可扩展性和经济性。可用于水声对抗系统的研制、性能检测、效能评估和技术改进,同时也可用于水声对抗过程的模拟训练,具有良好的应用前景。  相似文献   

13.
差分时延差编码能有效抑制多途信道的干扰,实现信息的可靠传输,因此在水声通信中被广泛应用。本文设计了一种基于差分时延差编码的水声发射系统,针对差分时延差编码的特点和要求,利用波形存储直读方式产生码元,通过以太网将其传输到下位机并存储到存储器;然后对系统进行通信编码参数配置;最后基于下位机存储的码元和通信编码参数配置,将通信信息通过差分时延差编码并经数模转换器和低通滤波器变换后,由换能器发射出去。湖试通信实验表明,水声发射系统在不同参数条件下均能保证编码信息的准确性以及传输信息的可靠性,具有一定的实用性。  相似文献   

14.
In this paper, we present a system that visualizes the expressive quality of a music performance using a virtual head. We provide a mapping through several parameter spaces: on the input side, we have elaborated a mapping between values of acoustic cues and emotion as well as expressivity parameters; on the output side, we propose a mapping between these parameters and the behaviors of the virtual head. This mapping ensures a coherency between the acoustic source and the animation of the virtual head. After presenting some background information on behavior expressivity of humans, we introduce our model of expressivity. We explain how we have elaborated the mapping between the acoustic and the behavior cues. Then, we describe the implementation of a working system that controls the behavior of a human-like head that varies depending on the emotional and acoustic characteristics of the musical execution. Finally, we present the tests we conducted to validate our mapping between the emotive content of the music performance and the expressivity parameters.  相似文献   

15.
为了准确地仿真分析汽车的NVH特性,通常需要准确获取声腔的声学特性参数.以某内饰车身为研究对象,以车内声学特性机理为基础,为探索开闭件声腔模型对噪声传递函数仿真分析的影响,分别建立了传统车内声腔模型的声固耦合系统和附加开闭件声腔的车内声固耦合系统.采用以声腔模态分析、板件贡献量分析、原点动刚度分析三种CAE仿真分析方法...  相似文献   

16.
声发射技术在地压监测中的应用   总被引:1,自引:0,他引:1  
对某矿的采空区围岩试样进行了单轴压缩声发射实验,得到了岩石破坏时能率、事件率等声发射参数值,根据这些数值对声发射监测系统参数进行了设置;通过对声发射监测系统长期运行结果的统计,总结出了井下多种活动即岩石声发射、打钻、爆破、人工破碎大块矿石、放矿、敲击的波形及各类波形的参数范围;确定了以能率、事件率为特征的采空区失稳判据,为判断地压灾害提供了可靠依据。  相似文献   

17.
This paper presents an investigation into ways of integrating articulatory features into hidden Markov model (HMM)-based parametric speech synthesis. In broad terms, this may be achieved by estimating the joint distribution of acoustic and articulatory features during training. This may in turn be used in conjunction with a maximum-likelihood criterion to produce acoustic synthesis parameters for generating speech. Within this broad approach, we explore several variations that are possible in the construction of an HMM-based synthesis system which allow articulatory features to influence acoustic modeling: model clustering, state synchrony and cross-stream feature dependency. Performance is evaluated using the RMS error of generated acoustic parameters as well as formal listening tests. Our results show that the accuracy of acoustic parameter prediction and the naturalness of synthesized speech can be improved when shared clustering and asynchronous-state model structures are adopted for combined acoustic and articulatory features. Most significantly, however, our experiments demonstrate that modeling the dependency between these two feature streams can make speech synthesis systems more flexible. The characteristics of synthetic speech can be easily controlled by modifying generated articulatory features as part of the process of producing acoustic synthesis parameters.   相似文献   

18.
The authors present a new inverse, interactive approach to acoustic design that applies optimization techniques to an acoustic simulation system. For a new building, the system may suggest optimal configurations that would not otherwise be considered; for a hall with modifiable components or for a renovation project, it may assist in optimizing an existing configuration. Our system allows the designer to constrain changes to the environment and specify acoustic performance goals as a function of time. The constraints include the specification of a range of allowable materials as well as geometric modifications for surfaces in the hall. The designer also specifies goals for acoustic performance in space and time via high-level acoustic qualities such as decay time and sound level. Using this information, the system performs a constrained optimization of surface material and geometric parameters for a subset of elements in the environment. The system operates at varying accuracy levels, offering trade-offs between time and quality. Visualization tools facilitate an intuitive assessment of the complex time-dependent nature of sound, and they provide a means to express desired performance. By using optimization routines within an interactive application, our system reveals complex acoustic properties and steers the design process toward the designer's goals  相似文献   

19.
PSO随机数参数设置的多目标定位方法研究   总被引:1,自引:0,他引:1  
梁华  文远熔 《测控技术》2016,35(5):141-144
为了解决林业部门对森林防火安全监测系统中对多个声音目标的跟踪及定位问题,根据声音能量随距离衰减模型,提出了采用粒子群算法(PSO)的多目标定位与优化方法.通过利用极大似然法对声音强度模型的定位算法,采用惯性权重的粒子群算法,着重讨论了随机参数不同的设置方法对定位追踪精度性能的影响.通过仿真实验证明,粒子群算法中设置随机数参数为常数,可以有效提高目标定位精度,并减小搜索复杂度.  相似文献   

20.
针对水下战场环境对海军武器装备战斗力的影响,研究并提出基于虚拟现实和可视化技术的水下战场环境虚拟仿真系统总体结构,建立系统仿真模型,以海洋环境主要特征参数和水声模型为基础,实现对海洋地理环境、水文环境以及水声环境的综合仿真和可视化分析,从而为水下战场环境的认知、模拟训练以及作战应用提供有效手段。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号