期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

余华黄程韦金赟赵力《信号处理》2010,26(9)

本文提出了一种改进的混合蛙跳算法,利用混沌运动的遍历性改善初始个体的质量和引入高斯变异,提高了算法的全局搜索能力,同时将改进算法与人工神经网络结合,并把它应用到语音情感识别系统中.依据情感的维度空间模型.分别提取了情感语音的韵律特征与音质特征,研究了谐波噪声比特征随情感类别的变化特性.利用本文所提的蛙跳算法(SFLA)训练随机产生的初始数据,优化神经网络的连接权值,能快速地实现网络的收敛.在实验中比较了BP神经网络、RBF神经网络与改进SFLA神经网络分别用于语音情感以别的识别性能,结果表明基于改进SFLA的神经网络的平均识别率高于BP神经网络9.2个百分点,高于RBF神经网络7.9个百分点.因此本文所提的蛙跳神经网络用于语音情感识别能获得明显的识别性能的提升. 相似文献

2.

正反向隐马尔可夫模型及其在连续语音识别中的应用 总被引：1，自引：0，他引：1

王仁华江辉《电子学报》1996,(10)

本文针对语音信号中客观存在的正、反向依赖特性，明确提出了用条件概率的概念来定量表述语音信号的这种正、反向的马尔可大依赖关系，提出了描述语音信号这种正反向依赖关系的正反向隐马尔可夫模型（ＨＭＭ），并用实验证明了仅仅利用语音反向依赖关系语音识别同样也能获得相当可观的识别性能。接着，本文针对孤立字和连续语音两种不同的识别任务，研究了在语音识别中同时利用这两种依赖信息的方法，并提出了一种连续语音识别中的新的搜索算法──正反向分半混合搜索。这种方法利用基于正向ＨＭＭ的正向Ｖｉｔｅｒｂｉ搜索和基于反向ＨＭＭ的反向Ｖｉｔｅｒｂｉ搜索的中间结果来有效地结合正反向依赖信息，实验证明正反向分半混合搜索方法确实一致地优于单用任何一种依赖信息的单向搜索识别方法。相似文献

3.

基于CRNN混合神经网络的多语种识别

王瑶龙华邵玉斌杜庆治王延凯《光电子．激光》2022,33(6):620-628

在语种识别过程中,为提取语音信号中的空间特征以及时序特征,从而达到提高多语种识别准确率的目的,提出了一种利用卷积循环神经网络(convolutional recurrent neural network,CRNN)混合神经网络的多语种识别模型。该模型首先提取语音信号的声学特征;然后将特征输入到卷积神经网络(convolutional neural network,CNN) 提取低维度的空间特征;再通过空间金字塔池化层(spatial pyramid pooling layer,SPP layer) 对空间特征进行规整,得到固定长度的一维特征;最后将其输入到循环神经网络(recurrenrt neural network,CNN) 来判别语种信息。为验证模型的鲁棒性,实验分别在3个数据集上进行,结果表明:相比于传统的CNN和RNN,CRNN混合神经网络对不同数据集的语种识别准确率均有提高,其中在8语种数据集中时长为5 s的语音上最为明显,分别提高了 5.3% 和6.1%。相似文献

4.

用于跨库语音情感识别的DBN特征融合方法

下载免费PDF全文

张昕然巨晓正宋鹏查诚赵力《信号处理》2017,33(5):649-660

跨数据库语音情感识别中,将不同尺度上提取的情感特征进行融合是目前的技术难点。本文利用深度学习领域的深度信念模型,提出了基于深度信念网络的特征层融合方法。将语音频谱图中隐含的情感信息作为图像特征,与传统情感特征融合。研究解决了跨数据库语音情感识别中,将不同尺度上提取的情感特征进行融合的技术难点。利用STB/Itti模型对语谱图进行分析,从颜色、亮度、方向三个角度出发,提取了新的语谱图特征;然后研究改进的DBN网络模型并对传统声学特征与新提取的语谱图特征进行了特征层融合,增强了特征子集的尺度,提升了情感表征能力。通过在ABC数据库和多个中文数据库上的实验验证,特征融合后的新特征子集相比传统的语音情感特征,其跨数据库识别结果获得了明显提升。相似文献

5.

基于高斯混合模型及TIMIT语音库的说话人身份识别

《信息通信》2017,(7)

高斯混合模型是指对样本的概率密度分布进行估计,可以看做是对几个高斯模型的加权和。在语音识别中,语音信号的复杂性以及不同采集情况下的随机性都很适合使用高斯混合模型进行估计,文章对高斯混合模型以及其在语音识别中的应用进行研究,在MATLAB环境下,对算法程序进行分析,借助TIMIT语音库对算法进行实现。实验表明,高斯混合模型能够实现对语音信息的识别,并且能够为后续的研究提供框架。相似文献

6.

语音识别隐马尔可夫模型的改进 总被引：7，自引：1，他引：6

战普明王作英《电子学报》1994,22(1):9-15

由于在语音识别中被广泛应用的隐马尔可夫模型是一重马尔可夫模型，它不能充分地描述语音信号的时间相依性。虽然理论上可将ＨＭＭ扩展成多重马尔可夫模型，但由于所需运算量和存储量将成指数增长而使其难以应用。因此，本文提出一种新模型，它是由ＨＭＭ与一个能描述语音信号时间相依性的多维高斯密度函数相结合构成的。本文从理论上论证了新模型的合理性。对汉语不计声调的全部４０９个单音节的识别实验结果表明：新模型的识别率显相似文献

7.

一种CDHMM／MLP混合模型及其在语音识别中的应用

史笑兴顾明亮《电路与系统学报》1998,3(4):72-76

本文提出了一种由连续隐马尔可夫模型与多层感知器构成的混合模型，并将该模型应用于语音孤立词识别，这种混合模型首先用ＣＤＨＭＭ来获取输入信号的动态特性，然后再以ＭＬＰ分类器对输入信号进行分类识别。其主要目的是通过ＭＬＰ分类器，对ＣＤＨＭＭ中的似然估计值进行分析，分类，以加强和提高ＣＤＨＭＭ的分类能力。根据这种混合模型，我们建立了一个含３０个英语单词的语音识别系统。实验结果表明，该系统的识别率明显高于传相似文献

8.

基于粒子群优化支持向量机的语音情感识别

下载免费PDF全文

余华童馨《电子器件》2022,45(5):1100-1104

本文提出一种基于粒子群优化算法的支持向量机网络,并把它应用到语音情感识别系统中。依据情感的维度空间模型,研究分析情感语音数据的韵律特征与音质特征;利用粒子群优化算法(PSO)训练网络的超参数以优化支持向量机模型,可快速地实现网络的收敛;最后在实验中比较线性核函数SVM、径向基核函数SVM与粒子群优化径向基SVM分别用于语音情感识别的识别率,结果显示粒子群优化径向基核SVM模型用于语音情感识别能获得明显的识别性能的提升。相似文献

9.

基于隐马尔可夫模型的连续语音同步识别系统

《现代电子技术》2019,(11)

语音同步识别系统的发展方向是连续性的人机交互,采用传统系统易受到突发性噪声影响,致使识别效果较差,提出基于隐马尔可夫模型的连续语音同步识别系统。结合语音识别原理,设计系统硬件总体结构。利用JFET输入高保真运放的OPA604低通滤波器,保证信号处理结果的有效性。通过OMAP5912ZZG型号芯片对处理后的信号进行存储,使用矢量图缓冲音频,经由以太网接口移植相关语音识别序列,由此实现连续语音同步识别。由实验对比结果可知,该系统比传统系统识别效果最高值高出48%,推进了语音识别技术研究的快速发展。相似文献

10.

基于小波网络和HMM的语音识别方法

刘维亭朱志宇《电声技术》2004,(11):56-59

利用隐马尔可夫模型(HMM)的动态时间序列建模能力及神经网络的模式分类能力,构成混合语音识别模型,同时考虑到语音信号的非平稳性,采用小波分析方法提取语音特征向量。通过时间规整方法,将所有具有可变长度的语音特征向量转换为相同维数的特征向量,从而简化了神经网络的结构。仿真结果表明,采用混合语音识别模型以及时间规整方法,不仅可提高识别率,同时大大缩减了训练时间,获得了很好的识别效果。相似文献

11.

Whispered speech recognition based on gammatone filterbank cepstral coefficients

B. Marković J. Galić Ð. Grozdić S. T. Jovičić M. Mijić 《Journal of Communications Technology and Electronics》2017,62(11):1255-1261

This paper presents the results on whispered speech recognition using gammatone filterbank cepstral coefficients for speaker dependent mode. The isolated words used for this experiment are taken from the Whi-Spe database. Whispered speech recognition is based on dynamic time warping and hidden Markov models methods. The experiments are focused on the following modes: normal speech, whispered speech and their combinations (normal/whispered and whispered/normal). The results demonstrated an important improvement in recognition after application of cepstral mean subtraction, especially in mixed train/test scenarios. 相似文献

12.

利用SVM的聚类算法在时间序列信号识别中的应用

汪永涛《微电子学与计算机》2012,29(3):182-184

研究了一维时间序列信号识别的问题.针对基于混合高斯模型的隐马尔科夫(HMM)编码准确率低的问题,提出了一种利用多个支持向量机构造混合支持向量机,从而为隐马尔科夫模型提供更精确的观测值编码和发生矩阵,能有效的提高HMM在语音信号识别或者文字识别中的准确率.本方法可以应用到语音识别,文字识别以及生物信息处理等领域. 相似文献

13.

实用语音情感的特征分析与识别的研究 总被引：2，自引：0，他引：2

黄程韦赵艳金赟于寅骅赵力《电子与信息学报》2011,33(1):112-116

该文针对语音情感识别在实际中的应用,研究了烦躁等实用语音情感的分析与识别。通过计算机游戏诱发的方式采集了高自然度的语音情感数据,提取了74种情感特征,分析了韵律特征、音质特征与情感维度之间的关系,对烦躁等实用语音情感的声学特征进行了评价与选择,提出了针对实际应用环境的可拒判的实用语音情感识别方法。实验结果表明,文中采用的语音情感特征,能较好识别烦躁等实用语音情感,平均识别率达到75%以上。可拒判的实用语音情感识别方法,对模糊的和未知的情感类别的分类进行了合理的决策,在语音情感的实际应用中具有重要的意义。相似文献

14.

基于VEMAP的说话人识别鲁棒性研究

黄文娜彭亚雄《电声技术》2016,40(11):44-47

为了改善发声力度变化对说话人识别系统性能的影响.针对不同发声力度下语音信号的分析,提出了使用发声力度最大后验概率(Vocal Effort Maximum A Posteriori,VEMAP)自适应方法更新基于高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)的说话人识别系统模型.实验表明,所提出的方法使不同发声力度下系统EER％降低了88.45％与85.16％,有效解决了因发声力度变化引起的训练语音与测试语音音量失配,从而导致说话人识别性能降低的问题,改善说话人识别系统性能效果显著. 相似文献

15.

基于HMM和PNN的混合语音识别模型

李战明苏敏赵正天李二超《电声技术》2007,31(12):44-46,50

基于隐马尔可夫模型(HMM)和改进后的概率神经网络(PNN)模型提出了一种用于语音识别的混合模型,该模型首先利用HMM生成最佳语音状态序列,然后对最佳状态序列进行时间规整,最后通过PNN神经网络进行分类识别。给出了HMM参数训练及时间规整的算法。实验结果表明这种模型比HMM具有更好的识别效果。相似文献

16.

基于多分类器投票组合的语音情感识别 总被引：2，自引：0，他引：2

张石清赵知劲《微电子学与计算机》2008,25(12)

为了提高语音情感的正确识别率,提出一种基于多分类器投票组合的语音情感识别新方法.在提取情感语音的韵律特征和音质特征基础上,利用投票方法将支持向量机、K近邻法和人工神经网络三种分类器构成组合分类器,实现对汉语生气、高兴、悲伤和惊奇4种主要情感类型的识别.实验结果表明,与使用单一分类器相比,组合分类器对语音情感的识别取得了87.4%的平均正确识别率,识别效果优于单一分类器. 相似文献

17.

Emotional speech recognition based on SVM with GMM supervector

Yanxiang Chen Jian Xie 《电子科学学刊(英文版)》2012,29(3-4):339-344

Emotion recognition from speech is an important field of research in human computer interaction. In this letter the framework of Support Vector Machines (SVM) with Gaussian Mixture Model (GMM) supervector is introduced for emotional speech recognition. Because of the importance of variance in reflecting the distribution of speech, the normalized mean vectors potential to exploit the information from the variance are adopted to form the GMM supervector. Comparative experiments from five aspects are conducted to study their corresponding effect to system performance. The experiment results, which indicate that the influence of number of mixtures is strong as well as influence of duration is weak, provide basis for the train set selection of Universal Background Model (UBM). 相似文献

18.

Structural Bayesian Linear Regression for Hidden Markov Models

Shinji Watanabe Atsushi Nakamura Biing-Hwang Juang 《Journal of Signal Processing Systems》2014,74(3):341-358

Linear regression for Hidden Markov Model (HMM) parameters is widely used for the adaptive training of time series pattern analysis especially for speech processing. The regression parameters are usually shared among sets of Gaussians in HMMs where the Gaussian clusters are represented by a tree. This paper realizes a fully Bayesian treatment of linear regression for HMMs considering this regression tree structure by using variational techniques. This paper analytically derives the variational lower bound of the marginalized log-likelihood of the linear regression. By using the variational lower bound as an objective function, we can algorithmically optimize the tree structure and hyper-parameters of the linear regression rather than heuristically tweaking them as tuning parameters. Experiments on large vocabulary continuous speech recognition confirm the generalizability of the proposed approach, especially when the amount of adaptation data is limited. 相似文献

19.

基于DDBHMM的数字语音识别

全刚肖熙《电声技术》2010,34(6):45-47

数字语音识别具有很高的识别率,具有较高的实用价值。为实现在真实噪声环境下能达到高识别率的数字语音识别系统,采用基于段长分布的隐马尔可夫模型（DDBHMM）进行了安静环境和带噪环境下,特定人和非特定人的数字语音识别试验。试验结果表明,基于DDBHMM模型的数字语音识别技术对真实非平稳噪声环境下录制的特定人和非特定人语音都具有较高识别率。相似文献