首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
针对语句之间的情感存在相互关联的特性,本文从声学角度提出了上下文动态情感特征、上下文差分情感特征、上下文边缘动态情感特征和上下文边缘差分情感特征共四类268维语音情感上下文特征以及这四类情感特征的提取方法,该方法是从当前情感语句与其前面若干句的合并句中提取声学特征,建立上下文特征模型,以此辅助传统特征所建模型来提高识别率.最后,将该方法应用于语音情感识别,实验结果表明,加入新的上下文语音情感特征后,六类典型情感的平均识别率为82.78%,比原有特征模型的平均识别率提高了约8.89%.  相似文献   

2.
智能语音技术包含语音识别、自然语言处理、语音合成三个方面的内容,其中语音识别是实现人机交互的关键技术,识别系统通常需要建立声学模型和语言模型。神经网络的兴起使声学模型数量急剧增加,基于神经网络的声学模型与传统识别模型相结合的方式,极大地推动了语音识别的发展。语音识别作为人机交互的前端,具有许多研究方向,文中着重对语音识别任务中的文本识别、说话人识别、情绪识别三个方向的声学模型研究现状进行归纳总结,尽可能对语音识别技术的演化进行细致介绍,为以后的相关研究提供有价值的参考。同时对目前语音识别的主流方法进行概括比较,介绍了端到端的语音识别模型的优势,并对发展趋势进行分析展望,最后提出当前语音识别任务中面临的挑战。  相似文献   

3.
语音是人们传递信息内容的同时又表达情感态度的媒介,语音情感识别是人机交互的重要组成部分。由语音情感识别的概念和历史发展进程入手,从6个角度逐步展开对语音情感识别研究体系进行综述。分析常用的情感描述模型,归纳常用的情感语音数据库和不同类型数据库的特点,研究语音情感特征的提取技术。通过比对3种语音情感识别方法的众多学者的多方面研究,得出语音情感识别方法可期望应用场景的态势,展望语音情感识别技术的挑战和发展趋势。  相似文献   

4.
语音不仅包含说话人所要表达的语义信息,也蕴含着说话人所要表达的情感信息.语音情感识别是人机情感交互的关键,对语音情感的有效识别能够提升语音可懂度,使各种智能设备最大限度理解用户意图,提高机器人性化水平,从而更好地为人类服务.采用文献研究法从语音情感语料库、语音情感特征提取、语音情感模型的构建以及语音情感识别的应用等方面...  相似文献   

5.
基于听觉模型的语音特征提取   总被引:2,自引:1,他引:1  
分析了耳蜗对声音频率分解机理,毛细胞和听神经的能量转换机理以及中枢神经系统的侧抑制机理,分别在以上三个层次上建立了数学模型,并提取出识别语音特征参数。通过对听觉谱和LPC倒谱对比分析,得到了听觉谱适宜用作语音识别并具有良好的噪声鲁棒性的结论。听觉谱和LPC倒谱对比实验分析也反映了听觉模型特征的优良性能。  相似文献   

6.
语音情感识别是语音处理领域中一个具有挑战性和广泛应用前景的研究课题。探索了语音情感识别中的关键问题之一:生成情感识别的有效的特征表示。从4个角度生成了语音信号中的情感特征表示:(1)低层次的声学特征,包括能量、基频、声音质量、频谱等相关的特征,以及基于这些低层次特征的统计特征;(2)倒谱声学特征根据情感相关的高斯混合模型进行距离转化而得出的特征;(3)声学特征依据声学词典进行转化而得出的特征;(4)声学特征转化为高斯超向量的特征。通过实验比较了各类特征在情感识别上的独立性能,并且尝试了将不同的特征进行融合,最后比较了不同的声学特征在几个不同语言的情感数据集上的效果(包括IEMOCAP英语情感语料库、CASIA汉语情感语料库和Berlin德语情感语料库)。在IEMOCAP数据集上,系统的正确识别率达到了71.9%,超越了之前在此数据集上报告的最好结果。  相似文献   

7.
针对语音情感识别研究体系进行综述。这一体系包括情感描述模型、情感语音数据库、特征提取与降维、情感分类与回归算法4个方面的内容。本文总结离散情感模型、维度情感模型和两模型间单向映射的情感描述方法;归纳出情感语音数据库选择的依据;细化了语音情感特征分类并列出了常用特征提取工具;最后对特征提取和情感分类与回归的常用算法特点进行凝练并总结深度学习研究进展,并提出情感语音识别领域需要解决的新问题、预测了发展趋势。  相似文献   

8.
针对卷积神经网络(CNN)在语音识别中处理时序能力不足和循环神经网络(RNN)在语音识别中模型复杂度较高、训练慢的问题,提出一种新的基于准循环神经网络和连接时序主义(QRNN-CTC)的声学模型。该模型既降低了参数量,又保证了一定的时序间循环能力,利用CTC来实现输入序列和标签自动对齐,在训练时引入dropout防止过拟合。在Thchs-30数据集上的实验结果表明,QRNN-CTC比CNN-CTC相对错误率降低9.8%,最终词错误率为23.8%,训练时间为LSTM-CTC的一半。  相似文献   

9.
李海峰  陈婧  马琳  薄洪健  徐聪  李洪伟 《软件学报》2020,31(8):2465-2491
情感识别是多学科交叉的研究方向,涉及认知科学、心理学、信号处理、模式识别、人工智能等领域的研究热点,目的是使机器理解人类情感状态,进而实现自然人机交互.首先,从心理学及认知学角度介绍了语音情感认知的研究进展,详细介绍了情感的认知理论、维度理论、脑机制以及基于情感理论的计算模型,旨在为语音情感识别提供科学的情感理论模型;然后,从人工智能的角度,系统地总结了目前维度情感识别的研究现状和发展,包括语音维度情感数据库、特征提取、识别算法等技术要点;最后,分析了维度情感识别技术目前面临的挑战以及可能的解决思路,对未来研究方向进行了展望.  相似文献   

10.
语音识别技术在汽车领域有着广泛的应用。但通常车内环境存在着噪音,且车载系统运算能力有限。要保证较高识别率,减少识别时的计算量,需要针对噪音环境的特点提取鲁棒特征并压缩语音模板。本文选择高信噪比的频带进行语音模板的训练,通过聚类的方法压缩模板的长度,并用实验验证了所提出的语音特征鲁棒性。  相似文献   

11.
研究了情绪的维度空间模型与语音声学特征之间的关系以及语音情感的自动识别方法。介绍了基本情绪的维度空间模型,提取了唤醒度和效价度对应的情感特征,采用全局统计特征减小文本差异对情感特征的影响。研究了生气、高兴、悲伤和平静等情感状态的识别,使用高斯混合模型进行4种基本情感的建模,通过实验设定了高斯混合模型的最佳混合度,从而较好地拟合了4种情感在特征空间中的概率分布。实验结果显示,选取的语音特征适合于基本情感类别的识别,高斯混合模型对情感的建模起到了较好的效果,并且验证了二维情绪空间中,效价维度上的情感特征对语音情感识别的重要作用。  相似文献   

12.
随着多媒体信息和通信技术的快速发展,网络上的多语言语音数据日益增多.语音识别作为语音分析与处理的核心技术,如何快速地把中文和英文等少数多资源主要语言处理能力推广到更多的低资源语言,是当前识别技术迫切需要突破的瓶颈.文中试图总结声学模型建模领域的最新进展,探讨传统语音识别技术从单语言向多语言跨越过程中可能面临的困难.并在...  相似文献   

13.
语音情感识别在人机交互过程中发挥极为重要的作用,近年来备受关注.目前,大多数的语音情感识别方法主要在单一情感数据库上进行训练和测试.然而,在实际应用中训练集和测试集可能来自不同的情感数据库.由于这种不同情感数据库的分布存在巨大差异性,导致大多数的语音情感识别方法取得的跨库识别性能不尽人意.为此,近年来不少研究者开始聚焦跨库语音情感识别方法的研究.本文系统性综述了近年来跨库语音情感识别方法的研究现状与进展,尤其对新发展起来的深度学习技术在跨库语音情感识别中的应用进行了重点分析与归纳.首先,介绍了语音情感识别中常用的情感数据库,然后结合深度学习技术,从监督、无监督和半监督学习角度出发,总结和比较了现有基于手工特征和深度特征的跨库语音情感识别方法的研究进展情况,最后对当前跨库语音情感识别领域存在的挑战和机遇进行了讨论与展望.  相似文献   

14.
15.
语音识别领域的发展日新月异.同时,现有的研究结果表明声学特性集中存在较多的互补信息.本文提出了一种基于轨迹的空间-时间谱特语音情感识别方法.其核心思想是从语音频谱图中获得空间和时间上的描述符,进行分类和维度情感识别.本方法采用了穷举特征提取的实验表明:与MFCCs和基频等特征提取方法相比,提出的方法在噪声条件下,更具鲁棒性.通过在4类情感识别实验中获得了可比较的非加权平均回馈,得到了较为准确的结果,语音激活检测方面也具有显著的改进.  相似文献   

16.
有效提取语音信号的特征信息是语音识别的关键。对语音信号采用经验模态分解法可得到语音的一系列本征模函数,提取本征模函数的过程是降低语音信号冗余度的过程。在语音识别的试验中以本征模函数为训练模型较传统的识别方法识别率更高。仿真结果表明:方法是有效的,用于提取语音的特征信息是可行的。  相似文献   

17.
This paper addresses the problem of recognising speech in the presence of a competing speaker. We review a speech fragment decoding technique that treats segregation and recognition as coupled problems. Data-driven techniques are used to segment a spectro-temporal representation into a set of fragments, such that each fragment is dominated by one or other of the speech sources. A speech fragment decoder is used which employs missing data techniques and clean speech models to simultaneously search for the set of fragments and the word sequence that best matches the target speaker model. The paper investigates the performance of the system on a recognition task employing artificially mixed target and masker speech utterances. The fragment decoder produces significantly lower error rates than a conventional recogniser, and mimics the pattern of human performance that is produced by the interplay between energetic and informational masking. However, at around 0 dB the performance is generally quite poor. An analysis of the errors shows that a large number of target/masker confusions are being made. The paper presents a novel fragment-based speaker identification approach that allows the target speaker to be reliably identified across a wide range of SNRs. This component is combined with the recognition system to produce significant improvements. When the target and masker utterance have the same gender, the recognition system has a performance at 0 dB equal to that of humans; in other conditions the error rate is roughly twice the human error rate.  相似文献   

18.
从语音信号声学特征空间的非线性流形结构特点出发, 利用流形上的压缩感知原理, 构建新的语音识别声学模型. 将特征空间划分为多个局部区域, 对每个局部区域用一个低维的因子分析模型进行近似, 从而得到混合因子分析模型. 将上下文相关状态的观测矢量限定在该非线性低维流形结构上, 推导得到其观测概率模型. 最终, 每个状态由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部因子矢量所决定. 文中给出了局部区域潜在维数的确定准则及模型参数的迭代估计算法. 基于RM语料库的连续语音识别实验表明, 相比于传统的高斯混合模型(Gaussian mixture model, GMM)和子空间高斯混合模型(Subspace Gaussian mixture model, SGMM), 新声学模型在测试集上的平均词错误率(Word error rate, WER)分别相对下降了33.1%和9.2%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号