首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
李永伟  陶建华  李凯 《信号处理》2023,39(4):632-638
语音情感识别是实现自然人机交互不可缺失的部分,是人工智能的重要组成部分。发音器官的调控引起情感语音声学特征的差异,从而被感知到不同的情感。传统的语音情感识别只是针对语音信号中的声学特征或听觉特征进行情感分类,忽略了声门波和声道等发音特征对情感感知的重要作用。在我们前期工作中,理论分析了声门波和声道形状对感知情感的重要影响,但未将声门波与声道特征用于语音情感识别。因此,本文从语音生成的角度重新探讨了声门波与声道特征对语音情感识别的可能性,提出一种基于源-滤波器模型的声门波和声道特征语音情感识别方法。首先,利用Liljencrants-Fant和Auto-Regressive eXogenous(ARX-LF)模型从语音信号中分离出情感语音的声门波和声道特征;然后,将分离出的声门波和声道特征送入双向门控循环单元(BiGRU)进行情感识别分类任务。在公开的情感数据集IEMOCAP上进行了情感识别验证,实验结果证明了声门波和声道特征可以有效的区分情感,且情感识别性能优于一些传统特征。本文从发音相关的声门波与声道研究语音情感识别,为语音情感识别技术提供了一种新思路。  相似文献   

2.
为能够准确有效地对含噪声语音信号进行起止位置的端点检测,该文提出了一种基于广义维数距离的端点检测方法。首先利用覆盖法求取广义维数得到该语音信号的三维特征向量,包括容量维数、信息维数、关联维数;然后计算信号的维数特征距离;最后根据特征距离对语音信号类别进行决策分类。实验结果表明,与仅使用单一维数特征检测语音起止端点相比,该文所提出的方法具有较好的鲁棒性,对混杂有不同噪声、不同信噪比的语音信号都能有较好的检测结果,尤其适用于低信噪比的语音端点检测。  相似文献   

3.
新型冠状病毒(COVID-19)被首次发现以来目前感染病例超过一亿,死亡人数高达二百多万,对全球的经济活动和社会活动造成了严重的破坏,给国际危机管理和医疗保健体系带来了严峻的考验。基于人工智能的医学影像技术在COVID-19检测方面具有一系列的优势,然而面向建模使用的数据集可用性限制了COVID-19诊断模型的发展。本文介绍了COVID-19检测常用的医学影像公开数据集,讨论了在COVID-19诊断建模时遇到的阻碍,并且分析了融合数据集时对图像采用的一系类预处理方法。文章指出了面向人工智能建模的COVID-19数据缺乏公开性,强调在使用融合数据集进行建模前应采取合理的预处理方法,并且在追求算法的优化和创新的同时应当注重数据的可靠性,提出了启动开源并且可扩展的COVID-19医学影像收集并且发展相应的图像集质量保障机制的倡议。  相似文献   

4.
在智能人-机交互系统中,语音信号的情感分类是目前热点的研究领域,并且得到了广泛的应用.本文提出一种基于特征提取和借助支持向量机(support vector machine,SVM)分类器(classifier)的情感互相关性的方法,并应用于情感语音识别.利用这种方法对3种情感语音信号进行情感分类.SVM分类器是利用情感语音信号中情感互相关性的特征提取进行分类的.这种通过 SVM 分类器的情感互相关性的自动分类方法,可以将情感识别率大幅提高,并且在识别愤怒情感时的准确率可以达到95.04%.  相似文献   

5.
针对通信语音干扰效果客观评估问题,提出了基于多测度与多模态融合的2种评估方法。首先,利用端点检测算法以及动态时间弯折算法对受扰语音数据进行预处理。然后,提取数据中的语音内容并与标准语音进行测度计算得到5种测度,将5种测度融合后利用随机森林模型进行质量等级评估。最后,结合多模态融合技术,设计了基于残差结构的神经网络模型,融合受扰语音数据的图域、测度域特征并进行质量等级评估。实验结果表明,2种方法的评估准确率均达到了90%以上。其中,多模态评估方法与现有的研究方法相比,准确率提升了约3.269%,证明所提方法具有更优的性能。  相似文献   

6.
俞佳佳  金赟  马勇  姜芳艽  戴妍妍 《信号处理》2021,37(10):1880-1888
考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer(SincNet Transformer)模型来进行语音情感识别任务。该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器从原始语音波形中捕捉一些重要的窄带情感特征,使其整个网络结构在特征提取过程中具有指导性,从而完成原始语音信号的浅层特征提取工作;利用两层Transformer模型编码器进行二次处理,以提取包含全局上下文信息的深层特征向量。在交互式情感二元动作捕捉数据库(IEMOCAP)的四类情感分类中,实验结果表明本文提出的Sinc-Transformer模型准确率与非加权平均召回率分别为64.14%和65.28%。同时与基线模型进行对比,所提模型能有效地提高语音情感识别性能。   相似文献   

7.
呼德  陈喆  殷福亮 《信号处理》2017,33(3):437-443
在电视会议系统中,为获得接近真实的会议交流氛围,混音技术不可或缺。本文利用语音信号的响度特性,提出一种自动等响度数字混音算法。该算法首先利用信号平均功率和短时自相关函数进行语音活动检测(VAD),判断参与混音的每路信号中是否含有语音信号。然后,利用时变滤波器进行滤波处理,抑制混音过程中引入的噪声。最后,利用语音信号响度计算各路信号的权重,使各路语音的平均响度保持一致。仿真实验结果表明,本文的混音算法可使各路信号的平均响度基本相同,并具有良好的语音质量。   相似文献   

8.
盛春明 《电声技术》2022,(8):118-123+128
重放语音欺骗攻击是自动说话人验证系统(Automatic Speaker Verification,ASV)面临的严重威胁。目前,基于常数Q变换倒谱系数(Constant Q Cepstral Coefficients,CQCC)和梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)的检测模型存在检测性能不理想、泛化能力差等问题。对此,提出一种基于分数阶傅里叶变换(Fractional Fourier Transformation,FrFT)和K-均值聚类的无监督重放语音检测模型。首先利用FrFT将语音信号转换至分数域,然后提取分数域双谱特征构成特征向量,并利用K-均值聚类算法进行聚类分析,实现重放语音检测。基于ASVspoof2019公开数据集的试验结果表明,所提方法相对于CQCC和MFCC两种传统方法在t-DCF和EER两项指标方面分别提升超过6.52%和7.76%,并且作为一种无监督模型,不需要训练样本即可实现检测,在少样本情况下仍然能够获得较高的检测性能,泛化能力更强。  相似文献   

9.
语音情感识别是实现智能人机交互的关键技术之一。然而,用于语音情感识别的语音情感特征十分有限。为此,本文提出一种新型的语谱图显著性特征来改善语音情感识别效果。识别算法利用选择性注意模型获取语音信号语谱图像的显著图,并从中提取显著性特征,结合语音信号传统的时频特征构成语音情感识别特征向量。最后,本文利用KNN分类方法进行语音情感识别。实验结果表明,加入显著性特征后识别率有明显提升。  相似文献   

10.
针对模糊语音发音机理相近、听觉上容易混淆和容易被智能机器误识的问题,该文设计了一个双模态模糊语音数据库,并提取不同特征用于分类研究.数据库包括语音信号和发音器官运动信号两种模态,共计语音数据6300条,运动信号数据1 268条.提取声学特征与运动学特征,在特征层进行双模态的融合,通过核主成分分析降维来得到双模态融合特征...  相似文献   

11.
抑郁症作为一种常见的心理健康问题,严重影响人们的日常生活甚至是生命安全,对抑郁症及抑郁情绪的检测具有重要意义。抑郁检测的常用模态包括脑电、图像、文本和语音等,其中语音信号具有易获取和使用限制少的优势,基于语音的抑郁检测研究也因此成为当前的研究热点。本文对近几年基于语音的抑郁检测的最新进展进行综述。首先介绍了目前研究中所常用的抑郁语音数据集,对其中数据不平衡问题的处理方法进行了概括分析。然后对抑郁检测中常用的韵律特征、音质特征、基于谱的特征等语音特征进行了概述,并对特征的特点展开分析。另一方面,针对抑郁检测研究中所遇到的数据量少的问题,从数据增强、度量学习、元学习和迁移学习四个方面,简述了目前主流的小样本学习方法。考虑到抑郁语音数据的隐私性问题,介绍了基于联邦学习的语音抑郁检测研究,从数据安全性和边缘设备部署两方面做了具体陈述。最后,针对基于语音的抑郁检测研究现状和难点问题进行了总结与展望。  相似文献   

12.
实用语音情感的特征分析与识别的研究   总被引:2,自引:0,他引:2  
 该文针对语音情感识别在实际中的应用,研究了烦躁等实用语音情感的分析与识别。通过计算机游戏诱发的方式采集了高自然度的语音情感数据,提取了74种情感特征,分析了韵律特征、音质特征与情感维度之间的关系,对烦躁等实用语音情感的声学特征进行了评价与选择,提出了针对实际应用环境的可拒判的实用语音情感识别方法。实验结果表明,文中采用的语音情感特征,能较好识别烦躁等实用语音情感,平均识别率达到75%以上。可拒判的实用语音情感识别方法,对模糊的和未知的情感类别的分类进行了合理的决策,在语音情感的实际应用中具有重要的意义。  相似文献   

13.
Discontinuous transmission based on speech/pause detection represents a valid solution to improve the spectral efficiency of new generation wireless communication systems. In this context, robust voice activity detection (VAD) algorithms are required, as traditional solutions present a high misclassification rate in the presence of the background noise typical of mobile environments. This paper presents a voice detection algorithm which is robust to noisy environments, thanks to a new methodology adopted for the matching process. More specifically, the VAD proposed is based on a pattern recognition approach in which the matching phase is performed by a set of six fuzzy rules, trained by means of a new hybrid learning tool. A series of objective tests performed on a large speech database, varying the signal-to-noise ratio (SNR), the types of background noise, and the input signal level, showed that, as compared with the VAD standardized by ITU-T in Recommendation G.729 annex B, the fuzzy VAD, on average, achieves an improvement in reduction both of the activity factor of about 25% and of the clipping introduced of about 43%. Informal listening tests also confirm an improvement in the perceived speech quality  相似文献   

14.
Acoustical measures of vocal function are routinely used in the assessments of disordered voice, and for monitoring the patient's progress over the course of voice therapy. Typically, acoustic measures are extracted from sustained vowel stimuli where short-term and long-term perturbations in fundamental frequency and intensity, and the level of "glottal noise" are used to characterize the vocal function. However, acoustic measures extracted from continuous speech samples may well be required for accurate prediction of abnormal voice quality that is relevant to the client's "real world" experience. In contrast with sustained vowel research, there is relatively sparse literature on the effectiveness of acoustic measures extracted from continuous speech samples. This is partially due to the challenge of segmenting the speech signal into voiced, unvoiced, and silence periods before features can be extracted for vocal function characterization. In this paper we propose a joint time-frequency approach for classifying pathological voices using continuous speech signals that obviates the need for such segmentation. The speech signals were decomposed using an adaptive time-frequency transform algorithm, and several features such as the octave max, octave mean, energy ratio, length ratio, and frequency ratio were extracted from the decomposition parameters and analyzed using statistical pattern classification techniques. Experiments with a database consisting of continuous speech samples from 51 normal and 161 pathological talkers yielded a classification accuracy of 93.4%.  相似文献   

15.
Digital techniques, already widely used for transmission of data, are now being introduced in the field of voice communications. By appreciating some of the long-range implications of this trend we can help point the way towards appropriate usage of this developing technology for improved customer service. This paper focuses on the voice problem and the possibilities offered by complete digitization of the voice signal immediately following the microphone. Included in the discussion are a summary of the properties of the speech signal and its potentialities for efficient transmission, a survey of the existing voice digitization algorithms, some examples of voice digitization implementations, and a brief treatment of voice packetization. There are some comments, near the end of the paper, on the possibility of digitized-voice inputting to, and outputting from, computers in an integrated telephone-computer network.  相似文献   

16.
高谦  张国杰  张树才 《通信技术》2008,41(6):153-154
为了实现高速语音特征参数的提取,在分析了美尔频率倒谱特征参数提取算法的基础上,提出了算法的硬件设计方案,介绍了各模块的设计原理.该方案增加了语音激活检测功能,可对语音信号中的噪音帧进行检测,提高了特征参数的可靠性.最后将设计实现于Stratix Ⅱ系列FPGA上,仿真结果表明设计可以实现高速,高精度的MFCC特征参数提取.  相似文献   

17.
为提高语音活动检测(VAD)在低信噪比下的准确率,提出了一种基于子带长时信号变化特征的VAD算法.将语音信号转换到频域,并分解为几个不重复的子频带,对这些子带信号分别提取长时信号变化特征,然后采用GMM在线建立语音和非语音模型,以模型的似然比进行VAD判决.实验结果表明,算法在较低的信噪比下能够显著地提高语音活动检测的准确率,且在多种噪声环境和信噪比条件下具有较好的稳健性.应用于语音识别系统的实验表明,该算法能有效提高噪声环境下的语音识别率.  相似文献   

18.
针对传统谱减法具有残余音乐噪声过强,清音部分损失严重的缺点,提出了一种利用语音信号的短时平均幅度差特征(AMDF)并结合短时平均幅度(AM)的语音检测算法,在原始语音估计式中引入了参数α和β,对传统的谱减法进行改进。根据采集的真实带噪语音数据,将传统谱减法和改进的谱减法结果进行了比较分析。在研究基于改进的谱减法的语音增强算法基础上,构建了以TMS320VC5509和TLV320AIC23 Codec为核心器件的实时系统,能够有效地提高语音信噪比.信号的信噪比由12.2dB提高到了4.0dB.改善了语音质量。  相似文献   

19.
唐君  张连海  李嘉欣 《信号处理》2022,38(3):527-535
针对现有的语音合成系统Tacotron 2中存在的注意力模型学习慢、合成语音不够鲁棒以及合成语音速度较慢等问题,提出了三点改进措施:1.采用音素嵌入作为输入,以减少一些错误发音问题;2.引入一种注意力损失来指导注意力模型的学习,以实现其快速、准确的学习能力;3.采用WaveGlow模型作为声码器,以加快语音生成的速度....  相似文献   

20.
步兵战车强噪声背景下由于强背景噪声的存在,既影响了口令识别的正确率,又降低了指挥所后台监听的清晰度,为了提高语音质量,本文对口令数据进行增强处理。为此,本文提出了一种基于升降编解码全卷积神经网络(Increase Decrease Encoder Decode Convolution Neural Network,IDEDCNN)的语音增强算法,该算法将输入语音信号通过预处理,获取其傅里叶幅度谱特征,并将连续8帧的语音信号作为网络的输入,通过编码器来对相邻多帧语音信号建模以提取上下文信息,利用解码器挖掘当前待增强语音帧和上下文信息之间的联系,从而实现语音增强的目的。通过实验证明了该算法能够实现较好的语音增强效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号