期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李书玲刘蓉张鎏钦刘红《计算机应用》2013,33(7):1938-1941

为有效提高语音情感识别系统的识别率,研究分析了一种改进型的支持向量机(SVM)算法。该算法首先利用遗传算法对SVM参数惩罚因子和核函数中参数进行优化,然后用优化后的参数进行语音情感的建模与识别。在柏林数据集上进行7种和常用5种情感识别实验,取得了91.03%和96.59%的识别率,在汉语情感数据集上,取得了97.67%的识别率。实验结果表明该算法能够有效识别语音情感。相似文献

2.

基于门控网络的军事装备控制指令语音识别研究

柏财通高志强李爱崔翛龙《计算机工程》2021,47(7):301-306

军事装备无感控制是军事装备智能化建设进程中的一个重要研究方向,其中语音控制技术作为无人装备无感控制手段的关键组成部分,受到了越来越多的重视。为完成军事装备语音控制任务,设计一种基于门控网络的中文语音识别网络,并构建军事装备控制指令数据集,实现基于控制指令语音识别技术的军事装备控制。在传统卷积神经网络的结构基础上引入深度残差门控卷积网络,提高识别网络的准确性,同时通过多途径构建军事装备控制指令数据集,设计一套针对军事装备无感控制的语音识别方案。实验结果表明,该语音识别网络军事语音控制指令识别率可达87%,外接语言模型后可达92%,语音识别准确率高、误差率低,可完成军事装备的语音控制任务。相似文献

3.

基于滤波器组和残差网络的环境声音识别算法

刘亚荣于顼顼谢晓兰《计算机工程与设计》2023,(6):1736-1742

为解决现有传统环境声音识别技术识别率不高和普通卷积神经网络易出现网络退化的问题，提出一种基于滤波器组和残差网络的环境声音识别算法。采用滤波器组对声音信号进行特征提取，设计14层的残差网络，使用学习率衰减策略，将提取的特征输入到14层残差网络之中训练并测试。实验结果表明，在使用相同数据集ESC-10的情况下，与传统分类器模型和DCASE基线系统提供的识别方法相比，识别准确率分别提高了22.3%、17.4%和9.5%,验证了该方法在小样本情况下具有更高的识别准确率。相似文献

4.

面向学前教育对话机器人的多模态情感识别实现关键技术

许萌韩鹏《自动化与仪器仪表》2023,(9):137-141

为进一步提高学前教育对话机器人交互过程的准确性，结合多模态融合思想，提出一种基于面部表情情感和语音情感融合的识别技术。其中，为解决面部表情异常视频帧的问题，采用卷积神经网络对人脸进行检测，然后基于Gabor小波变换对人脸表情进行特征提取，最后通过残差网络对面部表情情感进行识别；为提高情感识别的准确性，协助学前教育机器人更好地理解儿童情感，在采用MFCC对连续语音特征进行提取后，通过残差网络对连续语音情感进行识别；利用多元线性回归算法对面部和语音情感识别结果进行融合。在AVEC2019数据集上的验证结果表明，表情情感识别和连续语音情感识别均具有较高识别精度；与传统的单一情感识别相比，多模态融合识别的一致性相关系数最高，达0.77。由此得出，将多模态情感识别的方法将有助于提高学前教育对话机器人交互过程中的情感识别水平，提高对话机器人的智能化。相似文献

5.

一种基于残差网络的相似动物纤维检测方法

肖玉麟路凯张洋刘晔江超田润强《现代计算机》2023,(18):35-39

羊绒和羊毛纤维的表面形态及物理化学特征非常相似，这两种动物纤维的鉴别一直是纺织领域的难题。提出了一种基于残差网络的纤维检测方法，能够快速准确地识别羊绒和羊毛纤维。实验中首先将采集到的纤维图像使用了图像翻转等数据增强方法，接下来使用残差网络训练和测试数据样本，测试集的平均识别率达到了96.56%。相似文献

6.

基于堆叠沙漏网络改进的多人姿态估计

梁鸿任文静张千李传秀《计算机工程与设计》2022,43(2):502-509

为解决多人姿态估计中小尺度关键点(手腕、脚踝等)定位准确率低的问题,采用自顶向上的方式,结合先进的人体目标检测模型YOLOv3,提出一种基于堆叠沙漏网络改进的多人姿态估计方法。在沙漏网络中融入通道混洗模块,加强不同尺度下多层特征之间的跨通道信息交流,提高被遮挡关键点的识别效果;使用注意力机制对沙漏网络原有的残差模块进行特征增强,抑制无用特征并提升有用特征,提高小尺度关键点的识别率。实验结果表明,在MPII数据集上的总体PCK@0.5达到了88.6%,在MSCOCO数据集上的AP@0.75相比原始网络提升了4.6%,验证了所提方法的有效性。相似文献

7.

基于深度残差网络的人脸表情识别

卢官明朱海锐郝强闫静杰《数据采集与处理》2019,34(1):50-57

针对深度卷积神经网络随着卷积层数增加而导致网络模型难以训练和性能退化等问题,提出了一种基于深度残差网络的人脸表情识别方法。该方法利用残差学习单元来改善深度卷积神经网络模型训练寻优的过程,减少模型收敛的时间开销。此外,为了提高网络模型的泛化能力,从KDEF和CK+两种表情数据集上选取表情图像样本组成混合数据集用以训练网络。在混合数据集上采用十折（10-fold）交叉验证方法进行了实验,比较了不同深度的带有残差学习单元的残差网络与不带残差学习单元的常规卷积神经网络的表情识别准确率。当采用74层的深度残差网络时,可以获得90.79%的平均识别准确率。实验结果表明采用残差学习单元构建的深度残差网络可以解决网络深度和模型收敛性之间的矛盾,并能提升表情识别的准确率。相似文献

8.

双流增强融合网络微表情识别

下载免费PDF全文

陈斌朱晋宁《智能系统学报》2023,18(2):360-371

为解决微表情识别领域数据集样本数量少,样本类型分布不均导致识别率鲁棒性差的问题,提出了一种基于双流增强网络的微表情识别模型。该模型基于单帧RGB图像流及光流图像流的双流卷积神经网络,以权威数据集为基础,数据增强为基准,构建微表情识别模型。通过在SoftMax逻辑回归层融合单帧空域信息和光流时域信息,对两个独立流的网络性能进行提升,并通过引入基于带循环约束的生成对抗网络的图像生成方式对数据集进行扩充。通过将输入微表情视频帧序列进行分解,将其分割为双流网络的灰度单帧序列与光流单帧序列,对两类序列图进行数据增强,再进行微表情识别模型构建的方法,有效提高了微表情识别率。基于双流增强网络的微表情识别模型可以较好提升微表情识别准确度,鲁棒性较好,泛化状态较稳定。相似文献

9.

面向数据增强的多种语音情感分类算法研究

下载免费PDF全文

李茜茜沈晓燕任福继康鑫《智能系统学报》2021,16(1):170-177

目前语音情感识别存在语音样本不足、提取的特征数据量大和无关特征多使得识别率不高的问题。针对语音样本不足的情况,在预处理阶段提出了时频域的数据增强方法,对原有的数据库进行扩充;根据传统算法中提取的特征数据量大且与情感无关的特征多的现状,提取了1 582维的情感特征和10组低级描述特征。分别在支持向量机、随机森林和K最邻近3种机器学习算法上做了对比实验。实验证明:支持向量机的平均识别率比较好。在所提取的10组特征组中,LogMelFreqBand特征在3种算法上的精确度分别为74.63%、64.93%和66.42%;而pcm_fftMag_mfcc特征的精确度分别为84.33%、73.13%和58.21%。相似文献

10.

注意力残差模型的语音抑郁倾向识别方法

鲁小勇石代敏刘阳原静仪董强利马秀云《小型微型计算机系统》2022,(8):1602-1608

采用语音信号进行抑郁倾向识别具有重要的现实意义.针对语音抑郁倾向识别使用深度神经网络方法结构复杂和传统机器学习方法需要手动提取特征及识别率低的问题.本文提出了一种结合残差思想和注意力机制的模型,首先基于心理学自我参照效应(Self-reference Effect, SRE)实验范式设计了抑郁语料,进行语音数据集标注;然后将注意力模块引入残差单元中,利用通道注意力学习其通道维度上的特征,空间注意力反馈其空间维度的特征,并将两者结合得到注意力残差单元;最后堆叠单元构建基于注意力残差网络的语音抑郁倾向识别模型.实验结果表明,与传统机器学习方法相比,该模型在抑郁倾向识别上获得了更优的结果,可满足抑郁倾向识别应用的需求. 相似文献

11.

基于多模态组合模型的语音情感识别

《软件》2019,(12)

语音情感识别在人机交互、人工智能(AI)、自然语言处理(NLP)、5G技术等方面扮演着重要的角色。为了克服单模态模型语音情感识别率低和手工调参的缺点,本文首先在Gaurav Sahu的基础模型上增加KNN、CNB和Adaboost单模态模型,提出多模态组合模型C3;然后应用排列组合方法通过计算机实现自动组合,克服GauravSahu手工组合存在的不足;最后用超参数优化方法和交叉验证方法对网络模型进行训练和测试,解决手工调参存在的不足。在IEMOCAP数据集上对本文提出的C3进行实验,实验结果表明,C3比Gaurav Sahu提出的多模态组合模型E2的语音情感识别性能提升1.56%。相似文献

12.

基于声学特征的语言情感识别

金琴陈师哲李锡荣杨刚许洁萍《计算机科学》2015,42(9):24-28

语音情感识别是语音处理领域中一个具有挑战性和广泛应用前景的研究课题。探索了语音情感识别中的关键问题之一:生成情感识别的有效的特征表示。从4个角度生成了语音信号中的情感特征表示:(1)低层次的声学特征,包括能量、基频、声音质量、频谱等相关的特征,以及基于这些低层次特征的统计特征;(2)倒谱声学特征根据情感相关的高斯混合模型进行距离转化而得出的特征;(3)声学特征依据声学词典进行转化而得出的特征;(4)声学特征转化为高斯超向量的特征。通过实验比较了各类特征在情感识别上的独立性能,并且尝试了将不同的特征进行融合,最后比较了不同的声学特征在几个不同语言的情感数据集上的效果(包括IEMOCAP英语情感语料库、CASIA汉语情感语料库和Berlin德语情感语料库)。在IEMOCAP数据集上,系统的正确识别率达到了71.9%,超越了之前在此数据集上报告的最好结果。相似文献

13.

基于ResNet-BLSTM的端到端语音识别

下载免费PDF全文

胡章芳徐轩付亚芹夏志广马苏东《计算机工程与应用》2020,56(18):124-130

基于深度学习的端到端语音识别模型中,由于模型的输入采用固定长度的语音帧,造成时域信息和部分高频信息损失进而导致识别率不高、鲁棒性差等问题。针对上述问题,提出了一种基于残差网络与双向长短时记忆网络相结合的模型,该模型采用语谱图作为输入,同时在残差网络中设计并行卷积层,提取不同尺度的特征,然后进行特征融合,最后采用连接时序分类方法进行分类,实现一个端到端的语音识别模型。实验结果表明,该模型在Aishell-1语音集上字错误率相较于传统端到端模型的WER下降2.52%,且鲁棒性较好。相似文献

14.

基于新型深度神经网络的民机表面缺陷识别

张德银陈从翰黄选红徐志强《计算技术与自动化》2020,39(1):48-53

为解决机务人员依靠经验来对民航飞机的表面缺陷进行识别时易发生误判的问题,开发了一种用于民机表面的缺陷识别的结合Inception-net和残差模块的新型深度神经网络。首先,通过对各机场的在修飞机表面缺陷进行采样建立数据集,手段包括使用图像处理修复不合格图像、使用数据增强缓解数据类别不平衡、使用立方卷积插值法降采样保留图像特征等图像预处理操作。然后在自建的数据集上对新型深度神经网络与其他神经网络进行对比测试。实验结果表明,新型神经网络在较少的参数下能够达到最深的网络深度,且在自建数据集的测试集上的识别率和查全率分别为74.23%和62.29%,优于进行对比的其他网络。说明在一定程度上该网络能够有效用于民机表面缺陷识别工作中。相似文献

15.

基于孪生网络和双向最大边界排序损失的行人再识别

祁子梁曲寒冰赵传虎董良李博昭王长生《计算机应用》2019,39(4):977-983

针对在实际场景中存在的不同行人图像之间比相同行人图像之间更相似所造成的行人再识别准确率较低的问题，提出一种基于孪生网络并结合识别损失和双向最大边界排序损失的行人再识别方法。首先，对在超大数据集上预训练过的神经网络模型进行结构改造，主要是对最后的全连接层进行改造，使模型可以在行人再识别数据集上进行识别判断；其次，联合识别损失和排序损失监督网络在训练集上的训练，并通过正样本对的相似度值减去负样本对的相似度值大于预定阈值这一判定条件，来使得负例图像对之间的距离大于正例图像对之间的距离；最后，使用训练好的神经网络模型在测试集上测试，提取特征并比对特征之间的余弦相似度。在公开数据集Market-1501、CUHK03和DukeMTMC-reID上进行的实验结果表明，所提方法分别取得了89.4%、86.7%、77.2%的rank-1识别率，高于其他典型的行人再识别方法，并且该方法在基准网络结构下最高达到了10.04%的rank-1识别率提升。相似文献

16.

基于改进语音处理的卷积神经网络中文语音情感识别方法

乔栋陈章进邓良屠程力《计算机工程》2022,(2):281-290

语音情感识别在人机交互中具有重要意义。为解决中文语音情感识别效率和准确率低等问题,提出一种基于Trumpet-6卷积神经网络模型的中文语音情感识别方法。在MFCC特征提取过程中,通过增加分帧加窗操作时采样点的个数,增添每个汉明窗内的特征及减少汉明窗个数,从而缩小MFCC特征图的像素尺寸,提高单次识别的处理效率。在此基础上,使用高斯白噪声对数据集进行数据增强处理,缓解训练过程中的过拟合问题。在CASIA语音情感数据集上的实验结果表明,该方法的测试准确率达95.7%,优于Lenet-5、RNN、LSTM等传统方法,且Trumpet-6卷积神经网络模型采用2 048个采样点,仅需176 550个待训练参数,与采用DCNN的ResNet34和循环神经网络模型相比,参数更少,结构更简单,处理速度更快。相似文献

17.

基于改进语音处理的卷积神经网络中文语音情感识别方法

乔栋陈章进邓良屠程力《计算机工程》2022,(2):281-290

语音情感识别在人机交互中具有重要意义。为解决中文语音情感识别效率和准确率低等问题,提出一种基于Trumpet-6卷积神经网络模型的中文语音情感识别方法。在MFCC特征提取过程中,通过增加分帧加窗操作时采样点的个数,增添每个汉明窗内的特征及减少汉明窗个数,从而缩小MFCC特征图的像素尺寸,提高单次识别的处理效率。在此基础上,使用高斯白噪声对数据集进行数据增强处理,缓解训练过程中的过拟合问题。在CASIA语音情感数据集上的实验结果表明,该方法的测试准确率达95.7%,优于Lenet-5、RNN、LSTM等传统方法,且Trumpet-6卷积神经网络模型采用2 048个采样点,仅需176 550个待训练参数,与采用DCNN的ResNet34和循环神经网络模型相比,参数更少,结构更简单,处理速度更快。相似文献

18.

基于关联规则的语音情感中韵律特征抽取算法研究

《计算机应用与软件》2015,(9)

近年来,情感计算一直是学术界研究的热点问题。语音情感识别作为情感计算的重要研究且涉及到人工智能、模式识别、机器学习等多个领域。针对语音情感识别中特征挖掘的复杂性,利用关联规则挖掘算法对语音特征中的韵律特征与所包含情感之间的关联关系进行研究。主要进行如下工作:(1)针对语音情感的特点,给出了情感频繁项集的概念;(2)提出基于关联规则的语音情感中韵律特征抽取算法(PFEA_AR);(3)在汉语情感数据集上进行相关实验,取得了85%的识别率,比fisher准则判别法的精度提高了10%。实验结果表明,通过关联规则算法所抽取的特征在降低维度的同时还能够有效提高情感分类精度,从而验证了新算法所抽取特征的有效性。相似文献

19.

标签引导的生成对抗网络人脸表情识别域适应方法

孙冬梅张飞飞毛启容《计算机工程》2020,46(5):267-273,281

传统的人脸表情识别方法主要针对实验室环境下的基本表情,难以应对现实场景中人类微妙和复杂的表情变化,并且目前自然环境人脸表情识别数据集普遍缺乏足够的训练数据。针对该问题,利用实验室环境下的数据库样本,提出以标签引导的生成对抗网络表情识别域适应方法。将情感标签作为辅助条件,训练生成对抗网络的生成模型,把实验室环境的数据库样本转化为类似自然环境数据库的样本,以扩充自然环境数据库,同时基于扩充的数据库样本训练基本分类器VGG、Resnet等,从而学习自然环境的数据库的情感特征。在RAF_DB等自然环境人脸表情数据库上的实验结果表明,与Boosting-POOF和PixelDA方法相比,该方法扩充得到的数据库可使人脸表情识别率取得6%~9%的提升。相似文献

20.

基于领域知识的语音识别鲁棒性增强技术研究

王斐斐贲可荣张献《计算机工程与科学》2023,(12):2155-2164

针对语音识别软件在有噪声干扰时识别准确率降低的问题，为确保使用语音控制操作的安全性，提出一种基于领域知识的语音识别鲁棒性增强方法。以舰艇操控为应用背景，建立舰艇操控领域知识图谱；从航海图书资料和经典海战影视资料中提取舰艇操控指令，构建舰艇操控指令中文语音数据集；提出一种嵌入领域知识的解码方法，通过计算识别结果与领域知识图谱的匹配度对输出控制指令进行修正。实验结果表明，相较于目前流行的连接时序分类解码方法和基于注意力机制的解码方法，所提解码方法在识别信噪比为10 dB和20 dB的带噪语音时字错误率分别下降了4.0%和1.5%,指令识别准确率分别提升了10.3%和6.3%,提高了语音识别模型识别中文指令的鲁棒性。相似文献