首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 142 毫秒
1.
由于传统循环神经网络具有复杂的结构,需要大量的数据才能在连续语音识别中进行正确训练,并且训练需要耗费大量的时间,对硬件性能要求很大.针对以上问题,提出了基于残差网络和门控卷积神经网络的算法,并结合联结时序分类算法,构建端到端中文语音识别模型.该模型将语谱图作为输入,通过残差网络提取高层抽象特征,然后通过堆叠门控卷积神经...  相似文献   

2.
为了解决语音情感识别中时空特征动态依赖问题,提出一种基于注意力机制的非线性时空特征融合模型。模型利用基于注意力机制的长短时记忆网络提取语音信号中的时间特征,利用时间卷积网络提取语音信号中的空间特征,利用注意力机制将时空特征进行非线性的融合,并将非线性融合后的高级特征输入给全连接层进行语音情感识别。实验在IEMOCAP数据集中进行评估,实验结果表明,该方法可以同时考虑时空特征的内在关联,相对于使用线性融合的方法,利用注意力机制进行非线性特征融合的网络可以有效地提高语音情感识别准确率。  相似文献   

3.
针对现有的动态手势识别方法对长时间序列的时空特征难以精确匹配的问题,提出了一种基于宽残差和双向长短时记忆网络的时空特征一致手势识别方法。首先使用已经训练好的3D卷积神经网络从视频的空间和时间维度同步提取出短时特征,再经双向空间长短时记忆网络同步解析后形成长时空特征连接单元,并作为残差网络的输入。为了验证算法的有效性,使用Kinect传感器构建了一个全新的多模式手势数据集,在三个手势识别公开数据集SLVM、Montalbano和SKIG上的实验表明,提出的方法有很好的性能表现,识别精度超越了目前已公开的最佳识别率。  相似文献   

4.
5.
针对单一模态情感识别精度低的问题,提出了基于Bi-LSTM-CNN的语音文本双模态情感识别模型算法.该算法采用带有词嵌入的双向长短时记忆网络(bi-directional long short-term memory network,Bi-LSTM)和卷积神经网络(convolutional neural networ...  相似文献   

6.
为了解决语音情感识别中数据集样本分布不平衡的问题,提出一种结合数据平衡和注意力机制的卷积神经网络(CNN)和长短时记忆单元(LSTM)的语音情感识别方法.该方法首先对语音情感数据集中的语音样本提取对数梅尔频谱图,并根据样本分布特点对进行分段处理,以便实现数据平衡处理,通过在分段的梅尔频谱数据集中微调预训练好的CNN模型...  相似文献   

7.
为了构建高效的语音情感识别模型,充分利用不同情感特征所包含的信息,将语谱图特征和LLDs特征相结合,构建了一种基于自注意力机制的双通道卷积门控循环网络模型。同时,为了解决交叉熵损失函数无法增大语音情感特征类内紧凑性和类间分离性的问题,结合一致性相关系数提出新的损失函数——一致性相关损失(CCC-Loss)。将语谱图和LLDs特征分别输入CGRU模型提取深层特征并引入自注意力机制为关键时刻赋予更高的权重;使用CCC-Loss与交叉熵损失共同训练模型,CCC-Loss将不同类情感样本的一致性相关系数之和与同类情感样本的一致性相关系数之和的比值作为损失项,改善了样本特征的类内类间相关性,提高了模型的特征判别能力;将两个网络的分类结果进行决策层融合。所提出的方法在EMODB、RAVDESS以及CASIA数据库上分别取得了92.90%、88.54%以及90.58%的识别结果,相比于ACRNN、DSCNN等基线模型识别效果更好。  相似文献   

8.
在基于深度学习的语音增强模型中,长短时记忆网络能较好地解决序列语音增强问题,但该模型在处理大规模含噪语音数据时存在训练速度缓慢的问题.为此,提出一种基于准循环神经网络的语音增强方法.利用门函数和记忆单元确保含噪语音序列上下文的相关性,门函数的计算不再依赖上一时刻的输出,且该模型在含噪语音序列的输入和门函数的计算中都引入矩阵的卷积运算,使模型可以同时处理多个时刻的语音序列信息,从而增强模型并行计算的能力.实验结果表明,与长短时记忆网络相比,该方法能在保证语音增强性能的前提下,有效提高网络模型的训练速度.  相似文献   

9.
冯磊  蒋磊  许华  苟泽中 《计算机工程》2021,47(4):108-114
为解决传统基于深度学习的调制识别算法在小样本条件下识别准确率较低的问题,提出一种基于深度级联孪生网络的通信信号小样本调制识别算法。根据通信信号时序图的时空特性,设计由卷积神经网络和长短时记忆网络级联的特征提取模块将原始信号特征映射至特征空间,同时在孪生网络架构下对提取的特征进行距离度量并以相似性约束训练网络,避免特征提取模块在训练过程中出现过拟合现象,最终通过最近邻分类器识别待测样本的调制类别。在DeepSig公开调制数据集上的实验结果表明,与传统基于深度学习的调制识别算法相比,该算法能有效降低训练过程中所需的样本量,且在小样本条件下的识别准确率更高。  相似文献   

10.
为更好地对动作进行分类,提出基于推理网络的人体动作识别算法.通过Faster RCNN提取以人为主要区域、以场景信息为附加区域的特征信息,将其输入到LSTM中进行边框回归以及动作分类,通过结合Faster RCNN和LSTM获得动作的空间特征和时间特征,得到更精确的动作分类.在公认的两个数据集上进行实验,U C F-1...  相似文献   

11.
针对LSTM网络无法充分提取短时信息导致人体行为识别率不高的问题,提出一种基于上下文特征融合的卷积长短时记忆网络联合优化架构,用于仅具有RGB数据的行为识别网络。使用3D卷积核对输入的动作序列提取其空间特征和短时时间特征,并将多通道信息进行融合,将融合后的特征送入下一级卷积神经网络和LSTM层中进行长期时间的特征学习,获取上下文的长期时空信息,最后用Softmax分类器进行人体行为的分类。实验结果表明,在人体行为识别公开数据集UCF-101上,提出的基于上下文特征融合的卷积长短时记忆网络的平均识别准确率达93.62%,相比于未进行特征融合的卷积长短时记忆网络提高了1.28%,且平均检测时间降低了37.1%。  相似文献   

12.
基于多模态生理数据的连续情绪识别技术在多个领域有重要用途,但碍于被试数据的缺乏和情绪的主观性,情绪识别模型的训练仍需更多的生理模态数据,且依赖于同源被试数据.本文基于人脸图像和脑电提出了多种连续情绪识别方法.在人脸图像模态,为解决人脸图像数据集少而造成的过拟合问题,本文提出了利用迁移学习技术训练的多任务卷积神经网络模型...  相似文献   

13.
针对目前群组行为识别方法未充分利用场景空间信息和计算复杂度较高的问题,文中提出基于区域特征融合的群组行为识别方法.首先,利用卷积神经网络提取场景的区域特征.再将场景区域特征依据空间位置分离、排列、组合成一系列区域特征序列.最后,利用长短时记忆网络融合区域特征序列,同时综合多层次和多模态策略提升方法效果.在Collective、Volleyball数据集上的实验表明文中方法性能较优.  相似文献   

14.
命名实体识别是自然语言处理任务的重要环节。近年来,基于深度学习的通用命名实体识别模型取得显著效果。而在旅游领域,中文旅游景点实体识别主要依赖于特征工程的方法。提出一种基于CNN-BiLSTM-CRF的网络模型,该模型不使用任何人工特征,通过神经网络充分对文本的局部信息特征进行抽象化抽取和表示,并学习和利用文本的上下文信息,实现对景点实体的识别。实验结果显示,该方法能够有效识别中文旅游景点实体,并在实验中取得[F1]值93.9%的效果。  相似文献   

15.
人体行为识别利用深度学习网络模型自动提取数据的深层特征,但传统机器学习算法存在依赖手工特征提取、模型泛化能力差等问题.提出基于空时特征融合的深度学习模型(CLT-net)用于人体行为识别.采用卷积神经网络(CNN)自动提取人体行为数据的深层次隐含特征,利用长短时记忆(LSTM)网络构建时间序列模型,学习人体行为特征在时...  相似文献   

16.
验证码作为一种安全手段,被广泛应用于互联网领域.本文提出了一种基于卷积神经网络的图像验证码识别方法,通过卷积层级联、残差学习、全局池化、分组卷积等技术手段,在保证识别准确率不受影响的前提下,大大降低了网络的参数量.本文以铁路购票网站验证码和正方教务系统验证码为例来测试模型性能.对于铁路购票网站验证码,实验结果显示本文提出的识别方法参数量最少,对图形和中文词组验证码的识别准确率分别达到98.76%和99.14%;对于正方教务系统验证码,本文方法参数量最少且识别准确率为87.30%.  相似文献   

17.
自动生成图片描述是自然语言处理和计算机视觉的热点研究话题,要求计算机理解图像语义信息并用人类自然语言的形式进行文字表述.针对当前生成中文图像描述整体质量不高的问题,提出首先利用FastText生成词向量,利用卷积神经网络提取图像全局特征;然后将成对的语句和图像〈S, I〉进行编码,并融合为两者的多模态特征矩阵;最后模型采用多层的长短时记忆网络对多模态特征矩阵进行解码,并通过计算余弦相似度得到解码的结果.通过对比发现所提模型在双语评估研究(BLEU)指标上优于其他模型,生成的中文描述可以准确概括图像的语义信息.  相似文献   

18.
针对目前人体危险行为识别过程中由于时空特征挖掘不充分导致精度不够的问题,对传统双流卷积模型进行改进,提出了一种基于CNN-LSTM的双流卷积危险行为识别模型。该模型将CNN网络与LSTM网络并联,其中CNN网络作为空间流,将人体骨架空间运动姿态分为静态与动态特征进行分别提取,两者融合作为空间流的输出;在时间流中采用改进的可滑动长短时记忆网络,以增加人体骨架时序特征的提取能力;最后将两个分支进行时空融合,利用Softmax对危险动作做出分类识别。在公开的NTU-RGB+D数据集和Kinetics数据集上的实验结果表明,改进后模型的平均跨角度(Cross view,CV)精度达到92.5%,平均跨视角(Cross subject,CS)精度为87.9%。所提方法优于改进前及其他方法,可以有效地对人体危险动作做出识别,同时对于模糊动作也有较好的区分效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号