首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
2.
陈修凯  陆志华  周宇 《计算机应用》2020,40(7):2137-2141
在大部分基于深度学习的语音分离和语音增强算法中,把傅里叶变换后的频谱特征作为神经网络的输入特征,并未考虑到语音信号中的相位信息。然而过去的一些研究表明,尤其是在低信噪比(SNR)条件下,相位信息对于提高语音质量是必不可少的。针对这个问题,提出了一种基于卷积编解码器网络和门控循环单元(CED-GRU)的语音分离算法。首先,利用原始波形既包含幅值信息也包含相位信息的特点,在输入端以混合语音信号的原始波形作为输入特征;其次,通过结合卷积编解码器(CED)网络和门控循环单元(GRU)网络,可以有效解决语音信号中存在的时序问题。提出的改进算法在男性和男性、男性和女性、女性和女性的语音质量的感知评价(PESQ)和短时目标可懂度(STOI)方面,与基于排列不变训练(PIT)算法、基于深度聚类(DC)算法、基于深度吸引网络(DAN)算法相比,分别提高了1.16和0.29、1.37和0.27、1.08和0.3;0.87和0.21、1.11和0.22、0.81和0.24;0.64和0.24、1.01和0.34、0.73和0.29个百分点。实验结果表明,基于CED-GRU的语音分离系统在实际应用中具有较大的价值。  相似文献   

3.
衡红军  徐天宝 《计算机应用》2022,42(9):2674-2679
针对现有的文档级情感分析模型大多只是考虑从词级对文本进行编码的问题,提出了一种基于多尺度卷积和门控机制的注意力情感分析模型。首先,使用多尺度卷积捕获不同粒度的局部相关性,从而得到更多不同层次的文本语义信息并形成更丰富的文本表示;其次,考虑到用户个性及产品信息对文本情感分类的影响,将全局用户产品信息融合到注意力中捕捉与用户和产品相关度较高的关键语义成分来生成文档表示;然后,引入门控机制来控制情感信息流向汇集层的路径;最后,通过全连接层和argmax函数实现情感分类。实验结果表明,与基准模型中性能最好的相比,所提模型在IMDB和Yelp2014两个数据集上的情感分类准确率分别提高了1.2个百分点和0.7个百分点,并且在IMDB和Yelp2013数据集上获得了最小的均方根误差(RMSE)。  相似文献   

4.
杨磊  赵红东  于快快 《计算机应用》2022,42(6):1869-1875
针对语音情感数据集规模小且数据维度高的特点,为解决传统循环神经网络(RNN)长程依赖消失和卷积神经网络(CNN)关注局部信息导致输入序列内部各帧之间潜在关系没有被充分挖掘的问题,提出一个基于多头注意力(MHA)和支持向量机(SVM)的神经网络MHA-SVM用于语音情感识别(SER)。首先将原始音频数据输入MHA网络来训练MHA的参数并得到MHA的分类结果;然后将原始音频数据再次输入到预训练好的MHA中用于提取特征;最后通过全连接层后使用SVM对得到的特征进行分类获得MHA-SVM的分类结果。充分评估MHA模块中头数和层数对实验结果的影响后,发现MHA-SVM在IEMOCAP数据集上的识别准确率最高达到69.6%。实验结果表明同基于RNN和CNN的模型相比,基于MHA机制的端到端模型更适合处理SER任务。  相似文献   

5.
随着深度学习的应用,表情识别技术得到快速发展,但如何提取多尺度特征及高效利用关键特征仍是表情识别网络面临的挑战.针对上述问题,文中使用金字塔卷积有效提取多尺度特征,使用空间通道注意力机制加强关键特征的表达,构建基于残差注意力机制和金字塔卷积的表情识别网络,提高识别的准确率.网络使用MTCNN(Multi-task Convolutional Neural Network)进行人脸检测、人脸裁剪及人脸对齐,再将预处理后的图像送入特征提取网络.同时,为了缩小同类表情的差异,扩大不同类表情的距离,结合Softmax Loss和Center Loss,进行网络训练.实验表明,文中网络在Fer2013、CK+数据集上的准确率较高,网络参数量较小,适合表情识别在现实场景中的应用.  相似文献   

6.
陈聪  贺杰  陈佳 《控制工程》2021,28(3):585-591
为提高常规自动语音识别(ASR)系统的精度,提出基于隐式马尔可夫模型混合连接时间分类/注意力机制的端到端ASR系统设计方法.首先,针对可观测时变序列语音识别过程中存在的连续性强、词汇量大的语音识别难点,基于隐式马尔可夫模型对语音识别过程进行模拟,实现了语音识别模型参数化;其次,使用连接时间分类目标函数作为辅助任务,在多...  相似文献   

7.
针对传统的语音识别系统采用数据驱动并利用语言模型来决策最优的解码路径,导致在部分场景下的解码结果存在明显的音对字错的问题,提出一种基于韵律特征辅助的端到端语音识别方法,利用语音中的韵律信息辅助增强正确汉字组合在语言模型中的概率。在基于注意力机制的编码-解码语音识别框架的基础上,首先利用注意力机制的系数分布提取发音间隔、发音能量等韵律特征;然后将韵律特征与解码端结合,从而显著提升了发音相同或相近、语义歧义情况下的语音识别准确率。实验结果表明,该方法在1 000 h及10 000 h级别的语音识别任务上分别较端到端语音识别基线方法在准确率上相对提升了5.2%和5.0%,进一步改善了语音识别结果的可懂度。  相似文献   

8.
中文文本校对是中文自然语言处理方面的关键任务之一,人工校对方式难以满足日常工作的数据量需求,而基于统计的文本校对方法不能灵活的处理语义方面的错误.针对上述问题,提出了一种基于神经网络与注意力机制的中文文本校对方法.利用双向门控循环神经网络层获取文本信息并进行特征提取,并引入注意力机制层增强词间语义逻辑关系的捕获能力.在基于Keras深度学习框架下对模型进行实现,实验结果表明,该方法能够对含语义错误的文本进行校对.  相似文献   

9.
为了构建高效的语音情感识别模型,充分利用不同情感特征所包含的信息,将语谱图特征和LLDs特征相结合,构建了一种基于自注意力机制的双通道卷积门控循环网络模型。同时,为了解决交叉熵损失函数无法增大语音情感特征类内紧凑性和类间分离性的问题,结合一致性相关系数提出新的损失函数——一致性相关损失(CCC-Loss)。将语谱图和LLDs特征分别输入CGRU模型提取深层特征并引入自注意力机制为关键时刻赋予更高的权重;使用CCC-Loss与交叉熵损失共同训练模型,CCC-Loss将不同类情感样本的一致性相关系数之和与同类情感样本的一致性相关系数之和的比值作为损失项,改善了样本特征的类内类间相关性,提高了模型的特征判别能力;将两个网络的分类结果进行决策层融合。所提出的方法在EMODB、RAVDESS以及CASIA数据库上分别取得了92.90%、88.54%以及90.58%的识别结果,相比于ACRNN、DSCNN等基线模型识别效果更好。  相似文献   

10.
许华杰  杨洋  李桂兰 《计算机科学》2021,48(10):220-225
材质识别旨在识别自然材质图像中的主要对象及其所属材料类别.针对材质图像数据集通常数据量少、人工标注局部纹理区域困难所导致的材质识别准确率低的问题,提出了一种基于注意力机制和深度卷积神经网络的材质识别方法,该方法的核心是材质识别深度卷积神经网络(MaterialNet).MaterialNet利用深度残差网络对图像进行特征提取,采用所提出的级联空洞空间金字塔池化的方式引入注意力机制,使网络可以通过端到端训练自适应地关注包含纹理特征的关键区域,从而有效识别材质的局部纹理特征.在FMD材质数据集上进行实验,结果表明,MaterialNet的总体识别准确率可达到82.3%,比当前主流的B-CNN和CNN+FV材质识别方法分别提高了7.2%和4.5%,对多种材质的识别准确率较高且具有参数量少、计算量小等优点.  相似文献   

11.
针对社会化推荐算法中存在的推荐准确率不高的问题,提出了一种多头注意力门控神经网络(MAGN)算法.具体来说,采用门控神经网络对输入的用户和用户-朋友对进行融合得到联合嵌入,利用注意力记忆网络来获取不同朋友在不同方面对用户的影响,利用多头注意力来获取在不同方面对用户影响程度偏高的几位朋友.采用门控神经网络将朋友影响和用户...  相似文献   

12.
现有的将词映射为单一向量的方法没有考虑词的多义性,从而会引发歧义问题;映射为多个向量或高斯分布的方法虽然考虑了词的多义性,但或多或少没能有效利用词序、句法结构和词间距离等信息对词在某一固定语境中语义表达的影响。综合考虑以上存在的问题,该文提出了一种基于非残差块封装的门控卷积机制加以层次注意力机制的方法,分别在所选取语境窗口中词的子语义层、合成语义层获得非对称语境窗口下目标单词的合成语义向量以预测目标单词,并按此法在给定语料上学习得到多语义词向量的计算方法。小规模语料上用该方法得到的多语义词向量,在词类比任务的语义类比上相比于基线方法准确率最高可提升1.42%;在WordSim353、MC、RG、RW等计算单词相似度任务的数据集上相比于基线方法能够达到平均2.11的性能提升,最高可到5.47。在语言建模实验上,该方法的语言模型性能相比于其他预测目标单词的方法也有显著提升。  相似文献   

13.
人脸表情是人类内心情绪最真实最直观的表达方式之一,不同的表情之间具有细微的类间差异信息。因此,提取表征能力较强的特征成为表情识别的关键问题。为提取较为高级的语义特征,在残差网络(ResNet)的基础上提出一种注意力金字塔卷积残差网络模型(APRNET50)。该模型融合金字塔卷积模块、通道注意力和空间注意力。首先用金字塔卷积提取图像的细节特征信息,然后对所提特征在通道和空间维度上分配权重,按权重大小定位显著区域,最后通过全连接层构建分类器对表情进行分类。以端到端的方式进行训练,使得所提网络模型更适合于精细的面部表情分类。实验结果表明,在FER2013和CK+数据集上识别准确率可以达到73.001%和94.949%,与现有的方法相比识别准确率分别提高了2.091个百分点和0.279个百分点,达到了具有相对竞争力的效果。  相似文献   

14.
现有的基于注意力机制的细粒度图像识别方法大多都没有考虑目标局部的相关性,而且以往大多数方法都用多阶段或者多尺度机制,导致效率不高且难以端到端训练。本文提出的方法能调节不同输入图像的不同部位的关系。基于上述思路的注意力机制的方法去学习每幅图的每个关注区域特征,再用增强多重注意力机制强化这一效果,让同类别图像具有类似的注意力机制,而不同类别的图像具有不一样的注意力机制,同时也能够进行端到端训练。  相似文献   

15.
文本情感分析作为自然语言处理领域的一大分支,具有非常高的研究价值。该文提出了一种基于多通道卷积与双向GRU网络的情感分析模型。该模型首先使用多通道卷积神经网络对文本不同粒度的特征信息进行提取,提取后的特征信息经过融合送入双向 GRU 中,结合注意力机制获得文本的上下文情感特征,最后由分类器给出文本的情感倾向。注意力机制自适应的感知上下文信息进而提取对情感极性影响较强的特征,在模型的基础上引入Maxout神经元,解决模型训练过程中的梯度弥散问题。模型在IMDb及SST-2数据集上进行实验,实验结果表明本文模型较CNN-RNN模型在分类精确度上有了一定程度的提升。  相似文献   

16.
三维点云数据通常具备无序排列的结构。在三维点云数据处理领域,深度学习模型通常会利用最大池化等对称操作来处理点云的排列不变性。最大池化方法一方面会破坏点云的信息结构,使得局部信息与全局信息难以交互。另一方面,最大池化方法对点云信息过度压缩,得到的特征对局部细节描述不足。针对上述问题,提出了AttentionPointNet的网络结构。该网络利用注意力机制,使每个点与点云其余部分进行特征交互,实现了局部与全局信息的综合。为降低最大池化造成的信息损失,提出了一种稀疏卷积方法来替代池化操作。这种方法利用大步长的稀疏卷积实现全局信息的提取。在ModelNet40数据集上,AttentionPointNet取得了87.2%的准确率。不使用池化层,完全采用卷积层实现的模型取得了86.2%的分类准确率。  相似文献   

17.
近年来基于深度学习的人脸表情识别技术已取得很大进展,但对于表情特征的多尺度提取,以及在不受约束的现实场景中进行面部表情识别仍然是具有挑战性的工作。为解决此问题,提出一种金字塔卷积神经网络与注意力机制结合的表情识别方法。对于初始的一张人脸表情图像,将其按照区域采样裁剪成多张子图像,将原图像和子图像输入到金字塔卷积神经网络进行多尺度特征提取,将提取到的特征图输入到全局注意力模块,给每一张图像分配一个权重,从而得到有重要特征信息的图像,将子图像和原始图像的特征进行加权求和,得到新的含有注意力信息的全局特征,最终进行表情识别分类。在CK+、RAF-DB、AffectNet三个公开表情数据集上分别取得了98.46%、87.34%、60.45%的准确率,提高了表情的识别精度。  相似文献   

18.
针对传统卷积神经网络在人脸表情识别过程中存在有效特征提取针对性不强、识别准确率不高的问题,提出一种基于多尺度特征注意力机制的人脸表情识别方法。用两层卷积层提取浅层特征信息;在Inception结构基础上并行加入空洞卷积,用来提取人脸表情的多尺度特征信息;引入通道注意力机制,提升模型对重要特征信息的表示能力;最后,将得到的特征输入Softmax层进行分类。通过在公开数据集FER2013和CK+上进行仿真实验,分别取得了68.8%和96.04%的识别准确率,结果表明该方法相比许多经典算法有更好的识别效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号