首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
传统用户登入语音识别模型的泛化性能较差,导致语音识别精度不理想。为解决上述问题,构建基于多任务训练的用户登入语音识别模型。利用循环神经网络(Recurrent Neural Network, RNN)的数据处理能力,将多任务学习(Multi-task learning, MTL)应用在循环神经网络中,采用共享隐层学习的方式并行训练多个任务,获取更多共享特征,完成多任务学习,提高循环神经网络泛化性能,构建基于MTL-RNN的语音识别模型,将用户登入连贯语音信息作为模型输入,结合多任务学习结构,通过用户身份、情感和性别的分类输出,实现用户登入语音识别。实验结果表明,上述模型具备较高语音识别准确率,语音识别非加权平均召回率较高,说明引入多任务学习可增强上述模型的语音识别的泛化能力,优化识别精度。  相似文献   

2.
基于深度学习的语音增强算法的性能通常优于传统的基于噪声抑制的语音增强算法。然而当训练数据和测试数据之间存在不匹配时,基于深度学习的语音增强算法通常无法正常工作。针对上述问题,提出一种新的基于渐进比率掩蔽(PRM)的自适应噪声估计(PRM-ANE)方法,并把它作为语音识别系统的预处理方法。所提方法综合利用了具有帧级别的噪声跟踪能力的改进最小统计量控制递归平均(IMCRA)算法和具有学习噪声和语音之间复杂非线性映射关系的渐进学习算法这两种算法。首先,使用二维卷积神经网络(2D-CNN)学习随信噪比(SNR)增加的PRM;其次,通过传统的帧级语音增强算法组合句子级估计的PRM,进行语音增强;最后,将基于多级别信息融合的增强语音直接作为语音识别系统的输入,从而提高识别系统性能。在CHiME-4真实测试集上的实验结果表明,所提方法可以实现7.42%的相对字识别错误率(WER),与IMCRA语音增强方法相比下降了51.41%,可见所提方法能够有效提升下游识别任务的性能。  相似文献   

3.
邬龙  黎塔  王丽  颜永红 《软件学报》2019,30(S2):25-34
为了进一步利用近场语音数据来提高远场语音识别的性能,提出一种基于知识蒸馏和生成对抗网络相结合的远场语音识别算法.该方法引入多任务学习框架,在进行声学建模的同时对远场语音特征进行增强.为了提高声学建模能力,使用近场语音的声学模型(老师模型)来指导远场语音的声学模型(学生模型)进行训练.通过最小化相对熵使得学生模型的后验概率分布逼近老师模型.为了提升特征增强的效果,加入鉴别网络来进行对抗训练,从而使得最终增强后的特征分布更逼近近场特征.AMI数据集上的实验结果表明,该算法的平均词错误率(WER)与基线相比在单通道的情况下,在没有说话人交叠和有说话人交叠时分别相对下降5.6%和4.7%.在多通道的情况下,在没有说话人交叠和有说话人交叠时分别相对下降6.2%和4.1%.TIMIT数据集上的实验结果表明,该算法获得了相对7.2%的平均词错误率下降.为了更好地展示生成对抗网络对语音增强的作用,对增强后的特征进行了可视化分析,进一步验证了该方法的有效性.  相似文献   

4.
语音是一种重要的信息资源传递与交流方式,人们经常使用语音作为交流信息的媒介,在语音的声学信号中包含大量的说话者信息、语义信息和丰富的情感信息,因此形成了解决语音学任务的3个不同方向,即声纹识别(Speaker Recognition,SR)、语音识别(Auto Speech Recognition,ASR)和情感识别(Speech Emotion Recognition,SER),3个任务均在各自的领域使用不同的技术与特定的方法进行信息提取与模型设计。文中首先综述了3个任务在国内外早期的发展历史路线,将语音任务的发展归纳为4个不同阶段,同时总结了3个语音学任务在特征提取时所采用的公共语音学特征,并针对每类特征的侧重点进行了说明。然后,随着近年来深度学习技术在各个领域中的广泛应用,语音任务也得到了很好的发展,文中针对目前流行的深度学习模型在声学建模中的应用分别进行了分析,按照有监督、无监督的方式总结了针对3种不同语音任务的声学特征提取方式及技术路线,还总结了基于多通道并融合注意力机制的模型,用于语音的特征提取。为了同时完成语音识别、声纹识别和情感识别任务,针对声学信号的个性化特征提出了一个基于多任务的Tandem模型;此外,提出了一个多通道协作网络模型,利用这种设计思路可以提升多任务特征提取的准确度。  相似文献   

5.
高戈  王霄  曾邦  尹文兵  陈怡 《计算机应用》2022,(S1):316-320
在频域语音增强算法中,由于估计幅度谱与带噪相位谱的不匹配,其性能难以突破固有上限。在时域语音增强框架中,模型将时域波形作为输入,由网络直接学习时域波形之间的映射关系,有效地避免了无效短时傅里叶变换(STFT)问题。然而,常见的采用波形最小均方误差的时域语音增强算法对语音频域特征的建模并未达到最优。针对这个问题,提出一种基于时频联合损失函数的语音增强算法。首先将时频联合损失函数应用到Wave-U-Net时域语音增强网络,同时设计并分析了一阶范数形式和二阶范数形式的时频联合损失函数对增强网络的影响,最后得到了面向语音通信任务和语音识别任务的相对最佳损失函数选择方案。实验结果表明,相较于采用时域损失的增强网络,采用面向语音通信时最佳联合损失函数的增强网络在语音质量的感知评估(PESQ)和短时目标清晰度(STOI)分别实现了3.6%和2.30%的相对提升,采用面向语音识别时最佳联合损失函数的增强网络在字符错误率(CER)上实现了1.82%的相对降低。相较于Wave-U-Net时域语音增强网络,该算法有更好的噪声抑制效果,在后端语音识别任务中表现更为优秀。  相似文献   

6.
赵专政 《计算机应用》2014,(Z2):314-316
为了更好地运用深度置信网络( DBN)进行语音活性检测( VAD),针对现有方法过于繁杂的问题,提出采用语音频谱作为深度置信网络的输入的改进算法。在Matlab环境下使用TIMIT语料库进行仿真实验,实验结果验证了该方法的有效性,并且在Babble噪声环境下验证该方法比现有方法具有更高的检测正确率。  相似文献   

7.
深度语音信号与信息处理:研究进展与展望   总被引:1,自引:0,他引:1  
论文首先对深度学习进行简要的介绍,然后就其在语音信号与信息处理研究领域的主要研究方向,包括语音识别、语音合成、语音增强的研究进展进行了详细的介绍。语音识别方向主要介绍了基于深度神经网络的语音声学建模、大数据下的模型训练和说话人自适应技术;语音合成方向主要介绍了基于深度学习模型的若干语音合成方法;语音增强方向主要介绍了基于深度神经网络的若干典型语音增强方案。论文的最后我们对深度学习在语音信与信息处理领域的未来可能的研究热点进行展望。  相似文献   

8.
自动说话人验证(Automatic Speaker Verification,ASV)通过接收说话人的语音来提取说话人的语音特征,并在已经训练的模型上进行验证,最终识别输入语音的真伪,并判断说话人的身份。随着语音欺骗技术的发展,为保护ASV系统的安全性,需要提升反语音欺骗模型的性能。因此,文章提出基于深度学习的反语音欺骗模型。实验结果表明,该模型能够有效提高ASV系统的安全性。  相似文献   

9.
基于最小统计噪声估计的信号子空间语音增强   总被引:1,自引:0,他引:1  
针对传统子空间方法中,采用语音活动检测(Voice activity detection,VAD)估计噪声的缺陷,提出了一种基于子空间域的最小统计噪声估计算法。噪声估计通过跟踪带噪语音协方差矩阵用每个特征向量上的特征值的最小值来获得,该方法不需要VAD明确区分语音段和噪声段,能够在整个信号期间实现噪声的连续估计和不断更新。实验结果表明,相对于传统的基于VAD的子空间方法,本文提出的算法对语音增强效果有非常显著的提高。  相似文献   

10.
当前的语音识别模型在英语、法语等表音文字中已取得很好的效果。然而,汉语是一种典型的表意文字,汉字与语音没有直接的对应关系,但拼音作为汉字读音的标注符号,与汉字存在相互转换的内在联系。因此,在汉语语音识别中利用拼音作为解码时的约束,可以引入一种更接近语音的归纳偏置。该文基于多任务学习框架,提出一种基于拼音约束联合学习的汉语语音识别方法,以端到端的汉字语音识别为主任务,以拼音语音识别为辅助任务,通过共享编码器,同时利用汉字与拼音识别结果作为监督信号,增强编码器对汉语语音的表达能力。实验结果表明,相比基线模型,该文提出的方法取得了更优的识别效果,词错误率降低了2.24%。  相似文献   

11.
陈颖  于炯  陈嘉颖  杜旭升 《计算机应用》2022,42(5):1447-1454
针对多任务学习模型中相关度低的任务之间存在的负迁移现象和信息共享困难问题,提出了一种基于交叉层级数据共享的多任务模型。该模型关注细粒度的知识共享,且能保留浅层共享专家的记忆能力和深层特定任务专家的泛化能力。首先,统一多层级共享专家,以获取复杂相关任务间的公共知识;然后,将共享信息分别迁移到不同层级的特定任务专家之中,从而在上下层之间共享部分公共知识;最后,利用基于数据样本的门控网络自主选择不同任务所需信息,从而减轻样本依赖性对模型的不利影响。相较于多门控混合专家(MMOE)模型,所提模型在UCI census-income数据集上对两个任务的F1值分别提高了7.87个百分点和1.19个百分点;且在MovieLens数据集上的回归任务的均方误差(MSE)值降低到0.004 7,分类任务的AUC值提高到0.642。实验结果表明,所提出的模型适用于改善负迁移现象的影响,且能更高效地学习复杂相关任务之间的公共信息。  相似文献   

12.
情感分布学习是一种近年提出的有效的多情绪分析模型,其核心思路是通过情感分布记录示例在各个情绪上的表达程度,适于处理存在情绪模糊性的情感分析任务。针对现有的情感分布学习方法较少考虑情感心理学先验知识的问题,提出一种基于情感轮注意力的情感分布学习(emotion wheel attention based emotion distribution learning,EWA-EDL)模型。EWA-EDL模型为每种基本情绪生成一个描述情绪心理学相关性的先验情感分布,再通过注意力机制将基于情感轮的先验知识直接融入深度神经网络。EWA-EDL模型采用端到端的方式对深度网络进行训练,同时学习情感分布预测和情绪分类任务。EWA-EDL模型主要由5部分构成,分别为输入层、卷积层、池化层、注意力层和多任务损失层。在8个常用的文本情感数据集上的对比实验表明,EWA-EDL模型在情感分布预测和情绪分类任务上的性能均优于对比的情感分布学习方法。  相似文献   

13.
随着深度学习的发展,近年来人脸识别借助深度学习技术取得了巨大突破。但是在已有的基于深度学习的人脸识别框架中,各个任务(人脸鉴别、认证和属性分类等)都是相互独立设计、运作的,使得整体算法低效、耗时。针对这些问题,提出一种基于多任务框架的深度卷积网络。通过将人脸鉴别、认证和属性分类同时作为网络目标函数,端到端地训练整个深度卷积网络,算法简洁高效。此网络可以同时完成上述三个任务,不需要额外的步骤。实验结果显示,即使在有限的数据支持下,该方法依然能够取得不错的性能,在人脸识别权威数据集LFW上获得了97.3%的精度。  相似文献   

14.
微博谣言的广泛传播给当今社会造成了日益严峻的负面影响。基于深度神经网络的方法存在缺少大量带标签的数据。研究发现,谣言经常伴随负面情感,而非谣言则伴随正面情感,考虑到谣言与非谣言之间表现出的相反情感倾向性,提出一种将谣言检测和情感分析这两个高度相关的任务结合起来学习的多任务学习方法,为了尽可能多地挖掘不同任务之间的关联,全面分析谣言检测任务的特征,设计了一个由BERT和BiGRU联合的多任务学习框架(BERT-BiGRU-MTL,BBiGM)。利用权值共享的方法对两个任务进行联合训练,同时提取出任务之间的共同特征和针对谣言检测任务的特定特征,利用情感分析任务辅助谣言检测。研究结果表明,该方法在准确率、精确率、F1值评测指标上优于采用单任务学习的方法。  相似文献   

15.
王佑芯  陈斌 《计算机应用》2023,43(1):250-258
基于传统图像处理技术的印刷缺陷检测方法鲁棒性差,而基于深度学习的目标检测方法则不完全适用于印刷缺陷检测任务的问题。为解决上述问题,将模板匹配方法中的对比思想与深度学习中的语义特征结合,提出用于印刷缺陷检测任务的深度对比网络(CoNet)。首先,提出基于孪生结构的深度对比模块(DCM)在语义空间提取并融合检测图像与参考图像的特征图,挖掘二者间的语义关系;然后,提出基于非对称双通路特征金字塔结构的多尺度变化检测模块(MsCDM),定位并识别印刷缺陷。在公开的印刷电路板缺陷数据集DeepPCB与立金缺陷数据集上,CoNet的平均精度均值(mAP)分别为99.1%和69.8%,与同样采用变化检测思路的最大分组金字塔池化(MP-GPP)和变化检测单次检测器(CD-SSD)相比,分别提升了0.4、3.5个百分点和0.7、2.4个百分点,CoNet的检测精度更高。此外,当输入图像分辨率为640×640时,CoNet的平均耗时为35.7 ms,可见其完全可以满足工业检测任务的实时性要求。  相似文献   

16.
单任务学习常常受限于单目标函数的不足,多任务学习能有效利用任务相关性的先验性,故而受到了学界的关注.在中文自然语言处理领域,关于多任务学习的研究极为匮乏,该领域需同时考虑到中文文本特征提取和多任务的建模.本论文提出了一种多任务学习模型MTL-BERT.首先将BERT作为特征提取器以提升模型的泛化性.其次分类和回归是机器学习中的两个主要问题,针对多标签分类和回归的混合任务,提出了一种任务权重自适应框架.该框架下,任务之间的权重由联合模型参数共同训练.最后从模型最大似然角度,理论验证了该多任务学习算法的有效性.在真实中文数据集上的实验表明,MTL-BERT具有较好的计算效果.  相似文献   

17.
何克磊  史颖欢  高阳 《软件学报》2020,31(5):1573-1584
传统的深度多任务网络通常在不同任务之间共享网络的大部分层(即特征表示).由于这样做会忽视不同任务各自的特殊性,所以往往会制约它们适应数据的能力.提出一种层级混合的多任务全卷积网络HFFCN,以解决CT图像中的前列腺分割问题.特别地,使用一个多任务框架来解决这个问题,这个框架包括:1)一个分割前列腺的主任务;和2)一个回归前列腺边界的辅助任务.在这里,第二个任务主要是用来精确地描述在CT图像中模糊的前列腺边界.因此,提出的HFFCN架构是一个双分支的结构,包含一个编码主干和两个解码分支.不同于传统的多任务网络,提出了一个新颖的信息共享模块,用以在两个解码分支之间共享信息.这使得HFFCN可以:1)学习任务的通用层级信息;2)同时保留一些不同任务各自的特征表示.在一个包含有313个病人的313张计划阶段图片的CT图像数据集上做了详细的实验,实验结果证明了所提的HFFCN网络可以超越现有其他先进的分割方法,或者是传统的多任务学习模型.  相似文献   

18.
多任务学习通过寻找并共享不同任务域之间的共性特征来完成学习,利用知识迁移加速不同任务域的学习为每个任务域构建一个分类器。提出了一种基于罗杰斯特回归模型的多任务学习方法MTC-LR(Multi-task Coupled Logistic Regression)。“罗杰斯特回归模型”已经被成功应用于单任务分类器上,该模型被众多实验证明是有效的,正是这种方法给人们带来了启示。从理论上证明了通过构造多任务分类器的“开销函数”和“差异性度量函数”,MTC-LR算法可以提高多任务分类器的各自分类精度。相比传统的基于SVM的多任务学习方法,MTC-LR并不依赖于核方法而是通过共轭梯度下降法寻找各个分类器的最优参数。同时MTC-LR与采用“罗杰斯特回归模型”的快速算法CDdual更容易结合,可扩展至大样本的多任务分类学习。正是基于上述发现,为了充分高效利用大样本的多任务域数据,满足大样本的快速运算,在MTC-LR算法的基础上,结合最新的CDdual(The Dual Coordinate Descent Method)算法,提出了MTC-LR的快速算法MTC-LR-CDdual,并对该算法进行了相关的理论分析。将该算法在人工数据集和真实数据集上进行了验证,实验结果表明该算法有着较高的识别率、快速的识别速度和较好的鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号