首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
胡文轩  王秋林  李松  洪青阳  李琳 《信号处理》2021,37(10):1816-1824
端到端语音识别模型无需发音词典进行训练,可以大幅降低开发新语种语音识别系统的负担。本文利用端到端模型的这一优势,建立了一种语种无关的端到端多语种语音识别系统。该模型使用基于字符的建模方法进行训练,同时构建多语种输出符号集,使其包括所有目标语言中出现的字符。模型训练生成单一模型,其网络参数为所有语种共享。在OLR竞赛提供的10个语种数据集上,相较于单语种语音识别系统,本文提出的多语种语音识别系统在所有语言上的表现都更加优秀。   相似文献   

2.
提出一种端到端的视听语音识别算法。在该算法中,通过具有瓶颈结构的深度信念网络(deep belief network,DBN)中引入混合的l1/2范数和l1范数构建一种稀疏DBN(sparse DBN,SDBN)来提取稀疏瓶颈特征,从而实现对数据的特征降维,然后用双向长短期记忆网络(bidirectional long short-term memory,BLSTM)在时序上对特征进行模态处理,之后利用一种注意力机制将经过模态处理的唇部视觉信息和音频听觉信息进行自动对齐、融合,最后将融合的视听觉信息通过一个附加了Softmax层的BLSTM进行分类识别。实验表明,该算法能有效地识别视听觉信息,在同类算法中有很好的识别率和顽健性。  相似文献   

3.
端到端语音识别模型由于结构简单且容易训练,已成为目前最流行的语音识别模型.然而端到端语音识别模型通常需要大量的语音-文本对进行训练,才能取得较好的识别性能.而在实际应用中收集大量配对数据既费力又昂贵,因此其无法在实际应用中被广泛使用.本文提出一种将RNN-T(Recurrent Neural Network Trans...  相似文献   

4.
王锦阳  华光  黄双 《信号处理》2022,38(9):1975-1987
近年来深度伪造(Deepfake)技术的迅猛发展使合成语音的自然度和拟人度有了显著提升,对合成语音检测研究提出了更大挑战。本文将五种轻量级注意力模块中的机制改进为适用于语音序列的通道注意力机制和一维空间注意力机制,然后将模块分别嵌入到Inc-TSSDNet网络中,提出基于注意力机制的端到端合成语音检测系统。结果表明,改进系统能够重点关注某些对于检测真伪更关键的通道或区域来提高检测性能,相比于基线模型,引入注意力机制的十种模型在增加的参数量较少的情况下,ASVspoof2019测试集的等错误率(Equal Error Rate,EER)和最小串联检测代价函数(Minimum Tandem Detection Cost Function,min t-DCF)都有所降低,其中在池化层之前嵌入CBAM(Convolutional Block Attention Module)的模型测试集EER最低且具有较强的泛化性,在池化层之前嵌入ECA(Efficient Channel Attention)模块的模型测试集min t-DCF最低且统计性能较基线模型有显著提升。  相似文献   

5.
为了提高语音关键词识别的性能,在无自动语音识别的端到端关键词识别模型的基础上,使用了软注意力机制并结合多任务训练的方式对其进行了改进。改进后的基于注意力机制的关键词识别模型由四部分构成,关键词嵌入模块和声学模块使用软注意力来得到特征向量,判别器模块和分类器模块输入特征向量来进行关键词识别。实验结果表明,改进后模型的准确率分别比基线模型和传统的关键词检索方法高出37.3%和3.1%。  相似文献   

6.
随着深度学习的兴起,端到端语音识别模型受到越来越多的关注。最近,基于Conformer框架的提出,使得端到端语音识别模型的性能得到进一步的提升,同时在语音识别领域也得到了广泛的应用。然而,这些端到端模型由于内存和计算需求较大,所以在资源有限的设备上部署和推理是受限的。该文为了保证模型精度损失较小的情况下,尽可能地减少模型的大小和计算量,分别采用了模型量化,基于权重通道的结构化剪枝以及奇异值分解等三种压缩优化策略,同时对模型量化进行了改进。探究了不同程度的压缩对模型精度损失所造成的影响。通过结合这些策略在不同设备进行了测试,相比于基线在其字错误率误差小于3%的情况下,模型推理识别的速度约提升3~4倍。  相似文献   

7.
当前广泛使用的Transformer模型具有良好的全局依赖关系捕捉能力,但其在浅层时容易忽略局部特征信息。针对该问题,文中提出了一种使用多个编码器来改善语音特征信息提取能力的方法。通过附加一个额外的卷积编码器分支来强化对局部特征信息的捕捉,弥补浅层Transformer对局部特征信息的忽视,有效实现音频特征序列全局和局部依赖关系的融合,即提出了基于Transformer的多编码器模型。在开源中文普通话数据集Aishell-1上的实验表明,在没有外部语言模型的情况下,相比于Transformer模型,基于Transformer的多编码器模型的字符错误率降低了4.00%。在内部非公开的上海话方言数据集上,文中所提模型的性能提升更加明显,其字符错误率从19.92%降低至10.31%,降低了48.24%。  相似文献   

8.
目前,VoLTE用户投诉出现过单通、断续、音质等问题,严重影响用户的高清语音体验。VoLTE网络涉及网元众多,厂家众多,场景复杂,语音质量问题归属困难。文章针对VoLTE端到端语音质量存在的问题,基于华为端到端信令分析平台SEQ,针对多网元的信令面数据进行相关性分析及聚类分析,通过一系列数据挖掘,建立了快速有效的端到端质量评估及优化体系,确保快速有效地定位网络中存在问题。  相似文献   

9.
Conformer模型因其优越的性能,吸引了越来越多研究者的关注,逐渐成为语音识别领域的主流模型,但因其采用注意力机制从输入中提取信息,需要对输入序列中所有样本点进行交互计算,导致网络计算复杂度为输入序列长度的平方,因此在对长语音进行识别时需要消耗更多计算资源,其识别速度较慢。针对此问题,本文提出一种线性注意力机制的语音识别方法。首先,提出一种新型门控线性注意力结构将多头注意力改进为单头,将注意力计算复杂度改进为序列长度的线性关系,以有效减少注意力计算复杂度。其次,为了弥补使用线性注意力导致的模型建模能力下降,在线性注意力求解过程中,综合使用局部注意力和全局注意力,联合线性注意力编码,提高模型识别精度。最后,为了进一步提升模型识别效果,在注意力损失和连接时序分类(connectionist temporal classification, CTC)损失的基础上使用注意力引导损失和中间CTC损失融合建模目标函数。在中文普通话数据集AISHELL-1和英文LibriSpeech数据集上的实验结果表明,改进模型的性能明显优于基线模型,且模型显存消耗下降,训练、识别速度得到较大提升。  相似文献   

10.
徐凡  杨剑峰  颜为之  王明文 《信号处理》2021,37(10):1860-1871
方言语音识别是方言保护的核心环节。传统的方言语音识别模型缺乏考虑方言语音中特定方言音素的重要性,同时缺少多种语音特征提取及融合,导致方言语音识别性能不高。本文提出的端到端方言语音识别模型充分发挥了残差CNN(Convolutional Neural Networks)和Bi-LSTM(Bi-directional Long Short-Term Memory)分别在语音帧内和帧间特征提取的优势,并利用多头自注意力机制有效提取不同方言中特定方言音素信息构成语音发音底层特征,利用该方言发音底层特征进行方言语音识别。在基准赣方言和客家方言两种方言语音语料库上的实验结果表明本文提出的方言语音识别模型显著优于现有基准模型,通过对注意力机制的可视化进一步分析了模型取得性能提升的根本原因。   相似文献   

11.
传统的推荐算法和深度学习算法面临着用户冷启动的问题.为了解决冷启动问题,研究人员提出了跨领域推荐,利用其他领域的用户偏好信息和项目特征等各种辅助信息,来提高目标领域的推荐性能,有效缓解目标领域的数据稀疏性和冷启动.然而,传统的跨域推荐通常只利用源域信息提高目标域的性能,却不能利用目标域提高源域性能,从而使它们互相提高推...  相似文献   

12.
针对图像语义分割中目标边界容易混淆、定位不准以及边界不平滑问题,在Deeplab v2 Resnet-101网络的基础上引入提出的逆注意层与像素相似度学习层,构造了一种新的语义分割的网络结构,并设计了注意力层和像素相似度学习层的损失函数。首先,使用Deeplab v2 Resnet-101网络提取图像语义特征;然后,利用提出的逆注意力层修正预测网络的分割结果,同时,利用提出的像素相似度学习层解决边界不够平滑的问题;最后融合两者分割的结果,得到语义分割的结果。在PASCAL-Context上取得了像素准确度76.2%、像素平均准确度59.7%、平均IoU(Intersection over Union)准确度指标49.9%的结果,在PASCAL Person-Part、NYUDv2、MIT ADE20K数据集上分别取得了平均IoU准确度指标69.6%、42.1%、44.38%的结果,与已有的主流方法相比,所提算法能够提升语义分割的精确度,验证了算法的有效性。  相似文献   

13.
针对乳腺钼靶图像中良恶性肿块难以诊断的问题,提出一种基于注意力机制与迁移学习的乳腺钼靶肿块分类方法,并用于医学影像中乳腺钼靶肿块的良恶性分类.首先,构建一种新的网络模型,该模型将注意力机制CBAM(Convolutional Block Attention Module)与残差网络ResNet50相结合,用于提高网络对...  相似文献   

14.
黄志清  曲志伟  张吉  张严心  田锐 《电子学报》2000,48(9):1711-1719
端到端的驾驶决策是无人驾驶领域的研究热点.本文基于DDPG(Deep Deterministic Policy Gradient)的深度强化学习算法对连续型动作输出的端到端驾驶决策展开研究.首先建立基于DDPG算法的端到端决策控制模型,模型根据连续获取的感知信息(如车辆转角,车辆速度,道路距离等)作为输入状态,输出车辆驾驶动作(加速,刹车,转向)的连续型控制量.然后在TORCS(The Open Racing Car Simulator)平台下不同的行驶环境中进行训练并验证,结果表明该模型可以实现端到端的无人驾驶决策.最后与离散型动作输出的DQN(Deep Q-learning Network)模型进行对比分析,实验结果表明DDPG决策模型具有更优越的决策控制效果.  相似文献   

15.
基于遗传算法的多值站内搜索设计与实现   总被引:1,自引:1,他引:0  
针对多关键字的站内搜索问题,提出了一种基于遗传算法的选择优化算法.算法应用染色体编码方法、交叉操作、变异操作能使算法很快跳转到局部最优解,并向好的方向转化,最终达到全局最优解.算法应用于某学报网站,并取得了不错的效果.  相似文献   

16.
文章采用了机器学习技术,从提交更精确地反映用户兴趣的检索串入手,研究如何提高搜索引擎在准率。文中采用决策树方法进行学习,对决策树方法应用于网页检索中出现的几个问题:缺少属性值的训练实例处理问题:如何使不同权值的属性:具有不同的表现力问题;树的重建问题;过度拟合问题;扩充检索串返回的网页时。属性值的取舍问题等进行了分析和研究,给出了具体的解决方法。性能提高后的决策树,用验证集检验,正确率由70%提高到75.4%.较好地学习到了用户的兴趣。  相似文献   

17.
詹青龙 《现代电子技术》2006,29(20):42-43,46
MPEG 7标准的制定解决了多媒体内容描述的标准化问题,可满足用户对多媒体内容快速、有效检索的需求,提高多媒体内容的利用价值。在介绍MPEG 7标准的范围、描述框架和描述方案的基础上,设计基于MPEG 7标准的学习系统模型和相应的实现机制,包括多媒体学习资源的检索机制、推拉获取机制和学习者偏好机制。  相似文献   

18.
基于改进注意力机制的实体关系抽取方法   总被引:3,自引:0,他引:3       下载免费PDF全文
实体关系抽取是知识库构建中至关重要的一个环节.在众多的实体关系抽取方法中,远程监督结合神经网络模型的方法在准确率等性能上是比较令人满意的,但远程监督获取的标注语料中往往存在大量的噪声数据,给实体关系抽取模型的训练带来了很大的影响.本文提出一种基于改进注意力机制的卷积神经网络实体关系抽取模型.该模型针对包含同一实体对的句子集合,从中尽可能地找出所有体现该实体对关系的正实例,构建组合句子向量,抛弃可能的噪声句子,从而最大程度地降低噪声句子的影响又能充分利用正实例的语义信息.实验证明,本文提出的关系抽取模型在准确率上优于对比的关系抽取模型.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号