期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

吕坤儒吴春国梁艳春袁宇平任智敏周柚时小虎《电子学报》2021,49(11):2177-2185

为了解决语音识别模型在识别中文语音时鲁棒性差,缺少语言建模能力而无法有效区分同音字或近音字的不足,本文提出了融合语言模型的端到端中文语音识别算法.算法建立了一个基于深度全序列卷积神经网络和联结时序分类的从语音到拼音的语音识别声学模型,并借鉴Transformer的编码模型,构建了从拼音到汉字的语言模型,之后通过设计语音帧分解模型将声学模型的输出和语言模型的输入相连接,克服了语言模型误差梯度无法传递给声学模型的难点,实现了声学模型和语言模型的联合训练.为验证本文方法,在实际数据集上进行了测试.实验结果表明,语言模型的引入将算法的字错误率降低了21％,端到端的联合训练算法起到了关键作用,其对算法的影响达到了43％.和已有5种主流算法进行比较的结果表明本文方法的误差明显低于其他5种对比模型,与结果最好的Deep?Speech2模型相比字错误率降低了28％. 相似文献

2.

基于Transformer的多编码器端到端语音识别

庞江飞孙占全《电子科技》2024,(4):1-7

当前广泛使用的Transformer模型具有良好的全局依赖关系捕捉能力,但其在浅层时容易忽略局部特征信息。针对该问题,文中提出了一种使用多个编码器来改善语音特征信息提取能力的方法。通过附加一个额外的卷积编码器分支来强化对局部特征信息的捕捉,弥补浅层Transformer对局部特征信息的忽视,有效实现音频特征序列全局和局部依赖关系的融合,即提出了基于Transformer的多编码器模型。在开源中文普通话数据集Aishell-1上的实验表明,在没有外部语言模型的情况下,相比于Transformer模型,基于Transformer的多编码器模型的字符错误率降低了4.00%。在内部非公开的上海话方言数据集上,文中所提模型的性能提升更加明显,其字符错误率从19.92%降低至10.31%,降低了48.24%。相似文献

3.

一种改进精简的语音识别模型

刘鑫罗幼喜《电子测试》2022,(24):67-69

为解决深度学习模型在语音识别芯片上内存占用过大的问题,训练时间长,训练深度不够等问题,本文在Transformer语音识别模型的基础上,提出一种减少Transformer计算复杂度的模型,新的模型参数仅有原模型的1/10,模型训练速度大大提升。此外本文在对模型进行参数调整的过程中还对Transformer模型结构中add&norm这一结构结合残差神经网络进行修改,针对模型在训练过程中因为模型深度太深（容易产生梯度消失和梯度爆炸）导致的模型收敛速度过慢或者模型不收敛等问题,在保证词错率下降的同时,加快模型的收敛速度和训练速度,修改结构之后的模型在词错率上相比原有模型词错率更低,并且收敛速度也比未修改结构的模型收敛速度更快。相似文献

4.

基于多任务学习的端到端维吾尔语语音识别

下载免费PDF全文

苏比·艾依提努尔麦麦提·尤鲁瓦斯黄浩吾守尔·斯拉木《信号处理》2021,37(10):1852-1859

维吾尔语是黏着语,词汇量较多,容易出现未登录词问题并且属于低资源语言,导致维吾尔语的端到端语音识别模型性能较低。针对上述问题,该文提出了基于多任务学习的端到端维吾尔语语音识别模型,在编码器层使用Conformer并与链接时序分类(CTC)相连接,通过BPE-dropout方法形成鲁棒性更强的子词,以子词和字作为建模单元,同时进行多任务训练和解码。实验结果分析发现,子词作为建模单元能有效解决未登录词问题,多任务学习模型能在低资源环境下较充分利用数据,学习到丰富的时序语音特征信息,进一步提升模型的识别性能。在公开的维吾尔语语音数据集THUYG-20上与基线相比把子词错误率和字错误率分别降低7.3%和3.8%。相似文献

5.

融合语义角色和自注意力机制的中文文本蕴含识别

张志昌曾扬扬庞雅丽《电子学报》2000,48(11):2162-2169

文本蕴含识别旨在识别两个给定句子之间的逻辑关系.本文通过构造语义角色和自注意力机制融合模块,把句子的深层语义信息与Transformer模型的编码部分相结合,从而增强自注意力机制捕获句子语义的能力.针对中文文本蕴含识别在数据集上存在规模小和噪声大的问题,使用大规模预训练语言模型能够提升模型在小规模数据集上的识别性能.实验结果表明,提出的方法在第十七届中国计算语言学大会中文文本蕴含识别评测数据集CNLI上的准确率达到了80.28%. 相似文献

6.

基于神经网络的语音信号识别与分类

薛雅洁贺红霞杨祎《现代电子技术》2023,(24):79-84

针对基于深度神经网络的端对端的语音识别技术展开研究,通过深度全序列卷积神经网络（DFCNN）声学模型和Transformer语言模型搭建一种端对端的语音识别系统。该系统完成对模型及数据的训练,实现对多字符中文语音的识别,并对隐马尔可夫语音识别方法和深度神经网络下的语音识别方法的系统搭建难度、原理差异和识别精确度进行对比研究。仿真结果表明,所提方法能够实现对连续多字符中文语音的有效识别,识别正确率在90%以上。相似文献

7.

基于Conformer的端到端语音识别模型的压缩优化策略

下载免费PDF全文

桑江坤努尔麦麦提·尤鲁瓦斯《信号处理》2022,38(12):2639-2649

随着深度学习的兴起,端到端语音识别模型受到越来越多的关注。最近,基于Conformer框架的提出,使得端到端语音识别模型的性能得到进一步的提升,同时在语音识别领域也得到了广泛的应用。然而,这些端到端模型由于内存和计算需求较大,所以在资源有限的设备上部署和推理是受限的。该文为了保证模型精度损失较小的情况下,尽可能地减少模型的大小和计算量,分别采用了模型量化,基于权重通道的结构化剪枝以及奇异值分解等三种压缩优化策略,同时对模型量化进行了改进。探究了不同程度的压缩对模型精度损失所造成的影响。通过结合这些策略在不同设备进行了测试,相比于基线在其字错误率误差小于3%的情况下,模型推理识别的速度约提升3～4倍。相似文献

8.

基于总错误率和特征关联的自适应融合多模态生物特征识别 总被引：1，自引：1，他引：0

吴迪唐勇奇林国汉胡慧《光电子．激光》2016,27(1):67-76

针对单生物特征识别准确率和鲁棒性差的问题, 提出了一种基于总错误率(TER)和特征关联自适应融合多模态生物特征识别方法。首先将TER作为判别特征引入到多模态识别,以代替传统的匹配分数;其次在不确定度量理论的基础上,考虑人脸特征和语音特征之间的时空关联性,提出了一种基于特征关联的多特征自适应融合策略,利用特征关联系数自适应调节不同识别特征对识别结果的贡献。仿真实验表明,与几种代表性的融合算法相比,本文所提出的融合模式可以有效提高多生物特征识别系统的准确性和鲁棒性。相似文献

9.

一种RNN-T与BERT相结合的端到端语音识别模型

郭家兴韩纪庆《智能计算机与应用》2021,11(2):169-173

端到端语音识别模型由于结构简单且容易训练,已成为目前最流行的语音识别模型。然而端到端语音识别模型通常需要大量的语音-文本对进行训练,才能取得较好的识别性能。而在实际应用中收集大量配对数据既费力又昂贵,因此其无法在实际应用中被广泛使用。本文提出一种将RNN-T(Recurrent Neural Network Transducer,RNN-T)模型与BERT(Bidirectional Encoder Representations from Transformers,BERT)模型进行结合的方法来解决上述问题,其通过用BERT模型替换RNN-T中的预测网络部分,并对整个网络进行微调,从而使RNN-T模型能有效利用BERT模型中的语言学知识,进而提高模型的识别性能。在中文普通话数据集AISHELL-1上的实验结果表明,采用所提出的方法训练后的模型与基线模型相比能获得更好的识别结果。相似文献

10.

基于最大似然子带线性回归的鲁棒语音识别

吕勇吴镇扬《信号处理》2010,26(1)

在实际环境中,训练环境和测试环境的失配会导致语音识别系统的性能急剧恶化.模型自适应算法是减小环境失配影响的有效方法之一,它通过少量自适应数据将模型参数变换到识别环境.最大似然线性回归是一种常用的基于变换的模型自适应算法,本文针对最大似然线性回归算法在数据较少时模型参数估计不准确的缺点,提出了基于最大似然子带线性回归的模型自适应算法.该算法将Mel滤波器组的全部通道划分为若干个子带,假设每个子带内多个通道的模型均值分量共享一个线性环境变换关系,以增加可用的数据.实验表明,本文算法可以较好地克服数据稀疏问题,只需要很少的数据即可取得较好的自适应效果,尤其适合于少量数据时的快速模型自适应. 相似文献

11.

基于NAO机器人的BLSTM-CTC的声学模型研究

胡希颖王大东陈佳欣《智能计算机与应用》2021,11(3):76-79,84

针对于NAO机器人自身语音识别准确率低的问题,提出一种基于NAO机器人的BLSTM-CTC的声学模型研究方法.基于BLSTM-CTC的声学模型进行建模,以BLSTM为声学模型和CTC为目标函数,以音素作为基本建模单元,建立中文语音识别端到端系统.实验结果证明,本文算法相较于NAO机器人自身,取得了良好识别效果. 相似文献

12.

用于噪声鲁棒语音识别的声学模型及解码策略

张明新张东滨倪宏《电声技术》2006,(6):40-43

提出了一种平行子状态隐马尔可夫模型用作噪声鲁棒语音识别的声学模型。该模型融合了纯净语音和背景噪声信息,模型的每个状态包含平行关系的子状态。在此基础上,提出了两种用于平行子状态隐马尔可夫模型的识别解码策略——子状态最大似然解码和联合转移子状态最大似然解码。实验结果表明,声学模型及其解码策略在各种噪声下取得了良好鲁棒识别效果。相似文献

13.

汉语语音识别研究面临的一些科学问题 总被引：12，自引：0，他引：12

杜利民侯自强《电子学报》1995,23(10):110-116,61

本文简述汉语语音自动识别从实验室技术过渡到实际商用技术所必须解决的一些科学问题，列举了汉语语音编码的结构特点和规则，强调（１）在汉语音节的声母、韵母层面上的语言模型对语音的识别很有帮助，也会提供文字语言和讲话语言的有用知识；（２）使用区别性导引特征和描述性均匀特征有助于加速语音识别的搜索速度，减少失配和改善对音位变体的细分，本文还着重讨论了在语音信号的声学处理环节提高语音识别鲁棒性的重要问题和途径，文中还提出了标注性学习、提示性猜测的逐步过渡的训练和自适应方法，用于汉语大词汇连续语音识别。相似文献

14.

基于混合模型状态修正算法的非母语语音识别

张晴晴潘接林颜永红《数字通信》2009,36(1):33-37

非母语语音识别的性能较低,对于刚开始学习目标语言的说话人或者口音很重的说话人而言,性能下降更为明显。本文提出一种新型的双语模型修正算法用于提高非母语语音的识别性能。在该算法中,基线声学模型的每个状态都将被代表说话人母语特点的辅助模型状态所修正。文章给出了状态修正准则以及不同候选修正状态数下的性能比较。相比已用非母语训练数据自适应以后的基线声学模型,通过双语模型修正的声学模型在保证识别实时率的前提下,短语错误率相对下降了11．7％。相似文献

15.

红外与可见光图像多尺度Transformer融合方法

下载免费PDF全文

陈彦林王志社邵文禹杨帆孙婧《红外技术》2023,45(3):266-275

目前主流的深度融合方法仅利用卷积运算来提取图像局部特征,但图像与卷积核之间的交互过程与内容无关,且不能有效建立特征长距离依赖关系,不可避免地造成图像上下文内容信息的丢失,限制了红外与可见光图像的融合性能。为此,本文提出了一种红外与可见光图像多尺度Transformer融合方法。以Swin Transformer为组件,架构了Conv Swin Transformer Block模块,利用卷积层增强图像全局特征的表征能力。构建了多尺度自注意力编码-解码网络,实现了图像全局特征提取与全局特征重构;设计了特征序列融合层,利用SoftMax操作计算特征序列的注意力权重系数,突出了源图像各自的显著特征,实现了端到端的红外与可见光图像融合。在TNO、Roadscene数据集上的实验结果表明,该方法在主观视觉描述和客观指标评价都优于其他典型的传统与深度学习融合方法。本方法结合自注意力机制,利用Transformer建立图像的长距离依赖关系,构建了图像全局特征融合模型,比其他深度学习融合方法具有更优的融合性能和更强的泛化能力。相似文献

16.

动态调整直方图剪枝PDA声控拨号器的应用与实现

陈德锋郑方吴文虎刘建邓菁宋战江周迅溢《电声技术》2005,(12):38-43

以使用嵌入武操作系统PocketPC的个人数字助理（PDA）为实验平台研究了基于非特定人语音命令识别的可定制声控拨号器。针对PDA存绪空问和运算能力的限制，在保证性能的前提下从严格控制搜索空间和提高解码速度出发，提出了结合搜索路径分数差值实时调整剪枝宽度的动态调整直方图剪技策略，提出了利用速查表加速似然计算的方法，并在通过实验验证舌采用较少维数的特征、结合扩展声韵母进行声学建模等措施，有效地解决了上述问题．在实际PDA设备上实验表明，在词表大小为200个人名时，识别正确率达98．70％，而识别速度比采用标准算法的参考系统提高了约80倍，同时节省了约30％搜索存储空间。相似文献

17.

基于提升Keystone变换的声呐宽带自适应波束形成方法

钱宇宁陈亚伟孙俊《电子与信息学报》2019,41(2):324-331

针对Keystone变换在宽带阵列预处理方面的优势和常规Keystone变换存在的阵元数据缺失问题,该文将自回归模型与常规Keystone变换相结合,提出一种基于提升Keystone变换的声呐宽带自适应波束形成算法。该算法首先将常规Keystone变换应用于宽带阵列信号的相位对齐,接着采用自回归模型对变换后各频段缺失的阵元数据进行预测补偿,最后通过稳健自适应波束形成处理获得目标方位输出结果。仿真实验结果表明,基于提升Keystone变换的宽带自适应波束形成算法性能优于常规Keystone自适应算法、指向最小方差自适应算法和聚焦自适应算法。相似文献

18.

代数码书分级分段优化搜索方法研究

李凤莲张雪英李红春李静《信号处理》2013,29(2):279-283

代数码书作为一种流行的固定码书结构,其搜索方法直接影响解码语音质量及计算复杂度.本文提出了一种代数码书分级分段优化搜索GSOS(Graded and Subsection Optimization Search)方法.GSOS方法融合了脉冲替代法、分段搜索及分级优化方法的优点,通过创建优质的初始码书,达到提高初始码书质量的目的,并将码书矢量的乘法运算用分段子码书的加法运算替代,同时将脉冲按贡献不同进行分级,由此提高脉冲替代优化的搜索效率;将该方法用于自适应多速率宽带语音编码器AMR-WB固定码书搜索阶段,实验结果表明,所提出的搜索方法可使固定码书搜索计算量降为深度优先树搜索方法的13.75％,但解码语音质量只降低了4.01％,主观听觉感受基本感觉不出差异. 相似文献

19.

利用深度全卷积编解码网络的单通道语音增强

下载免费PDF全文

时文华张雄伟邹霞孙蒙《信号处理》2019,35(4):631-640

针对传统的神经网络未能对时频域的相关性充分利用的问题，提出了一种利用深度全卷积编解码神经网络的单通道语音增强方法。在编码端，通过卷积层的卷积操作对带噪语音的时频表示逐级提取特征，在得到目标语音高级特征表示的同时逐层抑制背景噪声。解码端和编码端在结构上对称，在解码端，对编码端获得的高级特征表示进行反卷积、上采样操作，逐层恢复目标语音。跳跃连接可以很好地解决极深网络中训练时存在的梯度弥散问题，本文在编解码端的对应层之间引入跳跃连接，将编码端特征图信息传递到对应的解码端，有利于更好地恢复目标语音的细节特征。对特征融合和特征拼接两种跳跃连接方式、基于L1和 L2两种训练损失函数对语音增强性能的影响进行了研究，通过实验验证所提方法的有效性。相似文献

20.

基于自注意力的端到端方言语音识别模型

下载免费PDF全文

徐凡杨剑峰颜为之王明文《信号处理》2021,37(10):1860-1871

方言语音识别是方言保护的核心环节。传统的方言语音识别模型缺乏考虑方言语音中特定方言音素的重要性,同时缺少多种语音特征提取及融合,导致方言语音识别性能不高。本文提出的端到端方言语音识别模型充分发挥了残差CNN（Convolutional Neural Networks）和Bi-LSTM（Bi-directional Long Short-Term Memory）分别在语音帧内和帧间特征提取的优势,并利用多头自注意力机制有效提取不同方言中特定方言音素信息构成语音发音底层特征,利用该方言发音底层特征进行方言语音识别。在基准赣方言和客家方言两种方言语音语料库上的实验结果表明本文提出的方言语音识别模型显著优于现有基准模型,通过对注意力机制的可视化进一步分析了模型取得性能提升的根本原因。相似文献