期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

杨雪晴《自动化与仪器仪表》2022,(8):221-225

针对传统英语翻译系统语音识别准确率低,导致语言翻译效果不佳的问题,提出一种语音识别的英语翻译器。在HMM基础上,加入梅尔频率倒谱系数MFCC,通过MFCC提取语音特征,然后利用HMM对语音特征进行识别,最后通过循环神经网络构建Transformer机器翻译模型,从而对提取的中文语音进行翻译。结果表明,提出的HMM+MFCC模型对语音识别的平均识别率高达99.78%,比传统的识别方法高2.89%,且HMM+MFCC模型的平均识别时间仅为1.224 8 s,说明本模型识别效率更高,模型性能更优越;Transformer+词性信息模型的BLEU分数为36.28,比单一Transformer模型的BLEU分数35.69高出了0.59。综合分析可知,采用提出的语音识别和语言翻译方法可提高英语翻译器的语音识别准确率和翻译效果。相似文献

2.

基于双阶段Conv-Transformer的时频域语音增强算法

沈学利田桂源姜彦吉马琳琳《计算机工程》2023,(6):123-130

频域语音增强算法通常存在相位失配问题，而相位信息对于语音增强任务非常重要。时域语音增强算法可以有效解决相位失配问题，但是噪声和语音在频域中更易分离。为了实现时域和频域语音增强算法的优势互补，提出一种基于双阶段Conv-Transformer的时频域语音增强算法。采用编解码结构，将带噪语音经过短时傅里叶变换得到的频域特征和一维卷积处理后得到的时域特征作为输入。考虑到Transformer擅长提取语音序列的全局依赖关系，卷积神经网络可以关注局部特征，为了更好地提取时域和频域中的局部信息和全局信息，设计一种Conv-Transformer模块。在此基础上，联合时域和频域损失函数对模型进行优化，使得模型可以同时学习语音在时域和频域中的分布规律。实验结果表明，与单一域的语音增强算法相比，该算法具有更好的降噪效果，增强后的语音感知质量、短时可懂度、信号失真测度、噪声失真测度、综合质量测度分别为3.04、0.953、4.34、3.55、3.69。相似文献

3.

基于残差网络和门控卷积网络的语音识别研究

下载免费PDF全文

朱学超张飞高鹭任晓颖郝斌《计算机工程与应用》2022,58(7):185-191

由于传统循环神经网络具有复杂的结构,需要大量的数据才能在连续语音识别中进行正确训练,并且训练需要耗费大量的时间,对硬件性能要求很大.针对以上问题,提出了基于残差网络和门控卷积神经网络的算法,并结合联结时序分类算法,构建端到端中文语音识别模型.该模型将语谱图作为输入,通过残差网络提取高层抽象特征,然后通过堆叠门控卷积神经... 相似文献

4.

基于门控网络的军事装备控制指令语音识别研究

柏财通高志强李爱崔翛龙《计算机工程》2021,47(7):301-306

军事装备无感控制是军事装备智能化建设进程中的一个重要研究方向,其中语音控制技术作为无人装备无感控制手段的关键组成部分,受到了越来越多的重视。为完成军事装备语音控制任务,设计一种基于门控网络的中文语音识别网络,并构建军事装备控制指令数据集,实现基于控制指令语音识别技术的军事装备控制。在传统卷积神经网络的结构基础上引入深度残差门控卷积网络,提高识别网络的准确性,同时通过多途径构建军事装备控制指令数据集,设计一套针对军事装备无感控制的语音识别方案。实验结果表明,该语音识别网络军事语音控制指令识别率可达87%,外接语言模型后可达92%,语音识别准确率高、误差率低,可完成军事装备的语音控制任务。相似文献

5.

基于卷积编解码器和门控循环单元的语音分离算法

陈修凯陆志华周宇《计算机应用》2020,40(7):2137-2141

在大部分基于深度学习的语音分离和语音增强算法中,把傅里叶变换后的频谱特征作为神经网络的输入特征,并未考虑到语音信号中的相位信息。然而过去的一些研究表明,尤其是在低信噪比（SNR）条件下,相位信息对于提高语音质量是必不可少的。针对这个问题,提出了一种基于卷积编解码器网络和门控循环单元（CED-GRU）的语音分离算法。首先,利用原始波形既包含幅值信息也包含相位信息的特点,在输入端以混合语音信号的原始波形作为输入特征;其次,通过结合卷积编解码器（CED）网络和门控循环单元（GRU）网络,可以有效解决语音信号中存在的时序问题。提出的改进算法在男性和男性、男性和女性、女性和女性的语音质量的感知评价（PESQ）和短时目标可懂度（STOI）方面,与基于排列不变训练（PIT）算法、基于深度聚类（DC）算法、基于深度吸引网络（DAN）算法相比,分别提高了1.16和0.29、1.37和0.27、1.08和0.3;0.87和0.21、1.11和0.22、0.81和0.24;0.64和0.24、1.01和0.34、0.73和0.29个百分点。实验结果表明,基于CED-GRU的语音分离系统在实际应用中具有较大的价值。相似文献

6.

基于双向长短时记忆和卷积Transformer的声学词嵌入模型

高芸芸赵腊生张强《计算机应用》2024,(1):123-128

示例查询语音关键词检测中,卷积神经网络（CNN）或者循环神经网络（RNN）提取到的声学词嵌入语音信息有限,为更好地表示语音内容以及改善模型的性能,提出一种基于双向长短时记忆（Bi-LSTM）和卷积Transformer的声学词嵌入模型。首先,使用Bi-LSTM提取特征、对语音序列进行建模,并通过叠加方式来提高模型的学习能力;其次,为了能在捕获全局信息的同时学习到局部信息,将CNN和Transformer编码器并联连接组成卷积Transformer,充分利用它在特征提取上的优势,聚合更多有效的信息,提高嵌入的区分性。在对比损失约束下,所提模型平均精度达到了94.36%,与基于注意力的Bi-LSTM模型相比,平均精度提高了1.76%。实验结果表明,所提模型可以有效改善模型性能,更好地实现示例查询语音关键词检测。相似文献

7.

端到端的深度卷积神经网络语音识别

刘娟宏胡彧黄鹤宇《计算机应用与软件》2020,37(4):192-196

卷积神经网络(Convolutional Neural Networks,CNN)是目前流行的语音识别模型之一,其特有卷积结构保证了语音信号时域和频域的平移不变性。但是CNN存在着对语音信号建模能力有所不足的问题。为此,将链接时序准则(CTC)应用在CNN结构中,构建端到端卷积神经网络(CTC-CNN)模型。同时,引入残差块结构,提出一种新的端到端深度卷积神经网络(CTC-DCNN)模型,并利用maxout激活函数对其进行优化。通过TIMIT和Thchs-30语音库测试实验,结果表明在中英文识别中,采用该模型比现有卷积神经网络模型,准确率分别提高约4.7%和6.3%。相似文献

8.

常用藏语词汇语音评价关键技术研究和仿真实现

陈浩柴鹏鑫卓嘎《信息与电脑》2023,(2):177-180

藏语音存在语料库缺少和地区方言较多等问题,因此关于藏语音的识别技术相对缺乏。基于此,提出一种使用卷积神经网络(Convolut ional Neural Network,CNN)、长短期记忆(Long Short Term Memory,LSTM)神经网路和动态神经网络(Dynamic Neural Network,DNN)的基于Python平台上TensorFlow框架的深度混合网络模型。首先,录制来自拉萨市、安多县和昌都市3个地区的藏语音数据制作语音数据集,并通过改进模型深度、结构、参数和算法来提升藏语音识别的准确率;其次,使用多层卷积残差网络和改进的LSTM神经网络解决模型训练过程中的梯度爆炸问题;最后,使用反向传播算法提高模型训练的准确度。仿真实验表明,该模型虽然在不同地区的藏语音数据识别准确率上存在差异,但是在整体的识别准确率和模型的收敛性上具有不错的效果。相似文献

9.

自适应增强卷积神经网络图像识别 总被引：2，自引：0，他引：2

下载免费PDF全文

刘万军梁雪剑曲海成《中国图象图形学报》2017,22(12):1723-1736

目的为了进一步提高卷积神经网络的收敛性能和识别精度,增强泛化能力,提出一种自适应增强卷积神经网络图像识别算法。方法构建自适应增强模型,分析卷积神经网络分类识别过程中误差产生的原因和误差反馈模式,针对分类误差进行有目的地训练,实现分类特征基于迭代次数和识别结果的自适应增强以及卷积神经网络权值的优化调整。自适应增强卷积神经网络与多种算法在收敛速度和识别精度等性能上进行对比,并在多种数据集上检测自适应卷积神经网络的泛化能力。结果通过对比实验可知,自适应增强卷积神经网络算法可以在很大程度上优化收敛效果,提高收敛速度和识别精度,收敛时在手写数字数据集上的误识率可降低20.93%,在手写字母和高光谱图像数据集上的误识率可降低11.82%和15.12%;与不同卷积神经网络优化算法对比,误识率比动态自适应池化算法和双重优化算法最多可降低58.29%和43.50%;基于不同梯度算法的优化,误识率最多可降低33.11%;与不同的图像识别算法对比,识别率也有较大程度提高。结论实验结果表明,自适应增强卷积神经网络算法可以实现分类特征的自适应增强,对收敛性能和识别精度有较大的提高,对多种数据集有较强的泛化能力。这种自适应增强模型可以进一步推广到其他与卷积神经网络相关的深度学习算法中。相似文献

10.

结合Transformer的轻量化中文语音识别

沈逸文孙俊《计算机应用研究》2023,40(2)

近年来,深度神经网络模型在语音识别领域成为热门研究对象。然而,深层神经网络的构建依赖庞大的参数和计算开销,过大的模型体积也增加了其在边缘设备上部署的难度。针对上述问题,提出了基于Transformer的轻量化语音识别模型。首先使用深度可分离卷积获得音频特征信息;其次构建了双半步剩余权重前馈神经网络,即Macaron-Net结构,并引入低秩矩阵分解,实现了模型压缩;最后使用稀疏注意力机制,提升了模型的训练速度和解码速度。为了验证模型,在Aishell-1和aidatatang_200zh数据集上进行了测试。实验结果显示,所提模型与Open-Transformer相比,所提模型在字错误率上相对下降了19.8%,在实时率上相对下降了32.1%。相似文献

11.

基于卷积神经网络的中文语音识别人机交互系统设计

韩向阳《自动化与仪器仪表》2023,(7):201-204+209

为提高中文语音识别系统的识别准确率,研究在卷积神经网络的基础上提出了一种中文语音识别人机交互系统。在该系统中的声学模型中融入了残差网络和maxout函数,以此提高声学模型的性能。对研究提出的基于链接时序分类准则的深度卷积网络模型进行性能对比发现,该模型的绝对误差值为3.6%,低于其他对比模型。该结果说明,优化后的CTC-DCNN(maxout)模型的识别性能更好。故利用该模型作为中文语音识别系统的声学模型可以有效地提高系统的识别准确率,保证其人机互动的准确性,为中文语音识别领域提供新的方法。相似文献

12.

基于复数卷积循环神经网络的语音增强

高键李军锋《网络新媒体技术》2022,(1):14-19+42

基于神经网络的语音增强任务中相位估计不准确会导致增强语音质量差,针对这一问题,提出了一种基于复数卷积循环神经网络的语音增强算法,在复数域实现语音幅度和相位的同时增强,以提高增强语音的质量。使用基于复数卷积网络的编码器在复数域提取语音局部特征,再利用复数卷积循环网络对语音的长时信息进行建模,最后使用复数卷积上采样解码器计算语音复数时频掩蔽,实现语音幅度与相位增强。在公开数据集上的实验结果表明,使用所提方法得到的增强语音在语音质量和信噪比提升中均优于主流方法,验证了该网络模型在语音增强任务中的有效性。相似文献

13.

面向语言对话场景的智能语音交互关键技术研究

李可《自动化与仪器仪表》2023,(8):295-299

针对多语言对话场景距离的限制以及噪声、干扰和混响等多重因素的影响，导致语音信息识别质量不高的问题，提出基于卷积神经网络与多通道语音DOA估计的定位与分离，以实现对不同距离、不同声源数下语音的识别，提高语音识别质量。实验结果证明，运用卷积神经网络的DOA估计方法与多通道语音分离算法，针对同性别或不同性别说话者在不同距离、不同方位角的识别性能较高，且能对混合信号可实现较高的有效分离。相似文献

14.

地铁运营岗位应急处置培训的语音识别研究

周杨钱雪军《信息技术与网络安全》2022,(6):73-76+93

地铁交通运营是一种整体性活动,离不开各部门间的协调配合,地铁运营岗位应急处置培训系统应用于多个岗位的联合培训。该系统通过语音识别来实现模拟岗位间语音交互及对培训过程智能评价的功能。提出的语音识别方法可实现离线网络下对地铁培训专业术语的高识别精度,利用深度全序列卷积神经网络（DFCNN）和链接时序分类（CTC）构建声学模型,对应急处置培训用语进行整理并构建专业术语库,基于统计学构建语言模型。实验结果表明,该语音识别方法能够有效识别地铁应急处置培训用语,为地铁运营岗位人员的培训和考核提供更全面的评价指标。相似文献

15.

基于改进卷积神经网络的汉语连续语音识别方法

高适金宇黄宇《信息与电脑》2023,(18):114-116

根据当前的识别需求及标准,提取语音识别基元,采用多目标的方式,提高识别的效率,布设交叉多目标识别矩阵,同时改进卷积神经网络连续语音识别模型,采用动态识别规整完成语音识别处理。测试结果表明,与传统面向健壮自动汉语连续语音识别测试组和传统基于改进多带谱减汉语连续语音识别测试组相比,所设计的改进卷积神经网络汉语连续语音识别测试组语音误识率被较好地控制在20%以下,说明在改进卷积神经网络的辅助下,语音识别效果明显改善,针对性更强,具有实际的应用价值。相似文献

16.

TCN-Transformer-CTC的端到端语音识别

谢旭康陈戈孙俊陈祺东《计算机应用研究》2022,39(3):699-703

基于Transformer的端到端语音识别系统获得广泛的普及,但Transformer中的多头自注意力机制对输入序列的位置信息不敏感,同时它灵活的对齐方式在面对带噪语音时泛化性能较差。针对以上问题,首先提出使用时序卷积神经网络(TCN)来加强神经网络模型对位置信息的捕捉,其次在上述基础上融合连接时序分类(CTC),提出TCN-Transformer-CTC模型。在不使用任何语言模型的情况下,在中文普通话开源语音数据库AISHELL-1上的实验结果表明,TCN-Transformer-CTC相较于Transformer字错误率相对降低了10.91%,模型最终字错误率降低至5.31%,验证了提出的模型具有一定的先进性。相似文献

17.

基于粒子群优化神经网络的语音情感识别 总被引：1，自引：0，他引：1

余华黄程韦金赟赵力《数据采集与处理》2011,26(1)

提出了一种基于粒子群优化算法的人工神经网络,并把它应用到语音情感识别系统中。依据情感的维度空间模型,分别提取了韵律特征与音质特征,研究了谐波噪声比特征随情感类别的变化。利用粒子群优化算法(PSO)训练随机产生的初始数据,优化神经网络的连接权值和阈值,快速地实现网络的收敛。在实验中比较了BP神经网络、RBF神经网络与PSO神经网络分别用于语音情感识别的识别率,PSO神经网络的平均识别率高于BP神经网络6.7%,高于RBF神经网络5.4%。结果显示,粒子群优化神经网络用于语音情感识别提高了识别性能。相似文献

18.

一种语音识别中核心词快速模型优化方法

杨维张才俊马永波《电子技术应用》2019,45(2):9-11

针对国网客服电话语音识别在特定领域核心词识别效果差的问题,提出一种基于HCLG领域词权重增强和领域词纠正的方法,能够实时并快速地添加领域词,从而动态地优化语言模型,提升语音识别效果。将该模型和算法优化应用在国网客服中心电话语音的咨询、维修、投诉等各种领域场景中,其语音识别结果都得到大幅改善。相似文献

19.

基于语音识别技术的在线语言交互学习系统的设计与实现

范雪扬《自动化与仪器仪表》2023,(7):187-190+195

当前中外语学习口语环境的不足问题已导致学生在语言应用过程中出现了许多困难。研究针对该问题提出了一种基于语音识别技术的在线语音交互学习系统。从语音输入质量入手，在预处理步骤上进行语言信号时域特征的变换，针对计算量和存储空间性能对动态时间规整算法进行改进，并基于改进算法构建在线韩语交互学习系统。实验结果表明，优化算法与混合模式方案，在不同的噪音与信嗓比背景下，混合模型的音频识别错误率均低于30%,在40 dB的条件下识别错误率低于16%。融入优化算法的教学系统在40 dB的条件下错误率低于13%。说明HMM与DBN混合模型更适用于韩语语言识别教学系统，此次设计的基于语音识别的语言交互学习系统具有一定应用价值。相似文献

20.

基于深度前编码卷积网络的汉越语音翻译方法

王剑许树理余正涛王振晗梁仁凤《小型微型计算机系统》2021,(4):736-739

语音翻译是将源语言语音翻译为目标语言文本的过程.传统序列到序列模型应用到语音翻译领域时,模型对于序列长度较为敏感,编码端特征提取和局部依赖建模压力较大.针对这一问题,本文基于Transformer网络构建语音翻译模型,使用深度卷积网络对音频频谱特征进行前编码处理,通过对音频序列进行下采样,对音频频谱中的时频信息进行局部... 相似文献