首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对传统英语翻译系统语音识别准确率低,导致语言翻译效果不佳的问题,提出一种语音识别的英语翻译器。在HMM基础上,加入梅尔频率倒谱系数MFCC,通过MFCC提取语音特征,然后利用HMM对语音特征进行识别,最后通过循环神经网络构建Transformer机器翻译模型,从而对提取的中文语音进行翻译。结果表明,提出的HMM+MFCC模型对语音识别的平均识别率高达99.78%,比传统的识别方法高2.89%,且HMM+MFCC模型的平均识别时间仅为1.224 8 s,说明本模型识别效率更高,模型性能更优越;Transformer+词性信息模型的BLEU分数为36.28,比单一Transformer模型的BLEU分数35.69高出了0.59。综合分析可知,采用提出的语音识别和语言翻译方法可提高英语翻译器的语音识别准确率和翻译效果。  相似文献   

2.
基于嵌入式平台对深度神经网络轻量化的需求,结合模块化、逐层处理思想,以主流检测识别深度神经网络Faster RCNN轻量化为目标,设计基于深度稀疏低秩分解的轻量化方法.针对Faster RCNN网络架构特点,首先采用深度可分离卷积和稀疏低秩理论对Faster RCNN网络的特征提取主干网络部分进行初始轻量化;其次采用稀疏低秩裁剪对主干网络进行“逐层通道裁剪,逐层重训练,逐层调优”轻量化,采用张量Tensor-Train分解理论,对区域建议网络进行轻量化处理,尽可能保证低性能损失;再次对识别与分类网络进行稀疏低秩分解和通道裁剪,增加模型压缩倍数,减少所需要和所消耗计算资源;最后,基于感兴趣区域定位感知的RPN网络输入特征知识蒸馏,提升检测识别性能.数值实验表明,所提出方法可以实现模型压缩100倍,检测识别率仅下降5%.  相似文献   

3.
针对多噪声环境下的语音识别问题,提出了将环境噪声作为语音识别上下文考虑的层级语音识别模型。该模型由含噪语音分类模型和特定噪声环境下的声学模型两层组成,通过含噪语音分类模型降低训练数据与测试数据的差异,消除了特征空间研究对噪声稳定性的限制,并且克服了传统多类型训练在某些噪声环境下识别准确率低的弊端,又通过深度神经网络(DNN)进行声学模型建模,进一步增强声学模型分辨噪声的能力,从而提高模型空间语音识别的噪声鲁棒性。实验中将所提模型与多类型训练得到的基准模型进行对比,结果显示所提层级语音识别模型较该基准模型的词错率(WER)相对降低了20.3%,表明该层级语音识别模型有利于增强语音识别的噪声鲁棒性。  相似文献   

4.
针对于当前语音信号的复杂性,和外界噪音的干扰,导致语音交互系统难以实现较为连续交互这一问题,采用由语音识别、单轮交互、多轮交互、语音合成这四个模块构成的基于语音识别的人机交互系统,在语音识别模块中,语音特征信号提取采用了MFCC特征提取方法,采用了深度算法进行构建声学模型。在多轮交互模块中,采用了GPT-2模型来实现了人机交互中的长对话。结果表明:该语音交互系统可以精准地提取出语音中的所需特征,然后进行有效的语音识别,DNN-HMM模型进行语音识别的WER值为4.11,识别时间短,最后合成出了清晰自然的语音。该结果证明此语音交互系统具有可行性。  相似文献   

5.
近年来基于深度学习的人脸表情识别技术已取得很大进展,但对于表情特征的多尺度提取,以及在不受约束的现实场景中进行面部表情识别仍然是具有挑战性的工作。为解决此问题,提出一种金字塔卷积神经网络与注意力机制结合的表情识别方法。对于初始的一张人脸表情图像,将其按照区域采样裁剪成多张子图像,将原图像和子图像输入到金字塔卷积神经网络进行多尺度特征提取,将提取到的特征图输入到全局注意力模块,给每一张图像分配一个权重,从而得到有重要特征信息的图像,将子图像和原始图像的特征进行加权求和,得到新的含有注意力信息的全局特征,最终进行表情识别分类。在CK+、RAF-DB、AffectNet三个公开表情数据集上分别取得了98.46%、87.34%、60.45%的准确率,提高了表情的识别精度。  相似文献   

6.
为解决卷积神经网络在中文语音识别中识别准确率低、鲁棒性差的问题,提出一种基于双路卷积神经网络的声学建模方法。利用多尺度学习方法提取多尺度特征信息;将软阈值非线性转换层和注意力机制进行融合后嵌入残差网络,减轻网络梯度问题,加强网络特征信息传递,提高特征学习效果;采用连接时序分类技术分类,简化语音识别流程。实验结果表明,该模型与传统识别模型相比,词错误率降低了7.52%,在3种噪声环境下,错误率也低于传统模型。  相似文献   

7.
传统模型较难识别出数量庞大的数据,为了提高对日语语音识别系统的准确率,此次研究综合了语音识别与深度学习的基本理论。在此基础上,提出使用Fbank特征作为声学模型的输入特征,构建了基于双向长短期记忆网络(Bi-directional Long-Short Term Memory, BiLSTM)的日语语音识别系统。结果表明,预加重后的日语语音信号能量变化幅度在-35 dB至0 dB的范围内,频谱分布更加平衡。在经过多轮次训练后,BiLSTM-CTC模型的词错率比其他两种模型分别低了11.03%、3.63%,具有更加优越的性能。在使用Fbank特征时,研究模型的词错率比使用梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients, MFCC)特征时低。这表明采用Fbank特征能够提高日语语音识别的精度。此次研究不仅对深度学习技术的发展提供重要的理论,还对以深层神经网络为基础的语音识别具有重要的现实意义。  相似文献   

8.
在语音情感识别研究中,已有基于深度学习的方法大多没有针对语音时频两域的特征进行建模,且存在网络模型训练时间长、识别准确性不高等问题。语谱图是语音信号转换后具有时频两域的特殊图像,为了充分提取语谱图时频两域的情感特征,提出了一种基于参数迁移和卷积循环神经网络的语音情感识别模型。该模型把语谱图作为网络的输入,引入AlexNet网络模型并迁移其预训练的卷积层权重参数,将卷积神经网络输出的特征图重构后输入LSTM(Long Short-Term Memory)网络进行训练。实验结果表明,所提方法加快了网络训练的速度,并提高了情感识别的准确率。  相似文献   

9.
针对传统SF6气体泄漏检测方法存在图像采集和泄漏识别精度低的问题,提出设计一种基于DCNN网络的SF6气体在线监测系统。首先,采用OV78和MSP430单片机进行泄漏气体图像采集;然后通过WIFI无线通信将采集数据输入至深度学习模块中进行GMM泄漏区域提取和多特征提取;最后采用DCNN神经网络进行SF6气体泄漏准确识别和分类。实验结果表明,相较于传统的Lenet-5、ZF-net和Alexnet经典网络,提出的DCNN方法无论在网络性能,还是在识别的准确率方面,均具备良好的表现,其识别准确率最高可达82%,识别性能均优于另外三种网络模型。实际应用表明,该方法具有良好的检测效果。由此说明本文构建的系统可用于电力中的SF6气体在线监测,保障电力的安全。  相似文献   

10.
王忠民  刘戈  宋辉 《计算机工程》2019,45(8):248-254
在语音情感识别中提取梅尔频率倒谱系数(MFCC)会丢失谱特征信息,导致情感识别准确率较低。为此,提出一种结合MFCC和语谱图特征的语音情感识别方法。从音频信号中提取MFCC特征,将信号转换为语谱图,利用卷积神经网络提取图像特征。在此基础上,使用多核学习算法融合音频特征,并将生成的核函数应用于支持向量机进行情感分类。在2种语音情感数据集上的实验结果表明,与单一特征的分类器相比,该方法的语音情感识别准确率高达96%。  相似文献   

11.
针对语音情感识别中的特征提取的问题,提出了一种新的特征提取方式,利用深度神经网络(DNN)中的深度信念网络(DBNs)自动提取语音信号中情感特征.通过训练一个5层的深度信念网络提取语音情感特征,把连续多帧的语音并在一起,构成一个高维的特征,把深度信念网络训练完的特征作为非线性支持向量机(SVM)分类器的输入端,最终建立一个语音情感识别多分类器系统.其识别率为86.5%比传统的基于提取句子的时间构造、振幅构造、基频构造等特征的方法提高7%.  相似文献   

12.
近年来,卷积神经网络在图像、文本、语音分类等领域广泛使用,但现有的研究大多忽视了特定场所下语音情感识别的性能。针对上述问题,提出一种基于卷积神经网络(CNN)的火车站语音情感识别模型。模型首先提取每条语音的梅尔倒谱系数(MFCC)特征,然后把提取的特征矩阵送到卷积神经网络训练,最后由网络输出每个语音的所属类别。此外在模型的输出层加入了置信度的设置,认为每一条语音属于某类别的概率大于90%则是可信的,否则不可信。实验结果表明,与循环神经网络(RNN)和多层感知器(MLP)相比,上述模型准确率更高。所提出的方法为深度学习技术在语音情感识别中的应用及火车站等场所危险情况的预警提供了一定的借鉴。  相似文献   

13.
针对普通话测试中噪音干扰问题,提出了一种基于小波变换的普通话智能测试系统,对噪音环境下的语音信号进行准确辨别。为了确保本文系统语音识别的准确率,通过隐马尔可夫统计模型叠加神经网络,采用模式匹配的方式搭建了整体语音辨别系统。为了降低噪音对语音信号的影响,在系统中引入小波分析对信号进行去噪处理,同时引入了梅尔频率倒谱系数提取信号特征。实验证明,相较于未改进的传统系统,基于小波变换改进的普通话智能测试系统,在有噪声环境下,四次仿真的平均识别准确率要高7.2%,平均识别时间缩短了1.1 s,识别效果大幅提高;相较于基于DNN的普通话识别系统和基于CTC准则的普通话识别系统,基于小波变换改进的普通话智能系统,在4种不同噪音环境下,语音识别准确率更高,尤其面对频谱更集中的噪音,系统的识别准确率高达90.7%,分别较另外两种系统高出7.5%和6.6%,具有更好的实用性。  相似文献   

14.
研究车牌字符识别问题,针对传统神经网络在车牌字符识别存在识别准确率低、效率低的问题,提出了一种基于改进神经网络的车牌字符识别方法.该方法首先采用Gabor滤波器提取车牌字符的特征,PCA降维处理消除车牌字符特征之间的冗余信息,然后采用改进的神经网络对提取特征进行训练得到最优识别模型,最后利用最优模型对车牌字符进行识别.仿真实验表明,数字及字母的识别准确率达95.0%以上,汉字的识别准确率达93.1%,与传统识别方法相比,识别准确率和识别速度都有了较大的改进,该方法在车牌识别的应用有着广泛的前景.  相似文献   

15.
长时间的病理图像人工诊断会使医生产生视觉疲劳,误诊和漏诊情况容易发生。针对以上现象,提出一种结合卷积神经网络中多维度特征的方法,快速准确识别出病理图像中的病灶区域。使用感兴趣区提取及图像裁剪获得小尺寸图块数据;使用染色校正的方法以解决图块染色不均,对比度弱等问题;搭建深度学习模型,使用多组深度可分离卷积提取不同尺度的特征,加入残差连接以避免梯度消失,联合不同维度的特征信息以提高特征利用率。实验结果表明,染色校正能够提高预测准确率,上述模型具有参数少、鲁棒性强的特点,最终对病理图像病灶的识别均能达到较高的准确率,假阳性及假阴性均较低,未来将具有广泛的应用前景。  相似文献   

16.
褚新建 《信息与电脑》2022,(24):174-176
针对传统人脸识别方法识别精度较低的问题,提出基于深度可分离卷积的轻量化人脸识别方法。构建深度可分离卷积的轻量级卷积神经网络模型,采集人脸图像并进行预处理,从而增强数据集,采用多任务卷积神经网络提取人脸特征,完成人脸识别方法的设计。实验结果表明,该方法优于其他方法,人脸识别的准确率保持在90%以上,识别精度较高。  相似文献   

17.
韩斌  曾松伟 《计算机科学》2021,48(z1):113-117
植物叶片识别是植物自动分类识别研究的重要分支和热点,利用卷积神经网络进行图像分类研究已成为主流.为了提高植物叶片识别准确率,提出了基于多特征融合和卷积神经网络的植物叶片图像识别方法.首先对植物叶片图像进行预处理,提取LBP特征和Gabor特征,将多特征相加融合输入网络进行训练,使用卷积神经网络(AlexNet)构架作为分类器,利用全连接层对植物叶片进行识别.为了避免过拟合现象,使用"dropout"方法训练卷积神经网络,通过调节学习率、dropout值、迭代次数优化模型.实验结果表明,基于多特征融合的卷积神经网络植物叶片识别方法对Flavia数据库32种叶片和MEW2014数据库189种叶片识别分类效果较好,平均正确识别率分别为93.25%和96.37%,相比一般的卷积神经网络识别方法,该方法可以提高植物叶片的识别准确率,鲁棒性更强.  相似文献   

18.
针对现有语音情绪识别中存在无关特征多和准确率较差的问题,提出一种基于混合分布注意力机制与混合神经网络的语音情绪识别方法。该方法在2个通道内,分别使用卷积神经网络和双向长短时记忆网络进行语音的空间特征和时序特征提取,然后将2个网络的输出同时作为多头注意力机制的输入矩阵。同时,考虑到现有多头注意力机制存在的低秩分布问题,在注意力机制计算方式上进行改进,将低秩分布与2个神经网络的输出特征的相似性做混合分布叠加,再经过归一化操作后将所有子空间结果进行拼接,最后经过全连接层进行分类输出。实验结果表明,基于混合分布注意力机制与混合神经网络的语音情绪识别方法比现有其他方法的准确率更高,验证了所提方法的有效性。  相似文献   

19.
张显杰  张之明 《计算机应用》2022,42(8):2394-2400
手写体文本识别技术可以将手写文档转录成可编辑的数字文档。但由于手写的书写风格迥异、文档结构千变万化和字符分割识别精度不高等问题,基于神经网络的手写体英文文本识别仍面临着许多挑战。针对上述问题,提出基于卷积神经网络(CNN)和Transformer的手写体英文文本识别模型。首先利用CNN从输入图像中提取特征,而后将特征输入到Transformer编码器中得到特征序列每一帧的预测,最后经过链接时序分类(CTC)解码器获得最终的预测结果。在公开的IAM(Institut für Angewandte Mathematik)手写体英文单词数据集上进行了大量的实验结果表明,该模型获得了3.60%的字符错误率(CER)和12.70%的单词错误率(WER),验证了所提模型的可行性。  相似文献   

20.
为进一步提升语音测谎性能,提出了一种基于去噪自编码器(DAE)和长短时记忆(LSTM)网络的语音测谎算法。首先,该算法构建了优化后的DAE和LSTM的并行结构PDL;然后,提取出语音中的人工特征并输入DAE以获取更具鲁棒性的特征,同时,将语音加窗分帧后提取出的Mel谱逐帧输入到LSTM进行帧级深度特征的学习;最后,将这两种特征通过全连接层及批归一化处理后实现融合,使用softmax分类器进行谎言识别。CSC(Columbia-SRI-Colorado)库和自建语料库上的实验结果显示,融合特征分类的识别准确率分别为65.18%和68.04%,相比其他对比算法的识别准确率最高分别提升了5.56%和7.22%,表明所提算法可以有效提高谎言识别精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号