首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
赵泽宇  张卫强  刘加 《信号处理》2020,36(6):839-851
传统的关键词搜索(KWS, Keyword Search)系统依靠自动语音识别(ASR, Automatic Speech Recognition),通常在资源不足的情况下很难训练。为了免去训练完整的语音识别系统,无语音识别(ASR-free)的关键词检索系统受到越来越多的欢迎。本文提出了一个端到端(E2E, End-to-End)的关键词检索系统,该系统由两个编码器,两个解码器,一个注意机制和一个判别器组成。本文在所提出的系统中引入了注意力机制,该机制可以合并编码器输出的文本和音频特征从而辅助定位关键词所在的位置。在文本和音频解码器的不同组合情况下,使用Babel阿萨姆语和普什图语数据集测试系统。实验结果表明,相比于基线系统而言,该系统拥有更好的检测性能。相比于基于语音识别的关键词检索系统,该系统对于集外词(OOV, Out-Of-Vocabulary),在STWV(Supremum Term Weighted Value)指标上,取得了更好的效果。当训练数据量受限时,该系统比基于语音识别的关键词检索系统更具有优势。   相似文献   

2.
随着深度学习的兴起,端到端语音识别模型受到越来越多的关注。最近,基于Conformer框架的提出,使得端到端语音识别模型的性能得到进一步的提升,同时在语音识别领域也得到了广泛的应用。然而,这些端到端模型由于内存和计算需求较大,所以在资源有限的设备上部署和推理是受限的。该文为了保证模型精度损失较小的情况下,尽可能地减少模型的大小和计算量,分别采用了模型量化,基于权重通道的结构化剪枝以及奇异值分解等三种压缩优化策略,同时对模型量化进行了改进。探究了不同程度的压缩对模型精度损失所造成的影响。通过结合这些策略在不同设备进行了测试,相比于基线在其字错误率误差小于3%的情况下,模型推理识别的速度约提升3~4倍。  相似文献   

3.
端到端语音识别模型由于结构简单且容易训练,已成为目前最流行的语音识别模型.然而端到端语音识别模型通常需要大量的语音-文本对进行训练,才能取得较好的识别性能.而在实际应用中收集大量配对数据既费力又昂贵,因此其无法在实际应用中被广泛使用.本文提出一种将RNN-T(Recurrent Neural Network Trans...  相似文献   

4.
提出一种端到端的视听语音识别算法。在该算法中,通过具有瓶颈结构的深度信念网络(deep belief network,DBN)中引入混合的l1/2范数和l1范数构建一种稀疏DBN(sparse DBN,SDBN)来提取稀疏瓶颈特征,从而实现对数据的特征降维,然后用双向长短期记忆网络(bidirectional long short-term memory,BLSTM)在时序上对特征进行模态处理,之后利用一种注意力机制将经过模态处理的唇部视觉信息和音频听觉信息进行自动对齐、融合,最后将融合的视听觉信息通过一个附加了Softmax层的BLSTM进行分类识别。实验表明,该算法能有效地识别视听觉信息,在同类算法中有很好的识别率和顽健性。  相似文献   

5.
张海波  姚昌华  王磊  朱凡芃 《通信技术》2020,(11):2745-2748
对无线网络中通联行为进行识别和分析,对反恐维稳等国家安全具有重要意义。通联关系是挖掘无线网络中行为关系和网络中的隐藏信息的基础。通过识别通联关系,可以推测电台在通信网络中的层级位置,进而找到网络中的关键节点。端到端是指不需要人工设计专家特征,使用深度学习的方法直接通过频谱监测数据识别通联关系。经过仿真试验发现,残差神经的网络结构可以有效识别通联关系,在测试集上识别率达到99.02%。  相似文献   

6.
当前广泛使用的Transformer模型具有良好的全局依赖关系捕捉能力,但其在浅层时容易忽略局部特征信息。针对该问题,文中提出了一种使用多个编码器来改善语音特征信息提取能力的方法。通过附加一个额外的卷积编码器分支来强化对局部特征信息的捕捉,弥补浅层Transformer对局部特征信息的忽视,有效实现音频特征序列全局和局部依赖关系的融合,即提出了基于Transformer的多编码器模型。在开源中文普通话数据集Aishell-1上的实验表明,在没有外部语言模型的情况下,相比于Transformer模型,基于Transformer的多编码器模型的字符错误率降低了4.00%。在内部非公开的上海话方言数据集上,文中所提模型的性能提升更加明显,其字符错误率从19.92%降低至10.31%,降低了48.24%。  相似文献   

7.
目前,VoLTE用户投诉出现过单通、断续、音质等问题,严重影响用户的高清语音体验。VoLTE网络涉及网元众多,厂家众多,场景复杂,语音质量问题归属困难。文章针对VoLTE端到端语音质量存在的问题,基于华为端到端信令分析平台SEQ,针对多网元的信令面数据进行相关性分析及聚类分析,通过一系列数据挖掘,建立了快速有效的端到端质量评估及优化体系,确保快速有效地定位网络中存在问题。  相似文献   

8.
随着移动通信的广泛应用,语音通信安全问题日益突出.移动通信网的现有安全机制仅对无线信道进行了加密,未能提供地面核心网络的安全措施.文中针对移动语音通信安全现状,探讨了实现端到端语音保密通信的方法,分析了加密语音在移动网内传输面l临的主要问题,研究了加密语音基于移动数据业务信道传输和基于话音业务信道传输的两种实现方案,分析了方案的可行性,指出了下一步的研究方向.  相似文献   

9.
王锦阳  华光  黄双 《信号处理》2022,38(9):1975-1987
近年来深度伪造(Deepfake)技术的迅猛发展使合成语音的自然度和拟人度有了显著提升,对合成语音检测研究提出了更大挑战。本文将五种轻量级注意力模块中的机制改进为适用于语音序列的通道注意力机制和一维空间注意力机制,然后将模块分别嵌入到Inc-TSSDNet网络中,提出基于注意力机制的端到端合成语音检测系统。结果表明,改进系统能够重点关注某些对于检测真伪更关键的通道或区域来提高检测性能,相比于基线模型,引入注意力机制的十种模型在增加的参数量较少的情况下,ASVspoof2019测试集的等错误率(Equal Error Rate,EER)和最小串联检测代价函数(Minimum Tandem Detection Cost Function,min t-DCF)都有所降低,其中在池化层之前嵌入CBAM(Convolutional Block Attention Module)的模型测试集EER最低且具有较强的泛化性,在池化层之前嵌入ECA(Efficient Channel Attention)模块的模型测试集min t-DCF最低且统计性能较基线模型有显著提升。  相似文献   

10.
语音识别技术已经成为信息技术中人机交互的关键技术,目前已经进入家电、汽车电子、消费电子产品等各个领域。本文简单介绍了语音识别技术的基本原理以及目前应用最广泛的两种端到端语音识别架构。  相似文献   

11.
何文龙  高长丰  黎塔  刘建 《信号处理》2021,37(5):893-901
为了进一步利用源文本数据来提高语音翻译的性能,本文提出了一种基于生成对抗网络的端到端语音翻译算法.通过加入判别网络来判断语音特征序列和文本特征序列的真伪,从而引导生成模型来学习文本真实序列的分布,以使语音序列特征分布更加逼近文本特征序列的分布.引入了Wasserstein GAN (WGAN)来计算语音特征序列和文本特...  相似文献   

12.
不良语音识别技术是在高清音视频业务中监测不良信息的有效手段。本文提出了一个基于声学模型的不良语音识别框架。并针对框架中特征提取、声学模型构建、不良语音判定模型三个重要部分的实现方法进行分析描述。并列举了各种方法的优缺点。对构建高效的不良语音识别系统具有较高的参考价值。  相似文献   

13.
欧智坚  王作英 《电子学报》2003,31(4):608-611
尽管作为当前最为流行的语音识别模型, HMM由于采用状态输出独立同分布假设,忽略了对语音轨迹动态特性的描述.本文基于一个更为灵活的语音描述统计框架—广义DDBHMM,提出了一个具体的多项式拟合语音轨迹模型,以及新的训练和识别算法,更好地刻划了真实的语音特性.本文还给出了一种有效的剪枝算法,得到一个实用化模型.汉语大词汇量非特定人连续语音识别的实验表明,这种剪枝的多项式拟合语音轨迹模型以较少的计算量明显改善了识别系统的性能.  相似文献   

14.
有关语音识别技术的研究   总被引:2,自引:0,他引:2  
李宏梅  伍小芹 《现代电子技术》2010,33(8):138-140,144
语音识别是将音频数据转换成文本或者其他形式的计算机可以处理的信息。这里简单介绍语音识别技术的发展历史和现状,阐述了典型语音识别系统的基本原理,对语音识别的基本方法和识别过程进行深入分析,探讨语音识别技术发展过程中的难点问题,给出了相应对策。  相似文献   

15.
陈伟红 《现代电子技术》2006,29(14):44-45,48
研究了3种背景噪声下与说话人有关的孤立词语音识别方法。即语音前端声学处理法、正则相关分析的谱变换补偿方法和同模极点增加法。实验结果表明,这3种方法都有效地提高了噪声环境中语音识别率,其中较好的方法在强噪声环境中(信噪比为0 dB)的语音识别率达到80%以上,为信噪比较低的噪声环境中自动语音识别展现了美好前景。  相似文献   

16.
本文从语音状态驻留长度分布出发,建立了一个非齐次隐含马尔可夫(Markov)语音识别模型。这个模型更接近语音信号物理实际,训练和识别的时间、空间复杂性比经典的HMM模型有很大的改进。文中描述了新模型的训练和识别算法,介绍了根据这一模型所设计的一个汉语孤立字全字表的实时识别和理解系统。  相似文献   

17.
Conformer模型因其优越的性能,吸引了越来越多研究者的关注,逐渐成为语音识别领域的主流模型,但因其采用注意力机制从输入中提取信息,需要对输入序列中所有样本点进行交互计算,导致网络计算复杂度为输入序列长度的平方,因此在对长语音进行识别时需要消耗更多计算资源,其识别速度较慢。针对此问题,本文提出一种线性注意力机制的语音识别方法。首先,提出一种新型门控线性注意力结构将多头注意力改进为单头,将注意力计算复杂度改进为序列长度的线性关系,以有效减少注意力计算复杂度。其次,为了弥补使用线性注意力导致的模型建模能力下降,在线性注意力求解过程中,综合使用局部注意力和全局注意力,联合线性注意力编码,提高模型识别精度。最后,为了进一步提升模型识别效果,在注意力损失和连接时序分类(connectionist temporal classification, CTC)损失的基础上使用注意力引导损失和中间CTC损失融合建模目标函数。在中文普通话数据集AISHELL-1和英文LibriSpeech数据集上的实验结果表明,改进模型的性能明显优于基线模型,且模型显存消耗下降,训练、识别速度得到较大提升。  相似文献   

18.
19.
小型实时语音识别系统研究   总被引:1,自引:0,他引:1  
本文论述了一种小词汇量的特定人孤立字实时识别系统。该系统采用一般器件,与其他同类系统相比,具有成本低、性能可靠等优点。实验结果表明:对十个汉语数字(0~9)和五个命令字的识别率分别为95%和98%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号