期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	2篇
免费	0篇
国内免费	2篇

专业分类

自动化技术

4篇

出版年

2023年	1篇
2022年	3篇

排序方式： 共有4条查询结果，搜索用时 15 毫秒

结合Conformer与N-gram的中文语音识别

许鸿奎卢江坤张子枫周俊杰胡文烨姜彤彤郭文涛李振业《计算机系统应用》2022,31(7):194-202

Transformer模型对输入序列中重要的信息进行学习, 相比传统的ASR (automatic speech recognition)模型提升了准确性. Conformer模型在Transformer的编码器中加入卷积模块, 增加了获取细微局部信息的能力, 进一步提高了模型性能. 本文结合使用Conformer模型和N-gram语言模型(language model , LM)用于中文语音识别, 获得了良好的识别效果. 在数据集AISHELL-1和aidatatang_200zh上的实验表明, 使用Conformer模型字错率分别可降低到5.79%和5.60%, 较Transformer模型降低了5.82%和2.71%. 结合N-gram语言模型后字错率分别可降低到4.86%和5.10%达到最佳性能, 实时率(real time factor , RTF)达到0.14566. 测试信噪比降低为20 dB时模型字错率才明显下降到8.58%, 表明该模型具有一定的抗噪能力. 相似文献

混合CTC/Attention模型在普通话识别中的应用

许鸿奎张子枫卢江坤周俊杰胡文烨姜彤彤《计算机与现代化》2022,(8):1-6

基于链接时序分类（Connectionist Temporal Classification, CTC）的端到端语音识别模型具有结构简单且能自动对齐的优点,但识别准确率有待进一步提高。本文引入注意力机制（Attention）构成混合CTC/Attention端到端模型,采用多任务学习方式,充分发挥CTC的对齐优势和Attention机制的上下文建模优势。实验结果表明,当选取80维FBank特征和3维pitch特征作为声学特征,选择VGG-双向长短时记忆网络（VGG-Bidirectional long short-time memory, VGG-BiLSTM）作为编码器应用于中文普通话识别时,该模型与基于CTC的端到端模型相比,字错误率下降约6.1%,外接语言模型后,字错误率进一步下降0.3%;与传统基线模型相比,字错误率也有大幅度下降。相似文献

基于Attention机制的BiLSTM诈骗电话识别

许鸿奎姜彤彤李鑫周俊杰张子枫卢江坤《计算机系统应用》2022,31(3):326-332

电话诈骗日益猖獗, 严重影响人民的生命和财产安全, 如何有效防范电话诈骗已成为社会的一大焦点问题. 本文提出一种基于Attention-BiLSTM模型的诈骗电话识别方法. 该方法以电话文本为数据集, 采用双向长短时记忆神经网络(bi-directional long short-term memory)模型提取句子的长距离特征. 通过引入注意力机制增强电话文本中与诈骗相关词汇的特征权重, 得到电话文本的句子层面的特征向量表示, 最后输入Softmax层进行分类预测. 实验结果表明, 基于注意力机制的BiLSTM诈骗电话分类模型的准确率较基线模型分别提高了2.15%和0.6%, 具有更好的预测性能. 相似文献

语音识别中的Conformer模型压缩研究

卢江坤许鸿奎张子枫周俊杰李振业郭文涛《计算机时代》2023,(4):16-22+28

针对使用Conformer模型的语音识别算法在实际应用时设备算力不足及资源缺乏的问题，提出一种基于Conformer模型间隔剪枝和参数量化相结合的模型压缩方法。实验显示，使用该方法压缩后，模型的实时率(real time factor, RTF)达到0.107614，较基线模型的推理速度提升了16.2%，而识别准确率只下降了1.79%，并且模型大小也由原来的207.91MB下降到72.69MB。该方法在模型准确率损失很小的情况下，较大程度地提升了模型的适用性。相似文献