期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

高芸芸赵腊生张强《计算机应用》2024,(1):123-128

示例查询语音关键词检测中,卷积神经网络（CNN）或者循环神经网络（RNN）提取到的声学词嵌入语音信息有限,为更好地表示语音内容以及改善模型的性能,提出一种基于双向长短时记忆（Bi-LSTM）和卷积Transformer的声学词嵌入模型。首先,使用Bi-LSTM提取特征、对语音序列进行建模,并通过叠加方式来提高模型的学习能力;其次,为了能在捕获全局信息的同时学习到局部信息,将CNN和Transformer编码器并联连接组成卷积Transformer,充分利用它在特征提取上的优势,聚合更多有效的信息,提高嵌入的区分性。在对比损失约束下,所提模型平均精度达到了94.36%,与基于注意力的Bi-LSTM模型相比,平均精度提高了1.76%。实验结果表明,所提模型可以有效改善模型性能,更好地实现示例查询语音关键词检测。相似文献

2.

基于去噪自编码器和长短时记忆网络的语音测谎算法

傅洪亮雷沛之《计算机应用》2020,40(2):589-594

为进一步提升语音测谎性能,提出了一种基于去噪自编码器（DAE）和长短时记忆（LSTM）网络的语音测谎算法。首先,该算法构建了优化后的DAE和LSTM的并行结构PDL;然后,提取出语音中的人工特征并输入DAE以获取更具鲁棒性的特征,同时,将语音加窗分帧后提取出的Mel谱逐帧输入到LSTM进行帧级深度特征的学习;最后,将这两种特征通过全连接层及批归一化处理后实现融合,使用softmax分类器进行谎言识别。CSC（Columbia-SRI-Colorado）库和自建语料库上的实验结果显示,融合特征分类的识别准确率分别为65.18%和68.04%,相比其他对比算法的识别准确率最高分别提升了5.56%和7.22%,表明所提算法可以有效提高谎言识别精度。相似文献

3.

基于ResNet-BLSTM的端到端语音识别

下载免费PDF全文

胡章芳徐轩付亚芹夏志广马苏东《计算机工程与应用》2020,56(18):124-130

基于深度学习的端到端语音识别模型中,由于模型的输入采用固定长度的语音帧,造成时域信息和部分高频信息损失进而导致识别率不高、鲁棒性差等问题。针对上述问题,提出了一种基于残差网络与双向长短时记忆网络相结合的模型,该模型采用语谱图作为输入,同时在残差网络中设计并行卷积层,提取不同尺度的特征,然后进行特征融合,最后采用连接时序分类方法进行分类,实现一个端到端的语音识别模型。实验结果表明,该模型在Aishell-1语音集上字错误率相较于传统端到端模型的WER下降2.52%,且鲁棒性较好。相似文献

4.

基于CTC准则的普通话识别及改进

张立民王彦哲张兵强朱念斌《计算机工程》2019,45(6)

主流神经网络训练的交叉熵准则针对声学数据的每个帧进行分类优化,而连续语音识别需以序列级的转录准确性为性能度量指标。针对这一差异,构建一种基于序列级转录的端到端语音识别系统。以音素为基本单元建模,并采用连接时序分类(CTC)的目标函数改进长短时记忆网络的结构。在解码过程中引入词典和语言模型,并在前端增加音调特征以丰富声学特征。利用序列区分度训练技术提升CTC模型的建模效果。实验结果表明,该系统的识别效率和识别准确率得到提高,词错误率最低可降至19.09%±0.16%。相似文献

5.

融合卷积网络与残差长短时记忆网络的轻量级骨导语音盲增强

邦锦阳孙蒙张雄伟郑昌艳《数据采集与处理》2021,36(5):921-931

基于深度学习的骨导语音盲增强已经取得了较好的效果,但仍存在模型体积大、计算复杂度高等问题。为此提出一种融合卷积网络和残差长短时记忆网络的轻量级骨导语音增强深度学习模型,该模型在保持语音增强质量的前提下,能有效提升骨导语音盲增强的效率。该模型借助卷积网络参数量小、特征提取能力强等优点,在语谱图频率维度引入卷积结构,从而深入挖掘时频结构的细节和高低频信息间的关联关系以提取新型特征,并将此新型特征输入改进后的长短时记忆网络中,用于恢复高频成分信息并重构语音信号。通过在骨导语音数据库上实验,表明所提模型可以有效改善高频成分的时频结构,在提升增强效果的同时,降低了模型体积和推理的计算复杂度。相似文献

6.

两级特征联合学习的情感说话人识别

下载免费PDF全文

刘金琳李冬冬王喆蔡立志《计算机工程与应用》2023,59(1):149-155

针对说话人识别的性能易受到情感因素影响的问题,提出利用片段级别特征和帧级别特征联合学习的方法。利用长短时记忆网络进行说话人识别任务,提取时序输出作为片段级别的情感说话人特征,保留了语音帧特征原本信息的同时加强了情感信息的表达,再利用全连接网络进一步学习片段级别特征中每一个特征帧的说话人信息来增强帧级别特征的说话人信息表示能力,最后拼接片段级别特征和帧级别特征得到最终的说话人特征以增强特征的表征能力。在普通话情感语音语料库（MASC）上进行实验,验证所提出方法有效性的同时,探究了片段级别特征中包含语音帧数量和不同情感状态对情感说话人识别的影响。相似文献

7.

基于动态卷积递归神经网络的语音情感识别

耿磊傅洪亮陶华伟卢远郭歆莹赵力《计算机工程》2023,(4):125-130+137

动态情感特征是说话人独立语音情感识别中的重要特征。由于缺乏对语音中时频信息的充分挖掘，现有动态情感特征表征能力有限。为更好地提取语音中的动态情感特征，提出一种动态卷积递归神经网络语音情感识别模型。基于动态卷积理论构建一种动态卷积神经网络提取语谱图中的全局动态情感信息，使用注意力机制分别从时间和频率维度对特征图关键情感区域进行强化表示，同时利用双向长短期记忆网络对谱图进行逐帧学习，提取动态帧级特征及情感的时序依赖关系。在此基础上，利用最大密度散度损失对齐新个体特征与训练集特征分布，降低个体差异性对特征分布产生的影响，提升模型表征能力。实验结果表明，该模型在CASIA中文情感语料库、Emo-db德文情感语料库及IEMOCAP英文情感语料库上分别取得59.50%、88.01%及66.90%的加权平均精度，相较HuWSF、CB-SER、RNN-Att等其他主流模型识别精度分别提升1.25～16.00、0.71～2.26及2.16～8.10个百分点，验证了所提模型的有效性。相似文献

8.

复杂噪声环境下语音识别研究

张允耀黄鹤鸣张会云《计算机与现代化》2021,(9):68-74

语音识别是人机交互的重要方式,针对传统语音识别系统对含噪语音识别性能较差、特征选择不恰当的问题,提出一种基于迁移学习的深度自编码器循环神经网络模型。该模型由编码器、解码器以及声学模型组成,其中,声学模型由堆栈双向循环神经网络构成,用于提升识别性能;编码器和解码器均由全连接层构成,用于特征提取。将编码器结构及参数迁移至声学模型进行联合训练,在含噪Google Commands数据集上的实验表明本文模型有效增强了含噪语音的识别性能,并且具有较好的鲁棒性和泛化性。相似文献

9.

基于时域建模的自动语音识别

王海坤伍大勇刘江王士进胡国平胡郁《计算机工程与应用》2017,53(20):243-248

端到端神经网络能够根据特定的任务自动学习从原始数据到特征的变换,解决人工设计的特征与任务不匹配的问题。以往语音识别的端到端网络采用一层时域卷积网络作为特征提取模型,递归神经网络和全连接前馈深度神经网络作为声学模型的方式,在效果和效率两个方面具有一定的局限性。从特征提取模块的效果以及声学模型的训练效率角度,提出多时间频率分辨率卷积网络与带记忆模块的前馈神经网络相结合的端到端语音识别模型。实验结果表明,所提方法语音识别在真实录制数据集上较传统方法字错误率下降10%,训练时间减少80%。相似文献

10.

基于特征聚合的假新闻内容检测模型

何韩森孙国梓《计算机应用》2020,40(8):2189-2193

针对假新闻内容检测中分类算法模型的检测性能与泛化性能无法兼顾的问题,提出了一种基于特征聚合的假新闻检测模型CCNN。首先,通过双向长短时循环神经网络提取文本的全局时序特征,并采用卷积神经网络（CNN）提取窗口范围内的词语或词组特征;然后,在卷积神经网络池化层之后,采用基于双中心损失训练的特征聚合层;最后,将双向长短时记忆网络（Bi-LSTM）和CNN的特征数据按深度方向拼接成一个向量之后提供给全连接层,采用均匀损失函数uniform-sigmoid训练模型后输出最终的分类结果。实验结果表明,该模型的F1值为80.5%,在训练集和验证集上的差值为1.3个百分点;与传统的支持向量机（SVM）、朴素贝叶斯（NB）和随机森林（RF）模型相比,所提模型的F1值提升了9~14个百分点;与长短时记忆网络（LSTM）、快速文本分类（FastText）等神经网络模型相比,所提模型的泛化性能提升了1.3~2.5个百分点。由此可见,所提模型能够在提高分类性能的同时保证一定的泛化能力,提升整体性能。相似文献

11.

融合CNN-BiLSTM和自注意力模型的音乐情感识别

下载免费PDF全文

钟智鹏王海龙苏贵斌柳林裴冬梅《计算机工程与应用》2023,59(3):94-103

随着音乐科技研究的不断深入,音乐情感识别已被广泛实践和应用在音乐推荐、音乐心理治疗、声光场景构建等方面。模拟人类感受音乐表现情感的过程,针对音乐情感识别中长短时记忆神经网络的长距离依赖和训练效率低的问题,提出一种新的网络模型CBSA（CNN BiLSTM self attention）,应用于长距离音乐情感识别回归训练。模型使用二维卷积神经网络获取音乐情感局部关键特征,采用双向长短时记忆神经网络从获取的局部关键特征中提取序列化音乐情感信息,利用自注意力模型对获取的序列化信息进行动态权重调整,突出音乐情感全局关键点。实验结果表明,CBSA模型可缩短分析音乐情感信息中数据规律的训练时间,有效地提高音乐情感识别精确度。相似文献

12.

基于深度学习的网购评论命名实体识别方法

仇增辉赫明杰林正奎《计算机工程与科学》2020,42(12):2287-2294

针对网购评论命名实体识别中重要词汇被忽略的问题,在评论短文本处理基础上,借鉴多头注意力机制、词汇贡献度和双向长短时记忆条件随机场提出一种基于MA-BiLSTM-CRF模型的网购评论命名实体识别方法。首先,用词向量和词性向量的组合来表示评论文本语义信息;其次,用BiLSTM提取文本特征;然后,引入多头注意力机制从多层面、多角度提升模型性能;最后,用条件随机场（CRF）识别命名实体。实验结果表明,该方法能提升网购评论实体识别效果。相似文献

13.

基于端到端技术的藏语语音识别^*

王庆楠郭武解传栋《模式识别与人工智能》2017,30(4):359-364

现阶段基于链接时序分类技术的端到端的大规模连续语音识别成为研究热点,文中将其应用于藏语识别中,取得优于主流的双向长短时记忆网络性能.在基于端到端的语音识别中,不需要发音字典等语言学知识,识别性能无法得到保证.文中提出将已有的语言学知识结合至端到端的声学建模中,采用绑定的三音子作为建模单元,解决建模单元的稀疏性问题,大幅提高声学建模的区分度和鲁棒性.在藏语测试集上,通过实验证明文中方法提高基于链接时序分类技术的声学模型的识别率,并验证语言学知识和基于端到端声学建模技术结合的有效性. 相似文献

14.

基于非线性堆叠双向网络的端到端声纹识别

王芷悦崔琳《计算机与现代化》2022,(3):13-17

传统声纹识别方法过程繁琐且识别率低,现有的深度学习方法所使用的神经网络对语音信号没有针对性从而导致识别精度不够。针对上述问题,本文提出一种基于非线性堆叠双向LSTM的端到端声纹识别方法。首先,对原始语音文件提取出Fbank特征用于网络模型的输入。然后,针对语音信号连续且前后关联性强的特点,构建双向长短时记忆网络处理语音数据提取深度特征,为进一步增强网络的非线性表达能力,利用堆叠多层双向LSTM层和多层非线性层实现对语音信号更深层次抽象特征的提取。最后,使用SGD优化器优化训练方式。实验结果表明提出的方法能够充分利用语音序列信号特征,具有较强的时序全面性和非线性表达能力,所构造模型整体性强,比GRU和LSTM等模型具有更好的识别效果。相似文献

15.

基于混合分布注意力机制与混合神经网络的语音情绪识别方法

陈巧红于泽源贾宇波《计算机工程与科学》2022,44(12):2246-2254

针对现有语音情绪识别中存在无关特征多和准确率较差的问题,提出一种基于混合分布注意力机制与混合神经网络的语音情绪识别方法。该方法在2个通道内,分别使用卷积神经网络和双向长短时记忆网络进行语音的空间特征和时序特征提取,然后将2个网络的输出同时作为多头注意力机制的输入矩阵。同时,考虑到现有多头注意力机制存在的低秩分布问题,在注意力机制计算方式上进行改进,将低秩分布与2个神经网络的输出特征的相似性做混合分布叠加,再经过归一化操作后将所有子空间结果进行拼接,最后经过全连接层进行分类输出。实验结果表明,基于混合分布注意力机制与混合神经网络的语音情绪识别方法比现有其他方法的准确率更高,验证了所提方法的有效性。相似文献

16.

基于混合神经网络的文本分类方法

梁顺攀豆明明于洪涛郑智中《计算机工程与设计》2022,43(2):573-579

为更好解决卷积神经网络提取特征不充分,难以处理长文本结构信息和捕获句子语义关系等问题,提出一种融合CNN和自注意力BiLSTM的并行神经网络模型TC-ABlstm.对传统的卷积神经网络进行改进,增强对文本局部特征的提取能力;设计结合注意力机制的双向长短期记忆神经网络模型来捕获文本上下文相关的全局特征;结合两个模型提取文... 相似文献

17.

基于混合式注意力机制的语音识别研究

李业良张二华唐振民《计算机应用研究》2020,37(1):131-134

为了解决语音识别中基于卷积位置信息的混合式注意力机制无法提取长期有效位置信息的问题,提出了一种捕捉长期有效位置信息的新型混合式注意力机制。首先,对当前时刻生成的注意力得分作卷积来提取多通道特征图,并通过全局平均池化来得到恒定维度的特征向量;接着,引入长短期记忆网络（long short-term memory,LSTM）单元作为外部记忆模块,并以生成的特征向量作为输入,生成下一时刻的位置信息向量;最后,结合经典的LAS（listen,attend and spell）模型来验证提出方案的有效性。实验结果表明,该方案能充分考虑过去多个时刻的注意力得分。相对于基于卷积位置信息的LAS模型,该方案在纯净和含噪语音数据集上取得的标签错误率分别减少了1.8%和2.21%。相似文献

18.

基于时域扩张残差网络和双分支结构的人体行为识别

薛盼盼刘云李辉陶冶田嘉意《控制与决策》2022,37(11):2993-3002

图卷积网络由于能够直接处理关节点拓扑图在行为识别方面表现出较好的性能而备受关注,但是这类方法中经常存在长时信息依赖建模能力较弱以及未关注空间语义与时间事件变化不均衡问题,对此,提出基于时域扩张残差网络和双分支结构的人体行为识别方法.在时空行为特征提取方法中,不仅用图卷积提取空间域特征,而且用扩张因果卷积和残差连接结构来构建时域扩张残差网络以提取时域特征,该网络能够在未大量增加参数的基础上有效扩大在时域上的感受野,从而更好地获得在时域上的人体关节信息的长时依赖关系.同时构建双分支结构,其中低帧率分支以较少的时间帧数和较多的通道数侧重于提取丰富的空间语义信息,高帧率分支以较多的时间帧数和较少的通道数在保证网络轻量级的前提下有效捕捉人体行为的快速变化.实验结果表明,所提出方法在NTU RGB+D数据集上的准确率高于目前先进的行为识别方法. 相似文献