期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

戴礼荣张仕良《数据采集与处理》2014,29(2):171-179

论文首先对深度学习进行简要的介绍,然后就其在语音信号与信息处理研究领域的主要研究方向,包括语音识别、语音合成、语音增强的研究进展进行了详细的介绍。语音识别方向主要介绍了基于深度神经网络的语音声学建模、大数据下的模型训练和说话人自适应技术;语音合成方向主要介绍了基于深度学习模型的若干语音合成方法;语音增强方向主要介绍了基于深度神经网络的若干典型语音增强方案。论文的最后我们对深度学习在语音信与信息处理领域的未来可能的研究热点进行展望。相似文献

2.

临近最优主动学习的藏语语音识别方法研究

下载免费PDF全文

赵悦李要嫱徐晓娜吴立成《计算机工程与应用》2018,54(22):156-159

语音识别模型需要大量带标注语音语料进行训练,作为少数民族语言的藏语,由于语音标注专家十分匮乏,人工标注语音语料是一件非常费时费力的工作。然而,主动学习方法可以根据语音识别的目标从大量未标注的语音数据中挑选一些具有价值的样本交给用户进行标注,以便利用少量高质量的训练样本构建与大数据量训练方式一样精准的识别模型。研究了基于主动学习的藏语拉萨话语音语料选择方法,提出了一种临近最优的批量样本选择目标函数,并验证了其具有submodular函数性质。通过实验验证,该方法能够使用较少的训练数据保证语音识别模型的精度,从而减少了人工标注语料的工作量。相似文献

3.

多语言语音识别声学模型建模方法最新进展

程高峰颜永红《计算机科学》2022,49(1):47-52

随着多媒体信息和通信技术的快速发展,网络上的多语言语音数据日益增多.语音识别作为语音分析与处理的核心技术,如何快速地把中文和英文等少数多资源主要语言处理能力推广到更多的低资源语言,是当前识别技术迫切需要突破的瓶颈.文中试图总结声学模型建模领域的最新进展,探讨传统语音识别技术从单语言向多语言跨越过程中可能面临的困难.并在... 相似文献

4.

藏语口语语音语料库的设计与研究

下载免费PDF全文

黄晓辉李京马睿《计算机工程与应用》2018,54(13):231-235

基于对普通语音语料库构建方法的研究与分析,结合自然口语语音识别研究相关需求以及藏语自然口语语音的基本特点,研究设计了适用于藏语语音识别的口语语音语料库建设方案以及相应的标注规范,并据此构建了时长50小时,包含音素、半音节、音节、藏文字以及语句共5层标注信息的藏语拉萨话口语语音语料库。统计结果显示,该语料库在保留口语语音自然属性的同时,对音素、半音节等常用语音建模单元也有均衡的覆盖,为基于藏语口语语音数据的语音识别技术研究提供了可靠的数据支撑。相似文献

5.

电视剧语音识别中的半监督自动语音分割算法

龙艳花茅红伟叶宏《数据采集与处理》2019,34(2):281-287

针对具有大段连续文本标注、但无时间标签的电视剧语音提出了一种半监督自动语音分割算法。首先采用原始的标注文本构建一个有偏的语言模型,然后将该语言模型以一种半监督的方式用于电视剧语音识别中,最后利用自动语音识别的解码结果对传统的基于距离度量、模型分类以及基于音素识别的语音分割算法进行改进。在英国科幻电视剧“神秘博士”数据集合上的实验结果表明,提出的半监督自动语音分割算法能够取得明显优于传统语音分割算法的性能,不仅有效解决了电视剧语音识别中大段连续音频的自动分割问题,还能对相应的大段连续文本标注进行分段,保证分割后各语音段时间标签及其对应文本的准确性。相似文献

6.

基于深度学习的语音合成与转换技术综述

潘孝勤芦天亮杜彦辉仝鑫《计算机科学》2021,48(8):200-208

语音信息处理技术在深度学习的推动下发展迅速,其中语音合成和转换技术相结合能实现实时高保真的指定对象、内容的语音输出,在人机交互、泛娱乐等领域具有广泛的应用前景.文中旨在对基于深度学习的语音合成与转换技术进行综述.首先,简要回顾了语音合成和转换技术的发展历程;接着,列举了在语音合成、转换领域的常见公开数据集以便研究者开展相关探索;然后,讨论了从文本到语音模型,包括在风格、韵律、速度等方面进行改进的经典和前沿的模型、算法,并分别对比评述了其效果与发展潜力;进一步针对语音转换进行综述,归纳总结了转换方法与优化思路;最后,总结了语音合成与转换的应用与挑战,并根据其在模型、应用和规范方面所面临的问题,展望了未来在模型压缩、少样本学习和伪造检测方面的发展方向. 相似文献

7.

基于Ca-GAN增强的机坪管制指令识别方法研究

下载免费PDF全文

诸葛晶昌胡宽博杨新宇吴军《计算机测量与控制》2023,31(7):184-191

我国枢纽机场长期处于繁忙状态,高负荷带来信息交互失真的风险,语音识别技术可用于辅助决策,然而管制语音特殊性及样本量局限性使传统深度学习技术难以直接应用于机坪管制领域。针对这一问题,提出了一种基于小样本学习的语音识别方法。首先提出数据增强方法,通过结合先验领域知识,构建基于数据生成策略组的生成对抗网络来增强声学模型识别能力来进一步提升模型效果;然后通过重构声学模型部分结构和参数;最后通过迁移学习方法将通用语音库中的声学建模特征应用到机坪管制语音指令的识别中。实验结果表明,该方法将字错率减少至6.14%。该研究可应用于机场高级地面活动引导及控制系统中机坪管制语音指令的检测和识别,助力现代机场高质量运行。相似文献

8.

语音识别及端到端技术现状及展望

鱼昆张绍阳侯佳正张少博《计算机系统应用》2021,30(3):14-23

通过对语音识别技术的发展梳理,简单介绍了语音识别的历史和应用现状,并将传统语音识别的技术和当前的研究进展进行描述.传统语音识别采用基于统计的方法,采用声谱特征,在GMM-HMM混合结构上进行训练和匹配.当前的语音识别模型主要基于深度学习的方法,采用CNN、RNN都可以有效的进行特征提取从而建立声学模型.进一步的研究采用... 相似文献

9.

混合多尺度卷积结合双层LSTM语音情感识别

梁科晋张海军刘雅情张昱王月阳《计算机与现代化》2023,(1):63-68

针对深度学习算法在语音情感特征提取方面的不足以及识别准确率不高的问题,本文通过提取语音数据中有效的情感特征,并将特征进行多尺度拼接融合,构造语音情感特征,提高深度学习模型对特征的表现能力。传统递归神经网络无法解决语音情感识别长时依赖问题,本文采用双层LSTM模型来改进语音情感识别效果,提出一种混合多尺度卷积与双层LSTM模型相结合的模型。实验结果表明,在中科院自动化所汉语情感数据库（CASIA）和德国柏林情感公开数据集（Emo-DB）下,本文所提语音情感识别模型相较于其他情感识别模型在准确率方面有较大提高。相似文献

10.

基于DBM-LSTM的多特征语音情感识别

高帆张雪英黄丽霞李宝芸《计算机工程与设计》2020,41(2):465-470

为增强不同情感特征的融合程度和语音情感识别模型的鲁棒性,提出一种神经网络结构DBM-LSTM用于语音情感识别。利用深度受限玻尔兹曼机的特征重构原理将不同的情感特征进行融合;利用长短时记忆单元对短时特征进行长时建模,增强语音情感识别模型的鲁棒性;在柏林情感语音数据库上进行分类实验。研究结果表明,与传统识别模型相比,DBM-LSTM网络结构更适用于多特征语音情感识别任务,最优识别结果提升11%。相似文献

11.

基于解码多候选结果的半监督数据挑选的语音识别

王兮楼郭武解传栋《模式识别与人工智能》2018,31(7):662-667

基于资源稀少情况下的语音识别,提出针对大量无标注数据的半监督学习的挑选策略,应用到声学模型和语言模型建模.采用少量数据训练种子模型后,解码无标注数据.首先在解码的最佳候选结果中采用置信度与困惑度结合的方法挑选高可信的语句训练声学模型及语言模型.进一步对解码得到的格进行转化,得到多候选文本,用于语言模型训练.在日语识别任务上,相比基于置信度挑选数据的方法,文中方法在识别率上具有较大提升. 相似文献

12.

深度学习在农作物图像识别中的应用研究

强敏杰《福建电脑》2021,37(2):1-5

深度学习在语音识别、视觉识别以及其他领域都引起了很多研究者越来越多的关注.在图像处理领域,采用深度学习方法可以获得较高的识别率.本文以玻尔兹曼机和卷积神经网络作为深度学习的研究模型应用于农业方面,从病虫破坏农作物图像识别的角度,结合上述研究模型,并分别结合不同应用场景对模型进行改进.针对病虫破坏农作物的图像识别采用玻尔... 相似文献

13.

基于协同训练的半监督学习研究

武永成《电脑与微电子技术》2012,(20):8-11,16

半监督学习,与传统的监督学习不同,能同时在少量的已标记数据和大量的未标记数据上进行学习,从而提高性能。协同训练是一种流行的半监督学习算法,已成为目前机器学习和模式识别领域中的一个研究热点。综述半监督学习协同训练的基本思想、研究现状、常用算法,分析目前存在的主要困难,并指出需进一步研究的几个问题。相似文献

14.

改进的深度卷积网络及在碎纸片拼接中的应用

段宝彬韩立新《计算机工程与应用》2014,(9):176-181,270

近年来,深度卷积网络在图像识别、语音识别和自然语言处理等领域广泛使用,取得了很好的效果。为解决全部样本均为无标签数据的分类问题,对深度卷积神经网络进行了改进,采用卷积自动编码器学习输入样本的特征,用k-均值聚类器代替深度卷积网络中的分类器,建立了改进的深度卷积网络结构,给出了相应的学习算法,将其用于解决碎纸片拼接问题。实验表明,该方法有效可行,提高了碎纸片拼接的准确性和鲁棒性。相似文献

15.

基于多视图半监督学习的人体行为识别

唐超王文剑王晓峰张琛邹乐《模式识别与人工智能》2019,32(4):376-384

由于人的行为在本质上的复杂性,单一行为特征视图缺乏全面分析人类行为的能力.文中提出基于多视图半监督学习的人体行为识别方法.首先,提出3种不同模态视图数据,用于表征人体动作,即基于RGB模态数据的傅立叶描述子特征视图、基于深度模态数据的时空兴趣点特征视图和基于关节模态数据的关节点投影分布特征视图.然后,使用多视图半监督学习框架建模,充分利用不同视图提供的互补信息,确保基于少量标记和大量未标记数据半监督学习取得更好的分类精度.最后,利用分类器级融合技术并结合3种视图的预测能力,同时有效解决未标记样本置信度评估问题.在公开的人体行为识别数据集上实验表明,采用多个动作特征视图融合的特征表示方法的判别力优于单个动作特征视图,取得有效的人体行为识别性能. 相似文献

16.

深度学习相关研究综述

张军阳《计算机应用研究》2018,35(7)

随着大数据时代的到来,深度学习技术已经成为当前人工智能领域的一个研究热点,其已在图像识别、语音识别、自然语言处理、搜索推荐等领域展现出了巨大的优势,并且仍在继续发展变化.为了能够及时跟踪深度学习技术的最新研究进展,把握深度学习技术当前的研究热点和方向,本文针对深度学习技术的相关研究内容进行综述.首先介绍了深度学习技术的应用背景、应用领域,指出研究深度学习技术的重要性;其次介绍了当前重要的几种神经网络模型及两种常用大规模模型训练并行方案,其目的在于从本质上理解深度学习的模型架构和及其优化技巧;接着对比分析了当下主流的深度学习软件工具和相关的工业界研究平台,旨在为神经网络模型的实际使用提供借鉴;最后详细介绍了当下几种主流的深度学习硬件加速技术和最新研究现状,并对未来研究方向进行了展望。相似文献