首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
广播语音的自动识别、标注、检索等是涉及到语音技术、自然语言处理、信息检索等多个领域的综合性课题。在介绍了广播语音的自动标注与检索的研究概况并分析了其中涉及的关键技术基础上,提出了面向普通话广播语音的多层次自动标注框架以及基于多层次标注的语音检索方案,对文档层、句子层和词语层的标注属性进行了探讨,采用了递归标注方法对属性逐层细化,并讨论了对语音自动标注至关重要的语音识别引擎和语音流分割等问题。基于本文提出的方法,对10 小时的普通话广播语音资料进行了标注和检索,得到了比较满意的实验结果。  相似文献   

2.
脑肿瘤自动分割对脑肿瘤诊断、手术规划和治疗评估中起着重要的作用。然而,由于脑病变结构的高可变性,组织边界模糊,以及数据有限和类不平衡等问题,导致其仍面临巨大的挑战。目前,大部分分割依赖手工,耗时耗力,易受主观影响,寻求一种高效的自动分割方法非常具有研究意义。介绍了脑肿瘤分割的研究背景、意义和难点,并概述了其发展历程;从数据和结构优化两方面详细描述基于脑肿瘤分割的卷积神经网络,简介脑分割常用的数据集和性能指标;分析了2017至2019年的BraTs挑战赛中排名靠前的算法性能,并讨论分析卷积神经网络应用于脑肿瘤分割的发展趋势。  相似文献   

3.
针对具有大段连续文本标注、但无时间标签的电视剧语音提出了一种半监督自动语音分割算法。首先采用原始的标注文本构建一个有偏的语言模型,然后将该语言模型以一种半监督的方式用于电视剧语音识别中,最后利用自动语音识别的解码结果对传统的基于距离度量、模型分类以及基于音素识别的语音分割算法进行改进。在英国科幻电视剧“神秘博士”数据集合上的实验结果表明,提出的半监督自动语音分割算法能够取得明显优于传统语音分割算法的性能,不仅有效解决了电视剧语音识别中大段连续音频的自动分割问题,还能对相应的大段连续文本标注进行分段,保证分割后各语音段时间标签及其对应文本的准确性。  相似文献   

4.
自动图像处理程序的参数优化是一个耗时过程;对于具有高噪音和阴影复杂图像分析任务,手动调整参数无法产生较好的效果;为了多参数同时调优,提出了基于反馈的参数自适应模型来改进标准图像分割方法;通过前馈方式实现算法,对其调整参数来比较算法的性能,根据基准数据集对算法进行评估、来比较讨论图像阴影和噪声对分割和分类精度的影响;研究结果表明,在不同阴影等级的背景下,采用反馈参数自适应的图像分割算法比采用前馈算法的图像分割、分类效果更好;当仅存在抽象基准数据时,该方法执行自动图像分析得有效,同时,使用分级的数据集评估不同图像处理的鲁棒性,有利于最终用户进行图像处理;为自动化图像处理理论研究与实践提供借鉴.  相似文献   

5.
功能性副语音如笑声、哭声、叹息声等的研究在情感识别领域中越来越受到关注,开始被作为识别说话人情感重要的信息之一.然而在应用与研究中功能性副语音能否被自动检出是前提.针对这一需求,根据音频分割算法提出了基于定长分段的功能性副语音自动检测算法以及基于距离与贝叶斯的功能性副语音自动检测算法.并提出了结合静音帧语音分割点确认算法对分割点进一步确认,而且通过实验验证了该算法是有效的.通过实验对比两种检测算法的优劣,实验结果表明:基于定长分段自动检测算法较好,检测率达到70%,较基于距离与贝叶斯的检测算法高出5%.  相似文献   

6.
在学习语音的过程中,找出学习者发音的错误并加以改进是非常重要的。错音检测技术就是自动诊断语流中错误发音的技术,也是计算机辅助发音训练研究的主要内容之一。该文总结了错音检测技术的研究和应用现状,分别介绍了基于语音识别、基于错音网络和基于声学语音学的错音检测技术。在此基础上又介绍了错音检测技术在计算机辅助发音训练系统中的应用,以及汉语自动发音评估技术的发展。文章最后给出了作者的分析和建议。  相似文献   

7.
沈立春  林红  邓欣 《测控技术》2012,31(9):141-143
焦炉操作人员一直以来使用手持对讲机进行重要生产信息的语音传递,随着焦炉生产自动化程度的提高,手持对讲系统的弊端日益显现,已不能满足焦炉现代化的生产。通过研究分析并结合自己的实践经验,基于基础自动化系统,综合运用无线通信及语音技术,开发了一套自动语音播报系统,应用于焦炉生产中。主要介绍了自动语音提示系统在梅山钢铁焦炉生产中的开发和使用情况。  相似文献   

8.
目前,面向蒙古语的语音识别语音库资源相对稀缺,但存在较多的电视剧、广播等蒙古语音频和对应的文本。该文提出基于语音识别的蒙古语长音频语音文本自动对齐方法,实现蒙古语电视剧语音的自动标注,扩充了蒙古语语音库。在前端处理阶段,使用基于高斯混合模型的语音端点检测技术筛选并删除噪音段;在语音识别阶段,构建基于前向型序列记忆网络的蒙古语声学模型;最后基于向量空间模型,将语音识别得到的假设序列和参考音素序列进行句子级别的动态时间归整算法匹配。实验结果表明,与基于Needleman-Wunsch算法的语音对齐比较,该文提出的蒙古语长音频语音文本自动对齐方法的对齐正确率提升了31.09%。  相似文献   

9.
语义分割是计算机视觉领域的一项像素级别的感知任务,目的是为图像中的每个像素分配相应类别标签,具有广泛应用。许多语义分割网络结构复杂,计算量和参数量较大,在对高分辨率图像进行像素层次的理解时具有较大的延迟,这极大限制了其在资源受限环境下的应用,如自动驾驶、辅助医疗和移动设备等。因此,实时推理的语义分割网络得到了广泛关注。本文对深度学习中实时语义分割算法进行了全面论述和分析。1)介绍了语义分割和实时语义分割任务的基本概念、应用场景和面临问题;2)详细介绍了实时语义分割算法中常用的技术和设计,包括模型压缩技术、高效卷积神经网络(convolutional neural network,CNN)模块和高效Transformer模块;3)全面整理和归纳了现阶段的实时语义分割算法,包括单分支网络、双分支网络、多分支网络、U型网络和神经架构搜索网络5种类别的实时语义分割方法,涵盖基于CNN、基于Transformer和基于混合框架的分割网络,并分析了各类实时语义分割算法的特点和局限性;4)提供了完整的实时语义分割评价体系,包括相关数据集和评价指标、现有方法性能汇总以及领域主流方法的同设备比较,为后续研究者提供统一的比较标准;5)给出结论并分析了实时语义分割领域仍存在的挑战,对实时语义分割领域未来可能的研究方向提出了相应见解。本文提及的算法、数据集和评估指标已汇总至https://github.com/xzz777/Awesome-Real-time-Semantic-Segmentation,以便后续研究者使用。  相似文献   

10.
语音辨识技术是人机交互的重要方式。随着深度学习的不断发展,基于深度学习的自动语音辨识系统也取得了重要进展。然而,经过精心设计的音频对抗样本可以使得基于神经网络的自动语音辨识系统产生错误,给基于语音辨识系统的应用带来安全风险。为了提升基于神经网络的自动语音辨识系统的安全性,需要对音频对抗样本的攻击和防御进行研究。基于此,分析总结对抗样本生成和防御技术的研究现状,介绍自动语音辨识系统对抗样本攻击和防御技术面临的挑战和解决思路。  相似文献   

11.
在构建藏语语料库时要对语音进行音素切分, 采用了两种方法, 即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度, 其中单音素、三音素总的平均切分准确度分别为80. 69%、88. 74%。实验结果表明, 三音素HMM模型的自动切分方法的准确率明显高于单音素HMM模型的切分率, 提高了语音语料库标注信息的精确度和一致性。  相似文献   

12.
深度语音信号与信息处理:研究进展与展望   总被引:1,自引:0,他引:1  
论文首先对深度学习进行简要的介绍,然后就其在语音信号与信息处理研究领域的主要研究方向,包括语音识别、语音合成、语音增强的研究进展进行了详细的介绍。语音识别方向主要介绍了基于深度神经网络的语音声学建模、大数据下的模型训练和说话人自适应技术;语音合成方向主要介绍了基于深度学习模型的若干语音合成方法;语音增强方向主要介绍了基于深度神经网络的若干典型语音增强方案。论文的最后我们对深度学习在语音信与信息处理领域的未来可能的研究热点进行展望。  相似文献   

13.
译文质量的自动评价对机器翻译研究具有十分重要的意义。但现有方法主要是针对书面语翻译,没有考虑到口语翻译的特征。因此,本文提出了一种面向口语的新型的自动评价方法,通过定义信息段、标注权重和设计多种匹配策略等方法,使自动评价结果与人工打分更为接近,同时也提高了评价过程对不同输出译文的适应能力。各项实验表明,该算法对译文质量变化具有较高的敏感度,而且可以对输出译文质量作出与手工评判较为接近的评价结果。  相似文献   

14.
语音可懂度是语音信号的一种重要属性,在归一化协方差评价方法(NCM)的基础之上,以相对均方根(RMS)为阈值对语音信号进行分割,对高于均方值的语音段和低于均方值的语音段进行了分段可懂度评估,同时,提出了一种新的可懂度评价模型,结合了这两种语音段对语音可懂度的相对贡献,共同评价语音的可懂度。实验结果表明,高均方语音段相对于低均方语音段对可懂度具有更高的贡献,利用新的模型将这两种语音段的评价结果进行重新结合,评价效果得到了显著提升。  相似文献   

15.
文本分割综述   总被引:1,自引:0,他引:1  
石晶 《计算机工程与应用》2006,42(35):155-159,171
文本分割在信息提取、文摘生成、语篇解析及其他多个领域有着极为重要的应用。文本分割的对象包括静态书面文本、语音文本以及动态文本等;分割的粒度因分割的目的不同而有所区别;分割的准确性不仅需要直接评测,更需要间接评测。在大量文献的基础上,对目前常用的分割方法及评测手段进行了全面的归纳和总结,分析了文本分割技术的研究现状,指出尚存在的问题并展望研究前景。  相似文献   

16.
基于元音检测的汉语连续语音声韵母分割   总被引:2,自引:1,他引:1       下载免费PDF全文
在基于声韵母的汉语连续语音识别中,声韵母基元的准确分割是非常重要的一步。当前的声韵母分割方法在非连续语音中分割准确度较高,但在连续语音中准确度大幅度降低。利用熵与汉语元音的共振峰能量设计了一种新的分割方法,并引入重叠分割策略,完整地分割出汉语连续语音中的声韵母基元。实验结果表明,这种分割方法在低信噪比下也有很高的分割正确率。  相似文献   

17.
80年代以来,语音识别与合成,语音编码和实时传输、多语种机器翻译等关键技术的迅速发展,促进了自动翻译电话系统的研究和开发。  相似文献   

18.
语音识别是实现人机交互的一种重要途径,是自然语言处理的基础环节,随着人工智能技术的发展,人机交互等大量应用场景存在着流式语音识别的需求。流式语音识别的定义是一边输入语音一边输出结果,它能够大大减少人机交互过程中语音识别的处理时间。目前在学术研究领域,端到端语音识别已经取得了丰硕的研究成果,而流式语音识别在学术研究以及工业应用中还存在着一些挑战与困难,因此,最近两年,端到端流式语音识别逐渐成为语音领域的一个研究热点与重点。从端到端流式识别模型与性能优化等方面对近些年所展开的研究进行全面的调查与分析,具体包括以下内容:(1)详细分析和归纳了端到端流式语音识别的各种方法与模型,包括直接实现流式识别的CTC与RNN-T模型,以及对注意力机制进行改进以实现流式识别的单调注意力机制等方法;(2)介绍了端到端流式语音识别模型提高识别准确率与减少延迟的方法,在提高准确率方面,主要有最小词错率训练、知识蒸馏等方法,在降低延迟方面,主要有对齐、正则化等方法;(3)介绍了流式语音识别一些常用的中英文开源数据集以及流式识别模型的性能评价标准;(4)讨论了端到端流式语音识别模型的未来发展与展望。  相似文献   

19.
针对有声出版物语音分割系统,提出了一种阈值自适应加相似度判决的系统分割模型,基于脚本中的先验知识提出了能量阈值自适应分割算法.对于传统的端点检测算法无法排除的干扰,为提高系统的抗干扰能力以增强其适用性,提出了基于语音单元相似性进行分析判决的新方法.测试结果表明,无干扰时,系统分割的正确率100%,每个语音文件包含两个人为干扰信号时,系统分割正确率98.8%,能够满足有声出版物语音自动分割的需要.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号