期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

司玉景肖业鸣徐及潘接林颜永红《自动化学报》2014,40(12):2808-2814

在资源相对匮乏的自动语音识别(Automatic speech recognition, ASR)领域, 如面向电话交谈的语音识别系统中, 统计语言模型(Language model, LM)存在着严重的数据稀疏问题. 本文提出了一种基于等概率事件的采样语料生成算法, 自动生成领域相关的语料, 用来强化统计语言模型建模. 实验结果表明, 加入本算法生成的采样语料可以缓解语言模型的稀疏性, 从而提升整个语音识别系统的性能. 在开发集上语言模型的困惑度相对降低7.5%, 字错误率(Character error rate, CER)绝对降低0.2个点; 在测试集上语言模型的困惑度相对降低6%, 字错误率绝对降低0.4点. 相似文献

2.

基于混合模型状态修正算法的非母语语音识别

张晴晴潘接林颜永红《数字通信》2009,36(1):33-37

非母语语音识别的性能较低,对于刚开始学习目标语言的说话人或者口音很重的说话人而言,性能下降更为明显。本文提出一种新型的双语模型修正算法用于提高非母语语音的识别性能。在该算法中,基线声学模型的每个状态都将被代表说话人母语特点的辅助模型状态所修正。文章给出了状态修正准则以及不同候选修正状态数下的性能比较。相比已用非母语训练数据自适应以后的基线声学模型,通过双语模型修正的声学模型在保证识别实时率的前提下,短语错误率相对下降了11．7％。相似文献

3.

以语音出现时频相关性为基础的语音掩模估计

战鸽黄兆琼应冬文潘接林颜永红《软件学报》2016,27(S2):64-68

在二维的时频域网格结构中,相邻点上语音信号的存在与否是相关的,传统的马尔可夫链不能对二维的时频相关性进行自适应的建模.基于语音信号在时频域中的相关性,提出了一种利用二维的相关模型估计语音掩模的方法.该方法将时频域中带噪语音信号的对数功率谱划分为语音和非语音类,利用时域中的状态转移概率和前向因子描述语音信号的时域相关性,同时利用频域中的状态转移概率和邻域因子描述语音信号的频域相关性.通过全局的统计最优化,该模型将时域相关性和频域相关性相结合.给出了该模型的序贯化更新方法,逐帧更新模型并估计语音出现概率.在当前已知对数功率谱和模型参数的条件下,通过最大化后验概率得到的语音信号状态矩阵可以作为语音掩模的最优估计.将该方法与几种现有的语音掩模在线估计方法进行比较,实验结果显示出了该方法的优越性. 相似文献

4.

利用领域信息的基于字的鲁棒中文口语理解研究

包长春徐为群李亚丽潘接林颜永红《微计算机应用》2010,31(6)

鲁棒性是口语理解研究最具挑战性的关键问题之一.本文采用两个策略提高口语解析的鲁棒性:一是使用浅层统计理解框架,将口语解析简化为实体识别,并且以字取代词作为基本处理单元;二是在统计框架下,分别从特征提取和语料扩充两个角度充分利用领域信息.实验结果显示上述方法能有效提升语义解析性能.对于人机对话的测试集,当输入为语音识别结果时,解析性能(F1值)由75.27提升至90.24,输入为人工转抄结果时,性能由80.59提升至97.14. 相似文献

5.

基于卷积神经网络的连续语音识别

下载免费PDF全文

张晴晴刘勇潘接林颜永红《工程科学学报》2015,37(9):1212-1217

在语音识别中,卷积神经网络(convolutional neural networks,CNNs)相比于目前广泛使用的深层神经网络(deep neural network,DNNs),能在保证性能的同时,大大压缩模型的尺寸.本文深入分析了卷积神经网络中卷积层和聚合层的不同结构对识别性能的影响情况,并与目前广泛使用的深层神经网络模型进行了对比.在标准语音识别库TIMIT以及大词表非特定人电话自然口语对话数据库上的实验结果证明,相比传统深层神经网络模型,卷积神经网络明显降低模型规模的同时,识别性能更好,且泛化能力更强. 相似文献

6.

基于加权有限状态机的动态匹配词图生成算法

郭宇弘黎塔肖业鸣潘接林颜永红《电子与信息学报》2014,36(1):140-146

由于现有的加权有限状态机(WFST)解码网络没有精确词尾标记,导致当前已有的词图生成算法不含精确的词尾时间点,或者仅是状态、音素级别的词图,无法应用到关键词检索中。该文提出在WFST静态解码器下的语音识别词图生成算法。首先从理论上分析了WFST解码音素图和词图的可转换关系,然后提出了字典的动态音素匹配方法解决了WFST网络中词尾时间点对齐的问题,最后通过令牌传递的遍历方法生成了词图。同时,考虑到计算量优化,在令牌传递过程中引入了剪枝算法,使音素图转词图的耗时不到解码耗时的3%。得到的词图,不仅可以用于语言模型重打分,由于含有精确的词尾时间点,还可以直接应用到关键词检索系统中。实验结果表明,该文的词图生成算法具有较高的计算效率;和已有动态解码器的词图相比,词图中包含更多解码信息,在大词汇连续语音识别的重打分结果和关键词检索中都能取得更好的性能。相似文献

7.

基于隐藏单元条件随机场的多知识源融合改进自动语音识别置信度

高兴龙潘接林颜永红《电子与信息学报》2014,36(8):1852-1858

鉴于自动语音识别(ASR)中置信度估计困难的问题,该文提出一种基于多知识源融合的策略来提高置信度的鉴别能力。具体做法是,首先选择关于识别结果的声学层、语言层和语义层等不同层次的信息,然后通过实验确定这些信息不同的组合方式,并以此为特征在隐藏单元条件随机场(Hidden-units Conditional Random Fields, HuCRFs)框架下计算识别结果的条件概率。最后将HuCRFs条件概率作为语音识别结果置信度的新的估计。实验首先证明了HuCRFs条件概率是比归一化的网格后验概率鉴别能力更强的一种置信度估计方法。同时基于HuCRFs条件概率置信度,对解码器一遍识别得到的网格重新搜索最佳候选序列,取得了相对一遍识别最佳候选序列绝对近2%的字错误率(CER)下降。同时,该文也对比了基于HuCRFs条件概率搜索的最佳候选序列和基于长语言模型网格重估的最佳候选序列的性能,进一步证明了使用HuCRFs条件概率作为置信度估计是一种更好的选择。相似文献

8.

交叉对数似然度和贝叶斯信息判据的说话人聚类算法 总被引：1，自引：0，他引：1

下载免费PDF全文

刘倓倓潘接林索洪斌颜永红《声学技术》2007,26(6):1181-1185

说话人分段聚类的任务是将一段语音中由同一说话人发出的语音聚合起来。文中提出了一种基于交叉对数似然度(Cross Log-likelihood Ratio,CLR)和贝叶斯信息判据(Bayesian information criterion,BIC)相结合的说话人聚类算法。交叉对数似然度用于计算语音段间的相似度;而贝叶斯判据则提供了一种比较适当的停止聚类的准则,该算法结合了两种方法的优点,在无监督说话人聚类中得到了较好的应用。实验结果表明,基于交叉对数似然度和贝叶斯判据的说话人聚类方法,比单纯利用交叉对数似然度的方法准确度高。相似文献

9.

DirectShow技术在音频格式转换及音视频分离方面的应用 总被引：3，自引：0，他引：3

徐燃潘接林《计算机应用》2005,25(Z1):387-390

目前语音识别系统的输入都是线性PCM格式的音频文件,然而在实际应用中,需要识别各种格式音频文件以及视频流中的音频,在开始识别前,需要进行音频格式转换并从视频流中进行音频提取.因此,音频格式的转换和从视频中分离出音频信号已成为语音识别系统一种必需的预处理过程.文中介绍了一种将Microsoft的DirectShow技术应用于Windows平台的多种压缩音频格式转换为Windows PCM WAV格式以及从多媒体视频中分离音频信号的方法,并分析了常见音频压缩编码格式经转换后对语音识别系统性能的影响.这对于语音识别技术在实际中的应用有着重要的意义. 相似文献

10.

语音识别中深度神经网络目标值优化 总被引：1，自引：0，他引：1

陈梦喆张晴晴潘接林颜永红《四川大学学报(工程科学版)》2016,48(1):166-172

语音识别系统中,由强制对齐得到的用于训练深度神经网络声学模型的目标值,常常无法精准地表示出语音实际的情况,这是因为用于强制对齐的模型可能与处理语句不完全匹配,以及发音连续性导致的过渡边界难以分离等问题。针对这一问题,该文提出了一种利用前后向算法得到非0-1分布目标值的方法。新的目标值可以表示出某一帧以一定概率属于邻近各状态的分布情况,更详细地描述建模单元之间的过渡,进一步还原语音的原貌,提升模型的鲁棒性。同时,为寻求模型鲁棒性和建模单元区分度之间的平衡,对算法得到的目标值进行加窗处理。实验在中文客服问答领域上进行,在小数据量上验证了目标值对于训练的较大影响,并且选取了窗长宽度这一参数。最后将训练数据量提升至60小时,80小时以及100小时,结果显示新的目标值训练得到的模型在识别性能上获得了一致的提升,相对字错误率下降1.10%至3.65%。多组实验验证了新的目标值对模型训练有一定效果,在训练数据量上升的情况下依然具有有效性。相似文献