期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

从线性预测HMM到一种新的语音识别的混合模型 总被引：1，自引：0，他引：1

欧智坚王作英《电子学报》2002,30(9):1313-1316

线性预测HMM(Linear Prediction HMM,LPHMM)并没有象传统HMM那样引入状态输出独立同分布假设,但实用中识别性能并不佳.通过分析两种HMM的各自优劣,本文提出了一种新的语音识别的混合模型,将语音静态特性(基于传统HMM)和动态特性(基于LPHMM)分别描述又有机结合在一起,更为精确地刻划了真实的语音现象,同时又继承使系统的实现改动很小和较小的计算量.汉语大词汇量非特定人连续语音识别的实验表明,混合模型的识别性能显著好于LPHMM和传统HMM.理论上,本文还给出了LPHMM的一组闭式参数重估公式. 相似文献

2.

福建省广播电视节目智能语音分析系统研究与应用

郑晔欧智坚杨艇《数字通信世界》2021,(1)

结合智慧广电监管的相关法律法规,介绍了以人工智能语音识别、自然语言理解技术为基础,针对普通话、闽南语等广播电视节目进行智能识别分析,高效准确的对广播电视中的非法内容、违规词汇进行识别;对广播电视监测工作质量、工作效率的提升具有重要作用。结合福建省广播电视监测中心智慧广电监管的实际,从系统需求分析、系统设计、功能模块等方面进行了描述。相似文献

3.

说话人自适应训练方法在连续语音识别中的应用

罗骏欧智坚王作英《中文信息学报》2004,18(3):62-66

自适应技术在近年来得到越来越多的重视,其中应用广泛的包括MAP、MLLR,该技术利用少量特定人数据就可以调整码本,快速地提升识别性能,它要求原始的码本有很好的说话人无关性。本文介绍了结合MLLR自适应的说话人自适应训练(Speaker Adaptive Training,以下简称SAT)算法,这种方法将每个说话人码本视为说话人无关码本经过线性变换的结果,在此基础上训练的说话人无关码本更有效剔除了说话人相关信息,因此在说话人自适应中时能根据特定数据调整更好地逼近说话人特性,从而有更好的性能表现。相似文献

4.

深层神经网络语音识别自适应方法研究

邓侃欧智坚《计算机应用研究》2016,33(7)

为了解决语音识别中深层神经网络的说话人与环境自适应问题,本文从语音信号中的说话人与环境因素的固有特点出发,提出了使用长时特征的自适应方案：首先基于高斯混合模型,建立说话人-环境联合补偿模型,对说话人与环境参数进行估计,将此参数作为长时特征;然后,将估计出来长时特征与短时特征一起送入深层神经网络,进行训练。Aurora4实验表明,这一方案可以有效地对说话人与环境因素进行分解,并提升自适应效果。相似文献

5.

汉语连续语音识别中多项式拟合语音轨迹模型的研究

下载免费PDF全文

欧智坚王作英《电子学报》2003,31(4):608-611

尽管作为当前最为流行的语音识别模型, HMM由于采用状态输出独立同分布假设,忽略了对语音轨迹动态特性的描述.本文基于一个更为灵活的语音描述统计框架—广义DDBHMM,提出了一个具体的多项式拟合语音轨迹模型,以及新的训练和识别算法,更好地刻划了真实的语音特性.本文还给出了一种有效的剪枝算法,得到一个实用化模型.汉语大词汇量非特定人连续语音识别的实验表明,这种剪枝的多项式拟合语音轨迹模型以较少的计算量明显改善了识别系统的性能. 相似文献

6.

连续语音识别中利用帧间相关性的研究

欧智坚王作英《计算机工程与应用》2001,37(15):25-27,79

尽管作为当前最为流行的语音识别模型,隐马尔可夫模型（HMM）由于采用了状态输出独立同分布假设,因此不能描述语音现象中固有的时间相关性。文章介绍了一个更为灵活的基于段长分布HMM（DDBHMM）的研究帧相关性的框架,并在此基础上提出了一个混合模型,采用一种将语音特征静态信息和动态变化信息分别描述又有机结合在一起的方式,以较小的计算代价更为合理地刻划了真实的语音现象。汉语大词汇量非特定人连续语音识别的实验表明,通过利用帧相关性识别系统的性能得到了明显改善。相似文献

7.

一种MPEG压缩域上的快速场景分割算法 总被引：2，自引：0，他引：2

叶楠欧智坚郑志航《通信学报》1999,20(6):45-49

本文提出了一种ＭＰＥＧ压缩域上的快速场景分割算法,该算法目前主要针对的是新闻节目。它采用了依次对ＭＰＥＧ码流中的Ⅰ帧间,然后Ｐ帧间,最后Ｂ帧间的场景分割进行定位的方法。在该算法的基础上可以快速地完成对ＭＰＥＧ码流的分割,并对每个场景提取Ⅰ帧作为关键帧,从而为新闻视频数据库的建立提供了基础。相似文献

8.

深层神经网络预训练的改进初始化方法

周佳俊欧智坚《电讯技术》2013,53(7):895-898

在基于神经网络的语音识别任务中,提出根据激励函数二阶导数优化网络预训练阶段中权值初始化的方法。利用激励函数的非线性区域和自变量呈高斯分布的特性,寻找权值分布的较优方差以提升训练速度。通过比较同一学习速率下不同初始化数值对收敛速度的影响,发现此种方法可以加快预训练阶段的速度,提升神经网络训练的效率。相似文献

9.

利用无监督自适应的兴奋解说检测和体育比赛精彩片断提取

孙怿欧智坚胡炜《计算机应用与软件》2008,25(11)

提出一种通过兴奋解说检测进行体育比赛精彩片断提取的方法.该方法包括训练和检测两个阶段:在训练中,基于训练数据对兴奋语音和普通语音分别建立高斯混合模型GMM(Gaussian Mixture Model),构成初始的分类器;在集外检测中,首先使用最大后验方法MAP(Maximum A Posteriori),基于测试数据对初始模型进行无监督自适应,进而利用更新后模型构成分类器识别体育解说的兴奋部分,经进一步处理得到精彩片断.将该方法用于足球比赛视频,实验表明,该方法能够召回87%的进球.引入无监督自适应有效地减少了由于训练数据与测试数据失配造成的性能下降,提高了兴奋解说检测和精彩片段提取的性能. 相似文献

10.

改进的基于长时谱能量差异和基音比例的语音检测方法

孟一鸣欧智坚《电讯技术》2013,53(8):1039-1043

语音检测是语音信号处理的前端,利用长时谱能量差异特征的语音检测无法区分突发噪声和语音,掺杂着突发噪声的语音信号会对语音处理系统带来不良影响。提出了一种基于长时谱能量差异特征和基音比例特征相结合的语音检测方法,该方法的优点是,在利用长时谱能量差异特征基础上引入基音比例特征,从而有效减少了将信号中突发噪声误判为语音的错误。实验显示,该算法能够在多种信噪比环境下取得很好的检测结果。相似文献