期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李文昕屈丹李弼程刘崧《信号处理》2012,28(7):1051-1056

针对关键词检测系统中HMM模型框架下置信度计算存在的不足,本文提出了基于MLP帧级子词后验概率的置信度方法。与HMM模型框架下利用声学模型得分与语言模型得分进行置信度计算不同的是,该方法在MLP模型框架下直接将其输出的每帧语音类别的后验概率用于关键词置信度的计算,克服了HMM建模时假设每帧语音的声学特征相互独立以及对状态建模时采用有限混元的高斯分布的不足。关键词检出和置信度确认使用两套不同的模型结构,是两个完全独立的过程,便于融合其他的置信度特征。实验结果表明,本文提出的方法优于HMM框架下主流的置信度计算方法,且与其具有较好的互补性。因此本文将两种不同框架下不同的置信度方法进行融合,系统的等错误率(EER)相对提高了11.5%。相似文献

2.

汉语连续语音识别中不同基元声学模型的复合 总被引：1，自引：0，他引：1

张辉杜利民《电子与信息学报》2006,28(11):2045-2049

该文研究由不同声学基元训练的声学模型的复合。在汉语连续语音识别中,流行的基元包括上下文相关的声韵母基元和音素基元。实验发现,有些汉语音节在声韵母模型下有更高的识别率,有些音节在音素模型下有更高的识别率。该文提出一种复合这两种声学模型的方法,一方面在识别过程中同时使用两种模型,另一方面在识别过程中避开造成低识别率的模型。实验表明,采用本文的方法后,音节错误率比音素模型和声韵母模型分别下降了9.60%和6.10%。相似文献

3.

基于RNN和WFST译码的自动语音识别研究

《信息技术》2019,(6):115-120

文中利用Eesen框架声学建模简化了现有的自动语音识别(ASR),通过训练单个递归神经网络(RNN)来预测上下文无关的目标(音素或字符)。为了消除对预生成帧标签的需求,采用了连接时间分类(CTC)目标函数来推断语音和标签序列之间的对齐。同时,采用基于加权有限状态换能器(WFST)的广义译码方法,将词汇和语言模型有效地整合到CTC译码中。实验结果表明,与混合HMM/DNN模型相比,所提方法具有较低的误码率(WER),同时显著加快了译码速度。相似文献

4.

基于电话语料的维吾尔连续音素识别

米日古力·阿布都热素艾克白尔·帕塔尔艾斯卡尔·艾木都拉《通信技术》2012,45(7):54-56

结合维吾尔语的语音特征和语义信息,在大量电话语音语料库的基础上,以建立维吾尔语连续音素识别平台为目标,通过构建隐马尔科夫模型工具HTK(Hidden Markov Model Toolkit)工具实现了维吾尔语连续音素识别算法:首先根据具体技术指标完成了较大规模电话语音语料库的录制和标注工作;确定音素为基元,通过训练获得了每个音素的HMM(Hidden Markov Model)声学模型,随后对输入的语音进行识别,声学模型在不同的高斯混合数目下,得出了识别结果;统计了32个音素的识别率并对它进行分析,为了进一步提高识别率奠定了基础。相似文献

5.

基于中英文混合模型的语音识别研究

李伟李媛媛《电声技术》2011,35(7):42-44

针对目前汉语连续语音识别中英文识别问题,采用中英文混合建模的方法建立中英文混合模型.在分析已有语音识别系统的基础上,根据发音学的一些先验知识,提出一种基于主元音及英文音素序列混合的声学模型,同时利用最大似然规则训练出的声学模型,通过最小音素错误准则对声学模型进行区分性训练,更新得到最终的声学模型.在测试集上的结果表明,... 相似文献

6.

基于ANN/HMM混合模型汉语大词表连续语音识别系统

蒋瑞李海峰马琳《智能计算机与应用》2012,(5):23-26,30

提出一种基于隐马尔可夫模型(Hidden Markov model,HMM)和人工神经网络(Artificial Neural Network,ANN)混合模型的汉语大词表连续语音识别系统。在混合模型系统中,多种模型协同工作。ANN负责建模音素发音物理特性,HMM联合语言学模型识别待识语料。这样,混合模型系统能够结合HMM和ANN两种模型的优点:HMM对时间序列结构建模能力强;ANN的非线性预测能力强,建模能力强,鲁棒性,便于硬件实现。实验结果表明,HMM/ANN混合模型系统有效结合了两种模型的优点,提高了识别率。相似文献

7.

基于NAO机器人的BLSTM-CTC的声学模型研究

胡希颖王大东陈佳欣《智能计算机与应用》2021,11(3):76-79,84

针对于NAO机器人自身语音识别准确率低的问题,提出一种基于NAO机器人的BLSTM-CTC的声学模型研究方法.基于BLSTM-CTC的声学模型进行建模,以BLSTM为声学模型和CTC为目标函数,以音素作为基本建模单元,建立中文语音识别端到端系统.实验结果证明,本文算法相较于NAO机器人自身,取得了良好识别效果. 相似文献

8.

基于多流多状态动态贝叶斯网络的音视频连续语音识别

吕国云蒋冬梅张艳宁赵荣椿 H Sahli Ilse Ravyse W Verhelst 《电子与信息学报》2008,30(12):2906-2911

语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用了词-音素的层次结构.而多流多状态异步DBN(MM-ADBN)模型是MS-ADBN模型的扩展,音视频流都采用了词-音素-状态的层次结构.本质上,MS-ADBN是一个整词模型,而MM-ADBN模型是一个音素模型,适用于大词汇量连续语音识别.实验结果表明：基于连续音视频数据库,在纯净语音环境下,MM-ADBN比MS-ADBN模型和多流HMM识别率分别提高35.91%和9.97%. 相似文献

9.

关键词检测系统中基于音素网格的置信度计算 总被引：1，自引：0，他引：1

张鹏远韩疆颜永红《电子与信息学报》2007,29(9):2063-2066

该文提出了一种基于音素网格的置信度计算方法。与传统的基于整个声学模型的置信度不同的是,这种方法在解码器生成的音素网格上计算关键词的置信度,从而具有更好的拒识能力。另外,针对两种置信度取值范围的不同,该文采用权重因子的方法综合利用两种置信度,取得了较好的效果。在自然对话的电话数据测试中,与传统的置信度计算方式相比,混和置信度的FOM(Figure Of Merit)值相对提高了17.0%。相似文献

10.

基于点过程模型连续语音关键词检测

下载免费PDF全文

王勇张连海《太赫兹科学与电子信息学报》2013,11(6):958-963

提出了基于点过程模型（PPM）的连续语音关键词检测方法。该方法首先利用时态模式（TRAP）特征和多层感知器（MLP）计算每个音素的帧级后验概率,在此基础上,将语音可看作多个相互独立的事件（音素）,利用泊松过程对事件建立点过程模型,最后通过计算似然比达到关键词检测目的。实验结果表明,对8kHz采样语音,关键词平均召回率和准确率分别可达69．5％和82％以上。相似文献

11.

Phoneme classification using semicontinuous hidden Markov models

Huang X.D. 《Signal Processing, IEEE Transactions on》1992,40(5):1062-1067

Speaker-dependent phoneme recognition experiments were conducted using variants of the semicontinuous hidden Markov model (SCHMM) with explicit state duration modeling. Results clearly demonstrated that the SCHMM with state duration offers significantly improved phoneme classification accuracy compared to both the discrete HMM and the continuous HMM; the error rate was reduced by more than 30% and 20%, respectively. The use of a limited number of mixture densities significantly reduced the amount of computation. Explicit state duration modeling further reduced the error rate 相似文献

12.

矿井旋转机组碰摩声发射源监测系统的设计

下载免费PDF全文

林丽《电子器件》2020,43(2):466-470

研究提出了一种基于声发射源特征识别的矿井旋转机组碰摩故障检测方法。为了能对矿井旋转机组实时远程监控并实现分布式网络化管理,设计了一种基于ARM嵌入式系统的矿井旋转机组振动监测系统。针对高斯混合模型在建模时需要较多的训练数据的缺陷,提出了一种基于模糊矢量量化混合模型的声发射识别方法,该方法综合考虑了模糊集理论、矢量量化和高斯混合模型的优点,通过用模糊矢量量化误差尺度取代传统高斯混合模型的输出概率函数,减少了建模时对训练数据量的要求,提高了模型精度和识别速度。通过实验观察上位机输出结果,验证了监测数据的实时性和准确性,达到了对旋转机组运行的状态信息实时监测和故障诊断的要求。相似文献

13.

Myoelectric signal classification for phoneme-based speech recognition

Scheme EJ Hudgins B Parker PA 《IEEE transactions on bio-medical engineering》2007,54(4):694-699

Traditional acoustic speech recognition accuracies have been shown to deteriorate in highly noisy environments. A secondary information source is exploited using surface myoelectric signals (MES) collected from facial articulatory muscles during speech. Words are classified at the phoneme level using a hidden Markov model (HMM) classifier. Acoustic and MES data was collected while the words "zero" through "nine" were spoken. An acoustic expert classified the 18 formative phonemes in low noise levels [signal-to-noise ratio (SNR) of 17.5 dB] with an accuracy of 99%, but deteriorated to approximately 38% under simulations with SNR approaching 0 dB. A fused acoustic-myoelectric multiexpert system, without knowledge of SNR, improved on acoustic classification results at all noise levels. A multiexpert system, incorporating SNR information, obtained accuracies of 99% at low noise levels while maintaining accuracies above 94% during low SNR (0 dB) simulations. Results improve on previous full word MES speech recognition accuracies by almost 10%. 相似文献

14.

嵌入深度信念网络的点过程模型用于关键词检出

陆俊张琼杨俊安王一刘辉《信号处理》2013,29(7):865-872

基于点过程模型的关键词检出系统是一种新颖的连续语音关键词检出系统,虽然该系统具有对样本数要求不高、计算速度快等优点,但其检出性能比较依赖于前端音素探测器的准确度,而目前广泛用于音素探测器的高斯混合模型存在表征和建模能力不强的问题。针对这一缺陷,本文提出了一种嵌入深度信念网络的点过程模型并将其应用于关键词检出,该模型采用表征能力强的深度信念网络来建立音素探测器,改进了高斯混合模型在表征能力上的不足。实验结果表明该方法能够获得比原模型更高的检出率,并且降低了计算复杂度,更适用于需要实时检测关键词的场合。相似文献

15.

一种改进的隐马尔可夫模型训练方法及其在声目标识别中的应用

刘辉杨俊安许学忠《电路与系统学报》2011,16(1):58-63

提出了一种基于最大相对界的改进隐马尔可夫模型训练方法.为解决隐马尔可夫模型的传统Baum_Welch训练算法在识别声目标时的局限以及现存区分训练算法泛化能力不足的问题,在经典隐马尔可夫模型为初始模型的基础上,定义了相对界,并通过最大化最小相对界建立一个最优化问题,用梯度下降法进行迭代求解,得到基于相对界的隐马尔可夫模型... 相似文献

16.

Hierarchical deep belief networks based point process model for keywords spotting in continuous speech

下载免费PDF全文

Yi Wang Jun‐an Yang Jun Lu Hui Liu Lun‐wu Wang 《International Journal of Communication Systems》2015,28(3):483-496

Point process model keyword spotting (KWS) system has attracted considerable attentions in the areas of keyword spotting by its capacity that can generalize from a relatively small numbers of training examples. But unfortunately, the accuracy level of the point process model is not comparable with the state‐of‐the‐art KWS systems because of the poor modeling capacity of the phoneme detector, which are based on Gaussian Mixture Models. In this paper, focus on improving the performance of detector in point process model, we propose an enhanced version of point process model, which is based on hierarchical deep belief networks (DBNs). Hierarchical DBNs are used as the phoneme detector in this system, and they combine the advantages of both the DBN and the hierarchical architecture for capturing complex statistical patterns in speech while overcoming the inherent flaws of conventional hidden Markov models and multilayer layer perceptron. Experiments results on TIMIT database show that the proposed method can yield 2% improvement. Furthermore, in the case when training examples are extremely limited, it can achieve better results over state‐of‐the‐art KWS systems. Copyright © 2013 John Wiley & Sons, Ltd. 相似文献

17.

一种目标机动意图识别方法

下载免费PDF全文

刘志刚张柯李捷《太赫兹科学与电子信息学报》2020,18(3):520-526

为了满足陆战场识别、民用目标监视等军民多用途应用中目标行为预测需求,需要基于目标位置、运动状态等信息进行推理,实现目标机动意图的有效判断。针对目标原始地理位置无法提供语义信息问题,采用模糊隶属理论构建道路网格模型,对目标的位置语义特征进行提取,并基于K最近邻法克服位置误差可能导致的位置语义错误;在位置语义建模基础上,利用隐马尔可夫模型(HMM),对目标的机动意图进行推理。最后结合机场场面监视的应用,通过仿真验证了采用位置语义建模和K最近邻方法后的行为推理相较于一般隐马尔可夫推理的准确性改善。相似文献