共查询到20条相似文献,搜索用时 63 毫秒
1.
2.
为实现音视频语音识别和同时对音频视频流进行准确的音素切分,该文提出一个新的多流异步三音素动态贝叶斯网络(MM-ADBN-TRI)模型,在词级别上描述了音频视频流的异步性,音频流和视频流都采用了词-三音素-状态-观测向量的层次结构,识别基元是三音素,描述了连续语音中的协同发音现象.实验结果表明:该模型在音视频语音识别和对音频视频流的音素切分方面,以及在确定音视频流的异步关系上,都具备较好的性能. 相似文献
3.
4.
5.
语音识别是人杌通信技术的基础之一,目前正广泛应用于控制、通信、消费等行业.介绍一种基于DSP的孤立词语音识别系统.对以TMS320VC5402芯片为核心的系统硬件设计进行了研究,通过TLC320AD50C对语音信号进行A/D转换,通过TMS30VC5402对语音信号进行训练和识别,并由LCD显示结果;该系统核心识别算法采用动态时间规整(DTW)算法.主要流程包括预处理、端点检测、提取特征值、模式匹配和模板训练,取得了很好的识别效果.所做的研究工作,是为汉语孤立词语音识别进入商业化进行有效的探索. 相似文献
6.
语音识别作为一种人机交互技术,有着十分广泛的应用。介绍一种基于具有DSP(数字信号处理器)功能的凌阳单片机的语音识别系统设计,它能完成针对特定人的若干命令(特定的孤立词)的语音识别。本设计在具体实践时,以汉语言的短命令为识别对象,体现汉语音特征;在系统软件和硬件设计上强调简单实用的特点,简化系统结构,增强控制能力。文中介绍的方法克服了使用DSP芯片建立同样系统时的一些不足,如设计繁琐、价格高、控制不够灵活等。 相似文献
7.
语音识别是人机交互的一种重要技术手段。根据实际需要和应用场合的不同,语音识别可以分为孤立词识别和连续语音识别、特定人识别和非特定人识别。语音识别追求的主要指标为高识别率、实时性和大词汇量. 相似文献
8.
9.
基于TMS320C54x DSP的实时语音识别系统 总被引:6,自引:0,他引:6
介绍一个非特定人、小词汇表、孤立词的语音识别系统,它采用基于隐马尔可夫随机模型(HMM)的语音信号端点检测方法和基于VQ/HMM的自学习语音识别算法,同时以高速的TMS320C54xDSP芯片为核心进行硬件设计,实现语音的实时识别。 相似文献
10.
语音识别作为信息技术中一种人机接口的关键技术,具有重要的研究意义和广泛的应用价值。介绍了语音识别技术发展的历程,具体阐述了语音识别概念、基本原理、声学建模方法等基本知识,并对语音识别技术在各领域的应用作了简要介绍。 相似文献
11.
隐马尔可夫模型(HMM)已成为语音识别中的主流技术,首先介绍了语音识别技术的原理和结构,然后介绍了HMM的三个基本问题及其解决方法,最后利用Matlab仿真工具设计了一个孤立词的语音识别系统,实现了数字0~9的识别. 相似文献
12.
介绍一个非特定人、小词汇表、孤立词的语音识别系统,它采用基于隐马尔可夫随机模型(HMM)的语音信号端点检测方法和基于VQIHMM的自学习语音识别算法,同时以高速的TMS320C54X DSP芯片为核心进行硬件设计,实现语音的实时识别。 相似文献
13.
汉语连续语音识别中不同基元声学模型的复合 总被引:1,自引:0,他引:1
该文研究由不同声学基元训练的声学模型的复合。在汉语连续语音识别中,流行的基元包括上下文相关的声韵母基元和音素基元。实验发现,有些汉语音节在声韵母模型下有更高的识别率,有些音节在音素模型下有更高的识别率。该文提出一种复合这两种声学模型的方法,一方面在识别过程中同时使用两种模型,另一方面在识别过程中避开造成低识别率的模型。实验表明,采用本文的方法后,音节错误率比音素模型和声韵母模型分别下降了9.60%和6.10%。 相似文献
14.
结合维吾尔语的语音特征和语义信息,在大量电话语音语料库的基础上,以建立维吾尔语连续音素识别平台为目标,通过构建隐马尔科夫模型工具HTK(Hidden Markov Model Toolkit)工具实现了维吾尔语连续音素识别算法:首先根据具体技术指标完成了较大规模电话语音语料库的录制和标注工作;确定音素为基元,通过训练获得了每个音素的HMM(Hidden Markov Model)声学模型,随后对输入的语音进行识别,声学模型在不同的高斯混合数目下,得出了识别结果;统计了32个音素的识别率并对它进行分析,为了进一步提高识别率奠定了基础。 相似文献
15.
随着大词汇量连续语音识别技术的发展,越来越多的研究人员选取声韵母作为识别单元。在基于声韵母的汉语连续语音识别中,声韵母基元的准确分割是非常重要的一步。结合汉语发音声学特性,提出了基于声母分割方法和基于段间距离方法相结合的策略。实验结果表明:该方法达到了准确分割的目的。 相似文献
16.
17.
为了解决传统氦语音处理技术存在的处理速度慢、计算复杂、操作困难等问题,提出了一种采用机器学习的氦语音识别方法,通过深层网络学习高维信息、提取多种特征,不但解决了过拟合问题,同时也具备了字错率(Word Error Rate,WER)低、收敛速度快的优点。首先自建氦语音孤立词和连续氦语音数据库,对氦语音数据预处理,提取的语音特征主要包括共振峰特征、基音周期特征和FBank(Filter Bank)特征。之后将语音特征输入到由深度卷积神经网络(Deep Convolutional Neural Network,DCNN)和连接时序分类(Connectionist Temporal Classification,CTC)组成的声学模型进行语音到拼音的建模,最后应用Transformer语言模型得到汉字输出。提取共振峰特征、基音周期特征和FBank特征的氦语音孤立词识别模型相比于仅提取FBank特征的识别模型的WER降低了7.91%,连续氦语音识别模型的WER降低了14.95%。氦语音孤立词识别模型的最优WER为1.53%,连续氦语音识别模型的最优WER为36.89%。结果表明,所提方法可有效识别氦语音。 相似文献
18.
19.
研究了一种以凌阳SPCE061A单片机为基础的非特定人语音识别技术.介绍了硬件平台的构成,重点分析了非特定人语音识别过程的基本原理及相关算法,从软件设计角度具体阐述了语音识别在该单片机上的实现过程.最后,成功地对步进电机应用了这种语音识别技术,取得了预期的控制效果. 相似文献