期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

崔瑞莲宋彦蒋兵戴礼荣《模式识别与人工智能》2015,28(12):1093-1099

语音段的有效表示方法存在易混淆语种和短时语音段识别率较低等问题,为满足不同时长和方言的识别要求,提出基于深度神经网络不同层的有效语音段表示方法.采用含有中间瓶颈层的深层神经网络作为前端特征提取,综合利用该网络的输出层和中间瓶颈层输出结果,得到不同形式的语音段表示并用于语种识别.在美国国家标准技术局语种识别评测2009年和2011年阿拉伯方言数据集上验证了方法的有效性. 相似文献

2.

基于听觉感知和概率神经网络的语音识别模型

张晓俊陶智顾济华赵鹤鸣施晓敏《计算机工程与应用》2007,43(19):30-31

提出了一种基于Bark子波变换和概率神经网络（PNN）的语音识别模型。利用符合人耳听觉特性的Bark滤波器组进行信号重构并提取语音特征,然后利用训练好的概率神经网络进行识别。通过训练大量语音样本来构成语音识别库,并建立综合识别系统。实验结果表明该方法与传统的LPCC/DTW和MFCC/DWT方法相比,识别率分别提高了14.9%和10.1%,达到了96.9%的识别率。相似文献

3.

关于网络语音的自动语言辨识系统研究

王洪海刘刚郭军《电脑与信息技术》2007,15(1):3-6

文章对从网络上采集的英语、德语、日语、法语、西班牙语等5个语种的语音和现有的汉语语音进行了自动语言辨识的研究,利用RASTA-PLP特征参数和贪婪期望最大算法为每个语种建立了高斯混合模型,并用多个说话人的语音进行了开集测试,讨论了网络语音和非网络语音对识别结果的影响,以及识别率与训练数据和GMM模型阶数的关系.实验结果表明,经过改进的基于声学特征的方法可以有效地应用到网络语音的自动语言辨识系统中. 相似文献

4.

改进脉冲耦合神经网络的语音识别研究

张晓俊陶智施晓敏顾济华《计算机工程与应用》2007,43(8):51-53

提出了一种改进脉冲耦合神经网络(IPCNN)实现语音识别的方法。首先利用IPCNN来快速提取语音的语谱图图像特征,然后由概率神经网络(PNN)辅助来识别语音。通过训练语音样本来构成语音识别库并建立综合识别系统。实验结果表明,本方法相对于单独使用PCNN和PNN识别率分别提高了22.7%和39.4%,达到92%的识别率。相似文献

5.

一种联合语种识别的新型大词汇量连续语音识别算法 总被引：1，自引：1，他引：0

单煜翔邓妍刘加《自动化学报》2012,38(3):366-374

提出了一种联合语种识别的新型大词汇量连续语音识别(Large vocabulary continuous speech recognition, LVCSR)算法,并构建了实时处理系统. 该算法能够充分利用语音解码过程中收集的音素识别假设,在识别语音内容的同时识别语种类别.该系统可以应用于多语种环境,不仅可以以更小的系统整体计算开销替代独立的语种识别模块,更能有效应对在同一段语音中混有非目标语种的情况,极大地减少由非目标语种引入的无意义识别错误,避免错误积累对后续识别过程的误导.为将语音内容识别和语种识别紧密整合在一个统一语音识别解码过程中,本文提出了三种不同的算法对解码产生的音素格结构进行调整(重构):一方面去除语音识别中由发音字典和语言模型引入的特定目标语种偏置,另一方面在音素格中包含更加丰富的音素识别假设.实验证明, 音素格重构算法可有效提高联合识别中语种识别的精度.在汉语为目标语种、汉英混杂的电话对话语音库上测试表明,本文提出的联合识别算法将集外语种引起的无意义识别错误减少了91.76%,纯汉字识别错误率为54.98%. 相似文献

6.

一种结合支持向量机训练的锚模型语种识别方法

常振超张兴明杨镇西张丽《小型微型计算机系统》2013,34(4)

在针对电话语音的语种识别系统中,训练语音和测试语音之间存在不同说话人的个性差异带来的干扰,是影响系统识别性能的一个重要因素.基于此,本文首先对当前语种识别系统中消除此影响的方法进行研究,对比分析它们各自的优缺点,选择将锚模型方法引入语种识别系统中,该方法将语料映射至说话人无关的锚超矩阵进而消除说话人相关信息.针对锚超矩阵的选择存在语种混淆和信息冗余等问题,本文并提出一种结合支持向量机的锚模型训练算法,该方法下得到的锚超矩阵更具语种区分性,并去除了混淆信息的影响,增强了矩阵的紧致性.实验结果表明,新方法下的锚模型映射方法能有效提高基线系统的识别性能,并降低了语种识别系统训练和识别时的计算量. 相似文献

7.

结合残差相位的MFCC特征改进算法

俸云景新幸《计算机仿真》2009,26(10):327-329,343

美尔频率倒谱参数(Mel frequency cepstral coefficient,MFCC)仿真了人耳的听觉特性,在语音识别实际应用中取得了比较高的识别率。为了更进一步完善系统以提高系统的识别率,提出一种将MFCC和残差相位相结合的方法进行语音识别。将传统的基于MFCC的语音识别效果,与基于MFCC和残差相位相结合的语音识别效果进行比较。通过在MATLAB环境下进行仿真实验得出理想结论。利用MFCC和残差相位相结合的识别率高于MFCC的系统的识别率。所提出的改进算法更好的完善了识别系统,获得了更高的语音识别率。相似文献

8.

文本图像语种识别技术

侯跃云刘立柱《计算机应用》2006,26(Z1):29-31

阐述了利用图像特征实现文本图像语种识别的基本过程.该过程分为两个步骤,即文字的识别和语种的识别,文字识别的目的是区分出亚洲文字和拉丁文字,在此基础之上分别应用不同的方法实现具体语种的识别.该方法对本文所讨论的拉丁语种的识别率都在95%以上,对亚洲语种的识别率平均在96%以上. 相似文献

9.

基于子带GMM-UBM的广播语音多语种识别 总被引：2，自引：0，他引：2

李思一戴蓓蒨王海祥《数据采集与处理》2007,22(1):14-18

提出了一种基于概率统计模型的与语言内容无关的语种识别方法,它不需要掌握各语种的专业语言学知识就可以实现几十种语言的语种识别;并针对广播语音噪声干扰大的特点,采用GMM-UBM模型作为语种模型,提高了系统的噪声鲁棒性;由于广播语音的背景噪声不是简单的全频带加性白噪声,因此本文构建了一种基于子带GMM-UBM模型的多子系统结构的语种识别系统,后端采用神经网络进行系统级融合。本文通过对37种语言及方言的识别实验,证明了子带GMM-UBM方法的有效性。相似文献

10.

一种基于层次化支持向量机的语种识别方法 总被引：2，自引：0，他引：2

雷文辉宋彦戴礼荣《小型微型计算机系统》2009,30(4)

基于广义线性区分性序列核的支持向量机方法在语种识别中了得到了广泛应用.本文此基础上,进一步提出了一种层次化的SVM方法,通过将训练语音切分成不同时长的语音段集合.利用长时语音段训练得到的模型对短时语音段集合进行数据选择.同时借鉴互训练的思想,采用互补的特征参数训练SVM模型,并对不同时长、特征的系统识别结果加以融合,有效提高了系统性能.在NIST 2003语种测试中30秒时长的测试结果表明,本文所提方法有效的提升了语种识别的性能,等错误率(EER)从6.3降到了4.5%. 相似文献

11.

基于动态贝叶斯网络的音视频连续语音识别和音素切分

吕国云蒋冬梅蒋晓悦赵荣椿侯云舒孙阿利 H. Sahli W. Verhelst 《计算机应用》2007,27(7):1670-1673

构造了两个单流单音素的动态贝叶斯网络（DBN）模型，以实现基于音频和视频特征的连续语音识别，并在描述词和对应音素具体关系的基础上，实现对音素的时间切分。实验结果表明，在基于音频特征的识别率方面：在低信噪比（0~15dB）时，DBN模型的识别率比HMM模型平均高12.79%；而纯净语音下，基于DBN模型的音素时间切分结果和三音素HMM模型的切分结果很接近。对基于视频特征的语音识别，DBN模型的识别率比HMM识别率高2.47%。实验最后还分析了音视频数据音素时间切分的异步关系，为基于多流DBN模型的音视频连续语音识别和确定音频和视频的异步关系奠定了基础。相似文献

12.

汉语语音识别中的区分性声调建模方法 总被引：1，自引：0，他引：1

下载免费PDF全文

黄浩朱杰哈力旦《计算机工程与应用》2009,45(11):178-182

提出从特征提取参数、模型参数对隐马尔可夫声调模型进行区分型训练,来提高声调识别率;提出模型相关的权重对谱特征模型和声调模型的概率进行加权,并根据最小音子错误区分性目标函数对权重进行训练,来提高声调模型加入连续语音识别时的性能。声调识别实验表明区分性的声调模型训练以及特征提取方法显著提高了声调识别率。区分性模型权重训练能够在声调模型加入之后进一步连续语音识别系统的识别率。相似文献

13.

基于HMM的安多藏语非特定人孤立词语音识别研究 总被引：1，自引：0，他引：1

韩清华于洪志《软件导刊》2010,(7):173-175

以VC＋＋6.0为开发平台,实现一个基于隐马尔可夫模型（Hidden Markov Model,简称HMM）非特定人的安多藏语孤立词语音识别系统。对有声段语音进行MFCC参数的提取,对提取后的MFCC参数进行矢量量化后训练HMM模型,形成特征模板库,最后进行识别。根据安多藏语的特点,改进端点检测的方法,提高了孤立词语音信号检测的准确性,并进一步提高了识别率。相似文献

14.

一种基于数据融合的多话筒语音识别方法

赵以宝王祁聂伟孙圣和《计算机研究与发展》1999,36(9):1148-1152

识别率和对环境的适应能力是一个语音识别系统的两个重要性能,常见的提高语音识别率的方法大多通过改进声音模型来获得较高的识别率,这往往造成声音模型的复杂化以及模型训练的困难。另外,在说话人和麦克风位置不固定等情况下,这些方法识别效果往往很差。文中提出了一种用多话筒分别识别一个语音,并用数据融合技术对识别结果进行处理的语音识别方法。初步的实验结果表明该方法不仅可以提高系统对环境的适应能力,而且在单个声音相似文献

15.

基于HTK的维吾尔语连续音素识别技术研究

米日古力·阿布都热素米吉提·阿不力米提艾克白尔·帕塔尔艾斯卡尔·艾木都拉《计算机工程与应用》2013,(22):150-154,172

以建立维吾尔语连续音素识别基础平台为目标,在HTK（基于隐马尔可夫模型的工具箱）的基础上,首次研究了其语言相关环节的几项关键技术;结合维吾尔语的语言特征,完成了用于语言模型建立和语音语料库建设的维吾尔语基础文本设计;根据具体技术指标,录制了较大规模语音语料库;确定音素作为基元,训练了维吾尔语声学模型;在基于字母的N-gram语言模型下,得出了从语音句子向字母序列句子的识别结果;统计了维吾尔语32个音素的识别率,给出了容易混淆的音素及其根源分析,为进一步提高识别率奠定了基础。相似文献

16.

区分性锚模型应用于语种识别的研究

下载免费PDF全文

聂智良张兴明杨镇西张丽《计算机工程》2012,38(3):172-175

在语种识别领域,语音所含说话人的差异会影响系统识别性能。基于此,对能够实现说话人无关的锚模型进行研究。根据其在语种识别中的应用原理,结合快速区分性训练思想,提出一种语种区分性的锚模型训练算法。实验结果表明,锚模型的引入能提高系统识别性能,加入语种区分性的锚模型能进一步降低系统等错误率。相似文献

17.

电动汽车充电平台智能语音识别技术及数据挖掘

李强黄焘彭科程旭《自动化与仪表》2022,(1)

针对现有技术中电动汽车充电平台智能语音识别能力差的问题,设计了新型的电动汽车充电平台,该系统平台包括计算机网络终端、电网调度中心以及充电桩等,能够实现上层管理中心的语音识别,电路包括语音采集模块、语音辨别模块和控制驱动模块等,设计出基于UniSpeech-SDA80D51芯片的语音识别电路,提高了语音识别能力,并构建出隐马尔可夫模型(hidden Markov model,HMM)和人工神经元网络(artificial neural network,ANN)相融合的模型,实现了智能语音识别数据信息的挖掘与处理,进而增强了语音识别系统的性能。试验表明,该研究在不同噪音下的识别率,其中在20 dB的噪音下识别率为88.3%。该方法提高了语音识别和挖掘能力。相似文献

18.

基于词组的语音识别模型研究

陈凤良彭声泽《计算机光盘软件与应用》2011,(14)

本文在简单介绍三种词组语音识别模型后,提出了采用离散隐马尔柯夫模型（DHMM）来构建语音识别系统,并在此基础上引入矢量量化（VQ）模块来保证识别率和识别速度,具有良好的实用性相似文献

19.

基于核Fisher判别的分类器算法及其在语种识别中的应用研究

李晋徽杨俊安项要杰《计算机科学》2013,40(10):257-260

GMM与SVM的建模和识别性能具有较好的互补性,因此GMM-SVM在语种识别中得到广泛使用,以其为基础的GMM-MMI-SVM已成为语种识别的主流研究方法.但是SVM在判别时仅仅使用了训练样本中的一些特殊样本即支持向量,并没有使用全部样本,从而影响了系统识别性能的进一步提高.针对上述问题,提出一种基于核Fisher判别的分类算法-GMM-MMI-KFD.该算法的核心思想是用核Fisher准则(KFD)替代SVM分类准则,从语音片段中提取出特征向量序列,分别通过GMM-MMI分类器与GMM-KFD分类器进行判决打分.相对SVM,KFD更注重语音数据非线性分布的特点,并且将样本向高维空间H上投影后可以最大限度地增大类间距,减小类内距.实验数据表明,GMM-MMI-KFD方法在语种识别中具有更高的识别率. 相似文献

20.

基于FMFCC和HMM的说话人识别 总被引：2，自引：0，他引：2

张永亮张先庭鲁宇明《计算机仿真》2010,27(5):352-354,358

美尔频率倒谱系数(MFCC)是说话人识别中常用的特征参数,而语音信号是非平稳信号,MFCC并不能很好的反映语音的时频特性。针对这一缺陷,为了提高说话人的识别率,结合新的时频分析工具分数傅立叶变换(FRFT)。将MFCC推广到分数形式,得到分数美尔频率倒谱系数(FMFCC),用以表征语音信号的特征;并利用可分性测度验证了特征参数的有效性;通过建立20个不同说话人的FMFCC特征库,采用隐马尔可夫模型(HMM)对说话人进行仿真识别。仿真结果表明,在合适的变换阶次下,说话人的平均识别率可达93%以上。相似文献