共查询到20条相似文献,搜索用时 62 毫秒
1.
本文针对线性模型在语音识别中的不足,进行了隐马尔可夫模型(HMM)在语音单字识别中的研究,主要对观察输出概率求解、最佳状态序列寻找、参数估计和模型参数的选择进行了探讨。 相似文献
2.
介绍一种实时语音识别系统,对语音识别系统的硬件组成及软件技术进行了分析,所开发的系统具有较高的识别精度,有较为广阔的应用前景。 相似文献
3.
提示方法是利用预训练语言模型的一种有效技术,只需要少量的示例就可以使用语言模型进行一个新的自然语言任务。文章提出了一种新的基于提示方法和知识蒸馏方法的语音识别模型(SpokenPrompt-KD模型)。该模型利用Wav2Vec模型将语音转化为预训练语言模型可识别的文本嵌入形式,从而将语言模型的小样本学习能力拓展到语音识别领域,同时通过知识蒸馏方法将教师语言模型中的知识传递给学生语音模型,以提高模型在语音理解任务上的准确性。实验结果表明,在100 h的数据集上进行预训练后,模型在分类任务上的准确率可以达到88.4%,证明了这种小样本学习能力的模型在语音识别领域是可行的、有效的。
相似文献4.
最大互信息用于语音识别 总被引:3,自引:0,他引:3
张春涛 《北京邮电大学学报》1998,21(3):82-85
将最大互信息理论用于语音识别,最大互信息估计作为目标函数。在隐马尔可夫模型参数调整过程中运用了泛化概率下降方法,保证了统计意义上实现目标函数的优化。最大互信息估计用于连接数字语音识别,识别率得到了提高。 相似文献
5.
对凌阳科技公司新款推出的SPCE061A处理芯片进行了简要的介绍,分析了该芯片作为语音处理核心平台的功能,着重从硬件的设计扩展、软件设计流程的架构等方面,对利用该芯片开发具有语音识别功能控制器的方法进行了探讨。 相似文献
6.
利用Nuance和jTTS语音合成技术,将用户通过电话输入的特定语音转换成机器人指令,通过网络实时传输到远程机器人端,机器人控制端接收到命令,通过对命令的判断,做出相应的动作,从而实现对机器人的远程控制,该系统还可以通过网络视频软件将机器人现场视频画面实时采集、传输和在本地播放. 相似文献
7.
从Nuance语音平台工作流程、开发工具、开发过程等方面,对基于Nuance平台的语音识别环境设计进行了阐述和探讨,并重点阐述了主体代码及几个重要组成文件的作用和编写过程. 相似文献
8.
本文介绍了一种以ARMA倒谱系数为语音识别特证参数的快速递推算法,并给出了实验结果,证明它优于LPC倒谱,是语音识别中一种新的有效方法。 相似文献
9.
一种基于MASM的口形轮廓特征提取方法及听视觉语音识别 总被引:1,自引:0,他引:1
提出了一种用于听视觉语音识别的基于MASM的口形轮廓提取方法,这种方法只需要少量的训练数据就可以实现对大量口形轮廓的准确提取。还引入了一种口形轮廓的平滑修正方法,该方法利用口形连续变化的特点,对错误轮廓进行修正。实验证明,利用该方法提取轮廓的准确率比常规ASM模型高出20个百分点;将该口形轮廓特征引入到听视觉语音识别中,可以有效地提高噪音环境下的识别率。 相似文献
10.
在实验中发现,某些带调三音子的训练数据稀疏会引起识别错误率的上升,为了在一定程度上减少这种影响,提出了使用其无调三音子的模型参数对有调三音子进行初始化。此外还调整了决策树状态捆绑的停止门限,并且采用了混合度分量的自适应增长训练。在863语音库上的实验结果表明,所有这些获得了一定的音子识别性能提高,同时也一定程度上压缩了声学模型大小。 相似文献
11.
针对目前语音语料人工标注效率低的问题,提出了一种朝鲜语连续语音语料的音节自动切分方法.该方法首先采用Seneff听觉模型提取音频的包络检测响应和广义同步检测响应等特征参数,其次结合朝鲜语发音特点确定音节的候选边界位置,最后通过静音段和摩擦音检测消除虚假边界,以提高边界检测的准确率.实验结果表明,该朝鲜语语音语料音节自动切分方法的准确率(93.56%)比传统的基于Seneff听觉模型的分割算法提高了14.59%,召回率(86.43%)比传统的基于Seneff听觉模型的分割算法降低了1.69%; 因此,本文算法总体优于传统的基于Seneff听觉模型的分割算法. 相似文献
12.
叶虹 《浙江工业大学学报》2006,34(4):433-435
仿生模式识别基本原理应用到非特定人连续语音识别中,在构建语音模型时,将高维空间点覆盖的理论应用到非特定人的连续语音识别的学习过程中,在识别时,采用高维空间覆盖动态搜索的方法,对连续语音进行动态搜索,这样就可以避免因分割错误而带来的错误识别.通过实验得到了较为满意的识别结果。 相似文献
13.
提出了一种基于平均路径长度的语音识别算法.采用的识别方法属于小词汇量孤立词语音识别,主要包括端点检测、特征提取和模式识别.首先,在对语音信号预处理的基础上,采用梅尔频率倒谱系数(MFCC)为特征参数提取算法,动态时间规整(DTW)作为识别算法;然后,结合基于平均路径长度的模板训练方法,即采用少量样本,通过计算平均路径长... 相似文献
14.
为解决少样本朝鲜语古籍文字识别精度低的问题,提出了一种基于迁移学习的少样本文字识别方法.首先提出了一种结合传统数据增强和条件深度卷积生成对抗网络的数据增强方法,以此扩充朝鲜语古籍文字图像的训练样本数.其次,将富样本集预训练得到的模型迁移到少样本数据集的学习任务中,以此实现少样本的朝鲜语古籍文字识别.实验结果表明,提出的数据增强方法能够满足模型预训练和少样本的学习要求,且VGG16、ResNet18和ResNet50 3种网络模型在测试集上均获得良好的识别性能,其中ResNet50的识别准确率最高(99.72%).因此,该方法可有效解决小样本的朝鲜语古籍文字识别问题,并可为其他语种的小样本文字识别提供参考. 相似文献
15.
基于小波变换的静音与语音分割新算法 总被引:6,自引:1,他引:6
含噪语音信号的静音与语音分割,即端点检测问题是语音识别至关重要 的一步,为了提高语音分割对环境的适应性,提出了一种利用小波变换分割含噪语音信号中静音与语音的新算法,该算法首先将语音信号进行小波变换,利用小波系数去噪,然后选择小波部分子带跟踪信号的能量变化以分割语音与静音,仿真实验表明该算法在低信噪比条件下也能够有效分割语音。 相似文献
16.
湖南省内生矿产资源丰富,内生成矿事件主要有加里东期(以志留纪为主)、印支晚期(晚三叠世)、燕山中晚期(晚侏罗世—早白垩世)等3期。以区域矿产资料为基础,结合大地构造、成岩成矿年龄、矿床成因机制等研究成果,对上述3期内生成矿事件的构造格局控矿特征和动力机制进行探讨。①受加里东运动自东南向西北扩展以及深部岩石圈结构差异控制,加里东期湖南省自东南往西北分为成矿特征有别的3个构造带。湘中—湘东南构造岩浆带(Ⅰ)发生后碰撞花岗质岩浆活动,于局部产生与岩浆活动相关的W、萤石等成矿作用; 雪峰构造带(Ⅱ)东部的雪峰冲断带(Ⅱ1)形成了以构造活化成因为主的金矿和锑金矿; 雪峰构造带(Ⅱ)西部的武陵低缓褶皱带(Ⅱ2)及湘西北构造抬升带(Ⅲ)内形成了与寒武纪同沉积断裂活动、加里东运动后的伸展活动以及相应的热液活动有关的汞铅锌矿。②印支晚期受深部岩石圈结构差异控制,湖南省自东南至西北分为3个构造带:湘中—湘东南构造岩浆带(Ⅰ)因后碰撞减压熔融而发生大规模花岗质岩浆活动,从而于其东南部形成钨锡铅锌多金属矿床,西北部形成锑金钨多金属矿床; 雪峰构造带(Ⅱ)可能无内生热液成矿作用; 湘西北褶皱带(Ⅲ)发育小型脉型铅锌矿。③燕山中晚期,湖南省自东南往西北分为3个构造带:湘中—湘东构造岩浆带(Ⅰ)受岩石圈拆沉、软流圈上隆、陆内碰撞后期增温减压、俯冲板块崩塌等深部构造作用控制而发生大规模花岗质岩浆活动,形成了大量的有色金属矿床和金矿床; 雪峰西部构造带(Ⅱ)成矿作用弱,局部存在Au、Hg成矿作用; 湘西北褶皱带(Ⅲ)发育少量低温热液充填型萤石矿和砷矿。 相似文献
17.
针对语音识别中的加性噪声进行研究,提出了动态自适应多模板谱减法和多模板谱加训练补偿法。动态自适应多模板谱减法和噪声动态自适应方法的有效结合,使谱减法既能适应环境中存在多种噪声的情况,又能有效利用当前得到的噪声环境信息。而多模板谱补偿法从谱减法的逆向角度,并基于多模式训练的思想,有效地使模板适应多种噪声情况,该方法不增加识别时的运算量,有利于考虑噪声的各种复杂情况。 相似文献
18.
分析汉语普通话发音的29个基本音素,对m,n,l等3个音素的发音进行改造,形成了由16个定口型音和13个动口型音组成的音素体系,有助于减轻非母语系者学习中文及智障人士语音识别的学习负担. 相似文献
19.
This paper focuses on acoustic features that effectively improve the recognition of emotion in human speech. The novel features
in this paper are based on spectral-based entropy parameters such as fast Fourier transform (FFT) spectral entropy, delta
FFT spectral entropy, Mel-frequency filter bank (MFB) spectral entropy, and Delta MFB spectral entropy. Spectral-based entropy
features are simple. They reflect frequency characteristic and changing characteristic in frequency of speech. We implement
an emotion rejection module using the probability distribution of recognized-scores and rejected-scores. This reduces the
false recognition rate to improve overall performance. Recognized-scores and rejected-scores refer to probabilities of recognized
and rejected emotion recognition results, respectively. These scores are first obtained from a pattern recognition procedure.
The pattern recognition phase uses the Gaussian mixture model (GMM). We classify the four emotional states as anger, sadness,
happiness and neutrality. The proposed method is evaluated using 45 sentences in each emotion for 30 subjects, 15 males and
15 females. Experimental results show that the proposed method is superior to the existing emotion recognition methods based
on GMM using energy, Zero Crossing Rate (ZCR), linear prediction coefficient (LPC), and pitch parameters. We demonstrate the
effectiveness of the proposed approach. One of the proposed features, combined MFB and delta MFB spectral entropy improves
performance approximately 10% compared to the existing feature parameters for speech emotion recognition methods. We demonstrate
a 4% performance improvement in the applied emotion rejection with low confidence score.
Supported by MIC, Korea under ITRC IITA-2009-(C1090-0902-0046) and the Korea Science and Engineering Foundation (KOSEF) funded
by the Korea government (MEST) (Grant No. 20090058909) 相似文献
20.
Mel谱失真测度是一种弯折频率谱失真测度,用Mel频率尺度可较充分地反映人耳对频率及幅度的非线性感知特性,以及人耳在听到复杂声音时所表现的频率分析和谱合成特性。本文针对孤立词语音识别,对常规LPC倒谱特征提取方法进行改进,即将LPC倒谱按符合人耳听觉特性的Mel尺度进行非线性变化,得到LPC Mel倒谱系数(LPCMCC)作为特征参数。识别网络使用RBF神经网络,进行了孤立词语音识别。实验结果表明此种方法抗噪性能好,识别效果高。 相似文献