共查询到19条相似文献,搜索用时 109 毫秒
1.
2.
3.
当对HMM(Hidden Markov Model,隐马尔科夫模型)语音模型进行GMM(Gaussian Mixture Model,混合高斯模型)区分训练增加组件时,语音模型的识别率会随着GMM的组件增多而增加,模型的大小也会增加,这就造成了语音模型的臃肿。而在移动端使用本地语音模型进行识别时,存放一个几百兆的模型很不合适。针对上述问题,本文提出将一个GMM组件数较多的语音模型利用BIC准则压缩到指定的组件数,从而在模型大小合适的情况下尽量保证模型的识别率。实验结果表明,使用本方法进行压缩之后的语音识别率比未压缩的相同组件数的语音识别模型的识别率要高。 相似文献
4.
针对传统单一音频分割算法中存在的冗余分割点过多问题,研究了一种基于一般似然比(GLR)和贝叶斯信息准则(BIC)相结合的广播音频顺序分割算法,提出了候选跳变点潜在区域的判断准则,并给出跳变点在潜在区域的检测方法,最后对检测到的跳变点进行校验.实验结果表明,与传统的音频分割算法相比,该算法的综合性能大大提高,达到较好的分割效果. 相似文献
5.
广播语音的音频分割 总被引:1,自引:2,他引:1
本文的广播电视新闻的分割系统分为三部分:分割、分类和聚类。分割部分是采用本文提出的基于检测熵变化趋势的分割算法来检测连续语音音频信号的声学特征跳变点,从而实现不同性质的音频信号的分割。这种检测方法不同于传统的需要门限的跳变点检测方法,它是以检测一定窗长的信号内部的每一个可能的分割点所分割的两段信号的信号熵的变化趋势来检测音频信号声学特征跳变点的,可以避免由于门限的选择不当所带来的分割错误。分类部分是采用传统的基于高斯混合模型(GMM)的高斯分类器进行分类,聚类部分采用基于矢量量化(VQ)的说话人聚类算法进行说话人聚类。应用此系统分割三段30分钟的新闻,成功的实现了连续音频信号的分割,去除掉了所有的背景音乐,以较高的精度把属于同一个人的说话语音划归为一类,为广播语音的分类识别打下了良好的基础。 相似文献
6.
7.
期望最大算法是进行极大似然估计的一种有效方法,它主要用于观测数据不完全或者似然函数不是解析时的参数估计。文中提出了一种期望最大化和贝叶斯信息准则相结合的图像分割方法。首先,运用K均值方法初始化图像分布;然后,运用期望最大算法估计输入图像参数数据,图像中类的数目由贝叶斯消息准则自动确定;最后,运用最大似然标准将像素归类于最相近的类中。实验中将此方法用于对葡萄叶部病害彩色图像的分割,其结果表明此方法有效。 相似文献
8.
在文本无关的说话人确认中,训练与测试语音中信道环境的不匹配是一种说话者话路变化问题.这种不匹配会严重降低说话人确认系统的性能.为了有效解决该问题,本文提出一种基于说话者话路变化的主成分分析方法,将其应用在说话者确认中,我们将这种方法称为面向话路变化的主成分分析方法.这种方法能够与类内协方差归一化结合,进一步提高识别效果.在NIST 2006年说话者识别数据库上进行实验,证明该方法不仅在系统识别等错误率上比基线系统有了24.2%的降低,而且在计算复杂度上相对于目前传统的方法也有很大的优势. 相似文献
9.
针对梅尔频率倒谱系数(MFCC)参数在噪声环境中语音识别率下降的问题,提出了一种基于耳蜗倒谱系数(CFCC)的改进的特征参数提取方法.提取具有听觉特性的CFCC特征参数;运用改进的线性判别分析(LDA)算法对提取出的特征参数进行线性变换,得到更具有区分性的特征参数和满足隐马尔可夫模型(HMM)需要的对角化协方差矩阵;进行均值方差归一化,得到最终的特征参数.实验结果表明:提出的方法能有效地提高噪声环境中语音识别系统的识别率和鲁棒性. 相似文献
10.
11.
12.
论文针对说话人识别中语音能量变化和噪声对提取有效语音数据的影响,在传统时域语音切分算法犤1,3犦的基础上,提出了三种孤立词的精确切分算法和一种连续语音的非精确切分算法。实验表明,新算法较好地克服了语音能量变化对切分的影响,在原始语音具有较高信噪比(≥10dB)的情况下,能够切除某些短时噪声和白噪声犤2犦。 相似文献
13.
李敬阳李锐王莉王晓笛 《数据采集与处理》2017,32(1):54-61
说话人聚类是说话人分离中的一个重要过程,然而传统的以贝叶斯信息准则作为距离测度的层次聚类方式,会出现聚类误差向上传递的情况。本文提出了一种逐级算法增强处理机制。当片段之间的最小贝叶斯信息准则距离超过设定的门限值时,或者类别个数到达一定程度时,将当前聚类结果作为初始类中心,通过变分贝叶斯迭代法重新对每个类别中的片段调优,最后再依据概率线性判别分析得分门限确定说话人个数。实验表明,本文方法在美国国家标准技术署08 summed测试集上,使得“类纯度”和“说话人纯度”比传统算法都有了一定提升,且使得说话人分离整体性能相对提升了27.6%。 相似文献
14.
研究语音动态特征参数提取问题,在话者语音识别过程中,动态特征参数可以有效提高识别率.但是传统算法在其提取过程中存在大量干扰冗余信息,造成了识别率降低并带来运算速度的降低.为解决上述副作用,提出在说话人识别系统中,使用一种动态时频倒谱系数参数的方法.上述方法在不减少反应话者个体特征分布特性的前提下,可消除冗余信息并降低样本特征的维度.利用上述方法提取语音特征参数并输入混合高斯-通用背景模型进行说话人语音分类.在Matlab上仿真结果表明,动态时频倒谱系数可有效改进话者语音识别系统的识别正确率. 相似文献
15.
语音MFCC特征计算的改进算法 总被引:1,自引:0,他引:1
提出了一种计算Mel频倒谱参数(Mel frequency cepstral coefficient,MFCC)特征的改进算法,该算法采用了加权滤波器分析(Wrapped discrete Fourier transform,WDFT)技术来提高语音信号低频部分的频谱分辨率,使之更符合人类听觉系统的特性。同时还运用了加权滤波器分析(Weighted filter bank analysis,WFBA)技术,以提高MFCC的鲁棒性。对TIMIT连续语音数据库中DR1集的音素识别结果表明,本文提出的改进算法比传统MFCC算法具有更好的识别率。 相似文献
16.
本文的目的是阐明一种Mel频率倒谱参数特征的改进算法。该算法是通过线性预测的方法从语音信号中提取出残差相位,同时将残差相位与传统的MFCC相结合,并应用到语音识别系统中。该改进算法比传统的MFCC算法具有更好的识别率。 相似文献
17.
一种基于最优未知输入观测器的故障诊断方法 总被引:1,自引:0,他引:1
针对含有未知输入干扰和噪音的不确定动态系统,使用全阶未知输入观测器(Unknown input observer, UIO)来消除干扰项,实现状态估计, 结合Kalman滤波器算法来求解状态反馈矩阵,以使得输出残差信号的协方差最小,从而增强系统对噪声的鲁棒性,实现了 一种基于最优未知输入观测器的残差产生器.采用极大似然比(Generalized likelihood ratio, GLR)的方法对残差信号进行评估,通过设定的阈值来提高诊断率. 最后以风力发电机组传动系统出现加性传感器故障和乘性传感器故障为例, 进行了残差信号的仿真,仿真结果说明了该方法的有效性. 相似文献
18.
基于对话语音的与文本无关的说话人确认系统的研究 总被引:1,自引:2,他引:1
本文建立了一个基于对话语音的与文本无关的说话人确认系统,它和传统的与文本无关的说话人确认系统的关键不同在于,训练及测试语音不再只包含一个人而都是对话语音,因此需要分割出属于不同说话人的语音段,以建立说话人模型和实现最终判决。文中详细介绍了高斯混合模型-背景模型(GMM-UBM)这种说话人确认系统的框架,重点讨论了基于GLR(Generalized Likelihood Ratio)距离测度的无监督语音分割算法。最终阐述的输出评分的规整方法即ZNORM(Zero Normalization)和持续时间修正,可以使确认系统的性能提高近10%。 相似文献
19.
基于Fisher准则的自适应图像分割算法 总被引:1,自引:0,他引:1
为了克服基本遗传算法收敛性差、易早熟的问题,针对阈值分割算法的实时性和准确性的要求,基于Fisher评价函数较强的分类效果和遗传算法的强大空间搜索能力,提出了改进的自适应分割算法,引入Fisher评价准则函数作为适应度函数,运用自适应的遗传算法确定图像分割的阈值,实现二者的有效融合,获得了比较满意的结果。实验表明,通过与已有的算法进行比较,改进的算法在分割效果和寻优效率上,都有了显著的改善。证明该优化算法的正确可靠性。 相似文献