期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张玲华郑宝玉杨震《电子与信息学报》2006,28(10):1786-1789

通过对纯净语音及含噪语音短时谱的分析比较,提出了一种基于基音频率及其谐波结构的新的语音特征参数。实验表明,与传统的倒谱特征相比,新特征对加性白噪声相对较不敏感,在闭集文本无关说话人识别中,新特征可以在加性白高斯噪声环境下提高系统的说话人识别率。相似文献

2.

计算机语音信号处理与语音识别系统 总被引：5，自引：0，他引：5

朱学芳徐建平《南京邮电学院学报(自然科学版)》1998,18(5):113-119

对计算机语音处理和对单个数码字识别的实现进行了探讨。根据汉语语音的特点，以汉语单音字作为识别对象，对１０个数码字识别进行了研究和实验。通过观察和分析语音信号的时域特性（主要是短时帧能量、短时过零率和帧能量差），并把它们应用于语音端点检测，为系统的建立做了基础准备。选用了语音信号的功率谱差的特征，进行了模板的建立与识别实验。测试结果表明，该系统性能较稳定，单个数码字识别率可达９８．６％，说话人识别率相似文献

3.

基于VQ的说话人识别技术研究

檀蕊莲《信息技术》2010,34(8):103-104

说话人识别是语音识别的一种特殊方式,其目的不是识别语音内容,而是识别说话人是谁,即从语音信号中提取个人特征。采用矢量量化（VQ）可避免困难的语音分段问题和时间归整问题,且作为一种数据压缩手段可大大减少系统所需的数据存储量。通过说话人识别相关技术的研究,提出并设计了一个基于VQ的说话人识别系统,实验证明,当用于训练的数据量较小时,可以得到比较稳定的识别性能。相似文献

4.

有效频带多分辨率特征提取及说话人年龄识别

下载免费PDF全文

杜先娜俞一彪《信号处理》2016,32(9):1101-1107

针对文本无关非特定说话人年龄识别,本文提出了一种基于有效频带多分辨率特征的统计分析识别方法。输入语音,通过小波包变换进行有效频带分解,然后将各有效频带的小波包系数连接构成一个整体计算美尔频率倒谱系数,得到有效频带多分辨率特征参数WPMFC（Wavelet Packet Mel-Frequency Cepstrum）,说话人按年龄划分为儿童、青年、中年和老年四个阶段,并进一步按性别训练各年龄段语音得到8个高斯混合模型。测试语音依据最大似然准则进行识别判决。实验对本文提出的方法与传统的短时谱统计分析方法进行了比较,结果显示本文提出的方法有较好的识别性能,集内平均识别率达到65.17%。同时,实验结果也说明相对语音文本变化的影响,不同说话人发音特征的变化对识别性能的影响更大。相似文献

5.

一种改进的基于倒谱特征的带噪语音端点检测方法 总被引：3，自引：0，他引：3

沈红丽曾毓敏王鹏《通信技术》2009,42(2):156-158

环境噪声是语音识别和说话人识别性能下降的原因之一,端点检测作为其关键技术之一,性能优劣在某种程度上决定了识别率的高低。文章提出一种改进的基于倒谱特征的带噪语音端点检测方法。在传统基于倒谱距离的算法基础上,该算法进一步综合利用短时过零率和短时能量作为最终判决的门限。实验结果表明,该方法计算效率较高,低信噪比下有较好的检测性能。相似文献

6.

基于FVQ的说话人识别系统的DSP实现 总被引：5，自引：3，他引：2

余华赵力吴镇扬《电声技术》2004,(8):35-37

运用TMS320C5416实现了说话人自动识别系统，系统利用一种新的语音信号r阶的倒谱线性回归系数等参数构成识别的特征矢量集，运用模糊矢量量化技术实现了与文本有关的说话人识别。实验结果表明系统具有识别精度高、识别速度快等特点，是一种有效的说话人自动识别的硬件实现方法。相似文献

7.

基于改进GMM和韵律联合短时谱的说话人转换

张炳俞一彪《信号处理》2009,25(4)

提出了一种基于改进GMM模型和韵律联合短时谱的说话人转换方法.通过在训练阶段引入改进的GMM模型,克服传统GMM模型造成的转换语音过平滑现象,并将线谱对频率LSF和基音频率联合起来组成韵律联合短时谱,更准确地刻画说话人的短时频域特征和声腔的共振特性.实验表明,这种方法能够有效地捕捉说话人的个性化特征和韵律特征.另外,在保证变换语音目标倾向性的同时,一定程度上克服了过平滑现象,提高了变换语音的音质. 相似文献

8.

一种基于卷积神经网络的端到端语音分离方法

下载免费PDF全文

范存航刘斌陶建华温正棋易江燕《信号处理》2019,35(4):542-548

大部分的语音分离系统仅仅增强混合的幅值谱（短时傅里叶变换的系数），但是对于相位谱却不做任何处理。然而，最近的研究表明相位信息对于语音分离的质量起着很重要的作用。为了同时利用幅值和相位信息，本文提出了一种有效的端到端分离方法。这种方法是直接利用原始语音波行点作为特征，是一种基于编解码器的卷积神经网络结构。跟其他的说话人独立的语音分离系统不同，本文提出的方法其神经网络只输出一个说话人的信号，其他的语音可以由混合语音与网络输出信号的差值获得。我们在TIMIT数据集上验证本文提出的方法。实验结果表明，本文提出的方法明显优于句子级别的排列不变性训练(uPIT)基线方法，对于信号失真比(SDR)相对提高了16.06%。相似文献

9.

听觉特性和语谱特性在说话人识别中的应用 总被引：1，自引：1，他引：0

王红玲张飞云《电声技术》2009,33(6):57-59

大多数说话人识别系统当由实验室走向实际应用时,环境噪声的存在会造成其识别性能下降。为了提高噪声环境下说话人识别系统的识别性能,将基于听觉特性和语谱特性的语音增强技术作为预处理器,首先对语音信号进行降噪处理,提高输入信号的信噪比。实验证明,经过降噪处理的语音信号送入说话人识别系统,提高了系统的识别性能。相似文献

10.

语音信号的加权mel倒谱分析 总被引：1，自引：0，他引：1

黄德智杨鸿武蔡莲红《信号处理》2006,22(6):840-843

本文利用人耳的感知特性,提出了加权mel倒谱系数,并建立了相应的分析算法。实验结果表明,该系数不仅能够准确地刻画说话人声道的短时特征,还能用来重建出高质量的语音。因此加权mel倒谱分析不仅能够应用于语音识别和说话人识别,还能应用于语音编码和参数合成。相似文献

11.

闪电AR谱的多重分形特性分析及放电类型的识别

火元莲张健安娅琦《光电子．激光》2023,34(12):1313-1320

对闪电时域波形的分形研究由于忽略了其频率特性,致使复杂多变的闪电过程的全部特性无法得到充分表征。针对此问题,本文将多重分形理论引入到现代谱估计中,提出了一种基于AR(auto-regressive)谱的闪电电场信号的多重分形特性分析及放电类型的识别方法。首先基于AR模型谱估计法获得闪电电场信号的功率谱,然后,通过多重分形去趋势波动分析(multifractal detrended fluctuation analysis,MF-DFA) 法验证了闪电AR谱序列具有多重分形特性,并进一步对AR谱序列的Hurst指数以及多重分形谱进行了讨论,最后将相关参数作为闪电信号的有效特征值输入支持向量机进行了云闪(intracloud lightning) 和地闪(cloud-to-ground lightning,CG) 不同放电类型的识别。实验结果表明,本文方法对云、地闪信号的有效识别率达到了94%以上,该研究成果对闪电的特性研究与自动化识别技术均具有一定的参考价值。相似文献

12.

一种基于非线性特征的应力影响下变异语音识别方法 总被引：2，自引：1，他引：1

王玉伟张磊韩纪庆《信号处理》2002,18(5):484-486

考虑到变异语音产生的非线性特点,本文提出了一种基于TEO能量算子倒谱特征的应力影响下变异语音识别方法。先将语音信号分割成21个不同频带的信号,然后计算TEO能量,最后进行对数运算和离散余弦变换。对航空模拟飞行器中采集的小词表特定人的识别实验,采用非线性分析的基于TEO能量算子倒谱特征的方法,能有效地提高变异语音的识别性能,比传统的基于MFCC特征的方法识别率提高了11.3％。相似文献

13.

Feature classification criterion for missing features mask estimation in robust speaker recognition

Dayana Ribas González José Ramón Calvo de Lara 《Signal, Image and Video Processing》2014,8(2):365-375

Currently, many speaker recognition applications must handle speech corrupted by environmental additive noise without having a priori knowledge about the characteristics of noise. Some previous works in speaker recognition have used the missing feature (MF) approach to compensate for noise. In most of those applications, the spectral reliability decision step is performed using the signal to noise ratio (SNR) criterion, which attempts to directly measure the relative signal to noise energy at each frequency. An alternative approach to spectral data reliability has been used with some success in the MF approach to speech recognition. Here, we compare the use of this new criterion with the SNR criterion for MF mask estimation in speaker recognition. The new reliability decision is based on the extraction and analysis of several spectro-temporal features from across the entire speech frame, but not across the time, which highlight the differences between spectral regions dominated by speech and by noise. We call it the feature classification (FC) criterion. It uses several spectral features to establish spectrogram reliability unlike SNR criterion that relies only in one feature: SNR. We evaluated our proposal through speaker verification experiments, in Ahumada speech database corrupted by different types of noise at various SNR levels. Experiments demonstrated that the FC criterion achieves considerably better recognition accuracy than the SNR criterion in the speaker verification tasks tested. 相似文献

14.

Filtering of Filter‐Bank Energies for Robust Speech Recognition

Ho‐Young Jung 《ETRI Journal》2004,26(3):273-276

We propose a novel feature processing technique which can provide a cepstral liftering effect in the log‐spectral domain. Cepstral liftering aims at the equalization of variance of cepstral coefficients for the distance‐based speech recognizer, and as a result, provides the robustness for additive noise and speaker variability. However, in the popular hidden Markov model based framework, cepstral liftering has no effect in recognition performance. We derive a filtering method in log‐spectral domain corresponding to the cepstral liftering. The proposed method performs a high‐pass filtering based on the decorrelation of filter‐bank energies. We show that in noisy speech recognition, the proposed method reduces the error rate by 52.7% to conventional feature. 相似文献

15.

倒谱域特征分量置信度分析及说话人识别应用

薛峰俞一彪《信号处理》2010,26(1):127-131

缺失数据理论的置信度分析用于说话人识别时,使用的是滤波器组语音特征,虽然系统的鲁棒性可以提高,但整体的误识率依然很高。为了进一步降低系统的误识率,本文在滤波器组语音特征分量置信度的基础上,提出了一种用于计算倒谱域特征MFCC各维分量置信度的方法CBTM,该方法通过一个置信度变换矩阵,估算出经过Mel谱减法处理后的MFCC各维分量的置信度,在此基础上通过对GMM模型的方差加权来减少置信度小的特征分量对输出概率的影响,以此来提高系统的鲁棒性。在基于SUDA2002语料库的说话人辨认实验中,上述方法对NoiseX 92噪声库中的white、pink、factory1噪声表现出了比传统方法更低的误识率,说明了这种方法的有效性。相似文献

16.

频率估计的一种多段同频正弦信号频谱相关算法

肖玮涂亚庆刘良兵莫正军《电子与信息学报》2012,34(3):564-570

为提高低信噪比条件下正弦信号的频率估计精度,针对多段同频正弦信号,该文提出一种基于频谱相关的频率估计算法。首先,构造加权因子对多段同频正弦信号频谱进行加权积累,得到最优加权积累频谱;然后,将多段同频正弦信号的最优加权积累频谱和累加频谱进行相关运算,得到频谱相关谱;最后,谱峰搜索频谱相关谱,实现频率的精确估计。模拟结果验证了该文算法的有效性。相似文献

17.

一种改进的模糊C-均值聚类算法在说话人识别中的应用 总被引：3，自引：0，他引：3

杨彦赵力《电声技术》2006,(1):40-43

提出了一种将改进的FCM聚类算法与矢量量化相结合的说话人识别的方法。先从语音信号中提取待识别的特征矢量集,再利用矢量量化来设计码本,最后用改进的算法对待识别语音进行辩识。该算法解决了FCM算法对初始值敏感、易陷入局部最优的问题。所使用的特征参数较少,计算比较简单,但识别率较高,且具有较好的鲁棒性。相似文献

18.

Intra‐ and Inter‐frame Features for Automatic Speech Recognition

Sung Joo Lee Byung Ok Kang Hoon Chung Yunkeun Lee 《ETRI Journal》2014,36(3):514-517

In this paper, alternative dynamic features for speech recognition are proposed. The goal of this work is to improve speech recognition accuracy by deriving the representation of distinctive dynamic characteristics from a speech spectrum. This work was inspired by two temporal dynamics of a speech signal. One is the highly non‐stationary nature of speech, and the other is the inter‐frame change of a speech spectrum. We adopt the use of a sub‐frame spectrum analyzer to capture very rapid spectral changes within a speech analysis frame. In addition, we attempt to measure spectral fluctuations of a more complex manner as opposed to traditional dynamic features such as delta or double‐delta. To evaluate the proposed features, speech recognition tests over smartphone environments were conducted. The experimental results show that the feature streams simply combined with the proposed features are effective for an improvement in the recognition accuracy of a hidden Markov model–based speech recognizer. 相似文献

19.

一种敌我识别辐射源暂态信号指纹特征提取方法

吕敏《电讯技术》2020,60(7)

信号的指纹特征是辐射源个体识别的重要依据。针对敌我识别辐射源的个体识别问题,提出了一种基于双树复小波和多重分形的信号暂态特征提取方法。该方法通过双树复小波变换实现信号多分辨率分解,求解分解信号Hilbert谱的信息熵和指数熵,计算信号的多重分形奇异指数和谱值,最终组成表征辐射源的特征向量。通过实验验证,提取的特征向量能充分代表辐射源个体之间的差异;被测信号的信噪比满足8 dB或9 dB的条件时,对辐射源的识别正确率能达到90%以上。统计分析表明该方法提取的特征具有很高的稳定性。相似文献