期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于卷积盲源分离的噪声鲁棒性语音识别的研究 总被引：1，自引：0，他引：1

王振力刘志华白志强《声学技术》2009,28(3):276-279

研究了一种基于卷积盲分离算法与MFCC（Mel-Frequency Cepstral Coefficient）特征相结合的噪声鲁棒语音识别方法。该方法在预处理阶段,首先计算预白化观测数据的多阶自相关协方差矩阵,以获得多时延处理的二阶解相关统计信息。然后利用得到的二阶统计信息构建两个对称正定矩阵,通过Cholesky因式分解等一系列变换获得唯一存在的矩阵,根据此矩阵估算语音信号并提取MFCC特征用于后续识别。实验结果表明,在低信噪比条件下,该方法对于数字语音的识别性能优于基本的MFCC识别器和文献中已有的卷积分离算法。相似文献

2.

融合声门波信号频谱特征的语音情感识别

《测试技术学报》2017,(1)

为了提高语音情感识别的准确率,本文针对新的声门波信号频谱特征抛物线频谱参数(parabolic spectralparameter,PSP)和谐波丰富因子(harmonic richness factor,HRF)进行了研究,并将其应用到语音的情感识别中.提取6种不同情感(生气、害怕、高兴、中性、悲伤和惊奇)语音信号的发音速率和短时能量、基音频率、前3个共振峰、12阶Mel频率倒谱系数(MFCC)的最大值、最小值、变化范围和平均值等常用特征构成一个特征矢量,并利用主成分分析方法降维;提取声门波信号的频谱特征PSP和HRF,并分析了PSP和HRF的情感表达能力;采用深度学习栈式自编码算法对只有常用特征以及融合了声门波信号频谱特征后的特征进行分类.结果表明:融合声门波信号频谱特征后识别率更高. 相似文献

3.

基于均值特征和改进深度神经网络的说话人识别算法

下载免费PDF全文

罗春梅张风雷《声学技术》2021,40(4):503-507

为提高神经网络在说话人识别应用中的识别性能,提出基于高斯增值矩阵特征和改进深度卷积神经网络的说话人识别算法.算法首先通过最大后验概率提取基于梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征的高斯均值矩阵,并对特征进行噪声适应性补偿,以增强信号的帧间关联和说话人特征信... 相似文献

4.

基于HVD小波包降噪编码深度学习的风电机组智能诊断研究

时培明范雅斐伊思颖韩东颖《振动与冲击》2022,(12):196-201

针对风机齿轮箱轴承振动信号非线性非平稳性对故障诊断的干扰问题,提出一种基于降噪编码器深度特征学习和希尔伯特振动分解(hilbert vibration decomposition, HVD)的智能故障诊断方法。引入峭度评估指标,对HVD分量进行模态选择,并以小波包提取分量能量熵构造特征向量,实现数据预处理。构建层叠降噪编码器(stacked denoising autoencoder, SDAE)模型完成信号的特征学习和故障分类。采用两个轴承数据集进行算法验证,试验结果表明,提出的基于HVD小波包降噪编码方法(HWSDAE)能高效地识别故障信号,具有突出的故障诊断性能,单次最高诊断准确率高达100%,平均诊断准确率可达99.49%,相比未经预处理的轴承数据输入SDAE模型提高了13.52%的故障诊断精度。相似文献

5.

复制粘贴音频信号的篡改检测技术研究

《中国测试》2016,(7):107-111

根据数字录音设备在录音过程中不仅记录语音内容本身,还携带微弱的电网信号的特点,提出一种基于电网频率的特征提取和复制粘贴篡改检测方法。方法利用Duffing带通滤波器获取携带电网信号的语音信号,然后提取该语音信号的Mel频标倒谱系数(MFCC),最后将特征参数运用于基于量子模距离的判决模型,对音频信号进行复制粘贴篡改检测。通过实验分析,该方法在数字语音删除、复制粘贴篡改检测方面,具有较高的正确率;音频信号越长,检测的正确率越高;MFCC参数提取过程中,帧长和帧移越小,检测的正确率越高。该方法可为音频信号篡改检测提供一个新的研究方向。相似文献

6.

基于深度压缩感知的语音增强模型

下载免费PDF全文

康峥黄志华赖惠成《声学技术》2022,41(6):862-870

随着压缩感知的深入研究,压缩感知在语音增强方面的应用也备受关注。针对传统压缩感知语音增强算法中存在的不足,将压缩感知与深度学习结合构建名为基于深度压缩感知的语音增强模型(Speech Enhancement based on Deep Compressed Sensing, SEDCS)。基于压缩感知原理使用编解码模型代替压缩感知中语音信号稀疏过程,使用卷积神经网络代替测量矩阵实现语音信号观测降维过程,通过联合训练的方式实现语音增强。实验结果表明：该模型能够完成语音增强任务,并且与现有的压缩感知语音增强算法相比,该模型能取得较好的语音增强效果;相比利用深度学习的语音增强算法,该模型虽性能一般,但在模型泛化性能和测试阶段的增强时间效率上有一定提升。相似文献

7.

基于DVMD和SSAE的柴油机混合故障诊断

白雲杰贾希胜梁庆海《振动与冲击》2022,(11):271-277+297

针对柴油机缸盖振动信号非平稳非线性的特点,提出一种基于散布熵改进的变分模态分解(DVMD)和堆叠稀疏自编码器(SSAE)相结合的柴油机混合故障诊断方法。利用散布熵确定变分模态分解的层数K,并根据散布熵转折点选取有效模态分量。分别对选取的各模态分量提取常用14个时域特征和小波包分解后的能量特征,构建混合多特征向量,输入基于堆叠稀疏自编码器和Softmax层构建的深度神经网络(DNN)中,实现了柴油机7种混合故障模式识别。与其他常见方法进行对比,结果表明该方法能够有效提取故障特征,具有较高的诊断准确率。相似文献

8.

独立分量分析在说话人识别技术中的应用

邱作春曾庆宁《声学技术》2008,27(6):863-866

独立分量分析方法能够将线性混合信号进行分离,得到统计独立的源信号,能用于提取组合语音的特征基函数。倒谱矢量符合ICA变换的假设条件,用ICA方法对MFCC特征进行转换得到ICA特征基,继而用于说话人识别,建立了一个基于独立分量分析的说话人识别系统。实验结果表明,在噪声环境下此系统具有更高的识别率。相似文献

9.

镍基高温合金铣削刀具磨损预测

杨莉《计量学报》2023,(12):1834-1841

搭建镍基高温合金铣削实验测试平台，分析刀具磨损变化规律，提出了一种基于堆叠稀疏自动编码器和多传感器特征融合的新型深度学习方法，用于铣削刀具磨损预测。在时域、频域和时频域中提取信号特征，并通过相关性分析确定最优的多传感器特征，输入堆叠稀疏自动编码器进行深度特征学习。利用双向长短时记忆网络建立刀具磨损预测模型，应用不同的铣削磨损实验数据集来验证训练模型的预测性能。预测结果表明，所提模型均方根误差与传统模型相比至少减小了9.6%,证明了多传感器特征融合和深度学习方法的结合可以提高预测性能。相似文献

10.

基于频域ICA的语音特征增强*

吕钊吴小培李密《振动与冲击》2011,30(2):238-242

为了降低卷积噪声对语音特征所产生的影响,提高语音识别正确率,文章提出了一种基于频域ICA（Independent Component Analysis,独立分量分析）的语音特征增强算法。该算法首先使用频域ICA方法作对噪声进行估计,然后在倒谱域内将带噪语音信号的短时谱减去所估计噪声的短时谱,最后根据去噪后语音信号的短时谱计算美尔倒谱系数（MFCC）作为特征参数。在仿真和真实环境下的语音识别实验中,本文所提出的语音特征参数相比较传统的MFCC其识别正确率分别提升了38.2%和35.8%。实验结果表明本文所提算法能够较好地解决卷积噪声环境下训练与识别特征不匹配的问题,有效提高了语音识别系统的识别正确率。相似文献

11.

基于融合特征的短语音汉语声调自动识别方法

下载免费PDF全文

沈凌洁王蔚《声学技术》2018,37(2):167-174

提出一种基于韵律特征(基频、时长)和梅尔倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)特征的融合特征进行短语音汉语声调识别的方法,旨在利用两种特征的优势提高短语音汉语声调识别率。该融合特征包括7个根据不同模型得到的韵律特征和统计参数以及4个从每个音段的梅尔倒谱系数计算得来的对数化后验概率,使用高斯混合模型表示4个声调的倒谱特征的分布。实验分两步:第一步,将基于韵律特征和倒谱特征的分类器在决策阶段混合起来进行声调分类,分别赋予两个分类器权重,计算倒谱特征和韵律特征在声调分类任务中的权重;第二步,将基于字的韵律特征和基于帧的倒谱特征结合起来生成融合特征的超向量,使用融合特征进行汉语声调识别,根据准确率、未加权平均召回率(Unweigted Average Recall,UAR)和科恩卡帕(Cohen’s Kappa)系数3个指标,比较并评估5种分类器(两种设置的高斯混合模型,后向传播神经网络,支持向量机和卷积神经网络(Convolutional Neural Network,CNN))在不平衡数据集上的分类效果。实验结果表明:(1)倒谱特征方法能够提高汉语声调的识别率,该特征在总体分类任务中的权重为0.11;(2)基于融合特征的深度学习(CNN)方法对声调的识别率最高,为87.6%,与高斯混合模型的基线系统相比,提高了5.87%。该研究证明了倒谱特征法能够提供与韵律特征法互补的信息,从而提高短语音汉语声调识别率;同时,该方法可以运用到韵律检测和副语言信息检测等相关研究中。相似文献

12.

基于深度学习的舰船辐射噪声多特征融合分类

下载免费PDF全文

倪俊帅赵梅胡长青《声学技术》2020,39(3):366-371

为了改善分类系统的性能,进一步提高舰船辐射噪声分类的正确率,该文提出了一种基于深度神经网络的多特征融合分类方法。该方法首先提取舰船辐射噪声几种不同的特征,将提取的特征同时用于训练具有多个输入分支的深度神经网络,使网络直接在多种特征参数上进行联合学习,通过神经网络的输入分支和连接层实现特征融合,再对舰船辐射噪声进行分类。为了特征深度学习提取了舰船辐射噪声的频谱特征、梅尔倒谱系数和功率谱特征,并将多特征融合分类方法与在一种特征上进行深度学习分类方法的正确率进行对比。实验结果表明,基于深度学习的多特征融合分类方法可以有效地提高舰船辐射噪声分类的正确率,是一种可行的分类方法。相似文献

13.

利用拼音特征的深度学习文本分类模型

赵博轩房宁赵群飞张朋柱《高技术通讯》2017,27(7)

针对人-机器人语音交互中经过语音识别的文本指令,提出了一种利用汉语拼音中声韵母作为特征的深度学习文本分类模型。首先,以无人驾驶车语音导航控制为人机交互的应用背景,分析其文本指令结构并分别构建单一意图与复杂意图语料库;其次,在以字符作为文本分类特征的基础上,结合汉语拼音与英文单词的区别,提出了一种利用拼音声韵母字符作为中文文本分类的特征表示方法;然后,用门控递归单元(GRU)代替传统递归神经网络单元以解决其难以捕获长时间维度特征的不足,为提取信息的高阶特征、缩短特征序列长度并加快模型收敛速度,建立了一种结合卷积神经网络及GRU递归神经网络的深度学习文本分类模型。最后,为验证模型在处理长、短序列任务上的表现,在上述两个语料库上对提出的模型分别进行十折交叉测试,并与其他分类方法进行比较与分析,结果表明该模型显著地提高了分类准确率。相似文献

14.

基于同步挤压S变换和集成深层脊波自编码器的轴承故障诊断

杜小磊  陈志刚  王衍学  《振动与冲击》2020,39(14):59-68

针对传统滚动轴承故障诊断算法过度依赖专家经验和故障特征提取困难的问题,提出一种基于同步挤压S变换(SSST)和集成深层脊波自编码器(EDRAE)方法。该方法对轴承振动信号进行SSST变换得到时频图像,并将时频图像进行双向二维主成分分析压缩;利用不同的脊波函数设计不同的脊波自编码器(RAE),并构造相应的深层脊波自编码器(DRAE)且引入"跨层"连接以缓解DRAE的梯度消失现象;将压缩时频图像输入各DRAE网络进行无监督预训练和有监督微调,并通过加权平均法输出识别结果。试验结果表明,基于SSST和EDRAE的轴承故障诊断方法能有效地对轴承进行多种工况和多种故障程度的识别,特征提取能力和识别能力均优于人工神经网络、深度信念网络和深度自编码器等模型。相似文献

15.

基于3D和1D多特征融合的语音情感识别算法

下载免费PDF全文

徐华南周晓彦姜万李大鹏《声学技术》2021,40(4):496-502

针对语音情感识别任务中特征提取单一、分类准确率低等问题,提出一种3D和1D多特征融合的情感识别方法,对特征提取算法进行改进.在3D网络,综合考虑空间特征学习和时间依赖性构造,利用双线性卷积神经网络(Bilinear Convolutional Neural Network,BCNN)提取空间特征,长短期记忆网络(Sho... 相似文献

16.

AI设计下的智能驾驶场景文本识别技术

梁敏秦海波覃京燕殷绪成《包装工程》2021,42(6):13-19

目的交通标志识别作为智能驾驶、交通系统研究中的一项重要内容,具有较大的理论价值和应用前景.尤其是文本型交通标志,其含有丰富的高层语义信息,能够提供极其丰富的道路信息.因此通过设计并实现一套新的端到端交通标志文本识别系统,达到有效缓解交通拥堵、提高道路安全的目的.方法系统主要包括文本区域检测和文字识别两个视觉任务,并基于卷积神经网络的深度学习技术实现.首先以ResNet-50为骨干网络提取特征,并采用类FPN结构进行多层特征融合,将融合后的特征作为文本检测和识别的共享特征.文本检测定位文本区域并输出候选文本框的坐标,文字识别输出词条对应的文本字符串.结果通过实验验证,系统在Traffic Guide Panel Dataset上取得了令人满意的结果,行识别准确率为71.08％.结论端到端交通标志文本识别非常具有现实意义.通过卷积神经网络的深度学习技术,提出了一套端到端交通标志文本识别系统,并在开源的Traffic Guide Panel Dataset上证明了该系统的优越性. 相似文献

17.

深度卷积神经网络在滑动轴承转子轴心轨迹识别中的应用

郭明军李伟光杨期江赵学智《振动与冲击》2021,(3):233-239,283

针对传统旋转机械智能识别方法需要人为提取特征及诊断精度低的问题,基于深度学习的强大学习能力,提出一种深度卷积神经网络故障诊断模型(Deep Convolutional Neural Network Fault Diagnosis Model,DCNN-FDM)用于轴心轨迹识别。该模型包括输入模块、特征提取模块及分类模块三部分。原始图像输入模型后,经过输入模块的二值化处理及最近邻插值,统一变为尺寸大小为32×32的单通道图像;经特征提取模块中两组交替的卷积层和池化层作用,得到图形特征;最后,这些特征经全连接层的扁平化处理而张成一维向量,输入到softmax分类器中进行分类。利用奇异值差分谱方法,对实测轴心轨迹进行提纯,得到4类轴心轨迹样本集用于DCNN-FDM的训练与预测。结果表明:所提模型较传统的浅层学习模型的识别效果好,可实现转子故障的精确诊断,识别率达到97.09%。最后通过全连接层的主成分可视化分析,验证了模型具备自适应特征学习能力。相似文献

18.

ia-PNCC: Noise Processing Method for Underwater Target Recognition Convolutional Neural Network

Nianbin Wang Ming He Jianguo Sun Hongbin Wang Lianke Zhou Ci Chu Lei Chen 《计算机、材料和连续体（英文）》2019,58(1):169-181

Underwater target recognition is a key technology for underwater acoustic countermeasure. How to classify and recognize underwater targets according to the noise information of underwater targets has been a hot topic in the field of underwater acoustic signals. In this paper, the deep learning model is applied to underwater target recognition. Improved anti-noise Power-Normalized Cepstral Coefficients (ia-PNCC) is proposed, based on PNCC applied to underwater noises. Multitaper and normalized Gammatone filter banks are applied to improve the anti-noise capacity. The method is combined with a convolutional neural network in order to recognize the underwater target. Experiment results show that the acoustic feature presented by ia-PNCC has lower noise and are well-suited to underwater target recognition using a convolutional neural network. Compared with the combination of convolutional neural network with single acoustic feature, such as MFCC (Mel-scale Frequency Cepstral Coefficients) or LPCC (Linear Prediction Cepstral Coefficients), the combination of the ia-PNCC with a convolutional neural network offers better accuracy for underwater target recognition. 相似文献

19.

基于卷积神经网络和Transformer网络的鸟声识别

下载免费PDF全文

王基豪周晓彦李大鹏韩智超王丽丽《声学技术》2023,42(5):675-683

针对传统鸟声识别算法中特征提取方式单一、分类识别准确率低等问题,提出一种结合卷积神经网络和Transformer网络的鸟声识别方法。该方法综合考虑网络局部特征学习和全局上下文依赖性构造,从原始鸟声音频信号中提取短时傅里叶变换(Short Time Fourier Transform,STFT)语谱图特征,将其输入到卷积神经网络(ConvolutionalNeural Network,CNN)中提取局部频谱特征信息,同时提取鸟声信号的对数梅尔特征及一阶差分、二阶差分特征用于合成梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)混合特征向量,将其输入到Transformer网络中获取全局序列特征信息,最后融合所提取的特征可得到更丰富的鸟声特征参数,通过Softmax分类器得到鸟声识别结果。在Birdsdata和xeno-canto鸟声数据集上进行实验,平均识别准确率分别达到了97.81%和89.47%。实验结果表明该方法相较于其他现有的鸟声识别模型具有更高的识别准确率。相似文献