期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈燕文李坤韩焱王燕平《计算机科学》2020,47(3):149-155

音符识别是音乐信号分析处理领域内非常重要的研究内容,它为计算自动识谱、乐器调音、音乐数据库检索和电子音乐合成提供技术基础。传统的音符识别方法通过估计音符基频与标准频率进行一一对应识别。然而一一对应较为困难,且随着音符基频的增大将导致误差增大,可识别的音符基频范围不广。为此,文中采用分类的思想进行音符识别。首先,建立所需识别的音符音频库,并针对音乐信号低频信息的重要性,选取梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients,MFCC)和常数Q变换(Constant Q Transform,CQT)作为音符信号提取特征。然后,将提取的特征MFCC和CQT分别作为音符识别的单一特征输入和两者特征融合输入;结合Softmax回归模型在多分类问题中的优势以及BP神经网络良好的非线性映射能力与自学习能力,构建基于Softmax回归模型的BP神经网络多分类识别器。在MATLAB R2016a的仿真环境下,将特征参数输入到多分类器中进行学习与训练,通过调整网络参数来寻找最优解。通过改变训练样本数进行对比实验。实验结果表明,将融合特征(MFCC+CQT)作为特征输入时,可以识别出从大字组到小字三组的25类音符,并可以获得95.6%的平均识别率;在识别过程中,特征CQT比特征MFCC的贡献更大。实验数据充分说明,利用分类的思想提取音符信号的MFCC和CQT特征来进行音符识别,可以取得很好的识别效果,并且不受音符基频范围的限制。相似文献

2.

基于语音识别的英语翻译器设计

杨雪晴《自动化与仪器仪表》2022,(8):221-225

针对传统英语翻译系统语音识别准确率低,导致语言翻译效果不佳的问题,提出一种语音识别的英语翻译器。在HMM基础上,加入梅尔频率倒谱系数MFCC,通过MFCC提取语音特征,然后利用HMM对语音特征进行识别,最后通过循环神经网络构建Transformer机器翻译模型,从而对提取的中文语音进行翻译。结果表明,提出的HMM+MFCC模型对语音识别的平均识别率高达99.78%,比传统的识别方法高2.89%,且HMM+MFCC模型的平均识别时间仅为1.224 8 s,说明本模型识别效率更高,模型性能更优越;Transformer+词性信息模型的BLEU分数为36.28,比单一Transformer模型的BLEU分数35.69高出了0.59。综合分析可知,采用提出的语音识别和语言翻译方法可提高英语翻译器的语音识别准确率和翻译效果。相似文献

3.

基于多特征和BP神经网络的脑-机接口研究

《电子技术应用》2017,(9):72-75

研究了一种基于运动想象识别的脑-机接口(BCI)系统,通过提取想象过程中的脑电信号(EEG)中Alpha波特征,采用多特征分类的方法,以提高脑-机接口系统运动想象识别的正确率。针对脑电信号单特征分类精确度低、耗时长等缺点,采用自回归模型法、统计特征提取和频域分析的方法对Alpha波提取多个特征值,利用BP神经网络进行分类,对运动想象进行识别。通过实验验证了其识别率较高,取得了预期的效果,证明了多特征融合结合BP神经网络运用于脑机接口系统的可行性。相似文献

4.

基于时频分布与MFCC的说话人识别

金银燕于凤芹何艳《计算机系统应用》2012,21(4):189-192,178

针对MFCC不能得到高效的说话人识别性能的问题,提出了将时频特征与MFCC相结合的说话人特征提取方法。首先得到语音信号的时频分布,然后将时频域转换到频域再提取MFCC+MFCC作为特征参数,最后通过支持向量机来进行说话人识别研究。仿真实验比较了MFCC、MFCC+MFCC分别作为特征参数时语音信号与各种时频分布的识别性能,结果表明基于CWD分布的MFCC和MFCC的识别率可提高到95.7%。相似文献

5.

基于MFCC和LPCC的说话人识别 总被引：8，自引：0，他引：8

余建潮张瑞林《计算机工程与设计》2009,30(5)

MFCC参数和LPCC参数是说话人识别中两种最常用的特征参数,研究了MFCC和LPCC参数提取的算法原理及差分倒谱参数的提取方法,采用MFCC、LPCC及其一阶、二阶差分作为特征参数,通过k均值算法与三层BP神经网络来进行说话人识别.实验结果表明,该方法可以有效提高识别率,同时也验证MFCC参数的鲁棒性优于LPCC参数. 相似文献

6.

基于深度学习的人体动作识别方法

沈西挺于晟董瑶董永峰张泽伟《计算机工程与设计》2020,41(4):1153-1157

对基于机器视觉的人体动作识别的成果进行研究,为提高视频数据集中人体动作的识别率,提出一种改进的深度网络模型。采用稠密光流方法处理数据,结合二维卷积神经网络(2DCNN)、三维卷积神经网络(3DCNN)和长短期记忆神经网络(LSTM)对动作特征进行提取,利用Softmax分类器识别分类。通过KTH数据集进行实验对比验证,分析结果表明,改进模型相比其它已有模型具有更高的识别率,动作识别效果更优。相似文献

7.

基于BP_Adaboost神经网络的船舶桨叶故障预警模型

《微型机与应用》2017,(18)

为了提高船舶桨叶故障识别率,构建了一种基于BP_Adaboost神经网络的船舶桨叶故障预警模型。该模型首先采用数字水听器采集二进制船舶桨叶静水噪声信号,并利用MATLAB编程将二进制信号转换成WAV音频信号,通过梅尔频率倒谱系数法(Mel-Frequency Cepstral Coefficient,MFCC)提取特征值,得到36维桨叶静水噪声信号,最后运用BP_Adaboost神经网络进行分类识别预警。实验结果表明,基于BP_Adaboost神经网络的船舶桨叶故障预警模型能够高效分类预警船舶桨叶故障,与BP神经网络识别率对比,分类识别预警率高达96%。相似文献

8.

经验模态分解神经网络的研究与应用

包志强王美黄琼丹吕少卿《计算机工程与设计》2021,42(12):3510-3515

为更有效对非线性信号进行识别,提出一种经验模态分解神经网络模型,实现经验模态分解算法与卷积神经网络模型的紧耦合.在EMD层利用经验模态分解算法完成信号的自适应分解;引入权重参数,将分解得到的本征模函数依据其对识别的重要性进行自适应加权重构提取特征,增强时域特征提取能力;将提取的特征通过Softmax层完成信号的识别.将该网络模型应用于美国麻省理工学院提供的MIT-BIH心律失常数据库,对心律失常信号的识别准确率为99.38％,高于其它算法的识别准确率,验证了该模型的有效性. 相似文献

9.

基于轻量化神经网络的多语音识别方法研究

汪玉秀苏战波《自动化与仪器仪表》2023,(10):167-169+174

针对传统英语多语音识别准确率低的问题，提出一种基于轻量化神经网络的英语语音识别及控制系统。其中，首先采用MFCC方法对输入语音特征进行提取；然后以时延神经网络TDNN为基础网络，通过步进裁剪得到轻量化的神经网络；最后将提取到的多语音特征输入神经网络中进行识别。结果表明，经过轻量化的神经网络其大小由77 M降低至21 M;在Dev93和Eval92数据集上的测试，其WER值分别为5.12%和3.99%,相较于直接裁剪和未裁剪的WER值更低，英语语音识别准确率更高。由此得出，本研究构建的轻量化神经网络可用于多语音的识别，进而可拓展至包含英语交流机器人在内的领域。相似文献

10.

基于手机拍摄图像分析的苹果病害识别技术研究 总被引：4，自引：0，他引：4

李宗儒何东健《计算机工程与设计》2010,31(13)

为提高用低分辨率图像识别苹果病害的准确率,建立了完整的预处理流程,用类间方差闻值分割法和形态学运算等方法抽取图像的病态部位.根据病斑形状及Hu不变矩提取病斑的形状特征,提取病斑的H方差结合H-S直方图特征作为病斑的颜色特征,用计盒维数法提取病斑纹理特征.在对特征进行优选的基础上,构建BP神经网络病害识别模型.识别实验结果表明,用优选的8个特征和BP神经网络模型对5种病害的平均正确识别率达92.6%,可有效识别苹果病害. 相似文献

11.

基于MFCC和神经网络的西瓜音频熟度识别

钱玲龙俞东芝杨义静《电子制作．电脑维护与应用》2018,(9)

本文研究了MFCC特征参数提取的算法原理和提取西瓜特征的方法,采用MFCC作为特征参数提取算法,通过PCA降维处理得到西瓜音频特征,并使用多种神经网络模型进行西瓜熟度的识别。实验结果表明MFCC提取的特征通过神经网络训练可以用于根据西瓜音频识别西瓜熟度。相似文献

12.

基于支持向量机的条烟包装外观缺陷检测

《软件》2020,(1):205-210

针对卷烟生产过程中条烟包装外观缺陷问题,提出一种基于支持向量机(SVM)的条烟包装缺陷图像检测方法。该方法首先采用模板匹配法定位条烟检测区域;然后利用Haar小波变换进行频域分解,并通过灰度共生矩阵算法对频域图提取纹理特征;最后结合纹理特征建立条烟支持向量机分类模型,对待测样本进行分类识别。结果表明:基于SVM分类模型的识别率为96.1%,该方法通用性强,实时性好,满足条烟异常情况检测要求。与BP神经网络测试性能相比,分类性能优于BP神经网络。相似文献

13.

噪声环境下MFCC特征提取

宫晓梅王怀阳《微计算机信息》2007,23(22):247-249

梅尔倒谱系数（MFCC）模拟了人耳的听觉特性，在语音识别实际应用中取得了较高的识别率。本文研究了在噪声环境下提取MFCC的一般过程和方法，研究了对噪声信号在时域与频域中的处理方法。最后用HTK工具箱进行实验验证文中所用方法的识别性能，本系统与基本特征提取方法相比，识别率有很大提高。相似文献

14.

MFCC与支持向量机在钱塘江涌潮检测中的应用

王培力王瑞荣高鹏孙映宏《传感技术学报》2016,29(11):1773-1778

为解决钱塘江涌潮检测难问题,提出了一种新的涌潮检测方法。首先,通过梅尔倒谱系数MFCC（Mel-Frequency Cepstral Coefficients）提取涌潮样本多维声学特征与非涌潮样本声学特征;然后,使用支持向量机（SVM）构建涌潮检测模型;最后,通过模型对输入的样本特征进行分类判断。与以采用线性预测倒谱系数（LPCC）提取声学特征方法或是采用BP神经网络构建检测模型相比,MFCC与支持向量机结合在涌潮检测的精度上有一定的提高。相似文献

15.

一种改进的GRU-InFCN人体行为识别模型

武一田小森张朝旭《计算机应用与软件》2020,37(1):199-204

为了克服传统机器学习方法在采用传感器数据进行人体行为识别领域上识别效果对人工特征选取依赖严重、识别准确率不高等问题,提出一种改进的全卷积神经网络和多层循环神经网络并联的深度学习模型(GRU-InFCN),并对传感器数据特征进行自动提取,实现人体动作的识别。该模型通过多尺度卷积神经网络和双层GRU网络(Gated Recurrent Unit,GRU)分别对传感器数据进行特征提取,将特征矩阵在矩阵维度上进行特征拼接再通过Softmax完成特征分类。实验结果表明,在开源人体行为识别(HAR)数据集上采用该方法进行人体行为识别,准确率达到了97.76%。该模型在取得高准确率的同时,避免了复杂的信号预处理和特征工程。相似文献

16.

说话人识别中基于Fisher比的特征组合方法

谢小娟曾以成熊冰峰《计算机应用》2016,36(5):1421-1425

为了提高说话人识别的准确率,可以同时采用多个特征参数,针对综合特征参数中各维分量对识别结果的影响可能不一样,同等对待并不一定是最优的方案这个问题,提出基于Fisher准则的梅尔频率倒谱系数(MFCC)、线性预测梅尔倒谱系数(LPMFCC)、Teager能量算子倒谱参数(TEOCC)相混合的特征参数提取方法。首先,提取语音信号的MFCC、LPMFCC和TEOCC三种参数;然后,计算MFCC和LPMFCC参数中各维分量的Fisher比,分别选出六个Fisher比高的分量与TEOCC参数组合成混合特征参数;最后,采用TIMIT语音库和NOISEX-92噪声库进行说话人识别实验。仿真实验表明,所提方法与MFCC、LPMFCC、MFCC+LPMFCC、基于Fisher比的梅尔倒谱系数混合特征提取方法以及基于主成分分析(PCA)的特征抽取方法相比,在采用高斯混合模型(GMM)和BP神经网络的平均识别率在纯净语音环境下分别提高了21.65个百分点、18.39个百分点、15.61个百分点、15.01个百分点与22.70个百分点;在30 dB噪声环境下,则分别提升了15.15个百分点、10.81个百分点、8.69个百分点、7.64个百分点与17.76个百分点。实验结果表明,该混合特征参数能够有效提高说话人识别率,且具有更好的鲁棒性。相似文献

17.

小波分析和神经网络在水下目标识别中的研究

舒兰英《计算机仿真》2011,28(2)

研究水下目标识别问题.由于环境因素的影响,采集到的水下目标回波信号中含有大量噪声且信号频率范围大,传统方法不能有效提取信号特征导致水下目标识别率低.为了提高水下目标识别的准确率,提出一种基于小波分析和BP神经网络组合的水下目标识别方法(W-BPNN).采用小波对水下目标回波信号进行去噪处理,滤除噪声信号.通过小波包对信号的特征进行提取,提取出最能反映目标本质性质的特征向量,对提取的特征向量作为BP神经网络的输入进行识别.为了验证W-BPNN算法有效性,在Matlab平台上对3类水下目标进行了仿真.结果表明,相对于传统识别算法,W-BPNN获得了更高的识别准确率,证明是有效的水下目标识别方法. 相似文献

18.

基于改进的YCbCr空间及多特征融合的手势识别

《计算机应用与软件》2016,(1)

针对基于视觉的手势识别的复杂性,提出一种基于改进的YCbCr空间及多特征融合的手势识别新方法。首先针对YCbCr颜色空间易受环境因素影响的特点,采用改进的YCbCr椭圆聚类肤色模型的手势分割方法提取手势区域;然后按手势图像外接矩形的宽高比和手指个数进行粗分类,再提取手势的Hu矩和傅里叶描述子构建融合特征,并将融合特征输入BP神经网络进行训练识别;最后综合粗分类和BP神经网络的结果进行手势判别。实验结果表明,该方法在保证实时性的同时具有较高的识别率。相似文献

19.

基于LSTM神经网络的声发射信号识别研究

周俊尹悦夏斌《计算机科学》2021,48(z2):319-326

声发射检测不需要进入被检对象中进行检测,与其他无损检测技术相比具有实时性、整体性和高灵敏度等独特优势.早期参数分析、小波分析等方法在声发射信号特征提取上缺乏理论指导,具有一定主观性,BP神经网络应用于声发射信号识别中时网络训练容易陷入局部极值,LSTM神经网络可以对输入序列数据进行逐层学习并自适应提取特征,避免了特征的人工选择和提取,较好地解决了存在的问题.文中提出一种基于LSTM的声发射信号识别模型,在声发射信号z-score标准化基础上,对比不同学习算法、隐层神经元数、正则化dropout rate下的测试集正确识别率,优化声发射信号识别模型,与BP神经网络的声发射信号识别准确率进行对比,实验结果表明,LSTM神经网络在Adam算法中,当隐层神经元数为250,dropout rate为0.5时,声发射信号识别率最高且为76.51％,优于BP神经网络53.9％的最高识别率. 相似文献

20.

基于两级神经网络的连续哼唱特征提取

郑贵滨刘艳刘胜韩纪庆《计算机工程与应用》2008,44(18):246-248

针对用户以任意字词连续哼唱的情况下,哼唱特征提取中音符分割、音符识别难度大的问题,提出了一种基于两级神经网络的哼唱特征提取方法。第一级采用BP神经网络实现哼唱音符分割,得到独立音符;第二级采用RBF神经网络识别分割出的各个音符,获得音符的MIDI音高值。实验结果表明,该方法能较好地完成哼唱特征的提取,适合于实际哼唱检索系统对连续哼唱的要求。相似文献