首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对复杂环境下的鸣笛声识别问题,本文设计了一种基于梅尔频率倒谱系数和卷积神经网络的音频分类算法。该算法以梅尔频率倒谱系数特征为深度学习的网络输入,利用卷积神经网络逐层提取声音特征,最终实现汽车鸣笛声的识别。实验后的结果说明,利用该算法后,模型的识别准确率能够达到97.6%以上,能够很好地满足违法鸣笛抓拍系统的应用需求。  相似文献   

2.
屈晓渊  崔青 《电子设计工程》2022,30(9):82-87,92
梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)是一种符合人耳听觉特征,并与频率呈非线性对应关系的频谱特征,广泛应用在语音识别、音频特征分析等方面.对于目前广泛使用的通过单一特征进行音频分类的方法,存在分类准确度低、处理速度慢等方面的不足,提出了基于梅尔频率倒谱的音频分...  相似文献   

3.
本文基于神经网络算法在人脸识别中的应用进行了研究,结果表明当前神经网络算法人脸识别算法分为:卷积神经网络人脸识别、循环神经网络人脸识别。  相似文献   

4.
针对基于深度神经网络的端对端的语音识别技术展开研究,通过深度全序列卷积神经网络(DFCNN)声学模型和Transformer语言模型搭建一种端对端的语音识别系统。该系统完成对模型及数据的训练,实现对多字符中文语音的识别,并对隐马尔可夫语音识别方法和深度神经网络下的语音识别方法的系统搭建难度、原理差异和识别精确度进行对比研究。仿真结果表明,所提方法能够实现对连续多字符中文语音的有效识别,识别正确率在90%以上。  相似文献   

5.
《电子世界》2018,(7):57-58
深度卷积神经网络在近年发展迅速,特别是在深度学习被提出来后。但在真实的人脸检测中,大的视觉变化,如背景,照明等,需要一种精确的判别模型来区分人脸和背景。于是,本文给出基于深度卷积网络算法的改进。  相似文献   

6.
针对深度学习下的图像识别技术,研究了图像识别和卷积神经网络的工作原理。分析了AlexNet模型、ResNet模型、MobileNet模型的卷积神经网络模型,以及三种算法模型的各自特点,实现了深度学习环境的搭建,通过实验对比三个模型的分类准确率和训练效率,为深度学习下的图像识别算法研究提供参考。  相似文献   

7.
基于深度谱卷积神经网络的高效视觉目标跟踪算法   总被引:1,自引:0,他引:1       下载免费PDF全文
郭强  芦晓红  谢英红  孙鹏 《红外与激光工程》2018,47(6):626005-0626005(6)
提出了一种基于深度频谱卷积神经网络的视觉目标跟踪算法。该算法在深度模型训练阶段采用谱池化替代深度卷积神经网络中的最大池化过程,用贝叶斯分类器替代softmax损失层计算最大分类值,并将其整合到深度神经网络跟踪框架中,通过新网络计算输入正负样本的概率分布预测目标位置。该算法充分利用谱池化在频域下降维到任意维度且计算高效的优点,克服了最大池化采样造成大量空间信息丢失的不足,提升了计算速度。在权威多场景视频标准测试库上对所提算法进行验证,结果验证了该算法兼顾了效率和跟踪精度,有效提高跟踪器的性能,在相同测试条件下,文中算法性能优于同类对比算法。  相似文献   

8.
9.
10.
11.
12.
杨玉涟  官钰翔  沈毅  陈豪  朱霞 《电子测试》2020,(21):60-61+99
随着科技的发展人脸识别技术得到了巨大的应用,实现人脸识别的方法也越来越多,本文先简单对比了MLP、RNN、CNN这三个神经网络,然后再对CNN的基础结构进行了一个较为详细的介绍,主要通过对LeNet-5卷积神经网络模型结构的分析来了解卷积神经网络,然后设计了一款针对Olivetti Faces人脸数据库的卷积神经网络模型,通过更改卷积层中卷积核个数以及学习速率来进行一系列实验,最终确定在本次实验当中,当学习速率为0.05时,第一层卷积层卷积核数目为20,第二层卷积层数目为40的时候,能够得到一个针对Olivetti Faces人脸数据库有着较高识别率的一个新的卷积神经网络模型。  相似文献   

13.
14.
舒甜督  刘芳  蔡茂 《电子设计工程》2022,(21):170-174+179
对医学CT图像进行高效精确地自动分类可以有效帮助医生减轻工作负担,切实提升医生对患者病情诊断的效率,应对现今医院CT图像数量迅速增长而相关医务人员严重缺乏的问题。卷积神经网络自提出以来,已被广泛应用于各种图像分类任务中。为切实提高肺部CT图像分类任务的准确率与速度,文中具体分析了VGG16网络模型的结构以及将其应用于肺结节CT图像分类任务中的优劣势。通过实验对比,验证了迁移学习的VGG16和基于VGG16改进的模型对肺部CT图像分类任务的有效性。  相似文献   

15.
张晋宁 《电声技术》2023,(11):101-104
视觉语音识别(Audio-Visual Speech Recognition,AVSR)系统结合音频和视觉信息,提供可靠的语音识别功能。为了提高AVSR系统在低信噪比(Signal-to-Noise Ratio,SNR)环境下的识别准确率,提出一种基于循环神经网络(Recurrent Neural Network,RNN)的AVSR系统。该系统由音频特征提取模块、视觉特征提取模块以及音频和视觉特征联合模块3部分组成。特征联合模块利用RNN将基于梅尔频率倒谱系数的音频特征与OpenCV库中的Haar级联检测提取的视觉信息相结合,以提高系统识别率。实验结果表明,在低信噪比条件下,所提系统的正确识别率保持在89%左右。  相似文献   

16.
研究了一种汉语数字语音识别方案,首先提取汉语数字语音线性预测倒谱系数(LPCC)和梅尔频率倒谱系数(MFCC)及其一阶差分,并组合成新特征。通过求取其系数矩阵的均值和方差的方式进行一次降维,然后采用基于关联规则的特征选择算法进行二次降维,并采用C4.5决策树算法进行识别。通过实验表明本文提出的方法能够有效降低特征维度,去除了无用的冗余信息,提高了语音识别率。  相似文献   

17.
SVAC监控音频编码器在前端对提取的特征参数量化编码,以防止语音编码失真影响说话人识别.特征参数编码占用码率较低,因此对其量化器有一定的技术要求.分析了SVAC的特征参数量化器编码性能,对多种情况下的量化失真进行了实验对比,根据结果有针对性地设计了新码本.  相似文献   

18.
基于三元卷积神经网络的行人再辨识算法多数采用欧式距离度量行人之间的相似度,并配合铰链(hinge)损失函数进行卷积神经网络的训练。然而,这种作法存在两个不足:欧式距离作为行人相似度,鉴别力不够强;铰链损失函数的间隔(Margin)参数设定依赖于人工预先设定且在训练过程中无法自适应调整。为此,针对上述两个不足进行改进,该文提出一种基于新型三元卷积神经网络的行人再辨识算法,以提高行人再辨识的准确率。首先,提出一种归一化混合度量函数取代传统的度量方法进行行人相似度计算,提高了行人相似度度量的鉴别力;其次,提出采用Log-logistic函数代替铰链函数,无需人工设定间隔参数,改进了特征与度量函数的联合优化效果。实验结果表明,所提出的算法在Auto Detected CUHK03 和VIPeR两个数据库上的准确率均获得显著的提升,验证了所提出算法的优越性。  相似文献   

19.
为提高调制分类识别精确度,降低计算复杂度,提出了一种基于卷积神经网络(CNN)与红绿蓝(RGB)循环谱二维图的智能调制识别方法。基于循环谱特征可识别调制类型的机理,为了降低计算复杂度,将三维的循环谱转换为二维平面的RGB循环谱图,并将其用于构建数据集;将一种计算复杂度较低的CNN作为调制类型分类识别器。仿真结果表明,所提出的智能调制识别方法能够以较低的计算复杂度,获得更高的分类精确度。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号