首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 58 毫秒
1.
引言:随着计算机计算能力的提升,如何让计算机更多的替代人类脑力资源,让计算机能具有学习能力变成了最为前沿的领域.这种计算机自我学习的方式被称为深度学习,而将深度学习与多媒体技术结合则是当前最有价值的研究领域之一.本文着重介绍了计算机基于卷积神经网络的深度学习在语音识别方面的价值与趋势分析.  相似文献   

2.
随着人工智能的发展,场景识别作为计算机视觉研究的重要方向之一,吸引着越来越多研究者的关注.由于传统的手工特征无法充分描述场景图像的信息导致效果不理想,而卷积神经网络(CNN)提取的特征能够包含丰富的场景语义和结构信息,因此就常见的体系结构而言,本文选取AlexNet网络模型进行场景识别的研究,分别从网络模型的深度、宽度、多尺度化提取以及多层融合考虑进行改进,改进后在两个数据集上的识别率分别可达92.0%和94.5%,通过对比结果表明了本文方法的有效性.  相似文献   

3.
为提高中文语音识别系统的识别准确率,研究在卷积神经网络的基础上提出了一种中文语音识别人机交互系统。在该系统中的声学模型中融入了残差网络和maxout函数,以此提高声学模型的性能。对研究提出的基于链接时序分类准则的深度卷积网络模型进行性能对比发现,该模型的绝对误差值为3.6%,低于其他对比模型。该结果说明,优化后的CTC-DCNN(maxout)模型的识别性能更好。故利用该模型作为中文语音识别系统的声学模型可以有效地提高系统的识别准确率,保证其人机互动的准确性,为中文语音识别领域提供新的方法。  相似文献   

4.
针对带噪面罩语音识别率低的问题,结合语音增强算法,对面罩语音进行噪声抑制处理,提高信噪比,在语音增强中提出了一种改进的维纳滤波法,通过谱熵法检测有话帧和无话帧来更新噪声功率谱,同时引入参数控制增益函数;提取面罩语音信号的Mel频率倒谱系数(MFCC)作为特征参数;通过卷积神经网络(CNN)进行训练和识别,并在每个池化层后经局部响应归一化(LRN)进行优化.实验结果表明:该识别系统能够在很大程度上提高带噪面罩语音的识别率.  相似文献   

5.
针对孤立词语音识别的任务,采用一维卷积神经网络(CNN)作为声学模型,利用卷积核在时间轴上的移动来反映语音信号的时变性,从而提高识别性能。然后引入了反映说话人特征的身份认证矢量i-vector,通过i-vector特征消除说话人差异对识别造成的影响,进一步提高识别性能。在实验室自建语音库上的实验表明,基于这两种方法的识别系统达到了91%的识别准确率。  相似文献   

6.
人脸图像的年龄和性别识别是人脸分析的重要任务,在真实多变场景下完成识别依然面临挑战。改进深度卷积神经网络(Convolutional Neural Network,CNN),将首层大尺寸卷积核替换为级联3[×]3卷积核;采用跨连卷积层融合中层和高层抽象特征;加入Batch Normalization(BN)层,设置较高的学习率和较小的Dropout比率;采用1[×]1卷积核与全局平均池化(Global Average Pooling)取代全连接层。实验表明,所提方法与主流的年龄性别识别方法比较具有较好的识别率,在Adience数据集上,年龄识别精度达到89.8%,性别识别精度达到93.3%。  相似文献   

7.
针对卷积神经网络对手写数字识别训练在卷积核随机初始化情况下收敛速度慢和识别率低的问题,提出一种主成分分析(PCA)初始化卷积核的卷积神经网络(CNN)手写数字识别算法。算法首先选取训练样本集并将其送入CNN,在相应层对Feature Map进行全覆盖取图像块处理,然后进行分层PCA学习,将学习到的特征向量做为对应卷积层的卷积核参数进行初始化,最后再用这些卷积核对原始图像进行卷积操作。实验结果表明,与随机初始化卷积核的CNN手写数字识别算法相比,改进的算法在应用MNIST数据库训练时不仅收敛,而且在产生相同均方误差的情况下迭代次数少,识别率高。  相似文献   

8.
为了解决语音识别中深层神经网络的说话人与环境自适应问题,本文从语音信号中的说话人与环境因素的固有特点出发,提出了使用长时特征的自适应方案:首先基于高斯混合模型,建立说话人-环境联合补偿模型,对说话人与环境参数进行估计,将此参数作为长时特征;然后,将估计出来长时特征与短时特征一起送入深层神经网络,进行训练。Aurora4实验表明,这一方案可以有效地对说话人与环境因素进行分解,并提升自适应效果。  相似文献   

9.
为了构建高效的语音情感识别模型,充分利用不同情感特征所包含的信息,将语谱图特征和LLDs特征相结合,构建了一种基于自注意力机制的双通道卷积门控循环网络模型。同时,为了解决交叉熵损失函数无法增大语音情感特征类内紧凑性和类间分离性的问题,结合一致性相关系数提出新的损失函数——一致性相关损失(CCC-Loss)。将语谱图和LLDs特征分别输入CGRU模型提取深层特征并引入自注意力机制为关键时刻赋予更高的权重;使用CCC-Loss与交叉熵损失共同训练模型,CCC-Loss将不同类情感样本的一致性相关系数之和与同类情感样本的一致性相关系数之和的比值作为损失项,改善了样本特征的类内类间相关性,提高了模型的特征判别能力;将两个网络的分类结果进行决策层融合。所提出的方法在EMODB、RAVDESS以及CASIA数据库上分别取得了92.90%、88.54%以及90.58%的识别结果,相比于ACRNN、DSCNN等基线模型识别效果更好。  相似文献   

10.
卷积神经网络(Convolutional Neural Networks,CNN)是目前流行的语音识别模型之一,其特有卷积结构保证了语音信号时域和频域的平移不变性。但是CNN存在着对语音信号建模能力有所不足的问题。为此,将链接时序准则(CTC)应用在CNN结构中,构建端到端卷积神经网络(CTC-CNN)模型。同时,引入残差块结构,提出一种新的端到端深度卷积神经网络(CTC-DCNN)模型,并利用maxout激活函数对其进行优化。通过TIMIT和Thchs-30语音库测试实验,结果表明在中英文识别中,采用该模型比现有卷积神经网络模型,准确率分别提高约4.7%和6.3%。  相似文献   

11.
本文对神经网络语音识别中的语音特征提取、网络结构以及学习算法进行了初步的研究,提出了一种用于时特征矢量量化的简化和改进的自组织神经网络模型VQNN。VQNN中引入了动态规划法估计语音样本矢量的码本类中心初值并确定网络的初始权矩阵,可构造出256个量化等级的码本矢量。该方法具有较强的鲁棒性且矢量量化过程简单迅速。对28个地名的语音量化识别实验结果表明了这种量化方法对时识别的有性。  相似文献   

12.
船舶识别是海上交通监控中非常重要并且具有挑战性的任务,其难度在于复杂场景中对相对较小的船舶进行精确的定位识别。为此提出一种应用于极小船舶目标识别的单级检测算法——YOLO-G算法。由65层卷积层构建特征提取网络;采用多尺度特征融合提取深层语义信息,形成特征金字塔网络执行船舶识别任务;选取先验框机制和调制损失函数来提高识别前/背景的可区分性及模型识别精度。实验使用BOAT数据集和MS-COCO数据集对网络模型进行评估,结果表明,YOLO-G算法性能远高于其他先进的单级检测器,其COCO test-dev@0.5精度值为58.3%。  相似文献   

13.
BP神经网络应用于孤立词语发音识别的研究   总被引:1,自引:1,他引:1  
介绍了BP神经网络的学习规则和用于语音识别的基本原理,建立了一个用于常用孤立词语音识别的BP神经网络,选择声道反射系数为语音识别的特征值,建立了网络的训练样本集,对网络进行了训练;用MATLAB进行了识别仿真,表明能较好地实现孤立词语音识别.  相似文献   

14.
针对轻量级卷积神经网络MobileNet应用于人脸表情识别实时性较差、最小输入尺寸较大、准确率不高等问题,提出一种改进的MobileNet网络模型——M-MobileNet(Modified MobileNet)。M-MobileNet具有比原网络更好的轻量级特性。该网络模型基于一种改进的深度可分离卷积层,不仅具有MobileNet模型中深度可分离卷积减少卷积计算量的特点,还解决了在深度卷积层后可能会导致信息丢失的问题。在分类器选择上,M-MobileNet使用线性支持向量机(SVM)进行人脸表情分类,参数量较MobileNet网络大大减少。在CK+、KDEF数据集及移动端上的实验证明,改进后的MobileNet网络模型具有更好的识别性能。  相似文献   

15.
近几年卷积神经网络在单幅图像超分辨率重建工作中取得了很大的进步,但是大部分基于卷积神经网络(CNN)的单幅图像超分辨重建算法是建立在低分辨率图像由高分辨率图像通过双三次插值法下采样取得的前提下,当这个假设不成立时,图像重建的客观评价指标PSNR以及主观的视觉效果就会较差.针对此问题,提出一种基于高斯模糊的CNN的单幅图...  相似文献   

16.
针对现有行人属性识别方法忽视行人属性的互相关性和空间信息导致识别性能较低的问题,将任务视为时空序列多标签图像分类问题,提出基于卷积神经网络(CNN)和卷积长短期记忆网络(ConvLSTM)并融合通道注意力机制的模型.用CNN和通道注意力提取行人属性的显著性和相关性视觉特征;用ConvLSTM进一步提取视觉特征的空间信息...  相似文献   

17.
基于递推最小二乘滤波器的语音增强   总被引:1,自引:0,他引:1  
根据语音信号短时预测特性和短时准周期性,以当前采样前若干点和前若干周期的采样为观测样本,采用横向滤波器结构,构造基于递推最小二乘算法的自适应滤波器。该算法无需先验知识和参考信道,且对平稳或非平稳噪声均适用。实验证明,信噪比有明显提高,且增强后语音信号LPC倒谱与纯净语音LPC倒谱的欧氏距离也比增强前有了明显减小。  相似文献   

18.
为了提高卷积神经网络对非线性特征以及复杂图像隐含的抽象特征提取能力,提出优化卷积神经网络结构的人体行为识别方法.通过优化卷积神经网络模型,构建嵌套Maxout多层感知器层的网络结构,增强卷积神经网络的卷积层对前景目标特征提取能力.通过嵌套Maxout多层感知器层网络结构可以线性地组合特征图并选择最有效特征信息,获取的特...  相似文献   

19.
为了节省考前考生信息核对的时间和提高其准确性,提出一种基于FPGA和DM6437框架的智能人脸识别系统。FPGA和DM6437组成了系统的硬件平台并负责图像的采集、预处理和图像识别算法的实现,人脸识别过程由肤色检测和改进最近邻法来完成。通过系统的硬件平台支持和人脸识别算法的植入,可以快速地分割出视频中人脸图像,并识别图像中人物身份。该系统具有高性能和高可靠性的特点,可以应用在各种类型的考场上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号