首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 62 毫秒
1.
声纹识别属于一种新型生物识别技术,其综合了生命科学综合研究,计算机技术等多种技术。随着深度学习技术不断的发展,声纹识别技术在案件侦破、智能网联、支付系统上的应用也越来越多,论文针对现有声纹识别系统识别率低,识别效率慢等问题,提出了基于注意力机制改进的DenseNet网络模型作为声学模型,进一步提高声纹识别系统的性能。首先将语音经过预处理和特征提取,进入改进后的DenseNet网络中,最终进入SoftMax函数输出结果,最终经过多组实验验证并进行比对,实验结果表明,使用注意力机制改进的DenseNet网络作为声纹识别系统中的声学模型相较于其他传统声学模型在准确率、AUC上分别提升了4.25%、4.18%,在等错误率上降低了6.09%,证明了该模型对于声纹识别任务上的合理性。  相似文献   

2.
声纹识别是当前热门的生物特征识别技术之一,能够通过说话人的语音识别其身份。针对声纹识别技术进行了研究,提出了一种基于卷积神经网络(CNN)和深度循环网络(RNN)的声纹识别方案CDRNN,CDRNN结合CNN和RNN的优势,用于移动终端声纹识别应用。CDRNN将说话者的原始语音信息经过一系列的处理并生成一张二维语谱图,利用CNN长于处理图像的优势从语谱图中提取语音信号的个性特征,这些个性特征再输入到Deep RNN中完成声纹识别,从而确定说话者的身份。实验结果表明了CDRNN方案能够获得比GMM-UBM等其他方案更好的识别准确率。  相似文献   

3.
刘晓璇  季怡  刘纯平 《计算机科学》2021,48(z2):270-274
声纹识别利用说话人生物特征的个体差异性,通过声音来识别说话人的身份.声纹具有非接触、易采集、特征稳定等特点,应用领域十分广泛.现有的统计模型方法具有提取特征单一、泛化能力不强等局限性.近年来,随着人工智能深度学习的快速发展,神经网络模型在声纹识别领域崭露头角.文中提出基于长短时记忆(Long Short-Term Memory,LSTM)神经网络的声纹识别方法,使用语谱图提取声纹特征作为模型输入,从而实现文本无关的声纹识别.语谱图能够综合表征语音信号在时间方向上的频率和能量信息,表达的声纹特征更加丰富.LSTM神经网络擅长捕捉时序特征,着重考虑了时间维度上的信息,相比其他神经网络模型,更契合语音数据的特点.文中将LSTM神经网络长期学习的优势与声纹语谱图的时序特征有效结合,实验结果表明,在THCHS-30语音数据集上取得了84.31%的识别正确率.在自然环境下,对于3 s的短语音,该方法的识别正确率达96.67%,与现有的高斯混合模型和卷积神经网络方法相比,所提方法的识别性能更优.  相似文献   

4.
传统声纹识别方法过程复杂,模型识别准确率低,是声纹识别应用发展的关键问题。利用深度学习具有自主特征提取及分类的特点,结合卷积神经网络(CNN)和长短期记忆网络(LSTM),提出一种结合的网络模型学习声纹识别特征及对其进行身份认证。将原始语音转换为固定长度语谱图,顺序进入CNN、LSTM,结合网络进行训练以及声纹特征学习。通过对比CNN、LSTM以及DNN网络,验证CNN-LSTM网络在声纹识别中具有较少迭代次数情况下高准确率的特性。经实验结果可以得出,语音空间特征及时序特征均是声纹识别中重要的影响因素,实验中的CNN-LSTM网络模型准确率达到95.42%,损失低值达到0.097 3。该方法有利于实际声纹识别的应用。  相似文献   

5.
王康  董元菲 《计算机应用》2019,39(10):2937-2941
针对传统身份认证矢量(i-vector)与概率线性判别分析(PLDA)结合的声纹识别模型步骤繁琐、泛化能力较弱等问题,构建了一个基于角度间隔嵌入特征的端到端模型。该模型特别设计了一个深度卷积神经网络,从语音数据的声学特征中提取深度说话人嵌入;选择基于角度改进的A-Softmax作为损失函数,在角度空间中使模型学习到的不同类别特征始终存在角度间隔并且同类特征间聚集更紧密。在公开数据集VoxCeleb2上进行的测试表明,与i-vector结合PLDA的方法相比,该模型在说话人辨认中的Top-1和Top-5上准确率分别提高了58.9%和30%;而在说话人确认中的最小检测代价和等错误率上分别减小了47.9%和45.3%。实验结果验证了所设计的端到端模型更适合在多信道、大规模的语音数据集上学习到有类别区分性的特征。  相似文献   

6.
胡学刚  杨洪光 《计算机应用研究》2020,37(6):1886-1889,1894
前列腺磁共振(MRI)图像的自动分割对前列腺疾病的诊断至关重要,但是前列腺区域所占比例过小、组织边界模糊等问题为自动分割带来极大困难。针对这些问题,提出了一种基于全卷积DenseNet的前列腺MRI图像分割方法。该方法以现流行的深度学习理论为基础,利用迁移学习的思想,将DenseNet从自然图像迁移到前列腺数据集;采用反卷积和类似U-Net的全卷积神经网络结构,实现端到端的图像分割。同时引入并改进Dice相似性损失函数以解决前列腺MRI中背景所占比例远远大于前列腺区域和一些像素难以准确分割等问题。通过在PROMISE12数据集上进行实验,提出的方法Dice相似性系数达到93.25%,Hausdorff距离小于1.2 mm,相较于目前的主要方法,分割效果更好、所耗时间更短。  相似文献   

7.
基于DenseNet的单目图像深度估计   总被引:1,自引:0,他引:1       下载免费PDF全文
深度信息的获取是场景解析中是非常重要的环节,主要分为传感器获取与图像处理两种方法。传感器技术对环境要求很高,因此图像处理为更通用的方法。传统的方法通过双目立体标定,利用几何关系得到深度,但仍因为环境因素限制诸多。因此,作为最贴近实际情况的方法,单目图像深度估计具有极大研究价值。为此,针对单目图像深度估计,提出了一种基于DenseNet的单目图像深度估计方法,该方法利用多尺度卷积神经网络分别采集全局特征、局部特征;加入了DenseNet结构,利用DenseNet强特征传递、特征重用等特点,优化特征采集过程。通过NYU Depth V2数据集上验证了模型的有效性,实验结果表明,该方法的预测结果平均相对误差为0.119,均方根误差为0.547,对数空间平均误差为0.052。  相似文献   

8.
针对传统声纹识别方法在实际应用场景中跨设备情况下声纹识别性能较差的问题,提出了一种基于深度学习的跨设备声纹识别方法,采用了卷积循环网络的模型架构,在声纹注册阶段录制多段语音进行声纹特征的拟合建模,在识别阶段使用了切片降噪方式提取音频中的语音信息,在设备端使用了DSP芯片支持的双麦克采集现场声音。实验结果表明,在跨设备声纹识别条件下,本文提出的声纹识别方法识别准确率高于目前主流的方法,达到80%。  相似文献   

9.
现有油田火灾预警系统较多地采用烟感、红外等被动传感器进行烟火检测,其检测范围小,抗干扰能力弱,无法实时准确地进行火灾预警。如何从油田安防设备获取的海量图像数据中检测到烟火信息,提高抢险救灾的预测响应时间,在国内外都是一个具有挑战性的研究课题。提出一种改进的DenseNet深度神经网络架构,解决复杂图像中火灾区域的检测。为了增强特征传播的精度,降低存储数据量,采取结构化稀疏操作。将网络卷积核分为多个组,在训练过程中逐渐减小每个组内不重要的参数连接。针对油田安防领域构建的数据集存在不平衡性,增强火灾检测系统最终分类预测的准确性,引入Focal损失函数对分类层进行火灾识别。大量的定性定量实验表明,该改进网络在检测率与误检率方面均优于现有的其他深度模型。  相似文献   

10.
针对隧道裂缝人工识别低效、检修不便以及隧道环境复杂多变、检测易受噪声干扰等问题,文中提出一种基于深度学习的裂缝检测算法。通过神经网络对原始图像进行非裂缝区域过滤,减少无关背景信息的干扰,同时在分割算法基础上通过多维分类器将误识别的裂缝区域剔除。实验结果表明,密集连接卷积网络(DenseNet)在裂缝分类中最高可达99.95%的准确率,有效提升了隧道裂缝自动检测精度。  相似文献   

11.
藏语声纹识别技术的研究刚刚起步,建设一个用于藏语声纹识别的语料库迫在眉睫。结合藏语特点,设计、建立了一个面向藏语声纹识别的语料库。语料库包含文本相关、文本无关两部分,文本语料来自新闻报刊、文学类、教育类、科技类、佛学类、历史类和传统文化五明类等文献资料,录音者由来自多个不同藏语方言地区的50人组成,产生了语音语料9 500条,为藏语的声纹识别研究奠定了一定的基础。  相似文献   

12.
仪表检测是智能仪表测试不可或缺的环节,其效果直接决定仪表测试的准确率。针对仪表检测背景复杂且要求速度快的特点,提出一种基于改进YOLOv3的目标检测算法。基于YOLOv3算法,首先使用DenseNet(Densely Connected Convolutional Networks)替换Darknet中的最后2个网络块,以加强模型对特征的重用。然后采用轻量化的Darknet-46作为特征提取网络,并将DenseNet中的卷积神经网络修改为深度可分离卷积网络,再将所有检测层(YOLO Detection)之前的6层卷积修改为2层,以减少模型的参数。同时引入GDIOU(generalized-IOU and distance-IOU, GDIOU)边界框以回归坐标损失,并根据检测需求重新调整损失函数的权重。实验结果表明,相比原算法,改进的YOLOv3算法参数数量减少40%,在仪表检测中的精确率和召回率分别达到95.83%和94.98%,分别提高2.21个百分点和2.09个百分点,平均精度提高2.42个百分点,检测速度提高30.18%。  相似文献   

13.
传统声纹识别人控制系统识别准确率低,存在语音识别噪声鲁棒性问题。针对上述问题,基于非单调共轭梯度算法设计了一种新的声纹识别机器人控制系统,采用BioVoice 2.0 标准声纹采集器采集数据,提取声纹特征,根据提取的声纹特征建立模型库,同时引用了两个声纹数据采集终端,型号分别是TMC104-B和TMC104,选用型号为AS-MrobotR的机器人配合采集器和采集终端实现工作。在Windows平台下使用C/C+语言研究了一种专用的程序,在程序内部添加mde-api数据库,完成训练程序和识别程序。实验结果表明,基于非单调共轭梯度算法的声纹识别机器人控制系统能够很好地解决语音识别噪声鲁棒性问题,在有噪声环境下识别准确率提高15.24%,在无噪声环境下识别准确率提高21.55%。  相似文献   

14.
目的 手势识别是人机交互领域的热点问题。针对传统手势识别方法在复杂背景下识别率低,以及现有基于深度学习的手势识别方法检测时间长等问题,提出了一种基于改进TinyYOLOv3算法的手势识别方法。方法 对TinyYOLOv3主干网络重新进行设计,增加网络层数,从而确保网络提取到更丰富的语义信息。使用深度可分离卷积代替传统卷积,并对不同网络层的特征进行融合,在保证识别准确率的同时,减小网络模型的大小。采用CIoU(complete intersection over union)损失对原始的边界框坐标预测损失进行改进,将通道注意力模块融合到特征提取网络中,提高了定位精度和识别准确率。使用数据增强方法避免训练过拟合,并通过超参数优化和先验框聚类等方法加快网络收敛速度。结果 改进后的网络识别准确率达到99.1%,网络模型大小为27.6 MB,相比原网络(TinyYOLOv3)准确率提升了8.5%,网络模型降低了5.6 MB,相比于YOLO(you only look once)v3和SSD(single shot multibox detector)300算法,准确率略有降低,但网络模型分别减小到原来的1/8和1/3左右,相比于YOLO-lite和MobileNet-SSD等轻量级网络,准确率分别提升61.12%和3.11%。同时在自制的复杂背景下的手势数据集对改进后的网络模型进行验证,准确率达到97.3%,充分证明了本文算法的可行性。结论 本文提出的改进Tiny-YOLOv3手势识别方法,对于复杂背景下的手势具有较高的识别准确率,同时在检测速度和模型大小方面都优于其他算法,可以较好地满足在嵌入式设备中的使用要求。  相似文献   

15.
为了进一步提升红外和可见光图像的融合效果,提出了一种基于多尺度卷积算子和密集连接网络的图像融合模型.该模型首先使用多尺度卷积算子计算图像的直接多尺度特征,然后使用密集连接网络计算图像的间接多尺度特征.为了得到图像像素信息在不同尺度下的融合权重,通过叠加的方式将各个尺度密集连接网络的输出进行融合,并使用活动图方法计算两类图像的融合权重,最后根据权重计算结果得到融合图像,实验在THO数据集和CMA数据集获得较好的识别率.  相似文献   

16.
深度学习和迁移学习的兴起为树种识别提供了新方向,然而其在同树种内不同品质间木材识别仍存在挑战。为改善古筝面板品质分级现状,设计了一种深度残差网络模型。首先将数据集进行划分并采用数据增强技术来扩充训练样本,然后将ImageNet上经过预训练的模型迁移到该问题上。为高效提取到板材图像特征,在预训练模型后新增深层特征提取部分,其融合了残差连接和深度可分离卷积,不仅可增强特征重利用率和缓解梯度消失,而且有利于提取到图像深层特征。最后为提升模型在训练过程中的鲁棒性,使用LeakyReLU函数代替ReLU函数避免神经元死亡问题。该方法在泡桐导管图像数据集上测试精度达到了92.8%,对比其他主流方法,该模型可节省古筝品质分级时间,提高识别精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号