首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
陈佳  章坚武  张浙亮 《电信科学》2023,39(2):92-102
随着语音合成和语音转换技术的快速发展,欺骗语音检测方法仍存在欺骗检测准确率低、通用性差等问题。因此,提出一种基于上下文信息与注意力特征的端到端的欺骗检测方法。该方法基于深度残差收缩网络(DRSN),利用双分支上下文信息协调融合模块(DCCM)聚集丰富的上下文信息,融合基于协调时频注意力机制(CTFA)的特征以获得具有上下文信息的跨维度交互特征,从而最大化捕获伪影的潜力。与最佳基线系统相比,在ASVspoof 2019 LA数据集中,所提方法在EER和t-DCF性能指标上分别降低68%和65%;在ASVspoof 2021 LA数据集中,所提方法的EER和t-DCF分别为4.81和0.311 5,分别降低48%和10%。实验结果表明,所提方法能有效提高欺骗语音检测的准确率和泛化能力。  相似文献   

2.
为了提高语音关键词识别的性能,在无自动语音识别的端到端关键词识别模型的基础上,使用了软注意力机制并结合多任务训练的方式对其进行了改进。改进后的基于注意力机制的关键词识别模型由四部分构成,关键词嵌入模块和声学模块使用软注意力来得到特征向量,判别器模块和分类器模块输入特征向量来进行关键词识别。实验结果表明,改进后模型的准确率分别比基线模型和传统的关键词检索方法高出37.3%和3.1%。  相似文献   

3.
图像压缩是低层级图像处理领域的重要研究方向,近年来,基于深度学习的图像压缩算法取得了巨大进展。结合注意力模块RBAM(Residual Block Attention Module)的高斯混合模型压缩算法可获得较好效果,但由于RBAM单个模块参数量较大,只能在压缩算法编解码网络中局部嵌入,限制了注意力模块在全网络中的潜力。使用一种轻量级的通道注意力模块,将其嵌入到整个图像编解码网络中,构成了一种全注意力的图像压缩算法。与嵌入RBAM的压缩算法相比,所提算法在获得更好的率失真性能的同时,网络中注意力模块参数量减少了26.8%。实验结果表明,当以峰值信噪比(PSNR)和多尺度结构相似性(MS-SSIM)作为评价指标时,所提算法在Kodak和CLIC两个图像验证数据集上的率失真性能都超越了已有算法,并获得了更好的主观视觉效果。  相似文献   

4.
李蕊  郭敏  马苗 《光电子.激光》2021,32(5):485-490
针对深度网络模型进行端到端语音去噪时存在对语音底层信息表示能力不足以及网络只采用卷积级联的方式造成参数冗余的问题,提出了一种融合残差机制和注意力机制的生成对抗网络去噪模型(Attention Res-UNetGAN).模型在波形域对语音进行去噪,其生成网络为U-Net结构,包含下采样层、中间层和上采样层.中间层为改进的...  相似文献   

5.
本文针对背景干扰、特征信息不足以及尺度剧烈变化等问题,提出了一种基于多尺度及双注意力机制(Multi-Scale and Dual Attention,MSDA)的小尺寸人群计数网络.MSDA网络主要由空间一通道双注意力(Spatial Channel-dual Attention,SCA)模块和多尺度特征融合(Multi-scale Feature Fusion,MFF)模块构成.MFF模块将特征送入三列拥有不同卷积核的膨胀卷积来扩大小目标的空间尺度,再通过特征级联及卷积操作进行多尺度特征融合;SCA模块把特征送入通道注意力网络,使用空间注意力中的池化操作及逐像素相乘操作加强细节信息;最后将处理好的特征送入密度图生成模块,通过1 x 1卷积获得密度图.在Mall数据集和Shanghaitech数据集上进行了测试,取得了较好的准确率与鲁棒性.  相似文献   

6.
为了解决自然场景文本检测中由于文本实例分布随机、形态与尺度多样造成的检测难题,设计了一种基于注意力机制特征融合与增强的自然场景文本检测算法。利用注意力机制对有效特征提取的优势,在模型的解码融合阶段设计并引入了一种基于注意力的特征融合模块(Attention-based Feature Fusion Module, AFFM),利用空间和通道注意力分别为高层特征和低层特征引入更丰富的细节和全局信息,进一步提高了检测的准确率;设计了联合注意力特征增强模块(Joint Attention Feature Enhancement Module, JAM),利用卷积对级联后的特征在不同通道之间、空间位置间的联系建模,并生成联合特征权重mask对级联特征做加权,从而提高信息的表征能力,有效减少误检与漏检。在Total-Text和ICDAR2015两个数据集上对模型做评估,测试结果表明,该方法的F1综合指标分别达到了85.1%和87.6%,均优于当前主流算法。  相似文献   

7.
基于卷积神经网络的表面缺陷检测算法虽然取得了较高的检测精度,但在检测速度上不能较好满足实际工程应用的实时性需求。为了满足实际工程中对检测精度与检测速度的均衡要求,文中以YOLOV5s为基线提出一种基于通道空间注意力的表面缺陷检测算法YOLOV5s_Attention。首先,将传统的数据增强与马赛克数据增强相结合来提升模型鲁棒性;其次,在Backbone中添加SE模块,将不同通道的特征权重进行重新分配,更有效地进行特征提取;最后,在Neck的跳链中添加CBAM模块,将提取特征依次进行通道与空间维度的融合,较好地保留了图像的通道特征与空间位置信息。在标准数据集上的大量对比实验证实了提出的YOLOV5s_Attention优于一些现有的经典模型。以NEU-DET数据集为例,相较于基线YOLOV5s,YOLOV5s_Attention的检测精度提升了8.3%,其中六类缺陷之一的细裂纹(Cr)的检测精度由32.8%提升到了76.8%,在保证检测精度的同时,单帧检测时间也达到91 f/s,从而能较好地满足缺陷检测工程中对检测精度与检测速度的均衡需求。  相似文献   

8.
陈旭初  张卫强  马勇 《电子学报》2023,(12):3582-3590
阿尔茨海默症(Alzheimer’s Disease,AD)是一种退行性疾病,随着病情加重,患者的语言能力逐渐减弱.目前已经有研究者使用梅尔谱图、梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)等声学特征对阿尔茨海默症患者和健康人进行分类,但是对于使用神经网络从原始波形提取特征进行阿尔茨海默症检测还缺少进一步的探索.本文提出一种基于原始波形的端到端阿尔茨海默症检测方法 .该方法使用一维卷积从原始波形中提取时间维度特征,并使用含有膨胀卷积的残差块提取更复杂的特征.为进一步提高性能,在残差块中引入挤压-激励模块.在全国人机语音通讯学术会议(National Conference on Man-Machine Speech Communication,NCMMSC)2021 AD数据集上,本文提出的模型在长音频测试集、短音频测试集分别达到了86.55%和81.35%的准确率,比基线系统分别提高了6.75%、7.35%.在INTERSPEECH2020 ADReSS数据集上,模型的准确率为66.67%,比基线系统提高4.17%.  相似文献   

9.
赵泽宇  张卫强  刘加 《信号处理》2020,36(6):839-851
传统的关键词搜索(KWS, Keyword Search)系统依靠自动语音识别(ASR, Automatic Speech Recognition),通常在资源不足的情况下很难训练。为了免去训练完整的语音识别系统,无语音识别(ASR-free)的关键词检索系统受到越来越多的欢迎。本文提出了一个端到端(E2E, End-to-End)的关键词检索系统,该系统由两个编码器,两个解码器,一个注意机制和一个判别器组成。本文在所提出的系统中引入了注意力机制,该机制可以合并编码器输出的文本和音频特征从而辅助定位关键词所在的位置。在文本和音频解码器的不同组合情况下,使用Babel阿萨姆语和普什图语数据集测试系统。实验结果表明,相比于基线系统而言,该系统拥有更好的检测性能。相比于基于语音识别的关键词检索系统,该系统对于集外词(OOV, Out-Of-Vocabulary),在STWV(Supremum Term Weighted Value)指标上,取得了更好的效果。当训练数据量受限时,该系统比基于语音识别的关键词检索系统更具有优势。   相似文献   

10.
赵琰  赵凌君  匡纲要 《电子学报》2021,49(9):1665-1674
针对合成孔径雷达(Synthetic Aperture Radar,SAR)图像中飞机目标散射点离散化程度高,周围背景干扰复杂,现有算法对飞机浅层语义特征表征能力弱等问题,本文提出了基于注意力特征融合网络(Attention Feature Fu-sion Network,AFFN)的SAR图像飞机目标检测算法.通过引入瓶颈注意力模块(Bottleneck Attention Module,BAM),本文在AFFN中构建了包含注意力双向特征融合模块(Attention Bidirectional Feature Fusion Module,ABFFM)与注意力传输连接模块(Attention Transfer Connection Block,ATCB)的注意力特征融合策略并合理优化了网络结构,提升了算法对飞机离散化散射点浅层语义特征的提取与判别.基于自建的Gaofen-3与TerraSAR-X卫星图像混合飞机目标实测数据集,实验对AFFN与基于深度学习的通用目标检测以及SAR图像特定目标检测算法进行了比较,其结果验证了AFFN对SAR图像飞机目标检测的准确性与高效性.  相似文献   

11.
Conformer模型因其优越的性能,吸引了越来越多研究者的关注,逐渐成为语音识别领域的主流模型,但因其采用注意力机制从输入中提取信息,需要对输入序列中所有样本点进行交互计算,导致网络计算复杂度为输入序列长度的平方,因此在对长语音进行识别时需要消耗更多计算资源,其识别速度较慢。针对此问题,本文提出一种线性注意力机制的语音识别方法。首先,提出一种新型门控线性注意力结构将多头注意力改进为单头,将注意力计算复杂度改进为序列长度的线性关系,以有效减少注意力计算复杂度。其次,为了弥补使用线性注意力导致的模型建模能力下降,在线性注意力求解过程中,综合使用局部注意力和全局注意力,联合线性注意力编码,提高模型识别精度。最后,为了进一步提升模型识别效果,在注意力损失和连接时序分类(connectionist temporal classification, CTC)损失的基础上使用注意力引导损失和中间CTC损失融合建模目标函数。在中文普通话数据集AISHELL-1和英文LibriSpeech数据集上的实验结果表明,改进模型的性能明显优于基线模型,且模型显存消耗下降,训练、识别速度得到较大提升。  相似文献   

12.
张玥  张雄伟  孙蒙 《信号处理》2022,38(10):2134-2143
近年来,基于神经网络的方法大量应用于骨导语音增强中。然而,由于骨导数据集样本较少,骨导语音高频部分缺失,不同说话人高频部分失真程度不同,神经网络难以有效学习骨导语音的频谱特征。因此,现有骨导语音增强模型对于未知说话人骨导语音数据集增强效果不佳、鲁棒性不强。为充分利用骨导语音的时频信息,引导模型关注骨导语音的低频部分特征,提出一种基于时频注意力机制和U-Net的骨导语音增强方法。该方法将时频注意力机制引入U-Net结构中,首先根据骨导语音时间、频率方向特征信息的重要程度自动为其分配权重,而后以加权后的骨导语音谱作为输入,对应的气导语音谱作为目标进入U-Net结构训练,最后利用训练完成的增强模型重构骨导语音全频带的语音。仿真实验与可视化分析结果表明,对比基线U-Net结构与其他注意力机制,该方法对于未知说话人骨导语音数据集能够取得更高的PESQ和STOI客观评价指标,增强语音更加清晰。  相似文献   

13.
唐君  张连海  李嘉欣 《信号处理》2022,38(3):527-535
针对现有的语音合成系统Tacotron 2中存在的注意力模型学习慢、合成语音不够鲁棒以及合成语音速度较慢等问题,提出了三点改进措施:1.采用音素嵌入作为输入,以减少一些错误发音问题;2.引入一种注意力损失来指导注意力模型的学习,以实现其快速、准确的学习能力;3.采用WaveGlow模型作为声码器,以加快语音生成的速度....  相似文献   

14.
针对基于局部二值模式的伪装语音检测方法的合成语音检测准确度较低的情况,提出了一种基于中心对称局部二值模式的伪装语音检测方法。该方法通过短时傅里叶变换得到语音信号的语谱图,再利用中心对称局部二值模式提取语谱图的纹理特征,并用该纹理特征训练随机森林分类器,从而实现真伪语音的判别。该方法综合考虑语谱图中像素点的数值大小和位置关系,包含了更加全面的纹理信息,并将特征维度降低至16维,有利于减少计算量。实验结果表明,在ASVspoof 2019数据集上,与传统的基于局部二值模式的伪装语音检测方法相比,所提方法将合成伪装语音的串联检测代价函数(t-DCF)降低了16.98%,检测速度提高了89.73%。  相似文献   

15.
深度学习在室内人员检测领域应用广泛,但是传统的卷积神经网络复杂度大且需要高算力GPU的支持,很难实现在嵌入式设备上的部署。针对上述问题,该文提出一种基于改进YOLOv4-tiny的轻量化室内人员目标检测算法。首先,设计一种改进的Ghost卷积特征提取模块,有效减少了模型的复杂度;同时,该文通过采用带有通道混洗机制的深度可分离卷积进一步减少网络参数;其次,该文构建了一种多尺度空洞卷积模块以获得更多具有判别性的特征信息,并结合改进的空洞空间金字塔池化结构和具有位置信息的注意力机制进行有效的特征融合,在提升准确率的同时提高推理速度。在多个数据集和多种硬件平台上的实验表明,该文算法在精度、速度、模型参数和体积等方面优于原YOLOv4-tiny网络,更适合部署于资源有限的嵌入式设备。  相似文献   

16.
Image steganalysis based on convolutional neural networks(CNN) has attracted great attention. However, existing networks lack attention to regional features with complex texture, which makes the ability of discrimination learning miss in network. In this paper, we described a new CNN designed to focus on useful features and improve detection accuracy for spatial-domain steganalysis. The proposed model consists of three modules: noise extraction module, noise analysis module and classification module. A channel attention mechanism is used in the noise extraction module and analysis module, which is realized by embedding the SE(Squeeze-and-Excitation) module into the residual block. Then, we use convolutional pooling instead of average pooling to aggregate features. The experimental results show that detection accuracy of the proposed model is significantly better than those of the existing models such as SRNet, Zhu-Net and GBRAS-Net. Compared with these models, our model has better generalization ability, which is critical for practical application.  相似文献   

17.
罗茜  赵睿  庄慧珊  罗宏刚 《信号处理》2022,38(12):2628-2638
针对无人机平台下小目标检测性能差、目标尺度变化较大、复杂背景干扰等导致跟踪失败的问题,该文提出一种联合优化检测器YOLOv5(You Only Look Once)和Deep-SORT(Simple Online and Realtime Tracking with a Deep Association Metric)的无人机多目标跟踪算法。该算法使用改进的CSPDarknet53(Cross Stage Paritial Darknet53)骨干网络重新构建检测器中的特征提取模块,同时通过自顶向下和自底向上的双向融合网络设计小目标检测层,采用无人机航拍数据集训练更新优化后的目标检测网络模型,解决小目标检测性能差问题;在跟踪模块中,提出结合时空注意力模块的残差网络作为特征提取网络,加强网络感知微小外观特征及抗干扰的能力,最后采用三元组损失函数加强神经网络区分类内差异的能力。实验结果表明,优化后的目标检测的平均检测精度相比于原始YOLOv5提升了11%,在UAVDT数据集上相较于原始跟踪算法准确率与精度分别提高了13.288%、3.968%,有效减少目标身份切换频次。  相似文献   

18.
Aiming at the problem of low surface defect detection accuracy of industrial products, an object detection method based on simplified spatial pyramid pooling fast (Sim SPPF) hybrid pooling improved you only look once version 5s (YOLOV5s) model is proposed. The algorithm introduces channel attention (CA) module, simplified SPPF feature vector pyramid and efficient intersection over union (EIOU) loss function. Feature vector pyramids fuse high-dimensional and low-dimensional features, which makes semantic information richer. The CA mechanism performs maximum pooling and average pooling operations on the feature map. Hybrid pooling comprehensively improves detection computing efficiency and accurate deployment ability. The results show that the improved YOLOV5s model is better than the original YOLOV5s model. The average test accuracy (mAP) can reach 91.8%, which can be increased by 17.4%, and the detection speed can reach 108 FPS, which can be increased by 18 FPS. The improved model is practicable, and the overall performance is better than other conventional models.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号