首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 912 毫秒
1.
王锦阳  华光  黄双 《信号处理》2022,38(9):1975-1987
近年来深度伪造(Deepfake)技术的迅猛发展使合成语音的自然度和拟人度有了显著提升,对合成语音检测研究提出了更大挑战。本文将五种轻量级注意力模块中的机制改进为适用于语音序列的通道注意力机制和一维空间注意力机制,然后将模块分别嵌入到Inc-TSSDNet网络中,提出基于注意力机制的端到端合成语音检测系统。结果表明,改进系统能够重点关注某些对于检测真伪更关键的通道或区域来提高检测性能,相比于基线模型,引入注意力机制的十种模型在增加的参数量较少的情况下,ASVspoof2019测试集的等错误率(Equal Error Rate,EER)和最小串联检测代价函数(Minimum Tandem Detection Cost Function, min t-DCF)都有所降低,其中在池化层之前嵌入CBAM(Convolutional Block Attention Module)的模型测试集EER最低且具有较强的泛化性,在池化层之前嵌入ECA(Efficient Channel Attention)模块的模型测试集min t-DCF最低且统计性能较基线模型有显著提升。   相似文献   

2.
杨玲  高勇 《通信技术》2023,(4):425-433
自动说话人确认(Automatic Speaker Verification,ASV)技术在日常生活中起着重要作用,同时它也面临着语音合成等欺骗攻击的威胁,因此为ASV系统提供一个有效的合成话音检测方法刻不容缓。近年来,检测任务更加侧重于在真实物理环境下对合成话音展开研究。为了提高模型的鲁棒性,引入虚拟对抗训练对检测任务进行数据增强。实验中在前端提取了多个特征,并在后端采用了SE-Res2net50和ECAPA2D-BL/BG模型。最后还将多个特征,多个模型的打分结果进行融合,提高了总体的检测性能。在逻辑访问场景中,ASVspoof2019挑战赛评估集的串联成本检测代价(tandem Detection Cost Function,t-DCF)和等错率(Equal Error Rate,EER)分别达到0.018 7和0.56%,ASVspoof2021挑战赛评估集的t-DCF和EER分别达到0.307 3和6.05%。  相似文献   

3.
针对基于局部二值模式的伪装语音检测方法的合成语音检测准确度较低的情况,提出了一种基于中心对称局部二值模式的伪装语音检测方法。该方法通过短时傅里叶变换得到语音信号的语谱图,再利用中心对称局部二值模式提取语谱图的纹理特征,并用该纹理特征训练随机森林分类器,从而实现真伪语音的判别。该方法综合考虑语谱图中像素点的数值大小和位置关系,包含了更加全面的纹理信息,并将特征维度降低至16维,有利于减少计算量。实验结果表明,在ASVspoof 2019数据集上,与传统的基于局部二值模式的伪装语音检测方法相比,所提方法将合成伪装语音的串联检测代价函数(t-DCF)降低了16.98%,检测速度提高了89.73%。  相似文献   

4.
王雷鸣 《电声技术》2022,46(4):35-40
现有的重放语音检测方法的性能不够理想,缺乏对未知攻击检测的泛化能力。为此,提出一种方法,首先使用经验模态分解将语音信号分解为不同频段的内涵模态函数(Intrinsic Mode Function,IMF)分量,其次对多个分量分别提取梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征,并将所得的多个二维IMF-MFCC特征在分量的维度上拼接起来得到三维IMF-MFCC特征,最后为提取三维特征分量维度上蕴含的重放痕迹设计了一种3D-ResNet网络。实验结果表明,所提的模型在面对未知重放攻击检测时泛化能力更强。与ASVspoof2019挑战赛的重放语音检测基线系统相比,所提模型以EER和t-DCF衡量的性能分别提升了55.01%和54.72%。  相似文献   

5.
点云语义分割是三维环境感知的基础,直接基于点的语义分割方法避免了因点云结构化处理所造成的信息损失,但大多数深度学习模型的研究主要集中在提取局部几何特征,没有考虑点云不同局部结构之间的上下文关系,并且忽略了低级与高级特征之间的语义差距,限制了特征表示的能力,影响了点云语义分割的精度。因此,文中提出一种基于全局上下文注意力的点云语义分割方法,该方法主要由基于外部注意力的全局上下文特征聚合和基于后向竞争性注意力的邻近尺度特征融合两部分组成。通过外部注意力学习不同局部结构之间的长距离依赖关系,从而获得丰富的全局上下文信息。为了进一步增强模型的上下文感知能力,设计基于后向竞争性注意力的邻近尺度特征融合模块,学习低级与高级语义特征之间的相似度,重新为中间特征通道分配权重。在S3DIS大规模室内点云数据集上对所提方法进行评估,结果表明,所提方法的平均交并比在Area5上达到了65.2%,相比于RandLA-Net提高了2.5%,在6折交叉验证上的平均交并比达到了71.4%,相比于RandLA-Net提高了1.4%。证明了所提方法能够有效提取全局上下文特征,提高了语义分割的精度。  相似文献   

6.
行人检测中,小尺度行人时常被漏检、误检。为了提升小尺度行人的检测准确率并且降低其漏检率,该文提出一个特征增强模块。首先,考虑到小尺度行人随着网络加深特征逐渐减少的问题,特征融合策略突破特征金字塔层级结构的约束,融合深层、浅层特征图,保留了大量小尺度行人特征。然后,考虑到小尺度行人特征容易与背景信息发生混淆的问题,通过自注意力模块联合通道注意力模块建模特征图空间、通道关联性,利用小尺度行人上下文信息和通道信息,增强了小尺度行人特征并且抑制了背景信息。最后,基于特征增强模块构建了一个小尺度行人检测器。所提方法在CrowdHuman数据集中小尺度行人的检测准确率为19.8%,检测速度为22帧/s,在CityPersons数据集中小尺度行人的误检率为13.1%。结果表明该方法对于小尺度行人的检测效果优于其他对比算法且实现了较快的检测速度。  相似文献   

7.
本文提出一个基于卷积注意力机制的文本分类方法,该方法利用卷积神经网络抓取上下文信息,自适应生成注意力权重,并与LSTM模型相融合进行分类。在IMDB影评分类测试中,本文所提方法的分类准确率比基准模型高3.6%,证明了本文所提方法的有效性。  相似文献   

8.
目前的语音重放攻击检测系统中,绝大部分性能良好的系统采用的特征和网络模型的数据量都很大,训练速度慢、对设备要求高.因此本文提出了一种基于CQT(Constant Q Transform)变换的时间帧压缩方法,以减小特征尺寸和网络模型参数量,从而加快训练速度、降低设备要求.首先,将语音信号的CQT谱在时间帧维度上压缩,得到一维特征,成百倍地减少特征数据量;其次,对应设计一维小型残差网络模型,以辅助进一步减少数据量;最后,在ASVspoof2019挑战赛的PA数据集上训练并测试网络模型性能.实验结果表明,本文的特征提取算法和网络模型,相比挑战赛的基线系统以及其他特征-模型的性能有明显提升,t-DCF为0.1051,EER为3.74%,并且训练速度快、设备要求低.  相似文献   

9.
针对水下目标检测任务中存在前景遮挡和背景模糊的问题,文中提出一种基于注意力机制的水下目标检测算法。首先采用图像增强算法改善图像质量。然后在非局部神经网络的相似度函数基础上,融合具有逻辑推理能力的级联相似度函数,增强网络对全局上下文特征的表达能力。随后将改进型非局部神经网络与三分支注意力融合,弥补非局部神经网络丢失的通道特征。最后利用空洞卷积模块置换三分支注意力中的池化操作,减少细粒度信息损失。实验表明,该算法在2020年全国水下目标检测大赛提供的数据集上,使基线方法检测精度由65.66%增长至68.55%,证明了所提算法的有效性。  相似文献   

10.
近年来,三维点云语义分割方法取得了很大的进展,代表性的方法为基于稀疏卷积的方法,但是稀疏卷积会带来全局上下文信息丢失的问题。基于此,提出一种基于稀疏卷积和注意力机制的点云语义分割方法。将注意力机制引入稀疏卷积网络,增强网络对全局上下文信息的获取能力。但是注意力机制计算量较大,限制了所提方法的适用场景。进一步将空间金字塔采样引入注意力机制中,在减少计算量的同时扩展其使用场景。实验结果表明,所提方法在Scannet V2数据集上取得了71.825%的平均交并比(MIOU),在S3DIS数据集上的MIOU达到70.5%,优于对比方法,验证了其有效性。  相似文献   

11.
徐姚文  毋立芳  刘永洛  王竹铭  李尊 《信号处理》2022,38(12):2469-2485
现有基于异常检测的方法大多仅利用活体样本进行单类建模,这样的特征用于活体检测的泛化能力强但准确率不高。而且,活体人脸特征单类建模并没有考虑活体人脸样本的多样性。活体人脸样本的不同身份、环境、采集设备等因素都会导致活体人脸的特征表达不紧凑,这样使得假体样本特征容易混入其中。为了解决以上两个问题,本文提出了一种基于解耦空间异常检测的人脸活体检测算法。本文设计了单中心对比损失,使得活体人脸特征在不限制假体人脸特征分布的情况下表达地更加紧凑。本文还对活体人脸进行了特征解耦,将其特征分为两个子空间:活体检测特征空间、活体无关特征空间。活体检测特征空间不受其他无关因素的影响,结合单中心对比损失来提高模型的泛化能力。库内实验和跨库实验共在5个数据集上与最新的方法进行了比较,在OULU-NPU数据集中,协议1相比于性能第2的模型错误率下降超过一半,最具挑战的协议4取得了仅3.3%的错误率;在SiW数据集的三个协议中也取得更低的错误检测率;在跨库实验中本文算法也表现出不错的泛化能力,尤其是在从重放攻击和打印攻击跨到3D面具攻击的跨攻击类型的测试中相比于性能第2的模型错误率下降5.41%。本文提出的人脸活体检测算法在检测性能和泛化性能上均优于其他先进方法,算法应对未知数据和新的攻击类型的能力有所提高。   相似文献   

12.
赵晓枫  徐叶斌  吴飞  牛家辉  蔡伟  张志利 《红外与激光工程》2022,51(4):20210290-1-20210290-8
地面背景下的红外目标检测是伪装防护、精确制导等领域的关键技术。针对现有基于深度学习的目标检测模型对地面背景下红外目标进行检测时容易受到复杂背景干扰、对目标关注不足,从而导致检测准确率不高的问题,文中提出了一种基于并行注意力机制的地面红外目标检测方法。首先,利用卷积和注意力并行的下采样方式,在降低模型的空间复杂度和提升训练速度的同时,对目标特征进行聚焦和关注;其次,对主干网络提取的多尺度特征进行融合,通过不同尺度信息的复用与互补抑制背景信息的干扰,提升目标检测的准确率;最后,利用焦点损失函数和CIOU损失函数提高模型的分类与回归精度。实验结果表明,在Infrared-VOC数据集上该模型的平均检测精度为82.2%,比YOLOv3提高了6.9%,同时模型的空间复杂度仅为YOLOv3的32.6%,训练时间为YOLOv3的43.7%,实现了模型训练效率和检测精度的提升。  相似文献   

13.
针对无锚框目标检测算法CenterNet中,目标特征利用程度不高、检测结果不够准确的问题,该文提出一种双分支特征融合的改进算法。在算法中,一个分支包含了特征金字塔增强模块和特征融合模块,以对主干网络输出的多层特征进行融合处理。同时,为利用更多的高级语义信息,在另一个分支中仅对主干网络的最后一层特征进行上采样。其次,对主干网络添加了基于频率的通道注意力机制,以增强特征提取能力。最后,采用拼接和卷积操作对两个分支的特征进行融合。实验结果表明,在公开数据集PASCAL VOC上的检测精度为82.3%,比CenterNet算法提高了3.6%,在KITTI数据集上精度领先其6%,检测速度均满足实时性要求。该文提出的双分支特征融合方法将不同层的特征进行处理,更好地利用浅层特征中的空间信息和深层特征中的语义信息,提升了算法的检测性能。  相似文献   

14.
戴妍妍  金赟  马勇  杨子秀  俞佳佳 《信号处理》2021,37(10):1835-1842
传统语音处理方式是把语音样本分割成固定长度的片段,但这种语音样本的切割会导致语音情感分类准确性下降。本文引入循环填充法处理可变长度的log-Mel谱图,该方法能够更好的利用时间动态信息,同时可以减少填充的无效数据对模型参数学习的干扰。由于人类的情感只能在语音中某些特定的时刻出现,为了寻找关键情感特征,本文构建了基于高效通道注意力机制的语音情感识别模型,其中高效通道注意力机制能够计算通道图的重要性,有选择的强调通道图,改进特定情感的表达。本文在交互式情感二元动作捕捉(IEMOCAP)数据库上进行相关实验,在IEMOCAP上采用循环填充法的加权精度(WA)和非加权精度(UA)分别达到73.2%和70.9%,采用本文提出模型的WA和UA分别达到76.0%和73.4%。   相似文献   

15.
基于长时信息的自适应话音激活检测   总被引:1,自引:0,他引:1       下载免费PDF全文
语音信号的长时信息应用于话音激活检测中表现优越.利用三种听觉滤波器组,对语音信号进行非线性的谱分解,本文提出了六种基于听觉滤波器组的长时信息,并提出了基于长时信息的自适应话音激活检测算法.该算法无需训练数据,根据多种长时信息,直接在待测信号中挑选出类别明确的信号,然后利用这些信号训练分类模型,对待测信号按帧进行语音-非语音分类.在TIMIT语音库和NOISEX-92噪声库上的实验表明,该算法在极低信噪比环境下,仍表现出更高的准确性和更强的稳健性.同时,在线实验表明,算法在实时处理中仍能取得优异的性能.  相似文献   

16.
针对复杂城市监控场景中由于目标尺寸变化大、目标遮挡、天气影响等原因导致目标特征不明显的问题,该文提出一种基于注意力机制的多尺度全场景监控目标检测方法。该文设计了一种基于Yolov5s模型的多尺度检测网络结构,以提高网络对目标尺寸变化的适应性。同时,构建了基于注意力机制的特征提取模块,通过网络学习获得特征的通道级别权重,增强了目标特征,抑制了背景特征,提高了特征的网络提取能力。通过K-means聚类算法计算全场景监控数据集的初始锚框大小,加速模型收敛同时提升检测精度。在COCO数据集上,与基本网络相比,平均精度均值(mAP)提高了3.7%,mAP50提升了4.7%,模型推理时间仅为3.8 ms。在整个场景监控数据集中,mAP50达到89.6%,处理监控视频时为154 fps,满足监控现场的实时检测要求。  相似文献   

17.
This paper presents a multimodal biometrie verification system based on the following hand features: palmprint, four digitprints and four fingerprints. The features are obtained using the Karhunen-Loève transform based approach, and information fusion at the matching-score level was applied. We experimented with different resolutions of the regions of interest, different numbers of features and several normalization and fusion techniques at the matching-score level. To increase the reliability of the system to spoof attacks we included an aliveness-detection module based on thermal images of the hand dor sa. The verification performance when using a system configuration with optimum parameters, i.e., resolution, number of features, normalization and fusion technique, showed an equal error rate (EER) of 0.0020%, which makes the system appropriate for the implementation of high-security biometric systems.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号