期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王锦阳华光黄双《信号处理》2022,38(9):1975-1987

近年来深度伪造（Deepfake）技术的迅猛发展使合成语音的自然度和拟人度有了显著提升,对合成语音检测研究提出了更大挑战。本文将五种轻量级注意力模块中的机制改进为适用于语音序列的通道注意力机制和一维空间注意力机制,然后将模块分别嵌入到Inc-TSSDNet网络中,提出基于注意力机制的端到端合成语音检测系统。结果表明,改进系统能够重点关注某些对于检测真伪更关键的通道或区域来提高检测性能,相比于基线模型,引入注意力机制的十种模型在增加的参数量较少的情况下,ASVspoof2019测试集的等错误率（Equal Error Rate,EER）和最小串联检测代价函数（Minimum Tandem Detection Cost Function, min t-DCF）都有所降低,其中在池化层之前嵌入CBAM（Convolutional Block Attention Module）的模型测试集EER最低且具有较强的泛化性,在池化层之前嵌入ECA（Efficient Channel Attention）模块的模型测试集min t-DCF最低且统计性能较基线模型有显著提升。相似文献

2.

基于多频带谱减法的抗噪声语音识别研究 总被引：1，自引：0，他引：1

万义龙《电视技术》2013,37(23)

为了减少在噪声环境下测试条件与训练条件不匹配导致的语音识别性能下降,提出了一种结合多频带谱减法的抗噪声语音识别系统。首先提取带噪语音的前几帧作为估计的噪声信号,将带噪语音、估计的噪声信号按频率划分M个互不相交的频带,然后根据每个频带内带噪语音与估计的噪声信号的性噪比,来确定该频带噪声的谱减参数。语音增强作为前端处理,与语音识别器级连构成抗噪声语音识别系统。通过实验仿真表明,基于多频带谱减法的抗噪声语音识别系统在不同信噪比不同类型的噪声下,识别性能明显优于基本谱减法。相似文献

3.

基于动态权重的知识积累与灵巧干扰识别方法

下载免费PDF全文

李兴宇董胜波于沐尧《雷达科学与技术》2023,21(6):645-652

针对低干噪比条件下灵巧干扰识别准确率不高与干扰特征难以积累导致的网络需要重新训练问题，本文将信号的平滑伪Wigner?Ville分布的时频二维图像作为输入，提出了一种基于动态权重的知识积累（Dynamic Weighted Knowledge Accumulation method based on Convolutional Neural Network, DWKA?CNN）灵巧干扰识别方法，利用通道特征注意力机制，提升了低干噪比下模型的干扰识别能力，通过均值最近邻分层屏蔽网络权重，实现了在单一网络中的知识积累，与当前典型基于深度学习的灵巧干扰识别方法相比，无需每次重新训练即可学习多项干扰识别任务。并且仿真实验表明，与现有典型算法相比，该算法模型在7种雷达灵巧干扰分类数据集上的平均识别准确率显著提升，在低干噪比条件下分类性能优秀。相似文献

4.

融入注意力机制的视频多尺度时序融合行为识别模型

下载免费PDF全文

胡正平邱悦翟丰鋆赵梦瑶毕帅《信号处理》2021,37(8):1470-1478

视频行为识别算法在特征提取过程中,存在未聚焦视频图像显著区域信息的问题,使模型分类效果不理想。为了提高网络区别关注的能力,提出融入注意力机制的视频多尺度时序行为识别算法模型。在视频长-短时序网络中分别融入通道-空间注意力和通道注意力模块,引入注意力机制使网络在训练过程中重新分配权重,捕捉视频内容与位置兴趣点,提高网络的表达能力。在Something-somethingV1和Jester数据集上的实验结果表明,融入轻量注意力模块的视频多尺度时序融合行为识别网络的性能得到有效提升,与其他行为识别网络相比体现出一定的优势。相似文献

5.

采用注意力机制和多任务训练的端到端无语音识别关键词检索系统

下载免费PDF全文

赵泽宇张卫强刘加《信号处理》2020,36(6):839-851

传统的关键词搜索（KWS, Keyword Search）系统依靠自动语音识别（ASR, Automatic Speech Recognition），通常在资源不足的情况下很难训练。为了免去训练完整的语音识别系统，无语音识别（ASR-free）的关键词检索系统受到越来越多的欢迎。本文提出了一个端到端（E2E, End-to-End）的关键词检索系统，该系统由两个编码器，两个解码器，一个注意机制和一个判别器组成。本文在所提出的系统中引入了注意力机制，该机制可以合并编码器输出的文本和音频特征从而辅助定位关键词所在的位置。在文本和音频解码器的不同组合情况下，使用Babel阿萨姆语和普什图语数据集测试系统。实验结果表明，相比于基线系统而言，该系统拥有更好的检测性能。相比于基于语音识别的关键词检索系统，该系统对于集外词（OOV, Out-Of-Vocabulary），在STWV（Supremum Term Weighted Value）指标上，取得了更好的效果。当训练数据量受限时，该系统比基于语音识别的关键词检索系统更具有优势。相似文献

6.

一种改进的基于倒谱特征的带噪语音端点检测方法 总被引：3，自引：0，他引：3

沈红丽曾毓敏王鹏《通信技术》2009,42(2):156-158

环境噪声是语音识别和说话人识别性能下降的原因之一,端点检测作为其关键技术之一,性能优劣在某种程度上决定了识别率的高低。文章提出一种改进的基于倒谱特征的带噪语音端点检测方法。在传统基于倒谱距离的算法基础上,该算法进一步综合利用短时过零率和短时能量作为最终判决的门限。实验结果表明,该方法计算效率较高,低信噪比下有较好的检测性能。相似文献

7.

基于不变集多小波的语音特征参数提取 总被引：1，自引：0，他引：1

莫家玲胡维平《电声技术》2009,33(7):63-67

在研究不变集多小波理论的基础上,借鉴Mel频率倒谱系数（MFCC）的提取算法,用多小波交换代替傅里叶变换及Mel滤波．构造了一种新的语音特征参数MWBC。汉语数字识别实验结果表明,提出的新语音特征参数MWBC的识别性能和抗噪性能均优于MFCC,为提高语音识别系统的噪声鲁棒性提供了一条新途径。相似文献

8.

基于自注意力的端到端方言语音识别模型

下载免费PDF全文

徐凡杨剑峰颜为之王明文《信号处理》2021,37(10):1860-1871

方言语音识别是方言保护的核心环节。传统的方言语音识别模型缺乏考虑方言语音中特定方言音素的重要性,同时缺少多种语音特征提取及融合,导致方言语音识别性能不高。本文提出的端到端方言语音识别模型充分发挥了残差CNN（Convolutional Neural Networks）和Bi-LSTM（Bi-directional Long Short-Term Memory）分别在语音帧内和帧间特征提取的优势,并利用多头自注意力机制有效提取不同方言中特定方言音素信息构成语音发音底层特征,利用该方言发音底层特征进行方言语音识别。在基准赣方言和客家方言两种方言语音语料库上的实验结果表明本文提出的方言语音识别模型显著优于现有基准模型,通过对注意力机制的可视化进一步分析了模型取得性能提升的根本原因。相似文献

9.

融合压缩激活注意机制的图像去雾算法

王娟陈关海武明虎刘子杉郭力权丁畅《激光杂志》2023,(7):83-88

针对非均匀带雾图像出现颜色失真和细节丢失的问题,提出一种融合压缩激活注意力机制的端到端感知去雾卷积神经网络。首先,根据非均匀雾图特征,在特征融合注意网络上引入压缩激活注意力机制,通过学习的方式自动获取每个特征通道的重要程度,并对其进行排序后去提升有用的特征权重,遏制对当前任务用途较小的特征比例;其次,在损失函数方面融入感知损失,使去雾网络模型学习到更多语义特征信息,从而加强被模糊的边缘细节,获取较好的去雾效果;最后,在非均匀带雾图像NH-HAZE数据集上进行定性和定量分析。实验结果表明,所提出的网络与经典方法相比在量化指标PSNR、SSIM分别提升了3.05 dB和0.08%,且主观视觉效果上保留了更多的边缘信息和纹理细节。相似文献

10.

基于通道注意力机制的视频人体行为识别

解怀奇乐红兵《电子技术与软件工程》2020,(4):140-142

本文针对人体行为识别模型中鉴别能力有限的问题,同时避免双流中计算光流的较大时间成本,提出基于通道注意力机制和三维卷积时空注意力模型的行为识别方法。首先,该卷积网络模型使用ResNeXt残差模块,利用三维卷积核有效地提取视频帧时空特征。然后,在此基础上给每个残差模块增加通道注意力机制学习不同特征图的权重,进而形成基于通道域的注意力权重,增强网络结构对人体行为的表征能力。最后,在UCF-101和HMDB-51数据集上,通过交叉熵损失函数训练不同网络深度的行为分类模型。实验结果表明,该模型可以有效提取视频中的时空特征,并在人体行为识别任务中有着较高效率和优秀的准确度。相似文献

11.

Robust speech features based on wavelet transform with application to speaker identification 总被引：2，自引：0，他引：2

Hsieh C.-T. Lai E. Wang Y.-C. 《Vision, Image and Signal Processing, IEE Proceedings -》2002,149(2):108-114

An effective and robust speech feature extraction method is presented. Based on the time-frequency multiresolution property of the wavelet transform, the input speech signal is decomposed into various frequency channels. For capturing the characteristics of an individual speaker, the linear predictive cepstral coefficients of the approximation channel and entropy value of the detail channel for each decomposition process are calculated. In addition, an adaptive thresholding technique for each lower resolution is also applied to remove the influence of noise interference. Experimental results show that using this mechanism not only effectively reduces the influence of noise interference but also improves the recognition performance. Finally, the proposed method is evaluated on the MAT telephone speech database for text-independent speaker identification using the group vector quantisation identifier. Some popular existing methods are also evaluated for comparison, and the results show that the proposed feature extraction algorithm is more effective and robust than the other existing methods. In addition, the performance of the proposed method is very satisfactory even in a low SNR environment corrupted by Gaussian white noise. 相似文献

12.

An error-protected speech recognition system for wirelesscommunications

Weerackody V. Reichl W. Potamianos A. 《Wireless Communications, IEEE Transactions on》2002,1(2):282-291

Future wireless multimedia terminals will have a variety of applications that require speech recognition capabilities. We consider a robust distributed speech recognition system where representative parameters of the speech signal are extracted at the wireless terminal and transmitted to a centralized automatic speech recognition (ASR) server. We propose two unequal error protection schemes for the ASR bit stream and demonstrate the satisfactory performance of these schemes for typical wireless cellular channels. In addition, a "soft-feature" error concealment strategy is introduced at the ASR server that uses "soft-outputs" from the channel decoder to compute the marginal distribution of only the reliable features during likelihood computation at the speech recognizer. This soft-feature error concealment technique reduces the ASR error rate by more than a factor of 2.5 for certain channels. Also considered is a channel decoding technique with source information that improves ASR performance 相似文献

13.

非线性统计匹配用于子带鲁棒语音识别 总被引：1，自引：0，他引：1

孙暐吴镇扬刘海滨《电子与信息学报》2006,28(3):480-484

由于语音信号的多变性,识别系统的性能极易受噪声环境的影响而导致性能下降。该文以听觉试验为基础,提出一种新的非线性独立子带隐马尔可夫模型(HMM)最大后验统计匹配算法。该算法依据人耳感知的频选性,根据各子带噪声特点采用统计匹配、MAP估计和HMM/MLP非线性映射来补偿噪声环境的影响。实验表明该算法明显改善了识别系统在噪声环境下的性能。相似文献

14.

Channel-effect-cancellation method for speech recognition overtelephone systems

Chien J.-T. Lee L.-M. Wang H.-C. 《Vision, Image and Signal Processing, IEE Proceedings -》1995,142(6):395-399

The performance degradation of speech recognition in telephone systems is due to the additive noise and the filtering effect of telephone channels. The authors propose a probabilistic technique to overcome the filtering effect in telephone systems. A set of reference filters, represented in terms of the cepstrum, is generated by clustering the cepstra of inverse telephone channels. A channel-effect-cancellation filter is then approximated by the convex combination of these reference filters. The convex combination coefficients are automatically determined according to the accumulated observation probabilities when a test utterance passes through the reference filters. The experiments on speech through telephone channels show that the channel effect can be mostly cancelled, and the recognition performance can be significantly improved 相似文献

15.

基于噪声被掩蔽概率的优化语音增强方法 总被引：9，自引：0，他引：9

卜凡亮王为民戴启军陈砚圃《电子与信息学报》2005,27(5):753-756

利用听觉系统的掩蔽特性,提出了一种优化的语音增强方法。研究表明,噪声被语音掩蔽的概率是噪声强度和听觉掩蔽阈值的函数。考虑到噪声在带噪语音中的出现具有不确定性,各语音谱分量的最终估计由对带噪语音的谱分量和用传统的增强方法估计的谱分量的加权求得,加权因子由噪声被掩蔽概率确定。语音增强性能的评估结果表明,这种优化的语音增强方法在减少语音失真与加强噪声抑制之间取得了良好的折衷,减少了语音的听觉失真, 有效地抑制了音乐噪声,提高了增强语音的清晰度。相似文献

16.

一种面向自组织麦克风网络的多通道多人语音分离方法

下载免费PDF全文

张盛杨剑鸣《信号处理》2021,37(5):757-762

针对自组织麦克风网络,如何充分有效地利用多通道语音数据获得更好的语音分离性能是一个难题。本文介绍了一种新的多通道语音分离方法,通过引入压缩激励脊髓模块,在麦克风位置未知时,也能显式地学习潜在的通道关系,自适应地更新各个通道对应特征的权重,以增加少量的额外计算代价达到增强语音分离的效果。压缩激励脊髓模块通过将多通道的特征信息压缩到通道维度,获得全局通道依赖关系的表征,利用激活函数根据通道关系表征对瓶颈单元筛选出有价值的特征信息。瓶颈单元由脊髓网络组成,通过逐步输入的方式生成全局信息和重新配置权重,更有效地处理数据。本文在基于LibriSpeech仿真的多通道版本数据中进行实验,在评估指标SDR和SI-SDR上相比于单通道基线获得了明显的提升,并取得超越最先进的自组织麦克风多通道方法的效果。相似文献

17.

并行子带HMM最大后验概率自适应非线性类估计算法 总被引：1，自引：0，他引：1

孙暐吴镇扬刘海滨周琳《电路与系统学报》2005,10(6):20-24

目前,自动语音识别(ASR)系统在实验室环境下获得了较高的识别率,但是在实际环境中,由于受到背景噪声和传输信道的影响,系统的识别性能急剧恶化.本文以听觉试验为基础,提出一种新的独立子带并行最大后验概率的非线性类估计算法,用以提高识别系统的鲁棒性.本算法利用多种噪声和识别内容功率谱差异,以及噪声在不同频带上对HMM影响的不同,采用多层感知机(MLP)对噪声环境下最大后验概率进行非线性映射,以减少识别系统由于环境不匹配而导致的识别性能下降.实验表明:该算法性能明显优于最大后验线性回归算法和Sangita提出的子带语音识别算法. 相似文献

18.

EAOMDV-MIMC: A Multipath Routing Protocol for Multi-Interface Multi-Channel Mobile Ad-Hoc Networks

Gin-Xian Kok Chee-Onn Chow Yi-Han Xu Hiroshi Ishii 《Wireless Personal Communications》2013,73(3):477-504

Multipath routing has been proposed to improve performance of mobile ad-hoc networks (MANETs). However, due to: (1) nodes lacking of network interface and (2) route coupling, using multiple paths concurrently in conventional single channel MANETs rarely exhibit performance gain. To improve performance, an ad-hoc routing protocol (and its extension) that utilizes multiple homogeneous network interface is proposed in this paper. Unlike other related multi-channel routing protocols, channels are not assigned. Instead, nodes are allowed to make use of all available channels they are tuned to. In the base protocol, nodes estimate channel conditions by monitoring their network interface queues and distribute data packets to different channels and next-hops according to their conditions. In the extended protocol, estimated channel condition at a node is further propagated to neighboring nodes by piggybacking channel condition information in data packets. With overhearing, other nodes can retrieve this information to make better next-hop selections. Extensive simulation studies show that our protocol outperforms other related multi-channel routing protocols. 相似文献

19.

Online Blind Channel Normalization Using BPF‐Based Modulation Frequency Filtering

下载免费PDF全文

Yun‐Kyung Lee Ho‐Young Jung Jeon Gue Park 《ETRI Journal》2016,38(6):1190-1196

We propose a new bandpass filter (BPF)‐based online channel normalization method to dynamically suppress channel distortion when the speech and channel noise components are unknown. In this method, an adaptive modulation frequency filter is used to perform channel normalization, whereas conventional modulation filtering methods apply the same filter form to each utterance. In this paper, we only normalize the two mel frequency cepstral coefficients (C0 and C1) with large dynamic ranges; the computational complexity is thus decreased, and channel normalization accuracy is improved. Additionally, to update the filter weights dynamically, we normalize the learning rates using the dimensional power of each frame. Our speech recognition experiments using the proposed BPF‐based blind channel normalization method show that this approach effectively removes channel distortion and results in only a minor decline in accuracy when online channel normalization processing is used instead of batch processing. 相似文献