期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

正交拉普拉斯语种识别方法 总被引：3，自引：2，他引：1

杨绪魁屈丹张文林《自动化学报》2014,40(8):1812-1818

提出了一种正交拉普拉斯语种识别方法,即在提取语音的i-vector后,采用正交局部保持投影进行子空间映射,将信号整体空间映射到语言信息加信道信息子空间,然后对映射后的矢量进行信道补偿处理,最后用支持向量机进行识别. 尽管i-vector最大限度地保留了语音的声学信息,但是并没有发现这些信息之间的内在结构. 利用正交局部保持投影在去除声学无关信息的基础上,进一步发现声学特征的内在结构,能够有效地提高特征的区分性. 在对NIST LRE 2003测试数据库实验后,发现新方法相较于基线系统来说,平均代价降低了28.91%. 相似文献

2.

一种改进的线性注意力机制语音识别方法

下载免费PDF全文

李宜亭屈丹杨绪魁张昊沈小龙《信号处理》2023,39(3):516-525

Conformer模型因其优越的性能,吸引了越来越多研究者的关注,逐渐成为语音识别领域的主流模型,但因其采用注意力机制从输入中提取信息,需要对输入序列中所有样本点进行交互计算,导致网络计算复杂度为输入序列长度的平方,因此在对长语音进行识别时需要消耗更多计算资源,其识别速度较慢。针对此问题,本文提出一种线性注意力机制的语音识别方法。首先,提出一种新型门控线性注意力结构将多头注意力改进为单头,将注意力计算复杂度改进为序列长度的线性关系,以有效减少注意力计算复杂度。其次,为了弥补使用线性注意力导致的模型建模能力下降,在线性注意力求解过程中,综合使用局部注意力和全局注意力,联合线性注意力编码,提高模型识别精度。最后,为了进一步提升模型识别效果,在注意力损失和连接时序分类（connectionist temporal classification, CTC）损失的基础上使用注意力引导损失和中间CTC损失融合建模目标函数。在中文普通话数据集AISHELL-1和英文LibriSpeech数据集上的实验结果表明,改进模型的性能明显优于基线模型,且模型显存消耗下降,训练、识别速度得到较大提升。相似文献

3.

基于长时信息的自适应话音激活检测 总被引：1，自引：0，他引：1

下载免费PDF全文

杨绪魁屈丹张文林闫红刚《电子学报》2018,46(4):878-885

语音信号的长时信息应用于话音激活检测中表现优越.利用三种听觉滤波器组,对语音信号进行非线性的谱分解,本文提出了六种基于听觉滤波器组的长时信息,并提出了基于长时信息的自适应话音激活检测算法.该算法无需训练数据,根据多种长时信息,直接在待测信号中挑选出类别明确的信号,然后利用这些信号训练分类模型,对待测信号按帧进行语音-非语音分类.在TIMIT语音库和NOISEX-92噪声库上的实验表明,该算法在极低信噪比环境下,仍表现出更高的准确性和更强的稳健性.同时,在线实验表明,算法在实时处理中仍能取得优异的性能. 相似文献

4.

特征空间本征音说话人自适应

屈丹杨绪魁张文林《自动化学报》2015,41(7):1244-1252

提出了特征空间本征音说话人自适应算法,该方法首先借鉴RATZ 算法的思想,采用高斯混合模型对特征空间中的说话人信息进行建模;其次利用子空间方法实现对特征补偿项的估计,减少估计参数的数量,在对特征空间精确建模的同时,降低了算法对自适应数据量的需求.基于微软语料库的中文连续语音识别实验表明,该算法在自适应数据量极少时仍能取得较好的性能,配合说话人自适应训练能够进一步降低词错误率,其实时性优于本征音说话人自适应算法. 相似文献

5.

基于正则化i Vector算法的语种识别

下载免费PDF全文

杨绪魁屈丹张文林《信息工程大学学报》2015,16(2):191-196,213

为了解决语种识别中语音段长度失配以及短语音数据不充分带来的系统性能下降问题,提出了一种基于正则化的i-Vector改进算法。该算法通过对目标函数引入适当的正则化因子,构造新的目标函数进行优化,从而获得更好的i-Vector向量,提高解的稳定性。详细推导了正则化的目标函数构造过程和数学优化方法。语种识别实验证明,改进算法与基线系统相比,在测试语料为短语音段时,系统性能有一定的提升,测试语料越短,性能提升越明显。相似文献

6.

基于神经网络和空域聚类的时频掩蔽值估计波束形成

下载免费PDF全文

郭晓波屈丹杨绪魁刘诚然《信息工程大学学报》2021,22(4):385-392

为进一步提升基于时频掩蔽值的波束形成的性能,提出集成基于神经网络的复值时频掩蔽值估计和基于空域聚类的实值时频掩蔽值估计的波束形成方法,旨在提高声源存在概率估计的准确性。该方法首先提取输入信号的时频特征和空域特征,将时频特征输入到神经网络得到复值时频掩蔽值。利用复值时频掩蔽值中信号的幅度和相位信息,提升存在概率估计的准确性。随后,将神经网络估计的声源存在概率作为空域聚类方法的初始时频掩蔽值,通过期望最大化算法迭代估计时频掩蔽值,从而缓解神经网络方法因数据不匹配带来的性能衰减问题。实验表明,所提集成方法相比基线系统的相对词错误率取得了7.6个百分点的性能提升。相似文献