期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

俞利强马道钧《计算机工程与应用》2010,46(19):211-213

针对当提取以整段语音的多维语音特征参数为BP 神经网络输入而带来的说话人识别率和网络训练稳定性的问题,提出了一种用于BP 网络的基于主分量分析的PCA新方法。将该方法得到的降维语音特征参数用于BP 网络中,其识别率和训练速度都得到较大提高,使得基于BP 神经网络的说话人识别得到更好效果。相似文献

2.

基于尺度相关-双向长短期记忆网络模型的说话人识别

曹书鑫冯藤藤葛凤培梁春燕《计算机工程》2023,(4):289-296

说话人识别通过语音对说话人进行身份认证,然而大部分语音在时域与频域具有分布多样性,目前说话人识别中的卷积神经网络深度学习模型普遍使用单一的卷积核进行特征提取,无法提取尺度相关特征及时频域特征。针对这一问题,提出一种尺度相关卷积神经网络-双向长短期记忆(SCCNN-BiLSTM)网络模型用于说话人识别。通过尺度相关卷积神经网络在每一层特征抽象过程中调整感受野大小,捕获由尺度相关块组成的尺度特征信息,同时引入双向长短期记忆网络保留与学习语音数据的多尺度特征信息,并在最大程度上提取时频域特征的上下文信息。实验结果表明,SCCNN-BiLSTM网络模型在LibriSpeech和AISHELL-1数据集上迭代50 000次时的等错率为7.21%和6.55%,相比于ResCNN基线网络模型提升了25.3%和41.0%。相似文献

3.

基于MFCC和BP神经网络的说话人识别研究

缴春芳尹业安梁玉营《网友世界》2013,(4):37-37

介绍了语音的美尔倒谱特征及提取算法,并提取语音段的美尔倒谱特征,建立BP神经网络,用Matlab进行仿真识别,表明能较好的实现连续语音的说话人识别。相似文献

4.

语音识别中说话人自适应方法研究综述

朱方圆马志强陈艳张晓旭王洪彬宝财吉拉呼《计算机科学与探索》2021,15(12):2241-2255

语音是人机交互方式之一,语音识别技术是人工智能的重要组成部分.近年来神经网络技术在语音识别领域的应用快速发展,已经成为语音识别领域中主流的声学建模技术.然而测试条件中目标说话人语音与训练数据存在差异,导致模型不适配的问题.因此说话人自适应(SA)方法是为了解决说话人差异导致的不匹配问题,研究说话人自适应方法成为语音识别领域的一个热门方向.相比传统语音识别模型中的说话人自适应方法,使用神经网络的语音识别系统中的自适应存在着模型参数庞大,而自适应数据量相对较少等特点,这使得基于神经网络的语音识别系统中的说话人自适应方法成为一个研究难题.首先回顾说话人自适应方法的发展历程和基于神经网络的说话人自适应方法研究遇到的各种问题,其次将说话人自适应方法分为基于特征域和基于模型域的说话人自适应方法并介绍对应原理和改进方法,最后指出说话人自适应方法在语音识别中仍然存在的问题及未来的发展方向. 相似文献

5.

遗传算法与BP神经网络相结合的说话人识别系统 总被引：2，自引：0，他引：2

周燕《传感器与微系统》2009,28(6):98-100

基于BP神经网络的说话人识别系统是目前说话人识别中的一种主要模型,但BP神经网络通常难以确定隐含层单元的数目,且收敛速度慢。针对此缺点,提出了一种基于遗传算法（GA）的说话人识别BP神经网络优化方案,该方案利用混合编码的GA对神经网络的连接权和结构进行了优化,可以有效地剔除整个网络冗余节点和冗余连接权,方案利用了BP神经网络的并行性和GA的全局搜索能力,显著地改善了网络的处理能力。实验表明：基于混合编码GA的BP神经网络具有快速学习网络权重的能力,识别率高,是说话人识别的一种有效可行的新方案。相似文献

6.

多说话人环境下目标说话人语音提取方案

叶于林莫建华刘夏《计算机系统应用》2016,25(4):8-15

于目标声源的方位信息与非线性时频掩蔽语音欠定盲分离方法和BP说话人识别技术的研究基础上,针对现实生活中多说话人交流场景,设计并提出了一种行之有效的解决方案,实现了对处于任意方位的任意目标说话人语音的提取.该方案总体上分目标语音搜索与提取两个阶段,搜索阶段采用了BP说话人识别技术,提取阶段采用了一种改进的势函数聚类声源方位信息与非线性时频掩蔽的语音欠定盲分离方法.实验结果表明:该方案具有可行性,可从混合语音流中有效提取处于任意方位的目标说话人语音,且效果较好,信噪比增益平均为8.68dB,相似系数为85%,识别率为61%,运行时间为20.6S. 相似文献

7.

基于神经网络的语音识别技术研究 总被引：5，自引：0，他引：5

孙宁孙劲光孙宇《计算机与数字工程》2006,34(3):58-61

对BP神经网络在特定人语音识别技术中的应用进行了探索性的研究，进而对非特定人语音识别做了一定的实验和研究。通过对比分析了传统的语音识别方法——模板匹配法和人工神经网络语音识别方法的优缺点。神经网络可以得到较高的识别准确度，但是训练速度慢是它的弱点，因此，针对经典的BP算法训练速度慢的缺点，对BP网络加以改进，提高网络训练速度，通过改进使神经网络用于语音识别的各种优越性充分发挥。相似文献

8.

复杂环境下基于自适应深度神经网络的鲁棒语音识别

张开生赵小芬《计算机工程与科学》2022,44(6):1105-1113

在连续语音识别系统中,针对复杂环境(包括说话人及环境噪声的多变性)造成训练数据与测试数据不匹配导致语音识别率低下的问题,提出一种基于自适应深度神经网络的语音识别算法。结合改进正则化自适应准则及特征空间的自适应深度神经网络提高数据匹配度;采用融合说话人身份向量i-vector及噪声感知训练克服说话人及环境噪声变化导致的问题,并改进传统深度神经网络输出层的分类函数,以保证类内紧凑、类间分离的特性。通过在TIMIT英文语音数据集和微软中文语音数据集上叠加多种背景噪声进行测试,实验结果表明,相较于目前流行的GMM-HMM和传统DNN语音声学模型,所提算法的识别词错误率分别下降了5.151%和3.113%,在一定程度上提升了模型的泛化性能和鲁棒性。相似文献

9.

用于神经网络说话人识别的PCA-GA研究 总被引：1，自引：1，他引：0

俞利强马道钧《计算机工程与设计》2009,30(19)

针对用于神经网络说话人识别的海量特征参数带来的识别率和网络训练稳定性的问题,提出了一种用于神经网络的基于语音特征参数的PCA新方法.该方法提取出的新特征参数在神经网络中的识别率和训练速度得到较大提高.结合GA能有效防止网络收敛于局部极小点,缩短训练时间,提高网络稳定性.从而全面提高了基于NN的说话人识别效果. 相似文献

10.

低信噪比下联合训练生成对抗网络的语音分离

王涛全海燕《计算机工程与科学》2021,43(6):1088-1094

提升低信噪比下的分离语音质量是语音分离技术研究的重点,而大多数语音分离方法在低信噪比下仍只对目标说话人的语音进行特征训练.针对目前方法的不足,提出了一种基于联合训练生成对抗网络GAN的混合语音分离方法.为避免复杂的声学特征提取,生成模型采用全卷积神经网络直接提取混合语音时域波形的高维特征,判别模型通过构建二分类卷积神经网络来学习干扰说话人的特征信息,继而使系统得到的分离信息来源不再单一.实验结果表明,所提方法在低信噪比下仍能更好地恢复高频成分的信息,在双说话人混合语音数据集上的分离性能要优于所对比的方法. 相似文献

11.

一种用于说话人辨认的EM训练算法 总被引：2，自引：0，他引：2

熊汉春贺前华《数据采集与处理》1998,13(3):214-219

提出用于说话人辨认的一种概率映射网络（ＰＭＮ）分类器，分类器的参数用ＥＭ（Ｅｘｐｅｃｔａｔｉｏｎｍａｘｉｍｉｚａｔｉｏｎ）算法进行训练。ＰＭＮ网为一个四层前馈网，它构成一个贝叶斯分类器，实现多类分类的贝叶斯判别，把输入的说话人语音数据模型参数通过网络变换为输出的说话人判定。其网络节点对应于贝叶斯后验概率公式的各个变量。该ＰＭＮ网络用高斯核函数作为密度函数，网络参数训练由ＥＭ算法实现，其学习方式为类间的监督学习和类内的非监督学习。实验结果表明，这种分类网络及其学习算法在说话人辨认应用中是有效的。相似文献

12.

基于改进BP网络的车牌字符识别方法研究 总被引：2，自引：0，他引：2

李会民张仁津《计算机工程与设计》2010,31(3)

介绍了车牌自动识别的过程和原理、车牌识别中所需要的关键图像处理技术,并对BP神经网络算法进行了阐述.结合目前车牌编制的特点,基于BP神经网络原理对车牌自动识别技术中的字符识别技术进行了新探索,提出了适用于新<机动车登记规定>车牌编制方法的神经网络结构和识别算法.通过恰当设置BP网络隐层节点数,详细介绍了改进BP网络算法步骤,分析了易混字符,并用MATLAB进行了实验,实验结果表明,改进网络结构后的方法识别准确率高、识别过程速度快、系统鲁棒性强. 相似文献

13.

基于LM算法的神经网络语音识别 总被引：2，自引：0，他引：2

葛玲贾志成夏克文王霞《计算机工程与设计》2006,27(14):2534-2536,2539

由于语音识别中朵用标准BP算法存在的训练速度慢、容易陷入局部极小等问题，提出一种基于稳定、快速的Levenberg-Marquardt算法的神经网络语音识别方法，主要包括语音信号预处理、特征提取、网络结构优化设计、网络学习训练和语音识别等过程。其中网络隐含层节点数的选取采用黄金分割优选法。试验仿真表明，LM算法明显提高了网络训练速度，减少了训练时间，其效果优越于标准BP算法。相似文献

14.

改进卷积输入的端到端普通话语音识别

下载免费PDF全文

王彦哲张立民张兵强李振宇《计算机工程与应用》2019,55(17):143-149

主流神经网络训练的交叉熵准则是对声学数据的每个帧进行分类优化，而连续语音识别是以序列级转录准确性为性能度量。针对这个不同，构建基于序列级转录的端到端语音识别系统。针对低资源语料条件下系统性能不佳的问题，其中模型使用卷积神经网络对输入特征进行处理，选取最佳的网络结构，在时域和频域进行二维卷积，从而改善输入空间中因不同环境和说话人产生的小扰动影响。同时神经网络使用批量归一化技术来减少泛化误差，加速训练。基于大型的语言模型，优化解码过程中的超参数，提高模型建模效果。实验结果表明系统性能提升约24%，优于主流语音识别系统。相似文献

15.

Nonlinear normalization of input patterns to speaker variability in speech recognition neural networks

Isar Nejadgholi Seyyed Ali Seyyedsalehi 《Neural computing & applications》2009,18(1):45-55

The issue of input variability resulting from speaker changes is one of the most crucial factors influencing the effectiveness of speech recognition systems. A solution to this problem is adaptation or normalization of the input, in a way that all the parameters of the input representation are adapted to that of a single speaker, and a kind of normalization is applied to the input pattern against the speaker changes, before recognition. This paper proposes three such methods in which some effects of the speaker changes influencing speech recognition process is compensated. In all three methods, a feed-forward neural network is first trained for mapping the input into codes representing the phonetic classes and speakers. Then, among the 71 speakers used in training, the one who is showing the highest percentage of phone recognition accuracy is selected as the reference speaker so that the representation parameters of the other speakers are converted to the corresponding speech uttered by him. In the first method, the error back-propagation algorithm is used for finding the optimal point of every decision region relating to each phone of each speaker in the input space for all the phones and all the speakers. The distances between these points and the corresponding points related to the reference speaker are employed for offsetting the speaker change effects and the adaptation of the input signal to the reference speaker. In the second method, using the error back-propagation algorithm and maintaining the reference speaker data as the desirable speaker output, we correct all the speech signal frames, i.e., the train and the test datasets, so that they coincide with the corresponding speech of the reference speaker. In the third method, another feed-forward neural network is applied inversely for mapping the phonetic classes and speaker information to the input representation. The phonetic output retrieved from the direct network along with the reference speaker data are given to the inverse network. Using this information, the inverse network yields an estimation of the input representation adapted to the reference speaker. In all three methods, the final speech recognition model is trained using the adapted training data, and is tested by the adapted testing data. Implementing these methods and combining the final network results with un-adapted network based on the highest confidence level, an increase of 2.1, 2.6 and 3% in phone recognition accuracy on the clean speech is obtained from the three methods, respectively. 相似文献

16.

浅谈BP神经网络在模式识别中的应用

林加乡葛元《数字社区&智能家居》2011,(7)

模式识别技术在各行各业都有广泛的应用。在工业检测、医疗仪器的样本检查分析、军事卫星侦察、人工智能方面有着举足轻重的作用。该文介绍基于BP神经网络的模式识别方法。运用一种基于BP神经网络的改进算法,将基于学习的思想引入到模式识别中,对样本数据进行学习和训练,形成良好的网络,最后对与已训练好的网络进行检验的整个过程,由于达到了一定的准确度,避开了传统方法计算属性权重的问题。相似文献

17.

基于粒子群算法和神经网络的人脸识别分类器研究

段向军《计算技术与自动化》2011,30(2):115-117

针对BP神经网络作为人脸识别分类器具有的收敛速度慢、易陷入局部极小等缺点,提出利用改进的粒子群优化算法(PSO)改善BP网络训练的方法,建立种基于改进的PSO-BP神经网络,更合理有效地确定神经网络的连接权值和阈值,将其应用到人脸识别系统中的分类环节中,并与单独使用BP神经网络分类的结果相比较,实验表明,该方法识别速度... 相似文献