期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

江铭虎袁保宗《电信科学》1997,13(7):1-6

论述了在语音识别中听觉神经网络模型，ＢＰ网络，时延神经网络，自组织影射，学习矢量量化和神经预测网络的优缺点及神经网络语音识别的发展动态。相似文献

2.

全庆一张忠平《电声技术》1994,(2):2-4

本文根据加权倒变距离测度，提出了一种用于非特定人语音识别的函数链神经网络。此网络与多层感知器相比，不仅具有较高的识别别率，而且大大缩短了网络的学习时间。我们采用６人（３男，３女）的语音数据对汉语十个数字进行了实验，正确识别率为９３．７％。相似文献

3.

有序聚类方法及其在神经网络语音识别中的应用 总被引：3，自引：1，他引：2

史笑兴顾明亮王太君何振亚《电路与系统学报》2000,5(2):99-103

本文提出了一种新的网络结构,我们称之为有序聚类网络。这种网络能够对语音信号进行特征提取,很好地解决神经网络语音识别中的时间规整问题。有序聚类网络从输入语音信号的特征矢量序列中撮出一组固定数目的特矢量,然后将这组特征矢量馈入神经网络分类器进行识别。和其他的神经网络语音识别方法相比较,用这种网络进行前端处理,可以缩短后端神经网络分类器的训练和识别时间,简化经分类器的网络产高的识别率。根据该们建立了相似文献

4.

一种基于卷积神经网络特征表征的语音情感识别方法

下载免费PDF全文

姜芃旭傅洪亮陶华伟雷沛之《电子器件》2019,42(4)

为提高智能语音情感识别系统的准确性，提出了一种基于卷积神经网络CNN(Convolution Neural Network)特征表征的语音情感识别模型，该卷积模型以 Lenet-5模型为基础，增加了一层卷积层和池化层，并将二维卷积核改为一维卷积核，将一维特征预处理后，输送进该模型中，对特征变换表征。最后利用SoftMax分类器实现情感分类，CASIA与 EMO-DB开数据库上的识别结果显示:与Lenet-5网络相比，所设计网络模型的准确率分别提升了1.3％与2％，与SoftMax分类器相比，准确率分别提升了3.8％与6.1％，仿真结果验证了网络模型的有效性。相似文献

5.

采用多任务学习和循环神经网络的语音情感识别算法

下载免费PDF全文

冯天艺杨震《信号处理》2019,35(7):1133-1140

随着机器学习的快速发展,许多研究者使用神经网络来解决语音识别领域中的各类问题。然而由于训练数据有限等原因,常规的神经网络分类器普遍存在泛化误差等问题。为了解决此问题,迁移学习中的多任务学习被引入到研究中。本文提出了一种采用多任务学习和循环神经网络的语音情感识别算法(MTL-RNN),将说话人情感识别作为主任务,性别识别和身份识别作为辅助任务,三个任务在神经网络中并行训练。算法模型通过RNN共享层共享网络参数、学习共享特征,通过属性依赖层学习独有特征,以提升模型的分类性能。实验结果表明,本文所提出的MTL-RNN算法在汉语和阿拉伯语、较少说话人和较多说话人的场景下均有较好的识别性能。相似文献

6.

中文耳语元音的声调特征研究

潘欣裕赵鹤鸣《信号处理》2011,27(10):1525-1530

声带准周期振动的缺失,使得汉语耳语音成为了一种特殊的发音模式,也使得耳语声调无法用基音周期表征。目前用于语音识别和声纹识别的常规语音特征,包含声调信息较少,所以在声调识别实验中很难获得良好的效果。本文提出一种新的特征参数来模拟正常语音的基频声调轨迹,即以人的听觉特性为出发点,研究人的声调敏感Bark频带,发现部分扩散Bark谱能量归一化比例拟合曲线,能够呈现出类似正常语音的基频轨迹,这说明在某些方面该轨迹或多或少包含了耳语音的声调信息。在以该轨迹和语音短时能量曲线为特征,以神经网络为模型的耳语声调识别实验中获得了较高的识别正确率,汉语四声的总体识别正确率高达78%,这也为对耳语音的进一步处理提供了很多有力依据。相似文献

7.

基于ELM神经网络的语音识别研究

王威胡桂明杨丽黄东芳周杨《数字技术与应用》2015,(1):103-104

ELM神经网络是一种新的神经网络,近几年来在数据拟合和模式识别等方面得到了广泛的研究。该算法的模型是基于单隐含层神经网络(SLFNs),相比需要经过长期迭代求解参数的其他网络,该算法只需要一次求解就能训练好网络参数,是一种快速训练算法。本文将该算法与时间规整相结合对语音进行识别研究,与SVM相比,ELM具有更快的训练速度,且识别效果良好。相似文献

8.

基于神经网络的语音信号识别与分类

薛雅洁贺红霞杨祎《现代电子技术》2023,(24):79-84

针对基于深度神经网络的端对端的语音识别技术展开研究,通过深度全序列卷积神经网络（DFCNN）声学模型和Transformer语言模型搭建一种端对端的语音识别系统。该系统完成对模型及数据的训练,实现对多字符中文语音的识别,并对隐马尔可夫语音识别方法和深度神经网络下的语音识别方法的系统搭建难度、原理差异和识别精确度进行对比研究。仿真结果表明,所提方法能够实现对连续多字符中文语音的有效识别,识别正确率在90%以上。相似文献

9.

基于改进神经网络的三字词声调识别方法

郑燕琳许星宇杨晓炯《电声技术》2010,34(5):48-51

汉语连续语音三字词声调由于受声道响应、音连、变调规律等的影响,情况较复杂,声调模式间交集大,模糊性强。提出了一种基于动态时间规整和改进神经网络的声调识别算法。实验表明,该算法可得到较好的识别效果,对探讨具有汉语特色的新的语音识别方法有重要意义。相似文献

10.

基于HMM和PNN的混合语音识别模型

李战明苏敏赵正天李二超《电声技术》2007,31(12):44-46,50

基于隐马尔可夫模型(HMM)和改进后的概率神经网络(PNN)模型提出了一种用于语音识别的混合模型,该模型首先利用HMM生成最佳语音状态序列,然后对最佳状态序列进行时间规整,最后通过PNN神经网络进行分类识别。给出了HMM参数训练及时间规整的算法。实验结果表明这种模型比HMM具有更好的识别效果。相似文献

11.

汉语普通话的管辖音系学特征及提取方法

刘娇蛟贺前华韦岗《电子学报》2006,34(10):1917-1919

语音识别中多采用音素作为识别单元,因其数量较多,对神经网络训练复杂度的要求高,在多语言语音识别中需要针对不同语言分别建立识别模块.然而,管辖音系学提出了适用于多语言的语音学特征.本文根据英语和汉语发音的相似性,确定汉语普通话声韵母的GP特征表示形式,并应用神经网络实现特征提取.实验表明,GP特征同样可作为汉语语音的语音学特征. 相似文献

12.

基于模糊神经网络的声母识别 总被引：1，自引：0，他引：1

梅勇王群生《电子科学学刊》1998,20(2):188-193

模板匹配法技术是汉语声母识别中较为成功的算法，但它的缺陷影响了其恢复错误，改善识别性能，神经网络（ＮＮ）和模糊系统的结合，保留了双方的优点，充分利用了模糊神经网络好的容错性能，计算性能，分类性能和决策性能，本文重点研究了两种基于模糊神经网的声母识别方案，通过对其结构，识别率和特点的分析，可看出模糊神经网的声母识别性能明显优于模板匹配法，是更适于语音识别的网络。相似文献

13.

基于BP神经网络的汉语语音识别的研究

张忠平文成义《电声技术》1992,(9):2-6

本文论述了基于神经网络模型的非特定人汉语语音识别。我们采用24人(12人用于训练,12人用于测试)的语音数据对汉语十个数字和十个孤立字进行了实验,取得了96.3％(10个数字)和97.2％(十个汉字)的识别率。相似文献

14.

基于过程神经网络的语音识别技术研究

田丽刘英楠孟耀华《激光与红外》2010,40(10):1141-1143

过程神经网络是一种基于过程神经元的新型神经网络,其输入及权值皆为时序函数。针对语音识别的特点,对过程神经网络在语音识别技术中的应用进行了探索性的研究,并与传统的BP神经网络、径向基函数网络进行了比较。仿真结果表明,采用过程神经网络进行的语音识别,识别性能得到了提高。相似文献

15.

基于３Ｄ倒谱特征和注意力机制的ＣＮＮ－ＢｉＬＳＴＭ语音情感识别

下载免费PDF全文

夏玉果杜静赵力《电子器件》2022,45(6):1434-1440

为了进一步提升语音情感特征的区别性,提出一种基于3D倒谱特征和注意力机制的语音情感识别方法。在提取典型特征MFCC的基础上,融合其一阶和二阶差分形成动态的3D倒谱特征矢量,然后利用卷积神经网络和双向长短期记忆网络搭建双向循环卷积神经网络(CNN-BiLSTM)进行长时建模,并利用注意力机制,进一步增强语音关键性情感特征的权重。实验结果表明,该方法能聚焦特征的有用信息,从而有效提高语音情感识别的准确率,在汉语情感语料库CASIA的准确率达到90.48%。相似文献

16.

汉语语音识别中语言模型的并行优化

金玮孙甲松《电声技术》2010,34(8):49-52

研究了汉语语音识别中语言模型的并行优化问题,在已有汉语语音识别有调拼音模型和多核体系结构的基础上,对其算法进行了并行优化,并优化了查询机制和前后向算法。试验表明,该方法取得了很好的效果,识别速度有了很大改进。相似文献

17.

基于多特征融合的藏语语音情感识别

谷泽月边巴旺堆祁晋东《现代电子技术》2023,(21):129-133

藏语语音情感识别是语音情感识别在少数民族语音处理上的应用,语音情感识别是人机交互的重要研究方向,提取最能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别的重要研究内容。基于此,为了构建具有高效性和针对性的藏语语音情感识别模型,文中构建了一种藏语语音情感数据集（TBSEC001）,并提出一种适合于藏语的手工语音情感特征集（TPEFS）,该特征集是在藏语与其他语言的共性和特性的基础上手工提取得到的,TPEFS特征集在支持向量机（SVM）、多层感知机（MLP）、卷积神经网络（CNN）、长短时记忆网络（LSTM）这些经典网络中都取得了不错的效果。所提出的方法在藏语语音数据集（TBSEC001）上取得了88.4%的识别结果,以及在EMODB、RAVDESS、CASIA数据库上分别取得了84.1%、74.3%以及82.5%的识别结果。实验结果表明,该特征集在保证识别率的情况下,对藏语语音情感识别具有一定针对性。相似文献

18.

基于自组织神经网络的数字语音识别

曹鹏郑雪燕徐伟《电声技术》2002,(4):10-12

提出一种基于自组织神经网络的数字语音识别模型。首先用基于小波变换和线性预测的特征提取方法提取语音信号特征，用自组织神经网络进行识别判决。这种语音识别方法适合于小词汇量的孤立词识别，网络结构简单，所需训练数据十分的少，实时性能好。用MATLAB进行仿真实验，识别率达到98%。相似文献

19.

基于听觉模型的汉语耳语音声调检测 总被引：1，自引：1，他引：0

陈雪勤赵鹤鸣《电子学报》2009,37(4):864-867

从听觉感知出发,分析了听觉外周模型对于语音激励的主要响应过程,采取听神经平均发放率为声调感知线索,提出了一种汉语耳语音声调的识别方法.其理论基础是听神经发放信息是听觉中枢的唯一信息来源,它是对于语音激励中声强、频谱、共振峰等多种特征的综合反应,因此适合用作耳语音的声调特征.采用BP神经网络对大量汉语元音耳语四声样本进行训练、识别,得到65.1%的平均识别率,达到了改善汉语耳语音声调识别效果的目的. 相似文献

20.

基于CRNN混合神经网络的多语种识别

王瑶龙华邵玉斌杜庆治王延凯《光电子．激光》2022,33(6):620-628

在语种识别过程中,为提取语音信号中的空间特征以及时序特征,从而达到提高多语种识别准确率的目的,提出了一种利用卷积循环神经网络(convolutional recurrent neural network,CRNN)混合神经网络的多语种识别模型。该模型首先提取语音信号的声学特征;然后将特征输入到卷积神经网络(convolutional neural network,CNN) 提取低维度的空间特征;再通过空间金字塔池化层(spatial pyramid pooling layer,SPP layer) 对空间特征进行规整,得到固定长度的一维特征;最后将其输入到循环神经网络(recurrenrt neural network,CNN) 来判别语种信息。为验证模型的鲁棒性,实验分别在3个数据集上进行,结果表明:相比于传统的CNN和RNN,CRNN混合神经网络对不同数据集的语种识别准确率均有提高,其中在8语种数据集中时长为5 s的语音上最为明显,分别提高了 5.3% 和6.1%。相似文献