首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
提出一种将STRAIGHT模型和深度信念网络DBN相结合实现语音转换的方式。首先,通过STRAIGHT模型提取出源说话人和目标说话人的语音频谱参数,用提取的频谱参数分别训练两个DBN得到语音高阶空间的个性特征信息;然后,用人工神经网络ANN将两个具有高阶特征的空间连接并进行特征转换;最后,用基于目标说话人数据训练出的DBN来对转换后的特征信息进行逆处理得到语音频谱参数,并用STRAIGHT模型合成具有目标说话人个性化特征的语音。实验结果表明,采用此种方式获得的语音转换效果要比传统的采用GMM实现语音转换更好,转换后的语音音质和相似度与目标语音更接近。  相似文献   

2.
针对深度信念网络(Deep Believe Network,DBN)模型泛化能力较弱,导致语音增强效果不佳的问题,提出了一种特征联合优化的回归DBN语音增强算法。该算法对语音和噪声不做任何假设。该算法分别提取语音信号的LMPS(Log-Mel frequency Power Spectrum)和MFCC(Mel-Frequency Cepstral Coefficients)特征。LMPS用于直接重构增强语音,保证了语音听觉质量,MFCC作为辅助次级特征。将两种特征联合输入到DBN体系中对网络参数进行优化。这种联合优化在对LMPS的直接预测中加入MFCC限制,提升了模型对LMPS估计的泛化能力,更加准确地重构增强语音。仿真结果表明,在不同的信噪比环境下,与LPS(Log Power Spectrum)和LMPS单特征优化相比,LMPS和MFCC联合优化使增强语音获得了较高的PESQ和SNR,提高了语音质量和可懂度。  相似文献   

3.
针对语音情感识别中的特征提取的问题,提出了一种新的特征提取方式,利用深度神经网络(DNN)中的深度信念网络(DBNs)自动提取语音信号中情感特征.通过训练一个5层的深度信念网络提取语音情感特征,把连续多帧的语音并在一起,构成一个高维的特征,把深度信念网络训练完的特征作为非线性支持向量机(SVM)分类器的输入端,最终建立一个语音情感识别多分类器系统.其识别率为86.5%比传统的基于提取句子的时间构造、振幅构造、基频构造等特征的方法提高7%.  相似文献   

4.
在线人工语音服务已经在各种商业活动中展开,为了提供更好的客户服务就必须对语音服务质量进行有效的评估。目的就是将人工语音服务利用语音识别技术转化为文本,再进行有效的分类评估。常用文本分类模型有朴素贝叶斯、KNN、BP神经网络、支持向量机等模型,这些模型比较依赖于语音文本预处理后的特征表示,并且容易出现维数灾难、局部最优、训练时间长问题。而深度信念网络模型(DBN)可以从文本预处理后的特征表示中学习到更具有本质含义的特征表示,便于分类器分类,且避免以上模型的不足。在人工服务语音文本化后,通过深度信念网络模型转换特征表示再进行分类,最终的分类效果比上述分类模型直接利用文本的特征表示进行分类效果略微提高。  相似文献   

5.
深度信念网络研究综述   总被引:1,自引:0,他引:1  
深度学习作为新兴的一种多层神经网络学习算法,具有优异的特征学习能力,引起了机器领域的广泛关注。深度信念网络是深度学习中重要模型,首先介绍深度学习起源,后分析深度信念网络中的基本模块及其训练方法,再介绍深度信念网络的基本结构及其学习过程,最后总结当前深度信念网络当前存在的问题。  相似文献   

6.
传统的命名实体识别方法是将大量手工制定的特征输入到统计学习模型中以实现对词语的标记,能够取得较好的效果,但其手工特征制定的方式增加了模型建立的难度。为了减轻传统方法中手工特征制定的工作量,首先对神经网络语言模型进行无监督训练以得到词语特征的分布式表示,然后将分布式的特征输入到深度信念网络中以发现词语的深层特征,最后进行命名实体识别。该方法在前人研究的基础上利用深度信念网络对神经网络语言模型进行了扩展,提出了一种可用于命名实体识别的深层架构。实验表明,在仅使用词特征和词性特征的条件下,该方法用于命名实体识别的性能略优于基于条件随机场模型的方法,具有一定的使用价值。  相似文献   

7.
8.
深度信念网络(Deep Belief Networks,DBN)作为深度学习(Deep Learning,DL)中的重要模型,目前已被成功应用于人脸识别、手写字体识别、医学图像分析处理等诸多领域。从深度信念网络出发,主要做了四个方面的工作:第一,从受限玻尔兹曼机以及深度信念网络的网络结构和学习过程两个方面阐述了深度信念网络的基本原理;第二,从网络结构和学习算法两个方面总结了深度信念网络的研究进展:在网络结构方面,从网络深度、RBM结构和DBN级联三个角度进行归纳;在学习算法方面,从基本算法、优化算法和融合方法三个方面进行梳理;第三,对深度信念网络在医学图像分析领域中的应用进行了总结;第四,总结了目前DBN存在的问题。  相似文献   

9.
深度信念网络(Deep Belief Network, DBN)是深度学习模型之一,是实现人工智能的重要模型.它是由多个受限玻尔兹曼机(RBM)堆加而成.一般在模型的最后一层加入分类器模型进行分类.目前已在生物特征识别、语音识别、机器故障诊断、疾病诊断等诸多领域得到广泛应用.鉴于深度信念网络模型的优点及其强大的自主学习...  相似文献   

10.
深度学习是一类新兴的多层神经网络学习算法,因其缓解了传统训练算法的局部最小性,故引起机器学习领域的广泛关注。但是,如何使一个网络模型在选取任意数值的隐藏层节点数时都能够得到一个比较合适的网络结构是目前深度学习界普遍存在的一个开放性问题。文章提出了一种能够动态地学习模型结构的算法——最大判别能力转换法,根据Fisher准则来评估隐藏层每一个节点的判别性能,然后通过动态地选择部分隐层节点来构建最优的模型结构。  相似文献   

11.
为了更好地运用深度置信网络进行语音端点检测,针对现有方法过于繁杂的问题,改进采用语音频谱作为深度置信网络的输入。在Matlab环境下使用TIMIT语料库进行仿真实验,实验结果验证了该方法的有效性,并且在Babble噪声环境下验证该方法比现有方法具有更高的检测正确率。  相似文献   

12.
PTA工业生产过程中4-CBA的含量是评价其产品质量的重要依据。将深度置信网络和已有的浅层算法相结合,提出基于深度置信网络的4-CBA软测量模型。深度置信网络是一种典型的深度学习算法,该算法在特征学习方面优势显著。根据实验结果,基于深度置信网络的软测量模型能够很好地估计4-CBA含量,和单纯的BP神经网络模型相比,基于深度置信网络的模型预测精度更高。  相似文献   

13.
基于改进的稀疏深度信念网络的人脸识别方法   总被引:2,自引:0,他引:2  
由于稀疏表示在人脸识别上的优异表现,大量的研究关注于在深度网络上结合稀疏编码.常用的稀疏深度信念网络限制所有的隐藏单元具有相同的稀疏水平,这不是诱导稀疏表示最自然的方式.针对这个问题,根据压缩感知理论改进原来的稀疏项,添加了一个tan-sigmoid正则项逼近稀疏表示的最优解L0范数.这种方法不限制隐藏单元拥有相同的激活率,每个隐藏单元可以根据不同的任务自动学习到不同的稀疏水平.在ORL、UMIST和FERET人脸库上的识别结果表明,提出的方法与经典的稀疏深度模型相比,获得了很好的特征表示和识别效果.  相似文献   

14.
针对传统分类算法对维吾尔文文本分类准确率不高的问题,提出了一种基于深度置信网络的维吾尔文短信文本分类模型。深度学习模拟人脑的多层次结构,对数据从低层到高层逐渐地进行特征提取,深层挖掘数据集的分布规律,从而提高分类准确性。通过逐层无监督的方法完成深度置信网络的初始化,并结合softmax回归分类器实现文本的分类。最后在收集的维吾尔文短信数据集上进行实验论证。实验结果表明,相比KNN、SVM和决策树算法,深度置信网络具有更好的分类效果,准确率更高。  相似文献   

15.
基于区分深度置信网络的病害图像识别模型   总被引:1,自引:0,他引:1  
对枸杞病害进行及时、准确地检测识别对于病害的监测、预测、预警、防治和农业信息化、智能化建设具有重要意义。研究提出了一种基于区分深度置信网络的枸杞病害图像分类识别模型。首先,把枸杞叶部病害图像通过自动裁剪方式获得包含典型病斑的子图像,再采用复杂背景下的图像分割方法分割病斑区域,提取病斑图像的颜色特征、纹理特征和形状特征共计147个,结合区分深度置信网络和指数损失函数建立了病害识别模型。实验结果表明,该方法对于病害图像识别效果较好,与支持向量机相比,基于区分深度置信网络的病害图像识别模型高效地利用了底层图像特征的高层表示,解决了没有足够标注数据时的图像识别问题。  相似文献   

16.
Surface electromyography (SEMG) has been widely used in different fields such as human machine interaction and motion recognition. A hybrid classification model based on singular value decomposition (SVD) and wavelet deep belief networks (WDBN) is firstly proposed in this paper, which allows the machine to recognize the single-joint motions of upper limb by using one channel. In this experiment, the three-joint SEMG signals of upper limb are respectively recorded through different two channels, which are employed for subsequent comparison to obtain the best single-channel of each joint. Afterwards, the collected raw signals are enhanced by SVD processing. Wavelet function is applied to replace sigmoid function as activation function for feature learning, and the spectrum signals processed by fast Fourier transform (FFT) are input to WDBN model. The results demonstrate that the recognition rates of three joint movements can be up to 100% by SVD-WDBN method, which is much better than support vector machine (SVM), back propagation (BP) neural network and extreme learning machine (ELM) model. The proposed method makes it more possible to control wearable devices with different single-channel SEMG signals, thereby the work efficiency of smart wearable devices can be improved, as well as the complexity of operations between human and machine can be reduced.  相似文献   

17.
安全攸关系统广泛应用于交通、工控、航空等与国计民生相关的安全攸关领域,对可靠性有着非常高的要求。而控制软件往往是安全攸关系统的核心,因此对它的可靠性预测精度必须达到很高的要求。本文将深度置信网络(DBN)应用于软件可靠性增长预测模型(SRPM)的研究。针对DBN中核心模块RBM的无监督学习,采用了动态模式跳转算法(DMH)。该算法通过动态地维护一个模式集,然后借助模式集中模式的跳转来完成RBM中状态的跳转,使RBM的无监督学习具有很高的学习效率。通过与参数动态调整的动态模糊神经网络(SA-DFNN)、BP神经网络(BPN)以及基于萤火虫算法的BP神经网络(FABP)建立的SRPM进行预测能力的比较,实验结果表明基于DBN建立的SRGM的预测结果精度最高且最稳定。  相似文献   

18.
针对移动用户行为识别模型中存在过度拟合导致泛化性差的问题,提出一种基于随机Dropout深度信念网络DBN(Deep Belief Network)的移动用户行为识别方法,该方法通过随机更改Dropout算法中的概率参数,减少隐层单元的网络节点数,优化每次训练的网络权值,以提高行为识别的准确率和样本较少时的泛化能力。实验结果表明,加入随机Dropout的网络对静止、散步、跑步、上楼及下楼五种行为的平均识别准确率可达94.23%,相对于传统的DBN识别方法,准确率提高了4.57%。  相似文献   

19.
In the literature of voice conversion (VC), the method based on statistical Gaussian mixture model (GMM) serves as a benchmark. However, one of the inherent drawbacks of GMM is well-known as discontinuity problem, which is caused by transforming features on a frame-by-frame basis, thus ignoring the dynamics between adjacent frames and finally resulting in degraded quality of the converted speech. A variety of algorithms have been proposed to overcome this deficiency, among which the state space model (SSM) based method provides some promising results. In this paper, we proceed by presenting an enhanced version of the traditional SSM, namely, the switching SSM (SSSM). This new structure is more flexible than the conventional one in that it allows using mixture of components to account for the rapid transitions between neighboring frames. Moreover, physical meaning of the model parameters of SSSM has been examined in depth, leading to efficient application-specific training and transforming procedures of VC. Experiments including both objective and subjective measurements were conducted to compare the performances of the conventional and the proposed SSM-based methods, which have convinced that obvious improvements in both aspects of similarity and quality can be obtained by SSSM.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号