首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
传统的声音识别系统通过短时声音频谱信息来辨识说话人.这种方法在某些条件下具有较好的性能。但是由于有些说话人特征隐藏在较长的语音片段中,通过添加长时信息可能会进一步提高系统的性能。在文中.音素持续时间信息被添加到传统模型上,以提高说话人辨识率。频谱信息是通过短时分析获得的,但音素持续时间的提取却属于长时分析,它需要更多的语音数据。通过大量语音数据探讨了音素持续时间信息对说话人辨识的有效性,提出2种方法来解决数据量小所引起的问题。实验结果表明,当说话人的声音模型被恰当建立时,即使在语音数据量小的情况下,音素持续时间信息对说话人辨识率的提高也是有效的。  相似文献   

2.
传统的声音识别系统通过短时声音频谱信息来辨识说话人,这种方法在某些条件下具有较好的性能。但是由于有些说话人特征隐藏在较长的语音片段中,通过添加长时信息可能会进一步提高系统的性能。在文中,音素持续时间信息被添加到传统模型上,以提高说话人辨识率。频谱信息是通过短时分析获得的,但音素持续时间的提取却属于长时分析,它需要更多的语音数据。通过大量语音数据探讨了音素持续时间信息对说话人辨识的有效性,提出2种方法来解决数据量小所引起的问题。实验结果表明,当说话人的声音模型被恰当建立时,即使在语音数据量小的情况下,音素持续时间信息对说话人辨识率的提高也是有效的。  相似文献   

3.
通过以目标信息为指导的卷积体系总结相关源信息,提出了一种系统的处理语言方法;利用在解码过程中使用不同的引导信号,经过特殊设计的卷积+门控体系结构可以查明与预测目标单词相关的源句子部分,并将其与整个源句子的上下文融合在一起形成统一表示形式;研究结果表明,模型将表示形式与目标语言单词一起馈入深度神经网络(DNN),形成更强大的神经网络联合模型(NNJM);通过两个NIST汉英翻译任务的实验验证,在相同设置下,tagCNN和inCNN在Dep2Str基线上的改善幅度分别为+1.28,+1.75 BLEU,所提出的模型分别优于NIST MT04和MT05的平均值+0.36,+0.83 BLEU,比传统DNN机器翻译平均提高了+1.08 BLEU点;模型为统计机器翻译研究提供了新思路。  相似文献   

4.
框架识别是语义角色标注的基本任务,它是根据目标词激起的语义场景,为其分配一个合适的语义框架。目前框架识别的研究主要是基于统计机器学习方法,把它看作多分类问题,框架识别的性能主要依赖于人工选择的特征。然而,人工选择特征的有效性和完备性无法保证。深度神经网络自动学习特征的能力,为我们提供了新思路。该文探索了利用深度神经网络自动学习目标词上下文特征,建立了一种新的通用的框架识别模型,在汉语框架网和《人民日报》2003年3月新闻语料上分别取得了79.64%和78.58%的准确率,实验证明该模型具有较好的泛化能力。  相似文献   

5.
以建立维吾尔语连续音素识别基础平台为目标,在HTK(基于隐马尔可夫模型的工具箱)的基础上,首次研究了其语言相关环节的几项关键技术;结合维吾尔语的语言特征,完成了用于语言模型建立和语音语料库建设的维吾尔语基础文本设计;根据具体技术指标,录制了较大规模语音语料库;确定音素作为基元,训练了维吾尔语声学模型;在基于字母的N-gram语言模型下,得出了从语音句子向字母序列句子的识别结果;统计了维吾尔语32个音素的识别率,给出了容易混淆的音素及其根源分析,为进一步提高识别率奠定了基础。  相似文献   

6.
一种基于改进CP网络与HMM相结合的混合音素识别方法   总被引:2,自引:0,他引:2  
提出了一种基于改进对偶传播(CP)神经网络与隐驰尔可夫模型(HMM)相结合的混合音素识别方法.这一方法的特点是用一个具有有指导学习矢量量化(LVQ)和动态节点分配等特性的改进的CP网络生成离散HMM音素识别系统中的码书。因此,用这一方法构造的混合音素识别系统中的码书实际上是一个由有指导LVQ算法训练的具有很强分类能力的高性能分类器,这就意味着在用HMM对语音信号进行建模之前,由码书产生的观测序列中  相似文献   

7.
针对说话人确认中话者建模问题,提出GMM-DNN的混合建模方法。该方法先通过GMM提取原始语音特征的统计特征,然后进一步通过DNN非线性映射的方式将统计特征变换到一个与说话人相关的线性可分空间。选用栈式自编码神经网络SAE(Stacked Auto-encoder Neutral Network)作为深度神经网络的基本模型。在注册阶段从已训练的DNN网络中抽取最后一层作为说话人模型,称为p-vector。测试阶段,通过抽取测试语音的p-vector与注册说话人p-vector进行匹配,从而作出判决;另外还详细说明了DNN隐藏层的作用。通过对NIST语料库的实验表明,采用GMM-DNN的说话人确认方法相对于传统的GMM-UBM话者建模方法具有一定的优势。  相似文献   

8.
在手势识别研究过程中,人工选取特征难以适应手势的多变性。提出了一种结合肤色模型和卷积神经网络的手势识别方法,对采集的不同背景下的手势图像,首先用肤色高斯模型分割出手势区域,然后采用卷积神经网络建立手势的识别模型,该模型融合了手势特征提取和分类过程,模拟视觉传导和认知,有效避免了人工特征提取的主观性和局限性。识别模型以手势区域的灰度信息为输入,同时利用权值共享和池化等技术减少网络权值个数,降低了模型的复杂度。实验结果表明,卷积神经网络(CNN)方法能够有效进行特征学习,在不同数据集下对手势的平均识别率都达到95%以上,与传统方法进行对比实验,表明该方法具有较高的识别率和实时性。  相似文献   

9.
基于差分特征和高斯混合模型的湖南方言识别   总被引:1,自引:0,他引:1       下载免费PDF全文
语音的韵律是区分汉语方言的重要语音声学特征,而语音的差分特征是语音韵律的重要体现。采用差分特征ΔMFCC和ΔΔMFCC作为特征参数,用高斯混合模型(GMM)作为训练模型,通过计算测试样本的似然概率来识别方言的类型。用该方法对长沙方言、邵阳方言、衡阳方言和普通话进行了识别研究,并与采用MFCC作为特征参数的识别效果进行了比较。实验结果表明差分特征具有识别率高、抗噪声性能更好等优点。  相似文献   

10.
提出了一种将基于深度神经网络(Deep Neural Network,DNN)特征映射的回归分析模型应用到身份认证矢量(identity vector,i-vector)/概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)说话人系统模型中的方法。DNN通过拟合含噪语音和纯净语音i-vector之间的非线性函数关系,得到纯净语音i-vector的近似表征,达到降低噪声对系统性能影响的目的。在TIMIT数据集上的实验验证了该方法的可行性和有效性。  相似文献   

11.
一种纸币识别方法研究   总被引:1,自引:0,他引:1  
快速准确的纸币清分在银行业中具有非常重要的意义。清分系统包括纸币图像采集、图像预处理、特征提取及分类器设计等几个步骤,其中分类器设计是核心技术基础。论文提出了一种用于高速纸币清分的人民币识别方法,该方法基于整张纸币的特征提取,采用了基于结构风险最小化的高斯混合模型(GMM)设计识别分类器。实验结果表明,提出的方法取得了较高的识别率。  相似文献   

12.
李壮辉 《测控技术》2014,33(6):28-31
针对传统高斯混合模型在建模过程中只采用倒谱系数表示的语音谱特征,而忽略说话人基音频率信息的问题,提出了一种基于多空间概率分布的基音融合高斯混合模型。该模型在每个高斯成分空间中对浊音和清音进行选择性区分,并将基音与倒谱特征参数进行融合。实验结果表明,通过对模型参数进行重估计,在TIMIT、NTIMIT两种不同语料库情况下,该模型的识别率较两种不同的基线系统均有提高。  相似文献   

13.
由于中文词语缺乏明确的边界和大小写特征,单字在不同词语下的意思也不尽相同,较于英文,中文命名实体识别显得更加困难。该文利用词向量的特点,提出了一种用于深度学习框架的字词联合方法,将字特征和词特征统一地结合起来,它弥补了词特征分词错误蔓延和字典稀疏的不足,也改善了字特征因固定窗口大小导致的上下文缺失。在词特征中加入词性信息后,进一步提高了系统的性能。在1998年《人民日报》语料上的实验结果表明,该方法达到了良好的效果,在地名、人名、机构名识别任务上分别提高1.6%、8%、3%,加入词性特征的字词联合方法的F1值可以达到96.8%、94.6%、88.6%。  相似文献   

14.
语音识别是人机交互模式识别领域的一个重要课题,构建了一种基于深度神经网络的语音识别系统,使用了抗噪对比散度法和抗噪最小平方误差法对模型进行无监督训练;使用了均值归一化进行模型优化, 提高了网络对训练集的拟合度,并且降低了语音识别的错误率;使用多状态激活函数进行了模型优化,这不仅使得不带噪测试和带噪声测试的语音识别错误率进一步下降,并能在一定程度上减轻过拟合现象;并通过奇异值分解和重构的方法对模型进行了降维。实验结果表明,此系统可以在不影响语音识别错误率的基础上极大地降低系统的复杂性。  相似文献   

15.
张绍兵 《计算机测量与控制》2008,16(12):1994-1995,2002
针对无指针式仪表表盘的数字识别问题,提出一种基于特征提取和粗糙集特征约简的神经网络数字识别方法;该方法首先利用数字图像预处理技术处理图像并利用特征提取方法提取数字图像特征,然后利用粗糙集理论进行特征约简,最后将约简后的信息输入到训练好的神经网络进行识别;实验表明,相对于传统方法,该方法具有识别率高、速度快的特点,具有较高的实用价值;并且该方法在保留神经网络高鲁棒性的同时,为快速准确地进行数字识别开辟了新的途径。  相似文献   

16.
驾驶辅助系统被认为是解决交通安全问题的有效手段, 开发驾驶辅助系统的基础是对车辆的行为进行准确的识别, 以应用于车辆安全预警, 路径规划, 智能导航等方面. 目前存在的基于支持向量机模型, 隐马尔科夫模型, 卷积神经网络等行为识别方法还存在计算量与精度平衡的问题. 本文结合了隐马尔科夫模型与高斯混合模型, 提出了高斯混合隐马尔科夫模型, 利用美国联邦公路管理局NGSIM数据集对此方法进行了实验验证, 结果表明该方法对自由换道行为识别具有较高的精度. 本文还对高斯混合隐马尔科夫模型的实验参数进行了优化, 以期达到最好的识别效果, 为未来智能驾驶的车辆行为识别提供了参考.  相似文献   

17.
为了解决语音识别中深层神经网络的说话人与环境自适应问题,本文从语音信号中的说话人与环境因素的固有特点出发,提出了使用长时特征的自适应方案:首先基于高斯混合模型,建立说话人-环境联合补偿模型,对说话人与环境参数进行估计,将此参数作为长时特征;然后,将估计出来长时特征与短时特征一起送入深层神经网络,进行训练。Aurora4实验表明,这一方案可以有效地对说话人与环境因素进行分解,并提升自适应效果。  相似文献   

18.
精准的网络流量预测可以避免网络崩溃,保证网络的流畅度。将高斯过程混合(GPM)模型应用于网络流量的多模态预测。对两段不同地区的网络流量序列进行多模态分析,将之通过归一化和相空间重构后生成样本集并输入GPM模型。采用分类迭代学习算法,利用后验概率最大化和似然函数实现模型参数学习。将GPM模型与支持向量机(SVM)、核回归(KR)、最小最大概率机回归(MPMR)和高斯过程(GP)等模型比较。通过对比均方根误差[(RMSE)]和决定系数[(R2)]评价指标,GPM模型的预测准确度要优于其他四种模型。说明GPM模型能够很好应用于网络流量预测,可以为网络管理者分配网络资源提供参考。  相似文献   

19.
基于神经网络的语音识别技术研究   总被引:5,自引:0,他引:5  
对BP神经网络在特定人语音识别技术中的应用进行了探索性的研究,进而对非特定人语音识别做了一定的实验和研究。通过对比分析了传统的语音识别方法——模板匹配法和人工神经网络语音识别方法的优缺点。神经网络可以得到较高的识别准确度,但是训练速度慢是它的弱点,因此,针对经典的BP算法训练速度慢的缺点,对BP网络加以改进,提高网络训练速度,通过改进使神经网络用于语音识别的各种优越性充分发挥。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号