首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
戴冠男  王炳锡  屈丹 《信号处理》2006,22(2):285-288
不同语言的语音基元的种类和数量存在着差异,即使两种语言有相同的音素,它们的发生频率也存在差异。以前基于音素标识的语言辨识系统,难以引入新的语言。本文分别使用了GMM和VQ模型对音素符号发生率信息在语言辨识中的作用进行了研究,使用了音素符号发生率方法以及三种改进方法,各项实验结果表明音素符号发生率信息在语言辨识中具有一定的作用,可以作为语言辨识方法研究的一个方向。  相似文献   

2.
结合维吾尔语的语音特征和语义信息,在大量电话语音语料库的基础上,以建立维吾尔语连续音素识别平台为目标,通过构建隐马尔科夫模型工具HTK(Hidden Markov Model Toolkit)工具实现了维吾尔语连续音素识别算法:首先根据具体技术指标完成了较大规模电话语音语料库的录制和标注工作;确定音素为基元,通过训练获得了每个音素的HMM(Hidden Markov Model)声学模型,随后对输入的语音进行识别,声学模型在不同的高斯混合数目下,得出了识别结果;统计了32个音素的识别率并对它进行分析,为了进一步提高识别率奠定了基础。  相似文献   

3.
融合语言模型的端到端中文语音识别算法   总被引:1,自引:0,他引:1  
为了解决语音识别模型在识别中文语音时鲁棒性差,缺少语言建模能力而无法有效区分同音字或近音字的不足,本文提出了融合语言模型的端到端中文语音识别算法.算法建立了一个基于深度全序列卷积神经网络和联结时序分类的从语音到拼音的语音识别声学模型,并借鉴Transformer的编码模型,构建了从拼音到汉字的语言模型,之后通过设计语音帧分解模型将声学模型的输出和语言模型的输入相连接,克服了语言模型误差梯度无法传递给声学模型的难点,实现了声学模型和语言模型的联合训练.为验证本文方法,在实际数据集上进行了测试.实验结果表明,语言模型的引入将算法的字错误率降低了21%,端到端的联合训练算法起到了关键作用,其对算法的影响达到了43%.和已有5种主流算法进行比较的结果表明本文方法的误差明显低于其他5种对比模型,与结果最好的Deep?Speech2模型相比字错误率降低了28%.  相似文献   

4.
 针对循环神经网络语言模型对长距离历史信息学习能力不足的问题,本文提出了结合全局词向量特征的循环神经网络语言模型。首先利用GloVe(Global Word Vectors)算法训练出全局词向量,然后将其作为特征向量输入到引入特征层的循环神经网络中进行训练。相对于局部词向量方法,全局词向量能够利用全局统计信息来训练出含有更加丰富的语义和句法信息词向量。为了验证新方法的性能,本文在Penn Treebank和Wall Street Journal语料库上分别进行困惑度和连续语音识别实验。实验结果表明结合全局词向量的循环神经网络语言模型的困惑度相比传统的循环神经网络语言模型降低了202%,同时语音识别系统的词错误率降低了183%。   相似文献   

5.
寻纯阳  杨红 《通信学报》1996,17(4):62-65
本文运用语言信号数字处理方法,研究了汉语普通话音素的区别特征,研究结果进一步完善了汉语普通话音素的区别特征矩阵表,将为基于音素的计算机汉语普通话语音分析、合成和识别提供了一种有效的参考方法。  相似文献   

6.
说话人识别的关键在于如何为集合中的每一个人建立一个能表征该说话人个性特征的声学模型,建模方法将会严重影响系统的性能。基于当今与文本无关的话者识别的主流模型——高斯混合模型(Gaussian Mixture Model,GMM)的基础上,从声学的角度剖析了男女发音的差别,以增加说话人之间的差异性为出发点,引入竞争性思想和通用背景模型(Universal Background Model,UBM),提出了具有区分性的GMM的建模方法,克服了传统GMM需要大量训练样本的局限性和UBM将说话人强制服从统一分布的弱点。最后实验的对比结果表明,具有区分性的GMM相比传统的高斯混合模型在识别率上有所提高。  相似文献   

7.
语音自动评估对于语音识别非常重要,但由于缺少足够的发音错误样本,所以对每个音素进行建模以实现准确的发音验证是不切实际的.因此,提出了一种新的方法来处理这种不平衡的数据分布,通过建立多个单类支持向量机来评估每个音素是否正确.使用一组语音属性特征训练一类支持向量机来模拟每个音素的正确发音;一类支持向量机模型通过测量新数据与...  相似文献   

8.
李伟  李媛媛 《电声技术》2011,35(7):42-44
针对目前汉语连续语音识别中英文识别问题,采用中英文混合建模的方法建立中英文混合模型.在分析已有语音识别系统的基础上,根据发音学的一些先验知识,提出一种基于主元音及英文音素序列混合的声学模型,同时利用最大似然规则训练出的声学模型,通过最小音素错误准则对声学模型进行区分性训练,更新得到最终的声学模型.在测试集上的结果表明,...  相似文献   

9.
徐凡  杨剑峰  颜为之  王明文 《信号处理》2021,37(10):1860-1871
方言语音识别是方言保护的核心环节。传统的方言语音识别模型缺乏考虑方言语音中特定方言音素的重要性,同时缺少多种语音特征提取及融合,导致方言语音识别性能不高。本文提出的端到端方言语音识别模型充分发挥了残差CNN(Convolutional Neural Networks)和Bi-LSTM(Bi-directional Long Short-Term Memory)分别在语音帧内和帧间特征提取的优势,并利用多头自注意力机制有效提取不同方言中特定方言音素信息构成语音发音底层特征,利用该方言发音底层特征进行方言语音识别。在基准赣方言和客家方言两种方言语音语料库上的实验结果表明本文提出的方言语音识别模型显著优于现有基准模型,通过对注意力机制的可视化进一步分析了模型取得性能提升的根本原因。   相似文献   

10.
李天伟  李正友  黄谦  郭姣 《通信技术》2015,48(7):803-807
把语音信号分解为确定和随机两部分是非常典型的语音信号分析与合成方法。针对目前主流研究的谐波加噪声模型(Harmonic plus Noise Model, HNM)和准谐波模型(Quasi-Harmonic Model, QHM)法等存在冗余大的问题,提出了一种基于谱跟踪和噪声模型的语音信号分析/合成方法。以音素为基本单元进行编解码,用谱跟踪法提取时变特征合成语音信号的确定部分,用AR模型合成语音信号的随机部分。实验发现,合成语音与原语音波形上比较接近,MOS分约为3.24,冗余也明显减少。  相似文献   

11.
基于Web网页语料构建动态语言模型   总被引:1,自引:0,他引:1  
为语音识别系统构建语言模型,首先要进行语料准备,语料来源决定语言模型的性能。Web网页中涵盖了各种最新的语言现象,为语料准备提供了最多样化的资源。但Web网页中语义完整字串通常夹杂在格式、标记、广告等无用字串中。首先介绍语言模型的训练算法和更新方法,继而提出一种从HTML文档提取用于训练语言模型的语义完整汉字字串的算法,最后给出语料提取实验结果、语言模型训练结果和语言模型的动态更新结果。为基于Web网页语料动态更新语言模型提供了一个完整的解决方案。  相似文献   

12.
基于GMM-UBM模型的语言辨识研究   总被引:3,自引:0,他引:3  
屈丹  王炳锡  魏鑫 《信号处理》2003,19(1):85-88
与说话人识别、连续语音识别相比,自动语言辨识是一个相对较新的研究,而且是一项较难的课题。本文给出了一种基于GMM-UBM模型的语言辨识系统,并利用OGI-TS电话语音库对算法的性能进行了测试,然后给出了实验结果。实验结果表明,该算法也是进行语言辨识的一种有效方法。  相似文献   

13.
针对广播语种识别问题,提出一种语音时域滤波方法,用gammatone时域函数与预处理后的语音信号进行卷积滤波,再分帧加窗并求对数化能量得到时域GF(gammatone filterbank)特征.将特征参数图像化表示,然后通过VGG19和Resnet34分类网络进行语种识别实验.同时,也使用自动色阶算法对加噪语音的图像...  相似文献   

14.
We present an English–Korean speech translation corpus, named EnKoST-C. End-to-end model training for speech translation tasks often suffers from a lack of parallel data, such as speech data in the source language and equivalent text data in the target language. Most available public speech translation corpora were developed for European languages, and there is currently no public corpus for English–Korean end-to-end speech translation. Thus, we created an EnKoST-C centered on TED Talks. In this process, we enhance the sentence alignment approach using the subtitle time information and bilingual sentence embedding information. As a result, we built a 559-h English–Korean speech translation corpus. The proposed sentence alignment approach showed excellent performance of 0.96 f-measure score. We also show the baseline performance of an English–Korean speech translation model trained with EnKoST-C. The EnKoST-C is freely available on a Korean government open data hub site.  相似文献   

15.
The representation of good audio features is the first and foremost requirement for improving the identification performance of any system. Most of the representation learning approaches are based on connectionist systems to learn and extract latent features from the speech data. This research work presents a hybrid feature extraction approach to integrate Mel-Frequency Cepstral Coefficients (MFCC) features with Shifted Delta Cepstral (SDC) coefficients features, which are further stacked to Deep Belief Network (DBN), for yielding new feature representations of the speech signals. DBN is utilized for unsupervised feature learning on the extracted MFCC-SDC acoustic features. A 3-layer Back Propagation Neural Network (BPNN) classifier is initialized in terms of the learning outcomes of hidden layers of DBN for identifying language from the uttered speech. The efficiency of the proposed approach is evaluated by simulating several experimental algorithms on the user-defined database of isolated words in four languages, namely, Tamil, Malayalam, Hindi, and English, in the working platform of MATLAB. The obtained results for the proposed hybrid approach MFCC-SDC-DBN are promising. The proposed approach is also compared with the baseline feature extraction approach MFCC-SDC by utilizing traditional acoustic features and BPNN classifier. The accuracy obtained with our proposed approach is 98.1% whereas that of the baseline approach is 82%, thereby providing an overall improvement of 16.1%.  相似文献   

16.
语言模型技术作为信息检索领域的一个新的建模技术,已逐渐成为当代语言信息处理的主流技术之一。将该技术应用于话题跟踪研究中,对语言模型理论进行了介绍,详细描述了如何基于语言模型实现话题跟踪,构建了2个话题跟踪系统,分别利用向量空间模型和语言模型进行建模,并对它们的性能进行了比较。实验结果表明,语言模型比向量空间模型更适合于话题跟踪任务。  相似文献   

17.
本文给出了一种将词类信息融入三元文法模型的汉语组合语言模型。理论分析和实验均表明:该模型不仅复杂度低于三元文法模型,而且对测试文本域的依赖性也优于前者。  相似文献   

18.
A kind of Chinese combined language model, that takes into account POS(part of speech) information in a trigram-based statistical language model, is presented in the paper. The theoretical analysis and experiments all show that the model not only is lower than trigram model in PP(perplexity), but also is superior to trigram model in dependence on testing text domain.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号