首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 209 毫秒
1.
在构建藏语语料库时要对语音进行音素切分, 采用了两种方法, 即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度, 其中单音素、三音素总的平均切分准确度分别为80. 69%、88. 74%。实验结果表明, 三音素HMM模型的自动切分方法的准确率明显高于单音素HMM模型的切分率, 提高了语音语料库标注信息的精确度和一致性。  相似文献   

2.
对藏语拉萨话中单音子及三音子分布情况进行了统计,分析了在藏语大词表连续词表连续语音识别中建立上下文相关声学模型的必要性.选择音素为建模单元,根据藏语特点,建立以音节为单位的发音字典.讨论了利用决策树建立三音子模型的几个关键问题和基本算法,结合国际音标分类和经验知识,确定了38个藏语拉萨话音子类别集及相应的决策树问题集.建立了共20个发音人8 170句的训练语料,在HTK平台上建立和训练得到了基于决策树的藏语拉萨话三音子模型,并分析了不同隐马尔可夫模型状态数及高斯混合度下的识别结果,确定了一套藏语大词表连续语音识别的完整方案.  相似文献   

3.
藏语拉萨话大词表连续语音识别声学模型研究   总被引:1,自引:0,他引:1       下载免费PDF全文
李冠宇  孟猛 《计算机工程》2012,38(5):189-191
根据藏语的特点,提出藏语拉萨话大词表连续语音识别声学模型,利用高层次的藏语语言知识减少模式匹配的模糊性。以音素和声韵母为声学建模单元,在HTK平台上建立上下文相关的连续隐马尔可夫声学模型,以实现藏语拉萨话特定人大词表连续语音识别。实验结果表明,在最优情况下,该模型词错误率只有7.8%。  相似文献   

4.
为探索智能语音技术在英语发音学习中的作用,开展了面向中国人朗读英语句子的音素发音自动检错技术研究.首先收集了45个人录制的900句英文朗读发音,并由两位专家对音素发音中的错误进行详细的标注,然后基于语音识别技术建立的句子朗读发音中音素自动检错系统,并针对中国人英语发音时最为常见的错读和漏读两大问题,分别提出音素独立检错阈值和限定音素对齐识别网络的方法,对音素检错系统进行了优化,显著地提高了系统的性能,最终系统的召回率和正确率分别达到49%和52%,接近人工专家间的69%召回率下59%的正确率的性能.  相似文献   

5.
构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的识别率比HMM模型平均高12.79%;而纯净语音下,基于DBN模型的音素时间切分结果和三音素HMM模型的切分结果很接近。对基于视频特征的语音识别,DBN模型的识别率比HMM识别率高2.47%。实验最后还分析了音视频数据音素时间切分的异步关系,为基于多流DBN模型的音视频连续语音识别和确定音频和视频的异步关系奠定了基础。  相似文献   

6.
该文选取具有代表意义的藏语卫藏方言的拉萨话、安多方言的夏河话以及康方言的德格话进行语言调查;整理归纳藏语三大方言音系,包括单辅音、复辅音、单元音、复合元音和辅音韵尾,以及三大方言声调;依照SAMPA的规则建立适合于藏语三大方言的机读音标,并设计了SAMPA_ST的自动标注系统,实现文音转换功能,为语音的韵律特征分析和语音工程的研究提供依据。  相似文献   

7.
基于动态贝叶斯网络的语音识别及音素切分研究   总被引:1,自引:1,他引:0  
研究了一种基于动态贝叶斯网络(dynamic bayesian networks, DBN)的语音识别建模方法,利用GMTK(graphical model tool kits)工具构建音素级音频流DBN语音训练和识别模型,同时与传统的基于隐马尔可夫的语音识别结果进行比较,并给出词与音素的切分结果.实验表明,在各种信噪比测试条件下,基于DBN的语音识别结果与基于HMM的语音识别结果相当,并表现出一定的抗噪性,音素的切分结果也比较准确.  相似文献   

8.
构建了一种新的基于动态贝叶斯网络(Dynamic Bayesian Network,DBN)的异步整词-发音特征语音识别模型AWA-DBN(每个词由其发音特征的运动来描述),定义了各发音特征节点及异步检查节点的条件概率分布。在标准数字语音库Aurora5.0上的语音识别实验表明,与整词-状态DBN(WS-DBN,每个词由固定个数的整词状态构成)和整词-音素DBN(WP-DBN,每个词由其对应的音素序列构成)模型相比,WS-DBN模型虽然具有最高的识别率,但其只适用于小词汇量孤立词语音识别,AWA-DBN和WP-DBN可以为大词汇量连续语音建模,而AWA-DBN模型比WP-DBN模型具有更高的语音识别率和系统鲁棒性。  相似文献   

9.
面向语音合成的维吾尔语音素自动切分算法研究   总被引:2,自引:0,他引:2  
结合维吾尔语语音特征,以建立维吾尔音素语料库为目标,为了减少人工工作量,通过HTK工具实现了音素的自动切分算法:首先完成了文本设计、录音和手动标注等准备工作,设计了上下文属性集,通过训练获得了每个音素的HMM模型,随后对任意输入的语音句子进行了其音素构成部分的自动切分,最后分析了其切分准确度、存在的问题及对策等。实践表明,在语料库的建设中,该研究策略确实节省了大量的时间和人力成本,提高了语音语料库标注信息的一致性和准确性。  相似文献   

10.
针对俄语语音合成和语音识别系统中发音词典规模有限的问题,提出一种基于长短时记忆(LSTM)序列到序列模型的俄语词汇标音算法,同时设计实现了标音原型系统。首先,对基于SAMPA的俄语音素集进行了改进设计,使标音结果能够反映俄语单词的重音位置及元音弱化现象,并依据改进的新音素集构建了包含20 000词的俄语发音词典;然后利用TensorFlow框架实现了这一算法,该算法通过编码LSTM将俄语单词转换为固定维数的向量,再通过解码LSTM将向量转换为目标发音序列;最后,设计实现了具有交互式单词标音等功能的俄语词汇标音系统。实验结果表明,该算法在集外词测试集上的词形正确率达到了74.8%,音素正确率达到了94.5%,均高于Phonetisaurus方法。该系统能够有效为俄语发音词典的构建提供支持。  相似文献   

11.
针对现有心音分类算法普适性差、依赖于对基本心音的精确分割、分类模型结构单一等问题,提出采用大量未经过精确分割的心音二维特征图训练深度卷积神经网络(CNN)的方法;首先采用滑动窗口方法和梅尔频率系数对心音信号进行预处理,得到大量未经过精确分割的心音特征图;然后利用深度CNN模型对心音特征图进行训练和测试;根据卷积层间连接方式的不同,设计了 3种深度CNN模型:基于单一连接的卷积神经网络、基于跳跃连接的卷积神经网络、基于密集连接的卷积神经网络;实验结果表明,基于密集连接的卷积神经网络比其他两种网络具备更大的潜力;与其他心音分类算法相比,该算法不依赖于对基本心音的精确分割,且在分类准确率、敏感性和特异性方面均有提升.  相似文献   

12.
藏语语料库加工方法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
为了使藏语语料库具有规范性、统一性和实用性,提高加工的整体水平,在藏语语料库的加工过程中首先要对五花八门的藏语语料库进行整理和统一,得到高质量的原始语料库,其次确定藏语原料库加工的切分单位,针对藏语的语法特征提出藏语语料库藏语词语类别和词类标记集,同时在对藏语词语进行归类和统计的基础上建立分词标注词典库,设计并实现藏文自动分词标注软件,利用分词标注软件对大规模藏语语料库进行切分和标注,最终实现藏语语料库的多级加工。  相似文献   

13.
针对传统卷积神经网络在作物病害叶片图像中分割精度低的问题,提出一种基于级联卷积神经网络(Cascade Convolutional Neural Network,CCNN)的作物病害叶片图像分割方法。该网络由区域病斑检测网络和区域病斑分割网络组成。基于传统VGG16模型构建区域病斑检测网络(Regional Detection Network,RD-net),利用全局池化层代替全连接层,由此减少模型参数,实现叶片病斑区域精确定位。基于Encoder-Decoder模型结构建立区域分割网络(Regional Segmentation Network,RS-net),并利用多尺度卷积核提高原始卷积核的局部感受野,对病斑区域精确分割。在不同环境下的病害叶片图像上进行分割实验,分割精度为87.04%、召回率为78.31%、综合评价指标值为88.22%、单幅图像分割速度为0.23?s。实验结果表明该方法能够满足不同环境下的作物病害叶片图像分割需求,可为进一步的作物病害识别方法研究提供参考。  相似文献   

14.
带H1正则项的C-V模型   总被引:1,自引:0,他引:1  
张少华 《计算机应用》2011,31(8):2214-2216
C-V模型(CHAN T F, VESE L A. Active contours without edges. IEEE Transactions on Image Processing, 2001, 10(2): 266-277)是一个著名的基于区域的图像分割模型。它对活动轮廓的初始化和噪声不敏感,但分割的图像的范围不够广泛。因此,运用理论分析与实验相结合的方法,在C-V模型中添加H1正则项,对其进行了改进,提出了一个新颖的图像分割的能量泛函,并推导出了以偏微分方程形式表示的基于区域的自适应插值拟合的活动轮廓模型。实验表明:该模型能够分割某些原来C-V模型不适用的图像,它对初始轮廓的大小、位置的敏感性较小,抗噪性较强。  相似文献   

15.
This paper presents a novel method of foreground and shadow segmentation in monocular indoor image sequences. The models of background, edge information, and shadow are set up and adaptively updated. A Bayesian network is proposed to describe the relationships among the segmentation label, background, intensity, and edge information. A maximum a posteriori—Markov random field estimation is used to boost the spatial connectivity of segmented regions.  相似文献   

16.
In this paper we proposed two-stage segmentation approach for splitting the TV broadcast news bulletins into sequence of news stories and codebooks derived from vector quantization are used for retrieving the segmented stories. At the first stage of segmentation, speaker (news reader) specific characteristics present in initial headlines of news bulletin are used for gross level segmentation. During second stage, errors in the gross level segmentation (first stage) are corrected by exploiting the speaker specific information captured from the individual news stories other than headlines. During headlines the captured speaker specific information is mixed with background music, and hence the segmentation at the first stage may not be accurate. In this work speaker specific information is represented by using mel frequency cepstral coefficients, and captured by Gaussian mixture models (GMMs). The proposed two-stage segmentation method is evaluated on manual segmented broadcast TV news bulletins. From the evaluation results, it is observed that about 93 % of the news stories are correctly segmented, 7 % are missed and 6 % are spurious. For navigating the bulletins, a quick navigation indexing method is developed based on speaker change points. Performance of the proposed two-stage segmentation and quick navigation methods are evaluated using GMM and neural networks models. For retrieving the target news stories from news corpus, sequence of codebook indices derived from vector quantization is explored. Proposed retrieval approach is evaluated using queries of different sizes. Evaluation results indicating that the retrieval accuracy is proportional to size of the query.  相似文献   

17.
句子是字或词根据语法规则进行组合的编码,句义分割是句子组合规律的解码问题,即对句义进行解析。在藏文分词后直接进行语义分析,其颗粒度过小,容易出现词语歧义,而以句子为分析单位,则颗粒度过大,不能较好地揭示句子的语义。为此,提出一种藏文句义分割方法,通过长度介于词语和句子之间的语义块单元进行句义分割。在对句子进行分词和标注的基础上,重新组合分词结果,将句子分割为若干个语义块,并采用空洞卷积神经网络模型对语义块进行识别。实验结果表明,该方法对藏文句义分割的准确率达到94.68%。  相似文献   

18.
张永宏  刘昊  田伟  王剑庚 《计算机应用》2005,40(9):2781-2788
针对高原地区数值预测法建模复杂,雷达回波外推法易产生累积误差且模型参数难以设置的问题,提出了一种基于改进DeepLab v3网络模型的西藏地区降雨云团的分割方法。首先,通过编码网络中的卷积层和残差模块进行下采样;然后,利用空洞卷积构建多尺度采样模块,并且加入注意力机制模块提取深层高维特征;最后,通过解码网络利用反卷积恢复特征图分辨率。将所提方法与谷歌语义分割网络DeepLab v3等模型在验证集上进行比较,实验结果表明所提方法具有更好的分割性能与泛化能力,其降雨云团分割结果更为准确,平均交并比(Miou)达到0.95,与原始DeepLab v3相比提高了15.54个百分点。在小目标上和非平衡数据集上,该方法可以更准确地分割出降雨云团,为降雨云团监测预警提供参考。  相似文献   

19.
张永宏  刘昊  田伟  王剑庚 《计算机应用》2020,40(9):2781-2788
针对高原地区数值预测法建模复杂,雷达回波外推法易产生累积误差且模型参数难以设置的问题,提出了一种基于改进DeepLab v3网络模型的西藏地区降雨云团的分割方法。首先,通过编码网络中的卷积层和残差模块进行下采样;然后,利用空洞卷积构建多尺度采样模块,并且加入注意力机制模块提取深层高维特征;最后,通过解码网络利用反卷积恢复特征图分辨率。将所提方法与谷歌语义分割网络DeepLab v3等模型在验证集上进行比较,实验结果表明所提方法具有更好的分割性能与泛化能力,其降雨云团分割结果更为准确,平均交并比(Miou)达到0.95,与原始DeepLab v3相比提高了15.54个百分点。在小目标上和非平衡数据集上,该方法可以更准确地分割出降雨云团,为降雨云团监测预警提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号