首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 162 毫秒
1.
基于视频三音子的双模态语料自动选取算法   总被引:2,自引:2,他引:0       下载免费PDF全文
为实现可视语音合成,建立符合条件的双模态语料库,提出双模态语料自动选取算法。根据视频中唇部发音特征,对已有的三音子模型归类,形成视频三音子,在其基础上从原始语料中自动选取语料,利用评估函数对原始语料中的句子打分。与其他双模态语料库相比,该语料库在覆盖率等指标上有较大改进,为实现具有真实感的可视语音合成奠定基础。  相似文献   

2.
基于句子级的唇读语料库及其切分算法   总被引:1,自引:0,他引:1  
论文对适合唇读研究的连续音节双模态语料库及其语料切分算法的设计和研究工作进行了讨论。介绍了基于句子级的双模态语料库HITBi-CAVDatabaseII的设计和建立,形式化地讨论了该库的主要特点及基于语音能量的语料切分算法的可行性。该切分算法在基于能量的语音切分算法基础上,结合了双模态语料库的一些特征,实现了对语料的自动切分。  相似文献   

3.
藏语连续语音语料库设计与实现   总被引:1,自引:0,他引:1       下载免费PDF全文
以藏语夏河话为研究对象,建立了基于三音子的藏语连续语音语料库。首先收集了10万句藏语文本语料库,并根据夏河话的实际发音,进行了国际音标转写;然后总结了夏河话的三音子音联结构形式,并用藏语文本处理平台对其组合类型和在原始文本语料库中的频度进行了详细的统计分析;最后在语音库的语料设计中综合考虑了三音子以及类三音子的覆盖率和稀疏度,设计并完成了语料抽取算法,实现了语料自动选取。  相似文献   

4.
建立手语汉语平行语料库的目的是用于机器翻译和语言对比研究,并且能够系统地保存手语资源,保护手语和聋人文化。手语汉语平行语料库存储的内容主要包括手语视频、被采集者信息和标注者信息,以及通过多媒体标注软件ELAN转写的十四层标注信息,包括手控和非手控信息。该文采用基于向量空间的余弦相似性算法,实现了用手语语料相似度的计算来帮助语料库去重,并取得了较明显的效果;同时用此算法进行专家相似度测试以确保语料库的质量。  相似文献   

5.
基于三音子模型的语料自动选择算法   总被引:8,自引:0,他引:8  
吴华  徐波  黄泰翼 《软件学报》2000,11(2):271-276
在语音识别中,如何经济地挑选语音训练语料,使其覆盖尽可能多的语音现象是一个非常重要的问题.传统的语音训练语料采用手工挑选后再进行检验和补充的方法,此方法难以保证所选语料语音现象的覆盖率.该文提出了一种自动地从大规模语料库中挑选语料的搜索算法,此算法不但能使所选语料覆盖几乎所有语音现象,而且能保证训练语料中三音子和类三音子有足够的样本个数,使训练数据不过于稀疏,为训练正确而可靠的语音模型打下了坚实的基础.  相似文献   

6.
语法是汉语(二语)教学中的重点和难点,而面向语法教学领域的知识库、语料库较少,不能满足汉语国际教育事业发展的需求。该文首先根据三个平面理论和对外汉语教学语法理论提出了面向汉语(二语)教学的语法点描述框架,建立了包含121个教学常用语法点的知识库。其次,在141 464条对外汉语教材语料和新HSK样题文本语料中对121个语法点进行了句法语义信息的综合标注,共获得95 592个句次的标注语料,涉及形式类别580项,语义类别233项,形成了与语法点知识库配套的语法点标注语料库。最后,讨论了语法点知识库和语法点标注语料库在汉语(二语)教学及教材研究领域的应用。
  相似文献   

7.
统计语言模型及汉语音字转换的一些新结果   总被引:13,自引:3,他引:10  
汉语音字转换是一个重要而困难的问题。语料库语言学为我们提供了新思路。作者们通过建立统计语言模型, 将基于语料库的方法与传统的基于规则的方法结合, 研制了THED新一代音字转换系统。该系统对随机抽取的祈华社新闻语料有不低于95%的带调音节和国标汉字的转换正确率。本文侧重报道该系统在汉语音字转换方面及与此相关的汉语切词和词性标注方面的一些实验结果, 也简要介绍该系统在语料库应用方面的一些思路。  相似文献   

8.
唇读中序列口型的分类   总被引:3,自引:0,他引:3  
本文针对汉语中所有声韵母发音序列中的连续口型提出了一种口型分类的思路。在建立了覆盖所有声韵母的汉语双模态语料库的基础之上,本文提出了一种两次分类的方法,对语料库中的图像进行唇的分割、定位及特征提取,并依靠选择的特征,将声韵母的发音序列中的口型聚为15类。本文的目的是在此分类的基础上,明确唇读识别阶段的状态数,减小搜索的空间,提高收敛速度。  相似文献   

9.
篇章衔接性分析是理解篇章的基础,汉语和英语在指代、连接和省略等主要衔接方式上存在差异。该文分别给出子句、连接词、指代和省略的汉英篇章衔接对齐标注策略,创建了规模为200个对齐文档的语料库资源,对标注语料进行质量评估并讨论了标注中的难点问题及解决方法。语料库中的子句、连接词和指代标注一致率分别为0.909、0.876和0.920。在该文构建的语料库上分别进行子句切分和连接词识别实验,结果表明,该文语料标注策略切实可行,标注质量满足实际需要。  相似文献   

10.
沈亚敏  赵晖  张权  唐朝京 《计算机工程》2011,37(5):256-257,260
为实现语音转换,建立符合要求的汉语语音转换语料库,提出一种基于半音节模型的语料自动选取算法。根据语音转换训练时需要语料数量较少的特征,选择半音节作为语料库的基本单位。在此基础上,从原始语料中自动选取语料,根据语音转换对说话人特征较敏感的情况,利用评估函数并根据半音节的出现次数对原始语料中的句子进行打分。实验结果表明,与传统算法相比,该算法在语音库自动选取615句汉语语料时,可以覆盖97.8%的带声调半音节,其覆盖效率、覆盖率和稀疏度有较大改进。  相似文献   

11.
在构建藏语语料库时要对语音进行音素切分, 采用了两种方法, 即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度, 其中单音素、三音素总的平均切分准确度分别为80. 69%、88. 74%。实验结果表明, 三音素HMM模型的自动切分方法的准确率明显高于单音素HMM模型的切分率, 提高了语音语料库标注信息的精确度和一致性。  相似文献   

12.
针对音、视频双模态语音识别能有效地提高噪声环境下的识别率的特性,本文设计了车载语音控制指令识别实验系统。该系统模拟车载环境,把说话时的视频信息融入到语音识别系统中,系统分为模型训练、离线识别和在线识别3部分。在线识别全程采用语音作为人机交互手段,并具备用户自适应的功能。离线识别部分将系统产生的数据分层次进行统计,非常适合进行双模态语音识别算法研究。  相似文献   

13.
音节是维吾尔语的最小发音单元,所以大部分维吾尔语语音合成系统以音节作为基本的合成单元,但维吾尔语中音节数量很大,语料库很难保证覆盖所有的音节样本,这会导致合成语音不稳定和不连续。为解决合成语音不稳定的情况,提出了结合单音素和三音素两个不同基元的单元挑选算法。通过在单元挑选模块中加入韵律参数相匹配的方法选出最佳韵律匹配的单元并解决了合成语音不连续的情况。实验结果表明,提出的方法有效地解决了合成语音不稳定和不连续的现象,从而提高了合成语音的自然度。  相似文献   

14.
基于三音素动态贝叶斯网络模型的大词汇量连续语音识别   总被引:1,自引:0,他引:1  
考虑连续语音中的协同发音现象,基于词-音素结构的DBN(WP-DBN)模型和词-音素-状态结构的DBN(WPS-DBN)模型,引入上下文相关的三音素单元,提出两个新颖的单流DBN模型:基于词-三音素结构的DBN(WT-DBN)模型和基于词-三音素-状态的DBN(WTS-DBN)模型.WTS-DBN模型是三音素模型,识别基元为三音素,以显式的方式模拟了基于三音素状态捆绑的隐马尔可夫模型(HMM).大词汇量语音识别实验结果表明:在纯净语音环境下,WTS-DBN模型的识别率比HMM,WT-DBN,WP-DBN和WPS-DBN模型的识别率分别提高了20.53%,40.77%,42.72%和7.52%.  相似文献   

15.
考虑连续语音中的协同发音问题,提出基于词内扩展的单流上下文相关三音素动态贝叶斯网络(SS-DBN-TRI)模型和词间扩展的单流上下文相关三音素DBN(SS-DBN-TRI-CON)模型。SS-DBN-TRI模型是Bilmes提出单流DBN(SS-DBN)模型的改进,采用词内上下文相关三音素节点替代单音素节点,每个词由它的对应三音素单元构成,而三音素单元和观测向量相联系;SS-DBN-TRI-CON模型基于SS-DBN模型,通过增加当前音素的前音素节点和后音素节点,构成一个新的词间扩展的三音素变量节点,新的三音素节点和观测向量相联系,采用高斯混合模型来描述,采用数字连续语音数据库的实验结果表明:SS-DBN-TRI-CON具备最好的语音识别性能。  相似文献   

16.
在维吾尔语连续语音识别试验的声学层建模基础上,引用DDBHMM模型将上下文相关的三音子作为基本识别单元,并提出一种状态绑定的思想,对状态进行优化。为得到更充分的训练模型,提高识别效率,对语料库进行扩充,在多组对比试验的基础上,分析扩充前后对声学层识别速度、准确率等各个方面的影响。  相似文献   

17.
基于乘积HMM的双模态语音识别方法   总被引:3,自引:2,他引:1       下载免费PDF全文
针对噪声环境中的语音识别,提出一种用于双模态语音识别的乘积隐马尔可夫模型(HMM)。在独立训练音频HMM和视频HMM的基础上,建立二维训练模型,表征音频流和视频流之间的异步特性。引入权重系数,根据不同噪声环境自适应调整音频流与视频流的权重。实验结果证明,与其他双模态语音识别方法相比,该方法的识别性能更高。  相似文献   

18.
This article describes a novel method that models the correlation among acoustic observations in contiguous speech segments. The basic idea behind the method is that acoustic observations are conditioned not only on the phonetic context but also on the preceding acoustic segment observation. The correlation between consecutive acoustic observations is modeled by mean trajectory polynomial segment models (PSM). This method is an extension of conventional segment modeling approaches in that it describes the correlation of acoustic observations not only inside segments but also between contiguous segments. It is also a generalization of phonetic context (e.g., triphone) modeling approaches because it can model acoustic context and phonetic context at the same time. Using the proposed method in a speaker-independent phoneme classification test resulted in a 7 to 9% relative reduction of error rate as compared with the traditional triphone segmental model system and a 31% reduction as compared with a similar triphone hidden Markov model (HMM) system.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号