首页 | 本学科首页   官方微博 | 高级检索  
     

不完全匹配的语音和文本语句级对齐
引用本文:徐锴,陶冶,李辉.不完全匹配的语音和文本语句级对齐[J].计算机系统应用,2023,32(4):300-307.
作者姓名:徐锴  陶冶  李辉
作者单位:青岛科技大学 信息科学技术学院, 青岛 266061
基金项目:国家重点研发计划(2018YFB1702902); 山东省高等学校青创科技支持计划(2019KJN047)
摘    要:语音文本自动对齐技术广泛应用于语音识别与合成、内容制作等领域,其主要目的是将语音和相应的参考文本在语句、单词、音素等级别的单元进行对齐,并获得语音与参考文本之间的时间对位信息.最新的先进对齐方法大多基于语音识别,一方面,准确率受限于语音识别效果,识别字错误率高时文语对齐精度明显下降,识别字错误率对对齐精度影响较大;另一方面,这种对齐方法不能有效处理不完全匹配的长篇幅语音和文本的对齐.该文提出一种基于锚点和韵律信息的文语对齐方法,通过基于边界锚点加权的片段标注将语料划分为对齐段和未对齐段,针对未对齐段使用双门限端点检测方法提取韵律信息,并检测语句边界,降低了基于语音识别的对齐方法对语音识别效果的依赖程度.实验结果表明,与目前先进的基于语音识别的文语对齐方法比较,即使在识别字错误率为0.52时,该文所提方法的对齐准确率仍能提升45%以上;在音频文本不匹配程度为0.5时,该文所提方法能提高3%.

关 键 词:语音文本对齐  韵律信息  锚点  自动语音识别  端点检测
收稿时间:2022/9/7 0:00:00
修稿时间:2022/10/21 0:00:00
点击此处可从《计算机系统应用》浏览原始摘要信息
点击此处可从《计算机系统应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号