不完全匹配的语音和文本语句级对齐 |
| |
引用本文: | 徐锴,陶冶,李辉.不完全匹配的语音和文本语句级对齐[J].计算机系统应用,2023,32(4):300-307. |
| |
作者姓名: | 徐锴 陶冶 李辉 |
| |
作者单位: | 青岛科技大学 信息科学技术学院, 青岛 266061 |
| |
基金项目: | 国家重点研发计划(2018YFB1702902); 山东省高等学校青创科技支持计划(2019KJN047) |
| |
摘 要: | 语音文本自动对齐技术广泛应用于语音识别与合成、内容制作等领域,其主要目的是将语音和相应的参考文本在语句、单词、音素等级别的单元进行对齐,并获得语音与参考文本之间的时间对位信息.最新的先进对齐方法大多基于语音识别,一方面,准确率受限于语音识别效果,识别字错误率高时文语对齐精度明显下降,识别字错误率对对齐精度影响较大;另一方面,这种对齐方法不能有效处理不完全匹配的长篇幅语音和文本的对齐.该文提出一种基于锚点和韵律信息的文语对齐方法,通过基于边界锚点加权的片段标注将语料划分为对齐段和未对齐段,针对未对齐段使用双门限端点检测方法提取韵律信息,并检测语句边界,降低了基于语音识别的对齐方法对语音识别效果的依赖程度.实验结果表明,与目前先进的基于语音识别的文语对齐方法比较,即使在识别字错误率为0.52时,该文所提方法的对齐准确率仍能提升45%以上;在音频文本不匹配程度为0.5时,该文所提方法能提高3%.
|
关 键 词: | 语音文本对齐 韵律信息 锚点 自动语音识别 端点检测 |
收稿时间: | 2022/9/7 0:00:00 |
修稿时间: | 2022/10/21 0:00:00 |
|
| 点击此处可从《计算机系统应用》浏览原始摘要信息 |
|
点击此处可从《计算机系统应用》下载全文 |
|