不完全匹配的语音和文本语句级对齐期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

不完全匹配的语音和文本语句级对齐

引用本文：	徐锴,陶冶,李辉.不完全匹配的语音和文本语句级对齐[J].计算机系统应用,2023,32(4):300-307.

作者姓名：	徐锴陶冶李辉

作者单位：	青岛科技大学信息科学技术学院, 青岛 266061

基金项目：	国家重点研发计划(2018YFB1702902); 山东省高等学校青创科技支持计划(2019KJN047)

摘要：	语音文本自动对齐技术广泛应用于语音识别与合成、内容制作等领域,其主要目的是将语音和相应的参考文本在语句、单词、音素等级别的单元进行对齐,并获得语音与参考文本之间的时间对位信息.最新的先进对齐方法大多基于语音识别,一方面,准确率受限于语音识别效果,识别字错误率高时文语对齐精度明显下降,识别字错误率对对齐精度影响较大;另一方面,这种对齐方法不能有效处理不完全匹配的长篇幅语音和文本的对齐.该文提出一种基于锚点和韵律信息的文语对齐方法,通过基于边界锚点加权的片段标注将语料划分为对齐段和未对齐段,针对未对齐段使用双门限端点检测方法提取韵律信息,并检测语句边界,降低了基于语音识别的对齐方法对语音识别效果的依赖程度.实验结果表明,与目前先进的基于语音识别的文语对齐方法比较,即使在识别字错误率为0.52时,该文所提方法的对齐准确率仍能提升45%以上;在音频文本不匹配程度为0.5时,该文所提方法能提高3%.
关键词：	语音文本对齐韵律信息锚点自动语音识别端点检测
收稿时间：	2022/9/7 0:00:00
修稿时间：	2022/10/21 0:00:00

	点击此处可从《计算机系统应用》浏览原始摘要信息
	点击此处可从《计算机系统应用》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏