基于长时平均频谱的“文本无关“话者识别 |
| |
引用本文: | 王宏,向大威.基于长时平均频谱的“文本无关“话者识别[J].声学技术,2002(2). |
| |
作者姓名: | 王宏 向大威 |
| |
摘 要: | 文章以动窗离散傅立叶变换为基础获取说话人的长时平均频谱(即短时频谱的长时平均),然后将长时平均频谱经过能量归一化和频率归一化后作为“文本无关“话者识别的语音特征.分析之前,语音样本经过频域预加权和时域汉明窗加权处理,并利用帧能量门限自动去除了样本中的寂静段.通过在小人群范围内对该方法的大量实验,得到很好的话者识别效果.另外,作为“文本无关“话者识别的一个重要辅助手段,文章还利用短时频谱分析给出了话者语音样本的窄带三维语图和宽带三维语图,它们能清晰地给出话者语音的时变频率特征.
|
关 键 词: | 说话人识别 文本无关 长时平均频谱 三维语图 |
本文献已被 维普 等数据库收录! |
|