共查询到18条相似文献,搜索用时 171 毫秒
1.
2.
语音识别中的一种说话人聚类算法 总被引:1,自引:1,他引:1
本文介绍了稳健语音识别中的一种说话人聚类算法,包括它在语音识别中的作用和具体的用法,聚类中常用的特征、距离测度,聚类的具体实现步骤等。我们从两个方面对该算法的性能进行了测试,一是直接计算句子聚类的正确率,二是对说话人自适应效果的改进的作用,即比较使用此算法后系统性能的改进进行评价。实验表明:在使用GLR 距离作为距离测度的时候,该算法对句子的聚类正确率达85169 %;在识别实验中,该聚类算法的使用,使得用于说话人自适应的数据更加充分,提高了自适应的效果,系统的误识率已经接近利用已知说话人信息进行自适应时的误识率。 相似文献
3.
讨论了时频分布以及距离测度在说话人确认中的应用。实验采用语音信号的时频分布作为说话人模型,并根据分布之间的距离测度进行确认判决。选择了多个核函数和距离测度进行比较,采用改进的Nelder-Mead算法,对核函数的参数进行优化,显著提高了确认的正确率,并在实验中得到了验征。 相似文献
4.
5.
杨雪霁 《自动化与仪器仪表》2023,(8):286-290
针对传统英语对话系统受环境噪声影响,出现多人混合语音分离现象,造成多人英语语音识别和对话效果降低的问题,提出一种基于深度学习的语音增强和传统阵列信号处理的多人英语语音分离系统。首先,采用基于长短时记忆网络LSTM的多目标语音增强算法捕捉英语语音序列的长时特性;然后建立一个两阶段的单通道多人语音分离框架提取目标说话人语音;最后将提取语音与阵列算法进行融合,并通过空间信息实现目标说话人英语语音精确估计。结果表明,相较于DNN-DM模型和LSTM-IRM模型,提出的LSTM-DM模型的信噪比指标明显更高,此模型的平均PESQ由2.66提升至2.95,增益为0.074%。由此说明,LSTM-DM模型的英语语音去噪和语音增强效果更好。提出的特定说话人前端系统的英语语音对话词错误率为65.3%,对比于Officoal Beamformlt系统和CGMM3Mask Fusion模型下降了14.6%和5.1%。说明此系统可实现多人混合英语语音分离,具备一定的有效性。 相似文献
6.
7.
在说话人确认系统中,训练和测试的声学环境不匹配将造成性能急剧下降。本文提出了从特征规整和评分规整两个方面进行补偿的方法。首先,改进了基于分段的倒谱均值方差规整(SCMVN)方法,将倒谱系数都规整到相同的段内高斯统计分布,以提高不同环境条件下特征匹配程度;其次,针对由于不同说话人和不同测试环境引起的输出评分分布变化,提出了两阶段的评分规整方法,即先零规整再测试规整(TZnorm)和先测试规整再零规整(ZTnorm)两种得分变换方法,使得失配条件下与说话人无关的决策门限更加鲁棒。基于NIST2002说话人识别评测库上的实验表明,采用SCMVN的特征规整和ZTnorm的评分规整方法能够明显地提高系统性能。与采用倒谱均值减和零规整的基线系统相比,等错误率和最小检测代价分别降低了20.3%和18.1%。 相似文献
8.
口语对话系统一直是计算机科学领域人类语言技术的热点,能够应用于不同的领域并且具备广阔的前景。将分析国外不同领域的三种典型会话系统:CommandTalk、ITSPOKE 和NICE。将从使用范围与交互方式、语音识别、对话管理、语音合成等几方面分析和研究这三种来自不同领域的对话系统,并提出观点和见解,为国内的口语对话系统研究和开发提供一定的参考和建议。 相似文献
9.
基于端点检测出的音节切分段,提出了一种1.5秒内可变长的测试语音分段法.该方法保证了音节的完整性,提高了说话人识别率.另外利用说话人转折点多发生在语音停顿处这一现象,提出了句首识别,句中聚类的方法,有效的降低了计算时间,并为某些低配置环境提供了以牺牲少量识别率来换取系统正常运行的有效方法. 相似文献
10.
11.
12.
中文分词是计算机自动处理文本的基础。通过比较常用的机械分词算法的优缺点,提出了分层逐字二分算法,综合了TRIE树和逐字二分分词的特点,以求通过较小的开销来实现较快的匹配速度。实验结果表明,该算法在综合性能上有显著提高。 相似文献
13.
14.
基于小波分析的大词汇汉语连续语音识别系统鲁棒性的研究 总被引:6,自引:0,他引:6
本文提出一种基于小波分析的大词汇汉语连续语音识别的方法,即采用一维小波变换将原始语音信号进行五层小波分解,然后对各层小波系数进行重构,得到五层语音信号,分别对各层语音信号进行训练,得到各层的声学模型,然后结合语言模型对各层声学模型的性能进行测试。通过对纯净语音和带噪语音的各层重构语音数据进行测试。结果表明对于含有高斯白噪声的带噪语音,该方法能使系统性能有所提高,但对于粉红噪声,该方法效果不明显。对于含有真实环境噪声的带噪语音,该方法能获得比基线系统更好的性能。 相似文献
15.
16.
对文本无关的说话人验证中模型距离归一化问题的研究 总被引:2,自引:0,他引:2
在自动说话人验证中, 模型距离归一化是非常有用的得分归一化技术之一. 相比于其他的主流得分归一化技术, 模型距离归一化的主要优点在于它不需要额外的语音数据和说话人集合. 但是, 它也仍然有自身的缺点. 比如, 在传统的模型距离归一化中, 模型之间的KL距离用Monte-Carlo方法求得, 而此方法的时间复杂度很高. 本文从一个新的角度探讨了模型距离归一化的原理, 并且提出了简化的模型距离归一化方法, 即使用KL距离的上限来衡量两个说话人模型的距离. 在2006年的NIST说话人评测数据集上, 本文提出的简化的模型距离归一化方法取得了与传统方式相近的结果, 而时间复杂度却大大降低了. 相似文献
17.
随着音频数据的不断增加,说话人识别已经变得越来越困难。本文提出了一种新颖的方法,在已有的说话人识别系统(GMM-UBM系统)的基础上,综合利用Index和Simulation,以很小的代价,极大地提高了说话人识别的速度,从而使说话人搜索成为可能。具体而言,就是采用两遍搜索策略,首先通过建立索引,在索引空间,比较索引间的欧氏距离,粗略地筛选出一定量的候选说话人目标;然后在此基础上,通过更精细的Simulation模型匹配,找出最佳的识别结果。实验结果显示我们的方法能以很小的代价,显著地提高说话人识别的速度。 相似文献