共查询到20条相似文献,搜索用时 15 毫秒
1.
为实现音视频语音识别和同时对音频视频流进行准确的音素切分,该文提出一个新的多流异步三音素动态贝叶斯网络(MM-ADBN-TRI)模型,在词级别上描述了音频视频流的异步性,音频流和视频流都采用了词-三音素-状态-观测向量的层次结构,识别基元是三音素,描述了连续语音中的协同发音现象.实验结果表明:该模型在音视频语音识别和对音频视频流的音素切分方面,以及在确定音视频流的异步关系上,都具备较好的性能. 相似文献
2.
《现代电子技术》2018,(10):179-182
传统的英文发音识别系统对于学习者的错误发音不能及时进行反馈与纠正,存在误导学习者以及学习者英文水平提高缓慢的弊端。在此设计新的英文发音错误语音自动识别系统,其由语音录制模块、语音播放模块、英语发音评分模块和发音共振峰图像显示模块构成,给出评分模块的发音评分流程,实现英文发音的有效评分以及评分的存储,系统通过发音共振峰图形显示模块,清晰地表达出学习者发音与标准发音的不同之处,纠正其错误读音。通过英语音素检错程序使用独立阈值的方式来提高错误读音的检测性能,对不同音素用独立阈值进行衡量,使得英语发音中的错误语音自动识别结果更加科学化、精准化。实验结果表明,所设计的系统具有较高的错误语音自动识别能力。 相似文献
3.
一种基于类融合向量的支持向量机及其在语音识别系统中的应用 总被引:1,自引:0,他引:1
支持向量机可以通过产生的支持向量来概括数据集合中的信息,其分类函数仅依赖于一小部分训练样本,即支持向量,这使得它对噪声数据非常敏感.本文采用数据融合的方法加以改进,提出了一种新的基于类融合向量的支持向量机,降低了对噪声数据和较大偏差值的敏感性,提高了算法的容噪性能,并成功地应用于语音识别系统中,取得了较好的效果. 相似文献
4.
5.
郑红娜 《智能计算机与应用》2017,7(4)
本文着眼于语音可视化,目的在于揭示中英文辅音的发音运动.然而,交叉语言比较的首要任务是消除特定说话人生理特性等音素引起的固有差别,本文采用了基于说话人归一化的普氏算法来进行说话人归一化处理,接着利用分层聚类分析算法和多维标度定位算法对相似发音对进行了量化的比较,从而获得了英汉相似音素发音的元音对比最小对和辅音对比最小对,并揭示了这2种语言的易混淆发音文本对在发音动作上的区别. 相似文献
6.
本文研究了一种结合"声学信息"和"音素配位学信息"进行语言辨识的新算法,首先在预处理中对语音进行自动分段,在特征层上引入带有长时信息的段级特征参数--段级移位差分倒谱,在模型层上利用高斯混合模型(Gaussi-an Mixture Model,GMM)将语音信号自动标识为符号序列,进而引入多元语言模型(Multi-gram Language Model,MLM)来对"音素配位学信息"进行建模,最后将"GMM得分"和"MLM得分"送入后端多分类支持向量机模型得到最终识别结果.相关实验表明,新系统不需手工标识的语料,识别速度快,对OGI标准语料库中的五种语言获得了开集正识率为78.84%的结果. 相似文献
7.
根据音素发音时语谱结构的变化提出了一种基于语谱能量的音素边界检测方法。该方法首先根据语谱结构变化特点将信号频域划分为高频、中频、低频3个区域,并以语音帧间语谱能量向量的欧氏距离为判别依据分别对3个区域进行音素边界检测,然后对3个区域检测的边界分别进行二次筛选,最后将3个区域的边界信息融合,得到音素边界检测结果,相对于基于音素属性的边界检测方法,计算复杂性大大降低,边界检测率提高了3.95%。 相似文献
8.
9.
基于多分类器投票组合的语音情感识别 总被引:2,自引:0,他引:2
为了提高语音情感的正确识别率,提出一种基于多分类器投票组合的语音情感识别新方法.在提取情感语音的韵律特征和音质特征基础上,利用投票方法将支持向量机、K近邻法和人工神经网络三种分类器构成组合分类器,实现对汉语生气、高兴、悲伤和惊奇4种主要情感类型的识别.实验结果表明,与使用单一分类器相比,组合分类器对语音情感的识别取得了87.4%的平均正确识别率,识别效果优于单一分类器. 相似文献
10.
针对传统的个人信誉评估方法存在的缺陷,提出了一种基于K均值聚类和支持向量机结合的个人信誉评估方法。该方法先将测试数据集进行聚类,根据数据离聚类的数据分布来选取合适数据训练支持向量机,然后利用支持向量机进行分类。结果表明,同单一利用支持向量机分类进行比较,该方法减少了训练时间,同时具有较高的测试精度,比传统的个人信誉评估模型有更好的效果。 相似文献
11.
12.
为了提高支持向量机的泛化能力,研究了Bagging集成学习方法对于支持向量机的提升作用,试验结果表明提升作用不明显。通过模拟数据扰动的方法,在标准数据集上通过试验定量比较了支持向量机和神经网络的稳定性,结果表明支持向量机相对于神经网络来说是一种稳定的分类器。在此基础上,提出了双重扰动法,即通过子空间法扰动数据特征,通过Bagging算法扰动数据分布,来达到提高基分类器之间差异性的目的,在标准数据集和故障诊断数据上进行了试验,试验结果表明,双重扰动法较好地提升了支持向量机的正确识别率。 相似文献
13.
14.
方言语音识别是方言保护的核心环节。传统的方言语音识别模型缺乏考虑方言语音中特定方言音素的重要性,同时缺少多种语音特征提取及融合,导致方言语音识别性能不高。本文提出的端到端方言语音识别模型充分发挥了残差CNN(Convolutional Neural Networks)和Bi-LSTM(Bi-directional Long Short-Term Memory)分别在语音帧内和帧间特征提取的优势,并利用多头自注意力机制有效提取不同方言中特定方言音素信息构成语音发音底层特征,利用该方言发音底层特征进行方言语音识别。在基准赣方言和客家方言两种方言语音语料库上的实验结果表明本文提出的方言语音识别模型显著优于现有基准模型,通过对注意力机制的可视化进一步分析了模型取得性能提升的根本原因。 相似文献
15.
16.
17.
为了合成具有真实感的视频序列,该文提出一种基于汉语视频三音素的可视语音合成方法。根据汉语的发音规律和音素与视素的对应关系,该文提出视频三音素的概念。在此基础上,建立隐马尔可夫(HMM)训练与合成模型,在训练过程中使用了视频音频联合特征,并加入了动态特征。在合成过程中,连接视频三音素HMM模型形成句子HMM,并从中提取特征参数,合成可视语音。从主观和客观评估结果来看,合成视频的真实感强,满意度较高。 相似文献
18.
19.
粗糙集理论和支持向量机在数据挖掘方面具有较强的互补特性,基于粗糙集理论的上近似集、下近似集和边界域概念,结合支持向量机的分类原理,提出了一种支持向量机分类算法。首先,在支持向量机分类中定义样本分类的粗糙集规则,然后在边界域寻找两类样本中使判别式绝对值取值最小且分类正确的样本来确定最优分类面,脱离了对惩罚系数C的寻优问题,有效避免了过拟合问题,并通过循环迭代算法寻找合适的参数b,获得分类性能更优的支持向量机,最后通过对一个二维样本数据库进行分类实验,验证了此算法的有效性与可行性。 相似文献
20.
提出了一种融合音素边界信息的语音样例快速检索方法。该方法首先提取查询样例和测试集的音素后验概率;然后,运用层次凝聚聚类算法将音素后验概率序列分段(即音素边界检测),计算每个分段的平均向量并将其分别组成新查询和新索引,再运用动态时间规整进行语音样例的检索;最后,使用虚拟相关反馈技术对检索结果进行修正。实验结果表明:尽管此方法的检索精度略低于直接运用动态时间规整进行检索的检索精度,但其检索速度大大优于后者,且与其他相关文献提出的方法相比,此方法在检索速度方面也具有明显优势。 相似文献