期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李晋郭武戴礼荣《模式识别与人工智能》2013,(8):705-710

在文本无关的说话人确认系统中,联合因子分析算法以其明确的空间估计方法成为主流的技术手段.然而由于算法流程的限制,使用该算法得到的说话人空间和信道空间不可避免地产生重叠.为解决空间模型的重叠问题,文中采用基于信号子空间的空间变换方法,使空间模型分离.对于NIST SRE 2008核心测试任务中的电话信道注册-电话信道测试,相对于不采用空间变换的联合因子分析算法,取得9.2%等错误率的降低. 相似文献

2.

基于生理舌头模型的语音可视化系统

下载免费PDF全文

江辰於俊罗常伟李睿汪增福《中国图象图形学报》2015,20(9):1237-1246

目的目前针对舌头的语音同步动画技术还未得到广泛的研究。在此背景下,提出了一种基于生理模型的舌头动画合成方法。方法首先构建了一个精细的、能够在肌肉激励下产生逼真舌头变形的舌头生理模型;其次利用该舌头模型合成了大量的舌头运动样本,并据此通过学习得到一个从肌肉激励到舌头轮廓的转换模型;然后对采集的动态2维舌头轮廓数据进行运动参数估计以得到与音素对应的体素(肌肉激励序列和刚体位移序列);最后将体素按一定的排列方式输入到舌头生理模型进行仿真以生成相应的舌头动画。结果该系统可以合成听觉效果逼真的语音和视觉效果逼真且与合成语音同步的舌头动画。结论本文方法可以根据汉语普通话或其他语言的2维舌头轮廓数据构建音素—体素数据库,并据此合成该语言对应的高真实感的3维舌头动画。相似文献

3.

基于解码多候选结果的半监督数据挑选的语音识别

王兮楼郭武解传栋《模式识别与人工智能》2018,31(7):662-667

基于资源稀少情况下的语音识别,提出针对大量无标注数据的半监督学习的挑选策略,应用到声学模型和语言模型建模.采用少量数据训练种子模型后,解码无标注数据.首先在解码的最佳候选结果中采用置信度与困惑度结合的方法挑选高可信的语句训练声学模型及语言模型.进一步对解码得到的格进行转化,得到多候选文本,用于语言模型训练.在日语识别任务上,相比基于置信度挑选数据的方法,文中方法在识别率上具有较大提升. 相似文献

4.

自由表述口语语音评测后验概率估计改进方法

许苏魁戴礼荣魏思刘庆峰高前勇《中文信息学报》2017,31(2):212-219

该文研究了两种用于改善深度神经网络声学建模框架下自由表述口语语音评测任务后验概率估计的方法: 1)使用RNN语言模型对一遍解码N-best候选做语言模型得分重估计来获得更准确的识别结果以重新估计后验概率;2)借鉴多语种神经网络训练框架,提出将方言数据聚类状态加入解码神经网络输出节点,在后验概率估计中引入方言似然度得分以评估方言程度的新方法。实验表明,这两种方法估计出的后验概率与人工分相关度分别绝对提升了3.5%和1.0%,两种方法融合后相关度绝对提升4.9%;对于一个真实的评测任务,结合该文改进的后验概率评分特征,总体评分相关度绝对提升2.2%。相似文献

5.

多流信息融合的集外词检索

熊世富郭武《数据采集与处理》2014,29(2):280-285

针对关键词中的集外词检索任务，本文提出采用音素、音节、词片三种子词单元进行多流信息的联合检索算法, 其中对基于音素的STD(Spoken Term Detection)系统使用基于n元语言模型-加权有限状态机的完全匹配检索降低漏警，对基于音节、词片的STD系统使用模糊匹配检索降低虚警, 最后采用线性逻辑回归(Linear Logistic Regression, LLR)的算法将三个子系统的结果进行融合。在NIST STD 2006语音检索评测的英语电话会话语音测试集上的实验结果表明，相对于最好的单流系统，多流信息融合获得了12%的实际词项权重值(Actual Term Weighted Value, ATWV)相对提升。相似文献

6.

结合CNN不同层信息的全变量建模人脸特征表达学习方法

下载免费PDF全文

洪新海宋彦《信号处理》2017,33(8):1073-1081

如何学习有效的人脸特征表达是人脸识别的关键性问题。现有基于卷积神经网络（Convolutional Neural Networks, CNN）的人脸深度特征表达学习方法大多在人脸图像经过了有效检测和校正的情况下，能够获得优异的性能，而在复杂场景下其推广性和鲁棒性受到极大限制。对此，本文提出了结合CNN不同层信息的全变量建模人脸特征表达学习方法，将提取的人脸局部深度特征中所包含的差异信息按照子空间进行建模，有效聚合局部深度特征的同时得到人脸在低维子空间的特征表达（iVector）。在IJB-A（IARPA Janus Benchmark A）上的实验结果表明，与现有的深度特征表达相比，该方法学习得到的人脸iVector表达能够显著提升人脸识别系统的识别性能和计算效率。相似文献

7.

面向情感语音转换的韵律转换方法

《Planning》2014,(4)

面向情感语音转换,该文提出了一种韵律转换方法。该方法包含基频转换和时长转换两个部分,前者选择离散余弦变换(DCT)参数化基频,根据基频的层次结构特点,将基频分解为短语层和音节层两个层次,使用基于混合高斯模型(GMM)的转换方法对两个层次分别进行转换;后者使用基于分类回归树(CART)的方法以声韵母为基本单位对时长进行转换。一个包含三种基本情感的语料库用作训练和测试,客观评测以及主观评测实验结果显示该方法可有效进行情感韵律转换,其中悲伤情感在主观实验中达到了接近100%的正确率。相似文献

8.

基于多通道视觉注意力的细粒度图像分类

王培森宋彦戴礼荣《数据采集与处理》2019,34(1):157-166

视觉注意力机制在细粒度图像分类中得到了广泛的应用。现有方法多是构建一个注意力权重图对特征进行简单加权处理。对此,本文提出了一种基于可端对端训练的深度神经网络模型实现的多通道视觉注意力机制,首先通过多视觉注意力图描述对应于视觉物体的不同区域,然后提取对应高阶统计特性得到相应的视觉表示。在多个标准的细粒度图像分类测试任务中,基于多通道视觉注意的视觉表示方法均优于近年主流方法。相似文献

9.

说话人确认中基于无监督聚类的得分规整

古斌郭武《数据采集与处理》2019,34(5):837-843

在说话人确认任务中,得分规整可有效调整测试得分分布,使每个说话人的得分分布接近同一分布,从而提升系统整体性能。直接从开发集中获得针对待识别目标说话人的大量冒认者得分,利用无监督聚类手段对这些得分进行筛选,并采用混合高斯模型来拟合得分分布,挑选均值最大的高斯单元作为得分规整的参数并将其应用于说话人的得分规整。在NIST SRE 2016测试集上的测试结果表明,相对于其他得分规整算法,采用无监督聚类得分规整的方法可有效提升系统性能。相似文献

10.

说话人确认中基于无监督聚类得分规整

古斌《数据采集与处理》2019,34(5)

在说话人确认任务中,得分规整可有效调整测试得分分布,使得每个说话人的得分分布接近同一分布,从而提升系统整体性能。在本文中,直接从开发集中获得针对待识别目标说话人的大量冒认者得分,利用无监督聚类手段对这些得分进行筛选,并采用混合高斯模型来拟合得分分布,挑选均值最大的高斯单元作为得分规整的参数并将其应用于说话人的得分规整。在NIST SRE 2016测试集上,相对于其它得分规整算法,采用无监督聚类得分规整的方法可有效提升系统性能。相似文献