首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
屈丹  杨绪魁  张文林 《自动化学报》2015,41(7):1244-1252
提出了特征空间本征音说话人自适应算法,该方法首先借鉴RATZ 算法的思想,采用高斯混合模型对特征空间中的说话人信息进行建模;其次利用 子空间方法实现对特征补偿项的估计,减少估计参数的数量,在对特征空间精确建 模的同时,降低了算法对自适应数据量的需求.基于微软语料库的中文连续语 音识别实验表明,该算法在自适应数据量极少时仍能取得较好的性能,配合说话人自适 应训练能够进一步降低词错误率,其实时性优于本征音说话人自适应算法.  相似文献   

2.
提出了一种基于本征音因子分析的文本无关的说话人识别方法.它解决了训练语音与测试语音均很短的情况下,传统的基于最大后验概率准则的混合高斯模型无法建立稳定的说话人模型问题.首先利用期望最大化算法在开发集上训练出说话人的本征音载荷矩阵,在说话人模型建模时通过将短时语音数据向本征音空间的降维映射来得到模型参数.实验结果表明,在NIST SRE 2006数据库中的10 s训练语音-10 s测试语音任务中,在传统的混合高斯模型的基线系统上,通过采用本征音因子分析的方法可以使系统等错误率降低18%.  相似文献   

3.
张文林  张连海  牛铜  屈丹  李弼程 《自动化学报》2012,38(12):1950-1957
将正则化方法应用于本征音说话人自适应算法中,有效地解决了说话人子空间基的先验选择问题. 通过对似然函数引入适当的正则项,在优化过程中从候选本征音基矢量中自动选择最佳的本征音进行线性组合. 本文讨论了三种正则化因子,并给出了其数学优化算法. l1正则化可以得到说话人因子的稀疏解,其非零项即对应最佳本征音基矢量; l2正则化可以提高解的稳健性,在某种程度上减少了子空间维数的先验选择对识别率的影响;而弹性网正则化则通过线性组合在二者之间取得折衷.有监督说话人自适应实验表明,新方法与本征音方法的最好结果相比,在少量的自适应数据条件下(10s以下),识别率相对提高了近1%~2%.三种方法中, l1正则化略优于l2正则化,而在引入弹性网正则化后,系统性能有了进一步提高.  相似文献   

4.
一种新的基于子空间的说话人自适应方法   总被引:1,自引:0,他引:1  
张文林  张卫强  刘加  李弼程  屈丹 《自动化学报》2011,37(12):1495-1502
提出了一种新的基于子空间的快速说话人自适应方法.该方法在本征音(Eigen-voice, EV)自适应方法基础上,进一步在音子空间寻找低维子空间, 得到更为紧凑的“说话人--音子”联合子空间.该子空间不仅包含了说话人间的模型参数相关性信息,而且对音子间的模型参数相关 性信息也进行了显式建模,在大大降低模型存储量的同时更为全面地反映模型参数的先验信息.在基于连续语音识别的无监督自适应实验中,在少量的自适应数据条件下,新方法取得了比最大似然线性回归和聚类最大似然线性基方法更好的效果.  相似文献   

5.
说话人识别中的因子分析以及空间拼接   总被引:1,自引:0,他引:1  
联合因子分析可以有效拟合混合高斯模型中的说话人和信道差异, 在说话人识别中得到广泛应用. 一般情况下, 该算法在对说话人和信道两个载荷矩阵进行联合估计时, 说话人残差矩阵无法发挥作用, 信道载荷矩阵的因子数不能提高. 本文提出说话人载荷矩阵、说话人残差载荷矩阵采用串行的训练模式, 在信道载荷矩阵训练中采用矩阵拼接的方法, 能够有效提高识别率; 在NIST SRE 2008年核心测试数据库的五个部分分别达到等错误率3.3%, 5.1%, 5.0%, 5.3%和5.0%.  相似文献   

6.
针对人脸识别过程中仅靠人脸整体特征识别容易出现误识的问题,以及人脸局部特征的重要性。本着由粗到精的学习原则,设计了选择性多本征空间的多级人脸识别方法(SMEM)。首先对人脸划分为整体、上半部、鼻、眼四个本征区域;然后对各本征建立特征空间并构造BP神经网络人脸识别器;最后,以后验概率为依据,选择性调用各级识别器,直到类内阈值和类间阈值均满足设定值的分类为止。经实验证明,此方法有较高的识别精度。  相似文献   

7.
曾岳  冯大政 《计算机工程》2011,37(19):148-149,152
传统线性子空间算法在提取类内散度矩阵的特征向量时,存在偏差、过拟合和推广能力差的问题。为此,提出一种新的子空间算法。将类内散度矩阵的特征空间分解为2个子解空间,即主成分空间和零空间,再利用本征谱模型对2个空间分别进行正则化。在ORL人脸库上的实验表明,该算法使用较少的特征维数就能达到与传统算法相同的识别率。  相似文献   

8.
郗润平  冯杰 《计算机仿真》2008,25(1):340-343
波束形成器在声纳平台轻微震动或干扰移动的情况下出现零陷致使其工作性能下降,为此提出一种基于子空间的具有自动扩宽干扰抑制零陷的稳健波束形成方法,利用子空间投影和数据协方差矩阵非对角元加载来形成波束形成器的权向量,使波束形成器具有子空间波束形成器对系统误差的稳健性,同时可自动地在干扰方位形成展宽的干扰抑制零陷,从而使波束形成器有效地抑制干扰而稳健地工作.实验仿真的结果验证了该方法的正确性和有效性.  相似文献   

9.
在基于因子分析的说话人识别中,提出串行训练载荷矩阵的方法.在载荷矩阵训练中,采用串行的方式训练得到说话人因子矩阵、对角阵(残差矩阵)和信道空间矩阵.在说话人注册中,将以上3个载荷矩阵拼接,采用联合估计的方法得到每个说话人的因子.采用这种策略可有效解决因子分析中的饱和问题.在NIST SRE 2006年核心测试数据库上等错误率能达到3.65%.  相似文献   

10.
针对现实中训练数据不足的特点,在说话人建模时采用高斯混合模型-通用背景模型(Gaussian Markov Model-Uniform Background Model, GMM-UBM),主要从说话人识别模型的自适应方法和参数估计方法两个方面,研究如何提高说话人识别系统的识别率。在说话人识别模型自适应方面,改进传统的用最大后验概率 MAP (Maximum A Posterior Probability)得到说话人模型的方法,将语音识别中的最大似然线性回归MLLR (Maximum Likelihood Linear Regression)和基于特征音(EigenVoice, EV)的自适应方法,应用到说话人识别模型自适应当中,并将其与MAP方法进行比较。  相似文献   

11.
针对语音识别系统中测试的目标说话人语音和训练数据的说话人语音存在较大差异时,系统识别准确率下降的问题,提出一种基于深度神经网络DNN(Deep Neural Network)的说话人自适应SA(Speaker Adaptation)方法。它是在特征空间上进行的说话人自适应,通过在DNN声学模型中加入说话人身份向量I-Vector辅助信息来去除特征中的说话人差异信息,减少说话人差异的影响,保留语义信息。在TEDLIUM开源数据集上的实验结果表明,该方法在特征分别为fbank和f MLLR时,系统单词错误率WER(Word Error Rate)相对基线DNN声学模型提高了7.7%和6.7%。  相似文献   

12.
由于大屏幕投影的快速发展和广泛应用,大屏幕投影中的无缝融合技术也日益成为研究和应用的热点.在对alpha融合进行探讨和研究基础上,进行了一定的改进,提出并实现了一种基于alpha融合的新线性算法.算法在alpha通道的基础上,提出了对图像投影后重叠的边缘部分采取线性变换,降低了图像的透明度,达到无缝融合的目的.  相似文献   

13.
深入研究MATLAB软件在解析几何学中的应用,讨论二次曲面作图呈现的一般规律性。对于特定范围内图形的绘制,采用全新的图形挖切法,可全面了解图形的结构。研究在同一坐标系下,作出不同的曲面图形,从而帮助学生理解图形之间的位置关系,避免了手工运算的繁琐性。最后,探讨在解析几何中出现的著名立体,得到它的图形,从而突破教学难点。  相似文献   

14.
图像集匹配是模式识别领域研究的热点问题之一。从图像分布的局部结构出发,提出格拉斯曼流形上局部结构保持的图像集匹配方法。将图像集合张成的子空间投影到格拉斯曼流形,通过子空间之间的典型相关计算格拉斯曼核,将集合的相似性转换为流形上点之间的距离的计算。在基于图像集合的对象识别任务上测试提出的算法,实验结果表明,提出的方法在识别率上超越了当前主流的图像集匹配算法。  相似文献   

15.
中心投影变换及其在二值图像检索中的应用   总被引:1,自引:0,他引:1  
图像的形状是描述图像的重要视觉和语义特征,可通过图像中像素点的区域分布表现出来。本文针对二值图像,运用中心投影变换,使二维的图像模式转化为基于角度的一维模式,该一维模式表示图像在等角距的各个方向上的投影,在此基础上实现二值图像的检索。实验结果表明,中心投影是图像的一个全局特征,中心投影交换能有效地刻画二值图像的形状信息,检索结果及排列顺序与主观判断很一致。  相似文献   

16.
基于贝叶斯或者全贝叶斯准则的说话人自动聚类或者识别方法,主要采取重复换算全发话语音段的相似量度,再组合相似性较大的语音片段实现说话人的聚类。这种方法中如果发话语音片段数越多,组合计算时间就越长,系统实时性变差,而且各说话人模型用GMM方法建立,发话语音时间短暂时GMM的信赖性降低,最终影响说话人聚类精度。针对上述问题,提出引用i-vector说话人相似度的非负值矩阵分解的高精度快速说话人聚类方法。  相似文献   

17.
三维目标的姿态随视点变化而不同,选择适当角度范围的多尺度投影图像为代表,建立三维目标的完备特征库,能够提高基于图像的三维目标识别率。以目标为观察中心,基于3ds MAX提出一种多摄像机旋转批量渲染的三维目标视点空间投影方法。首先建立目标的三维模型,设置目标模型位置和顶视图摄像机位置,然后利用max层级命令面板锁定其中一个轴向的角度,以等采样间隔复制摄像机,设置半球面运动路径,并约束到相应摄像机,最后设置投影图像的输出参数并建立批处理脚本,实现三维目标视点空间任意投影图像的自动保存。  相似文献   

18.
自适应能力被普遍认为是移动应用成功的关键,针对移动IP环境提出一种应用自适应框架,在该框架中,在移动主机和表态主机之间插入称为代理过滤器的中介,该中介能根据当前网络状态对到移动主机的数据进行动态自适应过滤,对该框架的原理和设计进行了详细描述。  相似文献   

19.
现如今,影视剧的海量增长给其有效管理带来了巨大挑战,而其中的角色识别在影视剧内容管理中具有重大意义。传统的角色识别主要采用依赖于训练样本质量的有监督学习,而现实中一般难以获得充足的训练样本。针对影视剧中的角色识别,提出一种跨模态的无监督说话人识别方法:首先基于声学特征和时间近邻性的音频聚类获得对应聚类结果的音频标记序列;然后通过剧本解析获得对应说话人、说话内容、说话时间的文本标记序列;接着将音频序列与文本序列进行跨模态序列匹配,构造满射解出最小编辑距离,从而实现说话人识别。实验结果表明,在训练集较少的情况下该方法比有监督方法具有更高识别率。  相似文献   

20.
超稠密计算模型是实时系统的一种重要抽象模型.该文首先简要介绍一种两维的超稠密时间域及在该域上定义的一种区间逻辑,然后用一个并行模型语言(类Occam 语言)讨论用这种逻辑定义并行语言(在超稠密模型中)的时间语义的问题,最后讨论了在这种语义框架中实时系统性质的描述  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号