期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

郭武李轶杰戴礼荣王仁华《自动化学报》2009,35(9):1193-1198

联合因子分析可以有效拟合混合高斯模型中的说话人和信道差异, 在说话人识别中得到广泛应用. 一般情况下, 该算法在对说话人和信道两个载荷矩阵进行联合估计时, 说话人残差矩阵无法发挥作用, 信道载荷矩阵的因子数不能提高. 本文提出说话人载荷矩阵、说话人残差载荷矩阵采用串行的训练模式, 在信道载荷矩阵训练中采用矩阵拼接的方法, 能够有效提高识别率; 在NIST SRE 2008年核心测试数据库的五个部分分别达到等错误率3.3%, 5.1%, 5.0%, 5.3%和5.0%. 相似文献

2.

联合因子分析算法中基于信号子空间的空间变换方法

李晋郭武戴礼荣《模式识别与人工智能》2013,26(8):705-710

在文本无关的说话人确认系统中, 联合因子分析算法以其明确的空间估计方法成为主流的技术手段。然而由于算法流程的限制, 使用该算法得到的说话人空间和信道空间不可避免地产生重叠。为解决空间模型的重叠问题, 文中采用基于信号子空间的空间变换方法, 使空间模型分离。对于NIST SRE 2008核心测试任务中的电话信道注册-电话信道测试, 相对于不采用空间变换的联合因子分析算法, 取得9。2%等错误率的降低。相似文献

3.

说话人识别中的总变化因子分析技术

杨琳黄远杨晶超汪俊杰索宏彬《网络新媒体技术》2013,(2):26-30

研究并实现了总变化因子分析(Total Variability Factor Analysis)技术,该技术在对说话人进行建模的时候,不区分语音中的说话人信息和信道信息,而是将整个语音空间(总变化空间)进行建模,然后在这个空间上对训练和测试语音计算其相应的总变化因子向量(Ivector),来作为支持向量机(Support Vector Machine,SVM)建模和分类的特征。为了降低信道对识别的影响,我们使用线性鉴别分析(Linear Discriminant Analysis,LDA)降维技术以及类内协方差规整(Within-Class Covariance Normalization,WCCN)技术对Ivector进行信道补偿。实验结果表明同时使用WCCN和LDA对Ivector进行信道补偿要好于单独使用WCCN或LDA;并且与传统的联合因子分析系统(Joint Factor Analysis,JFA)相比,以作为评价指标,在男、女测试集上,等错率(Equal Error Ratio,EER)分别相对降低1.20%和9.27%。相似文献

4.

通过分离语音空间和说话人空间的说话人识别

邱政权尹俊勋《计算机工程与应用》2008,44(12):212-214

在说话人空间中,存在语音特征随句子和时间差异而变化的问题。这个变化主要是由语音数据中的语音信息和说话人信息的变化引起的。如果把这两种信息彼此分离就能实现鲁棒的说话人识别。在假设大的说话人变量的空间为“语音空间”和小的说话人变量的空间为“说话人空间”的情况下,通过子空间方法分离语音信息和说话人信息,提出了说话人辨认和说话人确认方法。结果显示：通过相对于传统方法的比较试验,能用小量训练数据建立鲁棒说话人模型。相似文献

5.

说话人识别中的串行因子分析

郭武戴礼荣王仁华《模式识别与人工智能》2009,22(4)

在基于因子分析的说话人识别中,提出串行训练载荷矩阵的方法.在载荷矩阵训练中,采用串行的方式训练得到说话人因子矩阵、对角阵(残差矩阵)和信道空间矩阵.在说话人注册中,将以上3个载荷矩阵拼接,采用联合估计的方法得到每个说话人的因子.采用这种策略可有效解决因子分析中的饱和问题.在NIST SRE 2006年核心测试数据库上等错误率能达到3.65%. 相似文献

6.

弹性音节拼接与特征空间轨迹匹配的关键词检测

张传坤吴亚栋陆汝占《计算机工程》2005,31(23):154-155

不同的汉语语音关键阋识别系统,以关键词为单位建立模板工作量大而且可重用性较差,而以音节为单位可以很好地提高重用性。将弹性音节拼接与具有较高性能的基于特征空间轨迹匹配的关键词检测相结合构建识别系统,实验结果表明该系统具有相当高的识别率。相似文献

7.

基于因子分析和特征映射的耳语说话人识别

张庆芳赵鹤鸣龚呈卉《数据采集与处理》2016,31(2):362-369

为了解决耳语音识别系统中训练语音和测试耳语音来自不同发音模式的失配问题,本文提出一种基于联合因子分析(Joint factor analysis,JFA)与特征映射(Feature mapping,FM)的失配信息补偿算法。该算法首先用联合因子分析法计算说话人发音模式信息,并对发音模式因子和发音模式空间参数进行优化,接着对语音参数用发音模式信息进行特征映射后再进行训练和识别,以减少发音模式对系统的影响。实验结果表明,基于因子分析和特征映射的方法可以有效地提取训练语音中的说话人信息,提高耳语识别系统的识别率。相似文献

8.

基于透视投影下空间光照一致性分析的图像拼接篡改检测

下载免费PDF全文

张旭胡晰远陈晨彭思龙《自动化学报》2019,45(10):1857-1869

将一个人的头像剪切并拼接到另一张照片中,是一种常见的图像篡改手段.如果将该合成照片用于敲诈勒索,会对社会带来严重危害.因此,用来检测图像篡改的图像取证技术具有重大意义.由于不同照片成像环境不同,拼接时很难做到不同人脸的光照绝对一致,因此可以通过光照是否一致检测篡改.以往光照估计方法基于平行投影的假设,利用照片投影光照进行光照一致性分析.实际上,相机针孔模型是透视投影,从而导致上述检测方法出现误差.针对这一问题,本文提出一种透视投影下物体空间光照估计算法,将各人脸姿态统一到相机坐标系下,估计各人脸相对于相机坐标系的空间光照,然后分析空间光照一致性.另外,根据人脸空间光照一致性约束可以优化出相机参数,并得到该参数下的等效焦距、人脸空间位置及重新透视投影的图像等空间信息.本文将空间光照的一致性和上述空间信息的合理性作为依据,对人脸图像进行拼接篡改检测.实验结果表明,相比于传统方法基于平行投影光照进行光照一致性分析,采用本文提出的方法得到的空间光照进行光照一致性分析具有更高的准确度,结合相关信息进行照片空间合理性分析的篡改检测方法具有更强的说服力. 相似文献

9.

三维模型的空间匹配与拼接

彭祺屠礼芬仲思东《计算机工程与科学》2017,39(3):547-552

为获得敦煌莫高窟第172窟的全景三维模型,实现文化遗产数字化保护,提出一种三维模型的空间匹配与拼接方法。首先通过基于四目立体视觉系统的复杂场景三维重建方法,获取单一场景的三维模型;然后以场景真实三维点云数据的对应图像坐标为约束条件,进行高精度特征点匹配;最后以两对同名点在相邻两场景中的空间距离应该一致为条件,保留匹配精度高的点,用于计算旋转矩阵和平移矩阵,进行三维模型间的空间拼接。实验结果表明:与传统拼接方法相比,本文的模型拼接处无明显错位现象,视觉效果更好,传统方法与本方法的匹配误差分别为0.008 2和0.001 6,拼接精度得到显著改善。相似文献

10.

基于音素识别的语种辨识方法中的因子分析

仲海兵宋彦戴礼荣《模式识别与人工智能》2012,25(1):105-110

在基于音素识别的语种辨识系统中,特定的一段语音,音素识别的结果会受到说话人和信道等干扰因素的影响。对此,文中基于音素搭配关系对每段语音构建相应的特征向量表示。在向量空间中,利用因子分析建立噪声子空间的数学描述模型,并在语言模型的训练和识别过程加以消除。在NISTLRE2007的测试任务中,相对于基于音素识别的语种辨识基线系统,该方法可有效提高系统性能。在30s时长测试中,基于音素识别的语言模型和基于音素识别的支持向量机模型的等错误率分别相对降低14。4%和12。9%。相似文献

11.

Self-learning speaker identification for enhanced speech recognition

Tobias Herbig Franz Gerl Wolfgang Minker 《Computer Speech and Language》2012,26(3):210-227

A novel approach for joint speaker identification and speech recognition is presented in this article. Unsupervised speaker tracking and automatic adaptation of the human-computer interface is achieved by the interaction of speaker identification, speech recognition and speaker adaptation for a limited number of recurring users. Together with a technique for efficient information retrieval a compact modeling of speech and speaker characteristics is presented. Applying speaker specific profiles allows speech recognition to take individual speech characteristics into consideration to achieve higher recognition rates. Speaker profiles are initialized and continuously adapted by a balanced strategy of short-term and long-term speaker adaptation combined with robust speaker identification. Different users can be tracked by the resulting self-learning speech controlled system. Only a very short enrollment of each speaker is required. Subsequent utterances are used for unsupervised adaptation resulting in continuously improved speech recognition rates. Additionally, the detection of unknown speakers is examined under the objective to avoid the requirement to train new speaker profiles explicitly. The speech controlled system presented here is suitable for in-car applications, e.g. speech controlled navigation, hands-free telephony or infotainment systems, on embedded devices. Results are presented for a subset of the SPEECON database. The results validate the benefit of the speaker adaptation scheme and the unified modeling in terms of speaker identification and speech recognition rates. 相似文献

12.

A basis representation of constrained MLLR transforms for robust adaptation

Daniel Povey Kaisheng Yao 《Computer Speech and Language》2012,26(1):35-51

相似文献

13.

Wavelet packet approximation of critical bands for speaker verification

Mihalis Siafarikas Todor Ganchev Nikos Fakotakis George Kokkinakis 《International Journal of Speech Technology》2007,10(4):197-218

Exploiting the capabilities offered by the plethora of existing wavelets, together with the powerful set of orthonormal bases provided by wavelet packets, we construct a novel wavelet packet-based set of speech features that is optimized for the task of speaker verification. Our approach differs from previous wavelet-based work, primarily in the wavelet-packet tree design that follows the concept of critical bands, as well as in the particular wavelet basis function that has been used. In comparative experiments, we investigate several alternative speech parameterizations with respect to their usefulness for differentiating among human voices. The experimental results confirm that the proposed speech features outperform Mel-Frequency Cepstral Coefficients (MFCC) and previously used wavelet features on the task of speaker verification. A relative reduction of the equal error rate by 15%, 15% and 8% was observed for the proposed speech features, when compared to the wavelet packet features introduced by Farooq and Datta, the MFCC of Slaney, and the subband based cepstral coefficients of Sarikaya et al., respectively. 相似文献

14.

基于ARVM的与文本无关的说话人识别算法

邱政权江太辉《计算机工程与应用》2004,40(7):66-67,83

该文提出了一种新的与文本无关的说话人识别算法。这种算法使用了能处理说话人交叉变量的语音信号频谱变化的模型。使用了两种不同音质的语音,即″纯净音质″和″电话音质″来测试这一算法,得到了很好的实验结果。相似文献

15.

说话人识别算法研究及其在SOC上的实现

侯焱张高伟姜红超《微计算机信息》2006,22(32):117-119

本文介绍了基于μ'nSP内核的SOC上的说话人识别算法改进的研究及实现。采用一种改进的端点检测算法,提高了识别率。并利用随机语音提示的方式,来解决身份确认中的录音作弊问题。取得了良好的效果。相似文献

16.

基于高斯混合模型的乐器识别方法 总被引：1，自引：0，他引：1

张奇苏鸿根《计算机工程》2004,30(18):133-134,173

传统的乐器识别方法采用的是树型分类方法,这种方法分类过程比较繁琐。而且精度不高。该文把话者识别的方法应用到乐器识别之中,采用模式识别的方法实现对乐器的识别。采用MFCC系数和它的一阶导数作为音品的声学特征,分别对6种管弦乐器建立高斯混合模型。在识别过程中,首先假设各乐器的先验概率相同。根据高斯混合模型得出的后验概率确定待识别乐器所属的种类。实验表明这种识别方法十分有效,取得了较高的识别精度。相似文献

17.

基于仿生模式识别理论的高阶神经网络说话人识别方法

武妍金明曦王守觉《计算机工程》2006,32(12):184-186

根据一种全新的仿生模式识别理论,提出了采用神经网络实现并完成说话人识别的新方法。该方法利用高阶神经网络形成的复杂包络在特征空间中构造不同说话人的覆盖区域达到识别目的。相关实验证明,这种新的说话人识别方法只要通过少量样本的训练即可达到比传统方法更高的识别率。相似文献

18.

基于长时频谱统计参数的说话人识别

于保华吴亚栋李治柱《计算机工程》2004,30(2):159-161

把频谱特征的统计参数应用于与文本无关的说活人识别系统中,与LPC参数一起作为一种更有效的参数。在与文本无关的说话人识别中,长时频谱特征的统计参数与特定人发音特征相关而与文本无关的特性弥补了LPC参数与音韵相关的不足。相似文献

19.

Automatic person recognition by acoustic and geometric features 总被引：1，自引：0，他引：1

R. Brunelli D. Falavigna T. Poggio L. Stringa 《Machine Vision and Applications》1995,8(5):317-325

This paper describes a multisensorial person-identification system in which visual and acoustic cues are used jointly for person identification. A simple approach, based on the fusion of the lists of scores produced independently by a speaker-recognition system and a face-recognition system, is presented. Experiments are reported that show that the integration of visual and acoustic information enhances both the performance and the reliability of the separate systems. Finally, two network architectures, based on radial basis-function theory, are proposed to describe integration at various levels of abstraction.Italian Patent No. TO92A000695. European extension in progress. 相似文献