期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

朱方圆马志强陈艳张晓旭王洪彬宝财吉拉呼《计算机科学与探索》2021,15(12):2241-2255

语音是人机交互方式之一,语音识别技术是人工智能的重要组成部分.近年来神经网络技术在语音识别领域的应用快速发展,已经成为语音识别领域中主流的声学建模技术.然而测试条件中目标说话人语音与训练数据存在差异,导致模型不适配的问题.因此说话人自适应(SA)方法是为了解决说话人差异导致的不匹配问题,研究说话人自适应方法成为语音识别领域的一个热门方向.相比传统语音识别模型中的说话人自适应方法,使用神经网络的语音识别系统中的自适应存在着模型参数庞大,而自适应数据量相对较少等特点,这使得基于神经网络的语音识别系统中的说话人自适应方法成为一个研究难题.首先回顾说话人自适应方法的发展历程和基于神经网络的说话人自适应方法研究遇到的各种问题,其次将说话人自适应方法分为基于特征域和基于模型域的说话人自适应方法并介绍对应原理和改进方法,最后指出说话人自适应方法在语音识别中仍然存在的问题及未来的发展方向. 相似文献

2.

低速率信道环境下鲁棒的说话人确认

石如亮王波李弼程高新建《计算机应用》2007,27(4):919-921

研究了多种低速率信道环境下，语音编码对与文本无关说话人确认的影响。针对训练和测试语音匹配和不匹配的两种情况下，分别提出了两种方法来提高系统的鲁棒性。在前者中，通过分析语音编码对LPCC参数的影响，提出了一种基于编码失真的 LPCC 加权参数。在后者中，采用了基于高斯混合模型（GMM）的语音编码检测器，通过判别测试语音的编码类型，选择不同的说话人确认模型。实验结果表明，这两种方法提高了说话人确认系统在多信道条件下的鲁棒性。相似文献

3.

基于模型的单通道语音分离综述

杨海滨张军《计算机应用研究》2010,27(11):4025-4031

语音分离是实现机器听觉的一个重要而基础性的任务,单通道语音分离是语音分离中最为困难的问题。讨论了基于模型的单通道语音分离方法,对说话人依赖的、说话人选择的和说话人独立的三类单通道语音分离问题展开分析,并指出当前方法存在的问题和影响算法性能的关键因素。最后对基于模型的单通道语音分离研究发展方向进行了展望。相似文献

4.

说话人验证系统攻击方法的研究现状及展望

张雄伟张星昱孙蒙邹霞《数据采集与处理》2021,36(5):831-849

自动说话人验证（Automatic speaker verification,ASV）技术的发展正在深刻地影响和改变着当前的人机交互系统,ASV作为一些智能设备的语音核心功能,可以接受目标说话人的语音并准确识别出该说话人的身份。近年来,人工智能技术的快速进展推动了ASV系统实现跨越式发展。然而,随着人工神经网络和深度学习技术的发展,越来越多的研究者开始研究如何攻击ASV系统。如何通过对原始语音进行一系列处理实现对ASV系统的攻击,是近年来语音领域研究的一个热点问题。目前,对ASV系统的攻击方法大致可分为欺骗攻击（Spoofing attack）和对抗攻击（Adversarial attack）两大类。本文对两大类的典型方法和基本原理进行综述,梳理了目前一些攻击手段中存在的若干问题,揭示了ASV系统存在的安全隐患,对今后ASV系统安全性的发展做了简要的展望,并为未来进一步提高ASV系统的安全性和可靠性提供了参考。相似文献

5.

说话人识别中语速鲁棒性研究

《微型机与应用》2016,(7):54-56

如今,说话人识别技术已经比较成熟,但依然有很多因素影响说话人识别系统的稳定性。本文针对说话速度对说话人识别的影响进行了一系列的研究工作。通过模型空间分布可视化和语音频谱观察两方面来分析不同语速语音的差距。然后,提出了最大似然线性回归(MLLR)和Constraint MLLR(CMLLR)的方法对模型和特征进行变换,使训练端和测试端的语音特征互相接近匹配。通过实验发现,MLLR和CMLLR能较好地提高说话人识别系统中语速鲁棒性。相似文献

6.

在线无监督说话人检索中稳健的模型自举算法 总被引：2，自引：0，他引：2

付中华张艳宁《软件学报》2007,18(3):608-616

基于回归树模型的多特征空间建模方法在回归类内部进行特征音分析,较好地解决了训练数据不足时说话人模型的训练问题,而短语音段聚类策略又进一步避免了过短的语音片断对自举训练的影响.验证实验采用了实际录制的近8小时的不同谈话数据.结果显示,即使平均自举片断长度小于5秒,新方法依然非常稳健,不仅提高了说话人改变检测的效果,而且优于通常的自举方法. 相似文献

7.

基于深度学习的反语音欺骗模型

马猷纲杨乘《信息与电脑》2023,(4):55-58

自动说话人验证（Automatic Speaker Verification,ASV）通过接收说话人的语音来提取说话人的语音特征，并在已经训练的模型上进行验证，最终识别输入语音的真伪，并判断说话人的身份。随着语音欺骗技术的发展，为保护ASV系统的安全性，需要提升反语音欺骗模型的性能。因此，文章提出基于深度学习的反语音欺骗模型。实验结果表明，该模型能够有效提高ASV系统的安全性。相似文献

8.

通过分离语音空间和说话人空间的说话人识别

下载免费PDF全文

邱政权尹俊勋《计算机工程与应用》2008,44(12):212-214

在说话人空间中,存在语音特征随句子和时间差异而变化的问题。这个变化主要是由语音数据中的语音信息和说话人信息的变化引起的。如果把这两种信息彼此分离就能实现鲁棒的说话人识别。在假设大的说话人变量的空间为“语音空间”和小的说话人变量的空间为“说话人空间”的情况下,通过子空间方法分离语音信息和说话人信息,提出了说话人辨认和说话人确认方法。结果显示：通过相对于传统方法的比较试验,能用小量训练数据建立鲁棒说话人模型。相似文献

9.

基于独立分量分析和矢量量化的说话人识别

屈微刘贺平《计算机应用》2005,25(10):2401-2403

使用独立分量分析（ICA）来提取说话人特征并与矢量量化（VQ）判决方法相结合,实现了一个高性能的基于ICA特征的VQ （ICA VQ）说话人识别系统。通过ICA变换得到说话人语音特征基函数系数用于生成VQ码书,并导出包含能量失真的ICA VQ码书失真测度和质心确定条件,生成最终的判决。仿真实验中ICA提取的特征分别用于不同系统实现说话人确认任务,各系统的DET曲线对比验证了VQ方法用于ICA特征分类判决的优势,同时不同码书尺寸下的等差率（EER）对比证明了VQ码书设计的有效性。相似文献

10.

基于不确定性学习的文本无关的说话人确认方法

张玉莲姚姗姗王超畅江《计算机应用》2023,(12):3727-3732

说话人确认任务旨在判断注册语音与测试语音是否属于同一说话人。针对说话人识别系统提取的声纹特征通常会受到与身份信息无关的因素干扰进而导致系统的准确性严重下降的问题，提出一种基于不确定性学习（UL）的文本无关的说话人确认（TISV）方法。首先，在说话人主干网络中引入不确定性同时学习声纹特征（均值）和话语数据的不确定性（方差），以建模语音数据集中的不确定性；其次，通过重采样技巧得到特征的分布表示；最后，在说话人分类损失中引入KL散度正则化约束噪声的分布，从而解决计算分类损失过程中的退化问题。实验结果表明，当训练集为VoxCeleb1和VoxCeleb2开发集时，与基于确定性方法的Thin ResNet34模型相比，所提方法的模型在VoxCeleb1-O测试集上的等错误率（EER）分别降低了9.9%和10.4%，最小检测代价函数（minDCF）分别降低了10.9%和4.5%。可见，所提方法在有噪声、无约束场景下的准确度有所提高。相似文献

11.

一种基于K-SVD的说话人识别方法

马振张雄伟杨吉斌《计算机工程与应用》2012,48(34):112-115,135

为了充分提取语音中的个人特征信息,类比矢量量化,提出了一种基于K-均值奇异值分解(K-SVD)的说话人识别方法。利用K-SVD训练得到的字典可较好地保存语音信号中的个人特征信息。利用这一特性,通过K-SVD从训练数据中提取包含说话人个人特征信息的字典,利用该字典实现说话人识别。相对于传统方法,该方法能够更好地利用语音的稀疏性保存语音中的个人特征信息并减小重构误差。实验仿真结果表明,与基于矢量量化的说话人识别方法相比,该方法在多说话人的情况下具有更好的识别率,具有更高的实用价值。相似文献

12.

采用深度信念网络的语音转换方法

王民黄斐刘利卫铭斐王明明《计算机工程与应用》2016,52(15):168-171

对说话人语音个性特征信息的表征和提取进行了深入研究,提出了一种基于深度信念网络（Deep Belief Nets,DBN）的语音转换方法。分别用提取出的源说话人和目标说话人语音频谱参数来训练DBN,分别得到其在高阶空间的语音个性特征表征;通过人工神经网络（Artificial Neural Networks,ANN）来连接这两个高阶空间并进行特征转换;使用基于目标说话人数据训练出的DBN来对转换后的特征信息进行逆处理得到转换后语音频谱参数,合成转换语音。实验结果表明,与传统的基于GMM方法相比,该方法效果更好,转换语音音质和相似度同目标语音更接近。相似文献

13.

广播语音的音频分割 总被引：1，自引：2，他引：1

贾磊穆向禺徐波《中文信息学报》2002,16(1):38-43

本文的广播电视新闻的分割系统分为三部分:分割、分类和聚类。分割部分是采用本文提出的基于检测熵变化趋势的分割算法来检测连续语音音频信号的声学特征跳变点,从而实现不同性质的音频信号的分割。这种检测方法不同于传统的需要门限的跳变点检测方法,它是以检测一定窗长的信号内部的每一个可能的分割点所分割的两段信号的信号熵的变化趋势来检测音频信号声学特征跳变点的,可以避免由于门限的选择不当所带来的分割错误。分类部分是采用传统的基于高斯混合模型(GMM)的高斯分类器进行分类,聚类部分采用基于矢量量化(VQ)的说话人聚类算法进行说话人聚类。应用此系统分割三段30分钟的新闻,成功的实现了连续音频信号的分割,去除掉了所有的背景音乐,以较高的精度把属于同一个人的说话语音划归为一类,为广播语音的分类识别打下了良好的基础。相似文献

14.

内窥镜自动定位语音识别系统

马宁陈晓冬李亚楠尹青云汪毅郁道银《计算机工程与应用》2014,50(8):207-210

提出一种基于特定人的内窥镜自动定位语音识别系统,通过识别特定医生的语音控制口令实现内窥镜的定位,为手持内窥镜操作提供更加智能化的解决方案。在识别算法上提出了参考模板归一化平均的动态时间规划（Normalized Average-Dynamic Time Warping,NA-DTW）算法,可获得更高的识别率,系统以片上Windows?CE操作系统和ARM作为系统的软硬件平台。实验通过对10个不同测试人的共1 250组测试数据进行识别检测,NA-DTW算法与传统DTW算法相比,识别率从96.6%提高到99.76%,运算时间从469 ms缩短到241 ms。验证了NA-DTW算法可以完成基于特定人、孤立词的语音识别功能,并满足嵌入式系统中的实时检测条件。相似文献

15.

基于音素HMM模型语音转换

钱开华《数字社区&智能家居》2008,(4):132-134

通过对语音转换的研究,提出了一种把源说话人特征转换为目标说话人特征的方法。语音转换特征参数分为两类：（1）频谱特征参数;（2）基音和声调模式。分别描述信号模型和转换方法。频谱特征用基于音素的2维HMMS建模,F0轨迹用来表示基音和音调。用基音同步叠加法对基音厨期、声调和语速进行变换。相似文献

16.

A new speaker verification method with global speaker model and likelihood score normalization

下载免费PDF全文

张怡颖朱小燕张钹《计算机科学技术学报》2000,15(2):184-193

In this paper a new text-independent speaker verification method GSMSV is proposed based on likelihood score normalization.In this novel method a global speaker model is established to represent the universal features of speech and normalize the likelihood score.Statistical analysis demonstrates that this normalization method can remove common factors of speech and bring the differences between speakers into prominence.As a result the equal error rate is decreased significantly,verification procedure is accelerated and system adaptability to speaking speed is improved. 相似文献

17.

Statistical Approach for Voice Personality Transformation 总被引：1，自引：0，他引：1

Lee K.-S. 《IEEE transactions on audio, speech, and language processing》2007,15(2):641-651

A voice transformation method which changes the source speaker's utterances so as to sound similar to those of a target speaker is described. Speaker individuality transformation is achieved by altering the LPC cepstrum, average pitch period and average speaking rate. The main objective of the work involves building a nonlinear relationship between the parameters for the acoustical features of two speakers, based on a probabilistic model. The conversion rules involve the probabilistic classification and a cross correlation probability between the acoustic features of the two speakers. The parameters of the conversion rules are estimated by estimating the maximum likelihood of the training data. To obtain transformed speech signals which are perceptually closer to the target speaker's voice, prosody modification is also involved. Prosody modification is achieved by scaling excitation spectrum and time scale modification with appropriate modification factors. An evaluation by objective tests and informal listening tests clearly indicated the effectiveness of the proposed transformation method. We also confirmed that the proposed method leads to smoothly evolving spectral contours over time, which, from a perceptual standpoint, produced results that were superior to conventional vector quantization (VQ)-based methods 相似文献

18.

梯度方向直方图在语谱图映射中的应用

下载免费PDF全文

陈雁翔刘鸣《计算机工程与应用》2011,47(18):146-148

语谱图是显示时变频谱幅度特征的图形,基于梯度方向直方图建立语谱图之间的映射关系,找出它们对应的频率结构,为说话人规整及进一步的语音处理提供了途径。在提取特征参数之前,用梯度方向直方图描述语谱图中点的特征,进而实现两个说话人的语谱图在频率轴上的非线性映射,其实质是在频率点相似性的条件下,运用动态规划准则的最佳匹配问题。在TIDIGITS数据库上的实验表明,该方法在训练集与测试集不匹配时能明显降低系统的误识率。相似文献

19.

Artificially intelligent recognition of Arabic speaker using voice print-based local features

Awais Mahmood Mansour Alsulaiman Ghulam Muhammad Sheeraz Akram 《人工智能实验与理论杂志》2016,28(6):1009-1020

Local features for any pattern recognition system are based on the information extracted locally. In this paper, a local feature extraction technique was developed. This feature was extracted in the time–frequency plain by taking the moving average on the diagonal directions of the time–frequency plane. This feature captured the time–frequency events producing a unique pattern for each speaker that can be viewed as a voice print of the speaker. Hence, we referred to this technique as voice print-based local feature. The proposed feature was compared to other features including mel-frequency cepstral coefficient (MFCC) for speaker recognition using two different databases. One of the databases used in the comparison is a subset of an LDC database that consisted of two short sentences uttered by 182 speakers. The proposed feature attained 98.35% recognition rate compared to 96.7% for MFCC using the LDC subset. 相似文献

20.

采用密度比估计的多窗口变点检测方法

下载免费PDF全文

张曼崔文泉《计算机工程与应用》2023,59(3):84-93

针对基于密度比估计的时间序列变点检测方法受时间窗窗宽限制,识别变点类型单一的问题,利用和发展动态多重过滤算法MFA(multiple filtering algorithm),提出一种多窗口变点检测方法 mDRCPD(multiple window density-ratio change point detection)。将处理后的时间序列按多个时间窗进行适当划分,通过比较相邻时间窗数据的分布差异来识别变点,采用基于密度比估计的相对皮尔逊散度来度量不同时间窗数据分布的差异性;固定窗宽下寻找变点集,并按照MFA方法集成各变点集。模拟实验和实证分析表明,与基于密度比的单窗口变点检测方法相比,mDRCPD方法在多变点时间序列变点检测中绝对误差、召回率、F1得分等指标均有改善。将mDRCPD方法应用到COVID-19的传播进程分析中,通过对传播率的分段建模来刻画疫情的阶段性特点,评估国家政策在降低疫情传播速度上的效果。相似文献