期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

丘敬云李琳《电子世界》2012,(9):136-138

本文提出了一种新的说话人特征分类方法,基于计算动词相似度理论,建立距离和趋势的评价模型,通过计算特征向量与k-means算法聚类所得的聚类中心的相似度矩阵,将说话人个性特征从MFCC特征域映射到说话人相似度属性空间中,形成新的特征向量集,这样,每个说话人的特征向量将被聚为在距离和变化趋势上最具相似性的k分类。之后,利用GMM模型在属性空间内进行联合概率分析、匹配,建立新的说话人识别系统。本文采用标准TIMIT语音库与NIST语音库在该识别系统中进行一系列实验,结果表明,该基于新的优化特征分类的识别系统,对比传统的说话人识别系统,在等错误率上有很好的提高。相似文献

2.

基于相对熵和贝叶斯信息判据的在线分割算法

吴宇钱旭周剑鸣《电声技术》2013,37(3)

贝叶斯信息判据(Bayesian Information Criterion,BIC)是一种传统的在线说话人分割(online speaker segmentation)算法,但是它对于不同的语料需要设置不同的阈值,无法达到普适性,而且在时延较低时性能较差.提出了一种基于相对熵(Kullback-Leibler Divergence,KLD)和贝叶斯信息判据(Bayesian Information Criterion,BIC)的在线说话人分割算法,相对熵能度量两个模型之间的距离,再根据距离的变化来确定分割点出现的范围,而贝叶斯信息判据算法能够得到疑似分割点的位置,将两者结合起来,假如疑似分割点的位置在预先判定的范围内,则分割点有效,反之无效.实验表明相比于传统的分割算法,基于相对熵和贝叶斯信息判据的在线说话人分割算法,无需根据不同的语料事先设置阈值,在保证8s以内时延的情况下,相对于传统的方法错误率减少约12％. 相似文献

3.

一种融合IB准则特征的说话人分段聚类方法

下载免费PDF全文

张力张连海许友亮《太赫兹科学与电子信息学报》2013,11(1):136-141

针对说话人分段与聚类算法中先验知识不足的问题,利用基于信息瓶颈(IB)准则和基于隐马尔科夫模型(HMM)/高斯混合模型(GMM)方法间的互补性,提出了一种基于特征层融合的说话人分段与聚类算法。该算法将基于IB准则算法的输出结果进行对数变换和降维处理;然后利用变换后的特征与传统梅尔频率倒谱系数(MFCC)特征分别训练说话人GMM模型,并在得分域对说话人类别的得分进行加权融合;根据融合的得分,进行基于HMM/GMM模型的说话人分段与聚类。实验表明,融合后的特征可以为系统提供更多的先验信息,比传统方法的误配率降低了1.2%。相似文献

4.

基于PC-MSPCNN模型和SLIC的彩色图像分割方法

李新颖冉思园廉敬《激光与光电子学进展》2021,58(2):228-235

针对简单线性迭代聚类(SLIC)方法对图像边缘细节处理效果不佳的问题,提出一种参数可控、改进的简化脉冲耦合神经网络模型(PC-MSPCNN)与SLIC结合的彩色图像分割方法。该方法首先改进MSPCNN模型的加权矩阵和连接系数,并增设辅助参数,以提高分割准确度。随后将彩色图像输入至PC-MSPCNN模型中,依据改进模型中输出Y值的分布划分物体的边缘,使分割结果更好地贴合物体的边缘,利用所提出的相似性准则合并散布的碎片,减小后续处理的复杂度;其次,在SLIC度量相似距离的基础上引入PC-MSPCNN中RGB三个通道的内部活动项U值,完成对图像剩余部分的加权融合聚类,改进聚类效果。实验结果表明,本文方法能更精确地贴合图像中物体的边界,大幅减少碎片,有效提高图像的边缘贴合度。相似文献

5.

基于空间信息的模糊C-均值噪声图像分割算法

李力陈息坤《无线电工程》2023,(10):2295-2302

针对传统模糊C-均值(Fuzzy C-means, FCM)聚类算法对噪声鲁棒性差的问题,提出一种基于空间信息的模糊C-均值噪声图像分割算法。将区域级信息加入FCM目标函数中,并用核度量方法代替传统欧氏距离,计算区域级空间信息与聚类中心的距离,提高算法对噪声的鲁棒性;用原始图像与区域级空间信息的绝对差的倒数和其本身约束原始图像和区域信息项,实现约束项参数的自适应选择;利用连通分量滤波,消除聚类结果中出现的过分割现象,提高分割精度。含噪合成图像和彩色图像实验表明,所提算法在模糊分割系数、模糊分割熵、分割精确度、平均交互比和归一化互信息等方面均优于其他几种聚类算法。相似文献

6.

说话人确认中以音素为中心的特征端因子分析

下载免费PDF全文

张涛涛陈丽萍戴礼荣《信号处理》2016,32(10):1213-1219

在说话人确认中,特征端因子分析(Acoustic Factor Analysis, AFA)利用MPPCA(Mixtures of Probabilistic Principal Component Analyzers, MPPCA)算法在通用背景模型(Universal Background Model, UBM)的每个高斯上分别对特征降维以去除语音特征中文本、信道和噪声等信息的干扰,获得增强的说话人信息并用于提升说话人确认的性能。但是通用背景模型属于无监督的聚类方法,其每个高斯成分物理意义不够明确,不能区分不同说话人发不同音素时的情况。为解决这一问题,本文利用语音识别中的声学模型深度神经网络(Deep Neural Network, DNN)取代传统的通用背景模型并结合特征端因子分析分别对不同音素上的语音特征进行降维提取出说话人信息,进而提取DNN i-vector用于说话人确认。在RSR2015数据库PartIII上的实验结果表明该方法相对于基于UBM的特征端因子分析方法在男女测试集上等错误率(Equal Error Rate, EER)分别下降13.49%和22.43%. 相似文献

7.

基于FGM-MRF模型的图像分割

苗晓锋高荣国《微电子学与计算机》2011,28(6):92-94,99

利用Ward聚类将图像进行初始分割,其结果作为基于空间邻域信息马尔可夫随机场(MRF)模型对图像再次分割的初值,图像分割的先验概率采用Ising模型,通过有限高斯混合模型(FGM)描述图像像素灰度的条件概率分布,利用期望-最大(EM)算法估计条件概率分布模型参数,用迭代条件模式(ICM)局部优化方法,获得最大后验概率(MAP)准则下的图像分割结果.通过与其他相关算法分割结果相比较,这种算法能够明显改善分割效果. 相似文献

8.

语音数据特征聚类分析

丰天韵阮俊豪王卓琛《电子设计工程》2024,(6):52-56

由于语音的复杂与多变,传统声学方法并不能很好地提取出语音的公共特征,容易受到训练数据中说话人发声特点差异的影响,造成模型的不稳定并影响其精度。针对这一问题,文章提出利用语音特征的聚类中心替代原语音特征进行BERT模型预训练的方法,通过与普通BERT模型对比在自动语音识别(Automatic Speech Recognition,ASR)下游任务的表现,证明了对语音特征进行的聚类操作在聚类中心数量合适的情况下,聚类后的BERT模型拥有更好地下游任务契合度,聚类中心数量为100的预训练模型错词率比普通预训练模型降低了2.32%。相似文献

9.

说话人分割聚类研究进展

下载免费PDF全文

马勇鲍长春《信号处理》2013,29(9):1190-1199

说话人分割聚类是近几年新兴起的语音信号处理研究方向,它主要研究如何确定连续语流中多说话人起止时间的位置,并标出每个语音段对应的说话人。这项研究对自动语音识别、多说话人识别和基于内容的音频分析等都具有重要的意义。根据说话人分割和聚类实现过程不同,本文从异步策略和同步策略的角度回顾了十年来国内外研究的主流算法、技术和代表系统,对比了不同代表系统在近几年NIST富信息转写评测的结果,最后讨论了目前还存在的问题,并对未来的发展进行了展望。相似文献

10.

基于参数化互信息的脑MR图像分割与偏移场矫正模型及快速算法 总被引：1，自引：0，他引：1

下载免费PDF全文

詹天明张军韦志辉肖亮孙玉宝《电子学报》2011,39(12):2807-2812

脑核磁共振(Magnetic Resonance简称MR)图像中存在灰度不均匀现象使得传统方法很难得到理想的分割与偏移场矫正结果.针对这一问题,本文首先提出Legendre基函数拟合偏移场下的参数化互信息度量,建立脑MR图像的分割与偏移场矫正的变分模型.最后,给出了基于分裂Bregman迭代方法的快速分割与偏移场矫正算... 相似文献

11.

基于NIST评测的说话人分类及定位技术研究

杨毅宋辉刘加《电子与信息学报》2011,33(5):1234-1237

该文针对美国国家标准与技术研究院(NIST)的 NIST评测,构建了一套多距离麦克风说话人分类及定位语音处理系统,针对NIST富标注评测中提出的说话人分类问题,提出改进的结合时延估计和聚类的说话人分类方法,在保证稳定性的前提下降低说话人分类的复杂度并提高准确率;提出一种新的相邻阵元间时延构造矩阵方程算法,可得到多个说话人的方向角。实验在标准会议环境下采集真实语音数据进行算法验证,说话人分类算法的正确率接近目前主要说话人分类系统的正确率,定位方向角误差在3以内。实验结果说明,适当条件下多距离麦克风系统可作为合适的语音信号输入设备应用于多人多方会议环境。相似文献

12.

Harmonic Structure Features for Robust Speaker Diarization

Yu Zhou Hon gbin Suo Junfeng Li Yonghong Yan 《ETRI Journal》2012,34(4):583-590

相似文献

13.

Improved i-Vector Representation for Speaker Diarization

Yan Xu Ian McLoughlin Yan Song Kui Wu 《Circuits, Systems, and Signal Processing》2016,35(9):3393-3404

This paper proposes using a previously well-trained deep neural network (DNN) to enhance the i-vector representation used for speaker diarization. In effect, we replace the Gaussian mixture model typically used to train a universal background model (UBM), with a DNN that has been trained using a different large-scale dataset. To train the T-matrix, we use a supervised UBM obtained from the DNN using filterbank input features to calculate the posterior information and then MFCC features to train the UBM instead of a traditional unsupervised UBM derived from single features. Next we jointly use DNN and MFCC features to calculate the zeroth- and first-order Baum–Welch statistics for training an extractor from which we obtain the i-vector. The system will be shown to achieve a significant improvement on the NIST 2008 speaker recognition evaluation telephone data task compared to state-of-the-art approaches. 相似文献

14.

似然得分归一化及其在与文本无关说话人确认中的应用

邓浩江杜利民万洪杰《电子与信息学报》2005,27(7):1025-1029

该文研究了似然得分归一化方法的原理,建立了基于自适应GMM模型的说话人确认系统,并将非特定人的背景模型与特定人的cohort模型相结合,提出了混合归一化的方法。在电话语音条件下,该文比较了不同得分归一化方法对确认系统性能的影响。实验表明,在自适应GMM模型似然比得分的基础上,T-cohort与通用背景模型混合归一化能获得最佳识别效果。当错误拒绝率为5%时,该方法可以获得0.5%的错误接受率,远远低于采用通用背景模型归一化方法的2%。相似文献

15.

汉语连续语音识别中上下文相关的识别单元(三音子)的研究 总被引：1，自引：0，他引：1

赵庆卫王作英陆大《电子学报》1999,27(6):79-82,117

本文详细研究了汉语语音识别中如何有效地建立上下文相关的识别单元,以解决连续语音之间的协同发音问题。相似文献

16.

Speaker normalization for chinese vowel recognition in cochlear implants 总被引：1，自引：0，他引：1

Luo X Fu QJ 《IEEE transactions on bio-medical engineering》2005,52(7):1358-1361

Because of the limited spectra-temporal resolution associated with cochlear implants, implant patients often have greater difficulty with multitalker speech recognition. The present study investigated whether multitalker speech recognition can be improved by applying speaker normalization techniques to cochlear implant speech processing. Multitalker Chinese vowel recognition was tested with normal-hearing Chinese-speaking subjects listening to a 4-channel cochlear implant simulation, with and without speaker normalization. For each subject, speaker normalization was referenced to the speaker that produced the best recognition performance under conditions without speaker normalization. To match the remaining speakers to this "optimal" output pattern, the overall frequency range of the analysis filter bank was adjusted for each speaker according to the ratio of the mean third formant frequency values between the specific speaker and the reference speaker. Results showed that speaker normalization provided a small but significant improvement in subjects' overall recognition performance. After speaker normalization, subjects' patterns of recognition performance across speakers changed, demonstrating the potential for speaker-dependent effects with the proposed normalization technique. 相似文献

17.

模糊C-均值(FCM)聚类法与矢量量化法相结合用于说话人识别 总被引：4，自引：0，他引：4

吴晓娟韩先花聂开宝《电子与信息学报》2002,24(6):845-849

该文提出了一种将模糊C-均值聚类法与矢量量化法相结合进行说话人识别的方法。该算法将从语音信号中提取的 12阶 LPC(线性预测编码)倒谱系数作为待分类样本的 12个指标,先用矢量量化法求出每个说话人表征特征参数的码书,作为模糊聚类算法的聚类中心,最后将待识别的特征矢量以得到的码书为聚类中心,进行聚类识别。该算法所使用的特征参数较少,计算比较简单,但识别率较矢量量化法高。相似文献

18.

基于全局背景模型和辅助模型的说话人确认系统的研究

汤小飞曾毓敏李晓伟《电子工程师》2010,36(2):19-23

大多数说话人确认系统都设置一个背景模型用于描述假冒者的特性。文中提出一种新的说话人确认背景模型,对所有说话人采用同一全局背景模型（UBM）,并为每个说话人建立一个竞争者模型（cohort model）和一个疏远者模型（c-cohort model）。在全局背景模型不能做出准确判断的情况下,启用竞争者模型或疏远者模型再次进行判决。该模型充分利用了相近者模型和疏远者模型的特性。实验表明新的背景模型使系统性能有明显的提高。相似文献

19.

采用模型自适应的语音转换方法

下载免费PDF全文

宋鹏王浩赵力《信号处理》2013,29(10):1294-1299

针对非对称语音库情况下的语音转换,提出了一种有效的基于模型自适应的语音转换方法。首先,通过最大后验概率（Maximum A Posteriori,MAP）方法从背景模型分别自适应训练得到源说话人和目标说话人的模型;然后,通过说话人模型中的均值向量训练得到频谱特征的转换函数;并进一步与传统的INCA转换方法相结合,提出了基于模型自适应的INCA语音转换方法,有效实现了源说话人频谱特征向目标说话人频谱特征的转换。通过客观测试和主观测听实验对提出的方法进行评价,实验结果表明,与INCA语音转换方法相比,本文提出的方法可以取得更低的倒谱失真、更高的语音感知质量和目标倾向度;同时更接近传统基于对称语音库的高斯混合模型（Gaussian Mixture Model,GMM）的语音转换方法的效果。相似文献

20.

采用非监督得分规整和因子分析的说话人确认

郭武李轶杰戴礼荣王仁华《电子学报》2009,37(4):776-779

在文本无关的说话人确认中,规整算法能够有效地调整测试得分的分布.另外,利用前面已经得到的测试语句的得分来调整规整的参数可以取得更好的效果,这种规整叫做非监督得分规整.在本文中,借用开发集得分来建立说话人和冒认者得分的两个先验高斯分布函数,在实际的测试中,利用最大后验概率准则来对规整的模型参数进行调整.在采用因子分析的情况下,在NIST 2006说话人识别测试1conv4w-1conv4w数据库上,能够取得等错误率5.26%. 相似文献