首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 125 毫秒
1.
针对说话人改变点检测问题,在MP3格式下用改进型BIC算法实现了多话者改变点的检测。根据非压缩域中MFCC的求取过程,提出了一种在压缩域MP3格式下利用MDCT系数计算MFCC特征参数的新方法。在此基础上,使用改进型BIC改变点检测算法检测说话人改变点。实验表明在相同的BIC检测算法下,利用在压缩域中提取的MFCC特征参数进行语音分割,可以得到和非压缩域相似的分割精确度。  相似文献   

2.
针对传统T2-BIC算法累积误差较大、召回率不高的问题,提出一种改进的T2-BIC说话人二级分割算法。第1级采用改进的滑动窗口检测搜索窗中的T2统计量峰值,利用贝叶斯信息准则(BIC)对峰值进行确认,第2级利用分步解决的思想处理由于BIC可信度过低而漏选的分割点。实验结果表明,与同类算法相比,该算法分割效果较好,准确率、召回率和综合性能都有所提高。  相似文献   

3.
针对滑动变长窗口BIC算法冗余分割点多的问题,提出了基于小波子带平均能量方差和BIC的音频分割算法相结合。该算法用小波子带平均能量方差将连续音频流分割成音频段,然后用改进的滑动变长窗口BIC算法在音频段上检测声学改变点。实验表明,该算法取得了较好的分割效果,与滑动变长窗口的BIC算法相比,该算法的准确率、召回率和综合性能都得了提高。  相似文献   

4.
一种改进的基于说话者的语音分割算法   总被引:13,自引:1,他引:13  
卢坚  毛兵  孙正兴  张福炎 《软件学报》2002,13(2):274-279
语音分割是语音识别和语音文档检索等众多语音应用的基础.提出一种改进的基于说话者的语音分割算法,对GLR和BIC相结合的算法作进一步的改进:(1) 基于GLR距离方差的自适应阈值调整算法改进了不同声学特征下基于距离的语音分割算法中的阈值选取方法;(2) 引入BIC可测度概念来度量其适用范围;(3) BIC信息准则校准非冗余的候选分割点的偏差.实验结果表明,此改进算法优于原算法.  相似文献   

5.
随着网络科技的进步,音频分割技术广泛应用于音频检索、语音识别、语义内容分析等领域,对音频深度处理具有重要意义.使用两种基于BIC准则的音频分割算法进行仿真实验,证明滑动窗口的BIC分割算法在广播新闻语料和访谈性质的电话交谈中,检测到的正确音频分割点数目更多,可取得较好的分割效果.  相似文献   

6.
为了提高说话人索引准确率,对说话人改变判决中常用的贝叶斯信息判决(BIC)进行改进和在说话人辨认中使用性别信息,提出了一种基于性别的说话人索引算法。首先使用惩罚距离公式对说话人改变进行检测,解决了在说话人改变判决中使用BIC需要不断调节惩罚因子的问题;其次在说话人改变检测的基础上,采用性别模型判断每个说话人的性别;最后把男性和女性说话人分别对待,使用说话人模型自举法对说话人进行辨认。实验结果表明:在说话人改变检测中,采用惩罚距离公式,和BIC相比不需要调整参数,和DISTBIC相比,在F1方面提高了2%;在说话人辨认方面,利用性别信息,说话人索引准确率(SIA)提高了20.93%,说话人数量准确率(SNA)方面提高了3%。  相似文献   

7.
一种两层次无监督的音频分割算法   总被引:2,自引:0,他引:2  
本文提出一种两层次无监督音频分割算法,它用于检测音频流中的说话人、环境、信道等声学特征变化点,该方法将音频分割过程分为两个层次: 区域层次和边界层次,通过固定检测窗移动,它快速定位到声学特征变化点存在的区域,然后在潜在变化区域内采用T2 统计值和贝叶斯信息准则(BIC)结合的方法快速确定片断边界。在区域检测层次,将修正的广义对数似然比准则应用于潜在的变化区域检测,它即无需设定阈值门限又可保证低的漏检率,在1997年Hub4中文广播语音数据库上的实验结果表明,同传统的混合分割算法比较,该算法在处理速度得到提高的同时,声学特征变化点的召回率提高10.5%。  相似文献   

8.
针对传统单一音频分割算法中存在的冗余分割点过多问题,研究了一种基于一般似然比(GLR)和贝叶斯信息准则(BIC)相结合的广播音频顺序分割算法,提出了候选跳变点潜在区域的判断准则,并给出跳变点在潜在区域的检测方法,最后对检测到的跳变点进行校验.实验结果表明,与传统的音频分割算法相比,该算法的综合性能大大提高,达到较好的分割效果.  相似文献   

9.
改进的说话人聚类初始化和GMM的多说话人识别*   总被引:2,自引:1,他引:1  
针对多说话人聚类线性初始化方法精度较差的问题,提出了一种改进的聚类初始化方法。该方法引入BIC对由线性初始化产生的初始类进行检测分割,有效提升了说话人初始类纯度。最后将该方法应用到高斯混合模型(GMM)多说话人识别系统。实验结果表明,所提方法使说话人平均类纯度(ACP)提高了48.51%,系统的错误识别率平均降低12.09%。  相似文献   

10.
广播语音的音频分割   总被引:1,自引:2,他引:1  
本文的广播电视新闻的分割系统分为三部分:分割、分类和聚类。分割部分是采用本文提出的基于检测熵变化趋势的分割算法来检测连续语音音频信号的声学特征跳变点,从而实现不同性质的音频信号的分割。这种检测方法不同于传统的需要门限的跳变点检测方法,它是以检测一定窗长的信号内部的每一个可能的分割点所分割的两段信号的信号熵的变化趋势来检测音频信号声学特征跳变点的,可以避免由于门限的选择不当所带来的分割错误。分类部分是采用传统的基于高斯混合模型(GMM)的高斯分类器进行分类,聚类部分采用基于矢量量化(VQ)的说话人聚类算法进行说话人聚类。应用此系统分割三段30分钟的新闻,成功的实现了连续音频信号的分割,去除掉了所有的背景音乐,以较高的精度把属于同一个人的说话语音划归为一类,为广播语音的分类识别打下了良好的基础。  相似文献   

11.
近似重复帧检测是新闻视频检索和追踪的重要组成部分。简要介绍了近似重复帧的定义,给出了所使用的角点检测方法及优点,提出了使用BIC对两个帧的特征值序列进行判决来确定是否近似重复的方案。实验结果表明,该方法在不需要设定阈值和机器学习的同时,召回率和准确率都有很好的表现。  相似文献   

12.
提出基于可信度变化趋势的音频分割算法。采用定长滑动窗检测结构减少累积错误,在窗内计算各音频帧的可信度,根据可信度的变化趋势检测跳变点,以避免阈值选择和硬门限判决造成的误检。实验结果表明,该算法的分割性能优于基于KL2距离、基于隐马尔可夫模型、基于贝叶斯信息准则和基于熵变化趋势的音频分割算法。  相似文献   

13.
在等周算法应用于图像分割中,由于不能充分利用求解线性方程组所得到的状态向量,且对于多目标的图像进行处理时采用的二分迭代产生较大计算量的不足,通过对多目标图像的状态向量和等周率进行分析,提出一种加速改进k+1分迭代方式,经分析和实验表明改进后方法比原算法分割在计算次数和计算时间上效率更高。  相似文献   

14.
An algorithm for automatic speaker segmentation based on the Bayesian information criterion (BIC) is presented. BIC tests are not performed for every window shift, as previously, but when a speaker change is most probable to occur. This is done by estimating the next probable change point thanks to a model of utterance durations. It is found that the inverse Gaussian fits best the distribution of utterance durations. As a result, less BIC tests are needed, making the proposed system less computationally demanding in time and memory, and considerably more efficient with respect to missed speaker change points. A feature selection algorithm based on branch and bound search strategy is applied in order to identify the most efficient features for speaker segmentation. Furthermore, a new theoretical formulation of BIC is derived by applying centering and simultaneous diagonalization. This formulation is considerably more computationally efficient than the standard BIC, when the covariance matrices are estimated by other estimators than the usual maximum-likelihood ones. Two commonly used pairs of figures of merit are employed and their relationship is established. Computational efficiency is achieved through the speaker utterance modeling, whereas robustness is achieved by feature selection and application of BIC tests at appropriately selected time instants. Experimental results indicate that the proposed modifications yield a superior performance compared to existing approaches.  相似文献   

15.
The Bayesian Information Criterion (BIC) is a widely adopted method for audio segmentation, and has inspired a number of dominant algorithms for this application. At present, however, literature lacks in analytical and experimental studies on these algorithms. This paper tries to partially cover this gap.Typically, BIC is applied within a sliding variable-size analysis window where single changes in the nature of the audio are locally searched. Three different implementations of the algorithm are described and compared: (i) the first keeps updated a pair of sums, that of input vectors and that of square input vectors, in order to save computations in estimating covariance matrices on partially shared data; (ii) the second implementation, recently proposed in literature, is based on the encoding of the input signal with cumulative statistics for an efficient estimation of covariance matrices; (iii) the third implementation consists of a novel approach, and is characterized by the encoding of the input stream with the cumulative pair of sums of the first approach.Furthermore, a dynamic programming algorithm is presented that, within the BIC model, finds a globally optimal segmentation of the input audio stream.All algorithms are analyzed in detail from the viewpoint of the computational cost, experimentally evaluated on proper tasks, and compared.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号