首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 359 毫秒
1.
提出基于可信度变化趋势的音频分割算法。采用定长滑动窗检测结构减少累积错误,在窗内计算各音频帧的可信度,根据可信度的变化趋势检测跳变点,以避免阈值选择和硬门限判决造成的误检。实验结果表明,该算法的分割性能优于基于KL2距离、基于隐马尔可夫模型、基于贝叶斯信息准则和基于熵变化趋势的音频分割算法。  相似文献   

2.
针对传统单一音频分割算法中存在的冗余分割点过多问题,研究了一种基于一般似然比(GLR)和贝叶斯信息准则(BIC)相结合的广播音频顺序分割算法,提出了候选跳变点潜在区域的判断准则,并给出跳变点在潜在区域的检测方法,最后对检测到的跳变点进行校验.实验结果表明,与传统的音频分割算法相比,该算法的综合性能大大提高,达到较好的分割效果.  相似文献   

3.
一种两层次无监督的音频分割算法   总被引:2,自引:0,他引:2  
本文提出一种两层次无监督音频分割算法,它用于检测音频流中的说话人、环境、信道等声学特征变化点,该方法将音频分割过程分为两个层次: 区域层次和边界层次,通过固定检测窗移动,它快速定位到声学特征变化点存在的区域,然后在潜在变化区域内采用T2 统计值和贝叶斯信息准则(BIC)结合的方法快速确定片断边界。在区域检测层次,将修正的广义对数似然比准则应用于潜在的变化区域检测,它即无需设定阈值门限又可保证低的漏检率,在1997年Hub4中文广播语音数据库上的实验结果表明,同传统的混合分割算法比较,该算法在处理速度得到提高的同时,声学特征变化点的召回率提高10.5%。  相似文献   

4.
广播语音的音频分割   总被引:1,自引:2,他引:1  
本文的广播电视新闻的分割系统分为三部分:分割、分类和聚类。分割部分是采用本文提出的基于检测熵变化趋势的分割算法来检测连续语音音频信号的声学特征跳变点,从而实现不同性质的音频信号的分割。这种检测方法不同于传统的需要门限的跳变点检测方法,它是以检测一定窗长的信号内部的每一个可能的分割点所分割的两段信号的信号熵的变化趋势来检测音频信号声学特征跳变点的,可以避免由于门限的选择不当所带来的分割错误。分类部分是采用传统的基于高斯混合模型(GMM)的高斯分类器进行分类,聚类部分采用基于矢量量化(VQ)的说话人聚类算法进行说话人聚类。应用此系统分割三段30分钟的新闻,成功的实现了连续音频信号的分割,去除掉了所有的背景音乐,以较高的精度把属于同一个人的说话语音划归为一类,为广播语音的分类识别打下了良好的基础。  相似文献   

5.
基于多模态的检测方法是过滤成人视频的有效手段,然而现有方法中缺乏准确的音频语义表示方法。因此本文提出融合音频单词与视觉特征的成人视频检测方法。先提出基于周期性的能量包络单元(简称EE)分割算法,将音频流准确地分割为EE的序列;再提出基于EE和BoW(Bag-of-Words)的音频语义表示方法,将EE的特征描述为音频单词的出现概率;采用复合加权方法融合音频单词与视觉特征的检测结果;还提出基于周期性的成人视频判别算法,与基于周期性的EE分割算法前后配合,以充分利用周期性进行检测。实验结果表明,与基于视觉特征的方法相比,本文方法显著提高了检测性能。当误检率为9.76%时,检出率可达94.44%。  相似文献   

6.
针对滑动变长窗口BIC算法冗余分割点多的问题,提出了基于小波子带平均能量方差和BIC的音频分割算法相结合。该算法用小波子带平均能量方差将连续音频流分割成音频段,然后用改进的滑动变长窗口BIC算法在音频段上检测声学改变点。实验表明,该算法取得了较好的分割效果,与滑动变长窗口的BIC算法相比,该算法的准确率、召回率和综合性能都得了提高。  相似文献   

7.
一种基于内容的音频流二级分割方法   总被引:5,自引:0,他引:5  
基于内容的音频流分割是多媒体数据分析领域中的一个十分重要和困难的问题.目前大多数传统的音频流分割方法是基于小尺度音频分类的,但是这类分割方法普遍存在虚假分割点过多的缺点,严重影响了实际应用的效果.作者的研究表明,大尺度音频片段的分类正确率要明显高于小尺度音频片段的分类正确率,并且这个趋势与分类器选择无关.基于这个事实和减少虚假分割点的目的,作者提出了一种新的音频流分割方法.首先,采用基于大尺度音频分类的分割方法对音频流进行粗分割,以减少虚假分割点;然后定义了分割点评价函数,并利用它在边界区域中进一步精确定位分割点.实验结果表明这种音频流分割方法可以比较精确地获取分割点位置,同时将虚假分割点减少到传统方法的四分之一.  相似文献   

8.
改进的BIC说话人分割算法   总被引:1,自引:1,他引:0       下载免费PDF全文
郑继明  张萍 《计算机工程》2010,36(17):240-242
针对多人说话改变点检测问题,提出一种改进的BIC说话人分割算法。采用固定窗BIC算法对音频流进行分割,利用基于递归的分割算法和变长窗口的BIC算法确认潜在的分割点。实验结果表明,与其他BIC算法相比,该算法的准确率、召回率和综合性能较高。  相似文献   

9.
《微型机与应用》2017,(5):38-41
解决大规模音频数据库快速检索的有效手段之一是建立合适的音频索引,其中音频分割和标注是建立音频索引的基础。文中采用了一种基于短时能量和改进度量距离的两步音频分割算法,使得分割后的音频片段具有段间特征差异大、段内特征方差小的特点。在音频分割的基础上进行了音频数据库中音频流的标注;分别基于BP神经网络算法和Philips音频指纹算法对音频进行了音频类别和音频内容的标注,为后续建立音频索引表做准备。实验结果表明,两步分割算法能较好地分割任意音频流,音频标注算法能有效进行基于音频类别和音频内容的标注,算法同时具有良好的鲁棒性。  相似文献   

10.
在高速网络上进行P2P流量识别具有极大的困难,因为基于端口号的方法已经不再准确,而基于应用签名的方法没有足够高的处理效率.提出了应用于高速网络的基于报文采样和应用签名的BitTorrent流量识别算法.建立了误检率和漏检率模型来分析报文采样率和签名率对识别准确度的作用,并指导应用签名和采样率的选择.通过开发流状态判别预处理器,在Snort平台上实现了该流量识别算法.实验结果表明该流量识别算法处理效率和准确度都是令人满意的,能应用于高速网络环境.在普通个人计算机上,对采样报文的处理效率在800Mbps以上.将该方法应用于报文处理,当采样率为0.5时漏检率为0.6%,当采样率为0.1时漏检率为5.9%,当采样率为0.05时漏检率为10.5%.将该方法应用于流数据分析,当采样率为0.5时漏检率为0.06%,当采样率为0.1时漏检率为0.33%,当采样率为0.05时漏检率为1.1%.该方法展现了优秀的误检性能,没有任何报文被误检.实验结果也表明误检率和漏检率模型是非常准确的.  相似文献   

11.
分段式音频检索算法   总被引:3,自引:0,他引:3  
本文提出了一种基于分段的快速音频检索算法。该算法将检索目标划分成多个较小的片段,每个片段可以独立进行检索;检索过程中使用检索窗控制参与检索的片段及数量。该算法的速度不随检索目标的长度变化,检索速度可调,且能获得良好的查全率和查准率,适用于从未知音频数据源中检索任意长度的特定音频数据及实时应用场合。  相似文献   

12.
倪宁  卢刚  卜佳俊 《计算机仿真》2006,23(8):184-187,195
目前场景检测的研究,主要是基于图像和视频。但音频同样具有丰富的场景信息,基于音频分析的计算量是比较少的,对自动或者半自动的场景检测,基于音频分析的方法也是更为让用户接受的。可以把基于音频分析的方法作为视频场景检测的辅助手段,以获得更为准确的场景检测和分割。该文提出了一个基于内容的音频分析系统,对视频序列实现基于音频分析的场景检测和分割。该系统能有效的解决许多诸如图像变化了,而实际场景并未变化的情形。且本系统整体运算复杂度较基于视频/图像的场景检测与分割系统要低。  相似文献   

13.
14.
基于支持向量机的音频分类与分割   总被引:8,自引:0,他引:8  
音频分类与分割是提取音频结构和内容语义的重要手段,是基于内容的音频、视频检索和分析的基础。支持向量机(SVM)是一种有效的统计学习方法。本文提出了一种基于SVM的音频分类算法。将音频分为5类:静音、噪音、音乐、纯语音和带背景音的语音。在分类的基础上,采用3个平滑规则对分类结果进行平滑。分析了SVM分类嚣的分类性能,同时也评估了本文提出的新的音频特征在SVM分类嚣上的分类效果。实验结果显示,基于SVM的音频分类算法分类效果良好,平滑处理后的音频分割结果比较准确。  相似文献   

15.
This paper addresses the problem of real-time speaker segmentation and speaker tracking in audio content analysis in which no prior knowledge of the number of speakers and the identities of speakers is available. Speaker segmentation is to detect the speaker change boundaries in a speech stream. It is performed by a two-step algorithm, which includes potential change detection and refinement. Speaker tracking is then performed based on the results of speaker segmentation by identifying the speaker of each segment. In our approach, incremental speaker model updating and segmental clustering is proposed, which makes the unsupervised speaker segmentation and tracking feasible in real-time processing. A Bayesian fusion method is also proposed to fuse multiple audio features to obtain a more reliable result, and different noise levels are utilized to compensate for background mismatch. Experiments show that the proposed algorithm can recall 89% of speaker change boundaries with 15% false alarms, and 76% of speakers can be unsupervised identified with 20% false alarms. Compared with previous works, the algorithm also has low computation complexity and can perform in 15% of real time with a very limited delay in analysis. Published online: 12 January 2005 Part of the work presented in this paper was published in the 10th ACM International Conference on Multimedia, 1-6 December 2002  相似文献   

16.
MPEG压缩音频内容分析的前端工具   总被引:1,自引:0,他引:1  
李超  熊璋  吴晶 《计算机工程》2005,31(15):19-21,32
分析了MPEG压缩音频分析的基本原理和方法,介绍了一个MPEG压缩音频前端分析工具的设计与实现,能够方便准确地对MP3格式的音频进行分割、特征提取和归类,可用于多媒体数据库、数字化图书馆以及多媒体编辑等领域。  相似文献   

17.
More and more conversation recordings from phone calls are used as forensic evidence. To decide whether an unknown speech recording comes from mobile phone or not becomes an important issue in digital audio forensics. The communicating conversation recorded by mobile phones is encoded by Adaptive Multi-Rate (AMR) audio codec, which was adopted as the standard speech codec by 3GPP and widely used in GSM and UMTS. Therefore, AMR decompressed audio detection can be used to identify the source of the digital audio recording. Furthermore, it is helpful to locate the forgery position of the splicing AMR decompressed audio for forensic purposes. In this article, we focus on the identification of AMR decompressed audio, namely, given the waveform of an audio, we wish to identify whether it has been previously compressed by AMR codec or not. The artifacts introduced by the AMR codec will help to detect the source of the recordings. Based on our analysis, we find that the sample repetition rate of the AMR decompressed waveform is significantly greater than the regular waveform. Therefore, we employ the sample repetition rate as a feature to identify the AMR decompressed audio. The experimental results show that this feature is robust and effective.  相似文献   

18.
Content-based audio classification and segmentation is a basis for further audio/video analysis. In this paper, we present our work on audio segmentation and classification which employs support vector machines (SVMs). Five audio classes are considered in this paper: silence, music, background sound, pure speech, and non- pure speech which includes speech over music and speech over noise. A sound stream is segmented by classifying each sub-segment into one of these five classes. We have evaluated the performance of SVM on different audio type-pairs classification with testing unit of different- length and compared the performance of SVM, K-Nearest Neighbor (KNN), and Gaussian Mixture Model (GMM). We also evaluated the effectiveness of some new proposed features. Experiments on a database composed of about 4- hour audio data show that the proposed classifier is very efficient on audio classification and segmentation. It also shows the accuracy of the SVM-based method is much better than the method based on KNN and GMM.  相似文献   

19.
基于内容的音频检索:概念和方法   总被引:38,自引:1,他引:37  
F过去对视觉媒体的检索,如图象和视频,进行了大量的研究。但是我们注意到音频也是多媒体中的一种典型媒体,是信息的一种常用载体。常规的自理是把数字音频当成非结构化流媒体。然而音频是语音的载体、包含丰富的听觉特征,并且具有结构信息。因此需要并且可以基于这些内容对音频进行存取。本文根据当前相关研究的进展,综述基于内容的音频检索方法,包括面向语音、音乐和音频分析的检索、音频分割等;分析并总结出音频内容及其检  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号