共查询到19条相似文献,搜索用时 359 毫秒
1.
2.
针对传统单一音频分割算法中存在的冗余分割点过多问题,研究了一种基于一般似然比(GLR)和贝叶斯信息准则(BIC)相结合的广播音频顺序分割算法,提出了候选跳变点潜在区域的判断准则,并给出跳变点在潜在区域的检测方法,最后对检测到的跳变点进行校验.实验结果表明,与传统的音频分割算法相比,该算法的综合性能大大提高,达到较好的分割效果. 相似文献
3.
一种两层次无监督的音频分割算法 总被引:2,自引:0,他引:2
本文提出一种两层次无监督音频分割算法,它用于检测音频流中的说话人、环境、信道等声学特征变化点,该方法将音频分割过程分为两个层次: 区域层次和边界层次,通过固定检测窗移动,它快速定位到声学特征变化点存在的区域,然后在潜在变化区域内采用T2 统计值和贝叶斯信息准则(BIC)结合的方法快速确定片断边界。在区域检测层次,将修正的广义对数似然比准则应用于潜在的变化区域检测,它即无需设定阈值门限又可保证低的漏检率,在1997年Hub4中文广播语音数据库上的实验结果表明,同传统的混合分割算法比较,该算法在处理速度得到提高的同时,声学特征变化点的召回率提高10.5%。 相似文献
4.
广播语音的音频分割 总被引:1,自引:2,他引:1
本文的广播电视新闻的分割系统分为三部分:分割、分类和聚类。分割部分是采用本文提出的基于检测熵变化趋势的分割算法来检测连续语音音频信号的声学特征跳变点,从而实现不同性质的音频信号的分割。这种检测方法不同于传统的需要门限的跳变点检测方法,它是以检测一定窗长的信号内部的每一个可能的分割点所分割的两段信号的信号熵的变化趋势来检测音频信号声学特征跳变点的,可以避免由于门限的选择不当所带来的分割错误。分类部分是采用传统的基于高斯混合模型(GMM)的高斯分类器进行分类,聚类部分采用基于矢量量化(VQ)的说话人聚类算法进行说话人聚类。应用此系统分割三段30分钟的新闻,成功的实现了连续音频信号的分割,去除掉了所有的背景音乐,以较高的精度把属于同一个人的说话语音划归为一类,为广播语音的分类识别打下了良好的基础。 相似文献
5.
基于多模态的检测方法是过滤成人视频的有效手段,然而现有方法中缺乏准确的音频语义表示方法。因此本文提出融合音频单词与视觉特征的成人视频检测方法。先提出基于周期性的能量包络单元(简称EE)分割算法,将音频流准确地分割为EE的序列;再提出基于EE和BoW(Bag-of-Words)的音频语义表示方法,将EE的特征描述为音频单词的出现概率;采用复合加权方法融合音频单词与视觉特征的检测结果;还提出基于周期性的成人视频判别算法,与基于周期性的EE分割算法前后配合,以充分利用周期性进行检测。实验结果表明,与基于视觉特征的方法相比,本文方法显著提高了检测性能。当误检率为9.76%时,检出率可达94.44%。 相似文献
6.
针对滑动变长窗口BIC算法冗余分割点多的问题,提出了基于小波子带平均能量方差和BIC的音频分割算法相结合。该算法用小波子带平均能量方差将连续音频流分割成音频段,然后用改进的滑动变长窗口BIC算法在音频段上检测声学改变点。实验表明,该算法取得了较好的分割效果,与滑动变长窗口的BIC算法相比,该算法的准确率、召回率和综合性能都得了提高。 相似文献
7.
一种基于内容的音频流二级分割方法 总被引:5,自引:0,他引:5
基于内容的音频流分割是多媒体数据分析领域中的一个十分重要和困难的问题.目前大多数传统的音频流分割方法是基于小尺度音频分类的,但是这类分割方法普遍存在虚假分割点过多的缺点,严重影响了实际应用的效果.作者的研究表明,大尺度音频片段的分类正确率要明显高于小尺度音频片段的分类正确率,并且这个趋势与分类器选择无关.基于这个事实和减少虚假分割点的目的,作者提出了一种新的音频流分割方法.首先,采用基于大尺度音频分类的分割方法对音频流进行粗分割,以减少虚假分割点;然后定义了分割点评价函数,并利用它在边界区域中进一步精确定位分割点.实验结果表明这种音频流分割方法可以比较精确地获取分割点位置,同时将虚假分割点减少到传统方法的四分之一. 相似文献
8.
9.
10.
应用于高速网络的基于报文采样和应用签名的BitTorrent流量识别算法 总被引:1,自引:0,他引:1
在高速网络上进行P2P流量识别具有极大的困难,因为基于端口号的方法已经不再准确,而基于应用签名的方法没有足够高的处理效率.提出了应用于高速网络的基于报文采样和应用签名的BitTorrent流量识别算法.建立了误检率和漏检率模型来分析报文采样率和签名率对识别准确度的作用,并指导应用签名和采样率的选择.通过开发流状态判别预处理器,在Snort平台上实现了该流量识别算法.实验结果表明该流量识别算法处理效率和准确度都是令人满意的,能应用于高速网络环境.在普通个人计算机上,对采样报文的处理效率在800Mbps以上.将该方法应用于报文处理,当采样率为0.5时漏检率为0.6%,当采样率为0.1时漏检率为5.9%,当采样率为0.05时漏检率为10.5%.将该方法应用于流数据分析,当采样率为0.5时漏检率为0.06%,当采样率为0.1时漏检率为0.33%,当采样率为0.05时漏检率为1.1%.该方法展现了优秀的误检性能,没有任何报文被误检.实验结果也表明误检率和漏检率模型是非常准确的. 相似文献
11.
12.
13.
14.
基于支持向量机的音频分类与分割 总被引:8,自引:0,他引:8
音频分类与分割是提取音频结构和内容语义的重要手段,是基于内容的音频、视频检索和分析的基础。支持向量机(SVM)是一种有效的统计学习方法。本文提出了一种基于SVM的音频分类算法。将音频分为5类:静音、噪音、音乐、纯语音和带背景音的语音。在分类的基础上,采用3个平滑规则对分类结果进行平滑。分析了SVM分类嚣的分类性能,同时也评估了本文提出的新的音频特征在SVM分类嚣上的分类效果。实验结果显示,基于SVM的音频分类算法分类效果良好,平滑处理后的音频分割结果比较准确。 相似文献
15.
This paper addresses the problem of real-time speaker segmentation and speaker tracking in audio content analysis in which
no prior knowledge of the number of speakers and the identities of speakers is available. Speaker segmentation is to detect
the speaker change boundaries in a speech stream. It is performed by a two-step algorithm, which includes potential change
detection and refinement. Speaker tracking is then performed based on the results of speaker segmentation by identifying the
speaker of each segment. In our approach, incremental speaker model updating and segmental clustering is proposed, which makes
the unsupervised speaker segmentation and tracking feasible in real-time processing. A Bayesian fusion method is also proposed
to fuse multiple audio features to obtain a more reliable result, and different noise levels are utilized to compensate for
background mismatch. Experiments show that the proposed algorithm can recall 89% of speaker change boundaries with 15% false
alarms, and 76% of speakers can be unsupervised identified with 20% false alarms. Compared with previous works, the algorithm
also has low computation complexity and can perform in 15% of real time with a very limited delay in analysis.
Published online: 12 January 2005
Part of the work presented in this paper was published in the 10th ACM International Conference on Multimedia, 1-6 December
2002 相似文献
16.
17.
More and more conversation recordings from phone calls are used as forensic evidence. To decide whether an unknown speech recording comes from mobile phone or not becomes an important issue in digital audio forensics. The communicating conversation recorded by mobile phones is encoded by Adaptive Multi-Rate (AMR) audio codec, which was adopted as the standard speech codec by 3GPP and widely used in GSM and UMTS. Therefore, AMR decompressed audio detection can be used to identify the source of the digital audio recording. Furthermore, it is helpful to locate the forgery position of the splicing AMR decompressed audio for forensic purposes. In this article, we focus on the identification of AMR decompressed audio, namely, given the waveform of an audio, we wish to identify whether it has been previously compressed by AMR codec or not. The artifacts introduced by the AMR codec will help to detect the source of the recordings. Based on our analysis, we find that the sample repetition rate of the AMR decompressed waveform is significantly greater than the regular waveform. Therefore, we employ the sample repetition rate as a feature to identify the AMR decompressed audio. The experimental results show that this feature is robust and effective. 相似文献
18.
Content-based audio classification and segmentation by using support vector machines 总被引:9,自引:0,他引:9
Content-based audio classification and segmentation is a basis for further audio/video analysis. In this paper, we present
our work on audio segmentation and classification which employs support vector machines (SVMs). Five audio classes are considered
in this paper: silence, music, background sound, pure speech, and non- pure speech which includes speech over music and speech
over noise. A sound stream is segmented by classifying each sub-segment into one of these five classes. We have evaluated
the performance of SVM on different audio type-pairs classification with testing unit of different- length and compared the
performance of SVM, K-Nearest Neighbor (KNN), and Gaussian Mixture Model (GMM). We also evaluated the effectiveness of some
new proposed features. Experiments on a database composed of about 4- hour audio data show that the proposed classifier is
very efficient on audio classification and segmentation. It also shows the accuracy of the SVM-based method is much better
than the method based on KNN and GMM. 相似文献
19.
基于内容的音频检索:概念和方法 总被引:38,自引:1,他引:37
F过去对视觉媒体的检索,如图象和视频,进行了大量的研究。但是我们注意到音频也是多媒体中的一种典型媒体,是信息的一种常用载体。常规的自理是把数字音频当成非结构化流媒体。然而音频是语音的载体、包含丰富的听觉特征,并且具有结构信息。因此需要并且可以基于这些内容对音频进行存取。本文根据当前相关研究的进展,综述基于内容的音频检索方法,包括面向语音、音乐和音频分析的检索、音频分割等;分析并总结出音频内容及其检 相似文献