首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
音频分类在多媒体应用中十分广泛,主要有时域分析和频域分析方法.文中提出了一种基于自适应间距比(APR)算法和支持向量机(SVM)算法的音频分类方法,先用APR算法区分语音与非语音;对于非语音,再通过SVM进行音频分类. APR算法是比较PR参数和阈值来区分语音和非语音,它和信噪比密切相关;而将非语音分成四组:音乐,汽车,会议,雨声,提取特征因子.实验结果表明:文中设计的分类器的精度达到93.75%以上,能很好地把各类型音频分开.  相似文献   

2.
语音/音乐区分是音频高效编码、音频检索、自动语音识别等音频处理和分析的重要步骤。本文提出一种新颖的语音/音乐分割与分类方法,首先根据相邻帧间的均方能量差异检测音频的变化点,实现分割;然后对音频段提取低带能量方差比、倒谱能量调制、熵调制等八维特征,用人工神经网络做分类。实验结果显示,本文算法和特征具有很高的分割准确率和分类正确率。  相似文献   

3.
基于支持向量机的音频分类与分割   总被引:8,自引:0,他引:8  
音频分类与分割是提取音频结构和内容语义的重要手段,是基于内容的音频、视频检索和分析的基础。支持向量机(SVM)是一种有效的统计学习方法。本文提出了一种基于SVM的音频分类算法。将音频分为5类:静音、噪音、音乐、纯语音和带背景音的语音。在分类的基础上,采用3个平滑规则对分类结果进行平滑。分析了SVM分类嚣的分类性能,同时也评估了本文提出的新的音频特征在SVM分类嚣上的分类效果。实验结果显示,基于SVM的音频分类算法分类效果良好,平滑处理后的音频分割结果比较准确。  相似文献   

4.
提出了一种规则和隐马尔可夫模型相结合的音频分层分类算法,首先利用规则将新闻节目中的音频分为静音、语音和音乐三类,然后采用隐马尔可夫模型进一步将语音和音乐细分为男主持人语音、女主持人语音、交替报道、独白语音、现场语音和音乐六类。实验结果表明,男主持人语音、女主持人语音以及音乐的分类效果最好,查准率和查全率均可达90%以上;交替报道的分类性能最差,查准率为57.5%,查全率为79.3%;其他类别的分类性能居中,在70%~90%左右。与同类算法相比,该算法分类性能较高。  相似文献   

5.
基于隐马尔可夫模型的音频自动分类   总被引:27,自引:0,他引:27  
卢坚  陈毅松  孙正兴  张福炎 《软件学报》2002,13(8):1593-1597
音频的自动分类,尤其是语音和音乐的分类,是提取音频结构和内容语义的重要手段之一,它在基于内容的音频检索、视频的检索和摘要以及语音文档检索等领域都有重大的应用价值.由于隐马尔可夫模型能够很好地刻画音频信号的时间统计特性,因此,提出一种基于隐马尔可夫模型的音频分类算法,用于语音、音乐以及它们的混合声音的分类.实验结果表明,隐马尔可夫模型的音频分类性能较好,最优分类精度达到90.28%.  相似文献   

6.
邢玲  贺梅  马强  朱敏 《计算机应用》2012,32(10):2895-2898
音频特征向量已广泛应用于音频分类的研究,该表示形式虽能有效体现音频的固有特性,但无法表示音频信息多语义特性及各语义间的相关性。提出了基于张量统一内容定位(TUCL)的音频语义表征方式,将音频语义描述表示为三阶张量,并构建多语义张量空间。在此空间中,张量语义离散度(TSD)能有效聚集具有相同语义的音频资源,通过计算各音频资源的TSD来完成对音频资源的分类,并构建了RBF张量神经网络(RBFTNN)来自适应学习分类模型。实验结果表明,在多语义分类的情况下,TSD算法的分类性能明显优于当前典型的高斯混合模型(GMM)算法;通过与支持向量机(SVM)学习模型相比可知,基于TSD的RBFTNN模型分类学习的准确率明显优于基于TSD的SVM模型。  相似文献   

7.
环境音分类是当前语音识别领域的研究热点。主动学习是利用未标记数据,在少量标记数据代价下提高监督学习算法的分类性能的方法。文中提出了熵优先采样(Entropy Priority Sampling,EPS)方法和简单不一致采样(Simple Disagreement Sampling,SDS)方法作为主动学习选择样本的策略。针对环境音数据,提取11维的CELP音频特征,采用单一分类器与EPS,SDS方法对不同标记训练样本比例下的分类实验结果进行了比较分析。结果表明,主动学习方法在标记样本数较少的情况下,能取得较好的分类效果,并且EPS方法的性能优于SDS方法。  相似文献   

8.
语音和非语音类声音的识别在很多系统的研发中都有非常重要的作用,如安全监控、医疗保健、现代化的视听会议系统等。虽然绝大多数声音信号都有其独特的发音机制,然而要从其中进行特征的提取往往缺乏系统有效的方法。基于不同的音频信号都有其固有的特点,使用类所属特征选择方法来提取音频中的特征,从而进行分类,并用所提出的方法对语音和两种非语音类声音(咳嗽和杯碟破碎的声音)进行了实验仿真,实验结果表明,与常规的特征选择方法相比,提出的方法用更少的特征实现了更好的分类。  相似文献   

9.
为了有效抑制非平稳背景噪音对语音处理系统的严重干扰,提出了一种基于长短时能量均值的活动语音检测算法.该算法基于两个合理的假设,一个是基于语音隐含成分集的稀疏分解,不但能尽可能地保留含噪语音中的语音信息,还能在一定程度上消除非语音类噪音的干扰;另一个是对上述稀疏分解的语音进行重构,该重构信号中语音段的时域能量高于非语音段的时域能量.在上述两个假设的基础上,采用重构信号的时域能量作为音频特征,以当前帧为中心,并将与其相邻的特定数量帧的短时能量均值作为当前帧的得分值;以当前帧及其之前特定数量帧的长时能量均值作为判决阈值,进而提出了以当前帧的短时能量均值和长时能量均值大小作为判断条件的活动语音检测算法.实验结果显示,该算法能有效地区分低信噪比(平稳噪音和非平稳噪音)条件下的语音和非语音片段,并且其性能优于基于单Gaussian分布的似然比算法.  相似文献   

10.
基于内容的音频检索综述   总被引:14,自引:0,他引:14  
朱爱红  李连 《微机发展》2003,13(12):58-60,64
传统的基于文本的音频检索技术存在主观性和不完整性等缺点,而且不支持实时音频检索。为此,基于内容的音频检索技术应运而生。文中根据音频检索的研究现状,综述基于内容的音频检索方法,讨论了一些音频检索技术研究中的关键技术:音频特征提取、音频分类、语音识别技术等。最后展望了音频检索技术的发展前景。  相似文献   

11.
一种基于支持向量机的演唱片段划分方法   总被引:1,自引:0,他引:1  
提出了一种基于支持向量机的演唱片段划分方法.首先,给出能够体现含人声片段与纯音乐片段差异的特征量,并对于支持向量机的原理及应用原则作了介绍,最后,结合两者提出了音乐片段的分割方法.  相似文献   

12.
太赫兹时域光谱技术是一门新兴光谱检测技术,广泛应用于安检及反恐、生物医学和食品质量检测等方面。太赫兹谱的分类识别技术是太赫兹光谱检测技术的一个重要环节。由于受到噪声的影响,太赫兹谱可能在高维空间中成复杂的非线性分布,传统的分类方法难以取得理想的分类效果。流形学习和支持向量机都是当前机器学习领域的研究热点,都采取了核方法来解决非线性问题,正因为两者之间有很多共通之处,将这两种方法充分结合提出了一种称之为ISOMAP-SVM的新算法。这种新算法拥有比传统的支持向量机算法更快的训练速度和更好的分类效果。实验结果表明利用新算法可以实现对不同种类药品的识别,为太赫兹光谱技术用于药品的检测和识别提供了一种新的有效方法。  相似文献   

13.
This paper addresses a model-based audio content analysis for classification of speech-music mixed audio signals into speech and music. A set of new features is presented and evaluated based on sinusoidal modeling of audio signals. The new feature set, including variance of the birth frequencies and duration of the longest frequency track in sinusoidal model, as a measure of the harmony and signal continuity, is introduced and discussed in detail. These features are used and compared to typical features as inputs to an audio classifier. Performance of these sinusoidal model features is evaluated through classification of audio into speech and music using both the GMM (Gaussian Mixture Model) and the SVM (Support Vector Machine) classifiers. Experimental results show that the proposed features are quite successful in speech/music discrimination. By using only a set of two sinusoidal model features, extracted from 1-s segments of the signal, we achieved 96.84% accuracy in the audio classification. Experimental comparisons also confirm superiority of the sinusoidal model features to the popular time domain and frequency domain features in audio classification.  相似文献   

14.
Content-based audio classification and segmentation is a basis for further audio/video analysis. In this paper, we present our work on audio segmentation and classification which employs support vector machines (SVMs). Five audio classes are considered in this paper: silence, music, background sound, pure speech, and non- pure speech which includes speech over music and speech over noise. A sound stream is segmented by classifying each sub-segment into one of these five classes. We have evaluated the performance of SVM on different audio type-pairs classification with testing unit of different- length and compared the performance of SVM, K-Nearest Neighbor (KNN), and Gaussian Mixture Model (GMM). We also evaluated the effectiveness of some new proposed features. Experiments on a database composed of about 4- hour audio data show that the proposed classifier is very efficient on audio classification and segmentation. It also shows the accuracy of the SVM-based method is much better than the method based on KNN and GMM.  相似文献   

15.
支持向量机(Support Vector Machine,SVM)作为一种经典的非线性分类器,用于模式识别,可以将训练样本从不可线性分类的低维空间映射到可线性分类的高维空间,再做分类,本文主要训练支持向量机使它学会区分人脸和非人脸。支持向量机的数学推导完备,算法逻辑严密,整体上比Adaboost算法复杂,但在样本量较少的情况下效果良好,因此有样本优势。支撑它的理论包含泛化性理论、最优化理论和核函数等,这些理论也被学术界广泛用于其他机器学习算法如神经网络,几十年来被证明具有很高的可靠性。同时本文论述主成分分析技术(PCA)用于压缩数据,实现数据降维,在数据预处理方面算法提供了很大帮助,使SVM支持向量机的输入数据维数大幅下降,大大提高了运算和检测时间。  相似文献   

16.
基于内容的音频分类是基于内容的音频检索技术中的重要研究内容。先简单介绍音频分类的理论基础,然后介绍几种典型的音频分类方法,最后通过一个简单的SVM算法进行模拟实验。  相似文献   

17.
研究一种用支持向量机(SVM)进行多类音频分类的方法,其中引入增广两类分类法(AB法)设计多类分类器。该算法把音频分为四类:音乐、纯语音、带背景音的语音和典型的环境音,并分析了这几类音频的八个区别性特征,包括修正低能量成分比率(MLER)和修正基频(MPF)两个新特征以及频域总能量、子带能量、频率中心等其它六个基本特征,综合考察了不同特征集在基于SVM分类器中的分类精度。实验结果表明,提取的音频特征有效,基于SVM的多类音频分类效果良好。  相似文献   

18.
面对海量数据的特征空间高维性及训练样本的有限性,高光谱遥感影像若采用常规统计模式的分类方法难以获得较好的分类结果。因此探讨支持向量机(SVM)分类器的基本原理,针对EO-1Hyperion高光谱影像的分类特点及现有多类SVM算法所存在的训练时间长及分类精度低等问题,引入二叉决策树SVM(BDT-SVM)分类算法,并提出一种新的类间分离度定义方法及相应的客观确定二叉树结构的策略,由此生成改进的BDT-SVM算法。实验结果表明:与其他多类分类方法相比,基于改进的BDT-SVM算法的高光谱影像地物分类效果更好,总体精度达到90.96%,Kappa系数为0.89,该算法还解决了经典SVM多类分类可能存在的不可分区域问题。  相似文献   

19.
李剑  江成顺  董丽英 《计算机工程》2010,36(13):180-182
提出基于选择性集成支持向量机的语音、话带数据信号分类方法,根据集成算法的差异性定义,采用两层级联结构的动态叠加算法完成决策输出。该方法能够在训练阶段准确地选择具有较高识别精度和差异性的成员分类器,在测试阶段对各成员分类器进行动态集成,保证最终的分类结果最优。构建时域、频域相结合的特征向量,并具有较好的抗噪声能力。实验结果表明,该方法无论在分类还是在运算复杂度上都取得较好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号