共查询到20条相似文献,搜索用时 93 毫秒
1.
基于内容的音频分类是基于内容的音频检索技术中的重要研究内容。先简单介绍音频分类的理论基础,然后介绍几种典型的音频分类方法,最后通过一个简单的SVM算法进行模拟实验。 相似文献
2.
传统的基于文本的音频检索技术存在主观性和不完整性等缺点,而且不支持实时音频检索.为此,基于内容的音频检索技术应运而生.文中根据音频检索的研究现状,综述基于内容的音频检索方法,讨论了一些音频检索技术研究中的关键技术:音频特征提取、音频分类、语音识别技术等.最后展望了音频检索技术的发展前景. 相似文献
3.
4.
5.
基于内容的音频检索是多媒体检索技术中一个重要的组成部分,而其检索技术却相对滞后.基于内容的音频检索已成为多媒体检索技术的研究热点.本文分析并总结了音频检索的概念,综述了基于内容的音频检索方法和相关技术,最后通过一个简单的系统对基于内容的音频检索方法进行了测试. 相似文献
6.
首先对基于内容的多媒体检索的相关概念、特征进行介绍,提出一种基于压缩域特征的音频检索方法,该算法在压缩域上直接对音频信号进行分析,达到多媒体实时检索的目的,实验结果证明,该算法有较好的检索结果。 相似文献
7.
8.
9.
基于内容的音频检索与分类 总被引:6,自引:0,他引:6
音频信息检索技术是多媒体检索技术中的一个重要组成部分。该文在分析国内外现行的音频信息检索方法的基础上,总结出了基于内容的音频检索的一般方法,提出了一种基于内容的音频信息检索与分类方法,并通过已研制的ARS音频检索系统进行了性能测试。此方法具有较高的准确性和灵活性,可适用于不同的系统和应用。 相似文献
10.
音频自动分类中的特征分析和抽取 总被引:8,自引:1,他引:8
音频特征分析和抽取是音频自动分类的基础,本文将音频对象分为静音,噪音,纯语音,带背景音语音,音乐等5类,从帧层次和段层次上深入分析了不同类音频之间的区别性特征,包括帧层次上的MFCC,频域能量,子带能量,过零率,频谱中心等特征,在此基础上计算了段层次上的基本音频特征,包括静音比率,子带能量比均值等,提出了3个音频”流”特征-High-ZCR比率,Low-Frequency-Energy比率,频谱流量.设计并实现了一种基于支持向量机(support vector machine)的自动分类器,考察了上述特征组成的特征集合在该分类器中的分类性能.实验表明,本文提出的特征有效,分类性能良好. 相似文献
11.
基于分形布朗运动和Ada Boosting的多类音频例子识别 总被引:2,自引:0,他引:2
提出了一种基于分形布朗运动的音频特征提取和识别方法.这种方法使用分形布朗运动模型计算出音频例子的分形维数,并作为其分形特征.针对音频分形特征符合高斯分布的特点,使用Ada Boosting算法进行特征约减.然后分别使用Ada-加权高斯分类器和支持向量机对约减特征后的音频分类,并在两类分类的基础上构造多类分类的模型.实验表明,经过特征约减后的音频分形特征在音乐和语音的分类中都优于其他音频特征. 相似文献
12.
一种基于内容的音频流二级分割方法 总被引:5,自引:0,他引:5
基于内容的音频流分割是多媒体数据分析领域中的一个十分重要和困难的问题.目前大多数传统的音频流分割方法是基于小尺度音频分类的,但是这类分割方法普遍存在虚假分割点过多的缺点,严重影响了实际应用的效果.作者的研究表明,大尺度音频片段的分类正确率要明显高于小尺度音频片段的分类正确率,并且这个趋势与分类器选择无关.基于这个事实和减少虚假分割点的目的,作者提出了一种新的音频流分割方法.首先,采用基于大尺度音频分类的分割方法对音频流进行粗分割,以减少虚假分割点;然后定义了分割点评价函数,并利用它在边界区域中进一步精确定位分割点.实验结果表明这种音频流分割方法可以比较精确地获取分割点位置,同时将虚假分割点减少到传统方法的四分之一. 相似文献
13.
14.
15.
作为保护音频文件版权的有效方法,数字音频水印已逐渐成为研究的热点.系统介绍了数字音频水印技术的原理和主要应用领域,分析了数字音频水印中用到的各种技术方法,阐述了数字音频水印的算法分类,探讨了数字音频水印的发展趋势. 相似文献
16.
音频取证若干关键技术研究进展 总被引:1,自引:1,他引:0
介绍了音频取证领域的最新研究进展、音频真实性的研究状况。对音频取证研究领域的历史进行了回顾,探讨了音频取证的分类,构建了音频取证框架。对音频取证的若干个关键技术进行了总结,包括音频主动取证技术、基于电网频率特征的音频篡改技术、无电网频率成分下的音频篡改检测技术、录音设备的特征参数、模式识别、数据库建设情况以及录音场合识别等。最后对音
频取证技术进行了总结和展望。 相似文献
17.
Content-based audio classification and segmentation by using support vector machines 总被引:9,自引:0,他引:9
Content-based audio classification and segmentation is a basis for further audio/video analysis. In this paper, we present
our work on audio segmentation and classification which employs support vector machines (SVMs). Five audio classes are considered
in this paper: silence, music, background sound, pure speech, and non- pure speech which includes speech over music and speech
over noise. A sound stream is segmented by classifying each sub-segment into one of these five classes. We have evaluated
the performance of SVM on different audio type-pairs classification with testing unit of different- length and compared the
performance of SVM, K-Nearest Neighbor (KNN), and Gaussian Mixture Model (GMM). We also evaluated the effectiveness of some
new proposed features. Experiments on a database composed of about 4- hour audio data show that the proposed classifier is
very efficient on audio classification and segmentation. It also shows the accuracy of the SVM-based method is much better
than the method based on KNN and GMM. 相似文献
18.
为施行有效的音频分类以高效率处理日渐复杂的音频信息,研究采用包含多种神经网络在内的5种机器学习模型,实现多种决策下的音频分类以寻找最优模型,基于分类准确度对各模型分类效果进行评估,在使用正则化方法保证模型泛化能力的条件下,通过比较和实验,挖掘并验证出了相对最优的模型——卷积神经网络音频分类模型及对应参数,为现有音频分类模型的进一步优化提供了参考方向。 相似文献
19.
20.
环境声音分类(ESC)是音频处理领域的重要分支之一,在未来多媒体应用中有重要的作用。音频识别是提取音频中特定的声学特性,将音频分类至样本对应的正确场景,有助于感知和理解周围环境。现阶段音频识别主要是通过信号处理技术和机器学习方法达成。随着人工智能飞速发展,传统的音频处理技术以及机器学习方法面临着巨大的挑战,ESC的识别准确性有待进一步提高。结合残差网络和随机森林两种方法,将一维时域信号的音频数据转换为二维数据形式的梅尔声谱图,预训练残差网络获得一个精度较高的网络模型作为特征提取器,利用该网络模型提取音频中的深层特征,再利用随机森林对深层特征进行分类。该方法在ESC任务上识别率提升了近10%,取得了较好的分类结果。 相似文献