共查询到19条相似文献,搜索用时 98 毫秒
1.
视频技术的广泛应用带来海量的视频数据,仅依靠人力对监控视频中的异常进行检测是不太可能的。异常行为的自动化检测在公共安全等领域的地位极其重要。提出一种综合考虑目标特性和时空上下文的异常检测方法,该方法利用光流纹理图描述移动物体的刚性特征,建立基于隐马尔可夫模型HMM的时间上下文异常检测模型。在此基础上,提取异常目标的Radon特征,以支持向量机SVM的异常预分类结果为基础,通过HMM建立异常场景的空间上下文分类模型。该模型在公共数据集UCSD PED2上进行了实验验证,结果表明,本算法不仅在异常检测方面优于已有算法,而且还能给出异常分类。 相似文献
2.
提出了一种基于隐马尔可夫模型的入侵场景构建方法,实现自动地从大量低级的入侵检测告警信息中构建出更高层次的入侵场景的目的。为了简化处理过程,对数据流采用两次抽象描述和一次回溯处理过程完成对入侵场景的构建,在DARPA2000测试数据集上的实验表明该方法是有效的。 相似文献
3.
视频数据中的音频流包含了丰富的语义信息.在基于内容的视频检索中,对音频信息的分析是不可分割的一部分.本文主要讨论基于内容的音频场景分割,分析各种音频特征及提取方法,并在此基础上提出一种新的音频流分割方法,根据六种音频类型(语音、音乐、静音、环境音、纯语音、音乐背景下的语音和环境音背景下的语音)的音频特征对视频数据中的音频流分割音频场景.实验证明该方法是有效的,在保证一定的分割精度的同时,准确率和查全率都得到了较大的提高. 相似文献
4.
音频场景分析技术对机器自动感知环境特征具有重要的意义。考虑到Mel频率倒谱系数MFCC(Melfrequen-cycepstralcoefficient)在一定程度上可以模拟人耳的听觉感知特性,因此,提出用MFCC作为音频识别特征,通过隐马尔可夫模型进行音频场景分析的方法,该方法对7种典型场景的识别率在90%以上。 相似文献
5.
6.
7.
提出了一个兼具实时性和鲁棒性的短视频拷贝检测框架,并以长视频中的广告检测为应用进行研究.框架主要分为两个部分:1.基于音频匹配的短视频拷贝检测;2.基于图像的边界精确定位.第一阶段从原始视频中获得声谱图,并进一步地提取出音频特征并在音频库中寻找匹配;在第二阶段,对检测到的视频片段进行合并,然后利用视频片段在边界处附近的图像特征,对边界片段进行精确定位.实验结果显示,准确率高达99%,取得了很好的效果. 相似文献
8.
9.
提出了一种规则和隐马尔可夫模型相结合的音频分层分类算法,首先利用规则将新闻节目中的音频分为静音、语音和音乐三类,然后采用隐马尔可夫模型进一步将语音和音乐细分为男主持人语音、女主持人语音、交替报道、独白语音、现场语音和音乐六类。实验结果表明,男主持人语音、女主持人语音以及音乐的分类效果最好,查准率和查全率均可达90%以上;交替报道的分类性能最差,查准率为57.5%,查全率为79.3%;其他类别的分类性能居中,在70%~90%左右。与同类算法相比,该算法分类性能较高。 相似文献
10.
针对造假成本低、不易察觉的音频场景声替换的造假样本检测问题,提出了基于ResNet的造假样本检测算法。该算法首先提取音频的常数Q频谱系数(CQCC)特征,之后由残差网络(ResNet)结构学习输入的特征,结合网络的多层的残差块以及特征归一化,最后输出分类结果。在TIMIT和Voicebank数据库上,所提算法的检测准确率最高可达100%,错误接收率最低仅为1.37%。在现实场景下检测由多种不同录音设备录制的带有设备本底噪声以及原始场景声音频,该算法的检测准确率最高可达99.27%。实验结果表明,在合适的模型下利用音频的CQCC特征来检测音频的场景替换痕迹是有效的。 相似文献
11.
Silvia Pfeiffer Rainer Lienhart Wolfgang Efflsberg 《Multimedia Tools and Applications》2001,15(1):59-81
Determining automatically what constitutes a scene in a video is a challenging task, particularly since there is no precise definition of the term scene. It is left to the individual to set attributes shared by consecutive shots which group them into scenes. Certain basic attributes such as dialogs, settings and continuing sounds are consistent indicators. We have therefore developed a scheme for identifying scenes which clusters shots according to detected dialogs, settings and similar audio. Results from experiments show automatic identification of these types of scenes to be reliable. 相似文献
12.
基于VFW的远程专家会诊系统中的实时音视频捕获 总被引:2,自引:0,他引:2
本文介绍了利用Video for Windows库函数来实现远程专家会诊系统设计中音频、视频采集的一些关键技术细节。系统在小范围内进行了初步实验。实验结果表明,该系统能够实现对远程专家会诊系统中病人客户端音频、视频数据的采集和记录,通过实时传输,辅助医生进行诊断分析。但系统仍然存在一些不足,需要对系统的软硬件进行改进,以提高系统性能,从而适应临床应用的需要,扩大系统应用范围,这将是我们下一步工作的重点。 相似文献
13.
14.
近年来在大词汇连续语音识别的研究取得了长足的进步,隐马尔柯夫模型(HMM)是连续语音识别的核心部分。但是HMM对语音信号的描述不完善,为此人们提出了很多替代模型,其中一类将语音信号描述为长度随机的特征矢量序列,称为随机分段模型(Stochastic Segment Models),简称为分段模型(SM)。该文将首先阐述分段模型的原理,并将分段模型和隐马尔柯夫模型进行比较,其次给出基于分段模型的识别和模型训练算法,最后给出实验结果并进行了讨论。 相似文献
15.
音频分割是音频分析与检测应用的基础,也是多媒体数据分析领域中的一个十分重要和困难的问题。目前大多数传统的音频流分割方法普遍存在虚假分割点过多、运算量太大、误检与漏检率过高等缺点。为了提高分割性能,有效降低误检率和漏检率,提出关于定长窗分层检测的音频分割算法,采用定长窗滑动遍历音频流,窗内自顶向下分层次地计算检测跳变点,最后用局部极值判定方法验证检测到的候选跳变点。实验结果证明,同传统的混合分割算法相比,处理速度得到大幅提高的同时,跳变点的召回率提高7.1%,准确率达92%。 相似文献
16.
1.引言面对日益庞大的信息量,如何有效地检索到感兴趣的内容是至关重要的。新闻视频、音频(包括电视、广播)与文字报道相比,更为生动,表达更为丰富,但也有数据量大、难以组织、索引、检索等缺点。这主要体现在两方面; 文本有标题、段等明显的辅助标记,而视频、音频则没有。一般的浏览工具只有播放、快进、快退、拖动定位等简单手段。这对于几十、几百小时,而且还在日益增长的视频、音频数据库,是远远不能满足要求的。 相似文献
17.
18.
基于Vega Prime的视景仿真技术研究与应用 总被引:9,自引:4,他引:9
文章针对Vega Prime视景仿真技术相对于Vega的改进之处,设计了基于Vega Prime的视景仿真框架,重点研究了四个方面内容:运动模型和仿真对象的特点及两者之间的驱动关系、坐标系统和不同坐标系之间的转换机制、碰撞检测器的原理和碰撞检测的方法、用于模拟环境效果的”天历表模型”和模拟特殊效果的粒子系统等等。论文解决了基于Vega Prime的视景仿真技术涉及的诸多关键技术,为Vega Prime在实践中的有效应用打下良好基础。最后,论文还分析了基于Vega Prime的场景漫游过程,并把文章研究的相关理论应用到实践。 相似文献
19.
视频监控已经成为当今火灾防范的主要方法。视频火焰算法层出不穷,但多为训练各种分类器做最后的分类,这需要提前准备大量相关的视频火焰样本来做训练,在视频火焰样本不够的情况下往往不能达到很高的检测率。本文提出一种基于超像素分割并结合闪频特征进行判断识别的方法。首先在Lab颜色空间上利用超像素分割方法将待检测图像分割出近似均匀的若干个小区域,并以其形心点代表一个超像素,结合RGB颜色空间与Lab颜色空间中的静态特征,根据提出的一定规则提取出火焰候选区域,最终利用此区域内提取的闪频特征判别其是否为火焰。实验证明,该算法在样本较少的情况下检测率较高。 相似文献