排序方式: 共有32条查询结果,搜索用时 9 毫秒
1.
2.
视频中异常事件所体现的时空特征存在着较强的相关关系.针对视频异常事件发生的时空特征相关性而影响检测性能问题,提出了基于时空融合图网络学习的视频异常事件检测方法,该方法针对视频片段的特征分别构建空间相似图和时间连续图,将各片段对应为图中的节点,考虑各节点特征与其他节点特征的Top-k相似性动态形成边的权重,构成空间相似图;考虑各节点的m个时间段内的连续性形成边的权重,构成时间连续图.将空间相似图和时间连续图进行自适应加权融合形成时空融合图卷积网络,并学习生成视频特征.在排序损失中加入图的稀疏项约束降低图模型的过平滑效应并提升检测性能.在UCF-Crime和ShanghaiTech等视频异常事件数据集上进行了实验,以接收者操作曲线(receiver operating characteristic curve, ROC)以及曲线下面积(area under curve, AUC)值作为性能度量指标.在UCF-Crime数据集下,提出的方法在AUC上达到80.76%,比基准线高5.35%;在ShanghaiTech数据集中,AUC达到89.88%,比同类最好的方法高5.44%.实验结果表明:所提出的方法可有效提高视频异常事件检测的性能. 相似文献
3.
现有的视觉词典构建方法一般是将多个特征构成整个向量并通过聚类形成视觉词典,这种方法在视觉聚类的过程中只考虑了特征的整体相似性而忽略了不同特征对构建视觉词典的影响。提出了一种基于Dempster-Shafer(D-S)证据理论的多特征融合的视觉词典构建方法。该方法应用证据理论融合不同特征的视觉相似性,构造出更加精确的视觉词典。在证据理论的基础上,使用两种特征实现了对视觉词典的再分,使得相似的特征更好地集中在一类中。与传统视觉词典构建方法相比,本文方法获得了更好的结果。应用以上视觉词典构造方法并将之应用于分类实验,在支持向量机与朴素贝叶斯分类器上取得的分类实验结果表明,应用本文方法构建的视觉词典能有效提高视觉词典的精确度,分类效果得到了很大的提高。 相似文献
4.
5.
在混合声音事件检测任务中,不同事件的声音信号相互混杂,从混合语音信号中提取的全局特征无法很好地表达每种单独的事件,导致当声音事件数量增加或者环境变化时,声音事件检测性能急剧下降。目前已存在的方法尚未考虑环境变化对检测性能的影响。鉴于此,文中提出了一种基于多任务学习的环境辅助的声音事件检测模型(Environment-Assisted Multi-Task,EAMT),该模型主要包含场景分类器和事件检测器两大核心部分,其中场景分类器用于学习环境上下文特征,该特征作为事件检测的额外信息与声音事件特征融合,并通过多任务学习方式来辅助声音事件检测,以此提高模型对环境变化的鲁棒性及多目标事件检测的性能。基于声音事件检测领域的主流公开数据集Freesound以及通用性能评估指标F1分数,将所提模型与基准模型(Deep Neural Network,DNN)及主流模型(Convolutional Recurrent Neural Network,CRNN)进行对比,共设置了3组对比实验。实验结果表明:1)相比单一任务的模型,基于多任务学习的EAMT模型的场景分类效果和事件检测性能均有所提升,且环境上下文特征的引入进一步提升了声音事件检测的性能;2)EAMT模型对环境变化具有更强的鲁棒性,在环境发生变化时,EAMT模型事件检测的F1分数高出其他模型2%~5%;3)在目标声音事件数量增加时,相比其他模型,EAMT模型的表现依旧突出,在F1指标上取得了2%~10%的提升。 相似文献
6.
Ad hoc无线网络中的组播路由协议 总被引:4,自引:0,他引:4
由固定网络、基础结构移动网络和非基础结构无线网络组成的集成网络将成为未来互联网发展的趋势。同时,面向组计算和组通信的需求不断增长,要求未来的集成网络能为用户提供组播通信的功能。Adhoc无线网络是非基础结构无线网络的典型代表,具有带宽有限、拓扑结构易变和电池能源有限的特点,这些特性使得未来集成网络实现组播通信具有一定的挑战性。该文在分析Adhoc无线网络基本特性的基础上,综合评述了新近的Adhoc网络组播路由协议的研究现状,并对几种典型的Adhoc网络组播路由协议的特点进行了分类分析和比较,最后讨论了Adhoc无线网络组播路由协议的发展趋势和挑战。 相似文献
7.
针对声音突发特征(笑声、哭声、叹息声等,称之为功能性副语言)携带大量情感信息,而包含这类突发特征的语句由于特征突发性的干扰整体情感识别率不高的问题,提出了融合功能性副语言的语音情感识别方法。该方法首先对待识别语句进行功能性副语言自动检测,根据检测结果将功能性副语言从语句中分离,从而得到较为纯净的两类信号:功能性副语言信号和传统语音信号,最后将两类信号的情感信息使用自适应权重融合方法进行融合,从而达到提高待识别语句情感识别率和系统鲁棒性的目的。在包含6种功能性副语言和6种典型情感的情感语料库上的实验表明:该方法在与人无关的情况下得到的情感平均识别率为67.41%,比线性加权融合、Dempster-Shafer(DS)证据理论、贝叶斯融合方法分别提高了4.2%、2.8%和2.4%,比融合前平均识别率提高了8.08%,该方法针对非特定人语音情感识别具有较好的鲁棒性及识别准确率。 相似文献
8.
针对语句之间的情感存在相互关联的特性,本文从声学角度提出了上下文动态情感特征、上下文差分情感特征、上下文边缘动态情感特征和上下文边缘差分情感特征共四类268维语音情感上下文特征以及这四类情感特征的提取方法,该方法是从当前情感语句与其前面若干句的合并句中提取声学特征,建立上下文特征模型,以此辅助传统特征所建模型来提高识别率.最后,将该方法应用于语音情感识别,实验结果表明,加入新的上下文语音情感特征后,六类典型情感的平均识别率为82.78%,比原有特征模型的平均识别率提高了约8.89%. 相似文献
9.
针对现有的语音增强方法对语谱图特征关联信息表达有限和去噪效果不理想的问题,提出一种双复数卷积注意聚合递归网络(DCCARN)的语音增强方法。首先,建立双复数卷积网络,对短时傅里叶变换后的语谱图特征进行两分支信息编码;其次,将两分支中编码分别使用特征块间和特征块内注意力机制对不同的语音特征信息进行重标注;再次,使用长短期记忆(LSTM)网络处理长时间序列信息,并用两解码器还原语谱图特征并聚合这些特征;最后,经短时逆傅里叶变换生成目标语音波形,以达到抑制噪声的目的。在公开数据集VBD(Voice Bank+DMAND)和加噪的TIMIT数据集上进行的实验的结果表明,与相位感知的深度复数卷积递归网络(DCCRN)相比,DCCARN在客观语音感知质量指标(PESQ)上分别提升了0.150和0.077~0.087。这验证了所提方法能更准确地捕获语谱图特征的关联信息,更有效地抑制噪声,并提高语音的清晰度。 相似文献
10.
情感语音合成作为语音合成的一个重要分支,在人机交互领域得到了广泛的关注。如何获得更好的情感嵌入并有效地将其引入到语音合成声学模型中是目前主要存在的问题。表达性语音合成往往从参考音频中获得风格嵌入,但只能学习到风格的平均表示,无法合成显著的情感语音。该文提出一种基于条件变分自编码器的端到端情感语音合成方法(Conditional Duration-Tacotron,CD-Tacotron),该方法在Tacotron2模型的基础上进行改进,引入条件变分自编码器从语音信号中解耦学习情感信息,并将其作为条件因子,然后通过使用情感标签将其编码为向量后与其他风格信息拼接,最终通过声谱预测网络合成情感语音。在ESD数据集上的主观和客观实验表明,与目前主流的方法GST-Tacotron和VAE-Tacotron相比,该文提出的方法可以生成更具表现力的情感语音。 相似文献