排序方式: 共有36条查询结果,搜索用时 0 毫秒
31.
为了在语音转换过程中充分考虑语音的帧间相关性,提出了一种基于卷积非负矩阵分解的语音转换方法.卷积非负矩阵分解得到的时频基可较好地保存语音信号中的个人特征信息及帧间相关性.利用这一特性,在训练阶段,通过卷积非负矩阵分解从训练数据中提取源说话人和目标说话人相匹配的时频基.在转换阶段,通过时频基替换实现对源说话人语音的转换.相对于传统方法,本方法能够更好地保存和转换语音帧间相关性.实验仿真及主、客观评价结果表明,与基于高斯混合模型、状态空间模型的语音转换方法相比,该方法具有更好的转换语音质量和转换相似度. 相似文献
32.
,H.264标准中亮度分量的9种帧内预测模式的序号是预先设定的,这对于具体的视频序列并不是最优的.为了进一步提高帧内编码的效率,通过对帧内预测编码算法的深入研究,利用相邻宏块间的纹理相关性和预测模式的方向性,提出一种新的帧内预测模式编码算法.通过在和当前编码块纹理相关性最大的区域中动态的统计出各个预测模式的使用概率,然后根据预测模式使用概率的大小来计算当前块的最可能编码模式.实验结果表明:与H.264参考模型JM86相比,该算法可以显著提高当前图像块的最优预测模式和最可能预测模式的匹配概率,使预测模式信息编码所需要的比特数平均减少5%~7%,从而降低了编码后的码率,而峰值信噪比(PSNR)基本保持不变. 相似文献
33.
针对运动目标鲁棒跟踪问题,提出一种基于离线字典学习的视频目标跟踪鲁棒算法。采用字典编码方式提取目标的局部区域描述符,随后通过训练分类器将跟踪问题转化为背景和前景分类问题,最终通过粒子滤波对物体位置进行估计实现跟踪。该算法能够有效解决由于光照变化、背景复杂、快速运动、遮挡产生的跟踪困难。经过不同图像序列的实验对比表明,与现有方法相比,本文算法的鲁棒性较高。 相似文献
34.
骨导麦克风是一种非声传感器,由于其语音传输通道天然屏蔽了周围环境噪声的影响,因而具有很强的抗噪性能,已在多种强噪声环境的语音通信中发挥重要作用。由于人体传导的低通性能以及传感器工艺水平的限制等,骨导语音听起来比较沉闷、不够清晰,增强骨导语音对进一步改善强噪声环境下的语音通信质量以及骨导产品的推广具有重要意义。骨导麦克风语音盲增强在语音增强阶段仅拥有骨导语音信息,相比于融合带噪气导语音的增强,这种直接的增强方式具有更广泛的应用前景。本文在分析骨导语音特点的基础上,梳理总结了无监督频谱扩展法、均衡法和谱包络转换法等3种骨导麦克风语音盲增强方法,并展望了骨导麦克风语音盲增强研究的发展方向。 相似文献
35.
知识蒸馏能有效地将教师网络的表征能力迁移到学生网络,无须改变网络结构即可提升网络的性能.因此,在性能优异的目标分割主干网HRNet(High-Resolution Net)中构建自蒸馏学习模型具有重要意义.针对HRNet并行结构中深层与浅层信息充分融合导致直接蒸馏难以实现的挑战,本文提出一种基于多尺度池化金字塔的结构化自蒸馏学习模型:在HRNet分支结构中引入多尺度池化金字塔表示模块,提升网络的知识表示和学习能力;构造“自上而下”和“一致性”两种蒸馏模式;融合交叉熵损失、KL(Kullback-Leibler)散度损失和结构化相似性损失进行自蒸馏学习.在四个包含显著性目标和伪装目标的分割数据集上的实验表明:本文模型在不增加资源开销的前提下,有效提升了网络的目标分割性能. 相似文献
36.
目标检测在无人驾驶、监控安防等领域应用广泛,但研究发现目标检测系统易受对抗样本影响导致性能下降,对其应用安全造成了巨大危险。当前的目标检测对抗攻击方法大多针对某一类目标检测模型进行攻击,普遍存在迁移能力弱的问题。为解决上述问题,基于生成对抗网络提出了一种目标检测对抗攻击方法,该方法针对检测模型中常用的非极大值抑制机制和检测模型的特征图关注区域设计了位置回归攻击损失,通过该损失优化攻击,能够使模型的非极大值抑制机制失效,引导生成的候选框偏离预测的关注区域,导致模型预测失败。在VOC数据集上进行实验,该方法能够有效攻击Faster-RCNN、SSD300、SSD512、Retinanet、YOLOv5、One-Net等多种类型的目标检测模型,有效提升了目标检测攻击方法的迁移能力。 相似文献