首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
李冠彬  张锐斐  刘梦梦  刘劲  林倞 《软件学报》2023,34(12):5905-5920
视频描述技术旨在为视频自动生成包含丰富内容的文字描述,近年来吸引了广泛的研究兴趣.一个准确而精细的视频描述生成方法,不仅需要对视频有全局上的理解,更离不开具体显著目标的局部空间和时序特征.如何建模一个更优的视频特征表达,一直是视频描述工作的研究重点和难点.另一方面,大多数现有工作都将句子视为一个链状结构,并将视频描述任务视为一个生成单词序列的过程,而忽略了句子的语义结构,这使得算法难以应对和优化复杂的句子描述及长句子中易引起的逻辑错误.为了解决上述问题,提出一种新颖的语言结构引导的可解释视频语义描述生成方法,通过设计一个基于注意力的结构化小管定位机制,充分考虑局部对象信息和句子语义结构.结合句子的语法分析树,所提方法能够自适应地加入具有文本内容的相应时空特征,进一步提升视频描述的生成效果.在主流的视频描述任务基准数据集MSVD和MSR-VTT上的实验结果表明,所提出方法在大多数评价指标上都达到了最先进的水平.  相似文献   

3.
杜云鹏 《计算机工程》2001,27(5):141-143
二维网格压缩技术是MPEG-4标准的一个核心实验,使用分层网络技术可以提高网络跟踪的效果,提出了一种新的分层网格简化技术,进一步提高了网格的跟踪效果。  相似文献   

4.
现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(SDN)。在此基础上,通过ViT模型对静态和动态视觉特征进行全局编码,并与SDN提取的语义特征进行注意力融合,采用语义长短期记忆网络对融合特征进行解码,生成视频对应的描述文本。通过引入视频中的语义特征能够引导模型生成更符合人类习惯的描述,使生成的描述更具可读性。在MSR-VTT数据集上的测试结果表明,该模型的BLEU-4、METEOR、ROUGE-L和CIDEr指标分别为44.8、28.9、62.8和51.1,相比于当前主流的视频内容描述模型ADL和SBAT,提升的得分总和达到16.6和16.8。  相似文献   

5.
注意力机制和视频语义嵌入使得视频描述任务取得了显著的提升,为更好地利用时序动态特征和语义信息,提出一种基于X-Linear的语义嵌入视频描述算法(X-Linear Semantic Embedding Network,XLSNet).该算法以基于编码解码器网络为基础,使用X-Linear注意力模块对视频特征进行编码,该...  相似文献   

6.
H.264在分层网络视频监控系统中的应用研究   总被引:1,自引:0,他引:1  
随着数字图像压缩技术的发展,数字监控系统的应用已经成熟,基于数字图像压缩技术的视频监控系统得到了广泛应用。而数字监控系统也随着图像压缩技术的发展在更新换代,H264是一种新近成熟的、高效的视频压缩标准,它有着比以往压缩标准压缩效率更高,更能适应网络的特点。在深入分析了H264视频压缩技术的基础上,设计和实现了一套实用的分层网络视频监控系统。  相似文献   

7.
随着医疗成像技术的不断提升,放射科医师每天要撰写的医学报告也与日俱增。深度学习兴起后,基于深度学习的医学图像描述技术用于自动生成医学报告,取得了显著效果。本文全面整理了近年来深度医学图像描述方向的论文,包括这一领域的最新方法、数据集和评价指标,分析了它们各自的优劣,并以模型结构为线索予以介绍,是国内首篇针对医疗图像描述任务的综述。现今的深度医疗图像描述技术主要以编码器—解码器结构为基础进行拓展,包括但不局限于加入检索方法、模板匹配方法、注意力机制、强化学习和知识图谱等方法。检索和模板匹配方法虽然简单,但由于医学报告的特殊性仍在本任务上有不错的效果;注意力机制使模型产生报告时能关注图像和文本的某一部分,已经被几乎所有主流模型所采用;强化学习方法突破了医疗图像描述任务中梯度下降训练法与离散的语言生成评价指标不匹配的瓶颈;知识图谱方法则融合了人类医生对于疾病的先验知识,有效提高了生成报告的临床准确性。此外,Transformer等新型结构也正越来越多地取代循环神经网络(recurrent neural network,RNN)甚至卷积神经网络(convolutional neural network,CNN)的位置成为网络主干。本文最后讨论了目前深度医疗图像描述仍需解决的问题以及未来的研究方向,希望能推动深度医疗图像描述技术真正落地。  相似文献   

8.
9.
为解决基于编码器-解码器的视频描述方法中存在忽略特征语法分析,造成描述语句语法结构不清晰的问题,提出一种基于场景表示中对象特征语法分析的视频描述方法。编码阶段将视频的2D、C3D特征、对象特征和自注意力机制相结合,构建视觉场景表示模型,描述视觉特征间的依赖关系;构建视觉对象特征语法分析模型,分析对象特征在描述语句中的语法成分;解码阶段结合语法分析结果和LSTM网络模型,输出视频描述语句。所提方法在MSVD和MSR-VTT数据集进行实验,结果表明,该方法在不同评价指标方面性能较好,视频描述语句的语法结构清晰。  相似文献   

10.
深度学习的迅速发展使得图像描述效果得到显著提升,针对基于深度神经网络的图像描述方法及其研究现状进行详细综述.图像描述算法结合计算机视觉和自然语言处理的知识,根据图像中检测到的内容自动生成自然语言描述,是场景理解的重要部分.图像描述任务中,一般采用由编码器和解码器组成的基本架构.改进编码器或解码器,应用生成对抗网络、强化...  相似文献   

11.
刘忠  刘旄光 《微机发展》1997,7(2):57-59
本文讨论了VisualBasic中的消息传递机制以及如何在Windows的任务内及任务间进行数据交换.  相似文献   

12.
鲁书喜 《计算机工程》2004,30(20):157-158,176
视频泵技术是视频服务器设计中的关键技术之一。MPEG-4视频泵的Transcoding(转换编码)机制是指在视频服务过程中,将用户请求的其它格式的视频数据实时地转换为MPEG-4视频格式。该文在MPEG-4标准的技术框架下,对MPEG-4视频泵功能进行了扩充设计,使其具有Transcoding功能,并只在首次点播服务时实现转换编码和存储。具有Transcoding功能的MPEG-4视频泵在视频服务器中的应用,是实现MPEG-4视频服务的技术核心之一。  相似文献   

13.
本文论述了通过在油田企业部署网络视频会议系统,实现了油田企业内部通讯管理信息化,不仅节约了能源、成本,还大大提高了工作效率。  相似文献   

14.
视频结构化描述是对一种视频内容信息提取和应用的技术,它对视频内容按照语义关系,采用时空分割、特征提取、对象识别等处理手段,组织成可供计算机和人理解的文本信息的技术。本文介绍基于该技术的室内场景描述系统方案,系统实现对室内场景的描述以及相关描述数据的存储和分发。结果表明经过结构化描述的视频可提高应用效率。  相似文献   

15.
王晖  沙基昌  孙晓  陶钧 《计算机仿真》2006,23(12):148-152
针对MPEG-4 FGS可伸缩的视频流量,采用马尔可夫链调制的一阶自回归方法对其统计特性进行建模,通过与Trace流量的仿真结果对比,证明了该模型的有效性。在此基础上,提出了基于FGS流量模型的层次化速率控制方法,在NS-2中将该方法与三种典型的CBR层次流量模型方法对分层视频组播RLM协议性能的影响进行了仿真实验对比。仿真结果表明:采用CBR模型来模拟MPEG-4 FGS层次流量对RLM协议进行性能仿真评价存在较大的误差,采用所提出的基于FGS流量模型的层次化速率控制方法对自适应视频组播协议的性能进行仿真具有更好的精确性。  相似文献   

16.
研究了COM组件对象模型和流媒体技术之后 ,在Microsoft提出的用于开发本地视频应用的Di rectShow软件体系结构基础上 ,提出了一种针对网络视频应用的程序设计模式 ,并详细讨论了在用该设计模式实现数字视频直播软件中的关键技术  相似文献   

17.
语义视频检索的现状和研究进展   总被引:9,自引:0,他引:9  
概述了图像的可视化特征如颜色、纹理、形状和运动信息,时空关系分析,以及多特征目标提取和相似度量度;分析了视频语义的提取,语义查询、检索;探讨了视频语义检索的性能评估,存在的问题和发展方向。  相似文献   

18.
孟驰 《现代计算机》2007,(9):130-131
介绍港口码头的特点,研究网络视频监控系统的功能特点及组成原理,展望了在港口码头实施基于网络的视频监控系统的应用及发展前景.  相似文献   

19.
Multicast-based video conference is a representative application in advanced network. In multi-point video conference using multicast can get better efficiency facilitated by inner-group broadcast mechanism. In the application, the multicast-based network resources assignment, management and security should be considered together. This paper presents a framework model of multicast-based video conferencing application with three layers. And a practical multicast-based video conferencing is implemented in CERNET(China Education and Research Network) backbone. The practice is valuable for the development of multicast-based video conferencing application in China.  相似文献   

20.
视频监控系统对于保障人们日常生活和生产安全具有重要意义,文章详细介绍了在VisualStudio2005平台下一套远程视频监控系统的设计与实现过程,该系统将传统的监控系统与现代网络技术以及多媒体技术有机的结合起来,具有一定的先进性与实用性。实验表明,该系统在监控终端能接收到流畅清晰的监控图像。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号