首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
通过对故事可视化领域进行深入研究,提出一个完整的故事可视化系统.首先利用自然语言处理对故事脚本进行解析,自动形成场景单元及关键字,根据关键字从互联网上搜索相应的图像序列;然后提出一种改进的前景自动提取算法,并分别采用不同的过滤策略获取所需的候选前景和背景图像;最后根据用户选定的图像合成单幅场景,并采用一致性优化算法来保持场景之间的连续性与一致性.实验结果证明,该系统能够智能地辅助用户生成故事图像序列,增加其认知和创作乐趣,有效地减轻用户创作的负担和约束,而对用户本身无需任何艺术背景要求.文中工作可用于儿童认知以及导演创作等应用领域.  相似文献   

2.
随着社会的发展和技术的进步,世界范围的信息交流越来越显出更大的重要性.在人与人之间的信息交流过程中,语音和文字是最基本最重要的手段.但是,人们使用着多种不同的语言和文字,这对世界范围的信息交流形成巨大的障碍.于是,人们大力开展自动机器翻译技术的研究,让计算机来为人们作翻译工作.随着语音识别技术和机译技术的迅速发展,语音机器翻译提供了一种极为方便的使用计算机进行通信的手段,产生了巨大的社会经济效益.  相似文献   

3.
非键盘输入及其技术构成非键盘输入概念实际上并没有一个确切的定义。所谓非键盘输入是相对于键盘输入的一组文字输入技术。确切地讲,键盘是一种字符输入设备,因此我们只将键盘作为一种字符输入设备。从输入设备的角度来分类,所有不是通过键盘的输入,如鼠标、摇杆、声音采集设备、影像采集系统、数码相机、扫描仪(属于静态图像采集系统)、数字化仪、手写板、绘画板(手写板和绘画板均可以归类成特殊的数字化仪)均可认为是非键盘输入设备。从输入内容上来看,人们要向计算机输入的有文字符号、图形(动态、静态)、图像、声音和其他信号。键盘从严格意义上讲只是一个字符输入设备,非键盘输入则可以完成包括文字符号在内的所有内容。这样的区分只是把键盘作为一个独具特点  相似文献   

4.
多媒体是近年来刚刚兴起同时又是十分热门的技术,它集语音、文字、图像、动画等技术于计算机一身,极大地方便了人机之间的交流,拓宽了计算机的应用领域。 多媒体技术的最大贡献在于其改善了人机交流的环境,多媒体按信息流动方向可分解为两个方面的内容,即使用人员通过多媒体环境将信息输入计算机(多媒体输入技术),以及计算机通过多媒体环境将信息反馈给使用人员(多媒体输出技术),本文涉及后一方面的内容。  相似文献   

5.
一种新的利用多帧结合检测视频标题文字的算法   总被引:5,自引:0,他引:5  
视频中的标题文字通常在视频信息索引和检索中起到重要作用.提出了一种新的视频标题文字的检测算法.首先采用一种新的多帧结合技术来降低图像背景的复杂度,它基于时间序列对多帧图像进行最小(或最大)像素值搜索,搜索的具体方式由Sobel边缘图来决定.然后以块为单位来进行文字与非文字的分类,即用一扫描窗口对图像进行扫描,以Sobel边缘为特征,判断其是否为文字。一个2级的金字塔被用来检测不同大小的文字.最后,提出一种新的迭代的文字区域分解方法,它能够更精确地定位文字区域的边界.实验结果表明,这种文字检测算法能够取得很高的精度和召回率.  相似文献   

6.
图像和视频中的文字获取技术   总被引:6,自引:0,他引:6       下载免费PDF全文
许多图像都包含丰富的文字信息,如用作网页设计的以图像形式存在的标语和视频图像中的字幕。这些文字的自动检测、分割、提取和识别,对图像高层语义内容的自动理解、索引和检索非常有价值,因此引起国内外众多学者的研究兴趣。为使人们对该领域有一个系统的了解,并使该领域研究人员有所借鉴,在对目前国内外图像和视频中文字获取技术相关文献综合理解的基础上,综述了该领域的发展现状,同时从文字检测、抽取和文字识别两个方面,重点讨论了其主要的技术方法及应用优缺点,并结合当前面临的问题,指出今后可进一步研究的方向。  相似文献   

7.
现今医学图像往往与大型的硬件设备和复杂的软件联系在一起, 然而随着互联网技术的发展, 越来越多互联网应用的出现改变了人们对传统本地软件的依赖, 现今医学图像在互联网领域才刚刚起步, 提出了一种在浏览器中实现医学图像的三维可视化的方法, 能够通过成熟的本地医学图像平台(比如3DSlicer)获取医学图像数据, 结合HTML5以及WebGL(Web Graphics Library)来实现医学图像的三维可视化.  相似文献   

8.
虚拟现实可视化技术是一门多学科交叉技术。首先,给出了以图形图像技术为两大支柱的虚拟现实可视化技术的体系结构;进而,对图形、图像、虚拟现实和可视化技术目前取得的主要研究成果和将来的研究动向分别进行了较详尽的介绍;最后,对图形、图像、虚拟现实和可视化技术之间的内在的本质联系进行了阐述。  相似文献   

9.
随着网络通信和多媒体技术的发展,人们已不满足简单的语音和文字通信,希望集语音、文字和图像于一体的多媒体通信。视频会议系统是一种应用网络技术和音频/视频编解码技术来实现虚拟会议的多媒体通信系统,能够使地理上分散的用P在网络上通过视频、声音、文本等信息流进行交互式的交流。  相似文献   

10.
邓方 《软件世界》2004,(9):99-99
利用OCR(光学字符识别)技术,我们可以轻松实现纸质文档的电子化,大大提高工作效率。但一直以来,OCR技术几乎都要依赖扫描仪来实现文字识别的功能,而扫描仪的局限性造成了我们无法实现随时随地采集文字图像,这也成为了OCR技术广泛应用的一个巨大瓶颈。最近,北京文通信息技术有限公司推出的一款慧视视觉图像文字识别系统,将OCR技术与数码相机、DV、拍照手机、PDA等图像输入设备相结合,实现了对任意视觉图像的识别。OCR技术可以将纸质图像中的文字转换成电子文档,其识别过程可简单分为以下三个步骤:首先是文字的分割,就是将图像中的文…  相似文献   

11.
Text-overlaid images abound in product design and human–computer interfaces (e.g., greeting cards and photo slideshows that overlay texts on large background images). This study proposes computational models of perceived aesthetics appeal of text-overlaid images as a function of their white-space fractions. Four models are proposed, including Character-based Page White-Space Fraction (WCP ), Character-based Background White-Space Fraction (WCB ), Bounding Box based Page White-Space Fraction (WBP ), and Bounding Box based Background White-Space Fraction (WBB ). Two experiments, using single-spaced and double-spaced texts, were conducted to investigate the relationships between the model predictions and the perceived aesthetic appeal of text-overlaid images. The results show that the Bounding Box based Background White-Space Fraction (WBB ), defined as the area ratio between the bounding rectangle of texts and the background region of image, is most valuable in modelling the subjective aesthetic appeal. The regression curves show that the optimal WBB is close to 0.8.  相似文献   

12.
目的 目前基于卷积神经网络(CNN)的文本检测方法对自然场景中小尺度文本的定位非常困难。但自然场景图像中文本目标与其他目标存在很强的关联性,即自然场景中的文本通常伴随特定物体如广告牌、路牌等同时出现,基于此本文提出了一种顾及目标关联的级联CNN自然场景文本检测方法。方法 首先利用CNN检测文本目标及包含文本的关联物体目标,得到文本候选框及包含文本的关联物体候选框;再扩大包含文本的关联物体候选框区域,并从原始图像中裁剪,然后以该裁剪图像作为CNN的输入再精确检测文本候选框;最后采用非极大值抑制方法融合上述两步生成的文本候选框,得到文本检测结果。结果 本文方法能够有效地检测小尺度文本,在ICDAR-2013数据集上召回率、准确率和F值分别为0.817、0.880和0.847。结论 本文方法顾及自然场景中文本目标与包含文本的物体目标的强关联性,提高了自然场景图像中小尺度文本检测的召回率。  相似文献   

13.
International Journal on Document Analysis and Recognition (IJDAR) - How to precisely detect arbitrary-shaped texts in natural images has recently become a new hot topic in areas of computer vision...  相似文献   

14.
基于颜色与角点特征的图像垃圾邮件识别算法   总被引:1,自引:0,他引:1       下载免费PDF全文
万明成  耿技  程红蓉  王勇 《计算机工程》2009,35(15):209-211
垃圾邮件制造者将垃圾信息嵌入图像中,使基于文本内容的反垃圾邮件系统失效。对垃圾邮件图像的特点深入分析后,提出一种垃圾邮件图像识别算法。垃圾邮件图像多为计算机合成图像,其颜色不如自然图像丰富,且因含有大量文字导致图像中角点角度值分布呈现出一定的规律性。针对此问题选用颜色和角点特征并结合支持向量机分类算法来识别垃圾邮件图像。实验结果表明,该算法对真实垃圾邮件图像的识别精确率超过98%。  相似文献   

15.
从图像中提取文字属于信息智能化处理的前沿课题,是当前人工智能与模式识别领域中的研究热点。由于文字具有高级语义特征,对图片内容的理解、索引、检索具有重要作用,因此,研究图片文字提取具有重要的实际意义。又由于静态图像文字提取是动态图像文字提取的基础,故着重介绍了静态图像文字提取技术,总结了几种已提出的算法,并利用计算机语言学方法对提取出的文字进行后期处理,大大提高了文字提取的正确率。  相似文献   

16.
从图像中提取文字属于信息智能化处理的前沿课题,是当前人工智能与模式识别领域中的研究热点。由于文字具有高级语义特征,对图片内容的理解、索引、检索具有重要作用,因此,研究图片文字提取具有重要的实际意义。又由于静态图像文字提取是动态图像文字提取的基础,故着重介绍了静态图像文字提取技术,总结了几种已提出的算法,并利用计算机语言学方法对提取出的文字进行后期处理,大大提高了文字提取的正确率。  相似文献   

17.
The emerging digital technologies such as virtual reality (VR) provide an alternative platform for construction safety training. In order to explore how digital-driven technologies affect the effectiveness of safety training, there is a need to empirically test the differences in performance between digital 3D/VR safety training and traditional 2D/paper approach. This research conducted a performance evaluation that emphasises both the training process and learning outcomes of trainees based on researchers’ self-developed immersive construction safety training platform. Data related to physiological indicators such as skin resistance were collected to measure safety performance before and after the training. The detailed measurement indicators included nine categories (e.g., immersion, inspiration) to form a holistic list of evaluation dimensions. The findings revealed that VR-driven immersive safety training outperformed the traditional way for trainees in terms of both process and outcome-based indicators. Results confirmed that safety training was no longer constrained by understanding or memorizing 2D information (texts and images). Instead, trainees experienced a stronger sense of embodied cognition through the immersive experience and multi-sensory engagement by interacting with the VR-driven system. By engaging the theory of embodied cognition, this research provides both the empirical evidence and in-depth analysis of how immersive virtual safety training outperforms traditional training in terms of both training process and outcomes.  相似文献   

18.
Ultrasonic Doppler color imaging can provide anatomic information and simultaneously render flow information within blood vessels for diagnostic purpose. Many researchers are currently developing ultrasound image processing algorithms in order to provide physicians with accurate clinical parameters from the images. Because researchers use a variety of computer languages and work on different computer platforms to implement their algorithms, it is difficult for other researchers and physicians to access those programs. A system has been developed using World Wide Web (WWW) technologies and HTTP communication protocols to publish our ultrasonic Angle Independent Doppler Color Image (AIDCI) processing algorithm and several general measurement tools on the Internet, where authorized researchers and physicians can easily access the program using web browsers to carry out remote analysis of their local ultrasonic images or images provided from the database. In order to overcome potential incompatibility between programs and users' computer platforms, ActiveX technology was used in this project. The technique developed may also be used for other research fields.  相似文献   

19.
深度视觉生成是计算机视觉领域的热门方向,旨在使计算机能够根据输入数据自动生成预期的视觉内容。深度视觉生成使用人工智能技术赋能相关产业,推动产业自动化、智能化改革与转型。生成对抗网络(generative adversarial networks,GANs)是深度视觉生成的有效工具,近年来受到极大关注,成为快速发展的研究方向。GANs能够接收多种模态的输入数据,包括噪声、图像、文本和视频,以对抗博弈的模式进行图像生成和视频生成,已成功应用于多项视觉生成任务。利用GANs实现真实的、多样化和可控的视觉生成具有重要的研究意义。本文对近年来深度对抗视觉生成的相关工作进行综述。首先介绍深度视觉生成背景及典型生成模型,然后根据深度对抗视觉生成的主流任务概述相关算法,总结深度对抗视觉生成目前面临的痛点问题,在此基础上分析深度对抗视觉生成的未来发展趋势。  相似文献   

20.
With the advance of digitization and digital processing techniques, digital images are now easy to create and manipulate, and leave no clues of artificial evidence. There are some known digital fakery for images, e.g., computer graphics (CGs) and digital forgeries. As valid records of natural world, natural images, i.e., photographic images, are no longer believable. In this paper, a detection scheme for natural images and fake images is proposed. Features are first extracted using multiresolution decomposition and higher order local autocorrelations (HLACs). The support vector machines (SVMs) are then used to differentiate the natural and fake images. Because the inner product between features can be obtained directly without computing features, it can be integrated into SVM, and the computation complexity is decreased. Experiments show that the proposed detection scheme is effective, demonstrating that the proposed statistical features can model the differences between natural images and fake images.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号