首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随着ChatGPT的火爆出圈,能够自动生成文本、图像、音频、视频的人工智能生成内容(AI Generated Content,AIGC)引起学术界和产业界的广泛关注。AIGC领域的进步将改变人类的工作与生活方式,特别是设计行业从业者将大幅提升内容生成类工作的效率。本文以综述的形式,简述了AIGC的发展历程,介绍了AIGC在设计行业的实际应用,同时阐释了AIGC在应用中面临的问题与挑战,并提出了解决方法与应对策略,以期促进AIGC在设计领域的应用与发展。未来,AIGC将成为设计内容生成领域的重要形式,将在包括设计在内的多个行业广泛应用。  相似文献   

2.
针对文本生成图像任务中的文本编码器不能深度挖掘文本信息,导致后续生成的图像存在语义不一致的问题,本文提出了一种改进DMGAN模型的文本生成图像方法。首先使用XLnet的预训练模型对文本进行编码,该模型在大规模语料库的预训练之下能够捕获大量文本的先验知识,实现对上下文信息的深度挖掘;然后在DMGAN模型生成图像的初始阶段和图像细化阶段均加入通道注意力模块,突出重要的特征通道,进一步提升生成图像的语义一致性和空间布局合理性,以及模型的收敛速度和稳定性。实验结果表明,所提出模型在CUB数据集上生成的图像相比原DMGAN模型,IS指标提升了0.47,FID指标降低了2.78,充分说明该模型具有更好的跨模态生成能力。  相似文献   

3.
文本生成图像是一项结合计算机视觉(CV)和自然语言处理(NLP)领域的综合性任务。以生成对抗网络(GANs)为基础的方法在文本生成图像方面取得了显著进展,但GANs方法的模型存在训练不稳定的问题。为解决这一问题,该文提出一种基于扩散Wasserstein生成对抗网络(WGAN)的文本生成图像模型(D-WGAN)。在DWGAN中,利用向判别器中输入扩散过程中随机采样的实例噪声,在实现模型稳定训练的同时,生成高质量和多样性的图像。考虑到扩散过程的采样成本较高,引入一种随机微分的方法,以简化采样过程。为了进一步对齐文本与图像的信息,提出使用基于对比学习的语言-图像预训练模型(CLIP)获得文本与图像信息之间的跨模态映射关系,从而提升文本和图像的一致性。在MSCOCO,CUB-200数据集上的实验结果表明,D-WGAN在实现稳定训练的同时,与当前最好的方法相比,FID分数分别降低了16.43%和1.97%,IS分数分别提升了3.38%和30.95%,说明D-WGAN生成的图像质量更高,更具有实用价值。  相似文献   

4.
<正>1AIGC产业的革命性转折点在2023年3月期的连载中曾经说明了,随着AIGC潮流的发展,AI模型将更为百花齐放,繁杂多样,将导致管理成本急速升高。于是AI模型的集装箱(Container)角色就出来了。在未来数年内,凡是力求掌握隐藏空间,致力于开发控制软件系统,来有效管理AI货柜(即隐藏空间)者,将成为AIGC时代的大赢家。  相似文献   

5.
基于人工智能内容生成(AIGC)技术生成文本具有道德、法律的合规性风险,需要对生成文本内容的流通进行规范和监管,因此对AIGC生成文本版权保护的迫切需求随之出现。水印技术是目前使用最广泛的数字版权保护方式。提出了一种应用于生成式因果语言模型的生成文本的水印添加技术,采用事中水印嵌入的方式在文本生成过程中隐式地嵌入文本水印特征编码,相较于传统事后水印添加技术对生成文本质量影响小,具有低感知、透明、鲁棒等优点。实验结果表明,提出的水印嵌入策略具有较好的鲁棒性,经过用户一定程度的编辑后仍旧能有效检出文本嵌入水印。与原有生成策略进行对比,所提方法与现有模型耦合度低,无须调整原有模型结构、训练策略、部署方式,不增加原有生成过程计算成本。  相似文献   

6.
为解决卷积神经网络(CNN)和循环神经网络(RNN)处理文本分类任务时,由于文本特征稀疏造成的关键特征信息丢失、模型性能不高和分类效果不佳等问题.提出一种基于多通道注意力机制的文本分类模型,首先利用字词融合的形式进行向量表示,然后利用CNN和BiLSTM提取文本的局部特征和上下文关联信息,接着以注意力机制对各通道的输出...  相似文献   

7.
周炫余  刘娟  卢笑  邵鹏  罗飞 《电子学报》2017,45(1):140-146
针对纯视觉行人检测方法存在的误检、漏检率高,遮挡目标以及小尺度目标检测精度低等问题,提出一种联合文本和图像信息的行人检测方法.该方法首先利用图像分析的方法初步获取图像目标的候选框,其次通过文本分析的方法获取文本中有关图像目标的实体表达,并提出一种基于马尔科夫随机场的模型用于推断图像候选框与文本实体表达之间的共指关系(Coreference Relation),以此达到联合图像和文本信息以辅助机器视觉提高交通场景下行人检测精度的目的.在增加了图像文本描述的加州理工大学行人检测数据集上进行的测评结果表明,该方法不仅可以在图像信息的基础上联合文本信息提高交通场景中的行人检测精度,也能在文本信息的基础上联合图像信息提高文本中的指代消解(Anaphora Resolution)精度.  相似文献   

8.
重点论述了文本信息中的知识发现及潜在关联分析技术。采用本体建模技术、信息抽取技术以及知识库上的语义推理技术等来完成并实现文本信息的关联关系发现和分析,最后给出了语义关联分析技术在文本信息处理系统中的应用,并简要描述了系统的处理流程。在信息处理领域的大数据环境下,该技术有利于信息分析人员快速获取关联线索,辅助完成信息挖掘,为指挥决策提供更全面的信息支持。  相似文献   

9.
非局部学习字典的图像修复   总被引:2,自引:0,他引:2  
李民  程建  李小文  乐翔 《电子与信息学报》2011,33(11):2672-2678
该文提出一种新的基于学习的图像修复算法。与经典的稀疏表示模型不同,该文将非局部自相似图像块统一进行联合稀疏表示,训练高效的学习字典,并使自相似块间保持相同的稀疏模式。该方法既确保自相似块投影到稀疏空间后也具有相似性,也较好地保留了自相似块间的相关性信息,更有效地建立了它们的联合稀疏关联,并将这种关联作为先验知识来指导图像的修复。该算法使用大量自然图像样本来训练初始的过完备字典,既利用了样本图像的先验知识,又充分考虑了待处理图像本身的相关信息,自适应性强。通过对自然图像进行大﹑小范围图像修复和文字去除实验,该文方法均取得不错的修复效果。  相似文献   

10.
基于模糊同质性映射的文本检测方法   总被引:2,自引:0,他引:2  
视频图像中的文本是从语义层次对视频图像内容进行描述的非常有效信息,文本检测为基于语义的图像检索提供了条件。该文提出了一种基于模糊逻辑和同质映射相结合的文本检测方法,首先利用最大信息熵准则将原始图像模糊化;然后构造基于边缘信息和纹理信息的图像同质性,并利用它将图像映射到模糊同质性空间;最后在模糊同质性空间通过纹理分析检测文本区域。与直接在图像空间域中提取特征的文本检测方法相比,该方法对复杂背景视频图像的文本检测取得了更好的效果,并且适用于多种类型的视频图像中文本的检测。  相似文献   

11.
《现代电子技术》2019,(20):48-52
网络社交平台图像包含丰富的文本信息,而文本检测是提取这些文本信息的基础。针对网络社交平台图像的特点,提出一种基于笔画宽度变换(Stroke Width Transform)的检测图像文本的方法。该方法首先预处理输入的图像,接着按照分布规则检测图像文本区域,然后根据形态规则和笔画特征规则筛除非文本区域,最后输出检测的文本区域结果。仿真实验结果表明,该方法能够准确检测网络社交平台图像文本区域,效率较好。  相似文献   

12.
陈培新  郭武 《信号处理》2017,33(8):1090-1096
经典的概率主题模型通过词与词的共现挖掘文本的潜在主题信息,在文本聚类与分类任务上被广泛应用。近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流。本文通过卷积神经网络(Convolutional Neural Network,CNN)和概率主题模型在文本主题分类上的效果对比,展示了CNN在此任务上的优越性。在此基础上,本文利用CNN模型提取文本的特征向量并将其命名为卷积语义特征。为了更好地刻画文本的主题信息,本文在卷积语义特征上加入文本的潜在主题分布信息,从而得到一种更有效的文本特征表示。实验结果表明,相比于单独的概率主题模型或CNN模型,新的特征表示显著地提升了主题分类任务的F1值。   相似文献   

13.
目前在处理医学文本实体间关系提取任务中,使用传统的词向量表示方法无法解决医学文本中的词多义性问题,加上基于长短时记忆网络对文本语义局部特征抽取不够充分,不能充分捕捉医疗文本隐藏的内部关联信息。因此,提出一种基于XLNet-BiGRU-Attention-TextCNN的医疗文本实体关系抽取模型。利用XLNet模型将输入的医疗文本转化为向量形式,接着连接双向门控循环神经网络(BiGRU)提取文本语句的长距离依赖关系,然后使用注意力机制(Attention)为特征序列分配权重,降低噪声影响,最后利用文本卷积神经网络(TextCNN)对序列进行局部特征提取并通过softmax层输出关系抽取结果。实验结果表明,本文所提模型在精确率、召回率和F值上均优于基准模型。  相似文献   

14.
使用Unicode的主要意义在于可以满足跨平台、跨语言的文本处理和转换。为了提高文本信息在传输中的安全,可采用文本的Unicode编码嵌入图像并进行图像加密的方法,由于文本信息与图像信息在计算机中的存储表达均采用二进制,将文本信息嵌入无规则的图像中,再对图像进行读取,在未知文本位置及编码结构的情况下是难以与像素信息加以区分的。实践证明使用Logistic混沌理论进行图像加密可以达到比较理想的效果,应用图像加密手段加密文本信息可以有效提高信息的安全性。  相似文献   

15.
针对场景文本识别在长距离建模时容易产生信息丢失和对低分辨率文本图像表征能力较弱的问题,提出了一种基于多模态迭代及修正的文本识别算法。本文算法的视觉模型(vision model)是由CoTNet(contextual transformer networks for visual recognition)、动态卷积注意力模块(dynamic convolution attention module,DCAM)、EA-Encoder(external attention encoder)和位置注意力机制组合而成的。其中CoTNet可以有效起到缓解长距离建模产生的信息丢失问题;DCAM在增强表征能力、专注于重要特征的同时,将重要的特征传给EA-Encoder,进而提高CoTNet和EA-Encoder之间的联系;EA-Encoder可以学习整个数据集上最优区分度的特征,捕获最有语义信息的部分,进而增强表征能力。经过视觉模型后,再经过文本修正模块(text correction model)和融合模块(fusion model)得到最终的识别结果。实验数据显示,本文所提出的算法在多个公共场景文本数据集上表现良好,尤其是在不规则数据集ICDAR2015上准确率高达85.9%。  相似文献   

16.
当前,新型计算业务如AIGC正在蓬勃发展,算力网络的发展也呈现出新的趋势与特点以满足新型业务的发展需求。重点探讨面向AIGC类新型计算业务的算力网络挑战与设计,首先介绍AIGC类业务引入算力网络的必要性,以及二者结合发展的意义和价值;其次设计了承载AIGC类业务的新型算力网络架构,最后根据目前的发展趋势和挑战,为后续研究工作提供参考。  相似文献   

17.
本文首先根据文本中各个字符的颜色相似的特性,确定已知文本块的文本的颜色,利用文本的颜色信息二值化文本图像以得到文本块中的字符数、字符的尺寸和间距;其次,根据视频图像的大小和视频的播放速度确定搜索窗口的大小,并利用文本的运动信息来预测搜索窗口的位置;第三,根据在相邻两帧中具有相同内容文本的颜色相似的特性,提出了一个可以解决脉冲噪声和部分缺损或遮挡问题的稳健匹配准则来跟踪文本块;最后,确定跟踪输出的文本的颜色、尺寸和运动方式。本文方法可以很好地跟踪平移、缩小或放大、旋转、淡入淡出和部分被遮挡的水平或倾斜排列的文本,并且可以记录文本平移、旋转和缩放的速度。  相似文献   

18.
何洋 《电视技术》2023,(11):153-155
介绍人工智能生成内容(Artificial Intelligence Generated Content,AIGC)的概念、发展历程及内涵,重点分析AIGC的技术体系及演进方向,深入探讨AIGC在广播电视领域的应用,包括在电影、新闻、电视、综艺等领域的应用,为AIGC与广播电视的深度融合应用提供参考。  相似文献   

19.
在基于一种知识工程和统计学习相结合的文本信息分类算法基础上,提出了利用文本在名片图像中的版面位置信息来辅助分类.此方法充分利用了名片版面中各种文本内容之间在图像中空间位置上的相互关系,对提高名片信息的分类准确性有显著的效果.  相似文献   

20.
基于多媒体融合的图像检索系统的实现   总被引:1,自引:0,他引:1  
提出一种融合了文本、语音、图像等信息特征的图像检索方案,并以MATLAB为平台构建了一种基于语音识别技术的新型图像检索系统.与基于文本或基于内容的图像检索系统相比,该系统既提高了检索性能,又使得人机交互更加便利.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号