期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

苗北辰郭为安汪镭《智能系统学报》2019,14(1):158-164

音乐生成是一种使用算法来生成音乐序列的研究。本文针对音乐样本特征提取以及自动作曲问题提出了一种基于音乐隐式特征和循环神经网络（recurrent neural network, RNN）的多声部音乐生成算法。该方法通过使用栈式自编码器对多声部音乐序列每个时间步的音符隐式特征进行提取,结合长短期记忆循环神经网络（long short-term memory, LSTM）,以序列预测的方式搭建了基于隐式特征的音乐生成模型。仿真结果表明,该音乐生成算法在使用相同风格的音乐数据训练后,得到的模型可以生成旋律与和弦匹配较好的多声部音乐数据。相似文献

2.

使用孪生注意力机制的生成对抗网络的研究

武随烁杨金福单义许兵兵《计算机科学与探索》2020,14(5):833-840

生成对抗网络(GAN)能够生成逼真的图像,已成为生成模型中的一个研究热点。针对生成对抗网络无法有效提取图像局部与全局特征间依赖关系以及各类别间的依赖关系,提出一种用于生成对抗网络的孪生注意力模型(TAGAN)。以孪生注意力机制为驱动,通过模拟局部与全局特征间的依赖关系以及各类别间依赖关系,对真实自然图像建模,创建逼真的非真实图像。孪生注意力机制包含特征注意力模型和通道注意力模型,特征注意力模型通过有选择地聚合特征,学习相似特征间的关联性,通道注意力模型通过整合各通道维度的相关特征,学习各通道的内部依赖关系。在MNIST、CIFAR10和CelebA64数据集上验证了所提出模型的有效性。相似文献

3.

变分自编码器模型综述

下载免费PDF全文

翟正利梁振明周炜孙霞《计算机工程与应用》2019,55(3):1-9

变分自编码器（VAE）作为深度隐空间生成模型的一种，近年来其表现性能取得了极大的成功，尤其是在图像生成方面。变分自编码器模型作为无监督式特征学习的重要工具之一，可以通过学习隐编码空间与数据生成空间的特征映射，进而在输出端重构生成输入数据。梳理了传统变分自编码器模型及其衍生变体模型的发展与研究现状，并就此做了总结和对比，最后分析了变分自编码器模型存在的问题与挑战，并就可能的发展趋势做了展望。相似文献

4.

基于生成对抗网络的多属性人脸图像生成

张皓周凤《计算机与数字工程》2021,49(8):1642-1646,1701

人脸图像生成是计算机图形学与计算机视觉领域中的重要研究方向.但在多属性人脸生成问题上,传统模型存在两个不足,一是控制生成人脸图片的属性时,不能有效地保持图片特征;二是现有的条件式生成对抗网络由于数据集应用不灵活,造成在不平衡数据上进行多属性人脸生成时表现不佳.针对这些不足,论文提出基于特征保持的条件生成对抗网络,针对第一类问题提出基于类激活映射的损失惩罚项,针对第二类问题提出了通过改变潜在空间表示来控制图片属性的方法.通过实验验证,该模型可以有效的生成多属性的人脸,和传统模型相比,在生成不同属性人脸时更有效地保持了特征,并且可以更灵活地利用无标记数据. 相似文献

5.

基于属性分解融合的可控人脸图像合成算法

梁鸿陈秋实邵明文《计算机工程与应用》2023,59(4):208-215

在现实生活中，人脸图像受隐私或安全因素的限制难以直接采集，因此可以考虑采用图像生成方法。当使用生成对抗网络进行图像生成时，容易出现分辨率低、边缘模糊、身份信息特征丢失等问题。针对上述问题，提出了一种新的人脸特征生成模型：通过将关键信息作为独立编码嵌入隐式空间，再与全局特征进行融合插值实现对人脸关键特征的可控生成；引入改进的注意力模块，在生成过程中关注局部特征和全局特征的相关性；将色差损失和人脸分量损失联合引入整体损失函数中，负责约束像素颜色和人脸纹理特征。该算法可以在人脸局部区域生成自然真实的外观特征，保留原始身份信息，并生成平滑的面部轮廓。使用预处理后的CelebA数据集的实验表明，该算法在主观视觉效果上有显著提升，同时与现有方法相比在PSNR和SSIM上有稳定的提升。相似文献

6.

基于双分支特征融合的医学报告生成方法

沈秀轩吴春雷冯叶棋程铭张俊三朱杰《计算机工程》2023,(6):274-283+291

医学图像的全局特征在基于深度学习的医学影像报告自动生成任务中发挥着重要作用,传统方法通常仅使用单分支卷积神经网络提取图像语义特征,注重局部细节特征的提取,但缺乏对医学图像全局特征的关注。提出一种新的医学影像报告生成方法 DBFFN,基于双分支特征融合,结合卷积神经网络与视觉Transformer各自在图像特征提取上的优势,分别提取给定医学图像的全局特征和局部特征,在计算图像全局关系的同时关注局部细微的语义信息。针对医学图像的特征融合问题,设计一种多尺度特征融合模块,对来自两个分支的图像特征进行自适应尺度对齐,并结合矩阵运算方法和空间信息增强方法有效融合全局特征与局部特征内部包含的语义信息。在IU-X-Ray数据集上的实验结果表明,DBFFN方法的BLEU-1～BLEU-4,METEOR,ROUGE-L指标平均值分别为0.496,0.331,0.234,0.170,0.214,0.370,优于HRNN、HRGR、CMAS-RL等方法,在医学影像报告自动生成任务上具有有效性。相似文献

7.

基于图注意力网络的全局图像描述生成方法

隋佳宏毛莺池于慧敏王子成平萍《计算机应用》2023,(5):1409-1415

相似文献

8.

全局—局部特征优化的时尚服饰搭配

下载免费PDF全文

汪芸竹刘骊付晓东刘利军黄青松《中国图象图形学报》2023,28(4):1104-1118

目的由于现有时尚服饰搭配方法缺乏服饰图像局部细节的有效特征表示,难以对不同服饰间的局部兼容性进行建模,限制了服饰兼容性学习的完备性,导致时尚服饰搭配的准确率较低。因此,提出一种全局—局部特征优化的时尚服饰搭配方法。方法首先,利用不同卷积网络提取时尚服饰的图像和文本特征作为全局特征,同时在卷积网络基础上构建局部特征提取网络,提取时尚服饰图像的局部特征;然后,基于图网络和自注意力机制构建全局—局部兼容性学习模块,通过学习不同时尚服饰全局特征间和局部特征间的交互关系,并定义不同时尚服饰的权重,进行服饰全局和局部兼容性建模;最后,构建服饰搭配优化模型,通过融合套装中所有服饰的全局和局部兼容性优化服饰搭配,并计算搭配得分,输出正确的服饰搭配结果。结果在公开数据集Polyvore上将本文方法与其他方法进行对比。实验结果表明,利用局部特征提取网络提取的时尚服饰图像局部特征能有效地表示服饰局部信息;构建的全局—局部兼容性学习模块对时尚服饰的全局兼容性和局部兼容性进行了完整建模;构建的时尚服饰搭配优化模型实现了全局和局部兼容性的优化组合,使时尚服饰搭配准确率（fill in the blank,F... 相似文献

9.

融合VAE和StackGAN的零样本图像分类方法

下载免费PDF全文

张冀曹艺王亚茹赵文清翟永杰《智能系统学报》2022,17(3):593-601

零样本分类算法旨在解决样本极少甚至缺失类别情况下的分类问题。随着深度学习的发展,生成模型在零样本分类中的应用取得了一定的突破,通过生成缺失类别的图像,将零样本图像分类转化为传统的基于监督学习的图像分类问题,但生成图像的质量不稳定,如细节缺失、颜色失真等,影响图像分类准确性。为此,提出一种融合变分自编码(variational auto-encoder, VAE)和分阶段生成对抗网络(stack generative adversarial networks, StackGAN)的零样本图像分类方法,基于VAE/GAN模型引入StackGAN,用于生成缺失类别的数据,同时使用深度学习方法训练并获取各类别的句向量作为辅助信息,构建新的生成模型stc-CLS-VAEStackGAN,提高生成图像的质量,进而提高零样本图像分类准确性。在公用数据集上进行对比实验,实验结果验证了本文方法的有效性与优越性。相似文献

10.

加入目标指导的强化对抗文本生成方法研究

张志远李媛媛《计算机应用研究》2020,37(11):3343-3346,3352

针对有监督的深度神经网络文本生成模型容易造成错误累积的问题,提出一种基于强化对抗思想训练的文本生成模型。通过将生成对抗网络鉴别器作为强化学习的奖励函数及时指导生成模型优化,尽量避免错误累积;通过在生成过程中加入目标指导特征帮助生成模型获取更多文本结构知识,提升文本生成模型真实性。在合成数据和真实数据集上的实验结果表明,该方法在文本生成任务中,较之前的文本生成模型在准确率和真实性上有了进一步的提高,验证了加入目标指导的强化对抗文本生成方法的有效性。相似文献

11.

基于Transformer的多轨音乐生成对抗网络

汪涛靳聪李小兵帖云齐林《计算机应用》2021,41(12):3585-3589

符号音乐的生成在人工智能领域中仍然是一个尚未解决的问题,面临着诸多挑战。经研究发现,现有的多音轨音乐生成方法在旋律、节奏及和谐度上均达不到市场所要求的效果,并且生成的音乐大多不符合基础的乐理知识。为了解决以上问题,提出一种新颖的基于Transformer的多音轨音乐生成对抗网络（Transformer-GAN）,以乐理规则为指导来产生具有高音乐性的音乐作品。首先,采用Transformer的译码部分与在Transformer基础之上改编的Cross-Track Transformer（CT-Transformer）分别对单音轨内部及多音轨之间的信息进行学习;然后,使用乐理规则和交叉熵损失相结合的方法引导生成网络的训练,并在训练鉴别网络的同时优化精心设计的目标损失函数;最后,生成具有旋律性、节奏性及和谐性的多音轨音乐作品。实验结果表明,与其他多乐器音乐生成模型相比,在钢琴轨、吉他轨及贝斯轨上,Transformer-GAN的预测精确度（PA）最低分别提升了12%、11%及22%,序列相似度（SS）最低分别提升了13%、6%及10%,休止符指标最低分别提升了8%、4%及17%。由此可见,Transformer-GAN在加入了CT-Transformer及音乐规则奖励模块之后能有效提升音乐的PA、SS等指标,使生成的音乐质量整体上有较大的提升。相似文献

12.

Markov constraints: steerable generation of Markov sequences

François Pachet Pierre Roy 《Constraints》2011,16(2):148-172

Markov chains are a well known tool to model temporal properties of many phenomena, from text structure to fluctuations in economics. Because they are easy to generate, Markovian sequences, i.e. temporal sequences having the Markov property, are also used for content generation applications such as text or music generation that imitate a given style. However, Markov sequences are traditionally generated using greedy, left-to-right algorithms. While this approach is computationally cheap, it is fundamentally unsuited for interactive control. This paper addresses the issue of generating steerable Markovian sequences. We target interactive applications such as games, in which users want to control, through simple input devices, the way the system generates a Markovian sequence, such as a text, a musical sequence or a drawing. To this aim, we propose to revisit Markov sequence generation as a branch and bound constraint satisfaction problem (CSP). We propose a CSP formulation of the basic Markovian hypothesis as elementary Markov Constraints (EMC). We propose algorithms that achieve domain-consistency for the propagators of EMCs, in an event-based implementation of CSP. We show how EMCs can be combined to estimate the global Markovian probability of a whole sequence, and accommodate for different species of Markov generation such as fixed order, variable-order, or smoothing. Such a formulation, although more costly than traditional greedy generation algorithms, yields the immense advantage of being naturally steerable, since control specifications can be represented by arbitrary additional constraints, without any modification of the generation algorithm. We illustrate our approach on simple yet combinatorial chord sequence and melody generation problems and give some performance results. 相似文献

13.

Automatic background music generation based on actors' mood and motions

Jun-Ichi Nakamura Tetsuya Kaku Kyungsil Hyun Tsukasa Noma Sho Yoshida 《Computer Animation and Virtual Worlds》1994,5(4):247-264

Since adding background music and sound effects even to short animations is not simple, an automatic music generation system would help improve the total quality of computer generated animations. This paper describes a prototype system which automatically generates background music and sound effects for existing animations. The inputs to the system are music parameters (mood types and musical motifs) and motion parameters for individual scenes of an animation. Music is generated for each scene. The key for a scene is determined by considering the mood type and its degree, and the key of the previous scene. The melody for a scene is generated from the given motifs and the chord progression for the scene which is determined according to appropriate rules. The harmony accompaniment for a scene is selected based on the mood type. The rhythm accompaniment for a scene is selected based on the mood type and tempo. The sound effects for motions are determined according to the characteristics and intensity of the motions. Both the background music and sound effects are generated so that the transitions between scenes are smooth. 相似文献

14.

深度对抗视觉生成综述

下载免费PDF全文

谭明奎许守恺张书海陈奇《中国图象图形学报》2021,26(12):2751-2766

深度视觉生成是计算机视觉领域的热门方向,旨在使计算机能够根据输入数据自动生成预期的视觉内容。深度视觉生成使用人工智能技术赋能相关产业,推动产业自动化、智能化改革与转型。生成对抗网络（generative adversarial networks,GANs）是深度视觉生成的有效工具,近年来受到极大关注,成为快速发展的研究方向。GANs能够接收多种模态的输入数据,包括噪声、图像、文本和视频,以对抗博弈的模式进行图像生成和视频生成,已成功应用于多项视觉生成任务。利用GANs实现真实的、多样化和可控的视觉生成具有重要的研究意义。本文对近年来深度对抗视觉生成的相关工作进行综述。首先介绍深度视觉生成背景及典型生成模型,然后根据深度对抗视觉生成的主流任务概述相关算法,总结深度对抗视觉生成目前面临的痛点问题,在此基础上分析深度对抗视觉生成的未来发展趋势。相似文献

15.

具有特殊效果的混合细分方法

周敏彭国华叶正麟张永锋何磊《计算机辅助设计与图形学学报》2007,19(6):786-791

提出了基于三角形和四边形的混合控制网格的细分曲面尖锐特征、半尖锐特征生成和控制方法,避免了已有方法仅局限于初始控制网格为单一的三角形或单一的四边形网格的缺陷.通过局部修改混合细分规则,在光滑混合曲面上产生了刺、尖、折痕、角的尖锐特征效果,并对尖锐特征处局部细分矩阵进行了详细的特征分析,讨论了极限曲面的收敛性及光滑性.同时,用特征处的离散曲率来控制特征处的尖锐程度,实现了半尖锐的特征效果,并通过自适应细分方法,把尖锐特征、半尖锐特征的生成统一起来.该方法具有多分辨率表示能力强、局部性好、简单易操作的特点.实验结果表明,该算法效果好,成功地解决了混合曲面特殊效果生成问题. 相似文献

16.

Self-Supervised Music Motion Synchronization Learning for Music-Driven Conducting Motion Generation

下载免费PDF全文

Fan Liu De-Long Chen Rui-Zhi Zhou Sai Yang Feng Xu 《计算机科学技术学报》2022,37(3):539-558

The correlation between music and human motion has attracted widespread research attention. Although recent studies have successfully generated motion for singers, dancers, and musicians, few have explored motion generation for orchestral conductors. The generation of music-driven conducting motion should consider not only the basic music beats, but also mid-level music structures, high-level music semantic expressions, and hints for different parts of orchestras (strings, woodwind, etc.). However, most existing conducting motion generation methods rely heavily on human-designed rules, which significantly limits the quality of generated motion. Therefore, we propose a novel Music Motion Synchronized Generative Adversarial Network (M²S-GAN), which generates motions according to the automatically learned music representations. More specifically, M²S-GAN is a cross-modal generative network comprising four components: 1) a music encoder that encodes the music signal; 2) a generator that generates conducting motion from the music codes; 3) a motion encoder that encodes the motion; 4) a discriminator that differentiates the real and generated motions. These four components respectively imitate four key aspects of human conductors: understanding music, interpreting music, precision and elegance. The music and motion encoders are first jointly trained by a self-supervised contrastive loss, and can thus help to facilitate the music motion synchronization during the following adversarial learning process. To verify the effectiveness of our method, we construct a large-scale dataset, named ConductorMotion100, which consists of unprecedented 100 hours of conducting motion data. Extensive experiments on ConductorMotion100 demonstrate the effectiveness of M²S-GAN. Our proposed approach outperforms various comparison methods both quantitatively and qualitatively. Through visualization, we show that our approach can generate plausible, diverse, and music-synchronized conducting motion. 相似文献

17.

基于稀疏表示分类器的和弦识别研究

董丽梦李锵关欣《计算机工程与应用》2012,48(29):133-136,219

和弦识别作为音乐信息标注的基础,在分析音乐结构和旋律方面具有非常重要的作用.结合音乐理论知识,提出一种基于稀疏表示分类器的和弦识别方法.与传统的基于帧的识别方法不同,以节拍作为和弦变化的最小时间间隔,利用CQT (Constant-Q Transform)变换对音乐信号进行时频分析,提取PCP (Pitch Class Profile)特征,采用稀疏表示分类器(Sparse Representation-based Classification,SRC)进行和弦识别.实验结果表明,提出的特征和识别方法在识别率上均高于传统的方法. 相似文献

18.

Music playlist generation by adapted simulated annealing

Steffen Pauws 《Information Sciences》2008,178(3):647-662

We present the design of an algorithm for use in an interactive music system that automatically generates music playlists that fit the music preferences of a user. To this end, we introduce a formal model, define the problem of automatic playlist generation (APG), and prove its NP-hardness. We use a local search (LS) procedure employing a heuristic improvement to standard simulated annealing (SA) to solve the APG problem. In order to employ this LS procedure, we introduce an optimization variant of the APG problem, which includes the definition of penalty functions and a neighborhood structure. To improve upon the performance of the standard SA algorithm, we incorporated three heuristics referred to as song domain reduction, partial constraint voting, and a two-level neighborhood structure. We evaluate the developed algorithm by comparing it to a previously developed approach based on constraint satisfaction (CS), both in terms of run time performance and quality of the solutions. For the latter we not only considered the penalty of the resulting solutions, but we also performed a conclusive user evaluation to assess the subjective quality of the playlists generated by both algorithms. In all tests, the LS algorithm was shown to be a dramatic improvement over the CS algorithm. 相似文献