2 深度学习和风格迁移的基本原理
卷积神经网络( Convolutional Neural Networks,CNN)是一种典型的深度学习算法,它可用于接收输入图像,将重要性(可学习的权重和偏差)分配给图像中的各个对象,并且能够区分彼此。与其他分类算法相比,CNN模型中所需的预处理步骤要低得多。虽然在原始方法中,过滤器是手工设计的,但经过充分培训,CNN模型能够学习这些过滤器的特性。
在卷积神经网络中,我们可以在每层得到响应结果,通过对这些响应结果的重建,可以获得从每层神经网络中提取到的信息,这有助于更好地理解图像艺术风格迁移原理。如图 1 所示,卷积神经网络对每层提取的信息进行重建。在第 1 层中,卷积结果或最终归一化的结果与原图一般无二;在第 3 层和第 4 层中,提取到的结果开始发生模糊化;而在第 5 层中只能辨别出简单的轮廓。在层数增加的过程中,模型学到的信息也随之变得更为抽象,在神经网络高层进行信息重构时,辨别信息变得越来越困难。
图1 CNN模型原理图
在2015年Gatys提出的基于VGG模型的风格迁移方法中,需要同时输入内容图像、风格图像和添加白噪声的图像三张图像。完成迁移任务的核心是建立白噪声图像和内容图像(风格图像)之间的内容损失函数,并将二者结合,最终得到总体损失函数,然后输出结果。Gatys等学者提出了神经风格迁移的方法,起到了开创性作用。他们的研究表明,经过训练的深度神经网络提取的特征之间具有相关性,这意味着Gram矩阵或协方差矩阵均具有显著的捕捉风格特征的能力。
前人研究课题中的缺陷主要包括两点:第一,传统的风格迁移方法无法对一些没有确切风格的图像进行效果优良的风格迁移;第二,在风格迁移的过程中,大部分算法均出现了图像质量下降的问题。
本文针对这两种可能产生的缺陷,提供了简单且高效的处理方法。在研究工作中,这种方法虽然在图像质量和计算效率方面有一定程度的下降,但它展现出了很好的通用性。并且在此之前无须对任何风格进行训练与预训练,这种做法能够大大提高图像风格迁移的效率。