上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1 引言
图像风格迁移技术在学术界和市场上都具有较高的应用前景和发展潜力,能够被应用在娱乐传媒、动画制作、电影特效等方面。例如,3D建模、纹理仿真、医学影像重塑等[1,2]。在传统方法中,科学家们首先需要通过人工手段对图像的艺术风格进行分析,在分析结果的基础上建立统计学或数学模型,最后通过改变目标图像的手段与建立的模型进行匹配。传统图像风格迁移方法的本质是数学建模问题,但与大部分传统的计算机视觉或语音识别任务类似的是,数学建模的方法存在难以解决的缺陷。例如,人工提取模型需要依赖丰富的经验,耗费大量时间,且模型迁移成本极高,应用场景受限。此时,学术界需要一种新的方法来解决风格迁移任务,深度神经网络打破了这一局面[3-6]。传统方法无法确定内容图像与风格图像的重点,而由于深度神经网络提取特征的方式效果良好,所以被广泛应用于解决迁移类问题,其中的VGG物理模型被证明在图像风格迁移领域具有不错的表现。Gatys曾经提出,用VGG网络模型分别提取图像内容特征和风格特征的方法来实现图像风格迁移[7]。在提取特征矩阵后,使用Gram矩阵计算局部特征,然后从随机噪声图像开始,将局部特征转换为统计模型。这个开创性的研究方法在当时引起了学术界的广泛关注,引发了大量后续研究,后来学术界将这个方法称为神经风格迁移。尽管神经风格迁移理论与研究方法都在飞速发展,但这些研究都或多或少地面临相同的问题,即需要在通用性、图像质量和计算效率三个方面做出权衡。也就是说,一些已经优化的方法在输出质量较高的图像时,需要付出高昂的计算成本,而使用前馈神经网络的方法在降低计算成本的同时又无法保证图像质量。