计算机工程与科学 ›› 2022, Vol. 44 ›› Issue (06): 1083-1089.
王霞,徐慧英,朱信忠
WANG Xia,XU Hui-ying,ZHU Xin-zhong
摘要: 文本生成图像是机器学习领域非常具有挑战性的任务,虽然目前已经有了很大突破,但仍然存在模型训练不稳定以及梯度消失等问题。针对这些不足,在堆叠生成对抗网络(StackGAN)基础上,提出一种结合谱归一化与感知损失函数的文本生成图像模型。首先,该模型将谱归一化运用到判别器网络中,将每层网络梯度限制在固定范围内,相对减缓判别器网络的收敛速度,从而提高网络训练的稳定性;其次,将感知损失函数添加到生成器网络中,增强文本语义与图像内容的一致性。使用Inception score评估所提模型生成图像的质量。实验结果表明,该模型与原始StackGAN相比,具有更好的稳定性且生成图像更加逼真。