近期,苹果公司在AI图像生成领域的研究引发了广泛关注。与业界普遍采用的扩散模型或自回归模型不同,苹果选择了一条较为冷门的路径——归一化流技术,来开发其AI图像生成模型。
归一化流技术,这一被业界“遗忘”的方法,其核心在于通过数学变换,将现实世界的数据(如图像)转换为结构化噪声,并能够从噪声中还原出图像样本。这一技术的最大亮点在于,它能够精确计算生成图像的概率,这是扩散模型所不具备的能力。然而,归一化流模型并不常见,主要是因为其研发成本高昂,且早期模型生成的图像往往较为模糊,缺乏细节。
在苹果的最新研究论文中,公司推出了一种名为TarFlow的新型归一化流技术模型。TarFlow的创新之处在于,它将待生成的大图分割成多个“小区块”,然后以区块为单位生成一系列像素值。每一块图像的像素值都依赖于前面已生成的部分,从而避免了图像在压缩为固定词汇表时产生的质量损失和表现僵化问题。这种逐步生成的方式,使得TarFlow能够生成更为细腻、真实的图像。
尽管TarFlow在图像生成方面取得了显著进展,但在生成高分辨率图像时仍面临挑战。为此,苹果在TarFlow的基础上进一步提出了增强版本——STARFlow。STARFlow的最大改进在于,它不再直接在像素层面生成图像,而是在“潜空间”中工作。通过首先生成图像的压缩表示,再通过解码器进行放大还原,STARFlow能够在不损失质量的前提下,显著提升生成效率。
STARFlow还改进了对文本提示的处理方式。与TarFlow不同,STARFlow不再内建专用文本编码器,而是支持调用现有语言模型来处理用户的语言指令。这一改进使得STARFlow的图像生成部分能够更专注于图像细节的生成与优化,从而进一步提升图像质量。
苹果公司的这一系列研究,不仅展示了归一化流技术在AI图像生成领域的潜力,也为业界提供了新的思路和方法。随着技术的不断进步和完善,相信未来会有更多基于归一化流技术的AI图像生成模型涌现,为人们的生活带来更多便利和惊喜。