文生图的各种模型

各种文生图的模型

DALL-E

参数量:120亿

基于 dVAE

训练:

  • 训练一个dVAE, 训练dVAE编码器和dVAE解码器
  • 将文本编码和图片token进行拼接,训练一个自回归transformer来建模文本和图片的联合分布

训练目标:最大化ELBO

GLIDE

参数量:35亿

把 指导扩散应用于文本生成图像的问题。

使用文本编码器以自然语言描述为条件,然后比较了两种指导扩散模型至文本 prompt 的方法:CLIP 指导和无分类器指导。无分类器指导能够产生更高质量的图像。

DALL-E2

image-20240906205825105

虚线上方为CLIP

虚线之下是文本到图像生成的改成。

一个CLIP text embedding输入到autoregressive或者扩散模型(prior部分)来生成一个image embedding,然后这个embedding输入到扩散模型decoder,生成最终的图像。

训练方法:

训练数据对$(x,y)$, $x$指图片,$y$指文字描述

对于$x$,通过CLIP模型生成imag embedding$z_i$

prior: 基于文本 生成imag embedding

decoder: 基于prior生成的imag embedding来生成图像

Imagen

使用了一个文字转图片的diffusion模型,然后使用了2个超分diffusion模型。

Stable Diffusion

模型latent diffusion models (LDMs)是两阶段的。第一部分就是下面左半部分(红色),对图片进行压缩,将图片压缩为隐变量表示(latent),这样可以减少计算复杂度;第二部分还是扩散模型(diffusion与denoising),中间绿色部分。此外引入了cross-attention机制,下图右半部分,方便文本或者图片草稿图等对扩散模型进行施加影响,从而生成我们想要的图片,比如根据文本生成我们想要的图片。
image-20240906210500817


文生图的各种模型
https://wendyflv.github.io/2024/09/06/文生图的各种模型/
作者
Wendyflv
发布于
2024年9月6日
许可协议