Scalable Diffusion Models with Transformers
单位:UC伯克利, 纽约大学, Meta AI
主页:https://www.wpeebles.com/DiT
代码:https://www.github.com/facebookresearch/DiT
论文:https://arxiv.org/abs/2212.09748
我们探索了一类基于Transformer架构的新扩散模型。我们训练图像的latent扩散模型,用在 latent patches 上运行的Transformer取代常用的U-Net主干。我们通过the lens of forward pass complexity as measured by
Gflops 分析了我们的扩散Transformer(DiTs)的可扩展性。我们发现具有较高Gflops的DiTs——通过增加Transformer深度/宽度或增加输入 token——始终具有较低的FID。