極客號(Daydx.com)9月15日 消息:InstaFlow是一個快速、一步生成圖像的模型,能夠以接近Stable Diffusion的圖像質(zhì)量顯著減少計算資源需求。這種高效率源自最近的Rectified Flow技術(shù),它訓(xùn)練具有直線軌跡的概率流,因此本質(zhì)上只需要一步即可進(jìn)行快速推理。
項(xiàng)目地址:https://github.com/gnobitab/instaflow
InstaFlow具有幾個優(yōu)點(diǎn):
極快推理:InstaFlow模型是一步生成器,它直接將噪聲映射到圖像,避免了彌散模型的多步采樣。 在我們的A100GPU機(jī)器上,推理時間約為0.1秒,與原始Stable Diffusion相比可節(jié)省約90%的推理時間。
高質(zhì)量:InstaFlow生成具有Stable Diffusion那樣復(fù)雜細(xì)節(jié)的圖像,在MS COCO2014數(shù)據(jù)集上的FID與最先進(jìn)的文本到圖像GAN(如StyleGAN-T)相當(dāng)。
簡單高效的訓(xùn)練:InstaFlow的訓(xùn)練過程只涉及有監(jiān)督訓(xùn)練。 借助預(yù)訓(xùn)練的Stable Diffusion,僅需199個A100GPU天即可獲得InstaFlow-0.9B。
方法:用文本調(diào)整的反流整流生成概率流
流程包括三個步驟:
1. 從預(yù)訓(xùn)練的Stable Diffusion生成(文本,噪聲,圖像)三元組
2. 應(yīng)用文本調(diào)整的反流生成2-Rectified Flow,這是一條整流的生成概率流。
3. 從2-Rectified Flow中遷移學(xué)習(xí)得到一步InstaFlow。 注意遷移學(xué)習(xí)和反流是正交的技術(shù)。
如視頻和圖像所示,直線流具有以下優(yōu)點(diǎn):
1. 直線流需要更少的步驟來模擬。
2. 直線流在噪聲分布和圖像分布之間提供了更好的耦合,因此允許成功的遷移學(xué)習(xí)。
InstaFlow的核心功能有:
– 快速一步生成
– 與Stable Diffusion相當(dāng)?shù)膱D像質(zhì)量
– 簡單高效的訓(xùn)練過程
– 利用文本調(diào)整的反流產(chǎn)生直線概率流
– 從直線流中遷移學(xué)習(xí)以實(shí)現(xiàn)一步生成
通過直線流和遷移學(xué)習(xí),InstaFlow實(shí)現(xiàn)了快速生成高質(zhì)量圖像的目標(biāo),是新一代文本到圖像生成模型的杰出代表。