《Emu - Enhancing Image Generation Models Using Photogenic Needles in a Haystack》总结


核心观点是用一小批(2000)张极高质量的图片finetune基础文生图模型就可以让模型输出质量极大提升,同时生成图片的语义贴合描述,过拟合不严重。

作者训练了一个基础的LDM,使用CLIP+T5做condition,2.8B的UNet。然后使用超高质量数据微调小于15K次迭代(batch_size=64)。这样得到的模型Emu在美观程度和语义匹配程度上都远超SDXL。作者在其它架构的文生图模型上也做了类似的finetune实验,证明了极高质量数据做STF确实能一下子提升模型美观程度,又不降语义能力。

作者在方法上透露的细节只有对VAE的优化:

  1. 增加VAE得到的latent的channel数,从4增加到16;
  2. 使用Fourier Feature Transform预处理图片,增加输入channel数,强化细节;
  3. 引入对抗损失,增加重建细节的能力。 经过这些优化,VAE重建ImageNet的PSNR从28涨到了34。

作者一直强调的超高质量图片的一些sample:

收集超高质量图片的流程:

  1. 去除有害图片、美学评分、OCR识别、CLIP Score等基础图文数据集清洗流水线;
  2. 根据图片的大小、比例筛除一部分数据;
  3. 使用 visual concept分类器调整不同视觉概念的图片占比,重点关注人像、食物、动物、风景等概念的图片。
  4. 根据图片自带的一些元数据,比如INS上图片的likes数量等,筛图片。至此剩余~200K张图片
  5. 使用通用人工,优化recall,筛掉数据中一看就不怎么地的图片。
  6. 使用专业人力,优化precision,只保留在构图、光照、色彩、主题、故事性等等方面都满足摄影领域专业人士要求的图片。共收集~2K张图片,再人工标注得到每张图片的caption。

实验部分作者没有做任何自动化定量指标。全部都是用人去评判,做法是给两张图片A、B,带/不带文本,让人选择更贴合文本/更美观的图片。 与SDXL的对比如下:

只需要100张超高质量图片微调,就能60%超过SDXL。

微调前后对比,改进也很明显:

值得一提的是,微调后,在人眼里,文本匹配程度反而比微调前更高了,包括那种风格很强不只是摄影的prompt。作者认为这是因为他们选择的2000张图片的caption是人工标注的,非常准确,比那种noisey的web数据靠谱。从我自己找/当外包标注图片好坏的经验来看,标注是否更贴合文本的时候,不自觉地会考虑图片美观程度的,即两个差不多的情况下总感觉好看的图片更贴合文本。人打分有误差。这个结果只能说明起码finetune后语义性能确实没掉太多。


论文链接:Emu - Enhancing Image Generation Models Using Photogenic Needles in a Haystack