一个完全开源的基于流的文本到图像生成模型,能够生成高分辨率、超现实主义的图像。
与SD3相同,是DiT架构,5.6B大小,书写英文的能力优秀。
AuraFlow 采用了多层次的技术改进:
将 MMDiT 块替换为 DiT 编码器块
使用 torch.compile 优化训练
实现零射击学习率转移
重新标注数据集以及优化模型架构的宽高比
ComfyUI 和 Diffusers 都已经支持。
体验地址:https://huggingface.co/spaces/multimodalart/AuraFlow
模型:https://huggingface.co/fal/AuraFlow