8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源
创始人
2025-03-18 09:15:28
0

Everlyn 投稿

量子位 | 公众号 QbitAI

超低成本图像生成预训练方案来了——

仅需8张GPU训练,就能实现近SOTA的高质量图像生成效果。

划重点: 开源

模型名为 LightGen,由港科大Harry Yang团队联合Everlyn AI等机构打造,借助 知识蒸馏(KD)直接偏好优化(DPO)策略,有效压缩了大规模图像生成模型的训练流程。

LightGen不仅显著降低了数据规模与计算资源需求,而且在高质量图像生成任务上展现了与SOTA模型相媲美的性能。

图像inpainting效果belike:

LightGen相较于现有的生成模型,尽管参数量更小、预训练数据规模更精简,却在geneval图像生成任务的基准评测中甚至超出了部分最先进SOTA模型。

此外,LightGen在效率与性能之间实现了良好的平衡,成功地将传统上需要 数千GPU days的预训练过程缩短至仅88个GPU days,即可完成高质量图像生成模型的训练。

以下是更多细节。

LightGen长啥样?

文本到图像 (Text-to-Image, T2I)生成任务近年来取得了飞速进展,其中以扩散模型 (如Stable Diffusion、DiT等)和自回归 (AR)模型为代表的方法取得了显著成果。

然而,这些主流的生成模型通常依赖于超大规模的数据集和巨大的参数量,导致计算成本高昂、落地困难,难以高效地应用于实际生产环境。

为了解决这一难题,香港科技大学Harry Yang教授团队联合Everlyn AI和UCF,提出了LightGen这一新型高效图像生成模型,致力于在有限的数据和计算资源下,快速实现高质量图像的生成,推动自回归模型在视觉生成领域更高效、更务实地发展与应用。

LightGen采用的训练流程主要包括以下关键步骤:

一、数据KD

利用当前SOTA的T2I模型,生成包含丰富语义的高质量合成图像数据集。

这一数据集的图像具有较高的视觉多样性,同时包含由最先进的大型多模态语言模型 (如GPT-4o)生成的丰富多样的文本标注,从而确保训练数据在文本和图像两个维度上的多样性。

二、DPO后处理

由于合成数据在高频细节和空间位置捕获上的不足,作者引入了直接偏好优化技术作为后处理手段,通过微调模型参数优化生成图像与参考图像之间的差异,有效提升图像细节和空间关系的准确性,增强了生成图像的质量与鲁棒性。

通过以上方法,LightGen显著降低了图像生成模型的训练成本与计算需求,展现了在资源受限环境下获取高效、高质量图像生成模型的潜力。

实验效果如何?

作者通过实验对比了LightGen与现有的多种SOTA的T2I生成模型,使用GenEval作为benchmark来验证LightGen模型和其它开源模型的性能。

结果表明,LightGen模型在模型参数和训练数量都小于其它模型的的前提下, 在256×256和512×512分辨率下的图像生成任务中的表现均接近或超过现有的SOTA模型。

LightGen在单物体、双物体以及颜色合成任务上明显优于扩散模型和自回归模型,在不使用DPO方法的情况下,分别达到0.49 (80k步训练)和0.53的整体性能分数。

在更高的512×512分辨率上,LightGen达到了可比肩当前SOTA模型的成绩,整体性能分数达到0.62, 几乎超过所有现有方法。

特别地,加入DPO方法后,模型在位置准确性和高频细节方面的表现始终稳定提升,这体现了 DPO在解决合成数据缺陷上的有效性

除此之外,消融实验结果显示, 当数据规模达到约100万张图像时,性能提升会遇到瓶颈,进一步增加数据规模带来的收益很有限。因此,作者最终选择了200万张图像作为最优的预训练数据规模。

上图(b)探讨了不同训练迭代次数对GenEval在256与512分辨率下性能的影响。

值得注意的是,在256像素阶段,仅经过80k训练步数便能达到相当不错的性能,这突显了数据蒸馏方法在训练效率上的优势。

团队表示,未来研究可进一步探索该方法在其他生成任务 (如视频生成)上的应用,推动高效、低资源需求的生成模型进一步发展。

论文链接:https://arxiv.org/abs/2503.08619

模型链接:https://huggingface.co/Beckham808/LightGen

项目链接:https://github.com/XianfengWu01/LightGen

学术投稿请于 工作日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容

附上论文/项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

相关内容

AI大模型“竞速跑” 头部...
百度、阿里巴巴、零一万物等企业近期纷纷宣布新动作,包括加快人工智能...
2025-03-18 09:42:12
8张GPU训出近SOTA模...
Everlyn 投稿 量子位 | 公众号 QbitAI 超低成本图...
2025-03-18 09:15:28
不是,你们大模型全开源了,...
在今天正式开唠之前,差评君想问一个小问题:在你看来,开源是一种怎么...
2025-03-18 06:42:51
神魔迷失之徒任务怎么做
神魔迷失之徒任务怎么做神魔迷失之徒任务怎么做就是回答问题,但是问题...
2025-03-18 06:07:11
羊绒衫的保养方法有哪些呢?
羊绒衫的保养方法有哪些呢?1、清洗之前要进行护理,有些羊绒衫会别出...
2025-03-18 03:05:00
wow:术士任务
wow:术士任务杀两个人一个在银松森林的最下面和丈夫的复仇那个任务...
2025-03-18 01:06:21

热门资讯

王家大院现在的所有者还是王家的... 王家大院现在的所有者还是王家的后人吗?我说的是山西灵石的王家大院...现在不知道是被收为国,还是仍为...
写字好看的女生有什么优势 写字好看的女生有什么优势见字如见人,字好看 很加分的。学校有书法比赛时很吃香哦感觉没有打字快的女生有...
我家办白事,朋友给我发红包,我... 我家办白事,朋友给我发红包,我该怎么说感谢话我家办白事,朋友给我发红包,我该怎么说感谢话当家里有事情...
杨大勇的妻子是谁 杨大勇的妻子是谁杨大勇的妻子是一位名叫王小丽的女性。据悉,王小丽与杨大勇相识于大学时期,两人相恋多年...
小猿众包骗局 小猿众包骗局小猿众包是小猿旗下的可以在家做题赚钱的兼职,平时如果时间充裕的情况下可以做做小猿众包挣个...
顶级绝伦推理片100部介绍 顶级绝伦推理片100部介绍 《白夜追凶》;可以说是刑侦国剧天花板了,逻辑,叙事方式,主演演技,这些几...
女生说男生丑萌什么意思? 女生说男生丑萌什么意思?丑萌就是又丑又萌,意思是男生在她的审美里不是好看的那种,但是又很戳她萌点就是...
自从和女朋友确定关系后,女朋友... 自从和女朋友确定关系后,女朋友为什么每天晚上发视频要我给她讲故事哄她睡觉?每次给她讲一个小时她都不睡...
一个女生。让我去找她玩。是什么... 一个女生。让我去找她玩。是什么意思呢?求解。她是对你有好感的,不然也不会邀请你去找她玩。有可能把你当...
托举的意思是什么 托举的意思是什么一、“托举”是花样滑冰的技术名词。指两人在滑行中,以某一种连接方式,男伴将女伴托起至...