让AI分清前后左右的新方法!北大与字节破解AI画画的“空间盲区”
创始人
2026-03-03 16:19:30
0

你有没有试过让AI帮你画一幅画?比如,你告诉它:“画一张办公桌的图,笔记本电脑放在桌子中间偏左,咖啡杯在电脑右边,盆栽在桌子右侧边缘。”结果AI画出来的东西看着挺好看,颜色很美,光影也不错——但咖啡杯跑到了电脑左边,盆栽干脆消失了。这种“美丽又凌乱”的情况,几乎是当下AI绘图的通病。

为了解决这个问题,北京大学与字节跳动Seed团队展开合作,打造了一套名为SpatialScore的“空间裁判”系统,专门教AI看懂“什么东西该放在哪儿”。更有意思的是,这个裁判系统只有70亿参数(在大模型的世界里算是“身材娇小”的),却比GPT-5和Gemini-2.5 Pro这些动辄万亿参数的巨头还要准确。

接下来,我们就沿着一条线索来理解这项研究:把整个AI画画的过程看作一场“室内设计”——你是甲方提需求,AI是设计师画图,而SpatialScore则是那位拿着卷尺检查每件家具是否摆对了位置的“验收专家”。

AI画家的老毛病:能画漂亮画,但分不清东南西北

当你对一个朋友说“把杯子放在笔记本右边”,对方能秒懂。但对AI画图模型来说,这个简单的指令其实暗含了好几层意思:它需要知道“杯子”和“笔记本”分别长什么样,还得理解“右边”意味着什么方位关系,更要把这种关系画到图上。当场景变得更复杂——比如五六个物体之间有各种“前后左右上下居中”的位置约束——AI就像接到了一份极其复杂的室内设计方案,很容易把家具摆错位置。

那么,现有的“评分系统”能不能帮AI纠正这个问题?在AI画图领域,已经有不少模型被专门设计来评判生成图片的好坏,它们的角色就像装修验收时的质检员。比如HPSv3、PickScore、ImageReward这些模型,它们擅长判断画面好不好看、色彩搭不搭、风格对不对——相当于质检员会看墙壁刷得平不平、颜色选得好不好。但问题在于,这些质检员不怎么关心家具到底有没有摆对位置。研究团队做了一个很直观的对比实验:给这些现有的评分模型看两张图,一张的物体位置是对的,另一张位置是错的。结果这些“质检员”反而给位置错误的图打了更高的分——因为那张图可能仅仅是更好看一点。这就像验收专员说“沙发虽然堵住了门,但颜色搭配很和谐,给个高分”,显然不靠谱。

那用最强大的闭源大模型呢?GPT-5和Gemini-2.5 Pro确实在空间理解方面表现不错,但它们的调用成本太高了。在线强化学习(这个后面会细讲)需要不断地让“裁判”给出评分反馈,这意味着要频繁调用模型,用闭源大模型来做这件事就像请了一位按分钟计费的金牌设计师来做全程监工,账单会非常吓人。开源的视觉语言模型(比如Qwen2.5-VL-72B)虽然免费,但研究团队发现,即使是720亿参数的版本,在面对复杂的多物体空间关系时也会产生“幻觉”——它会自信满满地告诉你位置是对的,但实际上是错的。

因此,研究团队面对的核心难题就是:缺少一个既准确又廉价的“空间位置专用验收员”。这就是SpatialScore要填补的空白。

打地基:8万对精心制作的“对比样本”

要训练出一个好的“验收专家”,首先得给它看大量的“正确范例”和“错误范例”。这就像培训一个新的质检员,你不能只给他看完美的样板间,还得给他看各种典型的摆放错误,让他学会分辨。

研究团队为此构建了一个名为“SpatialReward-Dataset”的数据集,包含超过8万对“对抗性偏好对”。这个名字听着很拗口,但原理很简单。每一对数据都包含两张图:一张是“完美图”,所有物体的位置关系都严格符合文字描述;另一张是“干扰图”,故意把其中一两个位置关系搞错了。

具体的制作过程可以理解为一条精密的“流水线”。第一步是由GPT-5来担当“场景策划师”,生成大量描述复杂空间关系的提示词。这些提示词不是简单的“A在B左边”,而是类似于“在一张木桌上,显示器居中放在桌子后方边缘,键盘在显示器正前方居中,鼠标在键盘右侧与前边缘对齐,螺旋笔记本在键盘左侧且顶部对齐”这样涉及多个物体和多重空间约束的长描述。

第二步,同样由GPT-5来担当“捣蛋鬼”,对这些完美的提示词进行“微调破坏”:比如把“鼠标在键盘右边”改成“鼠标在键盘左边”,或者把两个物体的相对位置互换。每次只改动一到三处空间关系,其他描述保持不变。

第三步,拿着“完美提示词”和“被破坏的提示词”分别去生成图片。研究团队选用了三个当前顶尖的图片生成模型:阿里的Qwen-Image、腾讯的HunyuanImage-2.1以及字节的Seedream 4.0。这三个模型本身在“按照文字画画”方面就很厉害,所以生成的图片质量较高,减少了额外干扰因素。对于每一对数据,用同一个模型来同时生成“完美图”和“干扰图”,这样两张图在画风、色调、清晰度等方面几乎一致,唯一的区别就是物体的位置关系,这避免了质检员因为“这张图更好看”而偏心,确保它学到的是纯粹的空间判断能力。

最关键的第四步是人工审核。每一对数据都经过人类专家逐一检查。验证人员需要确认两件事:完美图确实百分之百符合文字描述中的所有空间关系;干扰图确实存在预期的位置偏差,而不是碰巧虽然用了被破坏的提示词但生成出来的图恰好还是对的。不符合这两条标准的数据对,都会被直接剔除。

这个数据集的规模和复杂度远超之前的同类数据。从提示词长度来看,SpatialReward-Dataset中的提示词明显比GenEval使用的模板式短句要长得多,场景也更接近真实世界的复杂描述。从空间关系数量来看,大部分提示词包含四到八个甚至更多的空间约束条件,而不是仅仅描述两个物体之间的单一关系。场景涵盖了厨房、客厅、办公室、花园、停车场、露营地等25种以上的真实生活环境,可以说是一本非常“厚实”的错题集。

训练验收专家:SpatialScore的诞生

有了这本厚实的错题集,接下来就要用它来培训我们的“专家”——SpatialScore。

SpatialScore的底座是Qwen2.5-VL-7B,一个70亿参数的视觉语言模型。你可以把它理解为一个已经具备基本“看图说话”能力的AI,它能看懂图片里有什么东西,也能理解文字在说什么。但它还不擅长精确判断“图片中的物体位置关系是否与文字描述一致”。SpatialScore的训练就是要把这个通才改造成空间方位领域的专家。

改造的方式借用了LoRA,LoRA的精妙之处在于,它不需要改动模型的全部参数(那样既费时又可能破坏模型已有的知识),而是只在模型的关键位置插入一小组可训练的“补丁参数”。可以理解为,你不是要推翻一栋建好的大楼重新盖,而是在特定的房间里安装一些新设备,让这栋大楼具备原来没有的功能,同时保留了原有的所有能力。

在训练过程中,模型需要完成这样一个任务:给它看一个文字提示词和两张图(一张完美图,一张干扰图),它要学会给完美图打更高的分,给干扰图打更低的分。这个学习目标用到了一个叫做Bradley-Terry模型的数学框架,本质上就是一种“两两比较谁更好”的排序方法——类似于让两个选手比赛,赢的那个得分高。

SpatialScore的打分方式也有巧妙之处。它不是直接输出一个固定的分数,而是输出一个分数的“概率分布”——就像射击比赛中,它不是说“我打了9.5环”,而是说“我大概率打在9到10环之间,中心是9.5环”。具体来说,模型会输出两个数值:一个均值μ代表最可能的分数,一个标准差σ代表不确定性。这种概率化的评分方式让排序更加稳健,不容易因为个别极端样本而产生误判。

在技术实现上,研究团队在输入提示词的末尾插入了一个特殊标记“ ”,这个标记在模型内部能够“注意到”图片和文字的所有信息。模型最后一层输出的这个标记的特征向量,会被送入一个小型的多层感知机(可以理解为一个简单的“翻译器”),转换成μ和σ两个数值。

整个训练过程在8块英伟达H20 GPU上用不到一天时间就完成了。训练完成后的SpatialScore,在研究团队构建的365对测试集上达到了95.77%的配对准确率。这个数字意味着,每给它看100对“完美图vs干扰图”,它有将近96次能正确判断出哪张是对的、哪张是错的。

这个成绩有多了不起呢?GPT-5在同一测试集上的准确率约为89%,Gemini-2.5 Pro约为95.1%。也就是说,一个70亿参数的“小模型”,在空间位置判断这个特定任务上,反超了那些参数量可能是它数百倍的顶级闭源模型。而像PickScore、ImageReward等现有的图像评分模型,准确率只有46%到65%左右——几乎跟随机猜没什么两样。开源的Qwen2.5-VL系列虽然展现出“越大越准”的趋势(从7B的60%到72B的76%),但即使是最大的720亿参数版本,也远不如SpatialScore的7B版本。

研究团队还测试了不同大小的SpatialScore版本:3B版本的准确率为89.1%,7B版本为95.8%,32B版本为97.3%。综合考虑准确度和计算效率(毕竟后续要在强化学习中频繁调用),7B版本是最佳的性价比之选。

让AI画家自我进化:用SpatialScore当教练做强化学习

有了靠谱的“验收专家”之后,下一步就是用它来实际训练AI画图模型,让画家学会“把东西放对地方”。这里用到的核心方法叫在线强化学习,具体采用的算法框架是GRPO(Group Relative Policy Optimization,组相对策略优化)。

在线强化学习的核心思想,可以用一个类比来理解。假设你在教一个新手室内设计师,你不会直接告诉他“沙发应该放在这个坐标”,而是让他先自己设计几十个方案,然后你(作为验收专家)对每个方案打分,告诉他“这个方案空间布局不错,得8分”“那个方案杯子位置放错了,得3分”。经过一轮又一轮的设计、评分、改进,新手设计师就会越来越擅长把家具摆对位置。

研究团队选择了FLUX.1-dev作为需要被“培训”的基础画图模型。选择它有两个原因:一是它本身画图能力很强,特别是在处理长文本描述时表现不错,这与SpatialReward-Dataset中那些复杂场景描述很搭;二是FLUX.1-dev还没有经过类似的后训练优化,这意味着任何提升都可以归功于SpatialScore的指导,而不是其他因素。

GRPO算法的工作流程是这样的:对于训练集中的每一个文字提示词,让画图模型一次性生成一组图片(这里是24张)。然后SpatialScore对这24张图逐一打分。在组内,每张图的“优势值”会通过与组内平均分和标准差的比较来计算——得分高于平均水平的图获得正向优势(意味着“画得好,继续这么画”),得分低于平均水平的图获得负向优势(意味着“画得不好,以后别这么画”)。画图模型根据这些反馈信号调整自己的参数,争取下次画出更多高分图。

不过,这里有一个技术难点需要解决。原本的画图模型(基于“流匹配”技术)在生成图片时走的是一条“确定性路径”——给同样的输入,每次的生成过程是固定的。但强化学习需要“探索”,也就是尝试不同的可能性来发现更好的方案。解决办法是把确定性的生成路径转换为“随机路径”,在每一步生成过程中加入一点可控的随机噪声。这就像给设计师说“在你原来的方案基础上,每次稍微做一些随机的小调整”,这样才有机会碰撞出更好的方案。

聪明的筛选术:top-k过滤策略

在实际训练过程中,研究团队发现了一个容易被忽视但很棘手的问题:不同难度的提示词会导致优势值的估算出现偏差。

考虑这样一个场景:如果某个提示词比较简单(比如只要求两个物体的简单位置关系),那么24张生成图中可能有20张都画对了,只有4张画错。这时候组内的平均分会被拉得很高。结果就是,即使有些图画得很好,但因为平均分太高,它们的优势值反而变成了负数。在强化学习的语境下,负的优势值意味着“以后少画这样的图”——但这些图明明是画对了的!这就像一个班级里全是学霸,考了95分的同学因为班级平均分是97分,反而被当成了“差生”来批评。反过来,如果某个提示词特别难,24张图可能全都画得不好,此时低分的图也可能因为平均分同样低而获得不合理的正向优势。

为了解决这个偏差问题,研究团队提出了一个简洁有效的top-k过滤策略。思路很直接:在24张图的评分排序之后,只取得分最高的k张和得分最低的k张,用这2k张图来计算平均分和标准差,并且只用这些被选中的图来更新模型。这样一来,无论提示词难还是简单,用于训练的样本总是包含了“最好的”和“最差的”两个极端,优势值的分布更加均衡,训练信号也更加清晰。

研究团队测试了不同的k值。当k=4时(也就是取最好的4张和最差的4张,共8张),训练前期进步很快,但后期因为样本太少、多样性不够而速度放缓。当k=6时(取最好和最差各6张,共12张),在速度和多样性之间达到了最佳平衡。因此k=6被定为所有实验的默认配置。

这个策略还带来了一个额外的好处:大幅减少了计算量。原始的GRPO需要对所有24张图的生成过程做“函数评估”来更新模型参数,而采用top-k=6的过滤后,只需要对12张图做这个计算。在采样组大小为24、去噪步数为6的设定下,每个提示词每步训练只需要72次函数评估(2×6×6),而原始方案需要144次(24×6)。计算量直接砍半,但性能没有下降甚至还有所提升。

实验成绩单:全面碾压基线,逼近闭源大模型

那么,经过SpatialScore指导的强化学习训练后,AI画家的“空间布局能力”到底提升了多少?

在研究团队自己构建的SpatialScore评估指标上,FLUX.1-dev的原始得分只有2.18(满分10分),经过训练后跃升到了7.81,涨幅接近四倍。这就像一个室内设计师从“十件家具只能摆对两件”进步到了“十件能摆对将近八件”。

研究团队还在多个外部基准测试上做了评估。在DPG-Bench这个衡量“文字-图像对齐”的综合测试中,经过训练的模型在空间关系维度上从89.44%提升到91.58%,整体得分从82.91%提升到85.03%。要知道,这个整体得分已经非常接近GPT-Image-1的85.15%——而GPT-Image-1是OpenAI的闭源商业产品。

在TIIF-Bench测试上,研究团队分别测了短提示词和长提示词的表现。在短提示词的基本空间关系维度上,得分从75.8%提升到84.5%;在长提示词场景下,得分从64.5%提升到67.5%。在UniGenBench++测试的2D和3D布局维度上,改进同样显著,特别是在长提示词的3D布局上,从74.2%提升到80.1%。

与此形成鲜明对比的是,之前的Flow-GRPO方法使用GenEval作为奖励模型进行训练后的模型表现。虽然Flow-GRPO在短提示词上有些微改善,但在长提示词场景下性能急剧下降——在UniGenBench++长提示词的2D布局上从81.9%暴跌到44.5%,3D布局从74.2%跌到40.5%。这恰恰印证了前面提到的GenEval的局限性:它只能处理简单模板,一碰到复杂的多物体空间场景就“教不动”了。

从实际生成的图片来看,研究团队展示了多个复杂场景的对比。比如一个描述了餐厅场景的提示词,要求“三根蜡烛从左到右由高到矮排列,水果碗在中间蜡烛后面居中对齐,两个盘子分别在蜡烛前方与最高和最矮蜡烛对齐,画挂在碗的正上方”。原始的FLUX.1-dev画出的图中多个物体位置有偏差,Flow-GRPO版本甚至直接丢掉了蜡烛,而SpatialScore训练后的模型则基本完整且准确地还原了所有空间关系。另一个露营场景的例子更为极端,Flow-GRPO版本把帐篷都弄丢了,而SpatialScore版本则忠实地呈现了帐篷、火堆、水壶、原木、背包、灯笼等所有物体之间的前后左右关系。

研究团队还把SpatialScore的训练方法应用到了另一个画图模型Qwen-Image上。结果同样令人满意:在SpatialScore评估上从6.74提升到8.25,在各个外部基准测试的空间维度上也都有一致的提升。这说明SpatialScore并非只对某一个特定模型有效,而是具有良好的通用性。

在GenEval这个简单场景基准测试上,虽然研究团队指出GenEval本身有种种局限,但经过SpatialScore训练的模型仍然取得了显著的零样本提升:整体得分从0.65提升到0.78,其中位置维度从0.19提升到0.37——将近翻倍。这说明在复杂场景上学到的空间理解能力,确实能够迁移到简单场景中去。

硬币的另一面:局限性与未来方向

任何研究都有边界,这项工作也不例外。研究团队坦诚地指出,SpatialScore目前只在静态图片层面验证了空间理解能力的增强。当涉及到视频生成时,模型不仅需要理解“此刻物体在哪里”,还需要理解“物体如何随时间移动和变化”。比如,一段视频可能需要表现“先把物体A移到B的左边,然后把物体C放到B的右边,接着交换A和C的位置”——这种时序性的空间推理是当前研究尚未触及的领域。

研究团队认为,将奖励建模扩展到视频生成中的空间理解是一个重要的未来方向,尤其对于“仿真到真实”的具身模拟场景(也就是让机器人在虚拟世界里学习空间操作、然后迁移到现实世界中)来说,生成时间连贯且空间准确的视频序列对于弥合模拟与现实之间的差距至关重要。

至顶AI实验室洞见

归根结底,这项研究解决的是一个非常接地气的问题:让AI画出来的东西不仅好看,还“摆得对”。当你用AI生成一张产品宣传图、一个游戏场景概念图、或者一个室内设计参考图时,你希望画面中的每个元素都准确地出现在你指定的位置上,而不是需要反复“抽卡”碰运气。

SpatialScore的方法论——先构建高质量的对比数据,再训练专门的评判模型,最后用这个评判模型来指导生成模型的自我改进——本身就是一套可复用的研究范式。以后如果想让AI画家学会更好的光影处理、更准确的人体比例、更合理的物理规律表现,都可以沿用这条路径。

而这项研究中提出的top-k过滤策略,虽然听上去只是一个小技巧,但它揭示了强化学习训练中一个普遍存在的偏差问题,解决方案简洁而有效。这个思路对于其他领域的强化学习应用同样有参考价值。

对这项工作感兴趣的读者,可以通过arXiv编号2602.24233v1查找原始论文获取更多技术细节。随着AI生成内容在创意产业、电商、游戏、建筑设计等领域的应用越来越广泛,“让AI准确理解空间”这件事的重要性只会与日俱增。SpatialScore向我们展示了一条可行的路径,而路的尽头还有更广阔的可能性等待探索。

论文地址:

https://arxiv.org/pdf/2602.24233

END

本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A

Q1:SpatialScore是什么,准确率有多高?

A:SpatialScore是北大和字节跳动联合开发的一个专门评估AI生成图片中空间位置关系准确度的奖励模型,基于70亿参数的Qwen2.5-VL-7B微调而成。在研究团队构建的测试集上,SpatialScore达到了95.77%的配对准确率,甚至超过了GPT-5和Gemini-2.5 Pro等顶级闭源模型。

Q2:SpatialReward-Dataset数据集是怎么构建的?

A:SpatialReward-Dataset包含8万对“对抗性偏好对”,每对由一张空间位置正确的“完美图”和一张故意扰乱了部分空间关系的“干扰图”组成。提示词由GPT-5生成和扰动,图片由三个顶尖生成模型产出,最后所有数据对都经过人工专家逐一审核和过滤。

Q3:SpatialScore训练后的AI画图模型提升有多大?

A:以FLUX.1-dev模型为例,经过SpatialScore指导的强化学习训练后,空间评分从2.18提升到7.81(涨幅近4倍),在DPG-Bench综合评测中整体得分达到85.03%,接近OpenAI闭源产品GPT-Image-1的85.15%水平。

相关内容

热门资讯

双廊古镇太挤,路边有个观景台倒... 骑着摩托车环洱海骑行,每次经过双廊古镇都会被景区入口前拥堵的路况给劝退,所以至今也没走进去参观游玩过...
字节领航、Kimi 爆发:红包... 文 | 新立场Pro 这个春节,互联网巨头们用数十亿真金白银砸出了一场声势浩大的红包雨,试图强行拉...
山西运城:流光溢彩庆元宵   元宵佳节,山西运城节日氛围浓郁。河东池盐文化博览园“盬盐灯会”流光溢彩,上千组花灯映照着古老的池...
AI公司,开始闷声赚美元了 3月初,MiniMax交出了上市后的首份年报,营收同比增长158.9%至7903.8万美元,其中超过...
通鼎互联强势封板晋级6天3板 ... 通鼎互联今日再度涨停,成功晋级6天3板。盘后龙虎榜数据显示,买卖席位呈现激烈博弈。 买入方面,开源证...
江南老街甪钓湾,飘着元宵年味 甪钓湾是一个位于松江区黄浦江西南的古镇 ,严格意义上应该称之为江南老街,名字挺特别,历史却悠久,已有...
一夜骤降11℃!仙游晚上可能“... 万户千家今夜好张灯结彩闹元宵今天是农历正月十五我们迎来丙午马年元宵节昨夜冷空气如期而至与暖湿气流交锋...
潍坊临朐:雪后沂山 云海映雪美... 齐鲁网·闪电新闻3月3日讯 近日,受寒潮天气影响,国家5A级景区、素有“东泰山”之称的潍坊临朐沂山迎...
AI视光新范示丨蔡司光学&am... 3月2日,第二十四届中国(上海)国际眼镜业展览会在上海新国际博览中心启幕。展会首日,蔡司光学(Car...
13.14公里赴春约!想免费游... 封面新闻记者 杨金祝3月3日,记者从瓦屋山景区获悉,2026年3月4日—4月30日,瓦屋山景区面向所...