Sand.ai开源发布MagiCompiler:突破局部编译界限,定义训推性能上限
创始人
2026-03-25 18:02:30
0

机器之心发布

大模型开发者常面临一个两难选择:要速度,还是省显存?

通常情况下,想要跑得快,显存会爆;想省点显存,计算效率又会被频繁的同步和流水线气泡大幅拖垮。原生的 torch.compile 虽然好用,但在面对复杂的跨层优化和 FSDP 显存管理时,依然力不从心。

为了彻底解决这一痛点,Sand.ai 今天正式开源 MagiCompiler —— 一款基于 torch.compile 深度优化的即插即用、训推一体编译框架。

MagiCompiler 彻底突破了传统局部编译的界限,实现了推理期整图捕获与训练期 FSDP-Aware 整层编译。

更重要的是,研发团队创新提出 Compiler as Manager 理念 —— 将编译器从单纯的 “算子优化器” 进阶为全局管理器。它全面接管了计算调度与显存的生命周期,以系统级的底层解法,破解算力与显存墙难题。

  • 代码仓库:https://github.com/SandAI-org/MagiCompiler

核心技术

打破边界的全局调度

1. 打破编译边界:整图与整层编译

传统编译常因复杂的 Python 逻辑频繁触发 Graph Break。研发团队彻底改变了这一点:

  • 推理期:捕获完整的计算图,最大化 Transformer Block 内的算子融合空间。
  • 训练期:利用 FSDP 在前向 / 反向传播中 “单层权重全驻留” 的特性,将 Transformer Layer 作为编译单元。这使得编译器可以执行激进的跨算子融合,大幅减少 Kernel Launch 开销和 Global Memory 读写。

2. 内存魔术:启发式重计算(Heuristic Recompute)

在训练大模型时,开发者通常需要手动插入 torch.utils.checkpoint 来控制显存,既繁琐又难以最优。MagiCompiler 引入了智能感知图分割器:

  • 彻底告别手动打点:框架自动分析计算图,识别并优先保留 MatMul、Attention 等计算密集型算子的输出。
  • 极致抠显存:对于显存密集型算子,自动在反向传播时进行重计算,从根本上压缩显存峰值而不损失吞吐量。

3. 榨干带宽:JIT 极致 Offload 调度

针对显存瓶颈,研发团队实现了一套极其优雅的权衡调度引擎:

  • 性价比常驻:基于 Profiling 数据,将最划算的权重贪心地常驻在有限的 GPU 显存中。
  • JIT 最晚预取:调度器逆向推导精确的预取时间表,卡在计算前的 “最后一刻” 完成权重拉取,确保 GPU 不囤积多余权重,彻底消除流水线气泡。

MagiCompiler Overview

性能实测

真正免费的性能午餐

凭借底层的全局调度,MagiCompiler 交出了亮眼的答卷:

  • 训练端表现:在极短时间内,提供高吞吐的保底方案。无需耗时数周死磕 Kernel 或手工魔改底层逻辑,开箱即可解决 Baseline 的 CPU 调度与算子碎片化难题,直接带来 44.7% 提速与 6.2% 显存下降,且精度完全对齐。

MagiCompiler v.s. baseline

  • 推理端表现:在多模态视频生成场景下,MagiCompiler 展现了极其扎实的硬件泛化能力
  • H100:比最好更好
  • 在单机 NVIDIA H100 上,面对主流视频生成模型,MagiCompiler 比目前的领跑方案(如 LightX2V)还要快 9%~26%

H100 性能测评

  • RTX 5090:显存受限,近乎实时
  • 即便在显存有限的 5090 上,通过 JIT Offload 调度,MagiCompiler 也让 daVinci-MagiHuman 这种超大模型跑出了近乎实时的速度。

5090 daVinci-MagiHuman 性能指标

极简体验

一行代码,即插即用

强悍的底层性能并不意味着复杂的接入成本。秉持对开发者友好的设计理念,MagiCompiler 只需两个装饰器即可完成接入。

  • 基础编译增强
  • 无需修改模型源码,magi_compile 一键装饰 TransformerBlock:

  • 自定义算子注册
  • 对于 FlashAttention 或 MoE 等定制化算子,轻松注册并无缝融入重计算策略:

此外,我们内置了强大的自省工具链:开启环境变量,所有隐式的编译产物(反编译字节码、Kernel 代码、Guard 条件等)均会被持久化为人类可读的 Python 文件与图表,让编译器 Debug 变得简单直观。

结语与未来展望

MagiCompiler 正在打破传统编译器的边界。它不仅让我们看到了 torch.compile 迈向全局调度的巨大潜力,更为大模型与多模态架构的规模化落地提供了基础设施。

目前,MagiCompiler 已全面开源。Sand.ai 将持续降低大模型底层的开发门槛,为 AI 社区持续做出贡献。

了解更多信息,欢迎访问 Sand.ai 官网:https://sand.ai

相关内容

热门资讯

青浦:一眼收芳菲,足迹印江南!... 人间五月,浅夏已至,春意未央正是出门散步、享受慢生活的好时节在四通八达的宽阔大路与阡陌纵横的古镇小巷...
烟台文旅走进江苏五市开展公众推... 齐鲁晚报·齐鲁壹点 秦雪丽 实习生 刘璐欣 通讯员 旅宣5月7日至13日,烟台市文化和旅游局组织50...
神秘AI模型Mythos曝光m... 不得了了啊!近日有安全研究人员利用Mythos成功揭露了macOS系统中的安全漏洞,苹果公司已对此展...
丰富场景+优质体验 外国游客纷... 为了提升外籍游客消费体验,进一步释放跨境消费活力。今年以来,国内多地不断优化涉外消费服务保障,通过搭...
【文化评析】在文旅融合中探寻城...   【文化评析】  作者:田卉(中国传媒大学文化产业管理学院副研究员)  刚刚过去的“五一”假期,国...
隋代古刹天台寻幽,徒步七个多小... 爱旅游,爱生活。旅游可以放松自己的心情,你有好久没来一场说走就走的旅行,忘掉不顺心,迎接新2026年...
2026 AI Partner... 如果说过去两年,我们还在争论AI的能力边界,那么2026年的资本市场与产业端已经给出了最直接的回答:...
藏在泰安的花海仙境 初夏的虎山... 齐鲁网·闪电新闻5月14日讯 初夏的风,带着几分俏皮与温柔,轻轻拂过泰安虎山公园的每一个角落。明媚的...
郑州出发,火车卧铺睡一觉直达去... 炎炎夏日最适合去游玩的地方非海边莫属担心游玩经费不足怎么办?卧铺无疑是最佳选择票价便宜的同时还能省下...
腾讯辟谣“AI一号位即将离职” 每经AI快讯,5月14日,腾讯发布严正声明,今天中午,有自媒体谣传“AI一号位即将离职”并影射腾讯,...