英伟达近期收购了Slurm工作负载管理器背后的开发公司SchedMD,此举在AI行业高管和超算领域专家中引发了广泛担忧。各方担心这家芯片巨头可能利用其新获得的地位,通过代码优先级设置或技术路线图决策,在竞争对手的芯片面前为自家硬件谋取优势。
问题的核心在于:英伟达目前掌控了一款同样运行在AMD、英特尔等竞争对手硬件之上的调度软件。路透社援引五位匿名消息人士的说法报道称——其中三位在AI行业任职,两位熟悉超算运营——无论是否实际动用,掌握工作负载调度软件的厂商对共享计算环境中竞争硬件的运行效率拥有相当大的话语权。
接受InfoWorld采访的分析师表示,英伟达承诺开源的声明——该公司在宣布收购时表示将"继续以开源、厂商中立软件的形式开发和分发Slurm"——可能并不足以提供充分保障。
TechInsights半导体分析师马尼什·拉瓦特表示:"Slurm的开源基础提供了代码透明、可分叉和社区治理等保障机制,但SchedMD的控制权赋予了英伟达软实力,而非硬性锁定。"他指出,英伟达可能以隐蔽的方式左右技术路线图,优先推进有利于自身硬件的GPU感知调度和拓扑优化,而且从集成时间线来看,CUDA生态系统的支持推进速度已明显快于AMD的ROCm或英特尔的oneAPI等替代方案——他将这种现象称为"最优支持路径效应"。
Slurm最初由劳伦斯利弗莫尔国家实验室开发,目前运行在全球约60%的超算系统之上。据路透社报道,该软件正被Meta、法国AI初创公司Mistral及Anthropic等主要AI公司用于AI模型训练等工作。各国政府用于气象预报和国家安全研究的超算同样依赖这一软件。英伟达于2025年12月完成对SchedMD的收购,并将此次交易定性为强化开源生态、帮助用户在传统超算工作的同时采用更新AI技术的战略举措。
美国AI硬件与数据中心咨询机构Fab Economics的首席执行官丹尼什·法鲁基博士表示,相关风险确实存在。"英伟达可能在未来的软件更新中优先照顾自家硬件、进而拖慢或降低对竞争对手支持力度的担忧,是完全有可能成为现实的。"他表示,作为主要开发者,英伟达现在掌控着Slurm的官方开发路线图和代码审查流程,"这可能影响竞争芯片在新功能开发或持续优化方面的集成速度。"
他补充说,将GPU、网络基础设施(如InfiniBand)以及控制平面集于一身,使英伟达得以构建高度垂直整合的技术栈,并由此形成他所称的"浅层护城河"——即某些高级功能仅在英伟达硬件上可用或性能最优。
业界观察人士表示,一个具体的检验节点将是:英伟达将AMD下一代芯片集成进Slurm代码库的速度,与其整合自身即将推出的硬件及网络技术(如InfiniBand)的速度相比如何。
分析师将英伟达2022年收购Bright Computing作为参照案例,认为此后该软件在优化方面向英伟达芯片倾斜,令竞争硬件的用户处于不利地位。英伟达对此提出异议,称Bright Computing支持"几乎任何CPU或GPU加速集群"。
拉瓦特认为,这一类比有借鉴价值,但并不完全准确。"英伟达收购Bright Computing的方式体现出其对垂直整合的偏好,将Bright紧密嵌入DGX和AI工厂技术栈,而非保持中立的多厂商编排角色。这折射出一种更宏观的战略模式——英伟达寻求掌控全栈AI基础设施体验。"
但他同时指出,Slurm面临的挑战本质上有所不同。"Slurm在超算中心和学术界根基深厚,且实际上由社区治理,迁移成本极高。英伟达或许能施加一定影响,但在那些由成熟、中立、社区驱动平台主导的市场中,不太可能复制同样程度的紧密整合控制。"
法鲁基承认,Slurm在GNU GPL v2.0许可证下的开源属性提供了一定保护,包括在社区认为英伟达的管理存在偏向时,有权对项目进行分叉。但他警告称,这一选项本身也存在风险。"Slurm的开源状态提供了有限度的安全阀,但并不能完全抵御厂商中立性的侵蚀。"
他指出,此次收购将全球众多顶尖Slurm开发者纳入英伟达麾下,这意味着一个由社区主导的分叉项目将难以维持相同的开发节奏。
拉瓦特将当前局面定性为"战略依赖风险,而非危机",建议各机构多元化GPU采购、在多厂商生态中对工作负载进行基准测试,并培养内部专业能力,以便在必要时修改或切换调度工具。
法鲁基则建议,企业买家在谈判Slurm支持协议时,应争取明确适用于非英伟达硬件的服务水平保障,涵盖响应时间、错误修复以及异构集群环境下的功能对等性。在架构层面,他建议各机构考虑将AI工作负载容器化,使应用与底层调度器解耦,从而在必要时更便捷地迁移至Flux或Kubernetes等替代调度方案。
Q&A
Q1:英伟达收购SchedMD之后,Slurm还会保持对其他硬件厂商的中立支持吗?
A:英伟达在收购时承诺继续以开源、厂商中立的方式开发和分发Slurm,但分析师认为这一承诺并不足以完全保障中立性。英伟达作为主要开发者,掌控着Slurm的官方路线图和代码审查流程,可能以隐蔽方式优先推进有利于自身硬件的功能,形成所谓"最优支持路径效应",对AMD和英特尔等竞争对手的硬件支持速度造成实质影响。
Q2:Slurm是什么?为什么它在AI和超算领域如此重要?
A:Slurm是一款开源工作负载管理器,最初由劳伦斯利弗莫尔国家实验室开发,目前运行在全球约60%的超算系统之上。它负责调度和管理计算资源,被Meta、Mistral、Anthropic等主要AI公司用于AI模型训练,同时也被各国政府的超算系统用于气象预报和国家安全研究,在AI及超算生态中具有极为关键的基础设施地位。
Q3:如果英伟达对Slurm的管理出现偏向,用户有哪些应对手段?
A:用户可采取多种应对措施:一是多元化GPU采购,避免单一厂商依赖;二是在多厂商生态中对工作负载进行基准测试;三是将AI工作负载容器化,降低与底层调度器的耦合度,便于迁移至Flux或Kubernetes等替代方案;四是在谈判Slurm支持协议时,要求服务水平保障明确覆盖非英伟达硬件;五是在必要时启动社区分叉,但需注意这一选项因顶尖开发者已被英伟达纳入而存在局限性。