微软宣布推出Maia 200,这是一款突破性的推理加速器和推理动力引擎,标志着AI的未来可能不仅在于大语言模型生成多少Token,更在于如何最优化地生成。
这款AI芯片专为多环境异构AI基础设施设计,特别针对大型推理模型的推理任务进行了优化。微软声称这是目前所有超大规模云服务商中性能最强的第一方芯片,也是其部署过的最高效推理系统。
Moor Insights & Strategy副总裁兼首席分析师Matt Kimball表示,微软的方法与其他超大规模云服务商不同。"其他云服务提供商提供的平台专注于训练和推理,偏向于自己的定制堆栈,而微软将推理视为战略着陆区,构建了针对智能体AI驱动环境优化的平台。"
卓越性能表现
微软声称,Maia 200的4位浮点(FP4)性能比第三代Amazon Trainium高出3倍,8位浮点(FP8)性能超过谷歌第七代TPU。
具体数据显示,Maia具备以下特性:
峰值4位浮点(FP4)算力达10,145万亿次运算/秒,而AWS Trainium3仅为2,517万亿次运算/秒
峰值8位浮点(FP8)算力达5,072万亿次运算/秒,而Trainium3为2,517万亿次运算/秒,谷歌TPU版本7为4,614万亿次运算/秒
高带宽内存(HBM)速度达7万亿位/秒,而Trainium为4.9万亿位/秒,谷歌TPU版本7为7.4万亿位/秒
HBM容量为216GB,而Trainium为144GB,谷歌TPU版本7为192GB
此外,微软表示,Maia相比"当前机队中最新一代硬件"提供30%更好的性价比。"大量"高带宽内存(HBM)使模型能够尽可能接近计算资源运行。
"实际上,Maia 200可以轻松运行当今最大的模型,并为未来更大的模型留有充足空间,"微软表示。
创新架构设计
Maia还通过微软所称的重新设计的内存子系统以不同方式向模型提供数据,该子系统具有专门的直接内存访问(DMA)引擎和片上静态随机存取存储器(SRAM),以及专门的片上网络(NoC)结构。这些都允许高带宽数据移动,同时增加Token吞吐量。
微软表示,特别针对现代大语言模型设计了Maia 200;具有前瞻性的客户不仅寻求文本提示,还希望获得支持更深层推理能力、多步智能体以及最终自主AI任务的多模态能力(声音、图像、视频)。
作为异构AI基础设施的一部分,微软表示Maia 200将服务多个模型,包括OpenAI最新的GPT-5.2系列。它与Microsoft Azure无缝集成,Microsoft Foundry和Microsoft 365 Copilot也将从该芯片中受益。该公司的超级智能团队还计划使用Maia 200进行强化学习(RL)和合成数据生成,以改进内部模型。
行业专家评价
Info-Tech Research Group咨询研究员Scott Bickley指出,从规格角度来看,Maia 200超越了亚马逊的Trainium和Inferentia以及谷歌的TPU v4i和v5i。它采用3纳米工艺节点制造,而亚马逊和谷歌芯片采用7纳米或5纳米节点,在计算、互连和内存能力方面也表现出卓越性能。
然而,他提醒:"虽然这些数字令人印象深刻,但客户在将工作负载从Nvidia等平台迁移之前,应该验证Azure堆栈中的实际性能。"他还补充说,客户还应确保微软实现的30%节省部分通过Azure订阅费用传递给客户。
"Maia 200的理想用例将涉及高吞吐量工作负载以及大型模型的内存需求,"Bickley说。
技术演进历程
Bickley指出,Maia的早期版本"受到设计和开发挑战的困扰",这些挑战"主要是自己造成的"。这拖慢了微软在2024年和2025年在该领域的发展,而其竞争对手同时加快了开发速度。
"通过获得OpenAI的知识产权,他们似乎正在缩小差距,"他说。通过使用台积电的3纳米工艺、HBM和片上SRAM,以及针对推理性能的优化,微软"可能以一种将大幅降低自身基础设施成本的方式发展了这款芯片"。
Moor公司的Kimball补充说,Maia的软硬件架构对推理很有意义。"丰富的SRAM和HBM允许带宽在稳态推理中飞速运行,"他说。此外,该芯片采用行业标准互连,"在组件、系统、机架甚至数据中心级别提供性能"。
微软的开放软件堆栈"专门设计用于使在Maia上建立推理变得无摩擦",Kimball指出,强调:"这不是微软试图替代Nvidia或AMD。这是关于互补。"
Kimball指出,可以说,微软比任何其他云服务商都更了解企业IT组织,因为其软件和工具在这个市场上占主导地位已有数十年。其Maia团队利用这一知识提供了一个"似乎简单嵌入在Azure平台结构中"的推理服务。
部署与展望
开发者和其他早期采用者可以注册预览版Maia 200软件开发套件(SDK),该套件提供了为Maia 200构建和优化模型的工具,如PyTorch集成、Triton编译器和优化的内核库,以及访问Maia底层编程语言的权限。
Maia 200目前部署在微软位于爱荷华州得梅因附近的美国中部数据中心区域。接下来将到达位于亚利桑那州凤凰城附近的美国西部3数据中心区域,然后是其他区域;具体时间和地点尚未公布。
Q&A
Q1:Maia 200相比竞争对手有什么技术优势?
A:Maia 200在多个方面超越竞争对手:4位浮点性能比Amazon Trainium3高出3倍,8位浮点性能超过谷歌第七代TPU。采用3纳米工艺制造,拥有216GB HBM容量和7万亿位/秒的高带宽内存速度,在计算、互连和内存能力方面都表现卓越。
Q2:Maia 200主要适用于什么样的AI应用场景?
A:Maia 200专门针对现代大语言模型的推理任务设计,特别适合高吞吐量工作负载和大型模型应用。它支持多模态能力(声音、图像、视频),能够处理多步智能体任务,并最终支持自主AI任务,是推理密集型应用的理想选择。
Q3:企业用户如何使用Maia 200芯片?
A:Maia 200与Microsoft Azure无缝集成,Microsoft Foundry和Microsoft 365 Copilot将直接受益。开发者可注册预览版SDK获得构建和优化工具,包括PyTorch集成、Triton编译器等。目前已在美国中部数据中心部署,将逐步扩展到其他区域。
上一篇:特斯拉加码押注AI与机器人领域