中国企业加速AI部署,昇腾大EP方案成首选,H20遇挑战
创始人
2025-03-16 22:12:03
0

仅仅不到30天,一些企业就已走过DeepSeek尝鲜阶段,从一体机,急速转向推理集群。

文|牛慧

DeepSeek爆火之后,进展之快,让业界应接不暇。

春节开工后首月,政务、金融、教育、医疗等千行百业掀起尝鲜浪潮。根据爱分析的统计,截止2月21日,已有约45%的央国企部署了DeepSeek模型。不少企业都是快速买一两台一体机,来体验DeepSeek的效果。这让一体机商机几乎是以往的百倍,呈现井喷。

仅仅不到30天,一些企业就已走过尝鲜阶段,从开箱即用的DeepSeek一体机,急速转向可支撑高并发、低时延的大规模专家并行(EP)推理集群

在这场算力迭代角逐中,昇腾大规模跨节点专家并行(大EP)方案,因对DeepSeek模型的支持及在技术思路上的契合,成为国内企业的主要选择。英伟达H20因算力短板和出口管制等不确定因素,面临挑战。

01

企业推理需求激增,算力扩容

随着DeepSeek引发的人工智能热潮,中国企业正加速AI部署。

开年不到一个月,一些企业就已走过试用阶段,开始探讨算力扩容问题。比如,一些企业先接入DeepSeek,尝鲜通用能力,之后开始将业务系统对接DeepSeek,结果用户增长快速,并发量越来越大。在这种情况下,一台一台增加一体机的线性扩展方式,已经不满足他们的需求。

DeepSeek推动产业进入一个新阶段——当企业应用开始上量后,对推理部署提出了在高并发、低时延场景下,要实现高性价比、稳定的要求

随着应用上量,目前市场上用户推理算力的规模,从早期一两台一体机,即8卡、16卡规模,正在快速扩展到大几十卡、一两百卡以及千卡。而随着应用范围的扩大,推理算力的规模还在持续扩大中。

为什么这轮企业推理需求会持续急剧扩大?

非常重要的一点是,DeepSeek给千行百业带来了信心——哪怕算力受限,依然能够做出一流的模型。DeepSeek也开源了模型,很多企业有信心在强大的基础大模型之上,实现人工智能的真正落地,这带来了新一轮的百模千态

DeepSeek借助MoE(混合专家模型)技术,通过大EP并行(大规模跨节点专家并行)和超集群互联技术,成功降低了对高算力单卡的依赖

DeepSeek也开辟了新的训练模式,让企业应用大模型的路径缩短了。以前搭建一个智能化平台,架构复杂、成本高昂。DeepSeek让大家发现,原来二次训练没有那么复杂。从一些社区热议的外挂知识库,到先将模型蒸馏,再通过强化学习而不是之前的微调和RAG,也能将自身数据训练到模型上去,这些过程比原来要快很多,所需的行业数据也至少少一个数量级,从而带动企业快速做出场景。

客户对AI的认知也发生了彻头彻尾的变化。以前是大模型企业到客户那里去“拿着锤子找钉子”,现在是客户一下子拿出好多场景,主动要求做更多。

由于上述因素,千行百业以更快速度拥抱DeepSeek,企业进入DeepSeek与业务结合的阶段。接下去,越来越多的智能体也将涌现,甚至业务系统与DeepSeek的对接,以及智能体的推广是并行的。未来三个月,我们将看到不断变革的过程。而这都要求智算市场做出及时反应,快速支撑。

02

DeepSeek开源周后,推理集群怎么选

就在业界对推理算力提出更高要求的时候,DeepSeek于2025年2月底举办了“开源周”活动,连续五天每天发布一个开源项目。

这些开源项目涉及大模型全流程。在推理加速上,DeepSeek也开源了不少技术。而人们发现,这些实践都是在200多台服务器集群环境下做出的,规模远比企业目前一两台一体机要大得了。这也与当下企业推理扩容的方向一致。

值得关注的是,DeepSeek模型采用的MoE架构,有大专家和小专家模式之分。大专家类似全科大夫,管的事情多,因此每个token激活的参数量多,计算量大,成本也高,走性能摸高之路。

DeepSeek则采用了小专家模式,如V2有160个专家,V3有256个专家,每次激活的参数量小,成本降低,在性能提升的同时,更有利于快速普及,而这两种方案将共存。

DeepSeek的推理集群,也贴合了小专家MoE架构,是一种大规模跨节点专家并行(简称大EP并行)的方式。

它将众多小专家分布到更多的卡上,如DeepSeek-R1推理集群,每卡部署 1~2个专家,每张卡占用的资源减少了,大量资源可用来支持更多并发用户,也降低了对高算力单卡的依赖。通过各类技术创新,实现了高效并行计算,这为AI推理提供了参考之路。

在DeepSeek开源周之后,由于技术思路上的高度契合,昇腾和科大讯飞联合团队,率先实现了8机64卡的跨节点专家并行推理集群,这是继DeepSeek公布其MoE模型训练推理方案后,业界首个基于自研算力的解决方案。

在大EP方案中,因为有更多专家,带来了负载均衡、卡间通信的挑战。昇腾大EP方案采用了MoE负载均衡、PD分离部署、双流/多维混合并行、MLAPO融合算子、MTP(多token预测)等技术,来实现集群的高效性。

这些优化技术,核心围绕两大方向:一是提高推理集群的吞吐,如MoE负载均衡,来服务更多用户;另一是降低时延,如MLAPO融合算子等,这与用户体验息息相关。

具体而言,MoE负载均衡如何实现高吞吐?通俗说是要避免有的专家特别忙,有的则特别闲,还要解决专家之间交换意见占用了处理问题的时间等问题。通过自动寻优、自动配比、自动预测、自动降解等创新,昇腾大EP方案实现了负载均衡,极大提高了集群的吞吐量。

MLAPO融合算子有如何降低时延?为了优化模型的推理效率和显存占用,DeepSeek采用了MLA(多头潜在注意力机制)。在MLA的预处理阶段,传统方案是多算子串行,频繁占用内存、通信等资源;昇腾则将各种小算子融合成单一算子,把上述频繁操作并行处理,降低计算耗时70%,也就降低了时延。

这些技术中,还值得关注的是PD分离部署,这其实是业界一个公开的推理优化技术。生成式人工智能过程分为两个阶段,一是理解用户问题,称为预填充阶段(Prefill),需要大量计算另一是生成回复,称为解码(Decode),对计算要求降低、访存要求提升

之前两阶段由同一个节点完成,有资源竞争、推理延迟问题。业界目前将两者分开部署,成为提升推理效率的关键技术。传统的PD静态分离方案不够灵活,昇腾大EP提供了autoPD分离部署方案,适应动态调整的场景,系统有效吞吐提升50%以上。

经过多点技术的优化,目前昇腾大EP方案推理吞吐提升3.2倍,端到端时延降低50%,并在持续提升中。

在这里,要提到不少企业关注的英伟达H20,它被视为是替代H100的热门之选。H20是H100的阉割版,其AI算力仅为H100的15%,因此在大模型预训练上很难发挥作用。

在推理上,H20因为算力制约,只适应特定模型架构,如稠密模型的长序列推理任务场景

针对DeepSeek采用的MoE,以上述PD场景为例,在预填充阶段(Prefill),需要较强算力,H20性能不占优。在解码(Decode)阶段,在大EP的大批量(batch size)场景下,H20算力也极易触及瓶颈,时延大幅增加,无法充分发挥DeepSeek专家并行机制带来的高吞吐优势,因此,DeepSeek在推理服务上,也未采用H20。

H20目前被作为特定场景下的过渡性产品。

数智前线获悉,在此前一体机市场上,昇腾份额已达到70%以上。而根据用户的需求,昇腾大EP方案可支持从几十卡到几千卡甚至更大规模的推理集群。企业之前采购的一体机,可通过软件升级,扩展为大EP推理方案,实现平滑迁移,支撑企业加速AI部署带来的智算市场爆发。

相关内容

中毅达股价涨停 公司回应A...
截至3月17日收盘,中毅达股价报5.97元,较前一交易日上涨9.9...
2025-03-17 23:12:41
提升直播技能,坑梓街道举办...
深圳商报·读创客户端记者 刘育銮 通讯员 刘江 韩一菲 黄艳阳 文...
2025-03-17 22:44:55
在杨浦这所学校,AI带来了...
当前,人工智能(AI)发展浪潮席卷全球。杨浦区二师附小率先迈出创新...
2025-03-17 21:42:56
国晟科技:公司高度重视AI...
证券之星消息,国晟科技(603778)03月17日在投资者关系平台...
2025-03-17 17:13:46
阿里云启动“T项目”加速A...
观点网讯:3月17日,阿里云宣布启动“T项目”,旨在加速下一代AI...
2025-03-17 17:13:37
AI设计家、AI云展厅……...
深圳商报·读创客户端首席记者 王海荣 由土巴兔公司发起的“316有...
2025-03-17 17:13:22

热门资讯

王家大院现在的所有者还是王家的... 王家大院现在的所有者还是王家的后人吗?我说的是山西灵石的王家大院...现在不知道是被收为国,还是仍为...
写字好看的女生有什么优势 写字好看的女生有什么优势见字如见人,字好看 很加分的。学校有书法比赛时很吃香哦感觉没有打字快的女生有...
我家办白事,朋友给我发红包,我... 我家办白事,朋友给我发红包,我该怎么说感谢话我家办白事,朋友给我发红包,我该怎么说感谢话当家里有事情...
杨大勇的妻子是谁 杨大勇的妻子是谁杨大勇的妻子是一位名叫王小丽的女性。据悉,王小丽与杨大勇相识于大学时期,两人相恋多年...
小猿众包骗局 小猿众包骗局小猿众包是小猿旗下的可以在家做题赚钱的兼职,平时如果时间充裕的情况下可以做做小猿众包挣个...
顶级绝伦推理片100部介绍 顶级绝伦推理片100部介绍 《白夜追凶》;可以说是刑侦国剧天花板了,逻辑,叙事方式,主演演技,这些几...
女生说男生丑萌什么意思? 女生说男生丑萌什么意思?丑萌就是又丑又萌,意思是男生在她的审美里不是好看的那种,但是又很戳她萌点就是...
自从和女朋友确定关系后,女朋友... 自从和女朋友确定关系后,女朋友为什么每天晚上发视频要我给她讲故事哄她睡觉?每次给她讲一个小时她都不睡...
一个女生。让我去找她玩。是什么... 一个女生。让我去找她玩。是什么意思呢?求解。她是对你有好感的,不然也不会邀请你去找她玩。有可能把你当...
托举的意思是什么 托举的意思是什么一、“托举”是花样滑冰的技术名词。指两人在滑行中,以某一种连接方式,男伴将女伴托起至...