460万美元训练!月之暗面万亿参数模型登顶开源榜首,国产模型的又一个DeepSeek时刻
创始人
2025-11-10 15:45:15
0

图片由AI生成

出品 | 搜狐科技

作者 | 梁昌均

编辑 | 杨锦

“AI独角兽又重回舞台中心了。”谈及最近国产大模型的表现,有AI从业者感叹。

最新例证是,月之暗面发布的万亿参数思考模型Kimi K2 Thinking,其基本赶超GPT-5等领先的闭源模型,并登顶全球开源模型榜首。

值得注意的是,这款模型还用了很低的成本。搜狐科技获悉,Kimi K2 Thinking模型的训练成本约为460万美元(约合人民币3200万元)。

这刷新了DeepSeek的纪录。DeepSeek曾透露V3模型仅花了560万美元,引发全球AI圈震动,如今Kimi K2 Thinking又降低了百万美元。

“这是中国大模型最接近OpenAI的时刻”、“又一个DeepSeeek时刻”,不少评价称。而除了月之暗面,智谱、MiniMax的模型最近也在海外出圈。

DeepSeek-R2迟迟不来,现在其也似乎已不再是话题中心,曾被抢去风头的国内AI独角兽则开始走向全球舞台,这也是这些公司试图重新抢回技术话语权的尝试。

“又一个DeepSeeek时刻”

万亿参数、开源登顶、赶超GPT-5……这是月之暗面最新发布的思考模型Kimi K2 Thinking被外界讨论的关注点。

官方评测显示,该模型在推理、编程等多个能力超过或接近GPT-5和Claude Sonnet 4.5,并在人类最后的考试(Humanity's Last Exam)等多项基准测试中达到SOTA(最优)水平。

“这是开源模型的历史性突破。”在Artificial Analysis(下称AA)最新发布的全球模型综合评测中,Kimi K2 Thinking得分跃居全球第二,和GPT-5两款模型仅有1分之差。

在该机构发布的智能体评测基准τ2-Bench的电信任务中,Kimi K2 Thinking更是直接跃升至第一名,吊打GPT-5、Claude Sonnet 4.5、Grok4等领先模型。

月之暗面在海外社交平台对这款模型的介绍推文短短几天阅读就超过440万,并再次刷新了海外对中国大模型的认知,有评论认为这又是一个“DeepSeek时刻”。

这款模型用了比DeepSeek更低的成本。搜狐科技从知情人士获悉,Kimi K2 Thinking模型的训练成本约为460万美元。这不仅远低于OpenAI等模型投入,还打破了DeepSeek-V3约560万美元的训练成本纪录。

“相对美国那些顶尖模型来说,这个成本很低。中国多数模型都差不多这个预算水平,很多企业没有那么多芯片可用,所以就是看谁训得好。”有AI从业者表示。

至于Kimi K2 Thinking为何能继续降低成本,月之暗面并未透露相关技术论文,业内认为还是得益于算法、架构、后训练等方面的优化,此次关键的一点是采用了原生INT4量化技术。

INT4是指在大语言模型中的一种量化技术,其通过降低模型参数的数值精度来减少模型的存储需求和计算资源消耗,同时尽可能地保持模型的性能。

月之暗面研究员刘少伟发文透露,在研发K2-Thinking时,发现随着模型的生成长度变得越来越长,想要实现低延迟的推理,必须使用量化损失更小的INT4 QAT(训练感知量化)方案,这也使得后训练强化学习的训练效率显著提升。

至于为何不选择更“先进”的格式,刘少伟称是为了更好地支持非Blackwell架构硬件。“在大模型时代,量化是一个可以跟SOTA和Frontier(边界)放在一起,甚至加快模型达到Frontier速度的概念。”

不过,不少实测显示,Kimi K2 Thinking显得非常“话痨”。在AA的智能指数评测时,它总共使用1.4亿个token,是DeepSeek V3.2的2.5倍,是GPT-5的2倍,导致推理成本和速度受到一定影响。

“现在,世界上最智能的模型是开源的,而且来自中国。如果美国继续闭门造车,中国开源模型将会完全取胜。”有评论说到。

全球华人首富黄仁勋上周提到,中国的AI技术非常出色,并开发出了非常优秀的AI,目前世界上最流行的开源AI模型都来自中国,发展速度非常快。

这话说得没错,目前中国的开源模型无论是能力,还是数量都占据优势,今年的开源榜首也由中国模型轮流做。

在AA全球最新开源模型榜单中,全球前十模型中有六款来自中国,其中Kimi K2 Thinking居首,取代了半月前登顶榜首的MiniMax-M2,以及更早前的阿里、DeepSeek模型。

过去一段时间,以OpenAI为核心的美国科技圈围绕算力基础设施进行捆绑,并挥出上万亿美元的投资,将自身优势发挥到了极致,但这种模式在中国难以复制。

对中国多数大模型厂商来说,需要在算法、架构、工程等层面加大创新突破,正如DeepSeek和Kimi所做的这样。一点一点的微创新累计起来,最终有可能产生惊人的成果。

一个明显的信号是,中国AI独家兽在重回技术竞赛后,正在重回舞台中心。现在,DeepSeek在AA全球模型的排名已至十名之外,或许只有R2会再扳回一局。

国产模型的应用之风吹到了硅谷

在Kimi 模型出圈的背后,中国大模型日益受到海外青睐,硅谷正尝试从昂贵的闭源往更便宜的中国开源模型上迁移。

硅谷知名投资人、Social Capital公司创始人Chamath Palihapitiya近日坦言,已把大量工作负载转移到Kimi K2。

美国云计算公司Vercel则上线了该模型的API服务,AI编程独家兽Cursor和Windsurf,百度前高管景鲲在美创业公司Genspark,以及AI搜索独角兽Perplexity等多家公司均有接入。

MiniMax早前发布的推理模型M2,推出几天后就在海外模型路由器OpenRouter的全球调用量达到前三,一度成为HuggingFace下载量最大的模型,还有至少20家平台提供了API服务。

此外,不少硅谷公司被爆出套壳中国大模型。Cursor在最新2.0版本更新中,推出首个自家的代码模型Composer。但被开发者爆出,Composer套壳了中国的GLM-4.6模型。

GLM- 4.6是智谱在今年9月底发布的旗舰模型,代码能力对齐Claude Sonnet 4,当时号称国内最好的代码模型,随后在大模型竞技场LMArena中排名开源模型第一。

另外两大AI编程独角兽Cognition和Windsurf也被爆出套壳GLM-4.6,Windsurf在被网友扒出后,直接不装了,称应社区用户的热烈呼声,上线了GLM-4.6模型,认为其“将带来更出色的代码生成能力和编程任务表现”。

这也让不少AI从业者感到振奋。“原来都是中国大模型套壳海外领先模型,现在我们的模型成为被套壳的对象,国产模型真正开始扬眉吐气了。”

可以说,中国大模型出海已进入新阶段。从最初仅仅是关注讨论,到部分产品应用出圈,再到多个国产基座模型在海外企业落地,大模型领域的Made in China含金量,正在持续上升。

值得注意的是,这些模型均选择了开源。这让全球开发者和企业能够无负担地应用起来,而中国大模型借助开源正在构建起越来越大的技术影响。

当然,开源也需要实力支撑,而让硅谷选择中国模型的关键就是极致的性价比。

美国云计算公司Vercel CEO吉列尔莫·劳赫(Guillermo Rauch)提到,在内部智能体真实场景基准测试中,Kimi K2在运行速度和准确率上优于GPT-5和Claude Sonnet 4.5,其中准确率更是高出50%。

前述硅谷投资人Chamath则提到,Kimi-K2性能够强,且比OpenAI和Anthropic便宜太多。

数据显示,Kimi-K2、Kimi K2 Thinking以及智谱GLM-4.6的API输出价格约为GPT-5的20%,不到Claude Sonnet 4.5的15%,MiniMax-M2的价格更是仅有Claude Sonnet 4.5的8%。

“这个一个重要时刻,中国的开源模型具备了足够的能力来支持西方产品的开发,全球AI正进入多极化竞争的新格局。”有评论称,甚至有海外网友表示:是不是该学点中文了?

融资上市,AI独家兽各谋出路

技术赶超、出海破圈,中国的AI独角兽试图继续留在牌桌上。这也让它们在迈向上市和新一轮融资的过程中,更有底气了。

月之暗面最近被爆出开启新一轮融资,甚至传出海外知名的a16z考虑投资。有消息称,月之暗面此次融资约6亿美金,投前估值38亿美金,领投方指向IDG,腾讯、五源资本、今日资本等老股东计划跟投。

如融资完成,月之暗面有望成为继智谱、MiniMax后又一家估值超300亿元的AI独角兽。

搜狐科技就此向月之暗面以及有关投资方求证,对方未做回应。有关注AI的投资人认为,这么高额的融资,一般需要比较长的时间决策确认,而美国基金在当前环境下不太可能投。

对月之暗面前述估值,该投资人表示,在国内大模型融资热潮已经过去的情况下,这个估值不算低,但相较美国大模型独角兽来说差距很大。

有观点认为,国内AI独角兽相较美国AI创企,技术和估值严重不匹配。比如,月之暗面估值不到OpenAI和Anthropic的1%,“国内大模型赚钱还是太难了”。

此前两年,月之暗面是大模型市场炙手可热的明星,去年超13亿美元的两轮融资更是让其成为估值达33亿美元的AI独家兽,Kimi也一度成为国内流量最高的AI原生应用。

然而,随着联创张予彤和朱啸虎的纠纷,以及DeepSeek冲击,月之暗面遭遇质疑,公司发展也出现摆动,停止产品投流,重心转向技术,并从闭源走向开源等。

今年以来,Kimi用户规模增长停滞甚至下降。据QuestMobile,今年9月,Kimi月活规模已不足千万,相较去年12月下降超过1100万,在国内AI原生APP排名从第二降至第五。

在商业化方面,月之暗面继续押注C端,此前在海内外上线OK Computer,并首次开启订阅付费。在国内同类型产品均免费,且面临头部竞争情况下,这可能是一场持久的恶战。

在这种情况下,此次融资对月之暗面颇为重要,尤其是在商业化相对较好的智谱开启上市和MiniMax计划上市的情况下,其需要积累更多资金应对未来的变局。

今年中期,MiniMax完成近3亿美元新一轮融资,投后估值超40亿美元,上海国资等出手。随后,该公司被爆计划赴港上市,当时内部人士称确有上市想法。

目前,该公司海外推出的陪伴类应用Talkie和视频生成应用海螺AI构成其主要收入来源,最近还在编程和智能体产品上推出收费模式,进一步押注C端。

深耕G端和B端的智谱则在今年上半年完成多地国资融资,并开启上市,有望在年内提交科创板招股书,成为大模型第一股。此前该公司爆出裁员,亦反应出商业化和上市的不易。

肉眼可见的是,AI四小虎中的阶跃星辰,似乎有些掉队。AI独角兽们在技术理想和现实交织当中仍面临生存压力,但目前还远未到格局已定的局面。

相关内容

热门资讯

“AI老师”火了,噱头还是真刚... 、编辑 / 郑晓慧@mersailles、设计 / 戚桐珲。 作为教育3C领域的亮眼单品,学习机的销...
铜陵市义安区十里长冲:碧潭映翠... 本文转自:人民网-安徽频道 在皖南的群山褶皱间,藏着一处鲜为人知的秘境——铜陵市义安区天门镇境内的十...
莱克电气涨6.45%,开源证券... 今日莱克电气(603355)涨6.45%,收盘报26.89元。 2025年9月1日,开源证券研究员吕...
河南南阳老界岭:红叶正盛 云海... 本文转自:人民网-河南频道老界岭万亩彩林进入最佳观赏期。人民网记者 尚明桢摄人民网南阳11月10日电...
十五运|山东今晚争进U20男足... 齐鲁晚报·齐鲁壹点记者 尹成君 张展硕的实力不容小觑。(资料片)新华社发 11月10日,是第15届...
金秋菊展游人如织 金秋菊展游人... 11月9日,济南趵突泉公园里的菊花花开正浓,吸引了众多游客来前赏菊。 齐鲁晚报·齐鲁壹点记者 陈文进...
460万美元训练!月之暗面万亿... 图片由AI生成 出品 | 搜狐科技 作者 | 梁昌均 编辑 | 杨锦 “AI独角兽又重回舞台中心了。...
南京钟山秋色美成油画,石象路落... 若说中国秋天的顶流目的地,南京钟山绝对拥有姓名。当北方的秋意早已铺陈开来,江南的秋却带着几分含蓄与矜...
谷歌发布“嵌套学习”范式:让A... 11 月 10 日消息,谷歌研究院于 11 月 7 日发布博文,为攻克 AI 模型在持续学习新知识时...
万联易达张栋:让AI与产业双向... 11月8日,万联易达集团CEO张栋受邀出席2025世界互联网大会乌镇峰会“前沿人工智能模型论坛”并发...