5月29日凌晨,中国AI公司DeepSeek在开源机器学习平台Hugging Face上悄然开源了新版R1模型(R1-0528),未发公告却震动全球。
据开发者社区测试显示,其代码生成与复杂推理能力已媲美OpenAI顶级o3模型,甚至在编程任务中可一次性生成工业级代码及配套测试用例,首次运行通过率接近100%,此前仅有o3能稳定做到这一点。
近期,DeepSeek沉寂许久,而OpenAI、谷歌等巨头密集迭代模型。OpenAI于5月23日推出o3模型,它是ChatGPT内Operator自主网页浏览和光标控制代理的升级基础模型,能提升网页任务执行准确性与安全防护能力。此前,其在4月先后发布o4-mini模型、GPT-4.1系列模型,其中GPT-4.1支持100万Token上下文,利于处理大型代码库,Nano版则成本低廉。谷歌则刚刚发布了Imagen4和Veo3模型,具备从文本到视觉内容生成的高质量输出能力,在图像、视频和音乐生成方面处于行业领先。
而此次DeepSeek再度以开源为矛,刺向全球AI竞争最敏感地带。据开发者实测,R1模型不仅逻辑严密性显著提升,能自主纠正思维链错误,其响应风格更与o3高度趋同——从箭头符号使用到分层递进式解释,甚至结尾的“why it works”总结段落,均展现出与顶级商业模型同级的交互成熟度。在代码生成领域,实测表明R1与Anthropic Opus 4差距已缩小至“毫厘之间”,部分创造性解法甚至更优。
更重要的是,R1延续了DeepSeek标志性的开源路线:模型权重、架构完全开放,允许免费商用与修改。这直击美国闭源模型生态的软肋。此前,其初代R1发布时,DeepSeek宣称训练成本仅560万美元,不到美方同类模型的十分之一,成功打破技术垄断的势头,甚至迫使OpenAI CEO奥尔特曼承认“闭源可能站在历史错误一边”。
面对美国芯片管制与框架封锁,DeepSeek已非孤军奋战。中国本土正形成以R1为核心的“芯片-框架-应用”全栈生态:
算力层上,适配国产芯片的推理优化方案,据技术演示,可使7B小模型在(极低内存/如256MB内存)设备运行;平台层上,腾讯、百度等将DeepSeek集成至微信搜索、文心一言等核心场景,推动技术普惠;商业层上,据公开信息,金融、医疗等约12个行业快速落地,企业应用案例显示可借蒸馏模型将推理成本显著降低至闭源方案的一小部分。
这种“开源+垂直优化”模式,正吸引新兴市场开发者涌入。GitHub数据显示,DeepSeek仓库贡献者覆盖185个国家/地区,其中印度、巴西开发者活跃度据观察仅次于中美。低成本与开放性,使其成为发展中国家AI跃迁的关键跳板。
目前,中国大模型竞争已从“百团大战”聚焦至市场观察所称的“基模五强”,如字节、阿里、阶跃星辰、智谱、DeepSeek。其中,DeepSeek凭借工程极致性与开源信仰,成为其中最独特的“特种兵”。其突破印证了一个战略趋势:当模型智能逼近临界点,开源生态的集体进化速度被普遍认为将超越闭源孤岛。