百度开源OCR登顶全球第一，核心作者疑似DeepSeek出走大神_日常知识

百度开源OCR登顶全球第一，核心作者疑似DeepSeek出走大神

创始人

2026-06-23 19:08:18

0次

最近AI圈热闹不断，各家扎堆发布多模态大模型，动辄几百B参数，比拼算力与参数量成了常态。就在行业疯狂堆规模的时候，百度悄悄开源一款颠覆性OCR模型UnlimitedOCR，彻底跳出“参数越大越强”的内卷逻辑。

一、500M迷你模型，性能碾压千亿级多模态大模型

同台对比更能凸显差距：235B的Qwen3-VL得分仅89.15%，72B的Qwen2.5-VL只有87.02%，谷歌不公开参数量的Gemini-2.5Pro也仅88.03%。这些动辄消耗海量显卡资源的大模型，综合精度全都不及这个“小个头”。

二、行业通病：所有OCR都在“读完一页忘一页”

这种看似能用的方式，只是工程层面的妥协，根源卡在传统注意力机制的底层缺陷。常规模型处理文本时，缓存会随输出文字不断膨胀，文本越长，占用内存呈滚雪球式上涨，速度持续变慢，硬件很快扛不住。为了避免内存溢出，厂商只能强制分页处理，天然造成上下文断裂。

就像人抄书不会看完一行就彻底忘掉前面内容，我们会保留完整书页作为参考，只记住刚抄写的几行文字，老旧内容慢慢淡化，不会全盘清空。百度团队把人类这种自然阅读逻辑命名为“软遗忘”，也是UnlimitedOCR实现突破的核心灵感来源。

三、核心黑科技R-SWA：模仿人类阅读，彻底告别长文本失忆

R-SWA设计分成两条独立逻辑：一是 全局可视，模型生成每一段文字时，完整读取全部页面图像与提示词，整本文档内容全程可见，不会出现跨页丢失图表、公式、上下文关联信息的问题；二是 局部记忆，输出侧仅保留最近128个字符缓存，不会存储上万字历史文本。

落地后最直观的改变是缓存容量固定不变，新文字生成时自动挤掉最早存储的旧内容，输出一万字符和十万字符，占用内存完全相同。

官方延迟测试曲线一目了然：传统注意力解码步数越多，单步耗时持续飙升；搭载R-SWA的UnlimitedOCR全程速度平稳，不会出现越跑越卡的情况。

搭配DeepEncoder视觉编码器，1024×1024尺寸的PDF页面能压缩为256个视觉单元，压缩倍率高达16倍，图像信息不会随长文本解码退化。双重技术加持下，模型在32K上下文窗口内单次推理处理数十页文档，输入20页文档文字比对误差仅0.057，40页以上依旧控制在0.11以内，重复输出概率不足3%，几乎不会出现复读、错乱排版问题。

四、神秘技术总监浮出水面，国内OCR大神加盟百度

这份技术报告除亮眼跑分外，作者署名暗藏行业重磅人才变动线索。三位核心创作者中，两位标注完整姓名，技术总监仅用缩写YY标注，而GitHub致谢列表前两位，正是DeepSeek一代、二代OCR项目。

顺着行业履历梳理，线索全部指向魏浩然。他是国内端到端OCR赛道奠基人，早年在阶跃星辰打造标杆开源模型GOT-OCR2.0，加入DeepSeek后从零搭建整套OCR技术线，DeepEncoder、MoE解码器等核心模块均出自他的团队。今年4月DeepSeek发布V4大模型时，魏浩然名字旁标注离职，也是同期OCR团队唯一公开出走的核心负责人。

国内深耕长文档解析、吃透DeepSeek整套OCR架构，同时能提出R-SWA这种底层注意力创新的研发人员寥寥无几，业内普遍判断缩写YY对应的技术总监就是魏浩然。

这次人才吸纳，补齐百度多年的技术短板。过往PaddleOCR深耕产业落地，手机、嵌入式、服务器全场景覆盖，工程化、稳定性优势突出，但前沿范式创新一直不是重心。魏浩然团队擅长从底层重构OCR逻辑，二者结合让百度同时拥有成熟商业化底座与顶尖前沿研发能力。百度今年升级AIDU人才计划，高薪吸纳顶尖AI研究员，对于想落地前沿技术的研发人员来说，海量产业场景资源远比单纯高薪更有吸引力。

五、不止OCR：一套通用框架，布局语音、翻译全赛道

对于普通开发者、中小企业而言，这款开源模型价值巨大：极低硬件门槛，普通消费级显卡就能流畅批量处理海量PDF，免费开源无商用限制；对于百度自身，依托这套通用注意力框架，未来语音、多模态翻译产品都能解决长文本卡顿、上下文丢失的老问题，构建差异化技术壁垒。

过去很长一段时间，AI行业陷入“堆参数、拼硬件”的内卷怪圈，大家默认只有更大规模模型才能解决复杂任务。百度UnlimitedOCR走出一条完全不同的路线：靠底层注意力机制创新，用极小算力实现超越千亿大模型的效果，一次性解决行业多年跨页失忆、长文本减速痛点。

顶尖OCR研发人才的加入，也让百度完成从“工具型OCR厂商”到“通用长序列解析技术提供商”的转型。随着R-SWA技术向语音、翻译延伸，接下来我们会看到更多颠覆现有产品体验的AI工具，长文档、长音频一次性完整理解，会成为行业新标准。目前模型与完整代码已全部开源，开发者可直接前往GitHub、HuggingFace下载试用。

全球技术 DeepSeek 核心模型魏浩然个字符文本文字行业百度模态

上一篇：苏博特涨8.25%，开源证券二个月前给出“买入”评级

下一篇：6月23日华宏科技跌10.01%，前海开源盛鑫混合A基金重仓该股

百度开源OCR登顶全球第一，核心作者疑似DeepSeek出走大神

相关内容

热门资讯