最近AI圈热闹不断,各家扎堆发布多模态大模型,动辄几百B参数,比拼算力与参数量成了常态。就在行业疯狂堆规模的时候,百度悄悄开源一款颠覆性OCR模型UnlimitedOCR,彻底跳出“参数越大越强”的内卷逻辑。
一、500M迷你模型,性能碾压千亿级多模态大模型
同台对比更能凸显差距:235B的Qwen3-VL得分仅89.15%,72B的Qwen2.5-VL只有87.02%,谷歌不公开参数量的Gemini-2.5Pro也仅88.03%。这些动辄消耗海量显卡资源的大模型,综合精度全都不及这个“小个头”。
二、行业通病:所有OCR都在“读完一页忘一页”
这种看似能用的方式,只是工程层面的妥协,根源卡在传统注意力机制的底层缺陷。常规模型处理文本时,缓存会随输出文字不断膨胀,文本越长,占用内存呈滚雪球式上涨,速度持续变慢,硬件很快扛不住。为了避免内存溢出,厂商只能强制分页处理,天然造成上下文断裂。
就像人抄书不会看完一行就彻底忘掉前面内容,我们会保留完整书页作为参考,只记住刚抄写的几行文字,老旧内容慢慢淡化,不会全盘清空。百度团队把人类这种自然阅读逻辑命名为“软遗忘”,也是UnlimitedOCR实现突破的核心灵感来源。
三、核心黑科技R-SWA:模仿人类阅读,彻底告别长文本失忆
R-SWA设计分成两条独立逻辑:一是 全局可视,模型生成每一段文字时,完整读取全部页面图像与提示词,整本文档内容全程可见,不会出现跨页丢失图表、公式、上下文关联信息的问题;二是 局部记忆,输出侧仅保留最近128个字符缓存,不会存储上万字历史文本。
落地后最直观的改变是缓存容量固定不变,新文字生成时自动挤掉最早存储的旧内容,输出一万字符和十万字符,占用内存完全相同。
官方延迟测试曲线一目了然:传统注意力解码步数越多,单步耗时持续飙升;搭载R-SWA的UnlimitedOCR全程速度平稳,不会出现越跑越卡的情况。
搭配DeepEncoder视觉编码器,1024×1024尺寸的PDF页面能压缩为256个视觉单元,压缩倍率高达16倍,图像信息不会随长文本解码退化。双重技术加持下,模型在32K上下文窗口内单次推理处理数十页文档,输入20页文档文字比对误差仅0.057,40页以上依旧控制在0.11以内,重复输出概率不足3%,几乎不会出现复读、错乱排版问题。
四、神秘技术总监浮出水面,国内OCR大神加盟百度
这份技术报告除亮眼跑分外,作者署名暗藏行业重磅人才变动线索。三位核心创作者中,两位标注完整姓名,技术总监仅用缩写YY标注,而GitHub致谢列表前两位,正是DeepSeek一代、二代OCR项目。
顺着行业履历梳理,线索全部指向魏浩然。他是国内端到端OCR赛道奠基人,早年在阶跃星辰打造标杆开源模型GOT-OCR2.0,加入DeepSeek后从零搭建整套OCR技术线,DeepEncoder、MoE解码器等核心模块均出自他的团队。今年4月DeepSeek发布V4大模型时,魏浩然名字旁标注离职,也是同期OCR团队唯一公开出走的核心负责人。
国内深耕长文档解析、吃透DeepSeek整套OCR架构,同时能提出R-SWA这种底层注意力创新的研发人员寥寥无几,业内普遍判断缩写YY对应的技术总监就是魏浩然。
这次人才吸纳,补齐百度多年的技术短板。过往PaddleOCR深耕产业落地,手机、嵌入式、服务器全场景覆盖,工程化、稳定性优势突出,但前沿范式创新一直不是重心。魏浩然团队擅长从底层重构OCR逻辑,二者结合让百度同时拥有成熟商业化底座与顶尖前沿研发能力。百度今年升级AIDU人才计划,高薪吸纳顶尖AI研究员,对于想落地前沿技术的研发人员来说,海量产业场景资源远比单纯高薪更有吸引力。
五、不止OCR:一套通用框架,布局语音、翻译全赛道
对于普通开发者、中小企业而言,这款开源模型价值巨大:极低硬件门槛,普通消费级显卡就能流畅批量处理海量PDF,免费开源无商用限制;对于百度自身,依托这套通用注意力框架,未来语音、多模态翻译产品都能解决长文本卡顿、上下文丢失的老问题,构建差异化技术壁垒。
过去很长一段时间,AI行业陷入“堆参数、拼硬件”的内卷怪圈,大家默认只有更大规模模型才能解决复杂任务。百度UnlimitedOCR走出一条完全不同的路线:靠底层注意力机制创新,用极小算力实现超越千亿大模型的效果,一次性解决行业多年跨页失忆、长文本减速痛点。
顶尖OCR研发人才的加入,也让百度完成从“工具型OCR厂商”到“通用长序列解析技术提供商”的转型。随着R-SWA技术向语音、翻译延伸,接下来我们会看到更多颠覆现有产品体验的AI工具,长文档、长音频一次性完整理解,会成为行业新标准。目前模型与完整代码已全部开源,开发者可直接前往GitHub、HuggingFace下载试用。