DeepSeek团队开源OCR新模型:少量视觉token完成海量文本压缩
创始人
2025-10-20 16:17:10
0

IT之家 10 月 20 日消息,今天上午,DeepSeek-AI 团队发布《DeepSeek-OCR:Contexts Optical Compression》论文,提出利用视觉模态压缩长文本上下文的新方法。Hugging Face 页面显示,该模型的参数量为 3B。

根据介绍,此次开源的 DeepSeek-OCR 由两个部分组成:核心编码器 DeepEncoder 和解码器 DeepSeek3B-MoE-A570M。DeepEncoder 专为在高分辨率输入下保持低计算激活而设计,同时实现高压缩比,以控制视觉 token 数量在可管理的范围内。实验显示,当文本 token 数量不超过视觉 token 的 10 倍(压缩比低于 10×)时,模型的 OCR 精度可达 97%;即便压缩比提高到 20×,准确率仍保持约 60%,展现出在历史文档长上下文压缩和大语言模型记忆机制研究中的巨大潜力。DeepSeek-OCR 同时具备较高的实际应用价值。

在 OmniDocBench 测试中,DeepSeek-OCR 使用 100 个视觉 token 就超过了 GOT-OCR2.0(每页 256 个 token),而使用不到 800 个视觉 token 便优于 MinerU2.0(平均每页超过 6000 个 token)。

在实际生产中,DeepSeek-OCR 可在单块 A100-40G 显卡上每天生成超过 20 万页的大语言模型 / 视觉语言模型训练数据。

IT之家附有关页面如下:

  • GitHub:https://github.com/deepseek-ai/DeepSeek-OCR
  • Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR

相关内容

热门资讯

石景山游乐园11月3日至5日临... 新京报讯 据石景山游乐园消息,石景山游乐园将于2025年11月3日至5日临时闭园,对游乐设施及环境进...
花开四季 “香”约云南|赴一场... 近日,在香格里拉国家公园候选区开放区域,蓝天白云倒映在平静的湖面上,身形玲珑娇小的蓝玉簪龙胆花迎着太...
可爱的乡村——房前村后尽青山 ...   广西乡村地区山多地少,村寨大多依山而建。长期以来,巍巍高山涵养水源、孕育溪流、生养草木,哺育这里...
北京知名游乐园起火,最新通报 ... 今天(11月2日)17时许,北京石景山区消防救援支发布警情通报称:11月2日16时16分,119指挥...
“秋日经济”升温聚人气 “农文... 来源:央视网央视网消息:在湖南湘西古丈县中寨村,农耕体验、网红打卡项目交织成趣。不少游客选择告别城市...
九寨沟县文旅惊艳亮相西塘汉服文... 11月1日,在第十三届西塘汉服文化周举办之际,“浙里阿坝石榴红,嘉善九寨一家亲”——九寨沟县文旅“三...
香山公园彩叶变色率已达60%,... 新京报讯(记者张璐)本周末,香山公园迎来客流最高峰,园内彩叶变色率已达到60%,正值最佳观赏期。据香...
“秋日经济”活力满满 “赏秋+... 央视网消息:陕西少华山国家森林公园近日迎来一年中最绚丽的时节。漫山遍野的红叶,吸引了众多游客前来打卡...
海南三亚天涯海角景区 海南三亚... 陶永奎 摄海南三亚天涯海角景区海南三亚天涯海角景区海南三亚天涯海角景区海南三亚天涯海角景区海南三亚天...
世界最大单一文明博物馆——大埃... 据新华社开罗11月1日电 世界最大单一文明博物馆——大埃及博物馆11月1日正式开馆。数十个由各国元首...