DeepSeek团队开源OCR新模型:少量视觉token完成海量文本压缩
创始人
2025-10-20 16:17:10
0

IT之家 10 月 20 日消息,今天上午,DeepSeek-AI 团队发布《DeepSeek-OCR:Contexts Optical Compression》论文,提出利用视觉模态压缩长文本上下文的新方法。Hugging Face 页面显示,该模型的参数量为 3B。

根据介绍,此次开源的 DeepSeek-OCR 由两个部分组成:核心编码器 DeepEncoder 和解码器 DeepSeek3B-MoE-A570M。DeepEncoder 专为在高分辨率输入下保持低计算激活而设计,同时实现高压缩比,以控制视觉 token 数量在可管理的范围内。实验显示,当文本 token 数量不超过视觉 token 的 10 倍(压缩比低于 10×)时,模型的 OCR 精度可达 97%;即便压缩比提高到 20×,准确率仍保持约 60%,展现出在历史文档长上下文压缩和大语言模型记忆机制研究中的巨大潜力。DeepSeek-OCR 同时具备较高的实际应用价值。

在 OmniDocBench 测试中,DeepSeek-OCR 使用 100 个视觉 token 就超过了 GOT-OCR2.0(每页 256 个 token),而使用不到 800 个视觉 token 便优于 MinerU2.0(平均每页超过 6000 个 token)。

在实际生产中,DeepSeek-OCR 可在单块 A100-40G 显卡上每天生成超过 20 万页的大语言模型 / 视觉语言模型训练数据。

IT之家附有关页面如下:

  • GitHub:https://github.com/deepseek-ai/DeepSeek-OCR
  • Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR

相关内容

热门资讯

北京元宵节去哪逛?天坛猜灯谜,... 一颗元宵鲜,满城团圆味今天是元宵佳节从天坛公园到延庆非遗花会展……做花灯、猜灯谜、逛市集文商旅体展融...
伊拉克开始关停RUMAILA的... 钛媒体App 3月3日消息,据报道,伊拉克开始关闭鲁迈拉油田(RUMAILA)的石油产出,因为储油设...
曲靖沾益:樱花海棠竞绽放,春日... 春风送暖,万物复苏。连日来,随着气温逐渐回暖,云南省曲靖市沾益区各大景区和公园内樱花、垂丝海棠争相绽...
视点|逛温泉科技庙会,触摸元宵... 3月3日,农历正月十五元宵节,傍晚时分的温泉镇兴泉汇CG Live!上空,“碳基硅基”主题灯组璀璨点...
馨兰苑南园,今日正式开放! 终于来了!位于宝山区张庙街道的馨兰苑南园于2026年3月3日元宵节当天正式对外开放!此次改造变化超大...
双廊古镇太挤,路边有个观景台倒... 骑着摩托车环洱海骑行,每次经过双廊古镇都会被景区入口前拥堵的路况给劝退,所以至今也没走进去参观游玩过...
字节领航、Kimi 爆发:红包... 文 | 新立场Pro 这个春节,互联网巨头们用数十亿真金白银砸出了一场声势浩大的红包雨,试图强行拉...
山西运城:流光溢彩庆元宵   元宵佳节,山西运城节日氛围浓郁。河东池盐文化博览园“盬盐灯会”流光溢彩,上千组花灯映照着古老的池...
AI公司,开始闷声赚美元了 3月初,MiniMax交出了上市后的首份年报,营收同比增长158.9%至7903.8万美元,其中超过...