DeepSeek团队开源OCR新模型:少量视觉token完成海量文本压缩
创始人
2025-10-20 16:17:10
0

IT之家 10 月 20 日消息,今天上午,DeepSeek-AI 团队发布《DeepSeek-OCR:Contexts Optical Compression》论文,提出利用视觉模态压缩长文本上下文的新方法。Hugging Face 页面显示,该模型的参数量为 3B。

根据介绍,此次开源的 DeepSeek-OCR 由两个部分组成:核心编码器 DeepEncoder 和解码器 DeepSeek3B-MoE-A570M。DeepEncoder 专为在高分辨率输入下保持低计算激活而设计,同时实现高压缩比,以控制视觉 token 数量在可管理的范围内。实验显示,当文本 token 数量不超过视觉 token 的 10 倍(压缩比低于 10×)时,模型的 OCR 精度可达 97%;即便压缩比提高到 20×,准确率仍保持约 60%,展现出在历史文档长上下文压缩和大语言模型记忆机制研究中的巨大潜力。DeepSeek-OCR 同时具备较高的实际应用价值。

在 OmniDocBench 测试中,DeepSeek-OCR 使用 100 个视觉 token 就超过了 GOT-OCR2.0(每页 256 个 token),而使用不到 800 个视觉 token 便优于 MinerU2.0(平均每页超过 6000 个 token)。

在实际生产中,DeepSeek-OCR 可在单块 A100-40G 显卡上每天生成超过 20 万页的大语言模型 / 视觉语言模型训练数据。

IT之家附有关页面如下:

  • GitHub:https://github.com/deepseek-ai/DeepSeek-OCR
  • Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR

相关内容

热门资讯

采摘研学农事体验一站式打卡!这... 亲子出游不知道去哪儿?近日,记者从青浦区获悉,一条涵盖采摘、农事、研学的青浦亲子游路线新鲜出炉,涵盖...
短剧游戏等AI应用方向高开,湖... 短剧 游戏等AI应用方向高开, 湖北广电涨停, 蓝色光标涨超5%, 掌阅科技、 昆仑万维、 易点天下...
广邀长三角游客来过冬,苏州高新... 沪苏同城,文旅交融。12月29日,“人间天堂·苏州乐园”——年在高新·苏州高新区冬季文旅产品发布会在...
AI、智能体与5G-Advan... 通信世界网消息(CWW)尽管无线接入网的创新与用户的联系最为直接,但真正驱动服务创新与收入增长的,仍...
阿塞拜疆媒体:中国AI转变,从... 阿塞拜疆新闻网12月27日文章,原题:中国人工智能(AI)转变,从屏幕走向车间 当国际舆论聚焦中国人...
AI驱动中国智造跃升 本报记者 贾 丽 回望2025年,我国制造业全速驶入以人工智能(AI)为重要引擎的新航道。在国内,工...
开源伟业取得便携式地质沉降检测... 国家知识产权局信息显示,山西开源伟业地质勘察有限公司取得一项名为“一种便携式地质沉降检测装置”的专利...
欢度元旦,济南9大公园推出系列... 齐鲁晚报·齐鲁壹点 杜春娜元旦将至,为丰富市民游客节日文化生活,营造欢乐祥和的节日氛围,济南市公园发...
“中原铁道·大河之南号”特色旅... 大象新闻记者 胡俊峰 通讯员 杨震 唐春莹 袁修航 刘珊记者从中国铁路郑州局集团有限公司(以下简称“...
从“静资源”到“活经济”,江西... 一场跨越千年的庙会,一次守正创新的实践。近日,江西鄱阳县第二届张巡文化节暨第31届张王庙庙会落幕,唐...