概述
DeepSeek OCR 是一款基于上下文光学压缩理念构建的开源文档理解系统。它将高分辨率页面先压缩为紧凑的视觉 token,再用大容量的混合专家(MoE)解码器重建文本、布局和图表注释,从而在保证语义与版式的前提下大幅降低计算与内存开销。该项目以 MIT 许可证发布,便于本地部署与合规控制。
核心能力
-
高效压缩与重建: 将 1024×1024 页面压缩至数百个视觉 token,10× 压缩下可达约 97% 的精确匹配,支持更高压缩比以平衡速度与精度。
-
两阶段 Transformer 架构: 阶段 1 使用 windowed SAM + CLIP-Large 与 16× 卷积压缩,阶段 2 使用 DeepSeek-3B-MoE 解码器(每 token 激活数百百万参数)以复原文本与布局。
-
多模式与可调精度: 提供从 Tiny → Base → Large → Gundam 的模式选择,用户可在速度、吞吐与视觉保真度间精细调节,适应发票、蓝图、科研论文等场景。
-
结构化输出: 原生输出 HTML、Markdown、结构化 JSON、表格复原以及 SMILES 化学字符串与几何注释,便于直接接入分析或自动化管道。
-
多语种与多任务支持: 在超过 100+ 语言 的语料上训练,兼具图文对齐能力,可用于文字提取、图表解析、目标定位与文档转换等任务。
部署与性能
DeepSeek OCR 可本地部署以规避数据外泄风险:在 NVIDIA A100 上单节点吞吐可达约 200k 页/天(Gundam 模式需更大显存),亦提供兼容 OpenAI 风格 API 的托管方案。代码与权重以 safetensors 格式开源,便于在 PyTorch + FlashAttention 环境中运行。
推荐场景
- 批量数字化大量多语种档案与技术手稿;
- 将复杂表格、化学式与工程图直接转为结构化数据;
- 需要在受限 GPU 资源下提升长文档上下文处理能力的检索与摘要管线。
局限与缓解建议
-
手写体识别: 训练以印刷文本为主,草书/连笔识别效果有限,建议与专用手写 OCR(如 Tesseract 或定制模型)结合。
-
矢量图与极细微标注: 在极高压缩比或矢量精度需求下准确率下降,遇 CAD 或精细矢量图应配合向量解析器。
-
GPU 依赖: 实时高吞吐需要现代 GPU;对延迟敏感的任务可选 Base/Tiny 模式或托管 API。
小结
DeepSeek OCR 将图像压缩与 MoE 解码结合,提供了一条在受限算力下扩展长文档视觉上下文的可行路径。对于追求版式保真、结构化输出与多语种覆盖的团队,它是一个兼顾性能与合规的强力工具。


