照片来自 Jan Antonin Kolar on Unsplash
众所周知,OCR 是从图像中提取文本
如果你用过 OCR 技术,你肯定知道基本流程:扫描文档,提取文字,完成。把带有文字的图像转换成可以搜索、编辑和处理的实际文本字符。几十年来,OCR 就是这个意思。
DeepSeek 刚刚把这个流程完全颠倒了。
他们的新 OCR 模型——2025 年 10 月 20 日发布——把文本压缩成图像。这不是噱头,而是核心功能。
这听起来很荒谬,直到你理解他们要解决的问题。
没人谈论的 Token 成本问题
当你用 AI 处理文档时,幕后发生了什么:
每段文本都会被转换成 token。想把一篇 50 页的研究论文喂给 GPT-4 分析?大约需要 25,000 个 token。处理一千份文档?那就是 2500 万个 token。按照目前的定价,这笔费用很快就会累积起来。
但现代 AI 模型的工作方式有个特点:对于某些任务,视觉 token 可以比文本 token 更高效。单个图像可以传达需要数百个文本 token 才能描述的信息。
DeepSeek 看到了这一点,并提出了一个反直觉的问题:如果我们把文本压缩成视觉 token,而不是从图像中提取文本出来,会怎么样?
结果:文档处理所需的 token 减少了 7-20 倍。
这个"反向"方法如何运作
DeepSeek-OCR 使用他们所谓的"上下文光学压缩"。不同于传统 OCR 的路径(图像 → 提取文本 → token),它的路径是:文本文档 → 压缩视觉表示 → 高效 token。
它结合了两个部分:
- DeepEncoder:能理解文档结构的布局感知视觉编码器
- DeepSeek3B-MoE-A570M:处理压缩输出的 30 亿参数解码器
系统提供五种分辨率模式,取决于你想压缩多少。需要更高的准确度?使用较少的压缩。优先考虑速度和成本?加大压缩比。
重要的数字:
- 7-10 倍压缩:保持 96-97% 的准确度
- 20 倍压缩:60% 准确度(对许多任务仍然有用)
- 处理速度:单个 NVIDIA A100 上每秒 2,500 个 token
- 每日吞吐量:同一块 GPU 每天可处理 20 万页以上
当 60% 准确度实际上是完美的
照片来自 Carlos Muza on Unsplash
大多数人听到"60% 准确度"会认为这是失败。但要看具体情况。
如果你在处理每个字都很重要的法律合同,60% 准确度确实很糟糕。但如果你要从 10,000 篇研究论文构建知识库,需要的是总体理解而不是逐字完美转录呢?60% 的准确度配合 20 倍的速度可能正好合适。
真正的比较不是"完美 vs 不完美",而是"以 20 倍低成本达到足够好" vs “以全额成本达到完美”。
来看实际的基准测试。DeepSeek-OCR 在包含 700-800 个文本 token 的文档上,仅使用 100 个视觉 token 就达到了 97.3% 的准确度。这是 7.5 倍的压缩比,同时保持近乎完美的准确度。
与现有的专业 OCR 模型比较:
- GOT-OCR 2.0:每页使用 256 个 token,准确度低于 DeepSeek 的 100 token
- MinerU 2.0:每页需要 6,000+ token;DeepSeek 用不到 800 token 就能匹配它
这不是边际改进,而是完全不同级别的效率。
谁应该关注
三类人应该注意:
1. 处理大量文档集合的研究人员和学者 从数千篇论文构建可搜索的知识库?token 成本会累积。DeepSeek-OCR 在 10 倍压缩下以极低成本提供近乎完美的准确度。单个 A100 GPU 每天可以处理 20 万页。
2. 拥有文档密集型 AI 流水线的公司 如果你在处理发票、医疗记录或业务文档进行 AI 分析,你在燃烧 token。DeepSeek-OCR 作为预处理步骤可以大幅削减成本。10 倍压缩配合 97% 准确度,你能以极低成本获得近乎完美的结果。
3. 基于开源基础设施构建的开发者 与 GPT-4 Vision 或 Gemini(黑盒且按 token 定价)不同,DeepSeek-OCR 完全开源。你可以在自己的硬件上运行,针对特定用例修改,避免供应商锁定。
你需要知道的权衡
天下没有免费的午餐。以下是你要放弃的:
它是全新的。 2025 年 10 月 20 日发布。目前独立测试有限。还没有与 Google Cloud Vision、Azure Document Intelligence 或 AWS Textract 的全面对比。
准确度随压缩降低。 10 倍压缩时 97% 准确度是真实的,但推到 20 倍时就只有 60% 了。在选择压缩比之前,你需要知道自己的准确度要求。
设置复杂性。 这不是你可以调用的 REST API。你需要 Python 3.12+、CUDA 11.8、PyTorch 2.6 和其他几个依赖项。对许多团队来说,尽管 token 成本更高,GPT-4 Vision 的简单性仍然更胜一筹。
不适合实时 OCR。 如果你在构建扫描收据的移动应用,坚持使用传统 OCR。DeepSeek-OCR 擅长批量处理大型文档集合,而不是即时识别。
为什么这件事超越了 OCR 本身
这里真正的故事不仅仅是关于 OCR,而是压缩正在成为 AI 开发的核心策略。
GPT-4 和 Claude 都有庞大的上下文窗口(12.8 万+ token),但这些 token 不是免费的。随着 AI 应用从处理几十份文档扩展到数千份或数百万份,token 经济变得至关重要。
有猜测说 Google 的 Gemini 模型——能高效处理巨大的上下文窗口——可能在内部使用类似的压缩技术。DeepSeek 只是把这种方法明确化并开源了。
我们会看到更多这样的模型——让昂贵的基础模型在大规模运行时更便宜的专用工具。
开始使用(或等待)
照片来自 Sergey Zolkin on Unsplash
DeepSeek-OCR 现在可以在 GitHub 和 Hugging Face 上获得。完整的设置说明、推理示例和 vLLM 集成都有文档记录。
你今天应该使用它吗?
如果符合以下条件,试试看:
- 你定期处理数千份文档
- Token 成本是你预算中可衡量的项目
- 你可以容忍 90-97% 的准确度而非完美转录
- 你有部署它的技术能力
如果符合以下条件,等等再说:
- 你需要经过实战检验的可靠性
- 你的用例需要 99%+ 的准确度
- 你更喜欢托管服务而非自托管
- 独立基准测试对你很重要
把文本压缩成图像这个反向想法,对于一个特定问题来说是聪明的:让文档密集型 AI 应用在大规模下经济可行。
这不会在所有地方取代传统 OCR。但对于合适的用例,它完全改变了计算方式。
DeepSeek-OCR 开源且现已推出。文档和模型权重:github.com/deepseek-ai/DeepSeek-OCR