文档处理和数据可视化 照片来自 Jan Antonin Kolar on Unsplash

众所周知,OCR 是从图像中提取文本

如果你用过 OCR 技术,你肯定知道基本流程:扫描文档,提取文字,完成。把带有文字的图像转换成可以搜索、编辑和处理的实际文本字符。几十年来,OCR 就是这个意思。

DeepSeek 刚刚把这个流程完全颠倒了。

他们的新 OCR 模型——2025 年 10 月 20 日发布——把文本压缩成图像。这不是噱头,而是核心功能。

这听起来很荒谬,直到你理解他们要解决的问题。

没人谈论的 Token 成本问题

当你用 AI 处理文档时,幕后发生了什么:

每段文本都会被转换成 token。想把一篇 50 页的研究论文喂给 GPT-4 分析?大约需要 25,000 个 token。处理一千份文档?那就是 2500 万个 token。按照目前的定价,这笔费用很快就会累积起来。

但现代 AI 模型的工作方式有个特点:对于某些任务,视觉 token 可以比文本 token 更高效。单个图像可以传达需要数百个文本 token 才能描述的信息。

DeepSeek 看到了这一点,并提出了一个反直觉的问题:如果我们把文本压缩视觉 token,而不是从图像中提取文本出来,会怎么样?

结果:文档处理所需的 token 减少了 7-20 倍。

这个"反向"方法如何运作

DeepSeek-OCR 使用他们所谓的"上下文光学压缩"。不同于传统 OCR 的路径(图像 → 提取文本 → token),它的路径是:文本文档 → 压缩视觉表示 → 高效 token。

它结合了两个部分:

  • DeepEncoder:能理解文档结构的布局感知视觉编码器
  • DeepSeek3B-MoE-A570M:处理压缩输出的 30 亿参数解码器

系统提供五种分辨率模式,取决于你想压缩多少。需要更高的准确度?使用较少的压缩。优先考虑速度和成本?加大压缩比。

重要的数字:

  • 7-10 倍压缩:保持 96-97% 的准确度
  • 20 倍压缩:60% 准确度(对许多任务仍然有用)
  • 处理速度:单个 NVIDIA A100 上每秒 2,500 个 token
  • 每日吞吐量:同一块 GPU 每天可处理 20 万页以上

当 60% 准确度实际上是完美的

性能指标和效率图表 照片来自 Carlos Muza on Unsplash

大多数人听到"60% 准确度"会认为这是失败。但要看具体情况。

如果你在处理每个字都很重要的法律合同,60% 准确度确实很糟糕。但如果你要从 10,000 篇研究论文构建知识库,需要的是总体理解而不是逐字完美转录呢?60% 的准确度配合 20 倍的速度可能正好合适。

真正的比较不是"完美 vs 不完美",而是"以 20 倍低成本达到足够好" vs “以全额成本达到完美”。

来看实际的基准测试。DeepSeek-OCR 在包含 700-800 个文本 token 的文档上,仅使用 100 个视觉 token 就达到了 97.3% 的准确度。这是 7.5 倍的压缩比,同时保持近乎完美的准确度。

与现有的专业 OCR 模型比较:

  • GOT-OCR 2.0:每页使用 256 个 token,准确度低于 DeepSeek 的 100 token
  • MinerU 2.0:每页需要 6,000+ token;DeepSeek 用不到 800 token 就能匹配它

这不是边际改进,而是完全不同级别的效率。

谁应该关注

三类人应该注意:

1. 处理大量文档集合的研究人员和学者 从数千篇论文构建可搜索的知识库?token 成本会累积。DeepSeek-OCR 在 10 倍压缩下以极低成本提供近乎完美的准确度。单个 A100 GPU 每天可以处理 20 万页。

2. 拥有文档密集型 AI 流水线的公司 如果你在处理发票、医疗记录或业务文档进行 AI 分析,你在燃烧 token。DeepSeek-OCR 作为预处理步骤可以大幅削减成本。10 倍压缩配合 97% 准确度,你能以极低成本获得近乎完美的结果。

3. 基于开源基础设施构建的开发者 与 GPT-4 Vision 或 Gemini(黑盒且按 token 定价)不同,DeepSeek-OCR 完全开源。你可以在自己的硬件上运行,针对特定用例修改,避免供应商锁定。

你需要知道的权衡

天下没有免费的午餐。以下是你要放弃的:

它是全新的。 2025 年 10 月 20 日发布。目前独立测试有限。还没有与 Google Cloud Vision、Azure Document Intelligence 或 AWS Textract 的全面对比。

准确度随压缩降低。 10 倍压缩时 97% 准确度是真实的,但推到 20 倍时就只有 60% 了。在选择压缩比之前,你需要知道自己的准确度要求。

设置复杂性。 这不是你可以调用的 REST API。你需要 Python 3.12+、CUDA 11.8、PyTorch 2.6 和其他几个依赖项。对许多团队来说,尽管 token 成本更高,GPT-4 Vision 的简单性仍然更胜一筹。

不适合实时 OCR。 如果你在构建扫描收据的移动应用,坚持使用传统 OCR。DeepSeek-OCR 擅长批量处理大型文档集合,而不是即时识别。

为什么这件事超越了 OCR 本身

这里真正的故事不仅仅是关于 OCR,而是压缩正在成为 AI 开发的核心策略。

GPT-4 和 Claude 都有庞大的上下文窗口(12.8 万+ token),但这些 token 不是免费的。随着 AI 应用从处理几十份文档扩展到数千份或数百万份,token 经济变得至关重要。

有猜测说 Google 的 Gemini 模型——能高效处理巨大的上下文窗口——可能在内部使用类似的压缩技术。DeepSeek 只是把这种方法明确化并开源了。

我们会看到更多这样的模型——让昂贵的基础模型在大规模运行时更便宜的专用工具。

开始使用(或等待)

代码和终端界面 照片来自 Sergey Zolkin on Unsplash

DeepSeek-OCR 现在可以在 GitHubHugging Face 上获得。完整的设置说明、推理示例和 vLLM 集成都有文档记录。

你今天应该使用它吗?

如果符合以下条件,试试看:

  • 你定期处理数千份文档
  • Token 成本是你预算中可衡量的项目
  • 你可以容忍 90-97% 的准确度而非完美转录
  • 你有部署它的技术能力

如果符合以下条件,等等再说:

  • 你需要经过实战检验的可靠性
  • 你的用例需要 99%+ 的准确度
  • 你更喜欢托管服务而非自托管
  • 独立基准测试对你很重要

把文本压缩成图像这个反向想法,对于一个特定问题来说是聪明的:让文档密集型 AI 应用在大规模下经济可行。

这不会在所有地方取代传统 OCR。但对于合适的用例,它完全改变了计算方式。


DeepSeek-OCR 开源且现已推出。文档和模型权重:github.com/deepseek-ai/DeepSeek-OCR