DeepSeek-OCR 把文本压缩成图像，这听起来很荒谬——但很聪明

文档处理和数据可视化 照片来自 Jan Antonin Kolar on Unsplash

众所周知，OCR 是从图像中提取文本

如果你用过 OCR 技术，你肯定知道基本流程：扫描文档，提取文字，完成。把带有文字的图像转换成可以搜索、编辑和处理的实际文本字符。几十年来，OCR 就是这个意思。

DeepSeek 刚刚把这个流程完全颠倒了。

他们的新 OCR 模型——2025 年 10 月 20 日发布——把文本压缩成图像。这不是噱头，而是核心功能。

这听起来很荒谬，直到你理解他们要解决的问题。

没人谈论的 Token 成本问题

当你用 AI 处理文档时，幕后发生了什么：

每段文本都会被转换成 token。想把一篇 50 页的研究论文喂给 GPT-4 分析？大约需要 25,000 个 token。处理一千份文档？那就是 2500 万个 token。按照目前的定价，这笔费用很快就会累积起来。

但现代 AI 模型的工作方式有个特点：对于某些任务，视觉 token 可以比文本 token 更高效。单个图像可以传达需要数百个文本 token 才能描述的信息。

DeepSeek 看到了这一点，并提出了一个反直觉的问题：如果我们把文本压缩成视觉 token，而不是从图像中提取文本出来，会怎么样？

结果：文档处理所需的 token 减少了 7-20 倍。

这个"反向"方法如何运作

DeepSeek-OCR 使用他们所谓的"上下文光学压缩"。不同于传统 OCR 的路径（图像 → 提取文本 → token），它的路径是：文本文档 → 压缩视觉表示 → 高效 token。

它结合了两个部分：

DeepEncoder：能理解文档结构的布局感知视觉编码器
DeepSeek3B-MoE-A570M：处理压缩输出的 30 亿参数解码器

系统提供五种分辨率模式，取决于你想压缩多少。需要更高的准确度？使用较少的压缩。优先考虑速度和成本？加大压缩比。

重要的数字：

7-10 倍压缩：保持 96-97% 的准确度
20 倍压缩：60% 准确度（对许多任务仍然有用）
处理速度：单个 NVIDIA A100 上每秒 2,500 个 token
每日吞吐量：同一块 GPU 每天可处理 20 万页以上

当 60% 准确度实际上是完美的

性能指标和效率图表 照片来自 Carlos Muza on Unsplash

大多数人听到"60% 准确度"会认为这是失败。但要看具体情况。

如果你在处理每个字都很重要的法律合同，60% 准确度确实很糟糕。但如果你要从 10,000 篇研究论文构建知识库，需要的是总体理解而不是逐字完美转录呢？60% 的准确度配合 20 倍的速度可能正好合适。

真正的比较不是"完美 vs 不完美"，而是"以 20 倍低成本达到足够好" vs “以全额成本达到完美”。

来看实际的基准测试。DeepSeek-OCR 在包含 700-800 个文本 token 的文档上，仅使用 100 个视觉 token 就达到了 97.3% 的准确度。这是 7.5 倍的压缩比，同时保持近乎完美的准确度。

与现有的专业 OCR 模型比较：

GOT-OCR 2.0：每页使用 256 个 token，准确度低于 DeepSeek 的 100 token
MinerU 2.0：每页需要 6,000+ token；DeepSeek 用不到 800 token 就能匹配它

这不是边际改进，而是完全不同级别的效率。

谁应该关注

三类人应该注意：

1. 处理大量文档集合的研究人员和学者 从数千篇论文构建可搜索的知识库？token 成本会累积。DeepSeek-OCR 在 10 倍压缩下以极低成本提供近乎完美的准确度。单个 A100 GPU 每天可以处理 20 万页。

2. 拥有文档密集型 AI 流水线的公司 如果你在处理发票、医疗记录或业务文档进行 AI 分析，你在燃烧 token。DeepSeek-OCR 作为预处理步骤可以大幅削减成本。10 倍压缩配合 97% 准确度，你能以极低成本获得近乎完美的结果。

3. 基于开源基础设施构建的开发者 与 GPT-4 Vision 或 Gemini（黑盒且按 token 定价）不同，DeepSeek-OCR 完全开源。你可以在自己的硬件上运行，针对特定用例修改，避免供应商锁定。

你需要知道的权衡

天下没有免费的午餐。以下是你要放弃的：

它是全新的。 2025 年 10 月 20 日发布。目前独立测试有限。还没有与 Google Cloud Vision、Azure Document Intelligence 或 AWS Textract 的全面对比。

准确度随压缩降低。 10 倍压缩时 97% 准确度是真实的，但推到 20 倍时就只有 60% 了。在选择压缩比之前，你需要知道自己的准确度要求。

设置复杂性。 这不是你可以调用的 REST API。你需要 Python 3.12+、CUDA 11.8、PyTorch 2.6 和其他几个依赖项。对许多团队来说，尽管 token 成本更高，GPT-4 Vision 的简单性仍然更胜一筹。

不适合实时 OCR。 如果你在构建扫描收据的移动应用，坚持使用传统 OCR。DeepSeek-OCR 擅长批量处理大型文档集合，而不是即时识别。

为什么这件事超越了 OCR 本身

这里真正的故事不仅仅是关于 OCR，而是压缩正在成为 AI 开发的核心策略。

GPT-4 和 Claude 都有庞大的上下文窗口（12.8 万+ token），但这些 token 不是免费的。随着 AI 应用从处理几十份文档扩展到数千份或数百万份，token 经济变得至关重要。

有猜测说 Google 的 Gemini 模型——能高效处理巨大的上下文窗口——可能在内部使用类似的压缩技术。DeepSeek 只是把这种方法明确化并开源了。

我们会看到更多这样的模型——让昂贵的基础模型在大规模运行时更便宜的专用工具。

开始使用（或等待）

代码和终端界面 照片来自 Sergey Zolkin on Unsplash

DeepSeek-OCR 现在可以在 GitHub 和 Hugging Face 上获得。完整的设置说明、推理示例和 vLLM 集成都有文档记录。

你今天应该使用它吗？

如果符合以下条件，试试看：

你定期处理数千份文档
Token 成本是你预算中可衡量的项目
你可以容忍 90-97% 的准确度而非完美转录
你有部署它的技术能力

如果符合以下条件，等等再说：

你需要经过实战检验的可靠性
你的用例需要 99%+ 的准确度
你更喜欢托管服务而非自托管
独立基准测试对你很重要

把文本压缩成图像这个反向想法，对于一个特定问题来说是聪明的：让文档密集型 AI 应用在大规模下经济可行。

这不会在所有地方取代传统 OCR。但对于合适的用例，它完全改变了计算方式。

DeepSeek-OCR 开源且现已推出。文档和模型权重：github.com/deepseek-ai/DeepSeek-OCR

众所周知，OCR 是从图像中提取文本#

没人谈论的 Token 成本问题#

这个"反向"方法如何运作#

当 60% 准确度实际上是完美的#

谁应该关注#

你需要知道的权衡#

为什么这件事超越了 OCR 本身#

开始使用（或等待）#