DeepSeek-OCR 把文本压缩成图像,这听起来很荒谬——但很聪明

照片来自 Jan Antonin Kolar on Unsplash 众所周知,OCR 是从图像中提取文本 如果你用过 OCR 技术,你肯定知道基本流程:扫描文档,提取文字,完成。把带有文字的图像转换成可以搜索、编辑和处理的实际文本字符。几十年来,OCR 就是这个意思。 DeepSeek 刚刚把这个流程完全颠倒了。 他们的新 OCR 模型——2025 年 10 月 20 日发布——把文本压缩成图像。这不是噱头,而是核心功能。 这听起来很荒谬,直到你理解他们要解决的问题。 没人谈论的 Token 成本问题 当你用 AI 处理文档时,幕后发生了什么: 每段文本都会被转换成 token。想把一篇 50 页的研究论文喂给 GPT-4 分析?大约需要 25,000 个 token。处理一千份文档?那就是 2500 万个 token。按照目前的定价,这笔费用很快就会累积起来。 但现代 AI 模型的工作方式有个特点:对于某些任务,视觉 token 可以比文本 token 更高效。单个图像可以传达需要数百个文本 token 才能描述的信息。 DeepSeek 看到了这一点,并提出了一个反直觉的问题:如果我们把文本压缩成视觉 token,而不是从图像中提取文本出来,会怎么样? 结果:文档处理所需的 token 减少了 7-20 倍。 这个"反向"方法如何运作 DeepSeek-OCR 使用他们所谓的"上下文光学压缩"。不同于传统 OCR 的路径(图像 → 提取文本 → token),它的路径是:文本文档 → 压缩视觉表示 → 高效 token。 ...

2025年10月28日 · 2 分钟 · L 先生