照片来自 Jan Antonin Kolar on Unsplash 众所周知,OCR 是从图像中提取文本 如果你用过 OCR 技术,你肯定知道基本流程:扫描文档,提取文字,完成。把带有文字的图像转换成可以搜索、编辑和处理的实际文本字符。几十年来,OCR 就是这个意思。 DeepSeek 刚刚把这个流程完全颠倒了。 他们的新 OCR 模型——2025 年 10 月 20 日发布——把文本压缩成图像。这不是噱头,而是核心功能。 这听起来很荒谬,直到你理解他们要解决的问题。 没人谈论的 Token 成本问题 当你用 AI 处理文档时,幕后发生了什么: 每段文本都会被转换成 token。想把一篇 50 页的研究论文喂给 GPT-4 分析?大约需要 25,000 个 token。处理一千份文档?那就是 2500 万个 token。按照目前的定价,这笔费用很快就会累积起来。 但现代 AI 模型的工作方式有个特点:对于某些任务,视觉 token 可以比文本 token 更高效。单个图像可以传达需要数百个文本 token 才能描述的信息。 DeepSeek 看到了这一点,并提出了一个反直觉的问题:如果我们把文本压缩成视觉 token,而不是从图像中提取文本出来,会怎么样? 结果:文档处理所需的 token 减少了 7-20 倍。 这个"反向"方法如何运作 DeepSeek-OCR 使用他们所谓的"上下文光学压缩"。不同于传统 OCR 的路径(图像 → 提取文本 → token),它的路径是:文本文档 → 压缩视觉表示 → 高效 token。 ...
Claude Code 获得超能力:Skills 功能对你意味着什么
图片来源:Shahadat Rahman,Unsplash 重复专家提示的终结 如果你用 Claude Code 做过认真的开发工作,可能碰到过这堵墙:你花 10 分钟精心编写完美的提示词,解释团队的编码标准、项目结构、首选测试方法。Claude 做得很好。两小时后,新对话,又需要同样的解释。一次又一次。 这不仅烦人,还是一个根本性限制。每次重新开始,你都在重新教 Claude 它本该已经掌握的专业知识。 2025 年 10 月 23 日,这种情况改变了。Anthropic 为 Claude Code 推出了 Skills 功能——这不只是又一次功能更新,而是 AI 助手保留和应用专业知识方式的转变。 Skills 到底是什么(以及为什么重要) 简单版本:Skills 是包含指令、脚本和资源的文件夹,Claude 会在相关时自动加载。 但真正强大的地方在于:Claude 自己决定何时使用它们。 你不需要手动调用 skills。不需要输入 /use-skill 命令。Claude 会扫描你可用的 skills,从描述中理解每个 skill 的作用,并根据你的请求激活合适的 skills。你可以在 Claude 的推理链中看到这个过程——观察它思考哪些 skills 适用于你的任务。 这种"模型调用"行为是与斜杠命令(需要明确触发)或 MCP 服务器(连接外部系统)的关键区别。Skills 是 Claude 智能使用的专业知识包。 可以这样理解:你不是每次新团队成员做功能时都告诉他们编码标准,而是给他们一本手册。他们阅读、内化,并在相关时应用。这就是 Skills 为 Claude 做的事。 真实影响:从天到小时 图片来源:Scott Graham,Unsplash 我们来谈结果,不谈理论。 日本电商和金融科技巨头乐天(Rakuten)开始在会计和财务工作流中使用 Skills。他们的评估:“过去需要一天的工作,现在一小时就能完成。” 这不是小幅效率提升,而是 8 倍的改进。 ...