很多人最近都有一个很微妙的体验:
模型更强了,但用起来却更“别扭”了。
你可能也遇到过类似情况:
·和 AI 来回对话十几轮
·一点点修代码、补条件
·明明只是一个功能,却反复调整
·最后 token 成本很高,结果还不稳定
直觉上,这很反常。
模型在变强,为什么效率反而没有线性提升?
Anthropic 最近关于 Claude Code 配合 Opus 4.7 的使用建议,其实正好解释了这个现象。但如果只把它当作一份“使用指南”,你会错过它真正重要的部分。
因为它背后反映的不是技巧,而是一个更大的变化:
AI 编程,正在从“对话生成”进入“任务管理”阶段。
这不是一份指南,而是在重定义“人和模型的关系”
过去两年,大多数人默认把 AI 当成一种增强工具:
·会写代码的搜索引擎
·更聪明的 Stack Overflow
·一个可以聊天的 Copilot
所以典型用法是:
·抛一个问题
·看回答
·再补条件
·再修一轮
·逐步逼近结果
这种“多轮逼近”的方式,在 ChatGPT 时代是成立的。因为那时模型更像一个响应式助手:
·帮你补全一段代码
·帮你解释一个报错
·帮你改一个函数
但 Claude Code + Opus 4.7 这一类工具,改变了模型擅长的任务结构。
Anthropic 给出的核心建议可以浓缩成一句话:
不要再把模型当结对编程搭子,而要把它当成被你委派任务的工程师。
这句话的含义非常深:
·交互单位从“回答”变成“任务”
·评估标准从“对不对”变成“交不交付”
·用户角色从“指导者”变成“任务定义者 + 验收者”
这已经不是提示词优化,而是协作关系的重构。
为什么“多轮对话”开始变成低效模式
很多人知道“少轮次更省 token”,但这只是表层现象。真正的原因在于:
模型的成本结构发生了变化。
在早期模型中,一轮对话基本就是一次生成。即使有推理,其深度和持续性也有限。
但在 Opus 4.7 这类模型中,每一轮对话背后可能包含:
·任务理解重建
·上下文重新对齐
·约束条件解析
·解法规划
·工具调用决策
也就是说,每一轮不只是“多一句话”,而是一次新的“任务建模”。
这就带来一个重要结果:
多轮交互的成本不再是线性叠加,而是重复建模的叠加。
所以过去那种:
·“先试试”
·“再补一点”
·“再改一下”
的使用方式,在 agent 型模型上会迅速退化成:
·成本高
·速度慢
·结果不稳定
这也是为什么 Anthropic 强调:
·第一轮就说清楚任务
·提供完整上下文
·明确约束条件
·写清验收标准
因为最昂贵的,不是生成,而是反复重建问题本身。
Prompt 正在从“提问技巧”变成“任务规格说明”
如果说前一阶段的核心能力是 prompt engineering,那么现在正在发生的是一次升级:
Prompt 正在变成 specification(任务规格说明)。
过去你写 prompt,本质是在优化表达,让模型更好理解问题。
现在你写 prompt,本质是在定义一个“可以执行的任务”,包括:
·目标是什么
·边界在哪里
·能用哪些资源
·什么算完成
这和软件工程里的:
·PRD
·技术方案
·测试标准
非常相似。
这带来一个很重要的变化:
会写 prompt,不再只是语言能力,而是系统设计能力。
真正重要的,不再是“怎么问”,而是:
·能不能定义清楚问题
·能不能拆清楚目标和约束
·能不能给出刚好的上下文
·能不能提前设计验收标准
所以可以下一个更强的判断:
AI 编程的下一阶段,不是 prompt engineering,而是 specification engineering。
自适应思考:模型开始自己管理“推理资源”
Opus 4.7 取消了固定思考预算,改为自适应思考(Adaptive Thinking)。
这看起来是一个技术细节,但背后的含义很大:
模型开始从“被分配推理资源”,走向“自己管理推理资源”。
以前是人类决定:
·这个问题要多想一点
·那个问题可以快一点
现在是模型自己判断:
·是否需要深度推理
·推理到什么程度
·是否值得投入更多计算
这意味着模型能力的重点发生了转移:
不再只是“能不能推理”,而是:
·会不会判断什么时候该推理
·会不会控制推理深度
·会不会在速度、成本和正确率之间权衡
与此同时,人类的控制方式也发生变化:
从参数控制(预算、步数)
变成策略控制(意图、偏好)
例如:
·“这个问题比较复杂,请逐步推理”
·“优先快速回复,不需要深入分析”
这说明一个趋势:
人机接口正在从“底层参数”走向“高层策略”。
为什么模型变“保守”了
不少用户会感觉到:
·工具调用变少了
·子代理更谨慎了
·回答更短了
这不是能力退步,而是产品哲学的变化。
Anthropic 在做的是一种取舍:
不是让模型“尽可能多做”,而是让模型“在可控成本下做对”。
背后有三个目标:
1. 降低无效执行
激进的 agent 容易“很忙但不一定有用”。
2. 提高行为可预测性
企业场景更看重稳定,而不是偶尔的高光表现。
3. 把“探索强度”交还给用户
默认保守,但允许用户明确授权更激进行为。
这本质上是在重新划分责任边界:
·系统负责安全与成本
·用户负责任务强度与探索范围
为什么整个行业都在转向“任务管理”
如果只看 Claude Code,会以为这是 Anthropic 的选择。但实际上,这是整个行业的共同方向。
不同公司在做不同产品,但本质上在竞争同一件事:
谁能成为“模型与真实工作之间的调度层”。
不同公司的路径
·Anthropic:通过 Claude Code 定义“AI 工程师”
·OpenAI:强化工具调用和通用 agent 能力
·Google:把 Gemini 嵌入 Docs / Gmail / Workspace
·Cursor:把 AI 融入开发者 IDE
·Devin:尝试端到端自动完成软件任务
表面看是不同产品,底层竞争的是:
·如何接收任务
·如何理解上下文
·如何规划步骤
·如何调用工具
·如何验证结果
换句话说:
模型是发动机,工具层和工作流才是传动系统。
而未来的差异,很可能不再来自模型本身,而来自这套“传动系统”。
Anthropic vs Google:Agent vs 环境
如果你把格局再拉大一点,会发现不同公司在押注不同未来。
Anthropic:定义 Agent
Claude Code 的路径是:
·提升单个 agent 的能力
·强化任务执行能力
·建立“AI 工程师”的产品心智
核心是:
让你把任务交给 AI
Google:定义环境
Google 的优势在于:
·Gmail
·Docs
·Sheets
·Drive
·Meet
·Search
它的策略不是做一个独立 agent,而是:
把 AI 嵌入所有工作节点
可以用一句话总结:
Anthropic 在定义 agent,Google 在定义环境。
这两条路径,分别对应两种未来:
·你把任务交给 AI
·AI 出现在你每一个工作步骤里
真正该对比的,是“人机分工模型”
很多对比停留在:
·谁更聪明
·谁上下文更长
·谁更快
但更重要的是:
每个产品默认假设的人机分工是什么。
Claude Code
人定义任务,AI执行任务
ChatGPT
人和 AI 一起探索问题
Cursor
人主导开发,AI做加速
Gemini
人不改变流程,AI嵌入流程
Devin
AI 尽可能替代整条流程
所以真正的差异不是能力,而是:
人类参与工作的层级,被重新定义了。
工程师的价值正在上移
当 AI 可以承担越来越多“实现层”的工作时,工程师的价值会发生迁移。
从:
·写代码
·调 API
·debug
转向:
·定义问题
·拆解系统
·设计约束
·控制风险
·设计验收
这其实是一个典型的分工上移过程。
所以可以这样总结:
大模型不是在消灭工程,而是在重排工程中的高价值环节。
结语:这不是工具升级,而是软件生产方式升级
Claude Code + Opus 4.7 的意义,不在于:
·更快写代码
·更聪明回答问题
而在于它在推动一件更底层的变化:
软件生产,正在从“人写代码,AI辅助”,走向“人定义系统,AI执行实现”。
当这一点成立,很多事情都会跟着改变:
·Prompt 会变成 spec
·对话会变成任务
·工具会变成工作流
·工程师会变成 orchestrator
所以,这篇指南真正想表达的不是:
“怎么用 Claude 更高效。”
而是:
未来的软件,不是被写出来的,而是被定义出来的。

