原文:Product management on the AI exponential 作者:Cat Wu(Anthropic,Claude Code 产品负责人) 译文说明:技术与管理向本地化,保留专名(Claude Code、Cowork、METR 等),便于对照原文。
自 2024 年 10 月 Claude Sonnet 3.5(new) 起,作者养成一个习惯:每出新模型,就用当时的 Claude Code(当时还是内部工具)让模型给 Excalidraw 加一个「表格工具」。每个版本都会多推进一点,但一直做不成。
到 2025 年 6 月 Opus 4 发布,Claude 开始偶尔能成功,团队甚至把这段做成了 Claude 4 发布会的预录 demo,展示最新模型已经能做到什么。
不到一年后,Opus 4.6 已经能足够稳定地一次搞定(one-shot)这类 Excalidraw 需求,团队敢在成千上万专业开发者面前现场演示。
模型进步的速度,不断把「可能」的边界往外推。传统产品管理假设:项目开始时技术上能做什么,结束时也差不多还是那些。PM 会在前期尽量把信息收齐,对未来下注,再按数月计划执行。
指数级变强的模型会打破这个假设。 你当初围绕的约束,可能做到一半就消失了。你是在一块不断抬升的地基上盖楼,团队必须按这个现实重组节奏。新的产品节拍是:快速实验、持续交付、对有效路径加倍投入。
作者在 Anthropic 做 PM,被问得最多的是:我们的角色到底怎么变。下面是她的总结。
我与 Claude Code 同行的产品之路
职业早期,作者在 Scale AI、Dagster 等公司做 product engineer,后来做过风投;做 VC 时仍会写代码,把繁琐工作自动化,例如扫 X 上的新公司动态、判断开源项目是否在起势。
2024 年 8 月加入 Anthropic,在 Research PM 团队,连接研究与真实客户,推动更好的模型交付。那年秋天 Claude Code 对内开放后,她用它加速工作中偏手工的部分:搭 Streamlit 分析大规模用户反馈、跑 eval 帮公司找更可信的新 benchmark;低门槛也让她能探索职责之外的事,例如搭 RL 环境 以理解训练。
这些项目花了数百小时与 Claude Code(Sonnet 3.5 new) 对话,但没有一行手写代码。
设计一套新的产品管理工作流
Claude Code、Cowork 等工具,正在模糊产品生命周期里各角色的边界。
作者自己的工作流逐渐稳定为三款产品分工:
产品 | 用途 |
Claude.ai | 与 Claude 对话、碰撞思路,不需要它直接替你执行。写战略文档、处理棘手情境、快速问答。 |
Claude Code | 做原型、eval、脚本,很多会调 Claude API;产出是代码时用它。 |
Cowork | 其余知识工作:清空收件箱、跟进待办、做幻灯片、在 Slack 里搜决策历史、订差旅等。 |
行业里其他 PM 也有类似组合。文中引述:
Bihan Jiang(Decagon,产品总监):「Claude 抬高了优秀产品团队能交付的上限,也极大缩短了从想法到原型的距离。过去要把东西摆到客户面前可能要几周;现在我会先在 Claude Cowork 里拉齐 Slack、代码库、文档上下文,再进 Claude Code,几小时内就有可 demo 的东西。好团队一向会用真实用户验证想法,这点没变;变的是我们能经得起完整验证循环的高质量想法多了多少。」
Kai Xin Tai(Datadog,高级产品经理):「在 AI-native 世界里做 PM,既像创作又像做研究。每次新模型都会改写可能性边界;我们做 Datadog Bits AI SRE agent 时,会在真实生产事故上做离线 eval,研究模型强项与失效模式,并设计紧凑反馈回路,在 UI 上暴露 agent 吃力的环节,再反哺产品。可以说,手艺从事先定义确定性转向了加速发现。」
主动拥抱「AI 指数曲线」
文中引用 METR 研究:《Task-Completion Time Horizons of Frontier AI Models》(2026 年 3 月)。大约一半情况下,Opus 4.6 能完成人类需要近 12 小时 才能做完的软件类任务。
团队刚开始做 Claude Code 时,前沿模型是 Sonnet 3.5(new),METR 测到它大致对应人类约 21 分钟 量级的任务——约 16 个月里,能力量级跃升约 41 倍(原文表述为 roughly 41x jump)。
Claude Code 团队也在随模型进化而变:设计写代码、工程做产品决策、产品做原型和 eval。能跑通,是因为清晰的战略与目标让每个人能自主排序。PM 的工作,是在模型快速进步带来的模糊里建立清晰度,推动团队把「可能」想更大,并扫清更快 ship 路上的障碍。
作者总结了 四个转变:
图源:Claude 官方博文插图 fig1-claude-code-pm-playbook-on-the-ai-exponential,概括短周期、demo/eval、随模型迭代重做、做简单有效之事四条主线。
1. 用短周期规划(Plan in short sprints)
传统思路里,探索发生在路线图锁死之前:调研、写 PRD、交给工程开做。
团队更鼓励** side quest(支线任务)**:在正式路线图之外,短平快的自驱实验——一下午做个原型、测一个原以为够不着的 capability、或故意把模型推到比预期更狠。Anthropic 一些受欢迎的功能——Claude Code Desktop、AskUserQuestion 工具、待办列表——都来自这类探索。
2. 用 demo 和 eval 代替「文档优先」(Encourage demos and evals over docs)
团队 largely 用 prototype-first 替代 documentation-first。不再依赖传统站会,而是分享新想法的 demo;内部用户试用,真正有 engagement 的再打磨、再扩散。下午能出原型,押错成本就低。
例如有人把 plugins 的 spec 丢给 Claude Code,回来的原型已接近可上线,团队能很快验证 UX,最终交付也围绕这个原型对齐。
小技巧:写完 spec,先丢给 Claude Code 看能不能做出来;哪怕粗糙原型,也会改变讨论方式。
除 demo 外,eval 能把抽象功能变具体。例如 agent teams(多实例 Claude Code 协同)场景里,同事手搓了一套 eval,弄清何时好用、何时不行、该修什么。能量化,才容易迭代。
3. 新模型发布后回头重做(Revisit features with new models)
功能上线后,更好的模型一来,同一功能可以好一大截。每次发版都是在提醒:把已经做过的东西再拿出来试一遍。
最好的捕捉方式是自己天天用,并故意让它做你觉得太难的事——有时突然能成,就说明产品该跟上。
Claude Code with Chrome 就是这样来的:用户用 Claude Code 做 web app,再手动切到 Chrome 里的 Claude 去测,两边复制粘贴提示。团队发现这种「用户自己搭脚手架」的行为足够普遍,就应做成一等公民功能。
做原型时,先为能力优化,别过早抠 token。常见错误是过早砍成本,结果 ship 出去的东西弱很多。成本可以等便宜模型追上来再压;先要确认这件事在能力上是否成立。
4. 做简单有效的事(Do the simple thing)
Anthropic 跨团队有一条原则:做简单且有效的事(the simple thing that works)。
若产品巧妙绕开了模型短板,下个模型一强,这些 workaround 就变成多余复杂度。实现越简单,越容易换上新能力。
例如早期 Claude Code 待办列表:模型不能稳定勾选已完成项,团队就加系统提醒,隔几条消息催 agent 更新待办——能用,但是 hack。新模型一来,行为自然变好,提醒就删掉了。类似地,系统提示与工具说明曾为了补模型短板写得很重;随模型迭代不断瘦身,Opus 4.6 上提示词还砍了约 20%。
向前看(Looking forward)
很多 PM 习惯强控制端到端体验,但做 AI 产品往往要放手才能快。作者说像冲浪:关键是留在浪上。作为 perfectionist,这是她最难适应的一点;现在的角色是:抓住少数真正不可妥协的点,其余放手。
这些转变叠加的结果是:团队整体快很多。PM 从「要是我们试试…」到「来,你试试这个」,间隔几乎消失。
在 Anthropic,不只 PM:数据科学、财务、市场、法务、设计等团队也自发用起来,全公司同速前进,而不是卡在交接上。
今天的 PM 要同时盯两件事:AI 如何改变你的工作方式,以及 AI 如何改变产品里「能做到什么」。两件事都盯住了,当「表格工具终于稳定能加进 Excalidraw」时,你不会意外——你早就预见到了。
致谢(译注)
原文致谢:本文由 Cat Wu(Anthropic,Claude Code 产品负责人)撰写;感谢 Bihan Jiang、Kai Xin Tai 对本文的贡献。原文页脚可见作者社交链接。