同一个模型、同一个问题,换一段 System Prompt 输出就天差地别。用 Workbench 的 A/B 测试功能,60 秒测出哪段 Prompt 比较强;再用 Haiku、Sonnet、Opus 三个模型实跑一遍,什么时候该花大钱、什么时候省着用,看完你自己就会判断。
一、Workbench 是什么?
你平常用 Claude,是不是只会在聊天界面里对话?当然可以,但如果你想要调 AI 的行为、比较不同写法的效果、选出最适合你的模型,你需要一个实验室 — Workbench 就是这个东西。
打开 Anthropic Console,在左边的菜单找到 Workbench,点开就什么都有了。不用装软件、不用写代码,开浏览器直接用。
界面就三块:
- System Prompt — 给 AI 的角色设定书
- User Message — 你要问的问题
- 右边 Sidebar — 参数设置(模型、温度等)
二、为什么你该学会测 Prompt
你一定干过这种事:在网上看到有人分享一个超猛的 Prompt,复制粘贴一用,结果普普通通。太正常了,Prompt 好不好跟你的具体任务有关,哪有什么万能公式。
所以聪明的做法不是去抄 Prompt,是学会怎么测。A/B 测试就是写两版,同一个问题丢进去,看谁 Output 比较好。做产品的人本来就天天在搞这个,今天你也可以拿来测 Prompt。
三、A/B 测试实战:先感受差距
假设今天的任务是让 AI 帮你写一段 YouTube 影片的开场。先来写两个差很远的 System Prompt,让你直接感受一下。
版本 A:阳春版
就一句话,连风格都没写,受众也没讲。蛮多人其实就是这样在用的。
版本 B:详细版
把所有细节塞好塞满 — 角色定位、创作原则、受众描述、输出格式,明显比版本 A 详细了很多。
两边都打同一个问题:「请写一段关于 Excel VLOOKUP 函数教学的影片开场,30 秒以内」,同时送出。
结果对比
| 版本 | 输出品质 | 评价 |
|---|---|---|
| 版本 A | 「你有没有遇过这种情况?表格里有几百笔资料…」 | 能看,但平平的,在 YouTube 上会直接划掉的开场,没什么记忆点 |
| 版本 B | 「你有一份 3,000 笔的客户清单,老板要你在一小时内比对出哪些人还没付款…」 | 开头就有好奇心缺口,30 秒内告诉观众能学到什么,还附了画面提示,直接拿去拍都行 |
同一个模型、同一个问题,差别只在 System Prompt。
四、关键原则:一次只改一个变量
A/B 测试最重要的观念:每次只动一个地方。刚才的大对比是让你感受差距用的,但真正要优化 Prompt 的时候,你得一层一层往上叠,每一层只加一个东西。
刚才版本 B 里面改了 4 个东西:角色、创作原则、受众、输出格式。一口气全换了,根本不知道到底是哪个改动让它变好的。是受众描述有用?还是创作原则?还是输出格式?
第一层:只加受众描述
拿版本 A 当基础,这次只加一行「目标受众」,其他不动,就多这一行而已。一样问 VLOOKUP,然后送出。
结果:就加了一行受众描述,Output 的语气跟用词就不一样了。它开始用比较专业的口吻,不会写那种太花俏的东西。所以加受众描述这个改动有效,确认了。
第二层:再加输出格式
有效的东西留着,再往上叠一层。这次在上一版的基础上加输出格式。
结果:这次 Output 就多了画面提示跟旁白的分隔,拿去拍片的时候哪段该录什么画面一目了然。
你看这样一步步叠上去,每一层改动的效果清清楚楚。不是一口气改 5 个东西然后跟自己说「嗯,好像变好了」。
五、两个测试小技巧
1. 同一个问题至少跑 3 次
AI 每次跑出来的结果都不太一样,因为它有一个叫 temperature 的参数,会加入随机性。跑一次根本不准,多跑几次看整体表现,这样才准。
2. 换不同问题交叉测
一个 Prompt 在 VLOOKUP 赢了,不代表讲 Python 也会赢。多换几个主题试试,确认它是真的通用,不是刚好蒙到的。
六、三大模型怎么选?
Claude 现在有 3 个等级的模型,在 Workbench 右边的下拉选单就能切换:
| 模型 | 定位 | 擅长任务 | 比喻 |
|---|---|---|---|
| Haiku | 最快最便宜 | 分类、抓关键字、格式转换 | 反应超快的实习生 |
| Sonnet | 速度跟品质最平衡 | 写文案、回 Email、整理笔记 | 全能型员工(CP 值最高) |
| Opus | 最强但最贵 | 深度推理、复杂分析、策略规划 | 高级顾问 |
测试一:简单任务(翻译)
三个模型跑一遍,你会发现这种有标准答案的任务,三个模型的 Output 品质几乎一样。那干嘛花 Opus 的钱?Haiku 就搞定了,还快 3 倍。
测试二:复杂任务(策略分析)
来个有挑战的:「你是一位资深内容策略顾问,请根据以下 YouTube 频道数据分析问题,并给出具体的改善建议。」这次不同模型的输出差异就比较大了:
| 模型 | 表现 | 评价 |
|---|---|---|
| Haiku | 有回答,但比较表面,像在套公式 | 每个建议都对,但不够深 |
| Sonnet | 分析到位,能指出观看时长偏低代表内容结构有问题 | 建议蛮具体,可以直接拿去执行 |
| Opus | 不止分析数据,还交叉比对指标之间的关系 | 能指出「CTR 4.2% 不算低,但观看时长只有 32%,代表标题吸引到人但内容没留住人,问题出在影片前两分钟的结构」 |
这种洞察就是 Opus 的价值。
七、模型选择速查
| 任务类型 | 推荐模型 | 原因 |
|---|---|---|
| 有标准答案(翻译、提取、格式转换) | Haiku | 快又省,品质跟大模型一样 |
| 需要理解上下文(写文案、回 Email、整理笔记) | Sonnet | CP 值最高,大部分日常任务都够用 |
| 深度思考(复杂分析、策略规划、多步推理) | Opus | 这个钱花得值得 |
| 不确定该用哪个 | 先 Sonnet | 觉得不够深再切 Opus 就好,先省钱不够再加 |
八、总结
Prompt 怎么调:
- 用 Workbench 做 A/B 测试,一次只改一个变量
- 一步步往上叠,每个改动带来什么效果你都看得到
- 同一个问题至少跑 3 次,换不同问题交叉测
- 好的 Prompt 不是抄来的,是这样测出来的
模型怎么选:
- 简单任务 Haiku,日常任务 Sonnet,复杂分析 Opus
- 不确定先 Sonnet,不够再升就好
补充:Console 里面还有一个 Evaluate 功能,可以做更系统化的 Prompt 测试,有兴趣的可以自己去玩玩看。