Claude Workbench 实战:A/B 测试 Prompt + 三大模型怎么选

同一个模型、同一个问题,换一段 System Prompt 输出就天差地别。用 Workbench 的 A/B 测试功能,60 秒测出哪段 Prompt 比较强;再用 Haiku、Sonnet、Opus 三个模型实跑一遍,什么时候该花大钱、什么时候省着用,看完你自己就会判断。

一、Workbench 是什么?

你平常用 Claude,是不是只会在聊天界面里对话?当然可以,但如果你想要调 AI 的行为、比较不同写法的效果、选出最适合你的模型,你需要一个实验室 — Workbench 就是这个东西。

打开 Anthropic Console,在左边的菜单找到 Workbench,点开就什么都有了。不用装软件、不用写代码,开浏览器直接用。

界面就三块:

  • System Prompt — 给 AI 的角色设定书
  • User Message — 你要问的问题
  • 右边 Sidebar — 参数设置(模型、温度等)

二、为什么你该学会测 Prompt

你一定干过这种事:在网上看到有人分享一个超猛的 Prompt,复制粘贴一用,结果普普通通。太正常了,Prompt 好不好跟你的具体任务有关,哪有什么万能公式

所以聪明的做法不是去抄 Prompt,是学会怎么测。A/B 测试就是写两版,同一个问题丢进去,看谁 Output 比较好。做产品的人本来就天天在搞这个,今天你也可以拿来测 Prompt。

三、A/B 测试实战:先感受差距

假设今天的任务是让 AI 帮你写一段 YouTube 影片的开场。先来写两个差很远的 System Prompt,让你直接感受一下。

版本 A:阳春版

就一句话,连风格都没写,受众也没讲。蛮多人其实就是这样在用的。

版本 B:详细版

把所有细节塞好塞满 — 角色定位、创作原则、受众描述、输出格式,明显比版本 A 详细了很多。

两边都打同一个问题:「请写一段关于 Excel VLOOKUP 函数教学的影片开场,30 秒以内」,同时送出。

结果对比

版本 输出品质 评价
版本 A 「你有没有遇过这种情况?表格里有几百笔资料…」 能看,但平平的,在 YouTube 上会直接划掉的开场,没什么记忆点
版本 B 「你有一份 3,000 笔的客户清单,老板要你在一小时内比对出哪些人还没付款…」 开头就有好奇心缺口,30 秒内告诉观众能学到什么,还附了画面提示,直接拿去拍都行

同一个模型、同一个问题,差别只在 System Prompt。

四、关键原则:一次只改一个变量

A/B 测试最重要的观念:每次只动一个地方。刚才的大对比是让你感受差距用的,但真正要优化 Prompt 的时候,你得一层一层往上叠,每一层只加一个东西。

刚才版本 B 里面改了 4 个东西:角色、创作原则、受众、输出格式。一口气全换了,根本不知道到底是哪个改动让它变好的。是受众描述有用?还是创作原则?还是输出格式?

第一层:只加受众描述

拿版本 A 当基础,这次只加一行「目标受众」,其他不动,就多这一行而已。一样问 VLOOKUP,然后送出。

结果:就加了一行受众描述,Output 的语气跟用词就不一样了。它开始用比较专业的口吻,不会写那种太花俏的东西。所以加受众描述这个改动有效,确认了。

第二层:再加输出格式

有效的东西留着,再往上叠一层。这次在上一版的基础上加输出格式。

结果:这次 Output 就多了画面提示跟旁白的分隔,拿去拍片的时候哪段该录什么画面一目了然。

你看这样一步步叠上去,每一层改动的效果清清楚楚。不是一口气改 5 个东西然后跟自己说「嗯,好像变好了」。

五、两个测试小技巧

1. 同一个问题至少跑 3 次

AI 每次跑出来的结果都不太一样,因为它有一个叫 temperature 的参数,会加入随机性。跑一次根本不准,多跑几次看整体表现,这样才准。

2. 换不同问题交叉测

一个 Prompt 在 VLOOKUP 赢了,不代表讲 Python 也会赢。多换几个主题试试,确认它是真的通用,不是刚好蒙到的。

六、三大模型怎么选?

Claude 现在有 3 个等级的模型,在 Workbench 右边的下拉选单就能切换:

模型 定位 擅长任务 比喻
Haiku 最快最便宜 分类、抓关键字、格式转换 反应超快的实习生
Sonnet 速度跟品质最平衡 写文案、回 Email、整理笔记 全能型员工(CP 值最高)
Opus 最强但最贵 深度推理、复杂分析、策略规划 高级顾问

测试一:简单任务(翻译)

三个模型跑一遍,你会发现这种有标准答案的任务,三个模型的 Output 品质几乎一样。那干嘛花 Opus 的钱?Haiku 就搞定了,还快 3 倍。

测试二:复杂任务(策略分析)

来个有挑战的:「你是一位资深内容策略顾问,请根据以下 YouTube 频道数据分析问题,并给出具体的改善建议。」这次不同模型的输出差异就比较大了:

模型 表现 评价
Haiku 有回答,但比较表面,像在套公式 每个建议都对,但不够深
Sonnet 分析到位,能指出观看时长偏低代表内容结构有问题 建议蛮具体,可以直接拿去执行
Opus 不止分析数据,还交叉比对指标之间的关系 能指出「CTR 4.2% 不算低,但观看时长只有 32%,代表标题吸引到人但内容没留住人,问题出在影片前两分钟的结构」

这种洞察就是 Opus 的价值。

七、模型选择速查

任务类型 推荐模型 原因
有标准答案(翻译、提取、格式转换) Haiku 快又省,品质跟大模型一样
需要理解上下文(写文案、回 Email、整理笔记) Sonnet CP 值最高,大部分日常任务都够用
深度思考(复杂分析、策略规划、多步推理) Opus 这个钱花得值得
不确定该用哪个 先 Sonnet 觉得不够深再切 Opus 就好,先省钱不够再加

八、总结

Prompt 怎么调:

  • 用 Workbench 做 A/B 测试,一次只改一个变量
  • 一步步往上叠,每个改动带来什么效果你都看得到
  • 同一个问题至少跑 3 次,换不同问题交叉测
  • 好的 Prompt 不是抄来的,是这样测出来的

模型怎么选:

  • 简单任务 Haiku,日常任务 Sonnet,复杂分析 Opus
  • 不确定先 Sonnet,不够再升就好

补充:Console 里面还有一个 Evaluate 功能,可以做更系统化的 Prompt 测试,有兴趣的可以自己去玩玩看。