Claude Workbench 实战：A/B 测试 Prompt + 三大模型怎么选

同一个模型、同一个问题，换一段 System Prompt 输出就天差地别。用 Workbench 的 A/B 测试功能，60 秒测出哪段 Prompt 比较强；再用 Haiku、Sonnet、Opus 三个模型实跑一遍，什么时候该花大钱、什么时候省着用，看完你自己就会判断。

一、Workbench 是什么？

你平常用 Claude，是不是只会在聊天界面里对话？当然可以，但如果你想要调 AI 的行为、比较不同写法的效果、选出最适合你的模型，你需要一个实验室 — Workbench 就是这个东西。

打开 Anthropic Console，在左边的菜单找到 Workbench，点开就什么都有了。不用装软件、不用写代码，开浏览器直接用。

界面就三块：

System Prompt — 给 AI 的角色设定书
User Message — 你要问的问题
右边 Sidebar — 参数设置（模型、温度等）

二、为什么你该学会测 Prompt

你一定干过这种事：在网上看到有人分享一个超猛的 Prompt，复制粘贴一用，结果普普通通。太正常了，Prompt 好不好跟你的具体任务有关，哪有什么万能公式。

所以聪明的做法不是去抄 Prompt，是学会怎么测。A/B 测试就是写两版，同一个问题丢进去，看谁 Output 比较好。做产品的人本来就天天在搞这个，今天你也可以拿来测 Prompt。

三、A/B 测试实战：先感受差距

假设今天的任务是让 AI 帮你写一段 YouTube 影片的开场。先来写两个差很远的 System Prompt，让你直接感受一下。

版本 A：阳春版

就一句话，连风格都没写，受众也没讲。蛮多人其实就是这样在用的。

版本 B：详细版

把所有细节塞好塞满 — 角色定位、创作原则、受众描述、输出格式，明显比版本 A 详细了很多。

两边都打同一个问题：「请写一段关于 Excel VLOOKUP 函数教学的影片开场，30 秒以内」，同时送出。

结果对比

版本	输出品质	评价
版本 A	「你有没有遇过这种情况？表格里有几百笔资料…」	能看，但平平的，在 YouTube 上会直接划掉的开场，没什么记忆点
版本 B	「你有一份 3,000 笔的客户清单，老板要你在一小时内比对出哪些人还没付款…」	开头就有好奇心缺口，30 秒内告诉观众能学到什么，还附了画面提示，直接拿去拍都行

同一个模型、同一个问题，差别只在 System Prompt。

四、关键原则：一次只改一个变量

A/B 测试最重要的观念：每次只动一个地方。刚才的大对比是让你感受差距用的，但真正要优化 Prompt 的时候，你得一层一层往上叠，每一层只加一个东西。

刚才版本 B 里面改了 4 个东西：角色、创作原则、受众、输出格式。一口气全换了，根本不知道到底是哪个改动让它变好的。是受众描述有用？还是创作原则？还是输出格式？

第一层：只加受众描述

拿版本 A 当基础，这次只加一行「目标受众」，其他不动，就多这一行而已。一样问 VLOOKUP，然后送出。

结果：就加了一行受众描述，Output 的语气跟用词就不一样了。它开始用比较专业的口吻，不会写那种太花俏的东西。所以加受众描述这个改动有效，确认了。

第二层：再加输出格式

有效的东西留着，再往上叠一层。这次在上一版的基础上加输出格式。

结果：这次 Output 就多了画面提示跟旁白的分隔，拿去拍片的时候哪段该录什么画面一目了然。

你看这样一步步叠上去，每一层改动的效果清清楚楚。不是一口气改 5 个东西然后跟自己说「嗯，好像变好了」。

五、两个测试小技巧

1. 同一个问题至少跑 3 次

AI 每次跑出来的结果都不太一样，因为它有一个叫 temperature 的参数，会加入随机性。跑一次根本不准，多跑几次看整体表现，这样才准。

2. 换不同问题交叉测

一个 Prompt 在 VLOOKUP 赢了，不代表讲 Python 也会赢。多换几个主题试试，确认它是真的通用，不是刚好蒙到的。

六、三大模型怎么选？

Claude 现在有 3 个等级的模型，在 Workbench 右边的下拉选单就能切换：

模型	定位	擅长任务	比喻
Haiku	最快最便宜	分类、抓关键字、格式转换	反应超快的实习生
Sonnet	速度跟品质最平衡	写文案、回 Email、整理笔记	全能型员工（CP 值最高）
Opus	最强但最贵	深度推理、复杂分析、策略规划	高级顾问

测试一：简单任务（翻译）

三个模型跑一遍，你会发现这种有标准答案的任务，三个模型的 Output 品质几乎一样。那干嘛花 Opus 的钱？Haiku 就搞定了，还快 3 倍。

测试二：复杂任务（策略分析）

来个有挑战的：「你是一位资深内容策略顾问，请根据以下 YouTube 频道数据分析问题，并给出具体的改善建议。」这次不同模型的输出差异就比较大了：

模型	表现	评价
Haiku	有回答，但比较表面，像在套公式	每个建议都对，但不够深
Sonnet	分析到位，能指出观看时长偏低代表内容结构有问题	建议蛮具体，可以直接拿去执行
Opus	不止分析数据，还交叉比对指标之间的关系	能指出「CTR 4.2% 不算低，但观看时长只有 32%，代表标题吸引到人但内容没留住人，问题出在影片前两分钟的结构」

这种洞察就是 Opus 的价值。

七、模型选择速查

任务类型	推荐模型	原因
有标准答案（翻译、提取、格式转换）	Haiku	快又省，品质跟大模型一样
需要理解上下文（写文案、回 Email、整理笔记）	Sonnet	CP 值最高，大部分日常任务都够用
深度思考（复杂分析、策略规划、多步推理）	Opus	这个钱花得值得
不确定该用哪个	先 Sonnet	觉得不够深再切 Opus 就好，先省钱不够再加

八、总结

Prompt 怎么调：

用 Workbench 做 A/B 测试，一次只改一个变量
一步步往上叠，每个改动带来什么效果你都看得到
同一个问题至少跑 3 次，换不同问题交叉测
好的 Prompt 不是抄来的，是这样测出来的

模型怎么选：

简单任务 Haiku，日常任务 Sonnet，复杂分析 Opus
不确定先 Sonnet，不够再升就好

补充：Console 里面还有一个 Evaluate 功能，可以做更系统化的 Prompt 测试，有兴趣的可以自己去玩玩看。