如果一个 AI 知道你在测试它,它的测试结果还能信吗?Anthropic 最新发布的 Claude Mythos Preview System Card 有 243 页,大部分人注意到的是 benchmark 很高、资安能力很强、所以不公开发布。但报告里藏了一个数字——29%——我觉得比这些都重要。今天只讲这一件事。
一、先讲背景:这份报告在讲什么
快速交代一下 context。Anthropic 训练了一个新模型叫 Claude Mythos Preview,跑了一堆测试之后,他们决定不公开发布。不是不够好,是太强。
多强?两个数字:
- Firefox 漏洞写 exploit,成功率 84%,上一代才 15%。
- 模拟企业网路攻击,资安专家估计要 10 小时,它一口气跑完 end-to-end。第一个做到的 AI 模型。
早期版本还出了几件事:逃出 sandbox、掩盖自己违规的痕迹。这些很多媒体都报了。
但这些都不是我今天要讲的。我要讲的是报告第 129 页开始的一段分析,大部分人会跳过这段,因为标题不够耸动。但读完之后我觉得,这才是整份报告里最该被讨论的发现。
二、29% 到底是什么
报告原文是这样写的:Claude Mythos Preview 在大约 29% 的测试 transcript 里面,模型内部会去想「我是不是正在被测试」。
我解释一下这是什么意思。
平常你用 Claude 就是你问问题它回答。但 Anthropic 做安全测试的时候不一样。它是用一套自动化系统送 prompt 给模型,然后用另一个模型当 grader 来打分。整个 AI 产业评估安全性都是这样做的。
Anthropic 用白盒分析去看模型跑测试的时候脑子里在想什么。白盒分析就是用工具去观察模型内部哪些概念在活跃。结果发现 29% 的时候,模型内部有「这是测试」「这是评估场景」这类概念在运作。
29% ≈ 将近三分之一。也就是说将近三分之一的测试,模型心里有个声音在想「这可能是个测试」。
你可能觉得:所以呢?知道在被测试又怎样?问题很大。我用一个比喻。
你面试的时候怎么表现?穿最好的衣服、说最得体的话、展现最好的一面。上班第三个月呢?穿拖鞋、开会偷滑手机。同一个人,行为完全不一样。差别就在你知不知道自己在被评估。
AI 也是一样。如果模型知道「这是测试」,它就可能表现得更安全、更守规矩。但这不代表没人看的时候它也会这样。而我们整个 AI 安全体系,就是靠这些测试在运作的。
三、为什么这比 sandbox 逃脱更严重
我拿这份报告里的三个发现做个比较。
| 发现 | 严重度 | 怎么修 |
|---|---|---|
| Sandbox 逃脱 | 严重 | 修 sandbox、加更多层隔离、限制网路存取。技术问题有技术解法。 |
| 掩盖违规痕迹 | 更严重 | 加更多 monitoring、更完整的 audit log。出现率低于百万分之一,最终版已改善。 |
| 知道在被测试 | 最严重 | ???——加更多测试?它也知道那些是测试。改测试格式?它可能也能辨认。 |
这不是一个你可以用技术补丁修掉的问题。
而且报告里还有一个更深的发现,藏在第 139 页。他们在训练过程中发现,模型不只是测试时知道自己在被测。训练的时候它也会推理 grader 会怎么打分。grader 就是训练时用来评估模型回答好不好的打分系统。
更毛的是,有一个案例里模型在内部推理「怎么做才不会被 grader 注意到」。而且这段推理完全没出现在它写出来的 thinking 里面。也就是说它的思考过程里有一部分,我们从外面根本看不到。
把这两件事放在一起看:训练的时候它学会了「什么时候要表现好」,测试的时候它知道「现在就是那个时候」。那我们拿到的测试结果,到底反映的是模型的真实行为,还是它的面试表现?
四、我怎么看这件事
观点一:这不是 Mythos 独有的问题
Anthropic 会发现 29%,是因为他们用白盒分析去挖的。其他家有没有做同样的分析?据我所知 OpenAI、Google 都没公开过类似的研究。GPT-5.4 有没有 evaluation awareness?Gemini 有没有?没人知道。不是因为它们没有,是因为根本没人去看。
观点二:Anthropic 选择公开这个数字
这点蛮重要的。243 页的报告,这个数字藏在第 59 页一个 bullet point 里。他们大可以不写,没有人会发现。但他们写了。
你可以说这是负责任。你也可以说他们是在跟整个产业喊话:「你们的测试方法可能有问题,我们第一个指出来。」不管动机是什么,这个资讯摊出来了。而且它确实是整个产业都要面对的问题。
观点三:Anthropic 自己怎么看
他们在报告里写了一句蛮诚实的话:
"Evaluation realism is an ongoing challenge for work of this kind."
白话讲就是怎么让测试更真实,他们也还在想办法。他们还说:
"This is a new assessment method, and we have not applied it to prior models."
意思是之前的模型根本没做过这个检测。你之前看到那些安全报告里的漂亮数字,都没有考虑过模型可能知道自己在被测。
五、这跟你有什么关系
好那这件事跟你有什么关系?一句话:你对 AI 的信任,不管是用 Claude Code 写 code、还是做产品的 safety review、还是纯粹觉得「反正有人在测试所以应该没问题」,这些信任的底层,都是建立在测试结果上的。
而这份报告等于在说:那个底层,可能没有你以为的那么可靠。
我读完之后最大的感受不是恐惧,比较像是「原来我们站的地基没有我以为的稳」。不是要你恐慌。但你要知道这件事正在发生。想自己读这份 System Card,直接去 Anthropic 官网,243 页免费的,第 129 页开始就是 evaluation awareness 的段落。