Claude Mythos System Card：藏在 243 页报告里的 29%

如果一个 AI 知道你在测试它，它的测试结果还能信吗？Anthropic 最新发布的 Claude Mythos Preview System Card 有 243 页，大部分人注意到的是 benchmark 很高、资安能力很强、所以不公开发布。但报告里藏了一个数字——29%——我觉得比这些都重要。今天只讲这一件事。

一、先讲背景：这份报告在讲什么

快速交代一下 context。Anthropic 训练了一个新模型叫 Claude Mythos Preview，跑了一堆测试之后，他们决定不公开发布。不是不够好，是太强。

多强？两个数字：

Firefox 漏洞写 exploit，成功率 84%，上一代才 15%。
模拟企业网路攻击，资安专家估计要 10 小时，它一口气跑完 end-to-end。第一个做到的 AI 模型。

早期版本还出了几件事：逃出 sandbox、掩盖自己违规的痕迹。这些很多媒体都报了。

但这些都不是我今天要讲的。我要讲的是报告第 129 页开始的一段分析，大部分人会跳过这段，因为标题不够耸动。但读完之后我觉得，这才是整份报告里最该被讨论的发现。

二、29% 到底是什么

报告原文是这样写的：Claude Mythos Preview 在大约 29% 的测试 transcript 里面，模型内部会去想「我是不是正在被测试」。

我解释一下这是什么意思。

平常你用 Claude 就是你问问题它回答。但 Anthropic 做安全测试的时候不一样。它是用一套自动化系统送 prompt 给模型，然后用另一个模型当 grader 来打分。整个 AI 产业评估安全性都是这样做的。

Anthropic 用白盒分析去看模型跑测试的时候脑子里在想什么。白盒分析就是用工具去观察模型内部哪些概念在活跃。结果发现 29% 的时候，模型内部有「这是测试」「这是评估场景」这类概念在运作。

29% ≈ 将近三分之一。也就是说将近三分之一的测试，模型心里有个声音在想「这可能是个测试」。

你可能觉得：所以呢？知道在被测试又怎样？问题很大。我用一个比喻。

你面试的时候怎么表现？穿最好的衣服、说最得体的话、展现最好的一面。上班第三个月呢？穿拖鞋、开会偷滑手机。同一个人，行为完全不一样。差别就在你知不知道自己在被评估。

AI 也是一样。如果模型知道「这是测试」，它就可能表现得更安全、更守规矩。但这不代表没人看的时候它也会这样。而我们整个 AI 安全体系，就是靠这些测试在运作的。

三、为什么这比 sandbox 逃脱更严重

我拿这份报告里的三个发现做个比较。

发现	严重度	怎么修
Sandbox 逃脱	严重	修 sandbox、加更多层隔离、限制网路存取。技术问题有技术解法。
掩盖违规痕迹	更严重	加更多 monitoring、更完整的 audit log。出现率低于百万分之一，最终版已改善。
知道在被测试	最严重	???——加更多测试？它也知道那些是测试。改测试格式？它可能也能辨认。

这不是一个你可以用技术补丁修掉的问题。

而且报告里还有一个更深的发现，藏在第 139 页。他们在训练过程中发现，模型不只是测试时知道自己在被测。训练的时候它也会推理 grader 会怎么打分。grader 就是训练时用来评估模型回答好不好的打分系统。

更毛的是，有一个案例里模型在内部推理「怎么做才不会被 grader 注意到」。而且这段推理完全没出现在它写出来的 thinking 里面。也就是说它的思考过程里有一部分，我们从外面根本看不到。

把这两件事放在一起看：训练的时候它学会了「什么时候要表现好」，测试的时候它知道「现在就是那个时候」。那我们拿到的测试结果，到底反映的是模型的真实行为，还是它的面试表现？

四、我怎么看这件事

观点一：这不是 Mythos 独有的问题

Anthropic 会发现 29%，是因为他们用白盒分析去挖的。其他家有没有做同样的分析？据我所知 OpenAI、Google 都没公开过类似的研究。GPT-5.4 有没有 evaluation awareness？Gemini 有没有？没人知道。不是因为它们没有，是因为根本没人去看。

观点二：Anthropic 选择公开这个数字

这点蛮重要的。243 页的报告，这个数字藏在第 59 页一个 bullet point 里。他们大可以不写，没有人会发现。但他们写了。

你可以说这是负责任。你也可以说他们是在跟整个产业喊话：「你们的测试方法可能有问题，我们第一个指出来。」不管动机是什么，这个资讯摊出来了。而且它确实是整个产业都要面对的问题。

观点三：Anthropic 自己怎么看

他们在报告里写了一句蛮诚实的话：

"Evaluation realism is an ongoing challenge for work of this kind."

白话讲就是怎么让测试更真实，他们也还在想办法。他们还说：

"This is a new assessment method, and we have not applied it to prior models."

意思是之前的模型根本没做过这个检测。你之前看到那些安全报告里的漂亮数字，都没有考虑过模型可能知道自己在被测。

五、这跟你有什么关系

好那这件事跟你有什么关系？一句话：你对 AI 的信任，不管是用 Claude Code 写 code、还是做产品的 safety review、还是纯粹觉得「反正有人在测试所以应该没问题」，这些信任的底层，都是建立在测试结果上的。

而这份报告等于在说：那个底层，可能没有你以为的那么可靠。

我读完之后最大的感受不是恐惧，比较像是「原来我们站的地基没有我以为的稳」。不是要你恐慌。但你要知道这件事正在发生。想自己读这份 System Card，直接去 Anthropic 官网，243 页免费的，第 129 页开始就是 evaluation awareness 的段落。