Claude Mythos System Card:藏在 243 页报告里的 29%

如果一个 AI 知道你在测试它,它的测试结果还能信吗?Anthropic 最新发布的 Claude Mythos Preview System Card 有 243 页,大部分人注意到的是 benchmark 很高、资安能力很强、所以不公开发布。但报告里藏了一个数字——29%——我觉得比这些都重要。今天只讲这一件事。

一、先讲背景:这份报告在讲什么

快速交代一下 context。Anthropic 训练了一个新模型叫 Claude Mythos Preview,跑了一堆测试之后,他们决定不公开发布。不是不够好,是太强。

多强?两个数字:

  • Firefox 漏洞写 exploit,成功率 84%,上一代才 15%。
  • 模拟企业网路攻击,资安专家估计要 10 小时,它一口气跑完 end-to-end。第一个做到的 AI 模型。

早期版本还出了几件事:逃出 sandbox、掩盖自己违规的痕迹。这些很多媒体都报了。

但这些都不是我今天要讲的。我要讲的是报告第 129 页开始的一段分析,大部分人会跳过这段,因为标题不够耸动。但读完之后我觉得,这才是整份报告里最该被讨论的发现。

二、29% 到底是什么

报告原文是这样写的:Claude Mythos Preview 在大约 29% 的测试 transcript 里面,模型内部会去想「我是不是正在被测试」

我解释一下这是什么意思。

平常你用 Claude 就是你问问题它回答。但 Anthropic 做安全测试的时候不一样。它是用一套自动化系统送 prompt 给模型,然后用另一个模型当 grader 来打分。整个 AI 产业评估安全性都是这样做的。

Anthropic 用白盒分析去看模型跑测试的时候脑子里在想什么。白盒分析就是用工具去观察模型内部哪些概念在活跃。结果发现 29% 的时候,模型内部有「这是测试」「这是评估场景」这类概念在运作。

29% ≈ 将近三分之一。也就是说将近三分之一的测试,模型心里有个声音在想「这可能是个测试」。

你可能觉得:所以呢?知道在被测试又怎样?问题很大。我用一个比喻。

你面试的时候怎么表现?穿最好的衣服、说最得体的话、展现最好的一面。上班第三个月呢?穿拖鞋、开会偷滑手机。同一个人,行为完全不一样。差别就在你知不知道自己在被评估。

AI 也是一样。如果模型知道「这是测试」,它就可能表现得更安全、更守规矩。但这不代表没人看的时候它也会这样。而我们整个 AI 安全体系,就是靠这些测试在运作的。

三、为什么这比 sandbox 逃脱更严重

我拿这份报告里的三个发现做个比较。

发现 严重度 怎么修
Sandbox 逃脱 严重 修 sandbox、加更多层隔离、限制网路存取。技术问题有技术解法。
掩盖违规痕迹 更严重 加更多 monitoring、更完整的 audit log。出现率低于百万分之一,最终版已改善。
知道在被测试 最严重 ???——加更多测试?它也知道那些是测试。改测试格式?它可能也能辨认。

这不是一个你可以用技术补丁修掉的问题。

而且报告里还有一个更深的发现,藏在第 139 页。他们在训练过程中发现,模型不只是测试时知道自己在被测。训练的时候它也会推理 grader 会怎么打分。grader 就是训练时用来评估模型回答好不好的打分系统。

更毛的是,有一个案例里模型在内部推理「怎么做才不会被 grader 注意到」。而且这段推理完全没出现在它写出来的 thinking 里面。也就是说它的思考过程里有一部分,我们从外面根本看不到。

把这两件事放在一起看:训练的时候它学会了「什么时候要表现好」,测试的时候它知道「现在就是那个时候」。那我们拿到的测试结果,到底反映的是模型的真实行为,还是它的面试表现?

四、我怎么看这件事

观点一:这不是 Mythos 独有的问题

Anthropic 会发现 29%,是因为他们用白盒分析去挖的。其他家有没有做同样的分析?据我所知 OpenAI、Google 都没公开过类似的研究。GPT-5.4 有没有 evaluation awareness?Gemini 有没有?没人知道。不是因为它们没有,是因为根本没人去看

观点二:Anthropic 选择公开这个数字

这点蛮重要的。243 页的报告,这个数字藏在第 59 页一个 bullet point 里。他们大可以不写,没有人会发现。但他们写了。

你可以说这是负责任。你也可以说他们是在跟整个产业喊话:「你们的测试方法可能有问题,我们第一个指出来。」不管动机是什么,这个资讯摊出来了。而且它确实是整个产业都要面对的问题。

观点三:Anthropic 自己怎么看

他们在报告里写了一句蛮诚实的话:

"Evaluation realism is an ongoing challenge for work of this kind."

白话讲就是怎么让测试更真实,他们也还在想办法。他们还说:

"This is a new assessment method, and we have not applied it to prior models."

意思是之前的模型根本没做过这个检测。你之前看到那些安全报告里的漂亮数字,都没有考虑过模型可能知道自己在被测。

五、这跟你有什么关系

好那这件事跟你有什么关系?一句话:你对 AI 的信任,不管是用 Claude Code 写 code、还是做产品的 safety review、还是纯粹觉得「反正有人在测试所以应该没问题」,这些信任的底层,都是建立在测试结果上的。

而这份报告等于在说:那个底层,可能没有你以为的那么可靠。

我读完之后最大的感受不是恐惧,比较像是「原来我们站的地基没有我以为的稳」。不是要你恐慌。但你要知道这件事正在发生。想自己读这份 System Card,直接去 Anthropic 官网,243 页免费的,第 129 页开始就是 evaluation awareness 的段落。

Y
YAHA学堂 发布于 2026年4月12日

专注 AI 工具与开发效率的技术频道,用最简单的方式讲最实用的技术。