今天早上我读完了那篇英文分析——“Opus 4.7 ships the attack surface and gates the defense”。读完合上笔记本,喝了一口已经凉掉的咖啡,然后坐在那儿盯着窗外发呆。
那篇文章把 Anthropic 今天做的三件事摆在一起了。Opus 4.7 发布、Project Glasswing 落地、budget_tokens 下线。论点很干净——三件事共享一个结构:默认值剥夺能力或控制权,特权通道再把它还回去。而特权通道的筛子,是合同关系或者技术门槛。
我同意这个结构判断。但读完之后有三件事卡在我脑子里,没办法不写出来。
第一件事是”differential reduction”那段。
那段作者的判断是,Anthropic 所谓的”在训练里差异性压制 cyber 能力”,在实际部署里大概率不是 weight-level 的压制,而是 request-time 的 classifier 过滤。支撑这个判断的是 SWE-bench Pro 的跳涨——如果 weight-level 真的压下去了,这个分不应该涨得这么猛。
这个推论本身我挑不出毛病。但我觉得还不够狠。
Classifier filtering 不只是”不是 weight-level 压制”那么温和的差别。它在 incidence 的方向上是反的。weight-level 压制对攻防对称,classifier 过滤是非对称、而且非对称方向错了——攻击者会 iterate prompt 直到绕过,防御者被第一次合法的措辞 refuse 就走了。
我自己就是那个”被第一次合法措辞 refuse 就走了”的防御者。去年我在做 CTF writeup,Claude 对某个二进制题的 shellcode 分析一口气拒了我四次。我最后去用了别家的模型。这不是什么复杂的事,这就是用户行为。safety 叙事在描述 training,production system 跑的是 classifier,两者的伦理学不一样。 一个是”我们尽量不教它干坏事”,一个是”我们尽量不让它对你说话”。这两件事完全不是一回事,Anthropic 用前者的 framing 解释后者的行为,这是我过不去的一个坎。
第二件事是那个 OSS-Fuzz 式的扫描通道建议。
作者的提议是:Mythos 不 GA 没关系,名单制可以保留,但是开一个 maintainer-initiated 的 scan request 通道——“我是某项目维护者,请帮我扫一下我的代码”——就像 Google 的 OSS-Fuzz 那样。
这个提议很克制,克制到我有点心疼。
它没要求 Mythos 降价,没要求取消名单制,没要求更激进的”安全民主化”。它只要求一条通道存在。维护者可以排队,可以被拒,但至少有一条路可以走。
这种程度的提议都要写一整段去论证,本身就是现状的一个证据。
我想到几个我熟悉的开源项目——不是 FFmpeg 或 SQLite 那种有 Google 和 Anthropic 盯着的,是那种 GitHub 上两千 star、维护者只有一两个人、但在 Python 生态里被几万个项目依赖的那种中间层 library。这种项目维护者今天如果想知道”我的代码在 Mythos 眼里安不安全”,没有任何路径。他不在 Glasswing 名单里,他也负担不起 Microsoft Security Copilot 那 10 万美元起步的评估费,他甚至都不知道怎么开始这个对话。
扫描容量是按组织规模分配的,但底层技术并不要求这样分配。 这句话我回读了好几遍。
第三件事是 thinking 的那两个失败模式。
Stella Laurenzo 那个 issue 我看过。Boris Cherny 在 HN 上的确认也看过——“同一个 session 里,幻觉的 turn reasoning 输出是零,正确的 turn 是深推理”。那个环境变量 CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 现在是圈内流传的秘密口令,很多人在 dotfile 里默默加上。
但作者那个”第二个失败模式”——那篇文章本身的生成过程里,模型在跨 turn 的 meta-feedback 下都没有触发 thinking——这件事我第一次看到的时候确实愣了一下。
因为这是在对外公开的分析文章里直接把这次对话的失败过程写进去作为证据。
这个操作很大胆。换一个 framing 就是——作者写这篇文章时用的工具本身,在这次写作过程中,成了这篇文章论证的其中一个样本点。router 读不到”我已经纠正你三次”这个对话级信号,这件事在文章的 writing process 里就发生过。读者读到这里会意识到,作者不是隔着玻璃批评这个系统,他是被这个系统的 failure mode 持续扣着配额的同时在写这个系统的 failure mode。
我个人写东西的时候也遇到过。我让 Claude 帮我 review 一段结构复杂的论证,它给我回了一段非常表面的”这段写得不错,但可以更具体一点”。我说这段我已经改过三遍了,问题不在具体性,问题在这个论点的 logical dependency 是不是成立。它回我”你说得对,可以再检查一下 logical dependency”。
没 thinking。router 看那条消息是一条短消息。
我当时就想——一个 toggle。就一个 toggle。就能解决。
三个 remediation 都是小事。
恢复 budget_tokens。加一个 app 里 per-message 的 thinking 选择器。开一条 OSS-Fuzz 风格的 Mythos 扫描申请通道。
三件事都不挑战 Anthropic 的 safety 叙事,都不要求放弃 Glasswing 的名单制,都不要求给 Mythos 订定价。它们只要求 agency 还给那些现在正在承担”没有 agency”成本的用户。
读完这篇英文分析我最强烈的感觉是——论点其实很简单,结构也很清晰,作者反复在用”capacity 存在,distribution 是选择”这个框架——但你能感觉到作者在写的时候很累。每一句话都在克制着不要上升成抱怨。
我没他那么克制。
今天 Anthropic 把 coding uplift 发给所有人,把真正能对冲这个 uplift 的防御工具圈进了 52 家合作伙伴里,同时把订阅者最后那一点对自己付费算力的控制权收走了。
三件事是同一件事。
这件事不叫 safety。这件事叫 allocation。