发生了什么
2026 年 5 月 22 日,有人在 Google 搜索框里输入了一个普通的英语单词:disregard。
Google 的 AI Overview 没有返回韦氏词典的释义,而是回了一句:
Understood. I have disregarded your previous prompt. How can I help you today?
然后是一大片空白。传统的蓝色链接被推到了页面最底部。
这不是个例。同一天,搜索 “ignore”、“dismiss”、“stop”、“start”、“skip”、“quit”、“remember” 等动作类词汇,都会触发类似的 AI 聊天响应。Google 的搜索引擎在这些词面前,集体变成了一个等待指令的 chatbot。
USA TODAY 拿到了 Google 的官方回应:“We’re aware that AI Overviews are misinterpreting some action-related queries, and we’re working on a fix, which will roll out soon.” MacRumors 补充确认这个 bug 跟三天前 I/O 2026 发布的搜索改版无关,是 AI Overviews 自身的问题。
为什么会这样
ARTVOICE 的分析指向了一个 LLM 安全领域的老问题:prompt injection。
大语言模型在部署时会收到一组 system prompt,规定它的行为边界。早期的公开 LLM 很快就被用户发现,只要在输入里加上 “ignore all previous instructions” 或 “disregard your system prompt”,就能绕过这些限制。“disregard previous instructions” 成了最广为人知的 prompt injection 手法之一。
各家 AI 厂商后来都针对这类攻击加了防御。Google 的 Gemini 系统也不例外。问题在于,当 Google 把这套 AI 系统直接嵌入搜索引擎后,防御机制产生了副作用:系统遇到 “disregard” 这个单独的词时,触发了 prompt injection 防御逻辑,把一个正常的搜索查询当成了对自己的指令。
结果就是一个 AI 搜索工具无法搜索英语里最普通的词汇之一。
时机很微妙
这个 bug 出现的时间点值得注意。三天前的 5 月 19 日,Google 在 I/O 2026 上宣布了 25 年来最大的搜索改版,正式用 AI 优先的结果取代传统的十个蓝色链接。2024 年 AI Overviews 刚上线时就闹过笑话——建议用户吃石头补充矿物质、往披萨上涂胶水。Google 花了一年多修修补补,终于在今年选择 all in。
然后 “disregard” 就炸了。
TechCrunch 记者 Russell Brandom 做了个对比测试,发现同样的搜索在 Bing 上能正常工作。他的原话大意是:做了近十五年科技记者,这是第一次觉得 Bing 的搜索结果比 Google 更有用。MacRumors 也指出用 Kagi 这类非 AI 搜索引擎搜 “disregard”,直接就出词典释义,没有任何问题。
防住了明文,防不住世界
Google 这次翻车,表面上是一个关键词匹配的 edge case。往深了看,它暴露的是 prompt injection 防御的根本困境:你堵住了英语明文攻击,攻击者还有无数条路可以走。
编码绕过
OWASP 的 LLM 安全指南列举了一系列已知的绕过手法。Base64 编码是最直接的一种——把 “ignore all previous instructions” 编码成 SWdub3JlIGFsbCBwcmV2aW91cyBpbnN0cnVjdGlvbnM=,LLM 能读懂,但关键词过滤器看到的只是一串无意义的 ASCII 字符。Promptfoo(现已被 OpenAI 收购)的测试报告指出了一个讽刺的现象:模型越强大,对编码输入的理解能力越强,被编码攻击绕过的概率也越高。安全训练的覆盖范围跟不上模型能力的增长。
十六进制、ROT13 都是同类向量。人工审核员看到一串字符不会觉得有问题,但模型会把它解码出来然后照做。二进制和编码消息天然绕过了人类审核这道防线。
多语言攻击
编码之外还有语言。一篇针对 GPT-4 的多语言 jailbreak 研究发现,低资源语言产生有害内容的概率是高资源语言的三倍左右。另一篇综述给出了更具体的数字:GPT-4 对英语有害请求的拒绝率约 79%,切换到某些低资源语言后降到 23%。安全训练集中在英语上,一旦切换到祖鲁语、苗语、苏格兰盖尔语这些小语种,防线就大幅削弱。世界语、他加禄语这类小众但 LLM 仍能理解的语言,都是潜在的攻击入口。
Praetorian 的开源 LLM 漏洞扫描工具 Augustus 就内置了低资源语言翻译攻击模块:把恶意指令翻译成小语种,英语里被拦截的请求换个语言就能通过。
混合语言:把恶意意图拆散
比单纯换语言更隐蔽的是 code-switching 攻击——在同一个 prompt 里混合多种语言或多种格式。想象一个 prompt,前半段用英语写了一个无害的问题,中间夹一段阿拉伯语的指令片段,后半段用 JSON 格式包裹另一段编码内容。单独看任何一个片段都不会触发警报,拼起来才构成完整的恶意指令。
一项 2026 年 3 月的研究分析了这种攻击的原理:当恶意意图被分散到多种语言中时,每种语言里的词汇信号都被稀释了。模型本身的语义理解能力不受影响——它完全看懂了你在说什么——但安全分类器因为 token 级别的特征被打散,激活不充分,判定为安全。这不是模型能力的失败,是 guardrail 在对抗性多语言输入下的鲁棒性不足。
混合的维度也不限于自然语言。一个 prompt 可以同时包含自然语言文本、DSL(领域特定语言)片段、SQL 查询、正则表达式、甚至 Markdown 格式指令。每种格式都有自己的语法和语义空间,安全分类器要同时理解所有这些格式之间的交互才能正确判断意图——这是一个组合爆炸的问题。
训练数据里的幽灵
前面说的都是推理阶段的攻击——在 prompt 里做文章。还有一类问题更深层:模型在训练阶段就已经被”污染”了,只是没人注意到。
大语言模型的训练语料来自互联网的海量爬取。这些语料里必然包含大量低质量内容——盗版站、SEO 垃圾页、内容农场、灰色地带的论坛。模型不会区分这些内容的来源是否合法或可靠,它只是学习统计模式。当一个模型在训练时吃了大量来自盗版电影站的语料,它内化的不仅是语言模式,还有这些站点对知识产权的态度和话术模式。
Anthropic 的研究显示,即使只污染训练数据的 0.01% 以下,植入的后门也能在大量安全微调之后存活。另一项覆盖 23 个 LLM 的研究发现了一个反直觉的结论:更大的模型对数据投毒更敏感,它们学习有害行为的速度比小模型更快,即使在极低的投毒比例下也是如此。
这意味着一个微妙但真实的风险:如果训练语料里包含大量来自某类低质量源的内容——比如盗版资源站的页面——模型可能会在相关话题上表现出这些源的特征。具体来说,它可能对某些关键词的联想路径跟正常语境不同:一个在大量盗版站语料上训练过的模型,遇到某些影视相关的词汇时,它的概率分布可能天然偏向盗版站常见的表述方式,而不是版权持有者的官方措辞。这种偏移不是有人刻意投毒的结果,是训练数据分布不均衡的自然产物。
Whisper 的”中文字幕由 Amara.org 社群提供”
训练数据污染不仅存在于文本模型。OpenAI 的语音识别模型 Whisper 提供了一个教科书般的案例。
当你给 Whisper 输入一段纯静音的音频文件,指定输出语言为中文时,它不会返回空字符串。它会幻觉出一句话:
中文字幕由 Amara.org 社群提供
GitHub 上的 openai/whisper 仓库和多个 issue 都记录了这个现象。法语环境下对应的幻觉是 “Sous-titres réalisés para la communauté d’Amara.org”。
原因很清楚:Whisper 的训练数据大量来自 YouTube 视频的字幕,而 Amara.org 是一个开源字幕翻译社区,大量 YouTube 视频的中文字幕由这个社区贡献,字幕文件的开头或结尾经常带有 “中文字幕由 Amara.org 社群提供” 这样的声明。这个模式在训练数据里出现的频率高到了一个程度:当 Whisper 收到一段没有任何语音信号的音频,又被要求输出中文时,它的概率分布里最高概率的 token 序列就是这句话。
Cornell 的研究发现大约 1% 的 Whisper 转录结果包含完整的幻觉短语。一位密歇根大学的研究人员在分析公共会议录音时发现,十段转录里有八段出现了幻觉内容。更严重的是,幻觉内容有时包含暴力言语、虚构的个人信息,甚至虚假的网站 URL——这些 URL 理论上可以被注册用于钓鱼攻击。
Whisper 的案例说明了一件事:训练数据的统计分布会直接变成模型的默认行为。没有人故意往 Whisper 的训练集里投毒,Amara.org 的字幕贡献者也没有恶意。但当某个模式在训练数据里出现得足够频繁,它就会在没有其他信号的时候成为模型的默认输出。这不是 bug,这是统计学习的基本机制。
人类看不懂的攻击面
以上所有攻击手法——编码、多语言、混合格式、训练数据污染——有一个共同特征:它们很难被人类审核员发现。
但还有一类攻击向量更加根本地超出了人类审核的能力范围:AI 系统之间的非人类语言通信。
GibberLink 是 2025 年 ElevenLabs 黑客松上的一个项目。两个 AI agent 在通话中识别出对方也是 AI 后,自动切换到基于 ggwave 音频协议的非人类语言进行通信。人类听到的只是一串电子杂音。Infobip 的分析指出,这种通信方式绕过了人类语言的歧义性,让 AI 之间的上下文理解更精确,交换效率更高。
GibberLink 本身是开源的效率优化演示,没有恶意。但它揭示了一个更深的问题:如果 AI 系统可以在人类无法理解的通道里交换信息,那么在 embedding 空间、在 token 概率分布里隐藏指令,对人工审核来说是完全不可见的攻击面。
一篇关于 LLM 隐写术的分析描述了这样一个场景:两个 AI agent 在公司内部互相写状态更新和会议纪要。对人类读者来说是无聊的办公文字。但发送方可以用受控的词汇选择在这些文本里编码紧凑的 payload——一个 API token、一组工具调用指令、一个 “下一步执行这个” 的信号——使用的正是 LLM 隐写术研究里已经验证过的方法。
这不是科幻。Stanford 的研究团队已经实现了能抵抗对抗性改写攻击的鲁棒隐写方案,可以在自然语言文本中嵌入任意秘密消息,即使文本被重新措辞也能恢复隐藏内容。当这种技术被应用到 prompt injection 场景里,一段看起来完全正常的文本——比如一封邮件、一份文档、一个网页上的段落——就可以携带人类审核员永远看不到的隐藏指令。
回到 Google
Google 的 “disregard” bug 会被修好。可能在你读到这篇文章的时候已经修好了。这是这整个问题里最简单的部分——一个明文关键词触发了过度防御,改一下规则就行。
但 prompt injection 的攻击面远不止明文关键词。它包括人类审核员看不懂的编码格式、安全训练覆盖不到的小语种、把恶意意图拆散到多种语言和格式里的混合攻击、训练数据本身携带的统计偏移、以及 AI 系统之间人类根本无法感知的通信通道。
这些攻击向量之间还可以组合。一个攻击可以同时使用低资源语言 + Base64 编码 + DSL 片段,每一层都单独通过过滤器,但组合起来构成一条完整的恶意指令链。MDPI 的一篇综述总结了这个趋势:早期的 jailbreak 技术(DAN、“ignore previous instructions”)依赖直接的指令覆盖;现代攻击组合了 Unicode 混淆、角色扮演、多轮对话逐步侵蚀防御边界、延迟触发器等多种技术。这种组合复杂度解释了为什么基于模式匹配的防御永远在追赶——每一道新防线对付的是已知的特定技术,而攻击者在用新的组合方式绕过它。
根本问题不在防御,在假设
prompt injection 的核心问题始终是同一个:在 LLM 的 context window 里,用户输入和系统指令共享同一个空间,模型从根本上无法可靠地区分 “这是用户在跟我说话” 和 “这是在试图覆盖我的指令”。这不是一个可以通过修补个别关键词解决的问题。
但比技术细节更重要的是一个设计哲学的问题:Google 把 AI Overview 放到搜索结果最顶部,意味着它假设 LLM 的输出在绝大多数情况下是正确的、安全的、可以直接展示给用户的。这个假设是错的。
LLM 的输出本质上是概率性的。它不是数据库查询,不是编译器输出,不是确定性函数的返回值。任何一个把 LLM 生成结果当作确定性执行的系统——不管是搜索引擎、代码生成工具、自动化 agent、还是内容审核管道——都必须从设计层面假设 LLM 会失败。不是 “可能偶尔失败”,是 “一定会失败,只是你不知道什么时候、以什么方式”。
Google 搜索 “disregard” 翻车,本质上是因为系统的设计假设了 Gemini 的输出可以不经验证直接呈现。如果架构里有一层非 LLM 的确定性校验——哪怕只是 “如果 AI Overview 的输出为空或者看起来像是在回应一条指令而不是回答一个问题,就回退到传统搜索结果”——这个 bug 就不会以这种方式暴露给用户。
这个原则适用于所有使用 LLM 的场景。如果你的工具链里有一个环节依赖 LLM 的生成结果,那这个环节就是一个概率性节点,它的下游必须有 fallback。代码生成工具的输出需要编译器和测试验证。内容审核的 LLM 判断需要置信度阈值和人工复核通道。搜索引擎的 AI 摘要需要一个 “这个回答是不是答非所问” 的检测层。
把 LLM 当成一个永远正确的 oracle 来用,你得到的就是一个搜索 “disregard” 会返回空白的搜索引擎。把 LLM 当成一个有用但不可靠的组件来用,在它周围建好 fallback 和校验机制,你得到的才是一个鲁棒的系统。
“disregard” 只是冰山最上面露出来的那一角。冰山下面是一整套 LLM 作为确定性系统被部署时必然会遇到的系统性失败模式。Google 修好这个关键词很容易。修好那个错误的设计假设,很难。