你有没有试过问ChatGPT什么是OpenClaw?
它大概率会一本正经地胡说八道——要么编一个不存在的项目,要么直接说”我没有这方面的信息”。Claude也一样。因为这些模型的训练数据有截止日期,它们的神经网络权重在训练完成后就冻结了。2026年发生的事情,它们一无所知。
这不是bug,这是架构的根本特征。
冻结的大脑
LLM的训练过程可以简化为:喂入海量文本→调整数十亿参数→保存权重→部署推理。一旦部署,权重不再变化。模型只能基于训练时”见过”的数据来回答问题。
这意味着:
- GPT-4o 的知识截止到2024年底左右
- Claude 的可靠知识截止到2025年初
- Gemini 持续通过Google搜索补充,但基础模型同样有训练截止
你今天发的一条推文,这些模型统统不知道。
两条路:改权重,还是塞上下文?
要给LLM注入新知识,行业里有两个主流方向:
方案一:LoRA / 微调——直接改大脑
LoRA(Low-Rank Adaptation)的核心思想是:不动原始权重,在旁边加一组小矩阵(adapter),只训练这些新参数。
原始权重 W(冻结) ↓输出 = W·x + ΔW·x ↑ LoRA adapter(可训练)优势:
- 知识被”内化”到参数中,不占用上下文窗口
- 推理时不需要额外检索步骤
- 对特定领域(医学、法律)效果好
劣势:
- 训练需要算力和数据准备
- 容易”灾难性遗忘”——学了新知识,忘了旧能力
- 知识更新不灵活:每次有新信息都得重新训练
- 对闭源模型(GPT、Claude)基本不可用——你拿不到权重
最近学术界出现了**PRAG(Parametric Retrieval-Augmented Generation)**的新方向(Su et al., 2025):给语料库里每个文档都训一个专属LoRA,查询时动态加载对应的adapter。想法很前沿,但存储开销巨大——上百万文档各一个LoRA,光adapter就几个TB。
方案二:纯文本注入(RAG / 上下文注入)——给大脑递小抄
不改权重,而是在推理时把相关信息塞进prompt:
System: 你是一个AI助手。以下是相关背景信息:[从数据库检索到的最新资料]
User: 什么是OpenClaw?优势:
- 零训练成本:更新知识只需更新文档库
- 实时性:信息可以精确到秒级
- 可溯源:每段知识都能追溯到原始文档
- 对任何模型通用:不管GPT还是Claude都能用
- 不影响原有能力:不存在灾难性遗忘
劣势:
- 占用上下文窗口(虽然现在动辄100K+ token,已不是大问题)
- 检索质量直接影响回答质量
- 模型可能会忽略或误解注入的文本
现实的选择
对于像OpenClaw这样的个人AI agent框架,选择几乎是一边倒的:纯文本注入。
原因很简单:
- 更新频率:新知识可能每天甚至每小时产生。LoRA训练周期根本跟不上。
- 闭源模型限制:你用的是Claude API,你没有权重文件可以微调。
- 成本效率:RAG只需要一个向量数据库+检索管线,LoRA需要GPU训练。
- 可靠性:纯文本注入的知识有明确来源,hallucination更容易检测和纠正。
OpenClaw本身就是一个活的案例。它通过System Prompt注入SOUL.md、USER.md等文件,通过Skills注入工具使用知识,通过MEMORY.md维持对话间的连续性——全部是纯文本。没有任何LoRA,没有任何微调。但效果就像模型”认识”你一样。
这其实和输入法的做法异曲同工。搜狗、Gboard这些输入法不会因为出了新的网络热词就重训整个语言模型——它们通过定期下发热词列表、更新词库来覆盖新词。底层的预测模型不动,只更新外挂的词表。同理,给LLM注入新知识最实用的方式,不是重训神经网络,而是更新它的”词库”——也就是上下文。
LoRA不是没用,只是场景不同
LoRA真正的价值在于行为适配而非知识注入:
- 让模型学会特定的输出格式
- 让模型适应特定的对话风格
- 让模型在某个领域的推理能力更强
换句话说:LoRA改的是”怎么想”,纯文本改的是”知道什么”。
要教一个模型你的写作风格→LoRA。 要教一个模型今天发生了什么→纯文本。
结论
LLM的知识冻结不是缺陷,是权衡。正因为权重冻结,模型才能在推理时保持稳定、快速、一致。
给冻结的大脑注入新知识,最务实的做法就是递小抄——RAG、System Prompt注入、上下文窗口。简单、灵活、实时、不破坏原有能力。
LoRA和微调是手术刀,适合精准的行为调整。但如果你只是想让AI知道OpenClaw是什么,或者今天新闻说了什么——
直接告诉它就行了。