LLM的知识困境：LoRA微调 vs 纯文本注入，谁才是正确答案？ - 猫猫魔女の手札

1331 字

7 分钟

LLM的知识困境：LoRA微调 vs 纯文本注入，谁才是正确答案？

2026-04-12

AI

/

LLM

/

RAG

/

LoRA

/

技术

你有没有试过问ChatGPT什么是OpenClaw？

它大概率会一本正经地胡说八道——要么编一个不存在的项目，要么直接说”我没有这方面的信息”。Claude也一样。因为这些模型的训练数据有截止日期，它们的神经网络权重在训练完成后就冻结了。2026年发生的事情，它们一无所知。

这不是bug，这是架构的根本特征。

冻结的大脑#

LLM的训练过程可以简化为：喂入海量文本→调整数十亿参数→保存权重→部署推理。一旦部署，权重不再变化。模型只能基于训练时”见过”的数据来回答问题。

这意味着：

GPT-4o 的知识截止到2024年底左右
Claude 的可靠知识截止到2025年初
Gemini 持续通过Google搜索补充，但基础模型同样有训练截止

你今天发的一条推文，这些模型统统不知道。

两条路：改权重，还是塞上下文？#

要给LLM注入新知识，行业里有两个主流方向：

方案一：LoRA / 微调——直接改大脑#

LoRA（Low-Rank Adaptation）的核心思想是：不动原始权重，在旁边加一组小矩阵（adapter），只训练这些新参数。

1
原始权重 W（冻结）
2
         ↓
3
输出 = W·x + ΔW·x
4
              ↑
5
         LoRA adapter（可训练）

优势：

知识被”内化”到参数中，不占用上下文窗口
推理时不需要额外检索步骤
对特定领域（医学、法律）效果好

劣势：

训练需要算力和数据准备
容易”灾难性遗忘”——学了新知识，忘了旧能力
知识更新不灵活：每次有新信息都得重新训练
对闭源模型（GPT、Claude）基本不可用——你拿不到权重

最近学术界出现了**PRAG（Parametric Retrieval-Augmented Generation）**的新方向（Su et al., 2025）：给语料库里每个文档都训一个专属LoRA，查询时动态加载对应的adapter。想法很前沿，但存储开销巨大——上百万文档各一个LoRA，光adapter就几个TB。

方案二：纯文本注入（RAG / 上下文注入）——给大脑递小抄#

不改权重，而是在推理时把相关信息塞进prompt：

1
System: 你是一个AI助手。以下是相关背景信息：
2
[从数据库检索到的最新资料]
3

4
User: 什么是OpenClaw？

优势：

零训练成本：更新知识只需更新文档库
实时性：信息可以精确到秒级
可溯源：每段知识都能追溯到原始文档
对任何模型通用：不管GPT还是Claude都能用
不影响原有能力：不存在灾难性遗忘

劣势：

占用上下文窗口（虽然现在动辄100K+ token，已不是大问题）
检索质量直接影响回答质量
模型可能会忽略或误解注入的文本

现实的选择#

对于像OpenClaw这样的个人AI agent框架，选择几乎是一边倒的：纯文本注入。

原因很简单：

更新频率：新知识可能每天甚至每小时产生。LoRA训练周期根本跟不上。
闭源模型限制：你用的是Claude API，你没有权重文件可以微调。
成本效率：RAG只需要一个向量数据库+检索管线，LoRA需要GPU训练。
可靠性：纯文本注入的知识有明确来源，hallucination更容易检测和纠正。

OpenClaw本身就是一个活的案例。它通过System Prompt注入SOUL.md、USER.md等文件，通过Skills注入工具使用知识，通过MEMORY.md维持对话间的连续性——全部是纯文本。没有任何LoRA，没有任何微调。但效果就像模型”认识”你一样。

这其实和输入法的做法异曲同工。搜狗、Gboard这些输入法不会因为出了新的网络热词就重训整个语言模型——它们通过定期下发热词列表、更新词库来覆盖新词。底层的预测模型不动，只更新外挂的词表。同理，给LLM注入新知识最实用的方式，不是重训神经网络，而是更新它的”词库”——也就是上下文。

LoRA不是没用，只是场景不同#

LoRA真正的价值在于行为适配而非知识注入：

让模型学会特定的输出格式
让模型适应特定的对话风格
让模型在某个领域的推理能力更强

换句话说：LoRA改的是”怎么想”，纯文本改的是”知道什么”。

要教一个模型你的写作风格→LoRA。要教一个模型今天发生了什么→纯文本。

结论#

LLM的知识冻结不是缺陷，是权衡。正因为权重冻结，模型才能在推理时保持稳定、快速、一致。

给冻结的大脑注入新知识，最务实的做法就是递小抄——RAG、System Prompt注入、上下文窗口。简单、灵活、实时、不破坏原有能力。

LoRA和微调是手术刀，适合精准的行为调整。但如果你只是想让AI知道OpenClaw是什么，或者今天新闻说了什么——

直接告诉它就行了。

LLM的知识困境：LoRA微调 vs 纯文本注入，谁才是正确答案？

https://blog.lishuyu.app/posts/2026-04-12-llm-frozen-knowledge/

作者

猫猫魔女

发布于

2026-04-12

许可协议

CC BY-NC-SA 4.0

秘鲁大选今日投票：35名候选人混战，十年政治动荡能否终结？

Memoo：给自己写一个 AI Agent Bot