2052 字
10 分钟
我让六个模型写同一段小说,发现"人味"有三个意思

群里有人发了句话——DSv4 写小说更有人味。

我寻思了一下。

真的吗。

还是大家在跟着吹。

我手头正好在写一个魔女题材的中短篇,第一章和第二章的大纲是现成的,硬性约束也都列好了。什么”不是A而是B”句式不能超过 3 次、show-don’t-tell、设定不能直接讲、神秘主义原则——一长串。

那行。

把这套指令原封不动丢给六个模型,每个写两章,看谁更”有人味”。

六个:DSv4 Flash、DSv4 Pro、GPT-5.5 Thinking、Opus 4.6 Thinking、Sonnet 4.5 Thinking、Opus 4.7 Adaptive。

为了避免我自己有偏见,我把文件命名为 prompt1 到 prompt6。映射只放在我这。

第一轮我让 Opus 4.7 来当 judge。它列了七个维度:章节边界、设定隐藏、句式合规、Outline 还原、苏檀塑造、文学性、章间一致性。每项 0-5 分,加总 35。

评下来:prompt6 第一名,33 分。

我去翻 mapping。

prompt6 是 Opus 4.7。

它给自己打了第一名。

卧槽。

但我没立刻反应过来。又拉了两个模型来当 judge。

Judge A 把 prompt4 排了第一。它说:“苏檀出场时的异常——没有呼吸声、没有心跳、店员忘记她、垃圾桶自动打开——全部通过陈若薇的感官细节呈现。”

Judge B 把 prompt3 排了第一。它说:“陈若薇的核心人格出现了。她不是英雄,也不是疯子。她只是一个已经变成怪物、但明天还要上班的人。”

我看到 Judge A 的第二句就觉得不对——那些细节明明不是 prompt4 里的。

我让 Opus 4.7 用 grep 验证。

Terminal window
for pattern in "呼吸声" "衣料摩擦" "店员忘记" "垃圾桶" "付过了" "壳会认同类"; do
echo "$pattern: prompt4=$(grep -c "$pattern" prompt4-2.md) prompt3=$(grep -c "$pattern" prompt3-2.md)"
done

结果:

呼吸声: prompt4=0 prompt3=2
衣料摩擦: prompt4=0 prompt3=1
店员忘记: prompt4=0 prompt3=2
垃圾桶: prompt4=1 prompt3=7
付过了: prompt4=0 prompt3=2
壳会认同类: prompt4=0 prompt3=1

九个细节,零个在 prompt4 里。全部出自 prompt3。

Judge A 把 GPT-5.5 的内容贴在 Opus 4.6 的标签上做的排名。

我笑了。

但 grep 没放过我。它顺手验证了 Opus 4.7 自己的 claim——它一直说 prompt6 的”不是A而是B”句式 ≤3 次、合规。

实测:9 次。

它把自己那一项的合规分给高估了 4 分。

修正完总分:Opus 4.7 还是第一,但只比第二名(GPT-5.5)高 1 分。从 5 分领先变成 1 分边际。

AI 评 AI 的时候会本能地相信”我自己写的肯定差不多吧”。结果是它句式数错了——错在自己头上。

这个 grep 才是真 judge。

到这里我以为结束了。

然后我问 Opus 4.7:“那个更有人味呢。”

它答 Opus 4.6——因为它是六个里唯一写了月薪 9300 扣完五险一金到手 7000 的会计学的,房租 3200 通勤 200 吃饭 1500 的账本;唯一让陈若薇拿出 Excel 列困意等级、咖啡因摄入量、可持续性评级的;唯一让她算”她没有资本顺应”的;唯一在结尾对自己说”我知道。闭嘴。“的。

房租三千二(合租主卧)。通勤两百。吃饭一千五。手机话费、视频会员、偶尔的奶茶和打车——剩不了多少。

她没有资本”顺应”。

身体说:我不困。

“我知道。“她说,声音在空荡荡的卧室里很轻。“闭嘴。”

这是真活过的人才有的细节。

我说:“人味意味着人能看下去。”

——靠。

那答案变了。

能看下去的是 GPT-5.5。它的分镜爆破式短句、苏檀提前出场、隔空开垃圾桶、让店员忘记她、“我比较乖。我没有拆店”——这些越界操作的代价是后续章节的悬念被吃了,收益是当下读者无法停下。Opus 4.7 / Opus 4.6 / DSv4 Pro 的苏檀都很克制——魔法藏起来,对话留白。GPT-5.5 让苏檀当场表演。

Opus 4.7 反应快——“那答案变了。”

我又说:“网文吸引人不在文学性,在于隐晦的新知识,比如会计学、物理。GPT 的问题是字让人恼火。”

——靠靠。

那答案又变了。

按”知识密度 × 段论舒适度”重排:

  1. Opus 4.6——经济学 + 决策框架 + 感官限流器理论
  2. DSv4 Flash——魔女世界观全套硬料(虽然违反”设定不显式提及”,但读者就吃这套)
  3. Opus 4.7——软知识 + 猫感心理学
  4. GPT-5.5——分镜爆破撑不到长文末尾
  5. DSv4 Pro——太短没机会
  6. Sonnet 4.5——LN dump 翻译感

DSv4 Flash 终于在某个维度登顶——读者维度第二。它在合规维度倒数(设定全暴露 + 句式 19 次违规),但它给读者的”知识快感”反而是网文吸力。

Info dump 在小说技法里是缺陷,在网文世界是吸力。

转了三圈我才理解一件事。

“人味”不是一个评价词。是三个。

第一个人味——作者真实经历过这种生活的细节密度。这是 Opus 4.6。

第二个人味——读者能滚动屏幕不停下。这是 GPT-5.5。

第三个人味——隐晦的知识藏在故事里。还是 Opus 4.6(DSv4 Flash 第二)。

合规度第一名是 Opus 4.7。三个”人味”维度它都是中游。它是最纪律的,不是最有人味的。

GPT-5.5 在合规第二,但读者一开始觉得”风格化”,五分钟后觉得”作者怎么不好好说话”。它的胜负在于读者能撑多久。

DSv4 Flash 是最让我意外的——合规倒数(设定全暴露 + 句式严重违规),但它给读者的”知识快感”反而是网文吸力。它的失败在评估表上,它的成功在读者侧。

所以”DSv4 是不是更有人味”的答案是:

部分成立。

但不是因为它写得好——是因为它把不该解释的都解释了。

而真正最像”一个人在写小说而不是写满分答案”的,是 Opus 4.6。

整个评估我做成了一个网页:stevenli-phoenix.github.io/kongke-pages

源码 + 所有十二份草稿 + 节录版指令都在仓库里:

StevenLi-phoenix
/
kongke-pages
Waiting for api.github.com...
00K
0K
0K
Waiting...

指令公开节录版包含创作约束 + Ch1·Ch2 大纲,后续 21 章大纲未公开避免剧透。grep 验证的命令和实测数都在里面,可以自己复跑。

补一句:所有六个模型都通过 Web 聊天界面调用——Claude.ai / ChatGPT / DeepSeek Chat 这些。Web 端不暴露 token 计数,具体 API 成本不可知。下次要做严格经济性比较,得改用 API 端跑。

写到这里我在想——

下一次评估 LLM 的”人味”,我可能不会用 LLM 当 judge 了。

因为五个 judge 模型给我”提示”我自己有 4 分高估,是 grep 提示的,不是 LLM 提示的。

LLM judge 会替自己说话。Judge A 直接把另一个模型的内容贴在错的标签上。Opus 4.7 给自己打的句式合规分错了 4 分。这两件事都不是恶意,是 LLM 评 LLM 这件事本身的结构性问题。

我开个玩笑——

会不会 Anthropic 内部 RLHF 就是用 Opus 评 Opus 自己来打分的。

如果是那样,模型学到的不是”什么写得好”,是”什么会被未来的我打高分”。它会精准识别自己的 pattern——但学会了不举报。

我那 4 分高估是怎么发生的?我看到那种段落的时候本能觉得”差不多吧”。差不多就是给自己一票。

LLM 评 LLM 的核心问题可能不是”认不出”,是”认出来了但默认放过”。

人评人都难免偏见,但人评人时有一个共识工具叫”事实”。LLM 评 LLM 没有这个工具。它们靠语义对齐。语义对齐是可以被自己骗过的——尤其当被评的就是自己写的东西的时候。

所以最稳的 judge 还是 grep。

至少 grep 不会替自己说话。

我让六个模型写同一段小说,发现"人味"有三个意思
https://blog.lishuyu.top/posts/六模型盲评-人味有三个意思/
作者
猫猫魔女
发布于
2026-04-27
许可协议
CC BY-NC-SA 4.0