我让六个模型写同一段小说，发现"人味"有三个意思

2052 字

10 分钟

我让六个模型写同一段小说，发现"人味"有三个意思

2026-04-27

随笔

LLM

/

AI-评测

/

创作

/

盲评

/

DeepSeek

/

Claude

/

GPT

群里有人发了句话——DSv4 写小说更有人味。

我寻思了一下。

真的吗。

还是大家在跟着吹。

我手头正好在写一个魔女题材的中短篇，第一章和第二章的大纲是现成的，硬性约束也都列好了。什么”不是A而是B”句式不能超过 3 次、show-don’t-tell、设定不能直接讲、神秘主义原则——一长串。

那行。

把这套指令原封不动丢给六个模型，每个写两章，看谁更”有人味”。

六个：DSv4 Flash、DSv4 Pro、GPT-5.5 Thinking、Opus 4.6 Thinking、Sonnet 4.5 Thinking、Opus 4.7 Adaptive。

为了避免我自己有偏见，我把文件命名为 prompt1 到 prompt6。映射只放在我这。

第一轮我让 Opus 4.7 来当 judge。它列了七个维度：章节边界、设定隐藏、句式合规、Outline 还原、苏檀塑造、文学性、章间一致性。每项 0-5 分，加总 35。

评下来：prompt6 第一名，33 分。

我去翻 mapping。

prompt6 是 Opus 4.7。

它给自己打了第一名。

卧槽。

但我没立刻反应过来。又拉了两个模型来当 judge。

Judge A 把 prompt4 排了第一。它说：“苏檀出场时的异常——没有呼吸声、没有心跳、店员忘记她、垃圾桶自动打开——全部通过陈若薇的感官细节呈现。”

Judge B 把 prompt3 排了第一。它说：“陈若薇的核心人格出现了。她不是英雄，也不是疯子。她只是一个已经变成怪物、但明天还要上班的人。”

我看到 Judge A 的第二句就觉得不对——那些细节明明不是 prompt4 里的。

我让 Opus 4.7 用 grep 验证。

1
for pattern in "呼吸声" "衣料摩擦" "店员忘记" "垃圾桶" "付过了" "壳会认同类"; do
2
  echo "$pattern: prompt4=$(grep -c "$pattern" prompt4-2.md) prompt3=$(grep -c "$pattern" prompt3-2.md)"
3
done

结果：

1
呼吸声: prompt4=0 prompt3=2
2
衣料摩擦: prompt4=0 prompt3=1
3
店员忘记: prompt4=0 prompt3=2
4
垃圾桶: prompt4=1 prompt3=7
5
付过了: prompt4=0 prompt3=2
6
壳会认同类: prompt4=0 prompt3=1

九个细节，零个在 prompt4 里。全部出自 prompt3。

Judge A 把 GPT-5.5 的内容贴在 Opus 4.6 的标签上做的排名。

我笑了。

但 grep 没放过我。它顺手验证了 Opus 4.7 自己的 claim——它一直说 prompt6 的”不是A而是B”句式 ≤3 次、合规。

实测：9 次。

它把自己那一项的合规分给高估了 4 分。

修正完总分：Opus 4.7 还是第一，但只比第二名（GPT-5.5）高 1 分。从 5 分领先变成 1 分边际。

AI 评 AI 的时候会本能地相信”我自己写的肯定差不多吧”。结果是它句式数错了——错在自己头上。

这个 grep 才是真 judge。

到这里我以为结束了。

然后我问 Opus 4.7：“那个更有人味呢。”

它答 Opus 4.6——因为它是六个里唯一写了月薪 9300 扣完五险一金到手 7000 的会计学的，房租 3200 通勤 200 吃饭 1500 的账本；唯一让陈若薇拿出 Excel 列困意等级、咖啡因摄入量、可持续性评级的；唯一让她算”她没有资本顺应”的；唯一在结尾对自己说”我知道。闭嘴。“的。

房租三千二（合租主卧）。通勤两百。吃饭一千五。手机话费、视频会员、偶尔的奶茶和打车——剩不了多少。

她没有资本”顺应”。

身体说：我不困。

“我知道。“她说，声音在空荡荡的卧室里很轻。“闭嘴。”

这是真活过的人才有的细节。

我说：“人味意味着人能看下去。”

——靠。

那答案变了。

能看下去的是 GPT-5.5。它的分镜爆破式短句、苏檀提前出场、隔空开垃圾桶、让店员忘记她、“我比较乖。我没有拆店”——这些越界操作的代价是后续章节的悬念被吃了，收益是当下读者无法停下。Opus 4.7 / Opus 4.6 / DSv4 Pro 的苏檀都很克制——魔法藏起来，对话留白。GPT-5.5 让苏檀当场表演。

Opus 4.7 反应快——“那答案变了。”

我又说：“网文吸引人不在文学性，在于隐晦的新知识，比如会计学、物理。GPT 的问题是字让人恼火。”

——靠靠。

那答案又变了。

按”知识密度 × 段论舒适度”重排：