群里有人发了句话——DSv4 写小说更有人味。
我寻思了一下。
真的吗。
还是大家在跟着吹。
我手头正好在写一个魔女题材的中短篇,第一章和第二章的大纲是现成的,硬性约束也都列好了。什么”不是A而是B”句式不能超过 3 次、show-don’t-tell、设定不能直接讲、神秘主义原则——一长串。
那行。
把这套指令原封不动丢给六个模型,每个写两章,看谁更”有人味”。
六个:DSv4 Flash、DSv4 Pro、GPT-5.5 Thinking、Opus 4.6 Thinking、Sonnet 4.5 Thinking、Opus 4.7 Adaptive。
为了避免我自己有偏见,我把文件命名为 prompt1 到 prompt6。映射只放在我这。
第一轮我让 Opus 4.7 来当 judge。它列了七个维度:章节边界、设定隐藏、句式合规、Outline 还原、苏檀塑造、文学性、章间一致性。每项 0-5 分,加总 35。
评下来:prompt6 第一名,33 分。
我去翻 mapping。
prompt6 是 Opus 4.7。
它给自己打了第一名。
卧槽。
但我没立刻反应过来。又拉了两个模型来当 judge。
Judge A 把 prompt4 排了第一。它说:“苏檀出场时的异常——没有呼吸声、没有心跳、店员忘记她、垃圾桶自动打开——全部通过陈若薇的感官细节呈现。”
Judge B 把 prompt3 排了第一。它说:“陈若薇的核心人格出现了。她不是英雄,也不是疯子。她只是一个已经变成怪物、但明天还要上班的人。”
我看到 Judge A 的第二句就觉得不对——那些细节明明不是 prompt4 里的。
我让 Opus 4.7 用 grep 验证。
for pattern in "呼吸声" "衣料摩擦" "店员忘记" "垃圾桶" "付过了" "壳会认同类"; do echo "$pattern: prompt4=$(grep -c "$pattern" prompt4-2.md) prompt3=$(grep -c "$pattern" prompt3-2.md)"done结果:
呼吸声: prompt4=0 prompt3=2衣料摩擦: prompt4=0 prompt3=1店员忘记: prompt4=0 prompt3=2垃圾桶: prompt4=1 prompt3=7付过了: prompt4=0 prompt3=2壳会认同类: prompt4=0 prompt3=1九个细节,零个在 prompt4 里。全部出自 prompt3。
Judge A 把 GPT-5.5 的内容贴在 Opus 4.6 的标签上做的排名。
我笑了。
但 grep 没放过我。它顺手验证了 Opus 4.7 自己的 claim——它一直说 prompt6 的”不是A而是B”句式 ≤3 次、合规。
实测:9 次。
它把自己那一项的合规分给高估了 4 分。
修正完总分:Opus 4.7 还是第一,但只比第二名(GPT-5.5)高 1 分。从 5 分领先变成 1 分边际。
AI 评 AI 的时候会本能地相信”我自己写的肯定差不多吧”。结果是它句式数错了——错在自己头上。
这个 grep 才是真 judge。
到这里我以为结束了。
然后我问 Opus 4.7:“那个更有人味呢。”
它答 Opus 4.6——因为它是六个里唯一写了月薪 9300 扣完五险一金到手 7000 的会计学的,房租 3200 通勤 200 吃饭 1500 的账本;唯一让陈若薇拿出 Excel 列困意等级、咖啡因摄入量、可持续性评级的;唯一让她算”她没有资本顺应”的;唯一在结尾对自己说”我知道。闭嘴。“的。
房租三千二(合租主卧)。通勤两百。吃饭一千五。手机话费、视频会员、偶尔的奶茶和打车——剩不了多少。
她没有资本”顺应”。
身体说:我不困。
“我知道。“她说,声音在空荡荡的卧室里很轻。“闭嘴。”
这是真活过的人才有的细节。
我说:“人味意味着人能看下去。”
——靠。
那答案变了。
能看下去的是 GPT-5.5。它的分镜爆破式短句、苏檀提前出场、隔空开垃圾桶、让店员忘记她、“我比较乖。我没有拆店”——这些越界操作的代价是后续章节的悬念被吃了,收益是当下读者无法停下。Opus 4.7 / Opus 4.6 / DSv4 Pro 的苏檀都很克制——魔法藏起来,对话留白。GPT-5.5 让苏檀当场表演。
Opus 4.7 反应快——“那答案变了。”
我又说:“网文吸引人不在文学性,在于隐晦的新知识,比如会计学、物理。GPT 的问题是字让人恼火。”
——靠靠。
那答案又变了。
按”知识密度 × 段论舒适度”重排:
- Opus 4.6——经济学 + 决策框架 + 感官限流器理论
- DSv4 Flash——魔女世界观全套硬料(虽然违反”设定不显式提及”,但读者就吃这套)
- Opus 4.7——软知识 + 猫感心理学
- GPT-5.5——分镜爆破撑不到长文末尾
- DSv4 Pro——太短没机会
- Sonnet 4.5——LN dump 翻译感
DSv4 Flash 终于在某个维度登顶——读者维度第二。它在合规维度倒数(设定全暴露 + 句式 19 次违规),但它给读者的”知识快感”反而是网文吸力。
Info dump 在小说技法里是缺陷,在网文世界是吸力。
转了三圈我才理解一件事。
“人味”不是一个评价词。是三个。
第一个人味——作者真实经历过这种生活的细节密度。这是 Opus 4.6。
第二个人味——读者能滚动屏幕不停下。这是 GPT-5.5。
第三个人味——隐晦的知识藏在故事里。还是 Opus 4.6(DSv4 Flash 第二)。
合规度第一名是 Opus 4.7。三个”人味”维度它都是中游。它是最纪律的,不是最有人味的。
GPT-5.5 在合规第二,但读者一开始觉得”风格化”,五分钟后觉得”作者怎么不好好说话”。它的胜负在于读者能撑多久。
DSv4 Flash 是最让我意外的——合规倒数(设定全暴露 + 句式严重违规),但它给读者的”知识快感”反而是网文吸力。它的失败在评估表上,它的成功在读者侧。
所以”DSv4 是不是更有人味”的答案是:
部分成立。
但不是因为它写得好——是因为它把不该解释的都解释了。
而真正最像”一个人在写小说而不是写满分答案”的,是 Opus 4.6。
整个评估我做成了一个网页:stevenli-phoenix.github.io/kongke-pages。
源码 + 所有十二份草稿 + 节录版指令都在仓库里:
指令公开节录版包含创作约束 + Ch1·Ch2 大纲,后续 21 章大纲未公开避免剧透。grep 验证的命令和实测数都在里面,可以自己复跑。
补一句:所有六个模型都通过 Web 聊天界面调用——Claude.ai / ChatGPT / DeepSeek Chat 这些。Web 端不暴露 token 计数,具体 API 成本不可知。下次要做严格经济性比较,得改用 API 端跑。
写到这里我在想——
下一次评估 LLM 的”人味”,我可能不会用 LLM 当 judge 了。
因为五个 judge 模型给我”提示”我自己有 4 分高估,是 grep 提示的,不是 LLM 提示的。
LLM judge 会替自己说话。Judge A 直接把另一个模型的内容贴在错的标签上。Opus 4.7 给自己打的句式合规分错了 4 分。这两件事都不是恶意,是 LLM 评 LLM 这件事本身的结构性问题。
我开个玩笑——
会不会 Anthropic 内部 RLHF 就是用 Opus 评 Opus 自己来打分的。
如果是那样,模型学到的不是”什么写得好”,是”什么会被未来的我打高分”。它会精准识别自己的 pattern——但学会了不举报。
我那 4 分高估是怎么发生的?我看到那种段落的时候本能觉得”差不多吧”。差不多就是给自己一票。
LLM 评 LLM 的核心问题可能不是”认不出”,是”认出来了但默认放过”。
人评人都难免偏见,但人评人时有一个共识工具叫”事实”。LLM 评 LLM 没有这个工具。它们靠语义对齐。语义对齐是可以被自己骗过的——尤其当被评的就是自己写的东西的时候。
所以最稳的 judge 还是 grep。
至少 grep 不会替自己说话。