锐评一下用过的几个AI在编故事方面的表现。

艾的民 · 2025-12-23 14:04:35

首先声明，不评价文笔。
Claude Sonnet 3.5的遣词造句较为平淡，喜欢在结尾进行感悟总结，有点破坏阅读体验，特别是在一些高潮章节之间，这种总结严重打断了节奏。另外就是容易生成重复句式，如果对话多你可以看到很多xx笑着说道之类的重复句式。说完这些缺点，来说一下优点，首先是指令的遵守度很高，基本上是按照要求生成的。其次是对工具的适配较好能够主动调用工具，主动参考前后文，文章中基本没有奇怪的错误。如果使用得当完全可以生成不错的内容。另外就是很贵，且国内访问不便。
DeepSeek R1就如大家所知，R1非常喜欢各种各样的修辞，经常加入花里胡哨的描述如果是claude是容易出现重复句式，那R1就是经常出现重复短语，至于是哪些大家一定很熟悉了。且对工具的适配性差，输出包含大量如何使用工具的计划，挤占实际工作的上下文，且上下文只有64k，因此R1完全不适合在这个环境中工作。而且众所周知，R1非常喜欢加戏，经常擅自加入冲突、伏笔。在对话式环境中有着更好的表现，合理怀疑是工具的使用提示词分散了它的注意力，导致它无法专注于写作本身。128k上下文的第三方表现理论上会好一点，但实际上感觉不明显，而且有时感觉不如能力官方。DS优点是灵活度高，幻觉也高，性价比高，语言比较符合中文的习惯。
Gemini 2.5 Pro 同样喜欢在文末进行总结、暗示，不管是否需要。剧情方面，Gemini的情节安排有点老套，不同任务间的情节相似度很高，以及同样的有高频词，写人物情绪时真的非常喜欢哈气，动不动就崩溃、绝望、咬牙切齿。如果说R1是喜欢加细节加冲突在剧情上加戏，那么gemini这是喜欢在人物背景加戏，且如果主角人设没提及家人父母，那么它大概率会给你写成死人，本来开开心心地回家，结果一到家就写破败、空荡荡的房子。工具适配方面比R1好一些，但不多。另外如果一不注意，Gemini非常容易形成模板化回答，这个输出是这样的格式，下个输出也是这个模板。还有应该严重的缺陷是出现乱码，包括但不限于出现大量外文，莫名其妙的-，某些词语最后一个字变成奇怪的东西，比如说不易察觉的觉。某些优点是上下文很长，能够处理的内容很多。以及免费不用花钱。对了，补充一下Gemini真的非常犟有错不改还顶嘴，道歉认错然后重申它是对的，很无语。
GPT 4.1懒得评价，大纲字都比他多。
总结
说起这几个AI写作助手，感觉就像是遇到了几位性格迥异的写作伙伴。
Claude就像是那种循规蹈矩的作家，写起故事来中规中矩，该有的都有，但有时候会不自觉地重复一些表达方式。它很听话，你说怎么写它就怎么写，就是价格贵了点，而且不太好约（访问不便）。
DeepSeek R1就像个热衷于细节的文艺青年，特别喜欢加入华丽的修辞和各种细节描写。它创意很丰富，经常自己加戏，像是给角色加个悲惨的家庭背景啊，或者塞进一些意想不到的冲突。价格实惠是个优点，就是在处理长文本时容易断片。
Gemini则像是个戏剧化的表演者，写到人物心理活动时特别容易激动，动不动就要让角色崩溃或者绝望。它最大的优点是不要钱，而且能处理很长的文本，就是偶尔会闹点小脾气，比如突然蹦出几个乱码字符，或者固执地用同一个模板写作。
至于GPT4.1嘛...它就像个有点懒的写手，这次测试中给出的内容太少，都不好评价了。
如果要推荐的话：- 写商业稿子，要求严谨的，找Claude比较靠谱- 想要故事精彩纷呈、细节丰富的，可以试试DeepSeek R1- 预算有限又要写长篇的，Gemini是个不错的选择- GPT4.1这次表现太少，暂时不好推荐
不过呢，这些AI都在不断进步，说不定过段时间就都有新变化了。选择时还是要看自己具体要写什么，预算多少来决定。
此总结由GitHub Copilot生成，基于人类撰写的AI横评报告内容进行归纳总结。（其实是Claude sonnet 3.5）
注，这里说的所有工具指的都是vscode环境下的。

Patrickkal · 2025-12-23 14:05:07

GPT4.1存在感有点低说实话，毕竟这个名字起的不好，让人以为只比GPT4强了一点，比GPT4.5弱一些，而且老版本的chatgpt app在GPT4.5上标注了研究和写作，所以下意识我也会认为GPT4.5好，虽然我平时用的o推理模型比较多
锐评一下用过的几个AI在编故事方面的表现。-1.png

ecbtrgdx37 · 2025-12-23 14:05:24

deepseek其实也很犟，我换着用kimi和r1，deepseek如果对事实出现了幻觉，试着批驳它，它就会不断找越来越离谱的理由找补，只有不断改输入，加入理由，直到它彻底无话可说才会承认错误，k2基本上提了问题就承认了

ecbtrgdx37 · 2025-12-23 14:05:52

格式模板和路径依赖好像是AI通病，我个人想不到什么好办法限制，特别是deepseek，刘备写多了就拿感叹号当句号用，止都止不住
锐评一下用过的几个AI在编故事方面的表现。-1.png

我叫王大胆 · 2025-12-23 14:06:27

gemini是最合适的，它自己编剧情可能会老套，但我来编就不老套了，它只负责写

lzv7zz6j · 2025-12-23 14:07:18

按这说的话几乎是全部ai都有重复问题吧，长文章ai不会主动避免重复，难免就有这种情况

rxlkr · 2025-12-23 14:08:06

文字最重要的是让人舒服这点Gemini最优秀

l69223000 · 2025-12-23 14:08:29

在我明示AI“不得擅自添加剧情后”，我的感受：
1.claude淡如水而且扭扭捏捏，好像对它来说写小说堪比踩地雷，每写一百字都要思考是不是碰到了什么敏感词。写战斗场面的时候尤其头疼。
2.R1喜欢重复几个特定描写，以及莫名其妙地在中文里使用英文标点。除此以外，中文语境下，它文笔断档第一，而且API绝对的无禁忌。最大缺点是上下文太短，必须定时提醒它总结前文。
3.gemini用词比r1丰富，不那么容易重复，但还是喜欢“指节发白”这种描写。描写细腻程度不及R1，特别是对人物的心理描写上，而且偶尔会输出乱码。
4.GPT就是懒鬼一个，r1也会偷懒，但是你指明字数要求它会尽力去写，GPT就是懒。
5.grok 3和GPT相比是另外一个极端，喜欢碎碎念，重复非常严重。grok 4脑子不好使，前面写得特别长，后面突然变成寥寥无几的几句话，几乎无法有效生成中文小说，比3还不如。
综上，写中文小说就gemini和deepseek好用。

苏苏 · 2025-12-23 14:09:27

难啊

Stevenvog · 2025-12-23 14:10:06

哈基米动不动就黑化恶堕，太极端了。以前我还舍不得骂它，现在只要它写得不好我就直接开骂
锐评一下用过的几个AI在编故事方面的表现。-1.png

u10sakurai · 2025-12-23 14:10:28

V3模型比R1模型听话多了，但缺了r1模型那种汹涌的创造力。

艾的民 · 2025-12-23 14:10:42

openrouter的dsr1有164k的，就是免费次数比较少，不过可以一边写章纲，一边让它写正文，基本一天50次用不完

艾的民 · 2025-12-23 14:11:07

v3.1那更好的适配vscode的环境，但内容不太行啊

kevintoo · 2025-12-23 14:11:30

艾的民 · 2025-12-23 14:11:36

难绷，是谁的小号

		自动登录	找回密码
密码			立即注册

锐评一下用过的几个AI在编故事方面的表现。

大神点评（14）

说点什么

浏览过的版块

神回复