找回密码
 立即注册
  • QQ空间
  • 回复
  • 收藏

锐评一下用过的几个AI在编故事方面的表现。

首先声明,不评价文笔。
Claude Sonnet 3.5的遣词造句较为平淡,喜欢在结尾进行感悟总结,有点破坏阅读体验,特别是在一些高潮章节之间,这种总结严重打断了节奏。另外就是容易生成重复句式,如果对话多你可以看到很多xx笑着说道之类的重复句式。说完这些缺点,来说一下优点,首先是指令的遵守度很高,基本上是按照要求生成的。其次是对工具的适配较好能够主动调用工具,主动参考前后文,文章中基本没有奇怪的错误。如果使用得当完全可以生成不错的内容。另外就是很贵,且国内访问不便。
DeepSeek R1就如大家所知,R1非常喜欢各种各样的修辞,经常加入花里胡哨的描述如果是claude是容易出现重复句式,那R1就是经常出现重复短语,至于是哪些大家一定很熟悉了。且对工具的适配性差,输出包含大量如何使用工具的计划,挤占实际工作的上下文,且上下文只有64k,因此R1完全不适合在这个环境中工作。而且众所周知,R1非常喜欢加戏,经常擅自加入冲突、伏笔。在对话式环境中有着更好的表现,合理怀疑是工具的使用提示词分散了它的注意力,导致它无法专注于写作本身。128k上下文的第三方表现理论上会好一点,但实际上感觉不明显,而且有时感觉不如能力官方。DS优点是灵活度高,幻觉也高,性价比高,语言比较符合中文的习惯。
Gemini 2.5 Pro 同样喜欢在文末进行总结、暗示,不管是否需要。剧情方面,Gemini的情节安排有点老套,不同任务间的情节相似度很高,以及同样的有高频词,写人物情绪时真的非常喜欢哈气,动不动就崩溃、绝望、咬牙切齿。如果说R1是喜欢加细节加冲突在剧情上加戏,那么gemini这是喜欢在人物背景加戏,且如果主角人设没提及家人父母,那么它大概率会给你写成死人,本来开开心心地回家,结果一到家就写破败、空荡荡的房子。工具适配方面比R1好一些,但不多。另外如果一不注意,Gemini非常容易形成模板化回答,这个输出是这样的格式,下个输出也是这个模板。还有应该严重的缺陷是出现乱码,包括但不限于出现大量外文,莫名其妙的-,某些词语最后一个字变成奇怪的东西,比如说不易察觉的觉。某些优点是上下文很长,能够处理的内容很多。以及免费不用花钱。对了,补充一下Gemini真的非常犟有错不改还顶嘴,道歉认错然后重申它是对的,很无语。
GPT 4.1懒得评价,大纲字都比他多。
总结
说起这几个AI写作助手,感觉就像是遇到了几位性格迥异的写作伙伴。
Claude就像是那种循规蹈矩的作家,写起故事来中规中矩,该有的都有,但有时候会不自觉地重复一些表达方式。它很听话,你说怎么写它就怎么写,就是价格贵了点,而且不太好约(访问不便)。
DeepSeek R1就像个热衷于细节的文艺青年,特别喜欢加入华丽的修辞和各种细节描写。它创意很丰富,经常自己加戏,像是给角色加个悲惨的家庭背景啊,或者塞进一些意想不到的冲突。价格实惠是个优点,就是在处理长文本时容易断片。
Gemini则像是个戏剧化的表演者,写到人物心理活动时特别容易激动,动不动就要让角色崩溃或者绝望。它最大的优点是不要钱,而且能处理很长的文本,就是偶尔会闹点小脾气,比如突然蹦出几个乱码字符,或者固执地用同一个模板写作。
至于GPT4.1嘛...它就像个有点懒的写手,这次测试中给出的内容太少,都不好评价了。
如果要推荐的话:- 写商业稿子,要求严谨的,找Claude比较靠谱- 想要故事精彩纷呈、细节丰富的,可以试试DeepSeek R1- 预算有限又要写长篇的,Gemini是个不错的选择- GPT4.1这次表现太少,暂时不好推荐
不过呢,这些AI都在不断进步,说不定过段时间就都有新变化了。选择时还是要看自己具体要写什么,预算多少来决定。
此总结由GitHub Copilot生成,基于人类撰写的AI横评报告内容进行归纳总结。(其实是Claude sonnet 3.5)
注,这里说的所有工具指的都是vscode环境下的。
回复

使用道具 举报

大神点评(14)

GPT4.1存在感有点低说实话,毕竟这个名字起的不好,让人以为只比GPT4强了一点,比GPT4.5弱一些,而且老版本的chatgpt app在GPT4.5上标注了研究和写作,所以下意识我也会认为GPT4.5好,虽然我平时用的o推理模型比较多
锐评一下用过的几个AI在编故事方面的表现。-1.png
回复 支持 反对

使用道具 举报

deepseek其实也很犟,我换着用kimi和r1,deepseek如果对事实出现了幻觉,试着批驳它,它就会不断找越来越离谱的理由找补,只有不断改输入,加入理由,直到它彻底无话可说才会承认错误,k2基本上提了问题就承认了
回复 支持 反对

使用道具 举报

格式模板和路径依赖好像是AI通病,我个人想不到什么好办法限制,特别是deepseek,刘备写多了就拿感叹号当句号用,止都止不住
锐评一下用过的几个AI在编故事方面的表现。-1.png
回复 支持 反对

使用道具 举报

gemini是最合适的,它自己编剧情可能会老套,但我来编就不老套了,它只负责写
回复 支持 反对

使用道具 举报

按这说的话几乎是全部ai都有重复问题吧,长文章ai不会主动避免重复,难免就有这种情况
回复 支持 反对

使用道具 举报

rxlkr 前天 14:08 显示全部楼层
文字最重要的是让人舒服 这点Gemini最优秀
回复 支持 反对

使用道具 举报

在我明示AI“不得擅自添加剧情后”,我的感受:
1.claude淡如水而且扭扭捏捏,好像对它来说写小说堪比踩地雷,每写一百字都要思考是不是碰到了什么敏感词。写战斗场面的时候尤其头疼。
2.R1喜欢重复几个特定描写,以及莫名其妙地在中文里使用英文标点。除此以外,中文语境下,它文笔断档第一,而且API绝对的无禁忌。最大缺点是上下文太短,必须定时提醒它总结前文。
3.gemini用词比r1丰富,不那么容易重复,但还是喜欢“指节发白”这种描写。描写细腻程度不及R1,特别是对人物的心理描写上,而且偶尔会输出乱码。
4.GPT就是懒鬼一个,r1也会偷懒,但是你指明字数要求它会尽力去写,GPT就是懒。
5.grok 3和GPT相比是另外一个极端,喜欢碎碎念,重复非常严重。grok 4脑子不好使,前面写得特别长,后面突然变成寥寥无几的几句话,几乎无法有效生成中文小说,比3还不如。
综上,写中文小说就gemini和deepseek好用。
回复 支持 反对

使用道具 举报

苏苏 前天 14:09 显示全部楼层
难啊
回复 支持 反对

使用道具 举报

哈基米动不动就黑化恶堕,太极端了。以前我还舍不得骂它,现在只要它写得不好我就直接开骂
锐评一下用过的几个AI在编故事方面的表现。-1.png
回复 支持 反对

使用道具 举报

V3模型比R1模型听话多了,但缺了r1模型那种汹涌的创造力。
回复 支持 反对

使用道具 举报

艾的民 楼主 前天 14:10 显示全部楼层
openrouter的dsr1有164k的,就是免费次数比较少,不过可以一边写章纲,一边让它写正文,基本一天50次用不完
回复 支持 反对

使用道具 举报

艾的民 楼主 前天 14:11 显示全部楼层
v3.1那更好的适配vscode的环境,但内容不太行啊
回复 支持 反对

使用道具 举报

回复 支持 反对

使用道具 举报

艾的民 楼主 前天 14:11 显示全部楼层
难绷,是谁的小号
锐评一下用过的几个AI在编故事方面的表现。-1.png

回复 支持 反对

使用道具 举报

说点什么

您需要登录后才可以回帖 登录 | 立即注册
HOT • 推荐