麦克雷 Mavom.cn
标题:
Midjourney和Stable Diffusion的区别
[打印本页]
作者:
keputusan4d444
时间:
前天 16:21
标题:
Midjourney和Stable Diffusion的区别
Midjourney和Stable Diffusion的区别
作者:
rpona
时间:
前天 16:21
Midjourney和Stable Diffusion在
大模型、语义解析、图层和景深表现
等方面存在显著差异,具体如下:
大模型
训练集来源与规模
:Midjourney大模型训练集来源不明,ChatGPT无法查询,Claude的解释也真伪难辨。
Stable Diffusion主要使用LAION收集的图片,1.5版大模型训练数量约23亿张。LAION数据集中,数量最多的图片来自Pinterest(8.5%)和Fine Art America(5.8%),也包含Flickr、500px等UGC网站和123RF、Adobe Stock等专业图库。
图片质量与学习方式
:Stable Diffusion用原始大模型直出图片质量一般,因其完成机器学习后开源,将专家监督学习和反馈强化学习两个环节交给用户训练小模型。
Midjourney将前三个学习方式封装在大模型里,用户可在
http://midjourney.com/app/rank-pairs/
对图片排名,获得免费快速GPU时间,补充反馈学习消耗的人力。Midjourney的style of像作弊码一样提升图片质量,可能在偏后步数介入约束扩散。
审美倾向与内容风格
:Midjourney的审美倾向由背后团队筛选,产生内容下限高,平均审美在线。
Stable Diffusion需要用户主动选择加载lora,用户贡献量大的漫画画风和NSFW更有个性。
(, 下载次数: 0)
上传
点击文件名下载附件
上图为a cute 3d character of a tiger, furry, perfect lighting, soft, unreal engine, fluffy, friendly face, studio light的出图效果
(, 下载次数: 0)
上传
点击文件名下载附件
上图为Stable Diffusion 2.1不加载lora的情况下和Midjourney v5直出四宫格,画面质量差据明显
语义解析
提示词处理
:Stable Diffusion的提示词是单点序列,前后顺序影响生成结果,类似英语句子不通顺时连比划带蹦单词,能猜个大概意思,且需要大量负面提示词筛去低质量图片。
Midjourney对自然语言处理能力更好,简单句子也能理解,但停留在语意层面,复杂句子会提取关键词,无法像ChatGPT一样理解语旨。
多主体表现与解决方案
:Stable Diffusion和Midjourney对一个画面有两个以上主体时,无法通过语义解析很好表现。Stable Diffusion可通过局部重绘解决。
图片生成AI语义解析的终局是自然语言流畅处理。
图层和景深
生成特点与解决方案
:扩散式生成图片以物体识别学习生成,画面有强剪影感,无法很好表现复杂层次和景深。
Stable Diffusion通过主题和背景分层绘制,用关键词分步数介入或插件解决。
Midjourney学习更多画风,套用艺术家风格和摄影景深关键词,对图层和景深表现更细腻丰富。
演化结果
:Stable Diffusion可能跑出个性和顶点更高的大神,Midjourney可能批量跑出油光水滑的糖水片。
(, 下载次数: 0)
上传
点击文件名下载附件
上图为Stable Diffusion大模型为了提高泛用性,loss值偏高,毛发纹理表现比较刻板
(, 下载次数: 0)
上传
点击文件名下载附件
上图为Stable Diffusion的开源优势也很明显,可以定向训练小模型
欢迎光临 麦克雷 Mavom.cn (http://mavom.cn/)
Powered by Discuz! X3.5