Published on

【AI Work】01 Seedream 4.0 全风格评测

Authors

省流版结论:Seedream 4.0 文生图一流,图生图还是比较多限制。推荐的风格有儿童绘画、像素、手办、毕加索、版画、漫画。其他的千万要小心使用,随手就可能翻车。

还记得高中的时候,我买了几本手绘的书籍,想要自学画画,这样就可以用文字以外的方式来表达自己的想法。然而一看就会一学就废,虽然知道“一图胜千言”,无奈自己水平有限,也就把这个想法搁置了。随着 Stable Diffusion 的出现,让我这种不会画画的人也有了创作能力。但是真正上手之后就发现,除了复制大神的生图“咒语”来微调,自己写的提示词生成出来得一塌糊涂。两年多过去了,虽然图片生成已经不是什么难事儿了,但摆在我面前的难题是:主流的艺术风格有哪些,每个大致是什么样子,我不懂,因此我选不出来!

于是就有了本文,我会用三个相同的提示词,前两个基于相同的参考图片(我的博客的头像),最后一个让模型自由发挥,把主流的三十多种风格都展示出来,从此不会有难选的风格!

提示词及评价标准

为了这次测试,我准备了三个提示词:

  • A: 图片风格为[风格],使用参考图的形象,一个人正坐在书桌前,面对着电脑在打字,落地窗外夕阳西下。
  • B: 图片风格为[风格],使用参考图的形象,一名宇航员孤独的身影,他站在星空低垂的午夜沙漠加油站旁,伫立在老旧的斑驳油泵前。这位戴着头盔的太空旅人在这片荒芜之地陷入沉思,唯有尘烟缭绕的土路向着远方的地平线延伸,那里黑沉沉的板岩岩层直指虚无深渊。一盏闪烁的荧光灯投下诡谲的光晕,空气中弥漫着沉重孤寂与渴望的气息。
  • C:图片风格为[风格],比例 「1:1」,描绘中国千岛湖的美丽村落,碧波环绕湖水澄澈如绿松石,着重表现光影、水纹与质感的交织,营造宁静永恒之美。

它们分别可以理解为容易、困难、对照组:

  • 提示词 A 是图生图比较简单的场景,考察基础的编辑/融合/风格迁移能力。
  • 提示词 B 是图生图相对复杂的场景,更长的提示词,更多的细节,难度上了好几个台阶。
  • 提示词 C 是文生图的简单场景,可以测试出模型的基础能力,能够更直观看出不同风格的差别。

至于本文的评价标准,是非常主观且简单的,分为 SAB 三级,这个评级代表着:Seedream 4.0 在哪个风格里的图生图能力最强(在本次的提示词下),可以在风格的选择上做一个辅助参考。另外,文生图或者图生图领域都已经有很多的基准测试,可以通过这些测试来选择到底用什么模型。

注:本文的所有图片都是由豆包生成,带有豆包 AI 水印,不代表 API 的能力。

个人偏爱

风格:儿童绘画。可爱,喜欢,心都化了,不要跟我说什么风格一不一致,看到这个想到宝崽,就是最爱!

儿童绘画

S 级:推荐

风格:像素风格。总是让我想起九几年玩的仙剑,泪目,S级!

像素风格

风格:手办。nano banana 带火的手办风格,Seedream 肯定也要做得好啦,不然怎么敢叫 SOTA。

手办

风格:毕加索。特点鲜明的画家的风格,学习得是非常充分的,大胆用!

毕加索

版画风格、油墨印刷风格:这俩风格很接近但是有细微的不同,看个人喜好,都好看的。

版画
油墨印刷

A 级:可用

风格:彩铅画。这个风格的主要问题在于,遇到复杂的场景没办法很好处理。但是简单场景渲染的风格我还是喜欢的,不然没办法在 A 组混的。

彩铅画

风格:3D渲染。这个风格的主要问题在于,遇到复杂的场景没办法很好处理。但是简单场景渲染出来还是很可爱的,不然没办法在 A 组混的,Again。

3D渲染

油画风格、莫奈风格:这俩风格基本还是比较像的,油画风格更听话一点,中间没多出个人。莫奈风格遇到复杂场景就不可用。从最右边的参照组也能看出,这俩很像很像。

油画
莫奈

动漫、二次元、复古动漫、港风动漫、绘本、卡通、平面插画风格:这一组风格,可以说不是老二次元肯定分不出来,看起来就差不多。没错,我就觉得差不多,所以都放一起了。不过这类图片数量多,训练还是比较充分的,好看没问题,随便用。就是这么多类似的放在产品里,感觉必要性不大,增加我评测的工作量。

动漫
二次元
复古动漫
港风动漫
绘本
卡通
平面插画

B 级:不建议

马蒂斯风格、锐笔插画风格、抽象风格。这几个风格的主要问题在于,遇到复杂的图片(中间),直接放弃作答。左图和右图倒是风格还比较接近,不过接近也没用,我不喜欢。

马蒂斯
锐笔插画
抽象

水墨画风格、水彩画风格。这两风格的主要问题在于,不太水墨/水彩。左图看起来就是颜色不均匀,中间的图没有任何水墨成分。从最右侧的对照组来看,整体是美的,就是风格不适合图生图。

水墨画
水彩画

巴洛克风格、伦勃朗风格。这两个风格的主要问题在于,对风格的理解非常“具体”。啥意思呢,左图加上了奢华的窗帘,中间有宇航员那就不能巴洛克所以没有任何变化,右边愣是安插了一个城堡,啊,原来这就是巴洛克。

巴洛克
伦勃朗

赛博朋克、荧光绘画风格。这两个风格的主要问题在于,真的就是加上紫色和青色的光。左图的理解是屏幕,中间的理解是加个荧光灯。作为对照组的右图,其实也不太好看,这个风格很挑题材。

赛博朋克
荧光绘画

古典风格、人像摄影风格、电影写真风格。这几个风格的问题是,给漫画的参考图,生成出来的属实离谱。单看对照组的右图感觉还可以,但是左边和中间就完全没有任何的表情管理。另外古典不只是换成老家具吧!

古典
人像摄影
电影写真

风景风格、CG动画风格、中国风风格。风景风格的问题是,只能用于纯风景,图生图等于没用。单看对照组的右图感觉还可以,但是为啥左边和中间没学到一点点呢?CG 则是一点不 CG。到底什么叫做中国风?左图的理解是窗外有中式风格的楼,中间的理解是戴口罩(这个是把我整笑了)。作为对照组的右图,看了你就知道这个风格真的不是很靠谱。

风景
CG动画
中国风