会画画、会识图的ChatGPT终于要来了…

站长云网 2023-09-25 互联网 AI编辑

DALL·E3来了!不仅来了,还会被整合到ChatGPT里。也就是说,除了老生常谈的对话、写代码、解数学题外,整合了最新DALL·E3的ChatGPT这次终于有图片功能了。


ChatGPT+DALL·E,这波算是强强联合,一个是语言大模型里的无冕之王,另外一个也算是文生图模型里的佼佼者,真正的效果也必然会1+1>2。

这次突然官宣算是填了今年年初GPT-4刚出来后,被传的纷纷扬扬的多模态ChatGPT的大坑。


不过,现在OpenAI还只是公布了这个消息,具体的上线时间是10月。面向Plus和企业版用户,单独的DALL·E3今年秋天也会上线。

这玩意具体有多厉害,虽然现在我们还不能上手,但从OpenAI公开的示例来看,还是相当炸裂的。

其中,就有热心网友直接打来了Midjourney,把DALL·E3的示例提示词喂给了它,好直接斗图一比高下。

而结果只能说:Midjourney危了。

首先是很经典的牛油果看病梗图,提示词:一个牛油果坐在治疗师的椅子上,说着“我感到内心如此空虚”,牛油果中间有一个小坑大小的洞。治疗师,勺子,涂鸦笔记。

虽然乍一看是各有千秋,两种不同的风格。但若再仔细对照下提示词,很显然Midjourney忽视了治疗师,勺子,涂鸦笔记这几个元素,对话框里的文字也是乱写一通,不按照要求来。


然后让他们生成一张关于半透明心脏的图片,并且要求在心脏下面刻上一行特定的名言。

提示词:这是一幅用半透明的玻璃制成的人类心脏的插图,它矗立在狂风暴雨的海洋中的一个基座上。阳光穿透云层照亮了心灵,揭示了内在的微小宇宙。“发现你内心的宇宙”这句名言被用粗体字刻在基座上。

毫无疑问,这次DALL·E3再次吊打了Midjourney,Midjourney除了没按照要求刻字外,像狂风暴雨的海洋、内在的微小宇宙等细节是一点也没展现。


再来一张以荔枝为灵感的球形椅子的照片,细节上,要求有白色凹凸不平的外观,柔软的内饰,与背后的热带壁纸形成对比。

这把它们俩生成的图片里各个元素都齐活了,但Midjourney似乎还是误解了热带壁纸和热带雨林的区别。


当然,误解提示词、断章取义这些都相当于是之前文生图模型的顽疾了。

像什么寄居蟹就给生成一个螃蟹……


让它生成2D的拟人化森林乐队结果生成3D的……


而这些老毛病,照OpenAI自己的说法以及给出的示例来看,新的DALL·E3基本上不存在这种情况。

除了解决掉老毛病之外,DALL·E3还在原来二代版本上也进行了质感上的升级。

就比如让它们画篮球运动员扣篮的场景,元素是星空爆炸。

本来DALL·E2生成的图已经很符合要求了,没想到升级后的DALL·E3更加逼真,肌肉线条、宇宙的色彩这些细节都一一展示出来,属实是降维打击。

左:DALL·E2,右:DALL·E3


总体看下来,DALL·E3在ChatGPT的加持下,语言理解能力直接拉满,简直是要赢麻了的节奏。

升级版的ChatGPT不仅不会丢失关键信息点,就算只是零零星星打了几个关键词,它也能帮你自动补全描述,然后再让DALL·E3生成图片。

OpenAI这是拿捏住了当代网友“文化沙漠”的本质了(狗头)。


当然DALL·E3和ChatGPT的整合,不止是更能听懂人话那么简单,它们还会产生一些奇妙的火花。

就比如升级版的ChatGPT在画画上也有了上下文理解能力,甚至可以直接当做生产力工具。

具体有多厉害,OpenAI官网给出了一段演示视频,说实话,世超在看了后,也是为插画师的饭碗狠狠地捏了一把汗。

首先是让ChatGPT生成一个超级向日葵刺猬,它会给出四张图,从里面选一张最喜欢的之后,可以进行下一步的对话。


然后把这个刺猬命名成Larry,可以再让ChatGPT多生成几张它的照片。


接下来上点难度,直接搞个场景,让它展示一下Larry的家。

这把可以直接看出DALL·E3+ChatGPT的实力了,不仅Larry的样貌还保持原样(这换其他AI可能早变样了),而且门口的邮箱还写着“LARRY”的名字。


此外,描述Larry的特点、用图片展示它的爱心、甚至做做Larry的周边,设计出几个贴纸,对于ChatGPT来说都是洒洒水的事。


最后让它整理个睡前故事,来个endingpose,ChatGPT也是信手拈来,u1s1我真的有点被这丝滑的对话震撼到……


看到这里,世超还突然得了新的灵感,之后我们写好的文章岂不是就可以直接丢给ChatGPT,让它提取关键词做封面。

有啥特殊要求也可以直接告诉ChatGPT,参考图啥的也可以扔给它,摸鱼技巧+1+1……

言归正传,上面提到的那些还只是OpenAI单方面展示出来的效果,实际用起来怎么样,还是得等到10月份上线之后才能知道,估计到时候有会有一波隐藏技巧被网友们开发出来,坐等。

另外,谈到AI绘画,就还是躲不过那个老生常谈的话题:版权问题。

OpenAI这边依旧还是之前的立场,和第二版一样,用DALL·E3生成的图片不需要经过许可就能用,想商业化都行。

不过,有了太多的前车之鉴,OpenAI这次耍了点小聪明,说是艺术家可以选择拒绝自己的作品被投喂给DALL·E,前提是只要填一个表格就OK了。

虽然这多少有点“不拒绝就是默许”的意味,但相较于之前,起码艺术家们不再那么被动了……


对于之前网络出现的AI绘画侵犯公众人物隐私,以及一些其他偏见的问题,DALL·E也有对策了:在实际使用的过程中,ChatGPT会直接拒绝提示中带有公众人物名字的请求。

也就是,像这种乐子图我们估计也不会在ChatGPT中看到了……


并且他们还组建了一个“红色团队”,用来评估和降低模型在各个阶段可能会产生的风险。


最后,OpenAI还在官网上表示说,它们在研究一个识别AI画图的工具,能够判断哪些图片是DALL·E3生成的。

(只希望不要像之前那个识别AI文本的工具,因为鸡肋半路夭折……

总的来说,有文生图功能的ChatGPT就已经足够在AI圈子里掀起一阵热度,而这波又是整合的升级版DALL·E3,很难不让人振奋,反正世超已经是等不及想上手试试了。

但有人欢喜有人忧,OpenAI这波是再次甩了同行一大截,等到10月更新之后,估计又有不少AI初创公司被碾压在ChatGPT前进的车轮下……

责任编辑:站长云网