Openai的绘图模型DALL-E入门测试

Openai的绘图模型DALL-E入门测试 最近由于公司的一些需求需要尝试一下ai绘图功能,在midjourney和openai的DALL-E之间选择了对新用户更加友好的DALL-E进行测试 1.模型部署 通过api调用openai接口部署到web。。。。省略一万字,最终结果差不多是这样的: DAL

Openai的绘图模型DALL-E入门测试

最近由于公司的一些需求需要尝试一下ai绘图功能,在midjourney和openai的DALL-E之间选择了对新用户更加友好的DALL-E进行测试

1.模型部署

通过api调用openai接口部署到web。。。。省略一万字,最终结果差不多是这样的:

DALL-E模型部署完毕接下来开始测试业务。

2.业务绘图能力

测试1:通过简单的中文输入是否能得到需要的结果

  • 结论1:基本完全无法理解中文语义,或者说DALL-E训练的数据库极少包含中文。

测试2:使用英文,使用更加专业描述

问:

I need an icon for the back button in a mobile app interface. Request:- A minimalist, flat and modern design style- Pale blue color (#D6EAF8)- A left-pointing arrow (←) to represent going back- Simple and clean shape, no complicated details- Size around 24px x 24px

结果是这样的:

  • 结论2:更加专业的英文描述可以获得更加准确的结果,但是任然不准确,因此专业的prompt工程师确实是必要的。

测试3:先让AI生成描述文本,再使用描述文本让AI绘图

先通过AI 生成描述文本:

我在做一个图形界面想要DALLE帮我绘制一组前进和后退图标,要求是淡蓝色,我应该怎么用英文描述

结果:

一个聪明的对话模型在文本描述这类工作中确实能有出色的表现。

再将ai的回答导入到DALL-E,结果是这样的:

  • 结论3:经过详细的描述和正确的引导,貌似也能画一些不错的图,甚至有一些设计是很惊喜的。

3.结论

Openai 的DALL-E模型也并不能算得上是开箱即用,直接输入并不能得到理想的结果(可能是我语文和英语都不好),但是在对话模型的加持下,即便是普通人也能够通过不断地与AI对话来优化输入,从而获取一个更稳定的输出。

这里提供一些测试网站供大家使用,模型是OpenAI的DALL-E:

底部Select model 需要选择DALL-E

http://pipers.fun:4011

http://pipers.fun:4012

http://pipers.fun:4013

有效期截至23年7月1日

题外话

每一周,都有大小公司在推出自己的大模型,AI 颠覆世界不再被当成遥远的想象。可以在各个领域代替人工的通用人工智能(AGI,artificial general intelligence)似乎随时就会诞生。

相似的 AI 狂热,历史上有过几次。最近一次是 2016 年春天,Google 旗下 DeepMind 开发的 AlphaGo 大胜围棋大师李世石。人们期待 AI 会快速跨行业复制、应用,颠覆已有的许多生意,甚至带来更大的社会变化。

有意思的是:

学会使用一个正在快速进化的黑箱工具,是人类以前没有遇到过的课题

By Piper

2023.06.08