阿里云通义大模型家族迎新!财联社、《科创板日报》记者实测体验AI绘画能力|直击WAIC

2023-07-08 05:30:37 来源:科创板日报

《科创板日报》7月7日讯(记者 黄心怡),在2023世界人工智能大会上,阿里云宣布AI绘画创作大模型通义万相开启定向邀测,这意味着通义大模型首次开放了文生图功能,在过去纯语言处理的基础上,增加了多模态能力。


(相关资料图)

此前,国内仅有百度文心一言、360智脑等少数几家企业开放了AI作图功能。

《科创板日报》记者第一时间拿到了通义万相的内测码。从官网来看,目前已上线文生图、相似图像生成、图像风格迁移三种功能。

在基础文生图功能中,可根据文字内容生成水彩、扁平插画、二次元、油画、中国画、3D卡通和素描等风格图像。

由于对中文词汇理解的不足,AI作画曾一度闹出过不少笑话。《科创板日报》记者在通义万相网站,对这些容易出错的AI作图进行了测试。

提问:画一个红烧狮子头

提问:画一个胸有成竹的男人

提问:画一幅画,妈妈抱着宝宝、宝宝在哭泣,宝宝6个月左右

相比文心一言,通义万相一次能给出四张图片。除了第一张图的“妈妈”明显出错,其他三张还算符合要求。

提问:画一张车水马龙的图

提问:生成一张云计算的配图

通义万相理解了“云计算”这一科技词汇的含义。此前的测试中,360智脑对于云计算图片的生成曾出现过错误。

360智脑此前生成的云计算图片

接着,《科创板日报》记者让通义万相生成一张“小狗在草地上奔跑”,并生成油画、卡通等不同风格。

油画

3D卡通

在相似图片生成功能中,用户上传任意图片后,可生成内容、风格相似的AI画作。

记者上传了一张风景照,尝试让通义万相生成相似的图像。

在会后的采访中,阿里云智能集团首席技术官周靖人表示,“生成图片的细节是不是能够更加地逼真,更加地注重到很多细微差别,甚至对于模型的语义的理解,也是极为重要的。我们不仅解决这个方面的问题,甚至支持多语言,英文、中文等都是可以能够对应理解相关语义,生成相应的图片。”

《科创板日报》记者输入英文来生成图片

谈及后续的产品规划时,周靖人称,整个产品还不断地迭代,不单通过语义生成图片,更重要的是能够控制怎么生成图片,这也是接下来要提供的重要能力。

降低模型服务的成本也是阿里云较为关注的方向。

“我们在帮助模型的提供商不断降低模型服务的成本,包括怎么做模型量化,服务的时候是不是可以有大小模型的协同,甚至模型服务的新架构等等。今后几个月大家会听到新技术的发布,把模型服务的成本降低。”

对于国内外大模型的差距,周靖人坦言,仍需要奋头直追。

“我们看到的业界情况,各种创业公司的模型,其实离OpenAI等顶级模型之间依然存在一些差距。这个竞争不仅仅是模型、算法,还包括背后云的能力、数据体系的能力,还有逻辑思维相关一系列能力的不断迭代和发展。在这个阶段,我们还有长足的距离需要去追赶。

周靖人进一步补充道,“大模型领域你追我赶的过程刚刚开始,大家还是要有一些耐心,整个技术的发展需要时间。我们对整个行业还是非常期待,但真正要做到全球领先,还需要很多的工作,不断地尝试和努力。”

标签:

为您推荐

新闻快讯