男女不分、人面兽身……离谱的AI扩图,究竟是什么脑回路?
读特融媒体记者 严偲偲
2023-12-09 20:19

读特客户端

读特在线,您的新闻观察眼

日前,2023年英文维基百科词条榜出炉,ChatGPT以4949万浏览量登上榜首。随着ChatGPT的横空出世,AI对话、AI绘画、AI视频等各类应用也相继出圈,近日,AI新玩法“AI扩图”走红多个社交平台,抖音相关话题播放量超9.2亿次。然而,AI这次的出圈却不是因其强大的功能,而是一张张“男女不分”“人面兽身”的离谱画面。

01

AI扩图:主打一个出其不意

“AI扩图”简单来说,就是给AI一张图片,AI会根据现有图片的内容、风格和上下文,把图片扩展成一张内容更多、背景更全、视野范围更大的图。随着美图秀秀、剪映、抖音等国内主流软件推出AI扩图功能,不少网友尝试后,一大批脑回路清奇的“神图”出现了。

纵观这些神图,根据离谱程度大致可以分为以下几种类型:

三人同行型:当图中出现一对甜蜜恩爱的情侣,AI偏要扩展出第三个人,给情侣们戴上一顶“赛博绿帽”。


男女不分型:当图中男性上半身穿着华丽或暴露时,AI会自动匹配一个女性的身体。


人兽不分型:当你在图中身穿皮草类大衣,AI“反手”就会给你匹配一个动物的身体或头部。


最后是离谱到无法分类型:甄嬛打篮球、人头路灯、励志情侣……



在AI一系列的“神操作”下,人们已逐渐忘记“AI扩图”原本是用来拯救废片的,纷纷开始怀疑AI的精神状态,“AI扩图你怎么回事”“扩的很好下次别扩了”“AI扩图你别太离谱”等话题随之出现。

02

AI究竟是什么脑回路?

事实上,在AI扩图功能之前,AI绘图生成的人像已经达到了真假难辨的程度,人们只能通过手部等细节寻找破绽。那么,为什么AI的强大算法到了扩图功能这就不灵了呢?

今年三月,这张由Midjourney用AI模型生成的“中国情侣”因其逼真程度引起轰动。

专注于计算机视觉和计算机图形学研究的香港中文大学(深圳)韩晓光教授告诉记者,AI生成图像是基于GAN模型、扩散模型等深度学习的算法模型,其基本原理是尝试通过一些数据样本构建一个统计意义的连续数据空间,基于这个空间进行各种应用。

“当构建AI人脸生成算法时,AI只需要针对人脸图像这个具体类别进行学习,同时生成的图片也被限定在人像这个范畴。相比之下,AI在扩图功能中的模型则需要涵盖世间万物的各种类别,要学习的图片数据量可达到上十亿级,创作的范畴也不再框定,因此难度和随机性都会大得多。”韩晓光解释道。

为了让AI涵盖的范围足够广,相关软件通常会采用通用模型,而通用模型则赋予了AI更大的想象空间。“以‘人面兽身’的图片为例,给AI一张身穿皮草的图片,AI其实可以给出很多解,既可以生成熊腿,也可以生成人腿,在AI眼中,这些都是合理的。”

如何让AI生成的图片更符合人类的常理呢?韩晓光表示,这就要求算法模型从“通”往“专”发展,比如给定AI场景限制、风格限制、类别限制等,进而定义合理性。“未来AI软件的发展需要在‘通’和‘专’当中寻找一个平衡点,既让AI富有想象力,又具备合理性,但目前仍比较难达到。”韩晓光说道。

03

AI:没人为我发声吗?

除了一些出其不意的搞笑图片外,AI扩图并不完全是“人工智障”,也有不少网友表示,AI能够一键拯救废片。“上传的照片如果能判断出背景是雪山、大海、森林,扩图效果会更好,人像如果是正面或全身照也会效果更好些。”经常使用AI扩图功能的网友总结出这些经验。

记者下载相关软件试用AI扩图功能后发现,得到的大部分图片都属于合理范畴内,特别是有完整人像的旅游风景照,AI能够给出更大画幅、更广视角的全景照片。

实际上,AI扩图并不是新鲜事物,Photoshop 和Midjourney在今年早些时候都上线了类似功能,但由于这类软件的使用门槛相对较高,这一功能没有引起全民关注。直到美图秀秀、剪映等国内大众软件上线“AI扩图”功能后,才进入到非技术群体的圈子。目前,美图秀秀可对图像进行110%到300%不同比例的扩图,而剪映则通过视频的形式动态展示扩图前后的效果。

AI扩图,你尝试过了吗?对你来说是“拯救废片”还是“人工智障”呢?

编辑 周梦璇 审读 张蕾 二审 李怡天 三审 詹婉容

(作者:读特融媒体记者 严偲偲)
免责声明
未经许可或明确书面授权,任何人不得复制、转载、摘编、修改、链接读特客户端内容
推荐阅读
读特热榜
IN视频
鹏友圈

首页