Hey科技 | OpenAI首个文生视频模型Sora横空出世!视频行业会被重塑吗?业内人士表态→
读特客户端综合
02-17 17:50

读特客户端

读特在线,您的新闻观察眼

人工智能在去年给人类带来巨大冲击,不少声音指出在创意等方面人类尚无法被其取代。这一想法再次遭到挑战。

当地时间2月15日,人工智能巨头,ChatGPT母公司OpenAI宣布,正在研发“文生视频”模型Sora,可创建长达60秒的视频,其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色,也可以根据静态图像制作动画。根据OpenAI官网,Sora不仅了解用户提出的要求,还了解这些东西在物理世界中的存在方式。

目前,Sora仍在开发中,正在接受安全测试,尚未向公众开放使用。OpenAI CEO奥特曼在社交平台上向公众征集他们想看到的视频,表示公司将制作并发布。

OpenAI CEO奥特曼在社交平台发布Sora视频。

Sora视频一出,立刻震惊业界。此前,其他企业也有类似文本生成视频的AI模型,其中,谷歌正在测试名为Lumiere的模型,Meta则有名为Emu的模型,还有人工智能初创企业Runway也在开发相应产品来帮助制作视频。

短期内较难带来颠覆性影响

在官网上已经更新了48个视频实例中,Sora能够准确呈现视频细节,还能深刻理解物体在现实世界中的存在状态,并生成具有丰富情感的角色。

例如,某个Prompt(大语言模型的提示词)的描述是美丽、白雪皑皑的东京城市熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,在附近的摊位上购物。绚丽的樱花花瓣和雪花一起在风中飞舞。

在Sora生成的视频里,镜头从俯视白雪覆盖的东京,慢慢推进到两个行人在街道上手牵手行走,街旁的樱花树和摊位的画面均细致呈现。

不少业内人士认为,这个进展的意义难以想象,将对电影、小说、动漫、教育、游戏、自媒体行业全部具有深远的影响。

但也有视频剪辑从业人员泼冷水:“大规模应用后能否催生更多好作品不清楚,但制造视频垃圾的速度一定会指数级增长。

前百度产品委员会主席宋健表示:Sora确实很牛,但如果认为三年后就没人拍视频了,抖音Tiktok会被很快颠覆,那还是为时过早。

“从平台的角度,抖音等本质上还是以视频为载体的社交平台,特效甚至视频化本身只是个形式。做产品的肯定知道从零建一个社交平台到底有多难,需要天时地利人和,技术只是其中的变量之一。此外,生成式视频的信息量不如真实拍摄大。比如一个30岁的男人和一个20岁的女人对话,表达、语气、表情的背后都是他们积累了50年的数据总和。这些是生成式AI当前无法替代的。而且用户对这些细节很敏感。”

宋健认为,如若希望借助Sora这种视频生成技术,把视频行业变成一个“纯粹消费机器工业化内容”的局面,这恐怕没戏。但如果说,通过借助新技术,让人和人之间产生新的连接,激活新的创作产能,这是有戏的。但也得尊重行业规律,日拱一卒地通过“技术”迭代“生态”,而不是直接把技术强怼给用户。

确保内容真实透明成重要问题

2021年初和2022年末,OpenAI分别推出了图像生成系统DALL·E和聊天机器人ChatGPT。这也使得AI逐渐成为各行各业辅助工作的工具,也正逐渐改变人们对未来工作的看法。

据介绍,Sora是基于过去对DALL·E和GPT的研究基础构建,利用DALL·E 3的重述提示词技术,为视觉模型训练数据生成高描述性的标注,因此模型能更好地遵循文本指令。

Sora能够生成具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。同时,该模型对语言有深刻地理解,使其能够准确地解释提示并生成表达生动情感的引人注目的角色。

对于Sora的面世,工信部信息通信经济专家委员会委员、数字经济专家刘兴亮称,这标志着AI技术在内容创作领域的一个新纪元。“通过简短的文本提示或一张静态图片,Sora能够生成持续一分钟左右的1080P高清视频,涵盖多个角色、不同类型的动作和背景细节等,几乎达到了电影级别的逼真场景。这种能力不仅为内容创作者提供了前所未有的工具,使他们能够以更低的成本和更快的速度将创意变为现实,而且为观众带来了更丰富和多样化的视觉体验。技术创新的这一巨大飞跃,预示着AI在未来人类生活的各个方面都将发挥更加重要的作用。”刘兴亮表示。

而Sora以文字为核心的提示,将能够形成更加符合人类观念的连续视频,该模型的出现无疑将会对人们现有工作方式进行再一次迭代,同时也会对传统行业转型提出新的挑战。

生成式AI过去已积累了不少图像、声音等素材,并通过不断学习形成了更为成熟的算法。因此,若是可以通过AI在计算机中创建视频素材,或许将对影视行业产生重大影响。

刘兴亮称,AI生成的视频可能减少了对人类演员、导演和其他创意角色的需求,从而影响到这个行业的就业。此外,随着AI技术的进步,传统的影视制作流程和商业模式也可能面临重塑。

不过,刘兴亮指出,这种转型并不意味着传统影视行业的消亡,而是需要与AI技术融合,探索新的艺术形式和表达方式。

实际上,自生成式AI出现以来,该技术一直在大肆“入侵”影视制作的全流程,由人工智能产出的内容也越来越普遍。

去年由哈里森·福特主演的《夺宝奇兵》第五部中,就利用AI技术让观众看到40年前青年时的福特;Netflix网飞也在同年推出了由AIGC参与制作的动画短片《犬与少年》。

刘兴亮同时提到,随着AI生成内容与现实之间的界限变得越来越模糊,如何确保内容的真实性和透明性成了一个重要问题。此外,版权、隐私和数据安全等问题也需要得到妥善解决。社会必须面对这些挑战,通过制定相关政策、法律和伦理准则来确保技术的健康发展,同时保护个人和社会的利益不受侵害。

此外,OpenAI指出它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。该模型还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。

Sora生成的视频中可能会出现不符合物理原理的场景,比如这个人正在反向跑步。图片来源:OpenAI官网

以此次发布的DEMO“与中国龙一起庆祝农历新年的视频”为例,Sora无法准确生成视频画面中的中文受到了网友的关注。有相关人士对此调侃道:“莫非是中文太难了?”

有望缩短实现通用人工智能的时间

360集团创始人周鸿祎也表示,今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但速度不一定那么快。

“AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。很多人谈到Sora对影视工业的打击,我倒不觉得是这样,因为机器能生产一个好视频,但视频的主题、脚本和分镜头策划、台词的配合,都需要人的创意至少需要人给提示词。一个视频或者电影是由无数个60秒组成的。今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败TikTok,更可能成为TikTok的创作工具。”

周鸿祎认为,大语言模型的厉害之处在于,能完整地理解这个世界的知识。而此前所有的文生图、文生视频都是在2D平面上对图形元素进行操作,并没有适用物理定律。

“这次很多人从技术上、从产品体验上分析Sora,强调它能输出60秒视频,保持多镜头的一致性,模拟自然世界和物理规律,实际这些都比较表象。最重要的是Sora的技术思路完全不一样。Sora产生的视频里,它能像人一样理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现汽车撞毁坦克这样的情况。”

周鸿祎认为,这也代表未来的方向。有强劲的大模型做底子,基于对人类语言的理解,对人类知识和世界模型的了解,再叠加很多其他的技术,就可以创造各个领域的超级工具。

“比如生物医学蛋白质和基因研究,包括物理、化学、数学的学科研究上,大模型都会发挥作用。这次Sora对物理世界的模拟,至少将会对机器人自身智能和自动驾驶带来巨大的影响。原来的自动驾驶技术过度强调感知层面,而没有工作在认知层面。其实人在驾驶汽车的时候,很多判断是基于对这个世界的理解。比如对方的速度怎么样,能否发生碰撞,碰撞严重性如何,如果没有对世界的理解就很难做出一个真正的无人驾驶。”

周鸿祎预测,Sora的出现,或意味着AGI(通用人工智能)实现将从10年缩短到1年。

“OpenAI训练这个模型应该会阅读大量视频。一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube上和TikTok的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,而视频传递的信息量又远远超过一张图,这就离AGI真的就不远了,不是10年20年的问题,可能一两年很快就可以实现。”

多模态大模型将成为生成式AI的重点发展方向

随着生成式人工智能的市场潜力不断地被挖掘,大大小小的竞争对手开始浮出水面。

当前,参与该赛道的企业不乏亚马逊、微软、谷歌、百度、阿里等众多互联网巨头,也包括Runway等初创企业。

谷歌正在测试名为Lumiere的模型,Meta则有名为Emu的模型,还有人工智能初创企业Runway也在开发相应产品来帮助制作视频。

针对Sora视频的发布,Runway联合创始人兼首席执行官Cristóbal Valenzuela 回应道,“游戏已经开始”。Runway是一家AI视频公司,几个月前刚刚推出了AI视频模型的第2代更新,并且已可供所有人使用。

人工智能图像生成领域的另一家领导者Stability AI在去年11月推出了生成视频模型Stable Video Diffusion,但表示它“专门用于研究”,尚未准备好用于“现阶段的现实世界或商业应用”(有一个等待名单,但该公司尚未透露何时发布)。

Pika Labs是AI视频领域的新晋竞争者,它于去年11月推出了生成式AI视频工具Pika 1.0,并于去年12月底宣布“等待(名单)已结束”,并向所有人开放。

谷歌最近发布了下一代人工智能模型Gemini 1.5,并公布了Lumiere 模型的研究和演示片段,不过目前还不清楚谷歌计划何时公开该工具,该公司表示需要强大的工具来对抗偏见和恶意内容,确保其技术能够安全部署。

Meta拥有包括Facebook、Instagram和WhatsApp在内的稳定应用程序,并于2022年首次推出了一款名为Make-A-Video的视频生成工具,该工具生成的内容明显虚假、扭曲和模糊,但在当时仍然是一项重大成就。

Meta在去年年底推出了一种新的文本转视频模型Emu Video,并表示几乎所有使用它的人都将其在质量和对文本提示的忠实度方面评为高于“仅仅制作一个视频”(Make-A-Video),在谈到该工具何时发布时,Meta首席执行官马克扎克伯格表示,Emu将被整合到Facebook和Instagram中。

特斯拉CEO埃隆·马斯克的人工智能初创公司xAI希望能够与DeepMind和OpenAI等行业领导者竞争,但尚未宣布文本到视频生成器的计划,尽管这种功能可能会融入其人工智能聊天机器人Grok中。

此外,亚马逊已经透露了一款面向工人的生成式人工智能聊天机器人Q和人工智能图像生成器,尽管这家电子商务巨头尚未透露何时计划推出这些工具,也没有透露是否会推出更先进的视频生成器。

在国盛证券看来,AI文生视频是多模态应用的下一站。文生视频即根据给定的文字提示直接生成视频。随着文生视频技术的日趋成熟和广泛应用,或将为当下热门的短剧市场带来变数。该技术有望极大降低短剧制作的综合成本,为解决“重制作而轻创作”的共性问题提供解决方案,短剧制作的重心有望回归高质量剧本创作。

中信证券表示,多模态大模型算法的突破将带来自动驾驶、机器人等技术的革命性进步,持续看好本轮生成式AI浪潮对科技产业的长周期影响和改变,继续关注算力、算法、数据、应用等环节的领先厂商。

东吴证券判断,多模态是AI商业宏图的起点,有望真正为企业降本增效,且企业可将节省下来的成本用于提高产品、服务质量或者技术创新,推动生产力进一步提升;同时,也可能出现新的、空间更大的用户生成内容平台。

有行业人士指出,随着Sora的发布,OpenAI在行业的领先程度立即加大,会将大家紧追的距离再度拉开一大截。未来,解决了人物一致性问题之后,AI生成视频将大踏步前进,AI视频或进入大爆发期。

(综合来源:财联社、每日经济新闻、澎湃新闻)

编辑 薛锦瑜 审读 张蕾 二审 李怡天 三审 刘琨亚

免责声明
未经许可或明确书面授权,任何人不得复制、转载、摘编、修改、链接读特客户端内容
推荐阅读
读特热榜
IN视频
鹏友圈

首页