Sora横空出世,AI将创造一个什么样的世界
深圳特区报记者 闻坤 熊子恒 方慕冰
03-19 07:59

深圳特区报

深圳市委机关报,改革开放的窗口

戴着红色羊毛编织摩托车头盔的太空人。(Sora生成视频截图)

今年2月,一段短视频震惊世界。OpenAI发布的Sora模型,从一个文本生成接近电影级别质量、难以辨别真伪的视频,这是继ChatGPT发布以来人工智能发展又一重要里程碑。Sora的横空出世引来全球的广泛关注和深刻反响,人们对其表现出赞叹、猎奇、惊喜以及对未来可能带来变革的焦虑,同时,也迫使我们思考在AI时代来临的当下,国产大模型后发的追赶之路如何走?

Sora是什么?

在这段视频中,一位身穿黑色皮夹克、红色长裙的时尚女郎走在布满霓虹灯和标牌的东京街道上。她戴着太阳镜,涂着红色口红,走路自信又随意。镜头从大街景慢慢切入女郎的脸部特写,白色的斑马线及周围的街景在她戴着的太阳镜上形成镜面效果……

寥寥几句文字就能生成一段细节拉满、极其逼真、美出高级感的1分钟“大片”,Sora的强大功能震惊全球。

来自美国人工智能公司OpenAI于2月17日发布的文生视频大模型Sora,用户只需要输入简单的文字表述,即可生成画面流畅、细节丰富,且符合运动规律的短视频。目前官网上已经更新了数十个视频样片,在这些样片中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。

Sora取自日文的罗马音,是“天空”中的“空”,意指OpenAI希望Sora能突破宇宙,激起无限的创作可能性。

Sora的技术原理是什么?哈工大(深圳)计算机科学与技术学院教授汤步洲解释,Sora的核心是一个扩散变换器(Diffusion Transformer,简称DiT),这是一种深度学习模型,用预训练能够将随机噪声逐渐转化为有意义的图像或视频。

具体来说,由于类似ChatGPT语言大模型无法直接生成图片,通常会调用一个文生图模型比如Dall-E来实现图片生成功能。而上一代纯文生图模型对提示词理解能力很弱,比如,输入“创新之城”,模型很难生成准确的图片,而把大语言模型加入进去后,就能把“创新之城”转化为高科技、新兴产业、创新中心、通信网络、基础平台等文生图模型能懂的提示词,生成契合主题的图片。Sora再将不同分辨率、大小、深度等各异的图片压缩处理成“标准化”表示,以“空间时间小片”为基本单元,创造性地生成接近文本描述的“逼真”视频。

“视频数据处理是Sora的亮点和最大的创新之处。”从事开发的资深AI专家Jim介绍,Sora开发团队重新组合已有的技术,没有把视频生成局限在帧处理上,而是升维到如何模拟物理世界,在架构层次上探索如何去登顶。

Sora展示了准确解释和执行复杂人类指令的显著能力。Jim认为,与之前的视频生成模型相比,Sora的特点是能够更好地遵循与拓展用户文本指令的同时,生成长达1分钟的高质量视频,而其他主流工具生成的视频通常只有5秒钟左右。此外,Sora生成的视频在不同镜头之间保持动作和画面连贯性和一致性,具有更强的实用性和应用价值。

Sora带来什么?

Sora横空出世让科技界大佬和所有人工智能相关从业者都感到热血沸腾,热度直逼一年前的ChatGPT发布。特斯拉CEO马斯克甚至发出“gg humans”(干得好,我服了)的感叹。

科大讯飞董事长刘庆峰表示,Sora将对影视、广告、游戏、新闻、教育、VR/AR等诸多行业产生深远的影响,带来人机交互上更大的想象空间,具有广泛的应用前景。

有投资人判断称,预计5年之内,就会出现一个不到5人的小团队,用AI制作出票房超过5000万美元的电影。

Sora为人工智能应用场景提供了广阔的视角。教育工作者可以利用Sora将课程大纲转化为动态、引人入胜的视频教材;游戏行业,将Sora整合可以创造前所未有的沉浸式体验,吸引并吸引玩家;医疗领域,视频扩散模型特别适合识别身体内的动态异常,对早期疾病检测和干预策略也有很大帮助。此外,Sora还将对自动驾驶带来巨大的影响。

中国工程院院士、阿里云创始人王坚认为,Sora问世远不止会对短视频、影视等行业带来冲击,它解决了非常复杂的视觉问题,“如果能创造视频,它也就能创造世界。”

OpenAI并未单纯将Sora视为视频模型,而是作为“世界模拟器”。OpenAI官方指出,Sora是理解和模拟现实的基础。这意味着Sora不是在虚构世界,而是在真实规则基础上生成世界。

但业界似乎并不认同。刘庆峰表示,Sora所展现的模拟物理世界的特性仅是大模型在文生视频领域的一种涌现,其本身并没有掌握真实物理世界的知识,仍然不是一个足以模拟物理世界的模型。以Sora为代表的多模态模型需要更大量的音视频数据和更大规模算力的支持。

最近,OpenAI首席技术官穆拉蒂在接受《华尔街日报》采访中承认,Sora目前不会短期内向公众开放,因为它还不是一个成熟的产品,还有很多挑战和安全问题需要解决。

Sora创新模式有何特点?

ChatGPT和Sora的相继成功,探究OpenAI的创新管理模式和机制有着重要意义,值得我们借鉴。

作为全球领先人工智能机构,OpenAI以大模型为核心开创了AI领域的新一轮创新范式。人才方面,以高水平青年人才为主力军的团队模式,绝大部分成员拥有全球顶尖或知名高校学位,同时也会吸纳知名巨头公司的人才,通过创新思维、敏锐洞察力和快速迭代推动AI技术发展;重视合作,与微软之间建立了长期且紧密的伙伴关系,因此获得大规模算力资源和海量应用场景;通过资金+技术+战略支持的方式,寻求优质的AI初创公司,并为其提供资金、技术以及战略指导的支持,为嵌入未来海量应用场景打下坚实的基础。这种“OpenAI模式”使其快速发展成为世界一流的人工智能机构。

业界学界都认为,Sora核心DiT模型早在2022年就提出来,底层技术上,Sora并没有创新。

中国工程院院士、鹏城实验室主任高文认为,这不是一项突如其来的颠覆性的变革,而是正常的科技发展的必然结果。Sora模型跟产业界结合得比较好,所以看起来很亮眼。

作为业界资深专家的Jim这样回答:“Sora的问世离不开大量的算力去做实验,然而这项工作实验初期看不到有什么结果,它是一个探索性的研究工作。在这条路被验证可行之前,资本愿不愿意、敢不敢下注?所以这是我们需要思考的问题。”

专家认为,人工智能是最受资本关注的行业之一。今年Sora的推出提高了大家对AGI加速实现的预期,也让资本市场特别热。建议政府和社会资本未来进一步重视基础研发,特别在关键核心技术上舍得投入,允许科学家开展自由探索性工作,并给予长期稳定的支持,不能急功近利只想赚快钱、赚稳当钱。

我们如何创造自己的通用AI?

“我认为中美在人工智能赛道的差距其实并不大。”Jim说,特别在文本模型和基础模型,现在维持在一年左右时间的差距,但从长期来看,叠加自身的基础和优势,我们还有机会在几个领域赶超的。

Jim说,Sora发布一个月后,中国文生视频公司纷纷得到融资,积极打造更适合落地的创新应用,这将是中国科技公司的机会。

360集团创始人周鸿祎也表示,中国的AI发展是有优势的,一旦方向确定了,以国内公司的学习和模仿能力,很快就能追赶上去。目前的差距大概用一到两年时间是可以解决的。

目前,华为、腾讯、字节、阿里、百度、科大讯飞等大厂已推出或即将推出文生视频模型,智象未来、爱诗科技、生数科技、Morph Studio等AI创业企业该赛道上各自发力,推出的文生视频模型/产品各有千秋。

OpenAI选择了一条少有人走的路,但却走通了。正如人工智能专家焦李成所说,大模型既是一个基础模型,又是面向重大工程应用的通用平台,这既是考验,也是机遇,我们要从基础理论、关键技术、创新应用等方面突破,从而在国际上处于领先地位。

深圳实践

赋能千行百业 走进千家万户深圳含“AI”量持续上升

去年ChatGPT一鸣惊人,今年Sora火爆全网,人工智能热潮涌动。热浪之下,挑战毋庸置疑,机遇也前所未有,这条赛道的新一轮竞速日趋激烈。

深圳跻身全球人工智能第一阵营,如何在新的赛道上跑出加速度?深圳完整的产业链,让智能硬件与人工智能技术的深度融合,全时全域应用遍地开花,赋能千行百业,走进千家万户。此外,一系列政策措施也为人工智能产业的发展保驾护航。

形成人工智能全产业链条

在深圳,人工智能产业为何能在短时间内实现技术研发到产品落地?答案是深圳拥有完整的电子信息产业链,从芯片设计、零部件制造到整机装配,涵盖产业链上下游的所有环节。强大的生产能力和灵活的供应链体系,使得从设计到量产的周期大大缩短。

根据行业通用研究,人工智能产业链一般分为三个层级:基础层、技术层和应用层。深圳人工智能产业在发展上,聚焦智能硬件与人工智能技术的深度融合。目前,已经初步形成人工智能全产业链条。

上游基础层是人工智能产业的根基,为人工智能提供数据及算力支撑。技术层则是人工智能产业的核心。应用层方面,深圳在人工智能产业应用推广层面探索出丰富场景。据统计,我国约八成人工智能企业分布在应用层,在华为、腾讯等巨头公司的坚实支撑下,众多初创企业的活力注入,共同推动了智能终端、物联网等领域的快速发展。

从“千行百业”到“千家万户”

在深圳,人工智能已深入千行百业,应用场景遍地开花,从地铁站到图书馆,从公园到楼宇,无处不在的人工智能也进入千家万户,让城市变得更加高效、便捷和智能化。

2024年深圳市政府工作报告提到,深圳公布的城市AI+场景应用已达41个,今年还将新增人工智能全域全时场景应用10个。深圳的含“AI”量在持续稳步上升。

在社区,无人机外卖从天而降,配送时间缩短近七成……今年以来,无人机配送、空中的士、低空旅游等多场景人工智能应用在产业集聚下,逐步走进深圳市民的日常生活。

马路旁,基于5G智能技术的智慧路灯杆,集智能照明、视频采集、移动通信、交通管理、环境监测等功能于一体。每一根智慧杆收集各类信息数据,汇集到城市管理系统,贯通智慧城市“经脉”,让城市运行管理更高效,更精细。

加快人工智能布局和规划

人工智能产业繁荣发展背后,是深圳前瞻布局抢占战略制高点。

深圳先后出台《深圳市新一代人工智能发展行动规划(2019-2023)》《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023-2024年)》《深圳市建设人工智能创新应用先导区实施方案》《深圳经济特区人工智能产业促进条例》等各类产业政策,在产业规划、资金投入、税收优惠、制度创新等方面率先探索,为培育人工智能发展营造出良好环境。

深圳立法先行,营造人工智能产业发展最优生态,在产业规划方面推出了一系列有效举措。根据相关方案,深圳计划打造国家新一代人工智能创新发展试验区和国家人工智能创新应用先导区,努力创建人工智能先锋城市。构筑起“一条例、一方案、一清单、一基金群”的人工智能高质量发展和高水平应用的政策体系,加快推进人工智能全域全时应用。

专家观点

深圳理工大学计算机科学与控制工程学院院长、美国医学与生物工程院院士潘毅:

人工智能竞赛关键是人才

DiT论文的作者、人工智能技术大牛谢赛宁说,对于Sora这样的复杂系统,人才第一,数据第二,算力第三。近日,深圳特区报专访深圳理工大学计算机科学与控制工程学院院长、美国医学与生物工程院院士潘毅畅谈如何加强人工智能人才培养。他建议,将人工智能通识课程纳入义务教育,高等教育中人工智能课程比重要适当增加,为AI人才培育和学生的未来研究工作奠定良好的基础。

“我们计算机科学与控制工程学院培养人才的模式是‘人工智能+X(学科)’。”

今年全国两会,“人工智能+”首次被写入政府工作报告,就是让不断涌现的人工智能创新成果与实体经济深度融合,赋能千行百业。这对我们大学研究型人才的培养也提出一些新要求。

潘毅表示,目前,国内复合型人才比较薄弱,有一句话叫“隔行如隔山”,比如很多懂生物的人才对计算机不太懂,所以我们要从娃娃抓起,甚至从中小学开始就进行人工智能的基础教育,让未来的年轻人大部分都掌握人工智能的基本技术,以后在大学和读研阶段再“补课”人工智能就相对容易。要把千行百业的人都教会人工智能非常困难,但这些工作正在慢慢推进,只要我们高度重视、提前布局还是有可能做到的。

“在高等教育领域,我认为人工智能课程的比重要适当增加。”潘毅说,今后人工智能要像微积分、基础物理、基础数学一样成为基础课和必修课,深理工目前已经这样实施了,不管生物、化学还是材料专业,都必须修人工智能这门课,在大学中作为一门基础的课程。这些课程包括人工智能的基本原理和一些基本工具,还有简单的计算机语言和编程,让学生在未来的相关研究中或是需要深入掌握AI时能有一个良好的基础。

巨大的猛犸象在雪地上行走。(Sora生成视频截图)

相关新闻

华为联合推出文生图大模型可生成4K分辨率图像

近日,来自华为诺亚方舟实验室、大连理工大学、香港大学和香港科技大学的研究团队推出了一个能够直接生成4K分辨率图像的DiT模型——PixArt-Σ,与前一代模型相比,其图像的清晰度明显提高,并能够更好地贴合文本提示。

从PixArt-Σ项目官方主页公布的文生图案例看,通过文字描述,即可以根据使用者的意图生成色彩艳丽、细节丰富、清晰度度极高的图片。

基于强大的图像生成能力,PixArt-Σ未来的应用场景可期,其可用于支持高分辨率海报和壁纸的制作,从而有效促进电影和游戏等行业高质量视觉内容的产出。

编辑 刘彦 审读 韩绍俊 二审 党毅浩 三审 甘霖

(作者:深圳特区报记者 闻坤 熊子恒 方慕冰)
免责声明
未经许可或明确书面授权,任何人不得复制、转载、摘编、修改、链接读特客户端内容
推荐阅读
读特热榜
IN视频
鹏友圈

首页