中文版Sora会由谁率先发布?深圳一实验室已着手复现Sora
读特新闻记者 李旖露 邱思艳 文/图
03-12 20:23
该文章被2个专题收录

“从技术能力上来说,不比Sora弱,在某些领域的落地应用上要超过Sora!”这是北大信息工程学院助理教授、博导袁粒和兔展智能创始人、CEO董少灵为Sora复现计划“Open-Sora开源计划”定下的目标。3月12日,读特新闻记者在采访中了解到,相比目前的Sora大模型,Open-Sora的底层模型将更高效能、低功耗。目前,这一模型框架的有效性已完成初步验证。

北大信息工程学院助理教授、博导袁粒接受读特新闻记者采访。

复现Sora,但在应用上能超越Sora

2024年伊始,Sora横空出世,轰动全球。这款由OpenAI发布的文本生成视频模型,仅需简短的提示文本,即可生成长达60秒高清视频。

尽管Sora的潜力巨大,但目前OpenAI尚未开源,业界和学界着手复现Sora,以探究Sora的核心技术原理、实现方法。北京大学深圳研究生院-兔展智能AIGC联合实验室是其中之一。在Sora发布后,这一联合实验室就发起了Sora复现计划,即Open-Sora开源计划。由于当前资源有限,团队仅搭建了基础架构,无法进行完整训练,希望通过开源社区逐步增加模块,并筹集资源进行训练。

据介绍,Open-Sora的框架由压缩视频到时间和空间维度的潜在表示的组件Video VQ-VAE、去噪扩散变换器Denoising Diffusion Transformer和条件编码器组成。团队研发出了加速的方案,使得模型在实际使用中更高效能、更低功耗,用更少的算力实现更多的功能,这也是这一底层模型对比Sora最大的区别和优势。

袁粒告诉读特新闻记者,Open-Sora计划第一阶段的目标“初步验证当前框架的有效性”已完成;第二阶段的目标是在有效框架的基础上训练更多数据和更大算力,训练出生成20秒以上、720P清晰度的大模型。“计划发布以后,在开源社区反响很大,根据目前进度,4月底前就能完成第二阶段目标。”袁粒说。

据介绍,这一计划的第三阶段目标是拓展生成的泛化性和场景的多样性等,更加逼近Sora的时长和效果。“从技术能力上来说,我们不比Sora弱,在某些领域的落地应用上要超过Sora。”董少灵说。

兔展智能创始人、CEO董少灵接受读特新闻记者采访。

“视觉大模型的应用价值远不止短视频”

2023年9月,兔展智能对外发布以图像视觉为核心的多模态大模型“兔灵”,相较于ChatGPT、Claude等更多以语言为核心的多模态产品,兔灵大模型是一个视觉占七成、语言占三成的全新混合体。董少灵透露,兔展视觉大模型的底层的技术路线和框架跟Sora是相似的,Open-Sora开源计划发布前,公司已在技术上积淀了一年半左右的时间。

在董少灵看来,Sora背后的价值是证明了视觉大模型这条路走通了,而且其应用价值远远不止短视频。比起复现Sora的技术路线,董少灵表示更希望推动这一架构落地更多的应用场景,来更好地对接市场上的供需方。

去年11月,基于“兔灵”大模型,兔展智能推出一款名为“智图”的AI产品。“智图”利用自研的多模态大模型与图像控制算法,精准生图,大幅提高AI的可交互性以及出图可用度,服务于平面设计,室内设计,建筑设计等众多垂直领域。

董少灵举例:“以往室内设计需要经过手绘、概念说明与排版、建模与渲染、物料设计等多个环节,方案每页约花费3000元。而通过AI生成效果图和设计说明、匹配相应物料,方案每页花费可压缩至100元,费用降低了97%。”通过“兔灵”赋能,兔展为合作伙伴带来了1.23亿元的经济价值。

知名投资人朱啸虎近日在接受媒体采访时也提出,中国在生成式人工智能的机会在于应用层。“中国底层模型不够强大,但是在上面加的东西可以比较多,在应用层有很多的创新,中国在数据和应用场景上是远远超过美国的。”他认为,中国的AIGC应用已经大爆发了。

谁能率先发布中文版的Sora?

在Sora发布之后,谁能率先发布中文版的Sora也成为了大众的关注点。

呼声最大的是字节跳动。在今年2月,抖音集团原CEO张楠宣布辞职,转而负责剪映,就引发了外界的猜测。一款名为“Boximator”的视频生成模型旋即浮出水面。它可以通过文本控制生成视频中人物或物体的动作。不过,字节跳动相关人士很快就回应称:“Boximator是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。”并且,这一模型至少还需两到三个月才能上线demo。

在业内人士看来,制约“中文版Sora”的是算力。

“没有足够的算力,即便有了Sora的技术路线也难以复制其成功,因为算力就像是燃料,没有足够的燃料,再先进的火箭也无法升空。”中国信息协会常务理事、国研新经济研究院创始院长朱克力日前在接受媒体采访时如是说。

对于这一问题,袁粒坦言,Open-Sora开源目标制定了第三阶段的计划,但因为算力缺口极大,对数据要求极高,需要更大的投入和支持,这一目标是本项目的拓展目标。从研究层面来说,未来一方面是开发更高效、更低功率的底层模型,另一方面则是提升模型的兼容性,使其能兼容更多的算力,实现真正的开源和开放。

视频:王茜垚 邱思艳

编辑 张克 审读 伊诺 二审 张玉洁 三审 詹婉容

(作者:读特新闻记者 李旖露 邱思艳 文/图)
免责声明
未经许可或明确书面授权,任何人不得复制、转载、摘编、修改、链接读特客户端内容
推荐阅读
读特热榜
IN视频
鹏友圈

首页