Sora将把AI带向何方？看看AI研究者们怎么说

随着Sora横空出世，生成式AI再次成为热议话题。尽管AI技术已发展到令人惊叹的地步，但在AI研究者们眼中，一切还只是开始。AI大模型还有哪些需要优化的地方？国内的企业和高校该如何追赶OpenAI的脚步？AI技术的应用潜力在哪些领域？

4月12日，“探Sora真相，论AI未来”人工智能沙龙在中国科学院深圳先进技术研究院举办，来自香港中文大学、腾讯科技有限公司，以及深圳先进院的研究者们，共同探讨了“后Sora时代”的AI技术发展。中国科学院院士、深圳先进院副院长郑海荣在致辞中表示，人工智能正深深影响材料、生命、信息、医学等领域发展，我们应以极高的敏感度去思考如何利用人工智能带动各领域变革。

给AI生成的图片打分

尽管AI生成的图片已经可以达到出神入化的程度，但在细节之处难免露出破绽，例如出现6根手指、3条小腿等令人啼笑皆非的画面。如何优化AI大模型，让其更符合常理和人类的审美？香港中文大学副教授李鸿升介绍了团队开发的一款评估模型，堪比AI图片“判官”。

“简单来说，就是让用户输入文字指令，AI生成4张图后，让用户选择其中的最优结果，再根据用户的选择不断迭代。”李鸿升在报告中分享说，这些人工标注后的数据能够反映人类对生成图像的倾向性，团队利用这些数据开发出了AI图像的评估模型，对AI模型生成的图像效果进行打分。

香港中文大学副教授李鸿升在报告中对比AI模型生成效果。

“例如，给定4个AI模型同样一句指令：生成一只中世纪的狮子领主。从评估模型最后的打分来看，无论是狮子的形象还是领地的背景，评估模型基本能够做到按照人类的审美，对生成效果进行打分排序。”李鸿升举例道。他表示，有了评估模型后，后续可以根据该模型进一步提升AI模型文生图的质量。

国内高校和企业应该如何在AI技术浪潮中突围？在李鸿升看来，高校研究团队适合针对一些突破性方向进行探索，而企业团队则可以集中大量资源进行规模化的模型开发和训练。

AI的应用价值在人类做不到的领域

来自腾讯AI Lab的高级研究员王鑫涛分享了他对Sora的思考。在他看来，Sora横空出世前，视频生成技术还停留在2秒内视频片段的水平，而Sora将视频生成技术从质量到时长都提升了一个维度，提出了“世界模拟器”的概念。

追赶Sora需要面对的核心挑战是什么？王鑫涛认为，最值得研究的问题是Sora如何做到在长视频和长镜头中，学习到物理规律，确保物理的一致性。“过去AI生成的视频大多是单一镜头，而Sora却能在复杂的长视频中做到镜头切换，同时保持了很强的三维、时序、物理一致性。”据王鑫涛介绍，其所在团队正在进行一项名为Mini-Sora的研究项目，目的就是为了攻克一致性问题。

研究者们在圆桌论坛环节讨论AI技术未来的应用。

对于AI技术的应用前景，在最后的圆桌论坛环节，研究者们也进行了畅想。香港中文大学助理教授薛天帆认为，Sora的出现对未来制造业的帮助有巨大潜力。“例如，手机制造商需要做很多产品模型，对手机的实际表现进行测试。如果Sora能够精准地模拟物理世界，将大大降低工业生产的成本。”华为技术有限公司高级工程师蔡颖婕则探讨了生成式AI对自动驾驶技术发展的启示。

Sora的出现同时也给人们制造了失业焦虑。在深圳先进院研究员董超看来，市场对技术应用的想象力往往比科学家更大，但科研人员该思考的是如何引导技术应用。“导致某个行业全员失业，不是科研人员想看到的结果。我们更希望AI技术应用在过去人类做不到，但又很有必要的领域，比如深海和深空的探索，去挖掘更多资源，这可能是AI技术更大的价值所在。”

编辑孔盼成审读伊诺二审关越三审刘琨亚