12月4日,2025光明科学城论坛主论坛现场,光明实验室主任田奇带来题为《世界模型——初步的探索和思考》的主题报告,系统阐述人工智能从多模态大模型迈向世界模型的发展路径,分享了在基础模型研发、复杂场景交互等领域的前沿探索成果。

田奇指出,当前人工智能正从自然语言、单模态走向多模态融合,而世界模型作为AI的下一代发展方向,已成为行业前沿探索焦点。OpenAI发布的视频生成模型Sora、 Meta的V-JEPA2、谷歌DeepMind的Genie 3等,均被视为世界模拟器的重要实践,但目前仍处于早期探索阶段,业界对其技术路径尚未形成统一认知。“结合终端产业需求,我们认为世界模型必须实现与物理世界的有效交互,完成从简单感知到复杂交互的跨越。”田奇表示。

在基础模型研发方面,田奇团队取得多项突破。基于昇腾芯片从零训练的0.56B端侧语言模型,通过筛选15T高质量tokens,性能全面超越同规模主流模型;自研多模态视觉编码器,在零样本分类、零样本长文本检索等任务中达到业界第一梯队水平,仅用1/10的SFT数据,性能便比肩甚至超越1.7B规模的千问3模型。其创新提出的EMMA架构,实现多模态理解与生成的统一,4B参数版本性能超过字节跳动7B模型,在图像编辑、视频处理等场景中表现突出。
复杂场景交互是世界模型构建的核心环节。田奇团队将长视频理解视为多媒体理解的重要方向,通过三模态协同理解大模型提升长视频语义理解的质量, 通过三模态复杂推理大模型,利用智能信息整合,有效地减少搜索代价,最终推进了精度和速度的平衡;在3D技术领域,首创UniLat3D预训练模型,单张图片输入、单卡3秒内即可生成高质量3D资产(加速版本可实现单卡1秒以内),研发的WorldGrow能生成可无限扩展的3D仿真环境。“长视频理解与无限生成场景的融合,将是我们构建世界模型逻辑闭环的关键一步。”田奇说道。
编辑 张克 审读 伊诺 二审 许家宜 三审 刘思敏













