上个月,谷歌“纳米香蕉模型”火爆出圈。(此前报道:极克雷达|“手办化”照片刷屏!谷歌“纳米香蕉模型”火爆出圈)
今天,在图像生成式AI模型领域,微软终于交出了一份不依赖他人的答卷:MAI-Image-1。它将与OpenAI的gpt-image-1及谷歌的Gemini/Imagen在市场上展开正面交锋。
由MAI-Image-1生成的一些图像。图片来源:微软
过去几年,微软的AI产品线几乎与OpenAI同步——Copilot、Bing Image Creator均以DALL·E或GPT为底座构建。MAI-Image-1的出现,是微软第一次在视觉模型上走出“协同研发”的轨道。
由MAI-Image-1生成的一些图像。图片来源:微软
根据微软官方博客介绍,这款新模型以其创造的自然光影和逼真风景而著称,而且它能够更快地处理请求并生成图像。据其开发团队介绍,该模型的训练初衷是为创作者提供切实的价值,并着力避免生成内容重复或风格单一的图像。
由MAI-Image-1生成的一些图像。图片来源:微软
为此,团队不仅在数据选择上进行了严格的筛选,还建立了一套精细化的评估体系。该体系重点关注那些能够高度模拟真实世界创作流程的应用场景,并在此过程中充分采纳了来自创意行业专业人士的反馈意见。
目前,MAI-Image-1已在人工智能基准测试网站LMArena中跻身前十,用户已经可以在该网站上试用,微软也已宣布将很快把这项技术带给Copilot和Bing Image Creator的用户。
此前,微软还在Copilot中推出了Agent Store——一个内置在Microsoft 365 Copilot体验中的智能代理商店。通过这个平台,用户可以浏览、安装、试用由微软、合作伙伴或组织内部发布的智能代理,直接在Copilot中扩展能力。如Word、Excel等应用深度集成,让代理能够在具体业务上下文中执行流程、读取数据、调用服务。
在未来,视觉模型与代理平台可能协同构建一条从“构思→生成→编辑→执行”的闭环路径。利用MAI-Image-1生成视觉资产,代理在Office、Copilot工作区自动布局、替换、格式化,从而将工作自动化。
在生成式AI竞争的下半场,巨头的竞争不再只是模型比拼,而是体系竞争。微软显然意识到——要让AI成为真正的生产力,不仅需要算法突破,更需要一套贯穿从创造到执行的生态结构。
编辑 黄力雯 审读 张蕾 二审 许家宜 三审 刘思敏