极克雷达｜阿里重磅“双更”：通义Qwen3全线进化，Coder力压GPT-4.1

读特客户端

读特在线，您的新闻观察眼

摘要

据官方介绍，此次更新版本在通用能力上实现显著跃升，尤其是在指令遵循、逻辑推理、文本理解、数学计算、编程能力以及多工具协同等方面均表现优异

阿里巴巴再度加码大模型战场，7月22日，通义团队正式发布了Qwen3系列的全新升级版本。

据IT之家报道，阿里云表示，在经过与社区沟通和深思熟虑后，决定停止使用混合思考模式，转为分别训练Instruct和Thinking模型，以获得最佳质量。

据介绍，此次更新版本在通用能力上实现显著跃升，尤其是在指令遵循、逻辑推理、文本理解、数学计算、编程能力以及多工具协同等方面均表现优异。模型在GPQA（知识问答）、AIME25（数学竞赛）、LiveCodeBench（编程实测）、Arena-Hard（人类偏好对齐）和 BFCL（Agent能力）等多个国际主流测评中均取得领先成绩，全面超越开源阵营中的 Kimi-K2、DeepSeek-V3，也在多个指标上超过了闭源模型代表Claude-Opus4-Non-thinking。

图源：IT之家

这一版本还在多个关键维度实现了显著提升：在多语言的长尾知识覆盖方面取得实质性突破，不仅提升了对小语种和边缘领域知识的理解与生成能力；同时，在主观表达与开放式任务中展现出更高程度的人类偏好对齐能力，能更准确地把握用户意图；另外，长文本提升至256K tokens，上下文理解能力进一步增强。

此外，通义团队还推出了Qwen3-Coder，这是一种用于软件开发的开源人工智能模型，阿里称其为迄今为止最先进的编码工具。据央广网报道，Qwen3-Coder编程能力登顶全球开源模型阵营，并超越GPT4.1等闭源模型，比肩全球最强的编程模型Claude4。借助Qwen3-Coder，刚入行的程序员一天就能完成资深程序员一周的工作，生成一个品牌官网最快只需5分钟。

正在上传...

图源：央广网

这场 AI 编程模型的较量，其实早已硝烟弥漫。自OpenAI推出Codex、GitHub Copilot登场以来，AI+编程的叙事就从“玩具”进入了“生产力”级别。微软坐拥Copilot，全家桶绑定；谷歌有Gemini Code Assist；Meta则发力Code Llama系列，强调开源；连亚马逊也不甘落后，推出CodeWhisperer。这不是在卷体验，而是在抢“程序员入口”。

为什么程序员重要？因为程序员是最容易被AI改写工作方式的“第一人群”，一旦完成训练、习惯养成，换家模型就很难。这正如十年前谷歌和百度争夺搜索栏那样，本质是“谁先让用户习惯用你”。

据了解，Qwen3-Coder已在魔搭社区、HuggingFace等平台开源，全球开发者都可以免费下载使用。

编辑孔盼成审读伊诺二审李怡天三审郑蔚珩