极克雷达|阿里重磅“双更”:通义Qwen3全线进化,Coder力压GPT-4.1

读特新闻记者 张克
07-23 16:00

读特客户端

读特在线,您的新闻观察眼

摘要

据官方介绍,此次更新版本在通用能力上实现显著跃升,尤其是在指令遵循、逻辑推理、文本理解、数学计算、编程能力以及多工具协同等方面均表现优异

阿里巴巴再度加码大模型战场,7月22日,通义团队正式发布了Qwen3系列的全新升级版本。

据IT之家报道,阿里云表示,在经过与社区沟通和深思熟虑后,决定停止使用混合思考模式,转为分别训练Instruct和Thinking模型,以获得最佳质量。

据介绍,此次更新版本在通用能力上实现显著跃升,尤其是在指令遵循、逻辑推理、文本理解、数学计算、编程能力以及多工具协同等方面均表现优异。模型在GPQA(知识问答)、AIME25(数学竞赛)、LiveCodeBench(编程实测)、Arena-Hard(人类偏好对齐)和 BFCL(Agent能力)等多个国际主流测评中均取得领先成绩,全面超越开源阵营中的 Kimi-K2、DeepSeek-V3,也在多个指标上超过了闭源模型代表Claude-Opus4-Non-thinking。

图源:IT之家

这一版本还在多个关键维度实现了显著提升:在多语言的长尾知识覆盖方面取得实质性突破,不仅提升了对小语种和边缘领域知识的理解与生成能力;同时,在主观表达与开放式任务中展现出更高程度的人类偏好对齐能力,能更准确地把握用户意图;另外,长文本提升至256K tokens上下文理解能力进一步增强

此外,通义团队还推出了Qwen3-Coder,这是一种用于软件开发的开源人工智能模型,阿里称其为迄今为止最先进的编码工具。据央广网报道,Qwen3-Coder编程能力登顶全球开源模型阵营,并超越GPT4.1等闭源模型,比肩全球最强的编程模型Claude4。借助Qwen3-Coder,刚入行的程序员一天就能完成资深程序员一周的工作,生成一个品牌官网最快只需5分钟。

图源:央广网

这场 AI 编程模型的较量,其实早已硝烟弥漫。自OpenAI推出Codex、GitHub Copilot登场以来,AI+编程的叙事就从“玩具”进入了“生产力”级别。微软坐拥Copilot,全家桶绑定;谷歌有Gemini Code Assist;Meta则发力Code Llama系列,强调开源;连亚马逊也不甘落后,推出CodeWhisperer。这不是在卷体验,而是在抢“程序员入口”。

为什么程序员重要?因为程序员是最容易被AI改写工作方式的“第一人群”,一旦完成训练、习惯养成,换家模型就很难。这正如十年前谷歌和百度争夺搜索栏那样,本质是“谁先让用户习惯用你”。

据了解,Qwen3-Coder已在魔搭社区、HuggingFace等平台开源,全球开发者都可以免费下载使用。

编辑 孔盼成 审读 伊诺 二审 李怡天 三审 郑蔚珩

(作者:读特新闻记者 张克)
免责声明
未经许可或明确书面授权,任何人不得复制、转载、摘编、修改、链接读特客户端内容
推荐阅读

读特热榜

IN视频

鹏友圈

首页