日均Token消耗1年半增长超300倍华为云Tokens服务全面接入384超节点以“大杂烩”优势打造先进算力

摘要

深圳商报•读创客户端记者陈姝

2025年8月27日，在第四届828 B2B企业节开幕式上，华为云宣布其Tokens服务全面接入CloudMatrix384超节点，通过xDeepServe架构创新，单芯片最高可实现2400TPS、50msTPOT的超高吞吐、低时延的性能，超过业界水平。

过去18个月，中国AI算力需求呈现指数级增长。数据显示，2024年初中国日均Token的消耗量为1000亿，截至今年6月底，日均Token消耗量已突破30万亿，1年半的时间增长了300多倍，反映了我国人工智能应用规模快速增长，也对算力基础设施的需求提出了更大的挑战。

在以往按卡时计费的基础上，今年3月，华为云正式推出了基于MaaS的Tokens服务。针对不同应用、不同场景的性能和时延要求，还提供了在线版、进线版、离线版乃至尊享版等多种服务规格，为大模型、Agent智能体等AI工具提供了更为灵活、便捷、低成本的先进算力。

这一次，华为云的Tokens服务正式接入CloudMatrix384，并通过384原生的xDeepServe框架再次实现了吞吐量的突破，从年初的1920TPS提升至2400TPS，TPOT仅为50ms。

大算力的构建不是单点突破，而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创新，充分依托了华为的“大杂烩”能力。

目前，华为云MaaS服务已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平台。

华为云积累了大量模型性能优化、效果调优的技术和能力，从而实现“源于开源，高于开源”，让更多大模型可以在昇腾云上跑得更快更好。以文生图大模型来说，在轻微损失画质的情况下，通过Int8量化、旋转位置编码融合算子等方式，在在华为云MaaS平台实现了2倍于业界主流平台的出图速度，最大尺寸支持2K×2K。而在文生视频大模型上，不仅通过量化方式来提速，还通过通算并行等方式，降低延迟与显存占用，大幅提升视频生成速度，相较于友商实现了3.5倍的性能提升。华为云Tokens服务在性能、模型适配、效果调优方面的基础，也让更多企业能够快速开发和构建AI Agent。

而在应用层，华为云已与超过100家伙伴携手深入行业场景，共建丰富的Agent，在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题，让企业更便捷地拥抱AI创新，加速智能化。