天博体育官方网站 智谱AI推出ZCube组网架构: 大模子推感性能与成本双突破, 重构智算基础措施

在大模子推理范围执续膨大、长高下文与智能体任务成为主流的行业配景下,网罗架构已成为制约AI算力着力的中枢瓶颈。
2026年5月21日,智谱AI 长入 驭驯网罗、清华大学 负责晓示,新一代 ZCube组网架构 已在 GLM‑5.1 coding 坐蓐环境完成范围化落地——在 不更换GPU、不改造软件栈与应用逻辑 的前提下,齐备:
🔼 推理蒙眬普及 15% 💰 网罗硬件成本削减 33% ⚡首Token时延贬低 40.6%
该时期着力最早于2025年9月在网罗范畴海外顶会 ACM SIGCOMM 2025 公竖立表,被评价为"显贵改变行业对大模子网罗架构的领路样式"。这次落地是ZCube架构初次从学术商议走向产业级部署,秀丽着智算基础措施负责进入 模子流量驱动、网罗拓扑深度协同 的全新发展阶段。

📌 一、行业痛点:传统网罗架组成为大模子推理的性能瓶颈
跟着大模子从对话交互向代码生成、长文本措置、智能体推广等复杂场景演进,KV Cache跨节点传输不合称、长高下文高频通讯、Prefill‑Decode区分部署 成为常态。传统以 ROFT(Rail‑Optimized Fat‑Tree)为代表的多层Clos架构,袭取 Spine‑Leaf 层级化堆叠联想,在万卡级集群中暴炫夸难以湮灭的结构性劣势。
❌传统ROFT架构三大中枢短板:
① 静态拓扑导致局部拥塞 固定链路分派易酿成热门,出现"总带宽充裕、局部平凡防碍"的矛盾表象,激发 PFC 反压与流量冲突,平直拉低全体推理着力。
② 硬件成本居高不下 多层交换机与光模块冗余树立,大幅普及数据中心成本开销,范围越大成本滥用越昭彰。
③ 扩展才气受限 层级化联想在超大范围集群中链路复杂度指数级飞腾,难以高效支执数万张GPU的线性扩展。
这些问题平直导致 GPU算力无法充分开释、推理时延波动大、硬件参加产出比偏低,成为制约大模子生意化落地的要津禁绝。
📌 二、ZCube架构中枢创新:扁平化拓扑从根源摒除拥塞
ZCube架构透顶糟塌传统Clos架构的层级化想维,以 全王人扁平化二部图互联 为中枢,重构大模子推理集群的网罗通讯体系,齐备 流量无防碍、硬件极简、扩展无上限 三大时期突破。
🧱 1. 中枢联想旨趣
🔸取消Spine层交换机 舍弃多层堆叠,袭取两组Leaf交换机平直构建扁平网罗,大幅减少转发层级与硬件数目。
🔸二部图最优旅途 确保轻易GPU之间存在 独享最短旅途,从拓扑结构上阻绝流量冲突,齐备全局负载平衡。
🔸双端口网卡混杂接入 结合单轨/多轨混杂接入机制,适配大模子推理的非对称流量特征,普及链路运用率。
🔸智能路由政策 基于模子通讯面貌动态鬈曲,保险长高下文、KV Cache同步等要津任务的低时延传输。
📊 2. ZCube vs 传统ROFT架构要津对比
对比维度传统ROFT架构ZCube架构中枢上风网罗拓扑Spine‑Leaf多层堆叠全王人扁平化二部图无层级转发,贬低时延流量鬈曲静态分派,易拥塞动态最优旅途,无冲突全局负载平衡,摒除热门硬件组成需多层交换机+光模块取消Spine层,硬件减半成本贬低33%扩展才气千卡级瓶颈昭彰支执数十万GPU线性扩展适配超大范围集群推感性能易受反压影响,蒙眬波动稳固高蒙眬,低时延蒙眬+15%,时延‑40.6%

📌 三、坐蓐环境实测数据:性能与成本双丰充
ZCube架构已在智谱 GLM‑5.1 coding 线上 千卡坐蓐集群 稳固启动超两周,天博体育官方网站系数目的均通过严苛业务考据:
🔼推理蒙眬 GPU平均推理蒙眬普及 15%,同等硬件条目下每秒可多反应15%的API苦求,显贵普及并发承载才气。
⚡反适时延 首Token时延(TTFT P99)贬低 40.6%,大幅减少用户恭候时期,岑岭时段做事稳固性显贵增强。
💰硬件成本 交换机与光模块成本开销减少 33%,硬件参加平直削减三分之一,大范围部署经济效益隆起。
🔄兼容性 GPU、软件栈、应用 全王人不变,无需代码修订即可平滑升级,保护现存算力钞票,贬低迁徙风险。
实测收尾发挥,ZCube架构通过 网罗拓扑与大模子通讯特征深度耦合,齐备了 不增硬件、不降性能、大幅降本 的产业级主义,为MaaS做事商提供了可复制的优化有盘算推算。
📌 四、工程落地突破:自动化部署保险闲逸升级
超大范围网罗架构修订濒临 布线复杂、路由政策重构、业务零中断 等多重挑战。驭驯网罗团队依托自主研发的 自动化抵制与校验器用链,完成三梗概津工程突破:
🔧自动化布线计较 快速生成最优物理攀附有盘算推算,镌汰部署周期,贬低东谈主工差错。
🔀路由政策一键切换 平滑替换原有网罗按次,业务无感知升级,幸免做事中断。
📡全链路及时监控 对流量、带宽、时延等目的执续校验,确保集群稳固启动。
这次落地考据了ZCube架构的 工程可行性与大范围兼容性,可快速推广至种种智算中心与大模子推理集群。
📌 五、行业价值:引颈智算基础措施新范式
ZCube架构的得手落地,不仅是智谱AI在AI基础措施范畴的首要突破,更对人人大模子产业产生潜入影响:
OD体育(ODSports)官网入口算力着力立异 通过网罗架构创新开释存量硬件潜能,同等算力产出普及15%,鼓舞AI算力从拼硬件向拼架构转型。
成本结构优化网罗硬件成本直降三分之一,大幅贬低大模子推理与MaaS做事的准初学槛,加快普惠AI落地。
时期道路引颈 发挥 网罗拓扑、通讯库、鬈曲政策深度协同 是下一代智算中心的中枢主义,为行业提供全新时期旅途。
海外竞争力普及 中国团队原创网罗架构当先齐备产业落地,在超大范围AI基础措施范畴达到海外跨越水平。
📌 六、追溯
ZCube架构以 扁平化无拥塞拓扑 为中枢,在 GLM‑5.1 coding 坐蓐环境中考据了 推理蒙眬+15%、硬件成本‑33%、首Token时延‑40.6% 的超卓性能,破解了传统网罗架构制约大模子着力的行业困难。
四肢首个从顶会商议走向范围化落地的大模子专用网罗架构,ZCube重新界说了智算基础措施的联想理念,鼓舞行业从 通用互联 迈向 模子流量驱动的系统协同。
往常,跟着ZCube在更多大模子场景与智算中心的普及,将执续普及AI算力着力、贬低产业成本天博体育官方网站,为大模子时期的深度生意化提供坚实底层支执。
