辉达九月推出的 VR200 CPX 架构的扩充卡,正面迎战 ASIC 竞争对手,将性价比大幅提升,还提供客制化机柜组装,加深其云端伺服器护城河。
九月中旬,辉达发表新一代VR200 NVL144 CPX机柜,在印刷电路板(PCB)设计、材料与散热方案全面升级,推动AI伺服器供应链迈入新一波成长循环。Rubin系列中,目前已公开发布的有两种产品:VR200、VR300(Ultra),外加一个CPX扩充卡作为支援,新一代VR200沿用「十八个compute trays+九个switch trays」的基本架构,运算托盘(compute trays)整合了伺服器核心元件,如CPU/GPU、记忆体、网路模组、散热装置等模组化单元,就像AI伺服器的「心臟底座」,负责全部的运算能力。
AI推理的过程中,有预填充(prefill)和解码(decode)两个阶段,在Prefill阶段特别吃计算能力,但对记忆体频宽的需求很低,而到了Decode,模型要基于第一个token不断生成后续内容,此阶段对算力需求相对较低,反而得靠高记忆体频宽快速调取之前的快取资料。过去的问题是,都用同一种GPU(例如辉达的VR200)来跑这两个阶段,在预填充阶段搭配昂贵的HBM记忆体,根本用不上,而在解码时,又出现算力相对过剩、记忆体频宽不足,效率差也浪费钱,因此非辉达阵营进而发展出自己的ASIC规格,以节省成本。
Rubin CPX扩充卡
辉达于是推出Rubin CPX扩充卡,专门为预填充阶段,量身定做的加速器,目标是:成本降低。单卡性能上和VR200相比,HBM换成了GDDR7,不仅视讯记忆体的容量、频宽都显着降低,性能下降不少,但CPX的原物料成本约为VR200的四分之一,且可提供约VR200六○%的算力。此外,HBM的价格非常贵,占GPU中的成本比例越来越高,从A100的三五%涨到GB300的五一%,CPX用的GDDR7,成本可以省下八○%。同样跑一个预填充任务,VR200每小时需支出○.九美元的总拥有成本,而Rubin CPX只浪费○.一六美元。
可以说,辉达此布局明确对准其他ASIC厂而来。晶片有性价比还不够,这次Rubin系列的机架设计都一同升级,解决了前两代(GB200/GB300)的几大痛点。第一,无电缆设计,GB200机架用的是电缆+PCB的连接方式,电线又多又乱,组装时容易坏,还占空间,这次Rubin系列改用美商安飞诺(Amphenol)的板对板连接器,并配合中间的PCB中板,所有讯号都走电路板,没有一条电线。
第二,全液冷方案,前两代机架是八五%液冷、十五%气冷,这次改成百分百全液冷,把CPX与CX-9网路卡的PCB迭板设计迭放在一起,中间夹一个共享的液冷板,两边的热量都能快速导走。在CPX的运算托盘内部,冷却板(Cold Plate)数量由两片增至五片,快接头数量也从六颗提升至十二颗,初步估算,VR200 NVL144 CPX平台之液冷散热零组件产值,较GB300 NVL72约有「倍增」的增幅。
欣兴、定颖供应HDI板
第三,客制化布建,若已採购先前的VR200 NVL144机架,不想全数更换怎么办?辉达这次给了Rubin CPX双机架方案,单独加一个里面全是Rubin CPX的机架,通过InfiniBand(高效能互连)或乙太网路连接,客户可以自行调整预填充和解码的比例。综上所述,辉达CPX架构明确对准AMD、Google、AWS等竞争对手,AMD和Google都需要赶紧开发出新的预填充专用晶片,不然成本太高。(全文未完)
全文及图表请见《先探投资周刊2378期精彩当期内文转载》
发表意见
中时新闻网对留言系统使用者发布的文字、图片或檔案保有片面修改或移除的权利。当使用者使用本网站留言服务时,表示已详细阅读并完全了解,且同意配合下述规定:
违反上述规定者,中时新闻网有权删除留言,或者直接封锁帐号!请使用者在发言前,务必先阅读留言板规则,谢谢配合。