该报告指出,AI应用正从训练阶段转向推论阶段,这一转变彻底改变了记忆体的使用结构。AI伺服器通常採三层记忆体架构:一是HBM(高频宽记忆体):直接整合于GPU封装内,负责即时高速资料交换;二是DRAM(系统记忆体):容量较大,承担模型载入、暂存及快取延展。三是NAND Flash(SSD储存层):负责模型权重载入、KV快取溢出及RAG(检索式生成)查询。该报告指出,AI推论需要持续载入模型参数、生成KV快取并进行检索操作,造成对高频宽与大容量记忆体的双重压力。

以GPT-5为例,估算该模型拥有4.5兆参数(trillion parameters),採用 Mixture-of-Experts(MoE)架构。每次推论仅有部分专家模型被启用,平均每个模型复本需约1TB HBM。若以全球用户同时生成每秒2,400万tokens计算,总高频宽记忆体需求约26.8PB,其中模型权重占约24PB,KV快取占约2.8PB。此外,为支撑推论过程中的快取重用与上下文再取(Context Reuse),需搭配9.1EB DRAM 储存中继资料;同时,RAG资料库与多重备援结构,使NAND需求高达200EB。另据TrendForce资料,2025年全球DRAM总供给为36.5EB、NAND为925EB。

惟研调报告指出,仅GPT-5一款模型即新增约全球DRAM供给的25%、NAND供给的22%。若2026年Token生成量再倍增,其对应需求将分别提升至43%与39%,意味AI推论流量,已足以吞噬全球记忆体新增产能。TrendForce亦预测,2026年DRAM与NAND供给仅将年增17%与12%;惟LLM推论所带动的记忆体需求可能年增逾100%,导致市场出现明显供需落差。AI推论的即时性、连续性与超高频存取特性,使HBM、DRAM、NAND成为AI时代的基础战略资源。

随着主要记忆体厂仍维持保守扩产策略,全球供给缺口恐于2026年进一步扩大,记忆体价格上涨趋势可望延续数年。

#生成 #NAND #DRAM #模型 #推论