AI Inference時代的新記憶體需求
摘要
2026年1月NVIDIA發表由BlueField-4 DPU管理的CMX情境記憶儲存平台(CMX Context Memory Storage Platform),擴展Local SSD、Share Storage之間的記憶體階層,以因應在AI Inference時代龐大的KV Cache儲存需求。此外,NVIDIA、Arm接連推出CPU機櫃以因應Agentic AI的CPU需求,也創造CPU RAM的增量市場。
本篇報告主要深度解析:(1) AI Inference的記憶體需求;(2) KV Cache Offloading帶動的SSD POD需求;(3) Agentic AI帶動的CPU RAM需求。期能解析AI Inference時代記憶體容量需求膨脹原因、現有解決方案與未來新記憶體需求結構。
一. AI Inference的記憶體需求
二. KV Cache Offloading帶動的SSD POD需求
三. Agentic AI帶動的CPU記憶體需求
四. 拓墣觀點
圖一 2023~2026年AI Models Average Output Tokens per Question
圖二 KV Cache應用範例
圖三 Agentic AI應用的CPU:GPU比例變化
圖四 NVIDIA Dynamo KV Cache Offloading順序(G1~G4)
圖五 NVIDIA Vera CPU架構
圖六 2026年NVIDIA CPU需求量情境分析結果
表一 2023~2026年各廠商CPU記憶體規格
表二 2026年NVIDIA CPU出貨量情境分析假設
表三 AI Inference帶動的記憶體需求動能彙整
