跨越AI記憶體牆:儲存階層的重新分配與HBF剖析
摘要
在AI推理應用中,MoE架構和長文本處理使模型權重與KV Cache對記憶體容量需求大幅提升,讓運算瓶頸從算力不足,轉向記憶體容量受限。隨著海量溫數據快速增加,將驅動儲存階層重構,由HBM處理熱數據,HBF承載溫數據以優化成本效益;然HBF的商業化仍需克服先進封裝製程與NAND Flash固有特性的挑戰。
一. LLM的發展瓶頸:模型架構的轉變影響運算架構
二. 從算力瓶頸到儲存階層的重塑
三. 拓墣觀點
圖一 MoE特性說明
圖二 AI儲存階層廠商布局策略說明
圖三 儲存階層的熱、溫、冷架構說明
圖四 「H3」架構說明
表一 HBM與HBF規格對照
