AMD 256GB AI 芯片對標 Nvidia,新品將推出

在週四於舊金山舉辦的“推進人工智能”活動中,AMD 推出了下一代 MI325X AI 加速器,把其 Instinct 加速器的 VRAM 提升到了 256GB 的 HBM3e……

該部件以 AMD 去年年底宣佈的 MI300 加速器爲基礎,不過把其 192GB 的 HBM3 模塊換成了 256GB 速度更快、容量更高的 HBM3e。

對於許多人工智能工作負載來說,內存速度越快、容量越大,性能就會越好。

然而,眼尖的您或許會撓頭疑惑:這款芯片不是應該配備更多的內存嗎?

四個月後,AMD 顯然改變了主意,而是堅持採用八個 32GB 的 HBM3e 堆棧。

“我們在臺北電腦展上實際上說的是高達 288GB,這是我們當時的想法。”他說道。

“這就是針對該產品我們所追求的優化設計要點,”AMD 數據中心 GPU 部門的副總裁安德魯·迪克曼(Andrew Dieckmann)重申。

雖然可能沒有達到最初所期望的那樣高的內存密度,但與舊款 MI300X 的 5.3 TB/s 相比,該加速器的內存帶寬仍有 6 TB/s 的不錯提升。

在更高的容量和內存帶寬(每個節點 2 TB 和 48 TB/s )的情況下,這應當有助於加速器支持更大的模型,同時保持可接受的生成速率。

奇怪的是,所有這些額外的內存都伴隨着功耗的大幅增長,增加了 250 瓦,達到了 1000 瓦。

這使得它在熱設計功耗(TDP)方面與英偉達即將推出的 B200 處於相同水平。

不幸的是,儘管有這麼多額外的功率,但是該芯片的浮點精度似乎相比其前身的密集 FP16 的 1.3 petaFLOPS 或者 FP8 的 2.6 petaFLOPS 並沒有太大提升。

不過,AMD 堅稱,在實際測試中,該部件在 Llama 3.1 70B 和 405B 的推理性能上,分別比英偉達的 H200 領先 20 - 40%。

在訓練 Llama 2 70B 時,性能則更爲接近。AMD 聲稱單個 MI325X 大約有 10%的優勢,在系統層面性能相當。

AMD 的 Instinct MI325X 加速器目前正按計劃在第四季度進行生產發貨,戴爾技術、Eviden、技嘉科技、惠普企業、聯想、超微等公司的系統將於 2025 年第一季度上市。

雖然 MI325X 可能不會配備 288GB 的 HBM3e,但 AMD 的下一款 Instinct 芯片 MI355X 將於明年下半年推出,它將會配備。

基於 AMD 即將推出的 CDNA 4 架構,它還承諾更高的浮點性能,在使用該架構所支持的新 FP4 或 FP6 數據類型時,最高可達 9.2 個密集 petaFLOPS。

如果 AMD 能夠成功做到,這將讓它與英偉達的 B200 加速器直接展開競爭,後者能夠實現約 9 個 petaFLOPS 的密集 FP4 性能。

對於那些仍在使用 FP/BF16 和 FP8 數據類型來運行更傳統的 AI 工作負載(有趣的是,竟然已經有這樣的情況了)的用戶,AMD 表示,其性能分別提高了約 80%,達到 2.3 個 petaFLOPS 和 4.6 個 petaFLOPS。

據 AMD 稱,在一個八 GPU 節點中,這將達到 2.3 太字節的 HBM 和 74 PFLOPS 的 FP4 性能——足以在該精度下將 42 億參數模型裝入一個盒子中。

除了新的加速器,AMD 還預告了其對英偉達的 InfiniBand 和 Spectrum-X 計算結構以及 BlueField 數據處理器的迴應,預計將於明年初推出。

由 AMD Pensando 網絡團隊開發,Pensando Pollara 400 有望成爲首款支持超以太網聯盟規範的網絡接口控制器(NIC)。

在 AI 集羣中,這些 NIC 將支持用於在多個節點之間分配工作負載的橫向擴展計算網絡。在這些環境中,數據包丟失可能導致更高的尾部延遲,從而導致模型訓練時間變慢。據 AMD 稱,平均來說,30%的訓練時間都花在等待網絡跟上上。

Pollara 400 將配備一個 400 GbE 接口,同時支持我們從英偉達、博通和其他公司看到的那種數據包噴射和擁塞控制技術,以實現類似於 InfiniBand 的丟失情況和延遲效果。

彭桑多團隊急切想要強調的一個區別在於其可編程的 P4 引擎與固定功能的 ASIC 或 FPGA 的運用。

由於超以太網規範尚處於初始階段,預計其會隨着時間逐步發展。

和英偉達的 Spectrum-X 以太網網絡平臺這類產品相較而言,波拉拉可能存在的另一個優勢在於彭桑多的 NIC,其無需兼容的交換機就能達成超低損耗網絡。

除了後端網絡,AMD 還推出了一款叫做薩利納的 DPU,它具備雙 400 GbE 接口,旨在通過將各種軟件定義的網絡、安全、存儲和管理功能從 CPU 卸載,來爲前端網絡提供服務。

這兩個部件已向客戶提供了樣品,預計在 2025 年上半年全面上市。®