亞馬遜自研3nm Trainium芯片,能否成爲英偉達之外的第二選擇?

Trainium是亞馬遜雲科技(AWS)專門爲超過1000億個參數模型的深度學習訓練打造的機器學習芯片。在2024年 re:Invent大會上,AWS宣佈Trainium2正式可用,其性能比第一代產品提升4倍,可以在極短的時間內訓練基礎模型和大語言模型。

AWS週二宣佈,將推出一款由數十萬顆自研Trainium芯片組成的巨型人工智能超級計算機,這是其位於德克薩斯州奧斯汀的人工智能芯片設計實驗室的最新成果。

該芯片集羣將供由人工智能初創公司Anthropic使用,Anthropic是一家人工智能初創公司,近期獲得來自亞馬遜40億美元的投資。AWS負責計算和網絡服務的副總裁戴夫.布朗(Dave Brown)表示,這個名爲 “Project Rainier ”的芯片集羣將落地美國,2025年建成後將成爲世界上最大的人工智能模型訓練集羣之一。

在拉斯維加斯舉行的年度re:Invent會議上,AWS發佈了“Ultraserver”服務器,該服務器由64個自研的互聯芯片組成。此外,AWS還在會議上宣佈蘋果成爲其最新的芯片客戶之一。

re:Invent會議上發佈的產品凸顯了AWS此前對自研芯片Trainium的承諾,其將Trainium視爲替代英偉達GPU的備選選項。

根據研究機構國際數據公司(IDC)的數據顯示,2024年人工智能芯片市場的規模估計爲1175億美元,到2027年底預計將達到1933億美元。IDC去年12月的研究顯示,英偉達在人工智能芯片市場中佔據了約95%的份額。

AWS的CEO馬特.加曼(Matt Garman)稱:“目前,GPU市場只存在一種選擇,就是英偉達,如果市場上有其他的選擇,我們相信客戶會很歡迎。”

而亞馬遜推動AI戰略的關鍵舉措是更新其芯片,這樣可以爲他們的客戶降低成本,同時在產業鏈內掌握更多的主動權。掌握更多的主動權有利於亞馬遜減少對英偉達的依賴,儘管目前兩家公司的關係還非常親密。

覬覦英偉達芯片收入的公司並不在少數,包括人工智能芯片初創企業Groq、Cerebras Systems和SambaNova Systems。亞馬遜的競爭對手微軟和谷歌也下場開發自己的人工智能芯片,並試圖減少對英偉達的依賴。

自從2018年推出基於Arm架構的CPU Graviton以來,亞馬遜一直致力於爲客戶開發自研的芯片產品。亞馬遜高管表示,公司的目標是複製Graviton的成功經驗,向客戶證明,其產品雖然成本更低,但性能並不遜色於市場領先者。

亞馬遜造芯,復刻Graviton的成功經驗

AWS的人工智能芯片實驗室位於德克薩斯州奧斯汀市,其前身是亞馬遜在2015年以約3.5億美元收購的以色列微電子公司Annapurna Labs。

加迪·哈特(Gadi Hutt)在亞馬遜收購Annapurna之前就加入了該公司,擔任產品與客戶工程部的總監。他表示:“芯片實驗室自Annapurna創業之初就已設立,當時Annapurna安家於奧斯汀的考量正是希望所處的位置要靠近芯片巨頭設有辦事處的地方。”

該實驗室工程部主任拉米·辛諾(Rami Sinno)說,在實驗室內部,工程師們可能今天還在裝配線上工作,明天就去焊接了。他們會立即着手處理任何需要完成的工作,這種精明務實的心態在初創企業中更爲常見,而非像亞馬遜這樣的萬億美元公司。

辛諾稱,這是有意爲之的,因爲Annapurna對於人才招聘有自己的理解,並不像行業中的其他公司那樣尋找專長於一個領域的“專家”。他們會尋找既精通版圖設計又精通信號完整性和功率傳輸,並且還能編寫代碼的電路板設計師。

“我們同時設計芯片、核心、整臺服務器和機架。我們不會等到芯片準備好後再設計主板,”辛諾說。“這讓團隊能夠以超快的速度前進。”

AWS在2018年推出了Inferentia,這是一種專門用於推理的機器學習芯片,即將數據輸入AI模型以生成輸出的過程。亞馬遜高級副總裁兼傑出工程師詹姆斯·漢密爾頓(James Hamilton)表示,團隊首先專注於推理,因爲與訓練相比,推理任務對芯片的要求略低。

到2020年,Annapurna已經準備好推出其首款面向客戶用於訓練AI模型的芯片“Trainium”。去年,亞馬遜宣佈推出Trainium2芯片,稱該芯片現已可供客戶使用。AWS還表示,目前正在開發Trainium3芯片以及基於該芯片的服務器,其性能將是基於Trainium2芯片服務器的四倍。

規模決定算力,亞馬遜服務器搭載芯片數量爲英偉達兩倍

隨着AI模型和數據集的規模越來越大,爲其提供動力的芯片和芯片集羣的規模也在不斷擴大。科技巨頭們不僅從英偉達購買更多的芯片,還自行設計芯片。如今,他們正試圖將盡可能多的芯片集中在一個地方。

“越來越大”也是亞馬遜芯片集羣的目標,該集羣由Annapurna和Anthropic合作構建,目的是讓AI初創公司使用該集羣來訓練和運行其未來的AI模型。亞馬遜表示,該集羣的浮點運算能力是Anthropic當前訓練集羣的五倍。馬斯克的xAI最近建造了一臺名爲Colossus的超級計算機,該計算機使用了10萬個英偉達的Hopper芯片。

漢密爾頓說:“你將服務器的規模擴大得越多,就意味着你需要解決的問題越少,整個訓練集羣的效率也就越高。一旦你意識到這一點,更大更強就成了目標。”

亞馬遜的Ultraserver將64個芯片整合到一個封裝中,由四臺服務器組成,每臺服務器包含16個Tranium芯片。布朗說,相比之下,英偉達的部分GPU服務器只包含8個芯片。爲了將這些芯片組合在一起,形成一個可以達到83.2千萬億次浮點運算的服務器,亞馬遜的秘密武器是其網絡技術NeuronLink,這項技術可以使所有四個服務器相互通信。

漢密爾頓稱,這是他們在不使服務器過熱的情況下所能容納的最大數量。從尺寸上看,它更接近於冰箱大小,而不是緊湊的個人計算機。但布朗和其他高管表示,這並不是在向客戶施壓,讓他們從亞馬遜和英偉達之間二選一。他們更希望客戶可以在其雲平臺上繼續使用自己喜歡的產品。

AI編程初創公司Poolside的聯合創始人兼CTO艾索.康德(Eiso Kant)表示,他們公司在使用Amazon的芯片運行其AI模型時,相較於使用英偉達的芯片,可節省約40%的成本。但缺點是,工程師需要花費更多的時間讓亞馬遜的相關芯片軟件正常運行。

康德表示:“亞馬遜直接通過臺積電製造芯片,並將其應用於自己的數據中心,因此對AI初創企業來說,這是看起來更“穩妥的選擇”。他表示,亞馬遜的賭注下在哪裡至關重要,因爲在硬件領域,落後對手6個月就可能意味着業務的終結。”

蘋果機器學習與人工智能高級總監貝諾伊·杜平(Benoit Dupin)在大會上表示,蘋果內部正在測試Trainium2芯片,預計可節省約50%的成本。

面對英偉達,Trainium能走多遠

分析師表示,對於大多數企業來說,選擇英偉達還是亞馬遜並不是一個迫切的問題。因爲大型企業更關心如何從運行AI模型中獲得價值,而不是研究如何訓練它們。

這樣的市場趨勢對亞馬遜來說是件好事,因爲客戶不會注意到雲服務背後是哪家芯片廠商在提供算力。它可以與Databricks這樣的雲數據公司合作,將Trainium應用於雲計算,大多數企業都不會注意到任何差異,因爲計算能夠正常運行,而且成本還會越來越低。

市場研究和IT諮詢公司Gartner的分析師奇拉格.德卡特(Chirag Dekate)表示,亞馬遜、谷歌和微軟正在開發自己的AI芯片,因爲他們知道自行設計芯片可以節省時間和成本,同時提高性能。因爲定製硬件可以提供非常具體的並行化功能,這可能比通用型GPU的性能更好。

研究公司Redburn Atlantic的分析師亞歷克斯·海斯爾(Alex Haissl)表示,AWS在人工智能不太被關注到的領域也有着被低估的實力,包括網絡、加速器和名爲“Bedrock”供企業使用人工智能模型的平臺。

不過,公司領導對於AWS的芯片能夠走多遠持懷疑態度,至少目前是這樣。AWS CEO加曼說:“實際上,我估計在很長一段時間內,市場還是會被英偉達佔據,因爲目前99%的工作負載都是由它們來處理的,這種情況可能不會改變。但是,我希望Trainium能夠開闢出一個不錯的利基市場,它將會是很多工作負載的絕佳選擇。

本文由雷峰網編譯自:Exclusive | Amazon Announces Supercomputer, New Server Powered by Homegrown AI Chips - WSJ