大模型存儲新王牌,焱融科技如何引爆AI競爭力
智東西作者 程茜編輯 漠影
爲大模型而生的存儲長什麼樣?
大模型爆發的三大堵點可歸結爲計算、存儲、網絡,其中存儲在AI產業中的重要性不言而喻,它需要爲海量多模態數據提供存儲與高效管理,保障數據安全可靠,同時支持快速數據讀取、並行計算、實時數據獲取和緩存優化提升訓練與推理效率。
在大模型產業飛速發展的同時,對存儲的要求也水漲船高,存儲系統在大模型時代正被改寫。此前海外供應商佔主導的全球存儲市場也在被重塑,國內AI存儲廠商在其中的地位愈發重要。
這也可以從一些權威組織的測評指標中看出來。去年,全球權威AI基準測評MLCommons組織首次推出了MLPerf存儲基準測試(MLPerf Storage Benchmark),這也是目前首個唯一開源、公開透明的AI/ML基準測試。
上個月,該機構公佈的MLPerf v1.0存儲性能基準測試中,國內一家存儲廠商嶄露頭角,其全閃存儲產品在帶寬、模擬GPU數量以及GPU利用率等關鍵性能指標上獲得多項世界第一。
這就是成立於2016年的焱融科技,其最新推出的企業級全閃分佈式存儲一體機追光F9000X,實現了3節點存儲集羣的性能達到750萬IOPS和270GBps帶寬,可滿足大規模訓練、推理及高算力場景的需求。
焱融科技CTO張文濤談道,大模型發展對存儲系統在性能、穩定性和成本方面都提出了更高要求,這也正是其進行產品研發和優化的關鍵所在。
▲焱融科技CTO張文濤
大模型產業突飛猛進背後,作爲國內AI存儲廠商,焱融科技的突破點是什麼?又是如何在存儲產業中找到自己的站位?智東西與焱融科技CTO張文濤進行了深入交流,試圖找到這些問題的答案。
一、拿下多項關鍵性能第一,劍指大模型訓練優化
用數據說話,是檢驗產品性能的標準之一。
就在9月底,全球權威AI基準測評廠商MLCommons公佈的MLPerf v1.0存儲性能基準測試結果中,焱融科技榜上有名。測試結果顯示,其產品全閃F9000X在帶寬、模擬GPU數量以及GPU利用率等關鍵性能指標上,拿下了多項世界第一。
▲MLPerf Storage測試結果公開數據
在MLPerf Storage的測試中,包括3D-Unet、CosmoFlow和ResNet 50,焱融科技也是國內唯一一家參與了全部模型測試的存儲廠商。
爲了測試存儲系統在支持機器學習工作負載方面的性能,測試規則中定義了存儲系統可以採用單個計算節點運行多個ACC(Accelerators,加速器)進行相應模型應用測試,同時支持大規模分佈式訓練集羣場景,多個客戶端模擬真實數據並行的方式併發訪問存儲集羣。
張文濤解釋道,在大模型場景中,模型算力利用率(MFU)備受關注,在MLPerf對應的指標就是算力有效利用率(AU),MLPerf Storage要求AU達到90%,要求存儲能使GPU利用率保持高位運行。在此之上,爲了進一步體現存儲支持模型訓練的能力,存儲系統需要儘可能提升其中單個計算節點中ACC的數量。
效率與成本,是大模型中的存儲系統至關重要的兩個點。這兩點在MLPerf Storage的測試結果中都得到了驗證。
測試結果顯示,在分佈式訓練集羣場景,焱融存儲在所有三個模型的測試中,能夠支撐的每個計算節點平均ACC數量和存儲帶寬性能均排名第一。
張文濤說,歸根結底就是有效的算力利用率,只有存儲足夠快,在模型訓練中,在存儲中使用的時間越少,有效算力就越高。其次就是成本,單個存儲節點提供的有效帶寬越高,所需要的存儲的集羣規模越小,就意味着成本越低。
這項測試對於存儲玩家的重要性不言而喻,既是存儲系統的競賽場,還是其客戶選擇合適產品的權威指南。
二、全閃F9000X,開啓存儲系統的大模型時代
存儲系統對大模型具有極其重要的作用,關乎數據存儲與管理、數據預處理、訓練效率、推理性能、模型擴展等諸多方面。
但單從這些性能指標來看,我們可能無法直觀感受到其關鍵性。那麼,到底什麼樣的存儲系統才能爲大模型所用?
基於全球權威AI基準測評廠商MLCommons公佈的MLPerf v1.0存儲性能基準測試,其中提到了帶寬、模擬GPU數量以及GPU利用率等指標。這些指標與大模型的訓練、推理息息相關。
這一波大模型熱潮的基本特徵之一就是,既需要處理海量數據保證訓練效率,同時在實際應用中,大模型需要快速對輸入數據進行推理給出結果,這之中的關鍵就是——高帶寬,高帶寬存儲可以實現快速數據傳輸、實時響應,同時面對大模型參數規模越來越大、多模態數據增加等情形,高帶寬也可以支持其模型運行。
然而,部分存儲系統受限於硬件性能、系統架構、併發訪問壓力過大,一定程度上會影響數據處理效率、佔用存儲空間。
同時,在給定的訓練模型和GPU型號下,存儲系統能夠支持的GPU數量也是衡量其性能的關鍵指標之一。
通過模擬GPU數量,能在部署中評估不同存儲配置下的大模型訓練性能和成本效益,幫助企業選擇最適合的存儲和GPU組合。
反之,如果存儲系統模擬GPU數量不夠,不僅會使得模型的訓練時間大幅延長,還會導致模型收斂困難,同等規模的GPU集羣下,需要引入更多的存儲節點才能滿足計算的需要,存儲的成本會隨之提高,同時也在一定程度上限制模型向更大規模和更高複雜度發展。
GPU利用率高則可以加速矩陣運算、張量運算等大量複雜計算任務,減少訓練週期的同時,讓硬件資源被充分利用起來,降低能源消耗。而低GPU利用率可能導致GPU長時間處於低負載運行狀態,GPU 算力和能源浪費較大。
洞察到這些發展趨勢的焱融科技,去年年底立項,今年9月拿出了面向大模型時代的里程碑產品——焱融全閃F9000X。
該產品搭載了其自研的高性能分佈式並行文件存儲YRCloudFile,經實測,3節點存儲集羣的性能可達到了750萬IOPS和270GBps帶寬,滿足大規模訓練及高算力場景的需求。
在帶寬、模擬GPU數量、GPU利用率這三大關鍵指標中拿下第一的焱融全閃F9000X,無疑成爲大模型訓練、推理過程中選擇存儲系統的最優解之一。
這背後的關鍵正是焱融科技所做的針對性優化。
爲了保證存儲系統的性能匹配大模型訓練、推理業務場景的需求,張文濤稱,面向高性能存儲場景,性能就是他們最優先考慮的。研發人員進行了NUMA的親和性、端到端的zero-copy(零拷貝)等優化。
但對於企業而言,一方面,存儲系統的性能固然重要,另一方面讓存儲系統變得好用、易用也同等關鍵。
因此,焱融科技還打造了相對應的解決方案。大模型時代,企業需要基於多個智算中心進行大模型訓練、推理,那就意味着企業的數據需要在多雲間進行流轉。張文濤解釋說,數據具有粘性,採用對應的解決方案能幫助加速數據的多雲流轉,減少企業使用和運維的複雜度。
大模型在問世之後,基礎設施投入巨大,因此企業對成本更爲敏感,存儲系統就需要兼顧性能和降本。焱融科技通過全閃和大容量存儲相結合的形式,拿出了高性能、低成本的解決方案。
綜合來看,整個大模型產業的急速發展,對存儲系統提出了更高的要求,性能、穩定性和成本成爲存儲廠商必須越過的門檻。
深諳技術創新與企業需求的焱融科技,在拿出更強計算能力、更高性能數據存儲的方案後,爲大模型時代的企業探索出了一條行之有效的路徑。
三、專注文件存儲,9年積累迎大模型挑戰
縱觀整個存儲市場,當下像焱融科技這樣專門針對大模型做優化的存儲廠商並不多,而焱融科技能在大模型時代,從巨頭環伺的存儲賽道脫穎而出,其關鍵就在於——是國內少數幾家專注於文件存儲的AI存儲企業之一。
2016年前後,私有云崛起,開源雲計算管理平臺OpenStack爆火,開源容器編排引擎Kubernetes剛面世。這一背景下,焱融科技成立,並將業務主線定位爲文件存儲,目前是SDS賽道唯一一家專注於文件存儲的企業。
當時,這一賽道的玩家屈指可數,大部分存儲廠商將目光投向了塊存儲、對象存儲等技術路線。塊存儲主要面向雲計算、虛擬化場景;對象存儲則常用於雲存儲服務。然而,面對大模型訓練和推理過程中對海量文件要求極致性能、高併發訪問、頻繁的元數據操作等 AI 工作負載時,這兩類存儲的表現相對有限,文件存儲則具備了獨特的優勢。焱融科技對於市場趨勢的獨到判斷,使其堅定不移的成爲少數派,也奠定了其在大模型時代突出重圍的基礎。
焱融科技認爲容器化存儲會延續着OpenStack的發展趨勢:與OpenStack引發分佈式塊存儲市場火爆類似,Kubernetes將引爆文件存儲市場。
AI對於數據量、存儲需求增長的發展趨勢下,文件存儲的優勢逐漸凸顯,其與自動駕駛、大模型領域的企業需求一脈相承。在這之後,焱融科技也將業務聚焦到了AI存儲,一步步將文件存儲與大模型等高性能計算場景的需求相結合。
此後,堅定瞄準AI行業。自2018年起,焱融科技開始大量上線大規模集羣,成功服務了包括智譜AI、智源研究院、中國移動、海爾、美的在內的衆多行業領軍企業,助力其 AI 業務發展。2021年,入局自動駕駛行業,專門成立了智能駕駛部門,與多家知名的自動駕駛技術公司達成合作,服務圖森未來、元戎啓行、理想等客戶。在對技術路線的深刻洞察和堅持不懈的追求背後,焱融科技的成功秘訣之一是卓越的執行力。
早在2022年6月,焱融科技專爲AI和高性能計算(HPC)場景設計的焱融追光F8000X系列全閃存儲,迅速獲得AI公司的高度評價。同年,隨着ChatGPT的震撼問世,焱融科技在短短四個月內推出了大模型場景的存儲解決方案,展現了其在AI存儲領域的領先性和前沿性。2024年,公司進一步推出了新一代全閃F9000X系列,不僅在性能上實現了重大突破,更在成本效益上實現了優化,鞏固了其在AI存儲領域的領導地位。
這款產品不僅是該公司的里程碑之作,並在行業內樹立起大模型存儲的新標杆。2023年至2024年,焱融科技的全閃產品成爲公司營收增長的核心引擎,有力推動了整體業績的提升和持續發展。
相比於老牌傳統廠商,作爲一家創企,焱融科技的一大優勢在於擁有強大的自主研發能力,這不僅確保了產品的安全性和可控性,而且賦予了我們產品極高的靈活性。深入理解客戶的業務需求,快速響應並針對性地解決痛點。與大型存儲企業相比,焱融科技的優勢在於能夠更緊密地與 AI 企業合作,能夠迅速把握問題核心,並迅速提出前瞻性的解決方案,這正是焱融科技在競爭激烈的市場中獨樹一幟的原因。
可以看出,焱融科技的佈局踩中了AI產業發展的每個節點,快速捕捉應用對存儲的核心訴求,保持專注,並一步步通過與客戶互相打磨產品奠定了自己的技術基座。
而當我們回顧這家公司的成長會發現,當多數同行紛紛涌入那些看似前景光明、人滿爲患的傳統存儲賽道,焱融科技致力於鑽研一種在當時並沒有完全展現出市場發展前景的存儲技術與模式,一步步積累了技術與客戶,與AI對數據存儲的高要求完美契合,成長爲存儲行業在AI時代的璀璨之星。
結語:焱融科技率先佈局,乘上大模型風口
大模型落地應用加速,AI的發展又依賴文本、圖像、音頻、視頻等大量多模態數據的處理,高性能存儲系統的性能直接關係到數據處理的效率。環環相扣的技術鏈條,使得這一產業的競爭逐漸激烈。
擁有堅實的技術底座格外重要。焱融科技不僅是國內唯一能在公有云平臺上提供高性能存儲服務的第三方存儲廠商,還與智譜AI等大模型行業的核心玩家達成合作,這也意味着其產品核心競爭力已經得到了市場認可。
在未來,以焱融科技爲代表的國內AI存儲玩家,在將近10年的技術佈局下,已經乘上大模型風口,在AI存儲市場獲得更大的發展空間。