浪潮信息發佈 “源2.0-M32” 開源大模型:對標700億參數的LLaMA3

5月29日消息,浪潮信息發佈“源2.0-M32”開源大模型。“源2.0-M32”在基於“源2.0”系列大模型已有工作基礎上,提出和採用了“基於注意力機制的門控網絡”技術,構建包含32個專家(Expert)的混合專家模型(MoE),並大幅提升了模型算力效率,模型運行時激活參數爲37億,在業界主流基準評測中性能全面對標700億參數的LLaMA3開源大模型。

在算法層面,源2.0-M32提出並採用了一種新型的算法結構:基於注意力機制的門控網絡(Attention Router),針對MoE模型核心的專家調度策略,這種新的算法結構關注專家模型之間的協同性度量,有效解決傳統門控網絡下,選擇兩個或多個專家參與計算時關聯性缺失的問題,使得專家之間協同處理數據的水平大爲提升。源2.0-M32採用源2.0-2B爲基礎模型設計,沿用並融合局部過濾增強的注意力機制(LFA, Localized Filtering-based Attention),通過先學習相鄰詞之間的關聯性,然後再計算全局關聯性的方法,能夠更好地學習到自然語言的局部和全局的語言特徵,對於自然語言的關聯語義理解更準確,進而提升了模型精度。

在數據層面,源2.0-M32基於超過2萬億的token進行訓練、覆蓋萬億量級的代碼、中英文書籍、百科、論文及合成數據。大幅擴展代碼數據佔比至47.5%,從6類最流行的代碼擴充至619類,並通過對代碼中英文註釋的翻譯,將中文代碼數據量增大至1800億token。結合高效的數據清洗流程,滿足大模型訓練“豐富性、全面性、高質量”的數據集需求。基於這些數據的整合和擴展,源2.0-M32在代碼生成、代碼理解、代碼推理、數學求解等方面有着出色的表現。

在算力層面,源2.0-M32採用了流水並行的方法,綜合運用流水線並行+數據並行的策略,顯著降低了大模型對芯片間P2P帶寬的需求,爲硬件差異較大訓練環境提供了一種高性能的訓練方法。針對MOE模型的稀疏專家計算,採用合併矩陣乘法的方法,模算效率得到大幅提升。

據悉,在多個業界主流的評測任務中,該模型展示出了較爲先進的能力表現,在MATH(數學競賽)、ARC-C(科學推理)榜單上超越了擁有700億參數的LLaMA3大模型。(定西)

本文系本站科技報道,更多新聞資訊和深度解析,關注我們。