DeepSeek-R1論文細節時間線梳理
點擊下方“JavaEdge”,選擇“設爲星標”
第一時間關注技術乾貨!
0 前言
2025年1月10日,DeepSeek發佈名爲R1的大語言模型,該初創公司聲稱其在推理任務上可與OpenAI的ChatGPT o1媲美。該應用在創紀錄的時間內登頂App Store排行榜,不僅吸引科技行業關注,也引發了全球範圍內的廣泛討論。其中一個尤引人注目的聲明是:該模型訓練成本低於600萬美元(而OpenAI在GPT-4花費高達1億美元)。這一消息在股市和新聞媒體中引發軒然大波。
但對我們研發,更有趣的是嘗試理解DeepSeek究竟做了什麼,以及他們是如何做到的。我們從關鍵事實和初步印象開始,然後探討從他們的論文中瞭解到的模型架構、訓練數據、評估方法以及所使用的技術。最後,我們將看看復現他們結果的嘗試以及未來的發展方向。
1 DeepSeek-R1相關事實1.1 誰構建了它?
DeepSeek是一家成立於2023年5月的中國AI初創公司,總部位於杭州和北京。它由位於杭州的中國對衝基金High-Flyer支持。High-Flyer和DeepSeek均由樑文峰創立。
2025年1月10日,DeepSeek發佈了他們的移動應用;2025年1月20日,公司在Huggingface上發佈了R1的權重,並在GitHub上發佈了R1的推理代碼。
1.2 DeepSeek到底構建了什麼?
DeepSeek構建了兩種類型的模型以及使用它們的應用程序。這兩種模型的最新版本分別是V3和R1:
V3,顧名思義,是通用語言模型的第三個版本
R1是基於V3-Base的推理模型
他們還提供了模型的蒸餾版本,以便可以在筆記本電腦上運行。V3有兩個版本:
一個基於Llama(Meta的開源權重模型)
另一個基於Qwen(阿里巴巴的開源權重模型)
雖然他們發佈了R1模型的權重和運行模型推理的代碼,但他們未發佈任何訓練代碼或所有硬件優化相關代碼。
2 使用DeepSeek的印象
我們身邊打工人通過公司數據中心部署的DeepSeek,而其他人則使用ollama在PC運行R1的蒸餾模型。然後,我們花了一些時間像使用其他模型一樣使用它——從編碼到推理問題的任務。
根據近期使用體驗,以下是一些初步印象和想法:
多語言表現在英語和中文表現出色,但法語表現不夠流暢,偶爾會出現意外的中文或阿拉伯字符,並且在複雜推理時偶爾會切換回英語
推理風格有時過冗長——有時會繞圈子
我們希望瞭解更多關於DeepSeek如何考慮安全和隱私方面的信息——特別是從用戶角度
模型實例有各種大小,可安裝在各種消費級硬件,包括節能模型
託管版本似乎具有與本土政府世界觀一致的護欄。模型本身可能反映了與該世界觀一致的視角。
無法瞭解用於訓練它的數據(儘管值得注意的是,Llama、OpenAI、Claude也是如此)。這使得一些政府和企業感到不安
可在DeepSeek官網或其同名APP試用該模型
用ollama run deepseek-r1:32b在本地運行蒸餾版本的模型
3.3 雲服務商
也迅速跟進。可在GCP Vertex AI、AWS Bedrock和Azure AI Foundry上部署DeepSeek模型。還可將其部署爲一個NVIDIA NIM。
DeepSeek模型足夠有趣,值得考慮將其添加到你的AI平臺工具箱,與其他開源權重模型一起使用,因爲應用程序構建者會希望爲不同目的實驗或使用不同的模型。
4 DeepSeek報告的性能結果可信嗎?
DeepSeek的結果尚未被複現。正密切關注Huggingface在openR1上覆現它的嘗試。我們還想了解模型在訓練期間是否接觸過基準數據,以及論文中使用的評估方法是否合適。話雖如此,我們無任何具體理由認爲這些結果不真實。
引發熱議的一點是2.788M GPU小時(估計556萬美元)的訓練成本(參見這篇論文中的第一個表格)。V3論文清楚說明了支持這一價格點的假設,但也提出警告,稱這僅代表最後一次訓練運行的成本。鑑於行業對這一系列模型的迅速報道,懷疑這個數字在許多報道中被斷章取義。
5 DeepSeek的技術組件
R1是在V3-Base上使用監督微調(SFT)和強化學習(RL)進行訓練的。它們是經高度優化的Transformer模型,基於環境限制(特別是美國政府對NVIDIA H100芯片的出口管制)針對特定的硬件/軟件框架進行了優化。DeepSeek還以一些有趣方式結合新舊技術。
5.1 V3-Base
V3-Base使用強大的混合專家(Mixture-of-Experts)方法。與Mixtral類似,但更高效:
V3-Base訓練6710億個參數
而Llama有個4050億的版本
V3-Base和Llama 3.1 405B都用FP8量化。V3-Base在14.8萬億個token上進行了訓練,而Llama在15萬億個token上進行了訓練。它們都支持128K上下文窗口。
關鍵區別
V3論文提到他們只使用278.8萬GPU小時:據瞭解,用於訓練V3的278.8萬GPU小時僅用於最後一次完整的訓練運行
而Llama 3.1 405B FP8的Hugging Face頁面顯示他們使用3930萬累計GPU小時:報告的數字是累計數字
最終,如何解析這些詞語的細節將會揭曉,但目前仍不清楚是否可以進行一對一比較。例如,V3是在一些由當時未發佈的R1生成的數據上進行訓練的;這時,V3的訓練成本是否應包括R1的訓練成本呢?
R1是在V3-Base上使用SFT和強化學習(RL)構建的,以增強模型的推理能力。R1使用長鏈思維模式進行推理。R1隨後被蒸餾成更小的密集模型。與V3-Base一樣,他們發佈了基於Llama、Qwen的版本。
他們還發布R1-Zero,不使用SFT,並有一些限制,如可讀性和語言混合。這些限制意味R1-Zero可能對研究人員比用戶更有趣。爲克服這些限制,他們在RL前應用了多階段訓練和冷啓動數據。
V3是通過使用R1的推理、驗證和反思模式生成的數據進一步改進V3-Base而構建的,從而創建了一個更全面的模型V3。
所有這些模型都是使用NVIDIA H800 GPU訓練。這些是爲中國市場製造的H100 GPU版本,並如前所述,爲遵守美國的出口管制,它們在某種程度受限。H800芯片的芯片間互連速度是H100一半(NVLink上約爲400GB/s vs 900GB/s)。
5.2 訓練成本
訓練R1的成本據報道爲558萬美元。我們知道他們是錯的,但不清楚他們錯得有多離譜。這計算來自V3技術報告,是訓練DeepSeek V3的成本。CNN正確地指出這個成本是基礎模型的成本——但他們沒幫助人們理解兩者之間區別。
R1是在V3-Base之上訓練,因此訓練R1的累計成本肯定高於訓練基礎模型的成本。V3技術報告表一中的數字似乎是一次完整訓練運行的成本,可能是最後一次完整的訓練運行。如想複製訓練過程,可能需要進行不止一次完整的訓練運行。
還有相互矛盾報道稱,DeepSeek可以使用50,000個A100,這與OpenAI用於訓練GPT-4的25,000個A100更接近。
若你今天在美國租用50,000個A100 GPU,可能需支付約1.35美元/GPU小時(如能找到這麼多可用GPU)。大約是每週1134萬美元。在DeepSeek的案例中,他們似乎使用其對衝基金支持者High-Flyer早先獲得的GPU,這些GPU原本用於高頻交易。
6 深入探討DeepSeek的獨特之處
DeepSeek以多種複雜方式修改了模型架構、訓練技術和數據,以充分利用他們可用的有限硬件。現在讓我們從底層開始逐一探討這些內容。
6.1 針對可用硬件的優化
與H100相比,DeepSeek必須使用的H800有兩個關鍵限制:
它們的GPU到GPU互連帶寬是H100的一半
內存要小得多:80GB V.S 188GB
有趣的是,DeepSeek似乎將這些限制轉爲優勢。“DeepSeek-V3的經濟訓練成本……是通過我們對算法、框架和硬件的優化協同設計實現,”DeepSeek團隊寫道。即他們做出的決策使他們能夠充分利用他們的可用資源。
如他們用FP8顯著減少所需內存量。V3論文指出,“低精度訓練已成爲高效訓練的一個有前途解決方案”。但這項工作前,FP8被認爲是高效但效果較差;DeepSeek展示了咋有效用它。“這項工作,我們引入一個FP8混合精度訓練框架,並首次在超大規模模型上驗證其有效性。通過支持FP8計算和存儲,實現加速訓練和減少GPU內存使用。”
他們進一步在非常底層的層次對受限硬件進行優化。V3論文還指出,“我們還開發了高效的跨節點全對全通信內核,以充分利用InfiniBand(IB)和NVLink帶寬。精心優化了內存佔用,使得在不使用昂貴的張量並行的情況下訓練DeepSeek-V3成爲可能。結合這些,實現了高訓練效率。”這是一些非常深入的工作,以充分利用他們受限的硬件。
論文還討論了“至於訓練框架,我們設計了DualPipe算法以實現高效的管道並行,它具有更少的管道氣泡,並通過計算-通信重疊隱藏大部分訓練期間的通信。這種重疊確保了隨着模型的進一步擴展,只要我們保持恆定的計算-通信比,我們仍然可以在節點之間使用細粒度的專家,同時實現接近零的全對全通信開銷。”相對於“正常”的分佈式訓練擴展方式(通常只是“向堆中添加更多硬件”),恆定的計算-通信比和接近零的全對全通信開銷引人注目。
這是一個明顯的例子,說明需求是發明之母。
6.2 強化學習在訓練後對基準性能的影響
DeepSeek在V2和V3中使用了GRPO(組相對策略優化)進行強化學習。但顯然,強化學習對推理模型R1的影響很大——它對基準性能的影響是顯著的。
通過使用GRPO將獎勵應用於模型,DeepSeek避免了用大型“批評”模型;這再次節省內存。但GRPO採用基於規則的方法,雖然它在有客觀答案的問題(如編碼和數學)效果更好,但在答案主觀或多變的領域可能遇難。隨更多人在不同環境中使用它,跟蹤這些權衡將是有趣的。
6.3 多頭潛在注意力(MLA)
多頭潛在注意力是DeepSeek在V2論文中引入的一種多頭注意力的變體。根據這篇文章,雖然以前的多頭注意力技術被認爲是一種權衡,即在LLM訓練中爲獲得更好擴展性而降低模型質量,但DeepSeek表示,MLA不僅允許擴展,還提高了模型質量。期待深入研究這一點。
6.4 蒸餾 vs 強化學習
R1論文有關於蒸餾與強化學習的有趣討論。DeepSeek團隊寫道,他們的工作使得以下結論成爲可能:
“首先,將更強大的模型蒸餾到較小的模型中會產生出色的結果,而依賴於本文中提到的大規模RL的較小模型需要巨大的計算能力,甚至可能無法達到蒸餾的性能
其次,雖然蒸餾策略既經濟又有效,但超越智能邊界可能仍需更強大的基礎模型和更大規模強化學習。”
第一個結論有趣且直觀。第二個結論令人放心——至少,他們並沒有完全顛覆我們對深度學習在顯著計算需求方面的理解。
6.4 可從失敗中學到啥?
DeepSeek嘗試了什麼但沒有成功?
首先,使用過程獎勵模型(PRM)來指導強化學習在大規模上是不可行的。但它仍可用於重新排名前N個響應
其次,蒙特卡羅樹搜索(MCTS),即AlphaGo和AlphaZero使用的方法,無法擴展到一般推理任務,因爲問題空間不像國際象棋甚至圍棋那樣“受限”。還記得不到十年前,圍棋空間被認爲過於複雜以至於無法計算?現在,它被認爲是“受限的”。
一個非常令人印象深刻的編碼基準
訓練後+擴展推理,看起來是製作非常有效模型的可行策略
每次發佈新的更好模型,我們都懷疑它在訓練時是否接觸過基準數據。“它是爲考試而學習,還是真正掌握了學科?”
因爲基準數據集的惡性循環;這是一個無休止的誤導性炒作螺旋。你創建了一個好的基準數據集,下一個模型爲獲勝而對其進行優化,獲得炒作,然後你需創建另一“公平”的基準……它增加了價值,直到下一個模型對其進行優化,依此類推。人類的最後考試只有在下一個模型發佈之前纔是它所說的那樣。
即當LLM在當前基準自信生成正確答案時,若其應用場景也是複雜度相似的現實數據,那將很棒。另一方面,當LLM在較新基準(或其應用領域)失敗時,通常是因它對錯誤答案過於自信。這是因爲新的基準數據具有它在訓練時不知道的複雜性。
該循環需要停止,我們需要更好、更通用的評估機制和信息豐富的指標,而不是每隔幾周就依賴新基準。(其他地方提到過這一點。)
7.2 復現DeepSeek R1的結果
我們都密切關注Huggingface的openR1,因爲開源社區正在嘗試復現這些結果。因爲復現結果
需要條件
GPU:2048個,不是很大數字,就像每次訓練運行550萬美元並不是超大數目。但你的公司應該不行
訓練代碼。DeepSeek沒有開源他們的代碼
訓練數據——可能是最大缺口
DeepSeek可能不會發布他們的整個訓練數據集,就像OpenAI或Anthropic也不會發布他們的數據集。據我們所知,DeepSeek還沒發佈用於長鏈思維訓練的數據樣本。因此,勇敢的開源社區已開始創建數據集。OpenThoughts就是一例。
參考:
https://arxiv.org/abs/2501.12948
魔都架構師 | 全網30W+技術追隨者
大廠分佈式系統/數據中臺實戰專家
主導交易系統億級流量調優 & 車聯網平臺架構
AIGC應用開發先行者 | 區塊鏈落地實踐者
以技術驅動創新,我們的征途是改變世界!
實戰乾貨:編程嚴選網
關注我,緊跟本系列專欄文章,咱們下篇再續!