☰

新版Llama 3 70B反超405B！Meta開卷後訓練，谷歌馬斯克都來搶鏡

OpenAI“雙12”剛進行到第二天，就把大模型圈攪得好不熱鬧！

一邊是Meta沒預告就發佈了Llama 3.3，70B版本就能實現以前405B的性能。

另一邊谷歌的Gemini也上線了新的實驗版模型，再一次登上大模型競技場榜首。

有網友感嘆，o1、Llama 3.3和新版Gemini接連發布，馬斯克的Grok3也要來，還有GPT-4.5初露端倪……這簡直是最棒的一個聖誕季。

Llama 3.3目前只有70B一個型號。

但在指令遵循（IFEval）、數學（MATH）、推理（GPQA Diamond）等領域，水平都超過了七月份發佈的Llama 3.1 405B。

在語言（MMLU）、代碼（HumanEval）、長文本和多語種能力上，成績也和Llama 3.1 405B比較接近。

而在工具使用（BFCL）上，和405B的差距則顯得稍大一些。

不過，Llama 3.3的使用成本要比Llama 3.1 405B低得多。

雖然Llama本身是免費的，但是各個大模型平臺的服務價格也可以作爲衡量成本的一個參考。

在Meta合作的平臺當中，Llama 3.3最便宜的價格是0.1/0.4美元每百萬輸入/輸出Token。

而Llama 3.1 405B，則是1美元每百萬輸入token，是Llama 3.3的10倍，輸出token爲1.8美元，是Llama 3.3的4.5倍。

Meta生成式AI團隊領導者Ahmad Al-Dahle表示，Llama 3.3能用70B實現405B的效果，主要是“運用了後訓練技術的最新進展”，並點名其中包括在線偏好優化（online preference optimization）。

Meta AI官方賬號也提到，Llama 3.3的進步歸功於新的對齊過程和在線強化學習技術的進步。

目前，Llama 3.3的模型權重已在官網和Hugging Face上開放下載。

Gemini 1206上線的這天，剛好是Gemini的一週歲生日。

不過，從節奏和以日期命名的方式來看，Gemini更像是一次例行更新（上一個版本是1121）。

當然成績還是很不錯的，直接登上了lmsys大模型競技場的榜首。

而且不只是總成績奪冠，困難提示詞、代碼、數學、創意寫作等各個單項排名也都是第一。

實際上，Gemini此前有個1114版本，也當了一週的“榜一大哥”，後來被更新的GPT-4o給比了下去。

現在的最新版本，又讓Gemini重新回到了榜單上的王座。

此外，谷歌AI Studio產品負責人（原OpenAI開發者社區主管）Logan介紹，Gemini 1206擁有2百萬token的上下文窗口，目前可通過谷歌AI Studio和Gemini API免費使用。

谷歌首席科學家Jeff Dean表示，取得這樣的成績是對Gemini生日最好的慶祝方式。

不過也有網友給谷歌潑了盆冷水，表示o1還沒出現在這個榜單上，而且GPT-4.5就要來了，谷歌第一的位置恐怕很快又會被OpenAI奪走。

除了谷歌和Meta，馬斯克xAI也被盛傳即將發佈Grok 3。

有網友發現，正在測試的Grok 2 mini消失了，認爲這是要發Grok 3的徵兆。

除了對Grok 3的猜測，還有一條更確定的消息——此前要充會員才能用的Grok，現在可以免費用了。

不過免費用戶用量比較有限，每兩小時只能處理10條消息，而圖片分析一天只能處理三張。

有意思的是，我們試了試詢問Grok自己，它也表示Grok 3計劃在這個月上線。

但抓馬的是，點進後面引用的消息源，發現這名博主也是問Grok之後發的帖子……

那麼，在這個發佈密集的十二月，你最鐘意或者最期待哪一款產品呢？

參考鏈接：[1]https://x.com/AIatMeta/status/1865079067390956006[2]https://x.com/Ahmad_Al_Dahle/status/1865071436630778109[3]https://x.com/lmarena_ai/status/1865080944455225547

新版Llama 3 70B反超405B！Meta開卷後訓練，谷歌馬斯克都來搶鏡

相關資訊